Buscar

Principais Distribuições de Probabilidade e Noções Básicas de SAS

Prévia do material em texto

UNIVERSIDADE ESTADUAL PAULISTA 
"JÚLIO DE MESQUITA FILHO" 
 
Campus de Presidente Prudente 
 
 
 
 
 
 
 
 
 
Principais Distribuições 
 de Probabilidade e Noções Básicas 
de SAS 
 
 
 
 
 
 
 
 Relatório das atividades desenvolvidas no período 
de 26/04/2008 a 27/02/2009 da Bolsa de Apoio 
Acadêmico e Extensão I (PAE) 
. 
 
 
 
 
 
 
 Bolsista: Fabiano José dos Santos 
 Orientadora: Vilma Mayumi Tachibana 
 
 
 
 
 
 
 
Presidente Prudente 
2009 
 2
 
Índice 
 
 
1 - Introdução....................................................................................................... 4 
2 - O que faz um Estatístico................................................................................ 5 
 
3 - Variáveis Aleatórias Discretas...................................................................... 
 
 
6 
 
3.1- Introdução...................................................................................................... 
 
6 
3.2 - Funções discretas de probabilidade.............................................................. 6 
3.3 - Esperança Matemática (Média)..................................................................... 6 
3.4 -Variância......................................................................................................... 7 
3.5 - Desvio Padrão............................................................................................... 7 
 
4 - Principais Modelos Discretos........................................................................ 
 
 
9 
4.1 - Modelo Uniforme Discreto........................................................................... 9 
4.2 - Distribuição de Bernoulli.............................................................................. 9 
4.3 - Modelo Binomial.......................................................................................... 10 
 
5 - Outros Modelos Discretos.............................................................................. 
 
 
12 
5.1 - Modelos Geométricos................................................................................... 12 
5.2 - Modelo de Poisson........................................................................................ 13 
5.3 - Modelo Hipergeométrica.............................................................................. 13 
 
6 - Variáveis Aleatórias Contínuas.................................................................... 
 
 
15 
6.1- Introdução...................................................................................................... 15 
6.2 - Esperança e Variância.................................................................................. 16 
6.3 - Distribuição Continua Uniforme................................................................... 16 
6.4 - Distribuição Exponencial.............................................................................. 17 
6.5 - Distribuição Normal...................................................................................... 18 
6.6 - Função Densidade de Probabilidade da Distribuição Normal...................... 18 
 
7 - Outros Modelos Contínuos........................................................................... 
 
 
22 
7.1 - Distribuição gama......................................................................................... 22 
7.2- Distribuição Qui-Quadrado………………………………………………… 23 
7.3 - Distribuição t-Student…………………………………………………….. 25 
 
8 - Variáveis Aleatórias Multidimensionais...................................................... 
 
 
27 
8.1- Distribuições Marginais................................................................................. 27 
 
 
 
 
 
 
 
 
 3
 
9 - Medidas de Posição e Dispersão................................................................... 
 
28 
9.1 - Média............................................................................................................ 28 
9.2 - Mediana……………………………………………………………………. 28 
9.3 - Moda………………………………………………………………………. 28 
9.4 - Variância....................................................................................................... 28 
9.5 - Desvio Padrão ………………………………………………...................... 29 
9.6 - Covariância………………………………………………………………... 29 
9.7 - Coeficiente de Correlação…………………………………………………. 29 
9.8 - Coeficiente de Variação …………………………………………............... 29 
9.9 - Amplitude ………………………………………………………………… 29 
 
10 - SAS Programação………………………………………………………… 
 
 
31 
10.1 - Introdução……………………………………………………………....... 31 
10.2 - Conceitos Basicos…………………………………………………........... 31 
10.3 - Estrutura do arquivo SAS........................................................................... 32 
10.4 - Nomenclatura para arquivos de variáveis................................................... 32 
10.5 - Estrutura PROC STEP................................................................................ 33 
10.6 - Procedimento PRINT.................................................................................. 34 
10.7 - Síntese dos Comandos................................................................................ 34 
10.8 - Comando LIBNAME.................................................................................. 35 
 
11 - Alguns comandos básicos de programação do SAS.................................. 
 
 
36 
11.1 - Comando IF-THEN/ELSE.......................................................................... 37 
11.2 - Comandos DO/END................................................................................... 39 
11.3 - Comando INPUT........................................................................................ 40 
11.4 - Input Colunado........................................................................................... 40 
11.5 - Input Formatado.......................................................................................... 40 
11.6 - Controles Especiais do Comando INPUT................................................... 41 
11.7 - Detalhes do Comando INPUT................................................................... 45 
 
12 - Referências.................................................................................................... 
 
 
43 
 
 
 
 
 
 
 
 
 
 4
1 - Introdução 
 
 
 O cidadão comum pensa que a estatística se resume apenas a apresentar tabelas de nú-
meros em colunas esportivas e ou econômicas de jornais e revistas, ilustradas com gráficos, 
pilhas de moedas, etc. ou quando muito associam a estatística á previsão de resultados eleito-
rais. Mas estatístico de hoje não se limita a compilar tabela de dados e os ilustrar graficamen-
te. Pois á partir de 1925, com os trabalhos de Fisher, a estatística iniciou-se como método ci-
entífico, então, o trabalho do estatístico passou a de ajudar a planejar experimentos, interpre-
tar e analisar os dados experimentares e apresentar os resultados de maneira a facilitar a to-
mada de decisões razoáveis. Deste modo, podemos então definir a estatística como sendo a 
ciência que se preocupa da coleta, organização, apresentação, análise e interpretação dos da-
dos. Didaticamente podemos dividir a estatística em duas partes a estatística descritiva e a 
inferência estatística. A estatística descritiva se refere à maneira de apresentar um conjunto de 
dados em tabelas e gráficos, e ao modo de resumir informações contidas nesses dados de me-
didas. Jáa inferência estatística baseia-se na teoria de probabilidade para estabelecer conclu-
sões sobre todo um grupo (chamado população), quando se observou apenas uma parte (a-
mostra) desta população. 
 É necessário ter em mente que a estatística é uma ferramenta para o pesquisador, nas 
respostas dos “por quês” de seus problemas. E que para ela ser bem usada é necessário conhe-
cer seus fundamentos e princípios, e acima de tudo que o pesquisador desenvolva um espírito 
critico e jamais deixe de pensar. Pois “em ciência é fácil mentir usando a estatística, o difícil é 
falar a verdade sem usar a estatística”. 
Este relatório apresenta alguns resultados de estudo de estatística descritiva, probabili-
dade e comandos básicos de SAS, tendo como base os livros de Bussab (2005), Magalhães e 
Lima (2002) e a apostila do curso Computação Aplicada à Estatística elaborada por Tachibana 
(2007). Adotou-se como referência esses livros por serem bastante didáticos e por apresenta-
rem questões atuais e interessantes. Esses autores não serão referenciados ao longo do relató-
rio, mas todas as teorias e exercícios apresentados são retirados de seus livros. Esse relatório 
tem presente apenas uma síntese, desses estudos, com apresentação de resoluções de alguns 
exercícios propostos na literatura citada. 
 
 
 
 5
2 - O que faz um Estatístico 
 
 A atividade básica de Estatístico é coletar, analisa e interpretar numericamente as 
informações. É assim que ele trabalha em uma pesquisa de opinião pública ou de análise de 
mercado, planejando, dirigindo e efetuando levantamento estatístico de controle de qualida-
de e analisando dados obtidos em recenseamentos. O campo de atuação vai muito além dis-
so: nas empresas (pública ou privada) podem trabalhar como dirigentes (diretores, gerentes, 
...), em áreas de planejamento financeiro e de produção, aplicando métodos estatísticos no 
controle de qualidade de produtos. Na indústria farmacêutica a Estatística é aplicada para 
analisar e testar novos produtos. Na Medicina, a Estatística vem sendo utilizada nos estudos 
de epidemias, na análise de novos métodos clínicos e cirúrgicos, no registro e coleta de da-
dos sobre a saúde pública. Na agroindústria, a busca de técnicas que possibilitem aumento 
na produção e diminuição nos custos, melhoria genética, entre outros, tem exigido a partici-
pação efetiva de Estatísticos, para orientar, planejar e desenvolver e implementar novas tec-
nologias. Na indústria de manufatura propriamente dita, o Estatístico desempenha papel 
fundamental: otimizando processos, buscando continuamente a melhoria da qualidade de 
serviços e produtos. Nas Ciências Atuariais, desenvolvendo e gerenciando planos de saúde, 
fundos de pensão ou previdência privada. Resumindo: O Estatístico é um profissional que 
produz informação especializada para um mundo cada vez mais especializado. É graças a 
isto e à sua atuação diversa que o Estatístico está conquistando o mercado de trabalho num 
crescimento constante e contínuo. 
 
 
 
 
 
 
 
 
 
 
 6
3 - Variáveis Aleatórias Discretas 
 
3.1 - Introdução 
 Neste capítulo, incorpora-se o conceito de probabilidade no estudo de variáveis associa-
das a características em uma população. Na formalização feita com a introdução de probabili-
dades, serão tratadas apenas variáveis quantitativas. Haverá distinção entre o caso discreto e 
contínuo, pois a atribuição de probabilidades será diferente em cada situação. As variáveis 
qualitativas podem ser, em algumas ocasiões e com devido cuidado, tratadas como discretas 
na atribuição de probabilidades. 
 
3.2 - Funções discretas de probabilidade 
 A função que atribui a cada valor da variável aleatória sua probabilidade é denominada 
de função discreta de probabilidade ou simplesmente função de probabilidade. A notação a 
ser utilizada é: 
( ) ( ) , 1, 2,...i i ip X x p x p i= = = = 
Uma função de probabilidade satisfaz 0 1ip≤ ≤ e 1.i
i
p =∑ 
 Note que, na maioria dos casos, X terá apenas um número finito de valores possíveis e, 
assim, a verificação de que a soma de probabilidade é igual a 1 será feita por uma soma finita. 
As variáveis aleatórias são completamente caracterizadas pela sua função de probabilidade e 
uma parte importante da Estatística é justamente obter, pra uma dada variável de interesse, a 
função de probabilidade que melhor represente seu comportamento na população. 
 
3.3 - Esperança Matemática (Média) 
Assim como a média de uma distribuição de freqüências é definida como soma de 
produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural 
definir a média de uma variável aleatória (v.a.), ou de sua distribuição de probabilidade, como 
a soma de produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi). 
A média de uma v.a. X é também chamada valor esperado ou esperança matemática, 
ou simplesmente esperança de X. É representada por E(X) e se define como: 
∑
=
===++=+==
n
1i
iinn2211 )xX(Px)xX(Px)xX(Px)xX(Px)X(E ⋯ 
É uma média ponderada dos xi, em que os pesos são as probabilidades associadas. 
 
 7
Função de repartição ou de distribuição acumulada. 
 Uma maneira alternativa pela qual pode-se caracterizar a distribuição de probabilidade 
de uma v.a é por meio da sua “função de repartição ou distribuição acumulada”, designada 
por F(X). Essa função é definida por 
( ) ( )F X p X x= ≤ 
Para as variáveis aleatórias discreta tem-se que: 
( ) ( )
i
i
x x
F X p x
≤
= ∑ 
 
 3.4 - Variância 
Assim como a média é uma medida de posição de uma v.a., é natural que se procure 
uma medida de dispersão dessa variável em relação à média. Existem várias formas de se ob-
ter essa medida, sendo a que melhor representa essa dispersão a variância, representada por σ2 
e definida por: 
∑
=
=−==σ
n
1i
i
2
i
2 )xX(P))X(Ex()X(Var 
 Desenvolvendo o termo quadrático do somatório, obtem-se uma expressão mais fácil 
de calcular a variância dada por: 
222 )]X(E[)X(E)X(Var −==σ , 
na qual ∑
=
==
n
1i
i
2
i
2 )xX(Px)X(E . 
 
3.5 - Desvio Padrão 
O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a 
vantagem de exprimir a dispersão na mesma unidade de medida da v.a.: 
2σ=σ 
 
Exercícios: Seja X uma v.a. discreta assumindo valores no conjunto {1,2,3} e com distribui-
ção de probabilidade dada por 
 
Tabela 1: Distribuição da variável aleatória X 
 
 
X 1 2 3 
P(X = x) 1/3 1/6 1/2 
 8
a) Obtenha a distribuição da função acumulada: 
b) Calcule a média e a variância de X; 
c) Calcule ( 2)P X ≥ e ( 2).P X > 
 
Solução: 
A função de distribuição acumulada de X é definida por 
 
;
F (x) = P(X x) = P(X = y)x
y y x≤
≤ ∑ 
Para todo ℜ∈x . Portanto,
 
 
0 se x < 1
1/3 se 1 x < 2
F (x) =
1/2 se 2 x < 3
1 se x 3.
x

 ≤
 ≤
 ≥
 
A média de X é dada por: 
 
1 1 1 13E(X) = P(X = x) = 1. 2. 3.
3 6 2 6x
x + + =∑ 
Como, 
 
2 2 1 1 1 33E(X ) =x P(X = x) = 1. 4. 9.
3 6 2 6
+ + = 
Segue que a variância de X é dada por: 
 
2
2 2 33 13 29V (X) = E(X ) - [E(X)] =
6 6 36
 
− = 
 
 
Outro modo de calcular V(X) seria calcular a soma 
 
2 2V (X) = E[(X - E(X)) ] = (x - (13/6)) P(X = x)
x
∑ 
Finalmente, 
 
2P(X 2) = P(X = 2) + P(X = 3) =
3
≥ e 1P(X > 2) = P(X = 3) = .2
 
 
 
 
 
 
 
 9
4 - Principais Modelos Discretos 
 
Algumas variáveis aleatórias aparecem com bastante freqüência nas situações práticas e 
justificam um estudo mais aprofundado. Em geral nesses casos, a distribuição de probabilida-
de pode ser escrita de uma maneira mais compacta, isto é, existe uma lei pra atribuir as proba-
bilidades. 
 
4.1 - Modelo Uniforme Discreto 
 Seja X uma variável aleatória cujos possíveis valores são representados por 1 2, ,...,x x . 
Diz-se que X segue o modelo Uniforme Discreto se atribui a mesma probabilidade 1/k para 
cada um desses k valores, isto é sua função de probabilidade é dada por: 
( ) 1/ ,jp X x k= = 1,2,...., .j k∀ = 
 Observe que a expressão são probabilidades, uma vez que seus valores estão no intervalo 
[0,1] e a soma de todas as probabilidades é igual a 1. O modelo Uniforme tem esse nome pois 
todos os seus valores ocorrem com a mesma probabilidades e, assim, pode-se dizer que a pro-
babilidade se distribui uniformemente entre os diversos valores. 
 
Exemplo: Número de Caras em único arremesso de uma moeda honesta. 
Neste experimento o espaço amostral é {H, T }, sendo H cara e T coroa. A variável aleatória 
que escreve o número de caras em um único arremesso é NH(H) = 1 e NH(T ) = 0. Como a 
moeda é honesta a distribuição de probabilidades é P(xj ) = 1/2 com xj não nulo em {0, 1}. 
 
4.2 - Distribuição Discreta Bernoulli 
Seja um experimento no qual só pode ocorrer “sucesso “ ou fracasso “ e associa-se 
uma v.a X aos possíveis resultados, de forma que: x = 1 se o resultado for um sucesso e x = 2 
se o resultado for um fracasso 
Diz-se que a variável aleatória assim definida tem distribuição de Bernoulli. Sendo p a 
probabilidade de ocorrer um sucesso, a probabilidade de ocorrer um fracasso será q = 1 – p e 
a função probabilidade da distribuição Bernoulli será: 
, 1 ( )
( ) 1 0 ( )
0
p se k Sucesso
p X k p se k Fracasso
se outro caso
=

= = − =


 
Pode-se observar que: pXE =)( e .)( pqXVar = 
 
 10
Obs: Essa distribuição tem importância como geradora de outras distribuições. 
 
Exercício: Uma urna tem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja 
X: nº de bolas verdes. Calcular E(X), Var(X) e determinar P(X). 
 
Solução: 
1
30 30 50 5 ( ) (2 5) .(3 5)
20 21 50 5
x x
q
X P X x
p
−
 = =
= ∴ = =
= =
֏
֏
 
 
2( ) 5
( ) . (2 5).(3 5) 6 25
E X p
Var X p q
= =
= = =
 
 
4.3 - Modelo Binomial 
Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma 
probabilidade de sucesso p. A variável aleatória que conta o número total de sucesso é deno-
minada Binomial com parâmetros n e p e sua função de probabilidade é dada por 
( ) (1 ) , 0,1,2,...., ,k n knp X k p n k n
k
−
 
= = − = 
 
 
Com 
n
k
 
 
 
 representando o coeficiente binomial calculado por !
!( )!
n n
k k n k
 
= 
− 
 
Usa-se a notação X ~ b(n, p) para indicar que a variável aleatória X segue o modelo Bi-
nomial com parâmetros n e p. As probabilidades são caracterizadas pela informação dos pa-
râmetros. 
Em situação práticas, a variável Binomial aparece a partir de outras variáveis, pela cri-
ação de duas categorias excludentes. 
Na distribuição Binomial tem-se: 
 E(X) = Np e Var(X) = npq. 
 
Exercícios: 1) Uma moeda perfeita e lançada quatro vezes. Seja Y o número de caras obtidas. 
Calcule a distribuição de Y. 
 
Solução: 
 Observe que Y assume valores no conjunto {0, 1, 2, 3, 4}. Portanto, a distribuição de Y é 
dada por: 
 11
4 4
4
4
1 1P(Y = y) = C 1
2 2 2
y y
y
y
C−   
− =   
   
, para y = 0, 1, 2, 3, 4. 
2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili-
dade de cara dada por p, com 0 < p < 1. 
 
Solução: 
 Observe que Y assume valores no conjunto {0, 1, 2, 3, 4}. Portanto distribuição de Y é 
dada por: 
4 4-yP(Y = y) = C p (1 - p)yy , para y = 0, 1, 2, 3, 4. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 12
5 - Outros Modelos Discretos 
 
 Apresenta-se neste capítulo, os modelos Geométricos, Poisson e Hipergeométrico, que 
têm várias aplicações práticas. No capítulo anterior, os modelos definidos assumiram apenas 
um número finito de valores distintos. Como será visto a seguir, os modelos Geométricos e 
Poisson podem ter um número infinito de valores dentre os inteiros positivos. 
 
 5.1 - Modelos Geométricos 
 Tem-se agora repetição da Bernoulli até que o sucesso ocorra. Assim a v.a. X assume os 
valores possíveis 1, 2, 3....., k, .... de número de repetição até ocorrer um sucesso . 
Supõe-se que um dado é jogado até que se obtenha sucesso. Sendo + para sucesso e – 
para Fracasso, tem-se: 
, , , , , , ...........,− − − − − − + 
 Desta forma pode-se fazer com que p seja a probabilidade de sucesso e q = 1 – p a pro-
babilidade de fracasso, então: 
 
1( ) 1, 2, .....kp X k q p para k−= = = 
 Para que a distribuição satisfaça as condições necessárias de uma distribuição Geométri-
ca é preciso que: 
1) 
00
1
( ) 1
k
p X k
=
= =∑ e 2) ( ) 0p X k= ≥ . 
Analogamente tem-se que 1( )E X
q
= e 2( )
qVar X
p
= 
 
Exercícios: 1)Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira 
vez. Seja X o número de lançamento até que isso aconteça. Obtenha a distribuição de X. 
 
Solução: 
 Observe que X assume valores no conjunto {1, 2, 3,....}. Portanto, a distribuição de X é 
dada por 
11 1 1P(X = x) =
2 2 2
X
X
−
   
=   
   
, para x = 1, 2, 3,..... 
2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili-
dade de cara dada por p, com 0 < p < 1. 
 
 13
Solução: 
Nesse caso a distribuição de X é dada por x-1P(X = x) = (1 - p) p , para x = 1, 2, 3,..... 
 
5.2 - Modelo de Poisson 
 Uma variável aleatória X tem distribuição de Poisson com parâmetros 0λ > se sua fun-
ção de probabilidade é dada por: 
( ) , 0,1,2,3........,
!
kep X k k
k
λλ−
= = = 
 Com o parâmetro λ sendo usualmente referido como taxa de ocorrência. A notação será 
0~ ( ).X P λ λ é a freqüência média ou esperada de ocorrências num determinado intervalo de 
tempo. 
Analogamente tem-se que E(X) = λ t e Var(X) = λ t. 
 
Exercício: Em um processo de fabricação de perfil de alumínio aparece em média uma falha 
a cada 400 metros. Qual a probabilidade de ocorrer 3 falhas em 1000 metros de perfil? 
 
Solução: 
Sabe-se que ( )
!
kep X k
k
λλ−
= = . Logo, como k = 3 e 1
400
λ = , portanto: 
3 3
1
400
1
.1000
400
1 1000
.1000
1400 400( 3) . 0, 2137
3! 6
P X e
e
−
   
   
   
= = = = 
 
5.3 - Modelo Hipergeométrica 
 Essa distribuição é adequada quando se consideram extrações casuais feitas sem reposi-
ção de uma população dividida segundo dois atributos. Para ilustrar, considere uma população 
de N objetos, r dos quais têm atributos A e N – r têm o atributo B. Um grupo de n elementos é 
escolhido ao acaso, sem reposição. É de interesse calcular a probabilidade de que esse grupo 
contenha k elementos com o atributo A. Pode-se ver facilmente, utilizando o princípio multi-
plicativo, que essa probabilidade é dada por: 
,k
r N r
k n k
p
N
n
−  
  
−  
=
 
 
 
 
 14
na qual os pares ( , )kk p constituem a distribuição hipergeométrica de probabilidades. Se a v.a. 
X for definida como os números deelementos na amostra que tem atributos A, e então, 
0 min( , ).k r n≤ ≤ 
 
Analogamente, tem-se que ( )E X np= e ( ) (1 )
1
N nVar X np p
N
−
= −
−
. 
 
Exercícios: Uma caixa contem 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6 
lâmpadas ao acaso para iluminação de uma sala. Qual a probabilidade de que: 
a) Exatamente duas estejam queimadas? 
b) Pelo menos uma esteja boa? 
 
Solução : 
a) Observe que: 
 
Logo, tem-se que: 
5 7
.
2 4( 2) 0,3788
12
6
P X
   
   
   
= = =
 
 
 
. 
b) Pelo que se pode observar, tem-se que ( 6) 0P X = = , pelo fato de não existir 6 lâmpadas 
queimadas. Portanto: ( 6) ( 5) ( 6) 1P X P X P X< = ≤ − = = . 
 
 
 
 
 
 
 
 
 
 15
6 - Variáveis Aleatória Contínuas 
 
6.1 - Introdução 
 Neste capítulo serão estudados modelos probabilísticos para variáveis aleatórias contí-
nuas, ou seja, variáveis para as quais possíveis valores pertencem a um intervalo de números 
reais. 
 Uma função X, definida sobre espaço amostral Ω e assumindo valores num intervalo 
de números reais, é dita uma variável aleatória contínua. 
 A característica principal de uma v.a. contínua é que, sendo resultado de uma mensu-
ração, o seu valor pode ser pensado como pertencente a um intervalo ao redor do valor efeti-
vamente observado. Por exemplo, ao dizer que a altura de uma pessoa é 1,75 cm, está-se me-
dindo sua altura usando cm com unidade de medida e portando o seu valor observado é, na 
realidade, um valor entre 174,5 cm e 175,5 cm. 
 
Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um in-
tervalo que possui infinitos valores, então se diz que X é uma variável aleatória contínua. 
 
Se X é uma v. a. contínua, a função densidade de probabilidade f(X), indicada abrevia-
damente por fdp, é uma função que satisfaz às seguintes condições: 
(a) f(X) ≥ 0, ∀ X; 
(b) A área sob a função densidade de probabilidade é 1, isto é: 
 
(c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre 
os pontos a e b, isto é: 
 
(d) P(X = x0) = 0, porque: 
 
Conseqüência: P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) 
 
Se X é uma v. a. contínua, a função de distribuição acumulada (fda) de X é definida 
como: ∫ ∞−=≤=
x dssfxXPxF )()()( . 
 
1dx)x(f =∫
+∞
∞−
∫=≤≤
b
a
dx)x(f)bXa(P
0dx)x(f)xX(P 0
0
x
x
0 === ∫
 16
Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) = 
0, fora desse intervalo. Obtenha a F(x) de X. 






>
≤≤==
<
= ∫
1,1
10,
0
2
0,0
)(
0
22
x
xx
x
ss
x
xF
x
 
 
 6.2 - Esperança e Variância 
 Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) de-
notada por E(X) é definido como: 
∫
∞
∞−
= dxxfxXE )()( 
 
Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x < 1, então: 
3
2
0
1
3
222)( 31
0
1
0
2
==== ∫ ∫ xdxxdxxxXE 
 
Definição: A variância de uma variável aleatória contínua é definida por: 
Var(X) = E(X2) – [E(X)]2, onde ∫∞
∞−
= dxxfxXE )()( 22 . 
 
Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x <1, então: 
3
2)( =XE e 
4
2
4
222)( 104
1
0
1
0
322
==== ∫ ∫ xdxxdxxxXE . Logo, Var(X) = 2/4 – (2/3)2 =1/18 = 
0,056. Também se pode obter o Desvio Padrão: 23,0056,0 ≅ . 
 
6.3 - Distribuição Continua Uniforme 
 Seja uma v. a. contínua que pode tomar qualquer valor no intervalo [a, b]. Se a proba-
bilidade da variável cair em um subintervalo for a mesma para qualquer outra subintervalo de 
mesmo comprimento, tem-se uma distribuição uniforme. 
 Sua função densidade de probabilidade será: 
1( )f X para a x b
b a
= ≤ ≤
−
 e ( ) 0f x caso contrário= . 
Tem-se que ( )
2
a bE X += e 
2( )( )
12
b aVar X −= . 
Exercícios: Dada a v.a. X, uniforme em (5, 10), calcule as seguintes propriedades: 
 17
a) P(X < 7) b) P(8 < X < 9) c) P(X > 8,5) d) ( 7,5 2)P X − > 
 
Solução: 
Tem-se que: 
1
, 5 10( ;5;10) 10
0 ,
se xf x
caso contrario
 ≤ ≤ 
=  
  
 
a) 7 5( 7) 0,4
10 5
p X −< = =
−
 
b) 9 5 8 5(8 9) (9) (8) 0,8 0,6 0, 2
10 5 10 5
p x F F − −< < = − = − = − =
− −
 
c) 8,5 7,5( 8,5) (8,5) 0,7
10 5
p X F −> = = =
−
 
d) ( 7,5 2)P X − > = logo, tem-se 
7,5 2
2 7,5
9,5
x
x
x
− >
> +
>
 ou 
7,5 2
2 7,5
5,5
x
x
x
− + >
− > −
<
 . Portanto, 
9,5 5 5,5 5(5,5 9,5) (9,5) (5,5) 0,8
10 5 10 5
p x F F − −= < < = − = − =
− −
 
 
6.4 - Distribuição Exponencial. 
 Uma v.a. contínua X que tome valores não negativos, terá distribuição exponencial 
com parâmetros 0λ > , se sua função densidade e probabilidade for dada por 
( ) 0
( ) 0
xf x e para x
f x Caso contrário
λλ −= >
=
 
Assim, 
λ
dxxxfXE 1)()( ∫∞
∞−
== e 
2
2 1)())(()(
λ
dxxfXExXVar =−= ∫∞
∞−
 . 
 
Exercício: Para uma variável Exponencial 1, determine a probabilidade de se sortear um va-
lor que se distancie no máximo 0,5 de média. Obtenha a expressão da função de probabilidade 
dessa variável.Qual é o valor do terceiro quartil? 
 
Solução: 
Tem-se que : .
1
1
 e )1(~ =λExpX Logo, 
1,51 1
1` 1`,5 0,5 1 1 5
0,5 1
0,5 1
0,680x x x xe dx e dx e e e e e e
−
− − − − − − −+ = − − − + − + =∫ ∫ . 
 18
6.5 - Distribuição Normal 
A distribuição Normal é uma das mais importantes distribuições contínuas de probabi-
lidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia 
pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por 
esse motivo, acham que foi Gauss que a descobriu. 
Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribu-
ição com valores muito freqüentes em torno da média e diminuindo a freqüência à medida 
que se afasta da média. 
Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a 
variável tempo de duração, em horas, de uma lâmpada de certa marca, conforme Figura 1. 
 
 
 
 
 
 
 Figura 1 – Tempo de duração, em horas, de uma determinada lâmpada 
 
A experiência sugere que esta distribuição deve ser assimétrica com uma grande pro-
porção de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500 
horas 
Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial. 
 
6.6 - Função Densidade de Probabilidade da Distribuição Normal 
∞<<∞−=





 −
−
xe
πσ
xf σ
µx
,
2
1)(
2
2
1
2 
 
 
 
 
 
 
 
 Figura 2 - Gráfico da densidade Normal 
 
 
 19
 
Propriedades: 
A curva normal é simétrica em torno da média µ; 
� A moda e a mediana são iguais a µ; 
� Os pontos de inflexão são µ – σ e µ + σ; 
� A área sob a curva e acima do eixo horizontal é igual a 1. 
 
Parâmetros: µµµµ : média ou valor esperado 
 σσσσ2: variância 
 
Notação : X ~ N(µ, σ2) 
 
 
A distribuição normal depende dos parâmetros µµµµ e σσσσ2 
 
 
 
 
 
 
 
Figura 3 – Curvas Normais com médias diferentes e variâncias iguais. 
 
 
 
Figura 4 – Curvas normais com a mesma média e variâncias diferentes. 
 
 
µ1 µ2 
___N(µµµµ , σσσσ 12)
___N(µµµµ , σσσσ 22)
___N(µµµµ , σσσσ 32)
σσσσ 1
2
 < σσσσ 2
2< σσσσ 3
2
Curvas normais com 
mesmo desvio padrão, 
mas com médias dife-
rentes. 
 20
Cálculo de Probabilidades 
P(a < X < b) 
 
 
Área sob a curva e acima do eixo horizontal (x) entrea e b. 
a µ b 
 Figura 5 – Área correspondente a P (a < X < b) 
 
Se X ~ N(µ ; σ2), define-se: 
σ
µ−
=
XZ . Então, E(Z) = 0 e Var(Z) = 1. 
 
 
 
 
 
 
 
 
 
 
 
 
 Figura 6 – Gráficos das funções densidades de X ~ N ( 2,σµ ) e Z ~ N (0, 1). 
 
A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida. 
Portanto, 





σσσσ
µµµµ−−−−
<<<<<<<<
σσσσ
µµµµ−−−−
====





σσσσ
µµµµ−−−−
<<<<
σσσσ
µµµµ−−−−
<<<<
σσσσ
µµµµ−−−−
====<<<<<<<<
bZaPbXaPbXaP )( 
Dada a v.a. Z ~ N (0, 1) pode-se mos obter a v.a. X ~ N (µ, σ2) através da transformação in-
versa σZµX += . 
a µµµµ b x 
f(x) 
0 z 
f(z) 
a – µµµµ 
σσσσ 
b – µµµµ 
σσσσ 
 21
Exercícios: A distribuição do tempo de duração de um certo tipo de pneu, em km, é uma va-
riável normal com duração média de 30.000 km e desvio padrão 10.000 km, 
a) Qual a probabilidade de um pneu escolhido ao acaso durar mais de 75.000km? 
b) Qual a probabilidade de um pneu durar entre 63.500 e 70.000 km? 
c) Qual a probabilidade de um pneu durar entre 50.000 e 70.000 km? 
d) Qual a probabilidade de o pneu dura exatamente 65.555 km? 
e) O Fabricante deseja do pneu uma garantia de quilometragem de tal forma que, se a du-
ração do pneu for inferior a garantia, o pneu deve ser trocado. De quanto deve ser a 
garantia para que somente 1% dos pneus sejam trocados? 
 
Solução. 
Pela definição sabe-se que a variável aleatória X pode ser transformada em padrão. Logo, 
a) .0668,04332,05,0)5,1(5,0)5,1(
10000
6000075000()75000( =−=<−=>=−>=> ZPZPZPXP 
 
b) 
.2045,01368,003413
)35,00()10(
10000
60000635000
10000
6000700000
)6350060000()70000060000()7000063500(
=−
=<<−<<=




 −
<<−




 −
<<
=<<−<<=<<
ZPZPZPZP
XPXPXP
 
 c) 
.6826,0)3413,0(2)10(2)10()01(
)11(
10000
6000070000
10000
6000050000)7000050000(
==<<=<<+<<−
=<<−=




 −
<<
−
=<<
ZPZPZP
ZPZPXP
 
 
d) 0)65555( ==XP , pelo fato de ser quase impossível de ocorrer. A função de densidade é 
contínua e pela definição de integral tem–se que em um ponto a integral é 0. 
 
e) 
 
 
km. 36700 Portanto, .2330060000
33,2
10000
60000
 Daí, .
10000
60000
01,0)(
00
00
0
0
=−=−
⇒−=
−





 −
<
=




 −
<==>
xx
xxZP
σ
µx
ZPxXP
 
 
 
 
 22
7 - OUTROS MODELOS 
 
 Juntamente com o modelo normal, esses modelos são úteis para as v.a. de interesse 
prático, que na maioria dos casos assumem valores positivos e tendem a ter distribuições as-
simétricas à direita. 
 
7.1 - Distribuição Gama 
 Aplica-se a distribuição gama à análise de tempo de vida de equipamentos, de tempo 
de retorno de mercadorias com falhas e a testes de confiabilidade. 
 A função densidade de probabilidade para a distribuição gama é dada por: 
 
xr
r
ex
r
xf λλ −−
Γ
=
1
)()( para x ≥ 0 
 0)( =xf para x < 0 , 
na qual os parâmetros da distribuição gama, que podem assumir qualquer valor positivo, são: 
λ, taxa média do processo; r, número específico de eventos que ocorrem até que a variável X 
(tamanho do segmento de tempo ou espaço) seja atingida e Γ(r) é a função gama, definida 
por: 
 ∫
∞
−−
=Γ
0
1)( dxexr xr Para r > 0 
 
 Esta função é tabelada, sendo alguns valores apresentados a seguir juntamente com 
algumas propriedades dessa função: 
a) 1)1( =Γ 
b) )()1( rrr Γ=+Γ 
c) )1()1()( −Γ−=Γ rrr 
d) !)1( kk =+Γ 
e) pi=Γ )2/1( 
f) pik
kk
2
)12(*...*5*3*1)2/1( −=+Γ 
 
A Figura 7 apresenta a função f(x) para vários valores de r. 
 
 
 23
 
f(x) 
 
r=1 r=2 r=3 
 
 
 x 
Figura 7 – Função Densidade de Probabilidade para a Distribuição Gama. 
 
 No caso especial de r = 1, tem-se a distribuição exponencial, pois Γ(1) = 1, ficando-se 
com: xexf λλ −=)( 
 
 A distribuição gama se reduz à distribuição qui-quadrado, que será vista a seguir, 
quando λ = 1/2 e r = d/2, em que d é um parâmetro inteiro positivo. 
 A distribuição de probabilidade é expressa por: 
 ∫=≤
x
dyyfxXP
0
)()( 
 O valor esperado e a variância são calculados por: 
 2λλ
r)X(Varr)X(E == 
 
Exercício: Calcule a probabilidade de passado um minuto no máximo, dois carros tenha che-
gado a uma cabine de pedágio, considerando que λ = 5 carros por minuto. 
 
Solução: 
 Neste caso, r = 2, ficando-se com: 
 
2
2 1( ) 1 (1 )
1!
y xP X x y e dy eλ λλ λ− − −≤ = = − +∫ 
Como λ= 5, tem-se que: .96,06)006738,0(1)51(1)1( 1.5 =−=+−=< −eXP 
 
7.2 - Distribuição Qui-Quadrado 
 Um caso especial importante do modelo gama é obtido fazendo-se / 2vα = e 2β = , 
com 0v > inteiro. 
 24
 Uma v. a. contínua Y, com valores positivos, tem uma distribuição qui-quadrado com 
v graus de liberdade(denotada 2( ( ))denotada vχ , se sua densidade for dada por 
/2 1 /2
/2
1
, 0,( / 2)2( ; )
0, 0.
v y
v
y e y
vf y v
y
− −

>Γ= 
 <
 
Tem-se que νYVarνYE 2)( ,)( == e 0( )P Y y p> = 
 A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso da 
normal, existem tabelas para obter probabilidades. A tabela fornece os valores de 0y tais que 
0( )P Y y p> = , para alguns valores de p e de v. 
 
OBS: Essa distribuição é utilizada em testes de associação, homogeneidade e independência 
entre duas variáveis, os famosos “Testes Qui-Quadrados”. 
 
Exercício: Verifique se há evidência de associação entre as variáveis tipo de propaganda 
(comercial) e o gênero das crianças, em um teste realizado com 125 crianças. 
 
Tabela 2: Números de crianças segundo tipo de comercial escolhido e gênero. 
 Tipo de comercial 
Gênero A B C Total 
Menino 30 29 16 75 
Menina 12 33 5 50 
Total 42 62 21 125 
 
Solução: 
Calcula-se o valor esperado da célula menino que prefere a propaganda A (cruzamento da 
primeira linha com primeira coluna), se não houvesse influência do sexo na preferência: 
75*42 25,2
125
esperado = = . Assim calculando os valores esperados para todas as outras célu-
las tem-se: 
 
Tabela 3 – Valores observados, esperados e suas diferenças no teste qui-quadrado 
 Tipo de comercial 
Gênero A B C Total 
Menino 
 
30 25,2 29 37,2 16 12,6 75 
+4.8 -8,2 +3,4 
Menina 
 
12 16,8 33 24,8 5 8,4 50 
-4,8 +8,2 -3,4 
Total 42 62 21 125 
 25
 
Calculando o Qui-Quadrado tem-se 
2 2 2 2 2 2
2 ( 4,8) ( 8, 2) ( 3,4) ( 4,8) ( 8,2) ( 3, 4)
25, 2 37,2 12,6 16,8 24,8 8, 4amostra
χ + − + − + −= + + + + + 
2 0,914 1,808 0,907 1,371 2,711 1,376amostraχ = + + + + + 
2 9,09818amostraχ = ⇒ ( 1).( 1) (2 1).(3 1) 1.2 2onde r c− − = − − = = (grau de liberdade da distri-
buição qui-quadrado) 
 
Gráfico da distribuição Qui-Quadrado 
 
 Região de Aceitação Região de Rejeição 
 p = 0,95 1 – p = 0,05 
 
Pela destruição e pelo valor tabelado tem-se que: 2( 1)( 1); 5,991r c pχ − − = e 2 9,09818amostraχ = . 
Portanto pelos resultados obtidos tem-se que há evidência de associação entre as variáveis. 
 
7.3 - Distribuição t-Student 
 A Distribuição t de Student é importante no que se refere à inferência sobre médias 
populacionais.O nome Student vem do pseudônimo usado pelo estatísticoinglês W. S. Gosset, 
que introduziu essa distribuição no início do século passado. 
A v. a. X tem distribuição t de Student (ou simplesmente t) com média µ , parâmetros 
de escala σ e v graus de liberdade, denotando-se 2~ ( , )vX t µ σ , se sua função de densidade é 
dada por 
2 ( 1)/2(( 1) / 2)( ; ) (1 / ) , 00 00
( / 2)
vvf t v t v t
v vpi
− +Γ +
= + − < <
Γ
 
 Diz-se que tal variável tem uma distribuição t de Student com v graus de liberdade e 
é indicada por t(v). Sua média é ( ) 0E t = e a variância é igual a ( )
2
vVar t
v
=
−
. 
 
 26
Exercício: Considere um teste de colisão de carros. A análise de 12 carros danificados resulta 
num custo de conserto que parece ter distribuição em forma de sino, com média igual a R$ 
26,227 e desvio-padrão R$ 15,873. Determine: 
a) a melhor estimativa pontual de µ(custo do conserto) 
b) O intervalo de confiança para um nível de confiança de 95% 
 
Solução: 
a) É dada pela média da amostra .227,26=x 
 
b) Amostra pequena (n ≤ 30); desvio padrão desconhecido; distribuição é similar à distribui-
ção normal. 
Na tabela: para a coluna 0,05 bilateral e grau de liberdade 2n-1=11 t =2,201α→ . Logo, 
2
15873E= t . =2,201. 10.085,29
12
s
n
α = . Portanto, ExµEx +<<−
�
 .⇒ 
29,10085227,2629,10085227,26 +<<− µ ⇒ 29,3631271,16141 << µ 
Construindo-se tais intervalos para 100 amostras de 12 carros cada uma, 95% desses interva-
los conterão a verdadeira média da população, ou seja, a custo médio do reparo. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 27
8 - Variáveis Aleatórias Multidimensionais 
 
 Uma v.a. Bidimensional é caracterizada por um par ordenado de valores assumidos 
dentro de dado conjunto segundo as leis probabilísticas. Assim, se X for um ponto de um dado 
branco e Y um ponto de um dado preto, considera-se a v.a. Bidimensional discreta (X, Y), tal 
v.a. é caracterizada pela seguinte função de probabilidade: 
1( , )
36
p x y = 
1, 2,3,4,5,6
1,2,3, 4,5,6
x
y
=
=
 
 No caso de v.a. bidimensional contínua a distribuição de probabilidade será caracte-
rizada por função densidade de probabilidade bidimensional (ou conjunto) f(x,y). 
 
Condições: 
1) ( , ) 0f x y ≥ 
2) ∫ ∫∞
∞−
∞
∞−
= 1),( dxdyyxf 
Para uma dada região xyR tem-se [( , ) ] ( , )
xy
xy
R
p x y R f x y dxdy∈ = ∫ ∫ 
 
8.1 - Distribuição Marginais 
 Supondo que se tem a distribuição de variável aleatória (X, Y), pode-se obter a distri-
buição apenas de X, independentemente do valor de Y, que será denominada Distribuição 
Marginal de X. Pode-se assim proceder também em relação a Y, obtendo então a distribuição 
marginal de Y. 
 
Para uma dada Função de probabilidade ( , )i jp x y tem-se que: 
( ) ( , )i i j
j
P X x p x y= =∑ Marginal de X 
( ) ( , )i i j
i
P Y y p x y= =∑ Marginal de Y 
 
Para caso contínuo, sendo g(x) a função densidade marginal de X, h(y) a função de 
densidade marginal de Y, são respectivamente, ∫∞∞−= dyyxfxg ),()( e ∫∞∞−= dxyxfyh ),()( 
 
 
 
 
 28
9 - Medidas de Posição e Dispersão 
 
9.1 - Média (Esperança ou Expectância) é definida por: 
)()( ii i xpxXEµ ∑== para o caso discreto, 
ou 
00
00
( ) ( )u E X xf x dx
−
= = ∫ para caso contínuo. 
A média tem as seguintes propriedades tais que (k é uma constante) 
1) ( )E k k= 
2) ( ) ( )E kX kE X= 
3) ( ) ( ) ( )E X Y E X E Y± = ± 
4) ( ) ( )E X k E X k± = ± 
5)Se X e Y são independentes, então ( ) ( ) ( )E XY E X E Y= . 
 
9.2 - Mediana 
É o ponto que divide a distribuição em duas equiprováveis. É denotada por md, sendo 
que ( ) ( ) 0,5P x md P x md< = > = . 
A mediana representa uma função alternativa de caracterização do centro da distribui-
ção. 
 
9.3 - Moda: 
É o ponto de maior probabilidade, no caso discreto, ou maior densidade de probabili-
dade, no caso contínuo. 
 
9.4 - Variância: 
A variância será denotada por Var(X), ou simplesmente 2σ . É definida por: 
2( ) [( ) ]Var X E x u= − , 
na qual ( )E X u= , 2 2( ) ( )i i
i
E X x p x=∑ , para o caso discreto e 
00
2 2
00
( ) ( )E X x f x dx
−
= ∫ , para o 
caso contínuo. 
A variância tem as seguintes propriedades: 
1) Var(k) = 0 
 29
2) 2( ) ( )Var kX k Var X= 
3) ( ) ( ) ( )Var X Y Var X Var Y± = + 
4) ( ) ( )Var X k Var X± = 
 
9.5 - Desvio Padrão 
 É a raiz da variância, denotada por ( )Dp X , tem a vantagem de ser expressa na mes-
ma unidade da variável ( ) ( )Dp X Var X= 
 
9.6 - Covariância 
 Esta medida tem como objetivo mensurar a relação entre as variáveis aleatórias em 
questão. Define-se ( , ) ( , ) ( ) ( )Cov x y E x y E x E y= − 
 
9.7 - Coeficiente de Correlação 
É definido por: 
)().(
),(),(),(
YVarXVar
YXCovYXCorrYXρ == tal que .1),(1 ≤≤− yXρ 
 
9.8 - Coeficiente de Variação 
 É definida como o quociente entre o desvio padrão e a média. Serve quando se deseja 
ter uma idéia da dispersão relativa 
( )
. .( ) ( )
Dp XC V X
E X
= 
 
9.9 - Amplitude 
 É dada pela diferença entre o maior e o menor valor possível da variável. E é denotada 
por A. 
 
Exercício: Seja a função densidade de probabilidade dada: 



 ≤≤
=
contrário caso,0
20 para,
2)( x
x
xf . Deter-
mine à média, mediana, moda, variância e desvio-padrão. 
 
Solução: 
 Média 
23
0
4( ) ( )
6 3
xE X xf x dx dx= = = =∫ 
 30
 
Mediana 2 2
0 0
( ) ( ) 0,5
0,5 0,5 2
2 4 4
mdmd
p x md p x md
x x mddx md
< = > =
= = ⇒ = ⇒ =∫
 
 
Moda (2) 1 max mof Valor i de probabilidade= ⇒ 
 
Variância ,)]([)()( 22 XEXEXVar −= com .2
8
16
0
2
82
.)(
22
0
22
==== ∫
xdxxxXE Portanto, 
9
2
9
16
.2
3
42)(
2
==





−=XVar 
 
Desvio-padrão 2 2( ) ( )
9 3
dp X Var X= = = 
 
Coeficiente de variação 
2
( ) 23( ) 0,354( ) 4
3
Dp XCV X
E X
= = = ≅ 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 31
10. - SAS Programação 
 
10.1 - Introdução 
 O SAS é um dos pacotes estatísticos mais utilizados pelas grandes corporações, em 
mais de 100 diferentes países, com cerca de 40.000 licenças distribuídas e quase 4 milhões de 
usuários. O nome nasceu como um acrônimo: Statistical Analysis System (SAS), mas a quan-
tidade de serviços e produtos oferecidos pela SAS (a companhia que produz o SAS) foi se 
tornando tão diversa que hoje em dia o nome é simplesmente SAS. 
 As origens do software datam da década de 70, quando os computadores ainda eram 
operados por cartões perfurados (o comando CARDS, dentro do passo DATA, vem justamente 
daí) e o poder de processamento era muito baixo. O software é composto por diversos módu-
los, que provem soluções para problemas específicos e os principais são: 
• SAS/Base: é o sistema básico do SAS, necessário para rodar qualquer outro produto 
SAS. Ele contém o passo DATA, para manipulação de dados e alguns procedimentos 
estatísticos simples. 
• SAS/STAT: é o módulo que provê uma grande quantidade de métodos estatísticos, co-
mo regressão, ANOVA, análise multivariada, análise de sobrevivência entre outros. 
• SAS/GRAPH: é o módulo que permite fazer gráficos em alta resolução. 
• SAS/ETS: é o módulo que permite fazer análise de séries temporais. 
• SAS/EG (ou Enterprise Guide): é uma interface gráfica para o SAS, permitindo fazer 
algumas análises estatísticas apontando e clicando. 
 Ao comprar uma licença do programa, é necessário pagar uma taxa adicional por cada 
módulo. Neste capítulo será apresentado alguns comandos básicos de programaçãoque po-
dem ser executados no SAS, resultado do estudo introdutório deste software. 
10.2 - Conceitos Básicos 
DATA SET: Arquivo de dados com estrutura SAS; 
 
OBSERVAÇÃO: Registro de um arquivo de dados SAS; 
 
JOB SAS: Arquivo com um programa SAS (É um conjunto de DATA Step's e PROC Step's); 
 
 32
DATA STEP: Divisão lógica de um programa SAS, no qual se cria e altera um, ou vários ar-
quivos SAS (Data Set's ou conjunto de dados de entrada); 
 
PROC STEP: Divisão lógica de um programa SAS, no qual se analisa e manipula os dados 
contidos num arquivo SAS (Data Set's); 
 
OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no 
tratamento de dados: 
 
Acessar dados; Administrar dados; Analisar dados; Apresentar dados; 
 
10.3 - Estrutura dos arquivos SAS 
O arquivo SAS é um conjunto de dados arrumados num formato de tabela. 
 
NOME SEXO IDADE ALTURA 
 
 
 
 
 
 
 
As colunas nas tabelas são chamadas de variáveis: 
- Variáveis correspondem aos campos de dados; 
- Cada variável recebe um nome; 
- Para o SAS, só existem dois tipos de variáveis: Caractere ou Numérica 
As linhas na tabela são chamadas de observações (ou registros). Não existe limite para 
o número de observações. 
 
Um Arquivo SAS é dividido em duas partes: 
Descritora : Contém a descrição do arquivo: Tamanho do arquivo, número de registros, no-
me, tipo, tamanho e formato de variáveis, etc; 
Dados : Contém os dados do arquivo. 
 
10.4 - Nomenclatura para arquivos e variáveis 
Todos os nomes de arquivos e variáveis deverão seguir as seguintes regras: 
CARLOS M 12 1.70 
GILBERTO M 25 1.65 
RICARDO M 30 1.80 
 . . . . 
 . . . . 
 . . . . 
ALICE F 28 1.68 
MARCIA F 22 1.75 
 33
- Possuir de 1 à 32 caracteres; 
- Começar com letra (A-Z); 
- Pode continuar com números, letras ou travessões. 
 
Exemplo 1: Foi usado o Comando INFILE: Comando que identifica e abre um arquivo ex-
terno de dados, somente para leitura. 
 
 
 
 
 
Exemplo 2: Do seguinte conjunto, construir um arquivo de dados: 
Nome Idade Peso Altura 
Maria 23 57 1,65 
Pedro 21 73 1,75 
Cristina 19 55 1,63 
 
data exemplo; nome do arquivo 
input nome $ idade peso altura; declaração das variáveis 
cards; (ou datalines) indica que a linha dos dados vêm em seguida 
Maria 23 57 1.65 
Pedro 21 73 1.75 
Cristina 19 55 1.63 
; indica que terminou o conjunto de dados 
Run; está pronto para ser executado.(executa os comandos anteriores). 
 
10.5 - Estrutura PROC Step 
 Introdução 
- É a seção de um programa SAS na qual se analisa os dados de um arquivo SAS, utilizando-
se procedimentos específicos para cada tipo de análise. 
- A maioria dos procedimentos SAS gera relatórios técnicos; 
- Todos os procedimentos iniciam com a palavra PROC seguida do nome específico do pro-
cedimento ou rotina desejada; 
- Os comandos em uma PROC não seguem uma hierarquia, ou seja, podem ser colocados em 
qualquer ordem dentro da PROC; 
 
DATA EXEMPLO1 
INFILE “C:\TEMP\CADASTRO.TXT”; 
INPUT PRIMEIRO_NOME $ 1-8 SEXO $ 10 IDADE 13-14 ALTURA 16-19 ; 
RUN; 
 34
PROC <rotina> [opções] ; 
[comando] ; 
[comando] ; 
RUN ; 
rotina Palavra-chave que identifica o procedimento a ser executado. 
opções Parâmetros opcionais de configuração para execução do procedimento. 
comando Comandos de detalhamento na execução do procedimento. 
RUN Comando para execução do procedimento SAS. Necessário no último procedimen-
to do programa SAS. 
 
10.6 - Procedimento PRINT 
- Procedimento do SAS que imprime, na saída padrão, os dados contidos nos arquivos SAS; 
- A saída padrão é, normalmente, a janela OUTPUT. 
 
PROC PRINT [opções] ; 
VAR <lista de variáveis> ; 
BY <lista de variáveis> ; 
SUM <lista de variáveis> ; 
opções DATA= Nome do arquivo SAS; 
DOUBLE Espacejamento duplo; 
NOOBS Suprime a coluna com o número de cada observação do arquivo; 
LABEL Imprime os "label's" das variáveis; 
VAR Determina uma lista de variáveis que serão impressas; 
BY Determina a quebra ou agrupamento do relatório, por uma ou mais variáveis; 
SUM Determina uma ou mais variáveis numéricas que serão totalizadas; 
 
10.7 - Sintaxe dos Comandos 
Todo comando SAS começa com uma palavra-chave (identificação) e termina com o 
ponto e vírgula (;). 
- Os comandos podem começar e terminar em qualquer parte da linha; 
- Um comando pode se estender por diversas linhas; 
- Vários comandos podem ficar na mesma linha. 
 
Exemplo: 
 
 35
 
 
 
 
 
 
 
 
 
10.8 - Comando LIBNAME 
- Tipo: Comando de declaração; 
- Uso: Livre; 
- Comando opcional de configuração do processamento, que define uma ou mais áreas de 
trabalho e armazenamento (diretórios), para os arquivos SAS (Data Set's); 
- Define o primeiro nível de um nome de arquivo, a biblioteca SAS; 
 
[biblioteca].<nome do arquivo> 
 
- O comando LIBNAME, normalmente, é colocado antes do comando DATA, e só será ne-
cessário ser executado uma única vez durante uma sessão SAS WINDOWS. 
LIBNAME <biblioteca> "<diretório>" ; 
Biblioteca Palavra de no mínimo 1 e no máximo 8 caracteres, que identifica o primeiro nível 
em um nome de arquivo. 
Diretório Nome de um diretório que já exista no seu ambiente. 
 
OBS: O SAS define uma biblioteca padrão, temporária, de nome work. 
 
Exemplo: 
LIBNAME IN "C:\ALUNO" ; 
DATA IN.EXEMPLO ; 
INFILE "A:\CADASTRO" ; 
INPUT NOME $ 1-30 SEXO $ 31 END $ 32-60 ; 
 
PROC PRINT DATA=IN.EXEMPLO NOOBS ; 
VAR NOME ENDERECO ; 
RUN ; 
 
DATA EXEMPLO1 ; 
 INFILE “C:\TEMP\DADOS.DAT” ; 
 INPUT NOME $ 1-8 SEXO $ 
 IDADE $ 13-14 ALTURA 16-19 ; 
RUN; 
 
PROC PRINT DATA=EXEMPLO1 ; 
RUN; 
 
PROC FREQ DATA=EXEMPLO1 ; TABLES IDADE*ALTURA ; RUN ; 
 36
11 – Alguns Comando Básico de Programação do SAS 
 
 - Comando de Atribuição (=) 
- Tipo: Comando de execução; 
- Uso: Data Step; 
- Comando Caractere utilizado para criar novas variáveis e editar as já existentes em um Data 
Step. 
<variável> = <expressão> ; 
variável Nome com no máximo 32 caracteres. 
expressão Expressões do tipo: 
o - Operações aritméticas simples: + - * / ** 
x2 = x ; Move valor; 
soma = x+y ; Adição; 
dif = x-y ; Subtração; 
dobro = x*2 ; Multiplicação; 
met = x/2 ; Divisão; 
cubo = x**3 ; Potenciação; 
y = -x ; Mudança de sinal; 
 
 o - Constantes : 
N=0 ; Constante numérica; SEXO="F" ; Constante caractere; 
 
o - Concatenação de caracteres : || 
A=”PAULO” || “ANTUNES”; ==> A=”PAULOANTUNES” 
A=”PAULO” || “ ” || “ANTUNES”; ==> A=”PAULO ANTUNES” 
 
o - Expressões complexas com prioridade de avaliação: 
( ) Função ** * / + - 
 =================> 
A = X+Y+Z ; 
A = X+Y*Z ; 
A = X/(Y/Z) ; 
- Funções: 
S = SQRT(X) ; 
A = INT(X) ; 
Z = ABS(SQRT(X)-2) ; 
 37
Exemplo Simulado no SAS: 
LIBNAME ARQ "C:\SAS\TESTE" ; 
DATA ARQ.LUCROS ; 
INFILE “C:\DADOS\NUMEROS.TXT”; 
INPUT ANO 1-2 RECEITA 4-7 DESPESAS 9-12; 
VAL_DOL = 0.98 ; 
ANO = ANO + 1900 ; 
LUCRO = RECEITA - DESPESAS ; 
DOLLAR = ( RECEITA - DESPESAS ) / VAL_DOL ; 
RUN; 
 
Arquivo: NUMEROS.TXT 
01 02 03 04 05 06 07 08 09 10 11 12 
9 4 5 6 5 0 1 0 5 0 
9 5 6 2 8 0 1 1 4 0 
9 6 8 4 5 0 2 4 5 0 
 
PROC PRINT DATA=ARQ.LUCROS NOOBS DOUBLE ; 
TITLE "Analise Contábil" ; 
VAR ANO RECEITA DESPESAS LUCRO DOLLAR ; 
SUM RECEITA DESPESAS LUCRO DOLLAR ; 
RUN ; 
 
AnaliseContábil 
ANO RECEITA DESPESAS LUCRO DOLLAR 
 1994 5650 1050 4600 4693.8775 
 1995 6280 1140 5140 5244.8979 
 1996 8450 2450 6000 6122.4489 
 ===== ==== ===== ========= 
 20380 4640 15740 16061.2240 
 
11.1 - Comando IF-THEN/ELSE 
- Tipo: Comando de Execução; 
- Uso: Data Step; 
- Comando que condiciona a execução de um outro comando SAS, de acordo com alguma 
expressão, que determinará essa condição; 
- Se a expressão, que determina a condição, for verdadeira, será executado o comando que 
vier após o THEN. Se a condição for falsa, será executado o comando que vier após o ELSE. 
Somente um comando após o THEN e do ELSE 
 38
IF <expressão> [THEN] <comando> ; 
 [ELSE] <comando> ; 
Expressão: Combinação de variáveis com operadores de comparação e/ou operadores lógicos 
que determinam uma condição. 
 
Comando: Comando do SAS que será executado de acordo com o resultado da condição. 
 
Operadores de Comparação 
GT > maior que 
LT < menor que 
EQ = igual a 
LE <= menor ou igual a 
GE >= maior ou igual a 
NE ~= não é igual (diferente) 
NL não é menor 
NG não é maior 
IN está no conjunto 
 
Operadores Lógicos 
AND & e, ambos 
OR | ou, , um ou outro 
NOT ~ negação 
 
Exemplo simulado no SAS. 
LIBNAME TESTE "A:\" ; 
DATA TESTE.CLASSE ; 
INFILE “C:\ESCOLA\CLASSE.TXT”; 
INPUT NOM E $ 1-7 SEXO $ 8 IDADE 10-11 @13 ALTURA 4.2 ; 
IF (SEXO="1" AND ALTURA<1.55) OR (SEXO="1" AND IDADE<12) 
THEN CLASSE="100" ; 
ELSE IF (SEXO="2" AND ALTURA<1.55) OR (SEXO="2" AND IDADE<12) 
THEN CLASSE="200" ; 
ELSE CLASSE="300" ; 
RUN; 
 
Arquivo: CLASSE.TXT 
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 
P A U L A 1 1 1 1 . 6 0 
F L A V I A 1 1 5 1 . 6 5 
M A R C O S 2 1 1 1 . 6 0 
L U I S 2 1 4 1 . 6 0 
 
PROC PRINT NOOBS ; 
VAR NOME CLASSE ; 
RUN ; 
 39
The SAS System 
 
NOME CLASSE 
 
PAULA 100 
FLAVIA 300 
MARCOS 200 
LUIS 300 
 
 
11.2 - Comandos DO/END 
- Tipo: Comando de execução; 
- Uso: Data Step 
- Comando que define a execução de um bloco de comandos do SAS; 
- Todos os comandos existentes entre o comando DO e o comando END, deverão ser execu-
tados imediatamente; 
- Comandos DO e END podem ser usados para executar um grupo de comandos quando se 
encontra uma condição, normalmente, para ampliar o comando IF-THEN/ELSE. 
IF <expressão> THEN DO; 
<comandos> ; 
 
Exemplo simulado no SAS 
DATA TRABALHO ; 
INFILE "A:\EMPRESA.DAT" ; 
INPUT NOME $ 1-8 DEP_NO $ 10-12 COM 14-17 SALARIO 19-23 ; 
 IF DEP_NO="201" THEN DO ; 
 DEP="VENDAS" ; 
 SAL=COM+SALARIO ; 
 END ; 
 ELSE DO ; 
 DEP="ADMINISTRATIVO" ; 
 SAL=SALARIO ; 
 END ; 
 
PROC PRINT NOOBS ; 
RUN ; 
 
The SAS System 
 NOME DEP_NO COM SALARIO DEP SAL 
 CARLOS 201 1500 1500 VENDAS 3000 
 ELIANE 101 . 1800 ADMINI 1800 
 ALVARO 101 . 3800 ADMINI 3800 
 FATIMA 201 500 1500 VENDAS 2000 
 
 40
11.3 - Comando INPUT 
- Tipo: Comando de execução; 
- Uso: Data Step; 
- O comando INPUT serve para descrever ao SAS como estão armazenados e organizados os 
dados em arquivos textos que foram especificados pelo comando INFILE. 
- Todo arquivo aberto pelo comando INFILE, sempre necessitará de um comando INPUT 
para ler o seu conteúdo; 
- O comando INPUT irá ler registro a registro (leitura sequencial) até encontrar "fim de arqui-
vo (EOF)", e irá atribuir nomes (Variáveis) para cada campo de um registro; 
- Dois tipos básicos de comando INPUT, são os mais utilizados: 
- INPUT COLUNADO 
- INPUT FORMATADO 
 
11.4 - Input Colunado 
- Lê as variáveis especificando a sua posição na linha de dados (posição inicial e posição fi-
nal). As variáveis devem estar alinhadas e colunadas no arquivo de leitura de dados. 
INPUT <variável> [$] <início>-<fim> [.decimal] ; 
variável Nome da variável, que será associada a uma coluna de dados. 
$ Caractere opcional que indica que a variável só irá conter dados alfanuméricos. 
Sem o $, significa que a variável será numérica. 
início Valor que indica a posição inicial da variável na linha de dados. 
Fim Valor que indica a posição final da variável na linha de dados. 
.decimal Valor opcional, indica o número de posições decimais de uma variável numérica. 
 
11.5 - Input Formatado 
- Lê as variáveis especificando o tamanho e, opcionalmente, o formato do campo na linha de 
dados. 
- É o tipo de INPUT mais poderoso e complexo do SAS. 
INPUT <variável> [$] <w.d> ou [fomatow.d] ; 
variável Nome da variável, que será associada a uma coluna de dados. 
$ Caractere opcional que indica que a variável só irá conter dados alfanuméricos. 
Sem o $, significa que a variável será numérica. 
w. Valor que indica o tamanho de um campo na linha de dados. 
w.d Valor que indica o tamanho de um campo numérico com casas decimais. 
 41
formatow.d Campo opcional. Nome de um formato especial de leitura de dados: 
BINARYw.d Lê campo numérico no formato binário e o converte para decimal; 
COMMAw.d Lê campo numérico com vírgulas e as retira; 
Ew.d Lê campo numérico com notação científica; 
HEXw. Lê campo numérico em hexadecimal; 
DDMMYYw. Lê campo no formato padrão de datas dd/mm/yyyy. 
 
11.6 - Controles Especiais do Comando INPUT 
Indicador de COLUNA ( @ ) 
@n Move a leitura para a coluna n ; 
Indicador de LINHA ( / ) / Avança a leitura em um registro; 
 
Exemplo simulado no SAS 
DATA POSICAO ; 
INFILE "C:\SAS\POS.DAT" ; 
INPUT A $ 1-5 @10 B $ 4. @17 C $ 4. / D $ 1-4 / E $ 4. @8 F $ 2. ; 
RUN; 
PROC PRINT ; RUN ; 
 
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 
1 1 1 1 1 B B B B C C C C 
D D D D 
E E E E F F 
2 2 2 2 2 b b b b c c c c 
d d d d f f 
e e e e 
 
The SAS System 
OBS A B C D E F 
 1 11111 BBBB CCCC DDDD EEEE FF 
 2 22222 bbbb cccc dddd eeee ff 
 
11.7 - Detalhes do Comando INPUT 
- Em campos numéricos não são permitidos "brancos" entre os números; 
- Sinal (+ - ), ponto decimal (.) e notação científica para expoente (E) são permitidos em cam-
pos numéricos; 
- Campos tipo caractere podem ter, no máximo, 32K de caracteres; 
 42
- São permitidos caracteres "brancos", em qualquer posição, em campos do tipo caractere; 
- Campos em branco (sem informação) são considerados como "missing value" (valor perdi-
do). 
- Os campos de um registro de dados podem ser lidos em qualquer ordem. 
 
INPUT PESO 17-20 NOME $ 1-8 IDADE 11-12 SEXO $ 9 ; 
 
- Campos ou partes de um campo podem ser relidos. 
INPUT NOME $ 1-8 PREFIXO $ 1-3 ENDERECO $ 10-40 APT $ 38-40; 
 
- Dados caracteres serão armazenados, alinhados pela esquerda, e os dados numéricos, alinha-
dos pela direita; 
- Todos os tipos de INPUT, podem ser combinados num único comando INPUT; 
 
 
Ex: Detalhes de leitura 
INPUT JAN 3. FEV 3. MAR 3. ABR 3. MAI 3. JUN 3. ; 
 
INPUT (JAN FEV MAR ABR MAI JUN) (3.) ; 
 
INPUT (MES1 MES2 MES3 MES4 MES5 MES6) (3.) ; 
 
INPUT (MES1-MES6) (3.) ; 
 
 
 
 
 
 
 
 
 
 
 
 43
12 - Referências 
 
BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. São Paulo: Saraiva. 5º edição, 2005. 
 
MAGALHÃES, M. N., LIMA, A. C. P. Noções de Probabilidade e Estatística, São Paulo: 
Edusp, 5ª. edição, 2004 
 
TACHIBANA, V. M. Notas de aulas de Computação Aplicada à Estatística. Presidente 
Prudente, 2007. 
 
Manuais do SAS.

Continue navegando