Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" Campus de Presidente Prudente Principais Distribuições de Probabilidade e Noções Básicas de SAS Relatório das atividades desenvolvidas no período de 26/04/2008 a 27/02/2009 da Bolsa de Apoio Acadêmico e Extensão I (PAE) . Bolsista: Fabiano José dos Santos Orientadora: Vilma Mayumi Tachibana Presidente Prudente 2009 2 Índice 1 - Introdução....................................................................................................... 4 2 - O que faz um Estatístico................................................................................ 5 3 - Variáveis Aleatórias Discretas...................................................................... 6 3.1- Introdução...................................................................................................... 6 3.2 - Funções discretas de probabilidade.............................................................. 6 3.3 - Esperança Matemática (Média)..................................................................... 6 3.4 -Variância......................................................................................................... 7 3.5 - Desvio Padrão............................................................................................... 7 4 - Principais Modelos Discretos........................................................................ 9 4.1 - Modelo Uniforme Discreto........................................................................... 9 4.2 - Distribuição de Bernoulli.............................................................................. 9 4.3 - Modelo Binomial.......................................................................................... 10 5 - Outros Modelos Discretos.............................................................................. 12 5.1 - Modelos Geométricos................................................................................... 12 5.2 - Modelo de Poisson........................................................................................ 13 5.3 - Modelo Hipergeométrica.............................................................................. 13 6 - Variáveis Aleatórias Contínuas.................................................................... 15 6.1- Introdução...................................................................................................... 15 6.2 - Esperança e Variância.................................................................................. 16 6.3 - Distribuição Continua Uniforme................................................................... 16 6.4 - Distribuição Exponencial.............................................................................. 17 6.5 - Distribuição Normal...................................................................................... 18 6.6 - Função Densidade de Probabilidade da Distribuição Normal...................... 18 7 - Outros Modelos Contínuos........................................................................... 22 7.1 - Distribuição gama......................................................................................... 22 7.2- Distribuição Qui-Quadrado………………………………………………… 23 7.3 - Distribuição t-Student…………………………………………………….. 25 8 - Variáveis Aleatórias Multidimensionais...................................................... 27 8.1- Distribuições Marginais................................................................................. 27 3 9 - Medidas de Posição e Dispersão................................................................... 28 9.1 - Média............................................................................................................ 28 9.2 - Mediana……………………………………………………………………. 28 9.3 - Moda………………………………………………………………………. 28 9.4 - Variância....................................................................................................... 28 9.5 - Desvio Padrão ………………………………………………...................... 29 9.6 - Covariância………………………………………………………………... 29 9.7 - Coeficiente de Correlação…………………………………………………. 29 9.8 - Coeficiente de Variação …………………………………………............... 29 9.9 - Amplitude ………………………………………………………………… 29 10 - SAS Programação………………………………………………………… 31 10.1 - Introdução……………………………………………………………....... 31 10.2 - Conceitos Basicos…………………………………………………........... 31 10.3 - Estrutura do arquivo SAS........................................................................... 32 10.4 - Nomenclatura para arquivos de variáveis................................................... 32 10.5 - Estrutura PROC STEP................................................................................ 33 10.6 - Procedimento PRINT.................................................................................. 34 10.7 - Síntese dos Comandos................................................................................ 34 10.8 - Comando LIBNAME.................................................................................. 35 11 - Alguns comandos básicos de programação do SAS.................................. 36 11.1 - Comando IF-THEN/ELSE.......................................................................... 37 11.2 - Comandos DO/END................................................................................... 39 11.3 - Comando INPUT........................................................................................ 40 11.4 - Input Colunado........................................................................................... 40 11.5 - Input Formatado.......................................................................................... 40 11.6 - Controles Especiais do Comando INPUT................................................... 41 11.7 - Detalhes do Comando INPUT................................................................... 45 12 - Referências.................................................................................................... 43 4 1 - Introdução O cidadão comum pensa que a estatística se resume apenas a apresentar tabelas de nú- meros em colunas esportivas e ou econômicas de jornais e revistas, ilustradas com gráficos, pilhas de moedas, etc. ou quando muito associam a estatística á previsão de resultados eleito- rais. Mas estatístico de hoje não se limita a compilar tabela de dados e os ilustrar graficamen- te. Pois á partir de 1925, com os trabalhos de Fisher, a estatística iniciou-se como método ci- entífico, então, o trabalho do estatístico passou a de ajudar a planejar experimentos, interpre- tar e analisar os dados experimentares e apresentar os resultados de maneira a facilitar a to- mada de decisões razoáveis. Deste modo, podemos então definir a estatística como sendo a ciência que se preocupa da coleta, organização, apresentação, análise e interpretação dos da- dos. Didaticamente podemos dividir a estatística em duas partes a estatística descritiva e a inferência estatística. A estatística descritiva se refere à maneira de apresentar um conjunto de dados em tabelas e gráficos, e ao modo de resumir informações contidas nesses dados de me- didas. Jáa inferência estatística baseia-se na teoria de probabilidade para estabelecer conclu- sões sobre todo um grupo (chamado população), quando se observou apenas uma parte (a- mostra) desta população. É necessário ter em mente que a estatística é uma ferramenta para o pesquisador, nas respostas dos “por quês” de seus problemas. E que para ela ser bem usada é necessário conhe- cer seus fundamentos e princípios, e acima de tudo que o pesquisador desenvolva um espírito critico e jamais deixe de pensar. Pois “em ciência é fácil mentir usando a estatística, o difícil é falar a verdade sem usar a estatística”. Este relatório apresenta alguns resultados de estudo de estatística descritiva, probabili- dade e comandos básicos de SAS, tendo como base os livros de Bussab (2005), Magalhães e Lima (2002) e a apostila do curso Computação Aplicada à Estatística elaborada por Tachibana (2007). Adotou-se como referência esses livros por serem bastante didáticos e por apresenta- rem questões atuais e interessantes. Esses autores não serão referenciados ao longo do relató- rio, mas todas as teorias e exercícios apresentados são retirados de seus livros. Esse relatório tem presente apenas uma síntese, desses estudos, com apresentação de resoluções de alguns exercícios propostos na literatura citada. 5 2 - O que faz um Estatístico A atividade básica de Estatístico é coletar, analisa e interpretar numericamente as informações. É assim que ele trabalha em uma pesquisa de opinião pública ou de análise de mercado, planejando, dirigindo e efetuando levantamento estatístico de controle de qualida- de e analisando dados obtidos em recenseamentos. O campo de atuação vai muito além dis- so: nas empresas (pública ou privada) podem trabalhar como dirigentes (diretores, gerentes, ...), em áreas de planejamento financeiro e de produção, aplicando métodos estatísticos no controle de qualidade de produtos. Na indústria farmacêutica a Estatística é aplicada para analisar e testar novos produtos. Na Medicina, a Estatística vem sendo utilizada nos estudos de epidemias, na análise de novos métodos clínicos e cirúrgicos, no registro e coleta de da- dos sobre a saúde pública. Na agroindústria, a busca de técnicas que possibilitem aumento na produção e diminuição nos custos, melhoria genética, entre outros, tem exigido a partici- pação efetiva de Estatísticos, para orientar, planejar e desenvolver e implementar novas tec- nologias. Na indústria de manufatura propriamente dita, o Estatístico desempenha papel fundamental: otimizando processos, buscando continuamente a melhoria da qualidade de serviços e produtos. Nas Ciências Atuariais, desenvolvendo e gerenciando planos de saúde, fundos de pensão ou previdência privada. Resumindo: O Estatístico é um profissional que produz informação especializada para um mundo cada vez mais especializado. É graças a isto e à sua atuação diversa que o Estatístico está conquistando o mercado de trabalho num crescimento constante e contínuo. 6 3 - Variáveis Aleatórias Discretas 3.1 - Introdução Neste capítulo, incorpora-se o conceito de probabilidade no estudo de variáveis associa- das a características em uma população. Na formalização feita com a introdução de probabili- dades, serão tratadas apenas variáveis quantitativas. Haverá distinção entre o caso discreto e contínuo, pois a atribuição de probabilidades será diferente em cada situação. As variáveis qualitativas podem ser, em algumas ocasiões e com devido cuidado, tratadas como discretas na atribuição de probabilidades. 3.2 - Funções discretas de probabilidade A função que atribui a cada valor da variável aleatória sua probabilidade é denominada de função discreta de probabilidade ou simplesmente função de probabilidade. A notação a ser utilizada é: ( ) ( ) , 1, 2,...i i ip X x p x p i= = = = Uma função de probabilidade satisfaz 0 1ip≤ ≤ e 1.i i p =∑ Note que, na maioria dos casos, X terá apenas um número finito de valores possíveis e, assim, a verificação de que a soma de probabilidade é igual a 1 será feita por uma soma finita. As variáveis aleatórias são completamente caracterizadas pela sua função de probabilidade e uma parte importante da Estatística é justamente obter, pra uma dada variável de interesse, a função de probabilidade que melhor represente seu comportamento na população. 3.3 - Esperança Matemática (Média) Assim como a média de uma distribuição de freqüências é definida como soma de produtos dos diversos valores observados pelas respectivas freqüências relativas, é natural definir a média de uma variável aleatória (v.a.), ou de sua distribuição de probabilidade, como a soma de produtos dos diversos valores de xi da v.a. pelas respectivas probabilidades P(xi). A média de uma v.a. X é também chamada valor esperado ou esperança matemática, ou simplesmente esperança de X. É representada por E(X) e se define como: ∑ = ===++=+== n 1i iinn2211 )xX(Px)xX(Px)xX(Px)xX(Px)X(E ⋯ É uma média ponderada dos xi, em que os pesos são as probabilidades associadas. 7 Função de repartição ou de distribuição acumulada. Uma maneira alternativa pela qual pode-se caracterizar a distribuição de probabilidade de uma v.a é por meio da sua “função de repartição ou distribuição acumulada”, designada por F(X). Essa função é definida por ( ) ( )F X p X x= ≤ Para as variáveis aleatórias discreta tem-se que: ( ) ( ) i i x x F X p x ≤ = ∑ 3.4 - Variância Assim como a média é uma medida de posição de uma v.a., é natural que se procure uma medida de dispersão dessa variável em relação à média. Existem várias formas de se ob- ter essa medida, sendo a que melhor representa essa dispersão a variância, representada por σ2 e definida por: ∑ = =−==σ n 1i i 2 i 2 )xX(P))X(Ex()X(Var Desenvolvendo o termo quadrático do somatório, obtem-se uma expressão mais fácil de calcular a variância dada por: 222 )]X(E[)X(E)X(Var −==σ , na qual ∑ = == n 1i i 2 i 2 )xX(Px)X(E . 3.5 - Desvio Padrão O desvio padrão (σ) é a raiz quadrada positiva da variância. Tem sobre essa última a vantagem de exprimir a dispersão na mesma unidade de medida da v.a.: 2σ=σ Exercícios: Seja X uma v.a. discreta assumindo valores no conjunto {1,2,3} e com distribui- ção de probabilidade dada por Tabela 1: Distribuição da variável aleatória X X 1 2 3 P(X = x) 1/3 1/6 1/2 8 a) Obtenha a distribuição da função acumulada: b) Calcule a média e a variância de X; c) Calcule ( 2)P X ≥ e ( 2).P X > Solução: A função de distribuição acumulada de X é definida por ; F (x) = P(X x) = P(X = y)x y y x≤ ≤ ∑ Para todo ℜ∈x . Portanto, 0 se x < 1 1/3 se 1 x < 2 F (x) = 1/2 se 2 x < 3 1 se x 3. x ≤ ≤ ≥ A média de X é dada por: 1 1 1 13E(X) = P(X = x) = 1. 2. 3. 3 6 2 6x x + + =∑ Como, 2 2 1 1 1 33E(X ) =x P(X = x) = 1. 4. 9. 3 6 2 6 + + = Segue que a variância de X é dada por: 2 2 2 33 13 29V (X) = E(X ) - [E(X)] = 6 6 36 − = Outro modo de calcular V(X) seria calcular a soma 2 2V (X) = E[(X - E(X)) ] = (x - (13/6)) P(X = x) x ∑ Finalmente, 2P(X 2) = P(X = 2) + P(X = 3) = 3 ≥ e 1P(X > 2) = P(X = 3) = .2 9 4 - Principais Modelos Discretos Algumas variáveis aleatórias aparecem com bastante freqüência nas situações práticas e justificam um estudo mais aprofundado. Em geral nesses casos, a distribuição de probabilida- de pode ser escrita de uma maneira mais compacta, isto é, existe uma lei pra atribuir as proba- bilidades. 4.1 - Modelo Uniforme Discreto Seja X uma variável aleatória cujos possíveis valores são representados por 1 2, ,...,x x . Diz-se que X segue o modelo Uniforme Discreto se atribui a mesma probabilidade 1/k para cada um desses k valores, isto é sua função de probabilidade é dada por: ( ) 1/ ,jp X x k= = 1,2,...., .j k∀ = Observe que a expressão são probabilidades, uma vez que seus valores estão no intervalo [0,1] e a soma de todas as probabilidades é igual a 1. O modelo Uniforme tem esse nome pois todos os seus valores ocorrem com a mesma probabilidades e, assim, pode-se dizer que a pro- babilidade se distribui uniformemente entre os diversos valores. Exemplo: Número de Caras em único arremesso de uma moeda honesta. Neste experimento o espaço amostral é {H, T }, sendo H cara e T coroa. A variável aleatória que escreve o número de caras em um único arremesso é NH(H) = 1 e NH(T ) = 0. Como a moeda é honesta a distribuição de probabilidades é P(xj ) = 1/2 com xj não nulo em {0, 1}. 4.2 - Distribuição Discreta Bernoulli Seja um experimento no qual só pode ocorrer “sucesso “ ou fracasso “ e associa-se uma v.a X aos possíveis resultados, de forma que: x = 1 se o resultado for um sucesso e x = 2 se o resultado for um fracasso Diz-se que a variável aleatória assim definida tem distribuição de Bernoulli. Sendo p a probabilidade de ocorrer um sucesso, a probabilidade de ocorrer um fracasso será q = 1 – p e a função probabilidade da distribuição Bernoulli será: , 1 ( ) ( ) 1 0 ( ) 0 p se k Sucesso p X k p se k Fracasso se outro caso = = = − = Pode-se observar que: pXE =)( e .)( pqXVar = 10 Obs: Essa distribuição tem importância como geradora de outras distribuições. Exercício: Uma urna tem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja X: nº de bolas verdes. Calcular E(X), Var(X) e determinar P(X). Solução: 1 30 30 50 5 ( ) (2 5) .(3 5) 20 21 50 5 x x q X P X x p − = = = ∴ = = = = ֏ ֏ 2( ) 5 ( ) . (2 5).(3 5) 6 25 E X p Var X p q = = = = = 4.3 - Modelo Binomial Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma probabilidade de sucesso p. A variável aleatória que conta o número total de sucesso é deno- minada Binomial com parâmetros n e p e sua função de probabilidade é dada por ( ) (1 ) , 0,1,2,...., ,k n knp X k p n k n k − = = − = Com n k representando o coeficiente binomial calculado por ! !( )! n n k k n k = − Usa-se a notação X ~ b(n, p) para indicar que a variável aleatória X segue o modelo Bi- nomial com parâmetros n e p. As probabilidades são caracterizadas pela informação dos pa- râmetros. Em situação práticas, a variável Binomial aparece a partir de outras variáveis, pela cri- ação de duas categorias excludentes. Na distribuição Binomial tem-se: E(X) = Np e Var(X) = npq. Exercícios: 1) Uma moeda perfeita e lançada quatro vezes. Seja Y o número de caras obtidas. Calcule a distribuição de Y. Solução: Observe que Y assume valores no conjunto {0, 1, 2, 3, 4}. Portanto, a distribuição de Y é dada por: 11 4 4 4 4 1 1P(Y = y) = C 1 2 2 2 y y y y C− − = , para y = 0, 1, 2, 3, 4. 2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili- dade de cara dada por p, com 0 < p < 1. Solução: Observe que Y assume valores no conjunto {0, 1, 2, 3, 4}. Portanto distribuição de Y é dada por: 4 4-yP(Y = y) = C p (1 - p)yy , para y = 0, 1, 2, 3, 4. 12 5 - Outros Modelos Discretos Apresenta-se neste capítulo, os modelos Geométricos, Poisson e Hipergeométrico, que têm várias aplicações práticas. No capítulo anterior, os modelos definidos assumiram apenas um número finito de valores distintos. Como será visto a seguir, os modelos Geométricos e Poisson podem ter um número infinito de valores dentre os inteiros positivos. 5.1 - Modelos Geométricos Tem-se agora repetição da Bernoulli até que o sucesso ocorra. Assim a v.a. X assume os valores possíveis 1, 2, 3....., k, .... de número de repetição até ocorrer um sucesso . Supõe-se que um dado é jogado até que se obtenha sucesso. Sendo + para sucesso e – para Fracasso, tem-se: , , , , , , ...........,− − − − − − + Desta forma pode-se fazer com que p seja a probabilidade de sucesso e q = 1 – p a pro- babilidade de fracasso, então: 1( ) 1, 2, .....kp X k q p para k−= = = Para que a distribuição satisfaça as condições necessárias de uma distribuição Geométri- ca é preciso que: 1) 00 1 ( ) 1 k p X k = = =∑ e 2) ( ) 0p X k= ≥ . Analogamente tem-se que 1( )E X q = e 2( ) qVar X p = Exercícios: 1)Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira vez. Seja X o número de lançamento até que isso aconteça. Obtenha a distribuição de X. Solução: Observe que X assume valores no conjunto {1, 2, 3,....}. Portanto, a distribuição de X é dada por 11 1 1P(X = x) = 2 2 2 X X − = , para x = 1, 2, 3,..... 2) Repita o problema anterior, considerando agora que a moeda é viciada, sendo a probabili- dade de cara dada por p, com 0 < p < 1. 13 Solução: Nesse caso a distribuição de X é dada por x-1P(X = x) = (1 - p) p , para x = 1, 2, 3,..... 5.2 - Modelo de Poisson Uma variável aleatória X tem distribuição de Poisson com parâmetros 0λ > se sua fun- ção de probabilidade é dada por: ( ) , 0,1,2,3........, ! kep X k k k λλ− = = = Com o parâmetro λ sendo usualmente referido como taxa de ocorrência. A notação será 0~ ( ).X P λ λ é a freqüência média ou esperada de ocorrências num determinado intervalo de tempo. Analogamente tem-se que E(X) = λ t e Var(X) = λ t. Exercício: Em um processo de fabricação de perfil de alumínio aparece em média uma falha a cada 400 metros. Qual a probabilidade de ocorrer 3 falhas em 1000 metros de perfil? Solução: Sabe-se que ( ) ! kep X k k λλ− = = . Logo, como k = 3 e 1 400 λ = , portanto: 3 3 1 400 1 .1000 400 1 1000 .1000 1400 400( 3) . 0, 2137 3! 6 P X e e − = = = = 5.3 - Modelo Hipergeométrica Essa distribuição é adequada quando se consideram extrações casuais feitas sem reposi- ção de uma população dividida segundo dois atributos. Para ilustrar, considere uma população de N objetos, r dos quais têm atributos A e N – r têm o atributo B. Um grupo de n elementos é escolhido ao acaso, sem reposição. É de interesse calcular a probabilidade de que esse grupo contenha k elementos com o atributo A. Pode-se ver facilmente, utilizando o princípio multi- plicativo, que essa probabilidade é dada por: ,k r N r k n k p N n − − = 14 na qual os pares ( , )kk p constituem a distribuição hipergeométrica de probabilidades. Se a v.a. X for definida como os números deelementos na amostra que tem atributos A, e então, 0 min( , ).k r n≤ ≤ Analogamente, tem-se que ( )E X np= e ( ) (1 ) 1 N nVar X np p N − = − − . Exercícios: Uma caixa contem 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6 lâmpadas ao acaso para iluminação de uma sala. Qual a probabilidade de que: a) Exatamente duas estejam queimadas? b) Pelo menos uma esteja boa? Solução : a) Observe que: Logo, tem-se que: 5 7 . 2 4( 2) 0,3788 12 6 P X = = = . b) Pelo que se pode observar, tem-se que ( 6) 0P X = = , pelo fato de não existir 6 lâmpadas queimadas. Portanto: ( 6) ( 5) ( 6) 1P X P X P X< = ≤ − = = . 15 6 - Variáveis Aleatória Contínuas 6.1 - Introdução Neste capítulo serão estudados modelos probabilísticos para variáveis aleatórias contí- nuas, ou seja, variáveis para as quais possíveis valores pertencem a um intervalo de números reais. Uma função X, definida sobre espaço amostral Ω e assumindo valores num intervalo de números reais, é dita uma variável aleatória contínua. A característica principal de uma v.a. contínua é que, sendo resultado de uma mensu- ração, o seu valor pode ser pensado como pertencente a um intervalo ao redor do valor efeti- vamente observado. Por exemplo, ao dizer que a altura de uma pessoa é 1,75 cm, está-se me- dindo sua altura usando cm com unidade de medida e portando o seu valor observado é, na realidade, um valor entre 174,5 cm e 175,5 cm. Definição: Seja X uma variável aleatória. Suponha que os possíveis valores de X seja um in- tervalo que possui infinitos valores, então se diz que X é uma variável aleatória contínua. Se X é uma v. a. contínua, a função densidade de probabilidade f(X), indicada abrevia- damente por fdp, é uma função que satisfaz às seguintes condições: (a) f(X) ≥ 0, ∀ X; (b) A área sob a função densidade de probabilidade é 1, isto é: (c) P(a ≤ X ≤ b) = área sob a função densidade de probabilidade f(x) e acima do eixo x entre os pontos a e b, isto é: (d) P(X = x0) = 0, porque: Conseqüência: P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) Se X é uma v. a. contínua, a função de distribuição acumulada (fda) de X é definida como: ∫ ∞−=≤= x dssfxXPxF )()()( . 1dx)x(f =∫ +∞ ∞− ∫=≤≤ b a dx)x(f)bXa(P 0dx)x(f)xX(P 0 0 x x 0 === ∫ 16 Exemplo: Considere a seguinte densidade de probabilidade: f(x) = 2x, para 0 ≤ x ≤ 1 e f(x) = 0, fora desse intervalo. Obtenha a F(x) de X. > ≤≤== < = ∫ 1,1 10, 0 2 0,0 )( 0 22 x xx x ss x xF x 6.2 - Esperança e Variância Se X é uma v. a. contínua, o valor esperado de X (ou esperança matemática de X) de- notada por E(X) é definido como: ∫ ∞ ∞− = dxxfxXE )()( Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x < 1, então: 3 2 0 1 3 222)( 31 0 1 0 2 ==== ∫ ∫ xdxxdxxxXE Definição: A variância de uma variável aleatória contínua é definida por: Var(X) = E(X2) – [E(X)]2, onde ∫∞ ∞− = dxxfxXE )()( 22 . Exemplo: Para uma variável que têm densidade f(x) = 2x, 0 < x <1, então: 3 2)( =XE e 4 2 4 222)( 104 1 0 1 0 322 ==== ∫ ∫ xdxxdxxxXE . Logo, Var(X) = 2/4 – (2/3)2 =1/18 = 0,056. Também se pode obter o Desvio Padrão: 23,0056,0 ≅ . 6.3 - Distribuição Continua Uniforme Seja uma v. a. contínua que pode tomar qualquer valor no intervalo [a, b]. Se a proba- bilidade da variável cair em um subintervalo for a mesma para qualquer outra subintervalo de mesmo comprimento, tem-se uma distribuição uniforme. Sua função densidade de probabilidade será: 1( )f X para a x b b a = ≤ ≤ − e ( ) 0f x caso contrário= . Tem-se que ( ) 2 a bE X += e 2( )( ) 12 b aVar X −= . Exercícios: Dada a v.a. X, uniforme em (5, 10), calcule as seguintes propriedades: 17 a) P(X < 7) b) P(8 < X < 9) c) P(X > 8,5) d) ( 7,5 2)P X − > Solução: Tem-se que: 1 , 5 10( ;5;10) 10 0 , se xf x caso contrario ≤ ≤ = a) 7 5( 7) 0,4 10 5 p X −< = = − b) 9 5 8 5(8 9) (9) (8) 0,8 0,6 0, 2 10 5 10 5 p x F F − −< < = − = − = − = − − c) 8,5 7,5( 8,5) (8,5) 0,7 10 5 p X F −> = = = − d) ( 7,5 2)P X − > = logo, tem-se 7,5 2 2 7,5 9,5 x x x − > > + > ou 7,5 2 2 7,5 5,5 x x x − + > − > − < . Portanto, 9,5 5 5,5 5(5,5 9,5) (9,5) (5,5) 0,8 10 5 10 5 p x F F − −= < < = − = − = − − 6.4 - Distribuição Exponencial. Uma v.a. contínua X que tome valores não negativos, terá distribuição exponencial com parâmetros 0λ > , se sua função densidade e probabilidade for dada por ( ) 0 ( ) 0 xf x e para x f x Caso contrário λλ −= > = Assim, λ dxxxfXE 1)()( ∫∞ ∞− == e 2 2 1)())(()( λ dxxfXExXVar =−= ∫∞ ∞− . Exercício: Para uma variável Exponencial 1, determine a probabilidade de se sortear um va- lor que se distancie no máximo 0,5 de média. Obtenha a expressão da função de probabilidade dessa variável.Qual é o valor do terceiro quartil? Solução: Tem-se que : . 1 1 e )1(~ =λExpX Logo, 1,51 1 1` 1`,5 0,5 1 1 5 0,5 1 0,5 1 0,680x x x xe dx e dx e e e e e e − − − − − − − −+ = − − − + − + =∫ ∫ . 18 6.5 - Distribuição Normal A distribuição Normal é uma das mais importantes distribuições contínuas de probabi- lidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em Astronomia pelo alemão físico/matemático Gauss, trazendo muita confusão para várias pessoas que por esse motivo, acham que foi Gauss que a descobriu. Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa distribu- ição com valores muito freqüentes em torno da média e diminuindo a freqüência à medida que se afasta da média. Nem todos os fenômenos se ajustam à distribuição Normal. Por exemplo, considere a variável tempo de duração, em horas, de uma lâmpada de certa marca, conforme Figura 1. Figura 1 – Tempo de duração, em horas, de uma determinada lâmpada A experiência sugere que esta distribuição deve ser assimétrica com uma grande pro- porção de valores entre 0 e 500 horas e uma pequena proporção de valores acima de 1500 horas Obs: A distribuição utilizada nesse caso é a Distribuição Exponencial. 6.6 - Função Densidade de Probabilidade da Distribuição Normal ∞<<∞−= − − xe πσ xf σ µx , 2 1)( 2 2 1 2 Figura 2 - Gráfico da densidade Normal 19 Propriedades: A curva normal é simétrica em torno da média µ; � A moda e a mediana são iguais a µ; � Os pontos de inflexão são µ – σ e µ + σ; � A área sob a curva e acima do eixo horizontal é igual a 1. Parâmetros: µµµµ : média ou valor esperado σσσσ2: variância Notação : X ~ N(µ, σ2) A distribuição normal depende dos parâmetros µµµµ e σσσσ2 Figura 3 – Curvas Normais com médias diferentes e variâncias iguais. Figura 4 – Curvas normais com a mesma média e variâncias diferentes. µ1 µ2 ___N(µµµµ , σσσσ 12) ___N(µµµµ , σσσσ 22) ___N(µµµµ , σσσσ 32) σσσσ 1 2 < σσσσ 2 2< σσσσ 3 2 Curvas normais com mesmo desvio padrão, mas com médias dife- rentes. 20 Cálculo de Probabilidades P(a < X < b) Área sob a curva e acima do eixo horizontal (x) entrea e b. a µ b Figura 5 – Área correspondente a P (a < X < b) Se X ~ N(µ ; σ2), define-se: σ µ− = XZ . Então, E(Z) = 0 e Var(Z) = 1. Figura 6 – Gráficos das funções densidades de X ~ N ( 2,σµ ) e Z ~ N (0, 1). A variável Z ~ N (0,1) denomina-se normal padrão ou reduzida. Portanto, σσσσ µµµµ−−−− <<<<<<<< σσσσ µµµµ−−−− ==== σσσσ µµµµ−−−− <<<< σσσσ µµµµ−−−− <<<< σσσσ µµµµ−−−− ====<<<<<<<< bZaPbXaPbXaP )( Dada a v.a. Z ~ N (0, 1) pode-se mos obter a v.a. X ~ N (µ, σ2) através da transformação in- versa σZµX += . a µµµµ b x f(x) 0 z f(z) a – µµµµ σσσσ b – µµµµ σσσσ 21 Exercícios: A distribuição do tempo de duração de um certo tipo de pneu, em km, é uma va- riável normal com duração média de 30.000 km e desvio padrão 10.000 km, a) Qual a probabilidade de um pneu escolhido ao acaso durar mais de 75.000km? b) Qual a probabilidade de um pneu durar entre 63.500 e 70.000 km? c) Qual a probabilidade de um pneu durar entre 50.000 e 70.000 km? d) Qual a probabilidade de o pneu dura exatamente 65.555 km? e) O Fabricante deseja do pneu uma garantia de quilometragem de tal forma que, se a du- ração do pneu for inferior a garantia, o pneu deve ser trocado. De quanto deve ser a garantia para que somente 1% dos pneus sejam trocados? Solução. Pela definição sabe-se que a variável aleatória X pode ser transformada em padrão. Logo, a) .0668,04332,05,0)5,1(5,0)5,1( 10000 6000075000()75000( =−=<−=>=−>=> ZPZPZPXP b) .2045,01368,003413 )35,00()10( 10000 60000635000 10000 6000700000 )6350060000()70000060000()7000063500( =− =<<−<<= − <<− − << =<<−<<=<< ZPZPZPZP XPXPXP c) .6826,0)3413,0(2)10(2)10()01( )11( 10000 6000070000 10000 6000050000)7000050000( ==<<=<<+<<− =<<−= − << − =<< ZPZPZP ZPZPXP d) 0)65555( ==XP , pelo fato de ser quase impossível de ocorrer. A função de densidade é contínua e pela definição de integral tem–se que em um ponto a integral é 0. e) km. 36700 Portanto, .2330060000 33,2 10000 60000 Daí, . 10000 60000 01,0)( 00 00 0 0 =−=− ⇒−= − − < = − <==> xx xxZP σ µx ZPxXP 22 7 - OUTROS MODELOS Juntamente com o modelo normal, esses modelos são úteis para as v.a. de interesse prático, que na maioria dos casos assumem valores positivos e tendem a ter distribuições as- simétricas à direita. 7.1 - Distribuição Gama Aplica-se a distribuição gama à análise de tempo de vida de equipamentos, de tempo de retorno de mercadorias com falhas e a testes de confiabilidade. A função densidade de probabilidade para a distribuição gama é dada por: xr r ex r xf λλ −− Γ = 1 )()( para x ≥ 0 0)( =xf para x < 0 , na qual os parâmetros da distribuição gama, que podem assumir qualquer valor positivo, são: λ, taxa média do processo; r, número específico de eventos que ocorrem até que a variável X (tamanho do segmento de tempo ou espaço) seja atingida e Γ(r) é a função gama, definida por: ∫ ∞ −− =Γ 0 1)( dxexr xr Para r > 0 Esta função é tabelada, sendo alguns valores apresentados a seguir juntamente com algumas propriedades dessa função: a) 1)1( =Γ b) )()1( rrr Γ=+Γ c) )1()1()( −Γ−=Γ rrr d) !)1( kk =+Γ e) pi=Γ )2/1( f) pik kk 2 )12(*...*5*3*1)2/1( −=+Γ A Figura 7 apresenta a função f(x) para vários valores de r. 23 f(x) r=1 r=2 r=3 x Figura 7 – Função Densidade de Probabilidade para a Distribuição Gama. No caso especial de r = 1, tem-se a distribuição exponencial, pois Γ(1) = 1, ficando-se com: xexf λλ −=)( A distribuição gama se reduz à distribuição qui-quadrado, que será vista a seguir, quando λ = 1/2 e r = d/2, em que d é um parâmetro inteiro positivo. A distribuição de probabilidade é expressa por: ∫=≤ x dyyfxXP 0 )()( O valor esperado e a variância são calculados por: 2λλ r)X(Varr)X(E == Exercício: Calcule a probabilidade de passado um minuto no máximo, dois carros tenha che- gado a uma cabine de pedágio, considerando que λ = 5 carros por minuto. Solução: Neste caso, r = 2, ficando-se com: 2 2 1( ) 1 (1 ) 1! y xP X x y e dy eλ λλ λ− − −≤ = = − +∫ Como λ= 5, tem-se que: .96,06)006738,0(1)51(1)1( 1.5 =−=+−=< −eXP 7.2 - Distribuição Qui-Quadrado Um caso especial importante do modelo gama é obtido fazendo-se / 2vα = e 2β = , com 0v > inteiro. 24 Uma v. a. contínua Y, com valores positivos, tem uma distribuição qui-quadrado com v graus de liberdade(denotada 2( ( ))denotada vχ , se sua densidade for dada por /2 1 /2 /2 1 , 0,( / 2)2( ; ) 0, 0. v y v y e y vf y v y − − >Γ= < Tem-se que νYVarνYE 2)( ,)( == e 0( )P Y y p> = A distribuição qui-quadrado tem muitas aplicações em Estatística e, como no caso da normal, existem tabelas para obter probabilidades. A tabela fornece os valores de 0y tais que 0( )P Y y p> = , para alguns valores de p e de v. OBS: Essa distribuição é utilizada em testes de associação, homogeneidade e independência entre duas variáveis, os famosos “Testes Qui-Quadrados”. Exercício: Verifique se há evidência de associação entre as variáveis tipo de propaganda (comercial) e o gênero das crianças, em um teste realizado com 125 crianças. Tabela 2: Números de crianças segundo tipo de comercial escolhido e gênero. Tipo de comercial Gênero A B C Total Menino 30 29 16 75 Menina 12 33 5 50 Total 42 62 21 125 Solução: Calcula-se o valor esperado da célula menino que prefere a propaganda A (cruzamento da primeira linha com primeira coluna), se não houvesse influência do sexo na preferência: 75*42 25,2 125 esperado = = . Assim calculando os valores esperados para todas as outras célu- las tem-se: Tabela 3 – Valores observados, esperados e suas diferenças no teste qui-quadrado Tipo de comercial Gênero A B C Total Menino 30 25,2 29 37,2 16 12,6 75 +4.8 -8,2 +3,4 Menina 12 16,8 33 24,8 5 8,4 50 -4,8 +8,2 -3,4 Total 42 62 21 125 25 Calculando o Qui-Quadrado tem-se 2 2 2 2 2 2 2 ( 4,8) ( 8, 2) ( 3,4) ( 4,8) ( 8,2) ( 3, 4) 25, 2 37,2 12,6 16,8 24,8 8, 4amostra χ + − + − + −= + + + + + 2 0,914 1,808 0,907 1,371 2,711 1,376amostraχ = + + + + + 2 9,09818amostraχ = ⇒ ( 1).( 1) (2 1).(3 1) 1.2 2onde r c− − = − − = = (grau de liberdade da distri- buição qui-quadrado) Gráfico da distribuição Qui-Quadrado Região de Aceitação Região de Rejeição p = 0,95 1 – p = 0,05 Pela destruição e pelo valor tabelado tem-se que: 2( 1)( 1); 5,991r c pχ − − = e 2 9,09818amostraχ = . Portanto pelos resultados obtidos tem-se que há evidência de associação entre as variáveis. 7.3 - Distribuição t-Student A Distribuição t de Student é importante no que se refere à inferência sobre médias populacionais.O nome Student vem do pseudônimo usado pelo estatísticoinglês W. S. Gosset, que introduziu essa distribuição no início do século passado. A v. a. X tem distribuição t de Student (ou simplesmente t) com média µ , parâmetros de escala σ e v graus de liberdade, denotando-se 2~ ( , )vX t µ σ , se sua função de densidade é dada por 2 ( 1)/2(( 1) / 2)( ; ) (1 / ) , 00 00 ( / 2) vvf t v t v t v vpi − +Γ + = + − < < Γ Diz-se que tal variável tem uma distribuição t de Student com v graus de liberdade e é indicada por t(v). Sua média é ( ) 0E t = e a variância é igual a ( ) 2 vVar t v = − . 26 Exercício: Considere um teste de colisão de carros. A análise de 12 carros danificados resulta num custo de conserto que parece ter distribuição em forma de sino, com média igual a R$ 26,227 e desvio-padrão R$ 15,873. Determine: a) a melhor estimativa pontual de µ(custo do conserto) b) O intervalo de confiança para um nível de confiança de 95% Solução: a) É dada pela média da amostra .227,26=x b) Amostra pequena (n ≤ 30); desvio padrão desconhecido; distribuição é similar à distribui- ção normal. Na tabela: para a coluna 0,05 bilateral e grau de liberdade 2n-1=11 t =2,201α→ . Logo, 2 15873E= t . =2,201. 10.085,29 12 s n α = . Portanto, ExµEx +<<− � .⇒ 29,10085227,2629,10085227,26 +<<− µ ⇒ 29,3631271,16141 << µ Construindo-se tais intervalos para 100 amostras de 12 carros cada uma, 95% desses interva- los conterão a verdadeira média da população, ou seja, a custo médio do reparo. 27 8 - Variáveis Aleatórias Multidimensionais Uma v.a. Bidimensional é caracterizada por um par ordenado de valores assumidos dentro de dado conjunto segundo as leis probabilísticas. Assim, se X for um ponto de um dado branco e Y um ponto de um dado preto, considera-se a v.a. Bidimensional discreta (X, Y), tal v.a. é caracterizada pela seguinte função de probabilidade: 1( , ) 36 p x y = 1, 2,3,4,5,6 1,2,3, 4,5,6 x y = = No caso de v.a. bidimensional contínua a distribuição de probabilidade será caracte- rizada por função densidade de probabilidade bidimensional (ou conjunto) f(x,y). Condições: 1) ( , ) 0f x y ≥ 2) ∫ ∫∞ ∞− ∞ ∞− = 1),( dxdyyxf Para uma dada região xyR tem-se [( , ) ] ( , ) xy xy R p x y R f x y dxdy∈ = ∫ ∫ 8.1 - Distribuição Marginais Supondo que se tem a distribuição de variável aleatória (X, Y), pode-se obter a distri- buição apenas de X, independentemente do valor de Y, que será denominada Distribuição Marginal de X. Pode-se assim proceder também em relação a Y, obtendo então a distribuição marginal de Y. Para uma dada Função de probabilidade ( , )i jp x y tem-se que: ( ) ( , )i i j j P X x p x y= =∑ Marginal de X ( ) ( , )i i j i P Y y p x y= =∑ Marginal de Y Para caso contínuo, sendo g(x) a função densidade marginal de X, h(y) a função de densidade marginal de Y, são respectivamente, ∫∞∞−= dyyxfxg ),()( e ∫∞∞−= dxyxfyh ),()( 28 9 - Medidas de Posição e Dispersão 9.1 - Média (Esperança ou Expectância) é definida por: )()( ii i xpxXEµ ∑== para o caso discreto, ou 00 00 ( ) ( )u E X xf x dx − = = ∫ para caso contínuo. A média tem as seguintes propriedades tais que (k é uma constante) 1) ( )E k k= 2) ( ) ( )E kX kE X= 3) ( ) ( ) ( )E X Y E X E Y± = ± 4) ( ) ( )E X k E X k± = ± 5)Se X e Y são independentes, então ( ) ( ) ( )E XY E X E Y= . 9.2 - Mediana É o ponto que divide a distribuição em duas equiprováveis. É denotada por md, sendo que ( ) ( ) 0,5P x md P x md< = > = . A mediana representa uma função alternativa de caracterização do centro da distribui- ção. 9.3 - Moda: É o ponto de maior probabilidade, no caso discreto, ou maior densidade de probabili- dade, no caso contínuo. 9.4 - Variância: A variância será denotada por Var(X), ou simplesmente 2σ . É definida por: 2( ) [( ) ]Var X E x u= − , na qual ( )E X u= , 2 2( ) ( )i i i E X x p x=∑ , para o caso discreto e 00 2 2 00 ( ) ( )E X x f x dx − = ∫ , para o caso contínuo. A variância tem as seguintes propriedades: 1) Var(k) = 0 29 2) 2( ) ( )Var kX k Var X= 3) ( ) ( ) ( )Var X Y Var X Var Y± = + 4) ( ) ( )Var X k Var X± = 9.5 - Desvio Padrão É a raiz da variância, denotada por ( )Dp X , tem a vantagem de ser expressa na mes- ma unidade da variável ( ) ( )Dp X Var X= 9.6 - Covariância Esta medida tem como objetivo mensurar a relação entre as variáveis aleatórias em questão. Define-se ( , ) ( , ) ( ) ( )Cov x y E x y E x E y= − 9.7 - Coeficiente de Correlação É definido por: )().( ),(),(),( YVarXVar YXCovYXCorrYXρ == tal que .1),(1 ≤≤− yXρ 9.8 - Coeficiente de Variação É definida como o quociente entre o desvio padrão e a média. Serve quando se deseja ter uma idéia da dispersão relativa ( ) . .( ) ( ) Dp XC V X E X = 9.9 - Amplitude É dada pela diferença entre o maior e o menor valor possível da variável. E é denotada por A. Exercício: Seja a função densidade de probabilidade dada: ≤≤ = contrário caso,0 20 para, 2)( x x xf . Deter- mine à média, mediana, moda, variância e desvio-padrão. Solução: Média 23 0 4( ) ( ) 6 3 xE X xf x dx dx= = = =∫ 30 Mediana 2 2 0 0 ( ) ( ) 0,5 0,5 0,5 2 2 4 4 mdmd p x md p x md x x mddx md < = > = = = ⇒ = ⇒ =∫ Moda (2) 1 max mof Valor i de probabilidade= ⇒ Variância ,)]([)()( 22 XEXEXVar −= com .2 8 16 0 2 82 .)( 22 0 22 ==== ∫ xdxxxXE Portanto, 9 2 9 16 .2 3 42)( 2 == −=XVar Desvio-padrão 2 2( ) ( ) 9 3 dp X Var X= = = Coeficiente de variação 2 ( ) 23( ) 0,354( ) 4 3 Dp XCV X E X = = = ≅ 31 10. - SAS Programação 10.1 - Introdução O SAS é um dos pacotes estatísticos mais utilizados pelas grandes corporações, em mais de 100 diferentes países, com cerca de 40.000 licenças distribuídas e quase 4 milhões de usuários. O nome nasceu como um acrônimo: Statistical Analysis System (SAS), mas a quan- tidade de serviços e produtos oferecidos pela SAS (a companhia que produz o SAS) foi se tornando tão diversa que hoje em dia o nome é simplesmente SAS. As origens do software datam da década de 70, quando os computadores ainda eram operados por cartões perfurados (o comando CARDS, dentro do passo DATA, vem justamente daí) e o poder de processamento era muito baixo. O software é composto por diversos módu- los, que provem soluções para problemas específicos e os principais são: • SAS/Base: é o sistema básico do SAS, necessário para rodar qualquer outro produto SAS. Ele contém o passo DATA, para manipulação de dados e alguns procedimentos estatísticos simples. • SAS/STAT: é o módulo que provê uma grande quantidade de métodos estatísticos, co- mo regressão, ANOVA, análise multivariada, análise de sobrevivência entre outros. • SAS/GRAPH: é o módulo que permite fazer gráficos em alta resolução. • SAS/ETS: é o módulo que permite fazer análise de séries temporais. • SAS/EG (ou Enterprise Guide): é uma interface gráfica para o SAS, permitindo fazer algumas análises estatísticas apontando e clicando. Ao comprar uma licença do programa, é necessário pagar uma taxa adicional por cada módulo. Neste capítulo será apresentado alguns comandos básicos de programaçãoque po- dem ser executados no SAS, resultado do estudo introdutório deste software. 10.2 - Conceitos Básicos DATA SET: Arquivo de dados com estrutura SAS; OBSERVAÇÃO: Registro de um arquivo de dados SAS; JOB SAS: Arquivo com um programa SAS (É um conjunto de DATA Step's e PROC Step's); 32 DATA STEP: Divisão lógica de um programa SAS, no qual se cria e altera um, ou vários ar- quivos SAS (Data Set's ou conjunto de dados de entrada); PROC STEP: Divisão lógica de um programa SAS, no qual se analisa e manipula os dados contidos num arquivo SAS (Data Set's); OBS: A funcionalidade do Sistema SAS foi construída em torno de quatro idéias básicas no tratamento de dados: Acessar dados; Administrar dados; Analisar dados; Apresentar dados; 10.3 - Estrutura dos arquivos SAS O arquivo SAS é um conjunto de dados arrumados num formato de tabela. NOME SEXO IDADE ALTURA As colunas nas tabelas são chamadas de variáveis: - Variáveis correspondem aos campos de dados; - Cada variável recebe um nome; - Para o SAS, só existem dois tipos de variáveis: Caractere ou Numérica As linhas na tabela são chamadas de observações (ou registros). Não existe limite para o número de observações. Um Arquivo SAS é dividido em duas partes: Descritora : Contém a descrição do arquivo: Tamanho do arquivo, número de registros, no- me, tipo, tamanho e formato de variáveis, etc; Dados : Contém os dados do arquivo. 10.4 - Nomenclatura para arquivos e variáveis Todos os nomes de arquivos e variáveis deverão seguir as seguintes regras: CARLOS M 12 1.70 GILBERTO M 25 1.65 RICARDO M 30 1.80 . . . . . . . . . . . . ALICE F 28 1.68 MARCIA F 22 1.75 33 - Possuir de 1 à 32 caracteres; - Começar com letra (A-Z); - Pode continuar com números, letras ou travessões. Exemplo 1: Foi usado o Comando INFILE: Comando que identifica e abre um arquivo ex- terno de dados, somente para leitura. Exemplo 2: Do seguinte conjunto, construir um arquivo de dados: Nome Idade Peso Altura Maria 23 57 1,65 Pedro 21 73 1,75 Cristina 19 55 1,63 data exemplo; nome do arquivo input nome $ idade peso altura; declaração das variáveis cards; (ou datalines) indica que a linha dos dados vêm em seguida Maria 23 57 1.65 Pedro 21 73 1.75 Cristina 19 55 1.63 ; indica que terminou o conjunto de dados Run; está pronto para ser executado.(executa os comandos anteriores). 10.5 - Estrutura PROC Step Introdução - É a seção de um programa SAS na qual se analisa os dados de um arquivo SAS, utilizando- se procedimentos específicos para cada tipo de análise. - A maioria dos procedimentos SAS gera relatórios técnicos; - Todos os procedimentos iniciam com a palavra PROC seguida do nome específico do pro- cedimento ou rotina desejada; - Os comandos em uma PROC não seguem uma hierarquia, ou seja, podem ser colocados em qualquer ordem dentro da PROC; DATA EXEMPLO1 INFILE “C:\TEMP\CADASTRO.TXT”; INPUT PRIMEIRO_NOME $ 1-8 SEXO $ 10 IDADE 13-14 ALTURA 16-19 ; RUN; 34 PROC <rotina> [opções] ; [comando] ; [comando] ; RUN ; rotina Palavra-chave que identifica o procedimento a ser executado. opções Parâmetros opcionais de configuração para execução do procedimento. comando Comandos de detalhamento na execução do procedimento. RUN Comando para execução do procedimento SAS. Necessário no último procedimen- to do programa SAS. 10.6 - Procedimento PRINT - Procedimento do SAS que imprime, na saída padrão, os dados contidos nos arquivos SAS; - A saída padrão é, normalmente, a janela OUTPUT. PROC PRINT [opções] ; VAR <lista de variáveis> ; BY <lista de variáveis> ; SUM <lista de variáveis> ; opções DATA= Nome do arquivo SAS; DOUBLE Espacejamento duplo; NOOBS Suprime a coluna com o número de cada observação do arquivo; LABEL Imprime os "label's" das variáveis; VAR Determina uma lista de variáveis que serão impressas; BY Determina a quebra ou agrupamento do relatório, por uma ou mais variáveis; SUM Determina uma ou mais variáveis numéricas que serão totalizadas; 10.7 - Sintaxe dos Comandos Todo comando SAS começa com uma palavra-chave (identificação) e termina com o ponto e vírgula (;). - Os comandos podem começar e terminar em qualquer parte da linha; - Um comando pode se estender por diversas linhas; - Vários comandos podem ficar na mesma linha. Exemplo: 35 10.8 - Comando LIBNAME - Tipo: Comando de declaração; - Uso: Livre; - Comando opcional de configuração do processamento, que define uma ou mais áreas de trabalho e armazenamento (diretórios), para os arquivos SAS (Data Set's); - Define o primeiro nível de um nome de arquivo, a biblioteca SAS; [biblioteca].<nome do arquivo> - O comando LIBNAME, normalmente, é colocado antes do comando DATA, e só será ne- cessário ser executado uma única vez durante uma sessão SAS WINDOWS. LIBNAME <biblioteca> "<diretório>" ; Biblioteca Palavra de no mínimo 1 e no máximo 8 caracteres, que identifica o primeiro nível em um nome de arquivo. Diretório Nome de um diretório que já exista no seu ambiente. OBS: O SAS define uma biblioteca padrão, temporária, de nome work. Exemplo: LIBNAME IN "C:\ALUNO" ; DATA IN.EXEMPLO ; INFILE "A:\CADASTRO" ; INPUT NOME $ 1-30 SEXO $ 31 END $ 32-60 ; PROC PRINT DATA=IN.EXEMPLO NOOBS ; VAR NOME ENDERECO ; RUN ; DATA EXEMPLO1 ; INFILE “C:\TEMP\DADOS.DAT” ; INPUT NOME $ 1-8 SEXO $ IDADE $ 13-14 ALTURA 16-19 ; RUN; PROC PRINT DATA=EXEMPLO1 ; RUN; PROC FREQ DATA=EXEMPLO1 ; TABLES IDADE*ALTURA ; RUN ; 36 11 – Alguns Comando Básico de Programação do SAS - Comando de Atribuição (=) - Tipo: Comando de execução; - Uso: Data Step; - Comando Caractere utilizado para criar novas variáveis e editar as já existentes em um Data Step. <variável> = <expressão> ; variável Nome com no máximo 32 caracteres. expressão Expressões do tipo: o - Operações aritméticas simples: + - * / ** x2 = x ; Move valor; soma = x+y ; Adição; dif = x-y ; Subtração; dobro = x*2 ; Multiplicação; met = x/2 ; Divisão; cubo = x**3 ; Potenciação; y = -x ; Mudança de sinal; o - Constantes : N=0 ; Constante numérica; SEXO="F" ; Constante caractere; o - Concatenação de caracteres : || A=”PAULO” || “ANTUNES”; ==> A=”PAULOANTUNES” A=”PAULO” || “ ” || “ANTUNES”; ==> A=”PAULO ANTUNES” o - Expressões complexas com prioridade de avaliação: ( ) Função ** * / + - =================> A = X+Y+Z ; A = X+Y*Z ; A = X/(Y/Z) ; - Funções: S = SQRT(X) ; A = INT(X) ; Z = ABS(SQRT(X)-2) ; 37 Exemplo Simulado no SAS: LIBNAME ARQ "C:\SAS\TESTE" ; DATA ARQ.LUCROS ; INFILE “C:\DADOS\NUMEROS.TXT”; INPUT ANO 1-2 RECEITA 4-7 DESPESAS 9-12; VAL_DOL = 0.98 ; ANO = ANO + 1900 ; LUCRO = RECEITA - DESPESAS ; DOLLAR = ( RECEITA - DESPESAS ) / VAL_DOL ; RUN; Arquivo: NUMEROS.TXT 01 02 03 04 05 06 07 08 09 10 11 12 9 4 5 6 5 0 1 0 5 0 9 5 6 2 8 0 1 1 4 0 9 6 8 4 5 0 2 4 5 0 PROC PRINT DATA=ARQ.LUCROS NOOBS DOUBLE ; TITLE "Analise Contábil" ; VAR ANO RECEITA DESPESAS LUCRO DOLLAR ; SUM RECEITA DESPESAS LUCRO DOLLAR ; RUN ; AnaliseContábil ANO RECEITA DESPESAS LUCRO DOLLAR 1994 5650 1050 4600 4693.8775 1995 6280 1140 5140 5244.8979 1996 8450 2450 6000 6122.4489 ===== ==== ===== ========= 20380 4640 15740 16061.2240 11.1 - Comando IF-THEN/ELSE - Tipo: Comando de Execução; - Uso: Data Step; - Comando que condiciona a execução de um outro comando SAS, de acordo com alguma expressão, que determinará essa condição; - Se a expressão, que determina a condição, for verdadeira, será executado o comando que vier após o THEN. Se a condição for falsa, será executado o comando que vier após o ELSE. Somente um comando após o THEN e do ELSE 38 IF <expressão> [THEN] <comando> ; [ELSE] <comando> ; Expressão: Combinação de variáveis com operadores de comparação e/ou operadores lógicos que determinam uma condição. Comando: Comando do SAS que será executado de acordo com o resultado da condição. Operadores de Comparação GT > maior que LT < menor que EQ = igual a LE <= menor ou igual a GE >= maior ou igual a NE ~= não é igual (diferente) NL não é menor NG não é maior IN está no conjunto Operadores Lógicos AND & e, ambos OR | ou, , um ou outro NOT ~ negação Exemplo simulado no SAS. LIBNAME TESTE "A:\" ; DATA TESTE.CLASSE ; INFILE “C:\ESCOLA\CLASSE.TXT”; INPUT NOM E $ 1-7 SEXO $ 8 IDADE 10-11 @13 ALTURA 4.2 ; IF (SEXO="1" AND ALTURA<1.55) OR (SEXO="1" AND IDADE<12) THEN CLASSE="100" ; ELSE IF (SEXO="2" AND ALTURA<1.55) OR (SEXO="2" AND IDADE<12) THEN CLASSE="200" ; ELSE CLASSE="300" ; RUN; Arquivo: CLASSE.TXT 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 P A U L A 1 1 1 1 . 6 0 F L A V I A 1 1 5 1 . 6 5 M A R C O S 2 1 1 1 . 6 0 L U I S 2 1 4 1 . 6 0 PROC PRINT NOOBS ; VAR NOME CLASSE ; RUN ; 39 The SAS System NOME CLASSE PAULA 100 FLAVIA 300 MARCOS 200 LUIS 300 11.2 - Comandos DO/END - Tipo: Comando de execução; - Uso: Data Step - Comando que define a execução de um bloco de comandos do SAS; - Todos os comandos existentes entre o comando DO e o comando END, deverão ser execu- tados imediatamente; - Comandos DO e END podem ser usados para executar um grupo de comandos quando se encontra uma condição, normalmente, para ampliar o comando IF-THEN/ELSE. IF <expressão> THEN DO; <comandos> ; Exemplo simulado no SAS DATA TRABALHO ; INFILE "A:\EMPRESA.DAT" ; INPUT NOME $ 1-8 DEP_NO $ 10-12 COM 14-17 SALARIO 19-23 ; IF DEP_NO="201" THEN DO ; DEP="VENDAS" ; SAL=COM+SALARIO ; END ; ELSE DO ; DEP="ADMINISTRATIVO" ; SAL=SALARIO ; END ; PROC PRINT NOOBS ; RUN ; The SAS System NOME DEP_NO COM SALARIO DEP SAL CARLOS 201 1500 1500 VENDAS 3000 ELIANE 101 . 1800 ADMINI 1800 ALVARO 101 . 3800 ADMINI 3800 FATIMA 201 500 1500 VENDAS 2000 40 11.3 - Comando INPUT - Tipo: Comando de execução; - Uso: Data Step; - O comando INPUT serve para descrever ao SAS como estão armazenados e organizados os dados em arquivos textos que foram especificados pelo comando INFILE. - Todo arquivo aberto pelo comando INFILE, sempre necessitará de um comando INPUT para ler o seu conteúdo; - O comando INPUT irá ler registro a registro (leitura sequencial) até encontrar "fim de arqui- vo (EOF)", e irá atribuir nomes (Variáveis) para cada campo de um registro; - Dois tipos básicos de comando INPUT, são os mais utilizados: - INPUT COLUNADO - INPUT FORMATADO 11.4 - Input Colunado - Lê as variáveis especificando a sua posição na linha de dados (posição inicial e posição fi- nal). As variáveis devem estar alinhadas e colunadas no arquivo de leitura de dados. INPUT <variável> [$] <início>-<fim> [.decimal] ; variável Nome da variável, que será associada a uma coluna de dados. $ Caractere opcional que indica que a variável só irá conter dados alfanuméricos. Sem o $, significa que a variável será numérica. início Valor que indica a posição inicial da variável na linha de dados. Fim Valor que indica a posição final da variável na linha de dados. .decimal Valor opcional, indica o número de posições decimais de uma variável numérica. 11.5 - Input Formatado - Lê as variáveis especificando o tamanho e, opcionalmente, o formato do campo na linha de dados. - É o tipo de INPUT mais poderoso e complexo do SAS. INPUT <variável> [$] <w.d> ou [fomatow.d] ; variável Nome da variável, que será associada a uma coluna de dados. $ Caractere opcional que indica que a variável só irá conter dados alfanuméricos. Sem o $, significa que a variável será numérica. w. Valor que indica o tamanho de um campo na linha de dados. w.d Valor que indica o tamanho de um campo numérico com casas decimais. 41 formatow.d Campo opcional. Nome de um formato especial de leitura de dados: BINARYw.d Lê campo numérico no formato binário e o converte para decimal; COMMAw.d Lê campo numérico com vírgulas e as retira; Ew.d Lê campo numérico com notação científica; HEXw. Lê campo numérico em hexadecimal; DDMMYYw. Lê campo no formato padrão de datas dd/mm/yyyy. 11.6 - Controles Especiais do Comando INPUT Indicador de COLUNA ( @ ) @n Move a leitura para a coluna n ; Indicador de LINHA ( / ) / Avança a leitura em um registro; Exemplo simulado no SAS DATA POSICAO ; INFILE "C:\SAS\POS.DAT" ; INPUT A $ 1-5 @10 B $ 4. @17 C $ 4. / D $ 1-4 / E $ 4. @8 F $ 2. ; RUN; PROC PRINT ; RUN ; 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 1 1 1 1 1 B B B B C C C C D D D D E E E E F F 2 2 2 2 2 b b b b c c c c d d d d f f e e e e The SAS System OBS A B C D E F 1 11111 BBBB CCCC DDDD EEEE FF 2 22222 bbbb cccc dddd eeee ff 11.7 - Detalhes do Comando INPUT - Em campos numéricos não são permitidos "brancos" entre os números; - Sinal (+ - ), ponto decimal (.) e notação científica para expoente (E) são permitidos em cam- pos numéricos; - Campos tipo caractere podem ter, no máximo, 32K de caracteres; 42 - São permitidos caracteres "brancos", em qualquer posição, em campos do tipo caractere; - Campos em branco (sem informação) são considerados como "missing value" (valor perdi- do). - Os campos de um registro de dados podem ser lidos em qualquer ordem. INPUT PESO 17-20 NOME $ 1-8 IDADE 11-12 SEXO $ 9 ; - Campos ou partes de um campo podem ser relidos. INPUT NOME $ 1-8 PREFIXO $ 1-3 ENDERECO $ 10-40 APT $ 38-40; - Dados caracteres serão armazenados, alinhados pela esquerda, e os dados numéricos, alinha- dos pela direita; - Todos os tipos de INPUT, podem ser combinados num único comando INPUT; Ex: Detalhes de leitura INPUT JAN 3. FEV 3. MAR 3. ABR 3. MAI 3. JUN 3. ; INPUT (JAN FEV MAR ABR MAI JUN) (3.) ; INPUT (MES1 MES2 MES3 MES4 MES5 MES6) (3.) ; INPUT (MES1-MES6) (3.) ; 43 12 - Referências BUSSAB, W. O., MORETTIN, P. A. Estatística Básica. São Paulo: Saraiva. 5º edição, 2005. MAGALHÃES, M. N., LIMA, A. C. P. Noções de Probabilidade e Estatística, São Paulo: Edusp, 5ª. edição, 2004 TACHIBANA, V. M. Notas de aulas de Computação Aplicada à Estatística. Presidente Prudente, 2007. Manuais do SAS.
Compartilhar