Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO À ESTATÍSTICA RICARDO S. EHLERS Departamento de Estat́ıstica Universidade Federal do Paraná Primeira publicação 2002 Segunda edição publicada em 2005 Terceira edição publicada em 2006 c© RICARDO SANDES EHLERS 2002-2006 Prefácio O objetivo principal deste texto é oferecer um material didático básico em por- tuguês para um curso de Introdução à Estat́ıstica a ńıvel de graduação. São apresentados os mais importantes conceitos e métodos de análise estat́ıstica de dados. O texto se originou de notas de aulas de disciplinas de introdução à Es- tat́ıstica ministradas para diferentes cursos na Universidade Federal do Paraná. O manuscrito foi preparado usando o LATEX e todas as ilustrações e tabelas estat́ısticas foram produzidas no pacote estat́ıstico R (R Development Core Team 2006), gratuito e de código aberto, que pode ser obtido em http://www.r-project.org/ Este texto certamente não está livre de erros, e comentários e sugestões dos leitores são bem vindos. Citar este texto como: Ehlers, R.S. (2005) Introdução à Estat́ıstica. Departamento de Estat́ıstica, UFPR. Dispońıvel em http://www.est.ufpr.br/˜ ehlers/notas/. Acesso em: 21 nov. 2005. Ricardo S. Ehlers Curitiba, novembro de 2005. i Sumário 1 Estat́ıstica Descritiva 1 1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4 Variáveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5 Resumos numéricos . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5.1 Média, variância e desvio padrão . . . . . . . . . . . . . . 9 1.5.2 A mediana e a amplitude inter-quartis . . . . . . . . . . . 11 1.5.3 A moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6 Dados múltiplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.1 Diagramas de dispersão . . . . . . . . . . . . . . . . . . . 15 1.6.2 Dados Pareados . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2 Probabilidades 24 2.1 Experimento aleatório . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2 Definição de probabilidade . . . . . . . . . . . . . . . . . . . . . . 25 2.3 Probabilidade Condicional e Independência . . . . . . . . . . . . . 26 2.4 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.6 Algumas distribuições de probabilidade . . . . . . . . . . . . . . . 33 2.6.1 A distribuição Uniforme Discreta . . . . . . . . . . . . . . 34 2.6.2 A distribuição Binomial . . . . . . . . . . . . . . . . . . . 34 2.6.3 A distribuição de Poisson . . . . . . . . . . . . . . . . . . 36 2.6.4 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . 38 2.6.5 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . 38 2.6.6 A Distribuição Uniforme Cont́ınua . . . . . . . . . . . . . 40 2.6.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . 40 2.6.8 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . 43 ii SUMÁRIO iii 2.6.9 Variáveis Aleatórias Cont́ınuas . . . . . . . . . . . . . . . . 43 2.6.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.7 Ajuste de Modelos Teóricos . . . . . . . . . . . . . . . . . . . . . 45 2.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3 Estimação 56 3.1 Inferência Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2 Prinćıpios de estimação . . . . . . . . . . . . . . . . . . . . . . . . 57 3.3 Obtendo uma amostra . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . 59 3.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . 63 3.6.1 Intervalos de confiança para a média . . . . . . . . . . . . 63 3.6.2 Intervalos de confiança para uma proporção . . . . . . . . 66 3.6.3 Comparação de intervalos de confiança . . . . . . . . . . . 67 3.6.4 Intervalo de Confiança para Variância . . . . . . . . . . . . 68 3.7 Comentário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4 Testes de Hipóteses 72 4.1 Introdução e notação . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.1.1 Decisões e poder . . . . . . . . . . . . . . . . . . . . . . . 74 4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.3 Probabilidade de significância (P -valor) . . . . . . . . . . . . . . . 76 4.4 Procedimento geral de teste . . . . . . . . . . . . . . . . . . . . . 77 4.5 Teste para a média . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.6 Teste para a proporção . . . . . . . . . . . . . . . . . . . . . . . . 79 4.7 Testes para a variância da distribuição normal . . . . . . . . . . . 79 4.8 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.9 Dimensionamento de amostras . . . . . . . . . . . . . . . . . . . . 82 4.10 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.11 Testes de Aderência (Testes χ2) . . . . . . . . . . . . . . . . . . . 85 4.12 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.13 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5 Comparando Grupos 89 5.1 Diferença entre médias de dois grupos . . . . . . . . . . . . . . . . 89 5.1.1 Desvios padrão iguais . . . . . . . . . . . . . . . . . . . . . 90 5.1.2 Desvios padrão diferentes . . . . . . . . . . . . . . . . . . 91 iv SUMÁRIO 5.2 Comparação de variâncias . . . . . . . . . . . . . . . . . . . . . . 92 5.3 Amostras pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4 Comparando proporções . . . . . . . . . . . . . . . . . . . . . . . 94 5.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6 Correlação e Regressão 99 6.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.2 Interpretação do coeficiente de correlação . . . . . . . . . . . . . . 101 6.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.4.1 Modelo de regressão linear simples . . . . . . . . . . . . . 111 6.4.2 Estimando os parâmetros do modelo . . . . . . . . . . . . 112 6.4.3 Construindo intervalos e testando hipóteses . . . . . . . . 114 6.4.4 Transformações de dados . . . . . . . . . . . . . . . . . . . 115 6.4.5 Representação Matricial . . . . . . . . . . . . . . . . . . . 116 6.4.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.5 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . 118 6.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 References 126 A Tabelas Estat́ısticas 127 B Soluções de Exerćıcios Selecionados 136 Caṕıtulo 1 Estat́ıstica Descritiva 1.1 Introdução A Estat́ıstica está presente em todas as áreas da ciência que envolvam a coleta e análise de dados e sua consequente transformação em informação, para postular, refutar ou validar hipóteses cient́ıficas sobre um fenômeno observável. Sendo assim, a Estat́ıstica pode ser pensada como a ciência de aprendizagem a partir de dados. Em linhas gerais, o papel da Estat́ıstica consiste em desenvolver métodos de análise de dados que auxiliam o processo de tomada de decisão nos mais variados problemas onde existe incerteza. Em função disto, fica evidente que os métodos estat́ısticospodem ser empregados em praticamente todas as áreas do conhecimento, sempre que estiver envolvida a coleta ou análise de dados. Em ciência, são realizados estudos experimentais ou observacionais que dâo origem a um conjunto de dados numéricos. O propósito da investigação é responder uma questão cient́ıfica, mas o padrão de variação nos dados faz com que a resposta não seja óbvia. Em geral, a disciplina de Estat́ıstica refere-se a métodos para coleta e descrição de dados, e para quantificação da evidência nos dados pró ou contra uma questão cient́ıfica. A presença de uma variação não previśıvel (aleatória) nos dados faz disso uma tarefa pouco trivial. Neste caṕıtulo serão apresentadas técnicas para organização e descrição dos dados. No Caṕıtulo 2 serão estudados conceitos asso- ciados à teoria das probabilidades, necessários para desenvolver os métodos dos caṕıtulos seguintes. A partir do Caṕıtulo 3 serão estudados métodos estat́ısticos que auxiliam na tomada de decisões com base nos dados. 1 2 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA 1.2 Tipos de Variáveis Ao invés de tentar interpretar listas de números é mais informativo produzir um resumo numérico e usar métodos gráficos para descrever as caracteŕısticas principais dos dados. O método mais apropriado dependerá da natureza dos dados, e podemos distinguir dois tipos principais apresentados abaixo. • Variáveis qualitativas ou categóricas que podem ser: – nominais, por exemplo sexo (masculino, feminino), classificação de defeitos em uma máquina. – ordinais, com categorias ordenadas, por exemplo salinidade (baixa, média, alta). • Variáveis quantitativas que podem ser: – discretos, i.e. contagens ou número inteiros, por exemplo número de ataques de asma no ano passado. – cont́ınuos, i.e. medidas numa escala cont́ınua, tais como volume, área ou peso. As distinções podem ser menos ŕıgidas na prática. Por exemplo, em geral trataŕıamos a “idade” como uma variável cont́ınua, mas se a idade for registrada pelo ano mais próximo, podemos tratá-la como discreta, e se agruparmos os dados em “crianças”, “adultos jovens”, “adultos” e “idosos”, então temos “faixa etária” como uma variável ordenada categórica. No entanto, em geral é recomendado manter os dados em sua forma original e criar categorias somente para propósitos de apresentação. 1.3 Variáveis qualitativas Para resumir dados qualitativos numericamente, utiliza-se contagens, proporções, porcentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrarmos que 7 de uma amostra de 5000 pes- soas são portadoras de uma doença rara podeŕıamos expressar isto como uma proporção observada (0,0014) ou percentual (0,14%), mas melhor seria 1,4 casos por mil. Frequentemente o primeiro passo da descrição de dados é criar uma tabela de frequências. Por exemplo, na Tabela 1.1 abaixo temos as frequências observadas 1.3. VARIÁVEIS QUALITATIVAS 3 Tabela 1.1: Frequências observadas para os dados de itens defeituosos. Estado ni ni/n pi Porcentagem Defeituoso 6 6/25 0,24 24,0% Perfeito 12 12/25 0,48 48,0% Recuperável 5 5/25 0,20 20,0% Outros 2 2/25 0,08 8,0% Totais n = 25 Σpi = 1 de itens produzidos e classificados segundo seu estado (defeituoso, perfeito, recu- perável, outros). Note que foi definida também a categoria “outros”. Em geral, se muitos dados forem classificados em poucas categorias, então é conveniente unir as categorias com somente uma ou duas observações em outra categoria chamada “outros”. Tabelas simples como esta são na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem apenas duas ou três categorias. Dados qualitativos são usualmente bem ilustrados num simples gráfico de bar- ras onde a altura da barra é igual à frequência. O gráfico na Figura 1.1 apresenta as frequências observadas na Tabela 1.1. Note que a ordem das categorias poderia Figura 1.1: Gráfico de barras das frequências observadas na Tabela 1.1 defeituoso perfeito recuperavel outros fre qu en cia s 0 2 4 6 8 10 12 ser alterada no eixo horizontal já que não existe ordenação natural. Além disso a distância horizontal entre as barras não tem nenhuma interpretação. 4 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA Gráficos de setores também costumam ser utilizados para apresentação de dados categóricos. Os setores do gráfico são desenhados de tal forma que eles tenham área proporcional à frequência. A Figura 1.2 abaixo ilustra as frequências observadas na Tabela 1.1. Figura 1.2: Gráfico de setores com as frequências observadas na Tabela 1.1 defeituoso perfeito recuperavel outros No entanto, gráficos de setores constituem uma forma muito ruim de apre- sentar informação já que em geral temos dificuldade em comparar áreas. Um gráfico de barras ou de pontos é prefeŕıvel para representar este tipo de dados. Duas ótimas referências para este assunto são Cleveland (1993, 1994) e Good and Hardin (2003). 1.4 Variáveis quantitativas Analogamente, para resumir dados quantitativos discretos, podemos utilizar uma tabela de frequências como no exemplo a seguir. Exemplo 1.1 : Foram inspecionados 35 lotes de componentes eletrônicos e ob- tidos os números de itens defeituosos em cada lote. Os dados estão resumidos na 1.4. VARIÁVEIS QUANTITATIVAS 5 Tabela 1.2. Note que foram incluidas as frequências acumuladas Ni e Fi, assim Tabela 1.2: Frequências observadas do número de itens defeituosos em 35 lotes. defeituosos 0 1 2 3 4 5 6 8 ni 1 3 5 4 9 5 6 2 pi 0,03 0,09 0,14 0,11 0,26 0,14 0,17 0,06 Ni 1 4 9 13 22 27 33 35 Fi 0,03 0,11 0,26 0,37 0,63 0,77 0,94 1,00 por exemplo podemos dizer que aproximadamente 77% dos lotes inspecionados tem 5 itens defeituosos ou menos. Neste caso, frequências absolutas e frequências acumuladas podem ser representadas graficamente como na Figura 1.3 abaixo. 0 2 4 6 8 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 defeituosos Fr eq . a cu mu lad as (a) 0 2 4 6 8 defeituosos fre qu ên cia s 0 1 2 3 4 5 6 8 (b) Figura 1.3: Gráfico de frequências do número de itens defeituosos em 35 lotes. (a) Frequências acumuladas. (b) Frequências absolutas. A construção de tabelas de frequências para variáveis quantitativas cont́ınuas requer certo cuidado uma vez que não existirão observações repetidas. A solução então é agrupar os dados em classes e obter as frequências observadas em cada classe. É importante notar que ao resumir dados referentes a uma variável cont́ınua sempre se perde alguma informação já que não temos idéia de como se distribuem as observações dentro de cada classe. O método mais comum de representação gráfica de dados cont́ınuos é através de um histograma. Neste caso, a frequência de cada classe é representada por 6 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA um retângulo cuja base é igual a amplitude da classe e a altura é proporcional à frequência. Exemplo 1.2 : Em um rio foram encontrados mortos 150 peixes v́ıtimas de contaminação e seus comprimentos foram medidos em miĺımetros. As medidas observadas foram agrupadas em classes e as frequências de cada classe aparecem na Tabela 1.3. O histograma constrúıdo com base nestes dados é apresentado na Figura 1.4. Tabela 1.3: Frequências dos comprimentos de peixes encontrados mortos em um rio. Comprimento (mm) ni pi Ni Fi 100 ⊢ 110 7 0,05 7 0,05 110 ⊢ 120 16 0,11 23 0,15 120 ⊢ 130 19 0,13 42 0,28 130 ⊢ 140 31 0,21 73 0,49 140 ⊢ 150 41 0,27 114 0,76 150 ⊢ 160 23 0,15 137 0,91 160 ⊢ 170 10 0,07 147 0,98 170 ⊢ 180 3 0,02 150 1,00 Figura 1.4: Histograma das frequências de comprimentos de peixes mortos dadas na Tabela 1.3 comprimentos fre qu en cia s 100 120 140 160 180 0 10 20 30 40 1.4. VARIÁVEIS QUANTITATIVAS 7 Algumas vezes é conveniente agregar classes de frequência nos extremosda distribuição de forma que os intervalos passam a ter larguras diferentes. Neste caso deve-se ter certo cuidado ao interpretar o histograma. A idéia é que a área de cada retângulo deve ser preservada, assim por exemplo se a amplitude de um intervalo for duplicada ele deve ter altura igual à metada de sua frequência. Neste texto não discutiremos em detalhes a especificação do número e da am- plitude das classes já que os pacotes estat́ısticos utilizam algoritmos para escolha ótima destes valores. A idéia é que um número muito grande de classes não re- sume satisfatoriamente os dados e com um número muito pequeno perde-se muita informação. Outro método gráfico que vale à pena ser utilizado quando o número de ob- servações não for muito grande é o gráfico de ramo-e-folhas que será ilustrado nos exemplos a seguir. Cada observação é separada em um ramo (geralmente a parte inteira) e uma folha (geralmente a parte decimal). O gráfico terá a forma de um histograma porém retendo a informação dos valores observados. A técnica é ilustrada nos exemplo 1.3 abaixo. Exemplo 1.3 : Um estudo geoqúımico foi realizado utilizando-se amostras de sedimentos provenientes de riachos e obteve-se as concentrações de Cromo (em ppm) abaixo. Podemos facilmente escrever os dados no gráfico de ramo-e-folhas como na Figura 1.5. 10,6 14,1 13,7 15,2 15,4 12,5 12,9 14,3 13,0 12,6 12,0 14,0 10,0 18,2 11,5 9,4 16,5 13,7 14,7 16,6 11,4 18,4 17,4 11,1 15,8 17,0 13,6 16,6 11,8 15,8 13,5 Note que os ramos são números inteiros e as folhas são os valores depois da v́ırgula decimal. É importante escrever as folhas em colunas igualmente espaçadas, caso contrário a figura ficará distorcida. Além de ser um resumo visual dos dados o gráfico de ramo-e-folhas fornece mais informação do que o histograma já que os dados podem ser lidos no gráfico. Exemplo 1.4 : Os valores abaixo correspondem ao tempo (em minutos) que os alunos matriculados em uma disciplina do curso de Estat́ıstica utilizaram para resolução da prova no segundo semestre de 2002. 23 31 42 45 51 52 57 61 61 64 68 69 73 75 75 82 89 94 118 120 8 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA Figura 1.5: Gráfico de ramo-e-folhas dos dados geoqúımicos do Exemplo 1.3. 9|4 10|0 6 11|1 4 5 8 12|0 5 6 9 13|0 5 6 7 7 14|0 1 3 7 15|2 4 8 8 16|5 6 6 17|0 4 18|2 4 A representação no gráfico de ramo-e-folhas é feita de forma que os ramos contenham dezenas de minutos e as folhas contenham unidades de minutos. 2|3 2|F 3|1 3|F 4|2 5 4|M F 5|1 2 7 5|F F M 6|1 1 4 8 9 6|F F F F M 7|3 5 5 7|M M M 8|2 9 8|M F 9|4 9|F 10| 10| 11|8 11|M 12|0 12|M Pode-se notar que os valores estão simetricamente dispersos em torno de um valor central e não há a indicação de valores at́ıpicos ou discrepantes (outliers). No diagrama da direita a informação sobre o sexo dos alunos foi adicionada e há indicação de que os homens (M) gastaram um tempo maior do que as mulheres (F). 1.5 Resumos numéricos Para resumir numericamente dados de uma variável quantitativa o objetivo é escolher medidas apropriadas de locação e de dispersão. Existem três escolhas mais frequentemente utilizadas para medidas de locação que estão ligadas a certas medidas de dispersão como será visto adiante. 1.5. RESUMOS NUMÉRICOS 9 1.5.1 Média, variância e desvio padrão Para resumir dados quantitativos aproximadamente simétricos, é usual calcular a média aritmética como uma medida de locação. Se x1, x2, . . . , xn são os valores dos dados, então podemos escrever a média como x = x1 + x2 + · · ·+ xn n = ∑n i=1 xi n . A variância é definida como o desvio quadrático médio em torno da média e é calculada a partir de uma amostra de dados como s2 = ∑n i=1(xi − x)2 n − 1 . Note que, sendo definida a partir de uma soma de quadrados a variância sempre assume valores positivos. Além disso, a divisão por n−1 retira o efeito do tamanho do conjunto de dados, assim as dispersões de dois conjuntos ficam comparáveis mesmo que um deles tenha muito mais observações do que o outro. Não é dif́ıcil mostrar que a expressão da variância pode ser reescrita como s2 = ∑n i=1 x 2 i − nx2 n − 1 que é uma versão mais fácil de ser calculada quando não se dispõe de recursos computacionais. Mas cuidado porque os erros de arrendondamento podem gerar um valor negativo se a variância for muito pequena. A raiz quadrada positiva da variância, chamada de desvio padrão, é uma medida de dispersão que está na mesma escala dos dados. A notação usual é s = √ s2. Algumas propriedades destas mediadas são, 1. a soma de desvios em torno da média é sempre igual a zero, ∑n i=1(xi−x) = 0. 2. a soma de desvios quadráticos em torno de um valor a, ∑n i=1(xi − a)2, é mı́nima se somente se a = x. 3. somando-se uma constante k aos dados a média será somada da mesma constante enquanto a variância fica inalterada. 4. multiplicando-se os dados por uma constante k a média será multiplicada pela mesma constante enquanto a variância será multiplicada pelo quadrado da constante. 10 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA 5. a média aritmética sempre pertence ao intervalo de variação dos dados, i.e. min(xi) ≤ x̄ ≤ max(xi) Das propriedades 3 e 4 é fácil verificar que se yi = a + bxi, i = 1, . . . , n então a média aritmética e a variância de y são y = a + bx e s2y = b 2s2. Exemplo 1.5 : Sete homens foram pesados, e os resultados em Kg foram: 57,0; 62,9; 63,5; 64,1; 66,1; 67,1; 73,6. Utilizando uma calculadora não é dif́ıcil verificar que a média é 64,9 kg, a variância é 25,16 kg2 e o desvio padrão é 5,02 kg. Exemplo 1.6 : Foram inspecionados 30 aparelhos fabricados por uma indústria e obteve-se a distribuição de frequências do número de defeitos por aparelho dada na Tabela 1.4. Tabela 1.4: Frequências dos números de defeitos por aparelho inspecionado. Número de defeitos 0 1 2 3 4 ni 12 8 7 1 2 Neste caso o número médio de defeitos por aparelho será x = 12 × 0 + 8 × 1 + 7 × 2 + 1 × 3 + 2 × 4 30 = 33 30 = 1, 1 e sua variância será s2 = 12 × 02 + 8 × 12 + 7 × 22 + 1 × 32 + 2 × 42 − 30 × 1, 12 29 = 40, 7 29 ≈ 1, 4. Vale notar que estas medidas são extremamente senśıveis a observações dis- crepantes. No Exemplo 1.6, se um único aparelho apresentasse 15 defeitos ao invés de 4 a média passaria a ser aproximadamente 1,5 e a variância passaria a ser aproximadamente 7,6. Uma medida de dispersão relativa particularmente útil quando se deseja com- parar dispersões em dois conjuntos de dados com médias bem diferentes é o 1.5. RESUMOS NUMÉRICOS 11 coeficiente de variação definido como s/|x|. Assim a escala das observações está sendo levada em conta. Exemplo 1.7 : Suponha por exemplo que 2 conjuntos de dados apresentam desvios-padrões s1 = 3 e s2 = 4 com médias x1 = 30 e x2 = 80. Embora em termos absolutos a dispersão seja maior no segundo conjunto as dispersões relativas são 10% e 5% respectivamente. Exemplo 1.8 : Sejam agora as variáveis X e Y cujos valores observados são 0,0, 0,05 e 0,10 e 1000, 110 e 1200 respectivamente. É fácil verificar que x = 0, 05 s2x = 0, 05 2 sx = 0, 05 y = 1100 s2y = 100 2 sx = 100 e a variabilidade de X é bem menor em termos absolutos. Porém, em termos relativos, CV (X) = 100% e CV (Y ) = 100 1100 ≈ 6%. 1.5.2 A mediana e a amplitude inter-quartis Aqui vamos apresentar medidas de locação e dispersão baseadas em dados orde- nados (ou estat́ısticas de ordem) que são particularmente úteis para distribuições assimétricas e são pouco senśıveis a observações muito discrepantes. A mediana é definida como o valor que divide os dados ordenados em duas partes de mesmo tamanho. Quando há um número ı́mpar de observações a me- diana é o valor central (de ordem (n + 1)/2) enquanto que para um número par de observações a mediada é calculada comoa média dos dois valores centrais (de ordem n/2 e n/2 + 1). Por exemplo, as medianas dos conjuntos ordenados 5, 7, 9, 13, 17, 19, 20 e 3, 7, 8, 10, 12, 15 são 13 e (8+10)/2=9 respectivamente. A definição pode ser estendida para valores que dividem a distribuição em 4 partes de mesmo tamanho (quartis) ou 100 partes de mesmo tamanho (percentis). Os quartis inferior e superior, usualmente denotados por Q1 e Q3, são definidos como os valores abaixo dos quais estão 1/4 e 3/4, respectivamente, dos dados. Estes valores são frequentemente usados para resumir os dados juntamente com o mı́nimo, o máximo e a mediana. Para um número par de observações, os quartis também serão uma média de valores. 12 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA Podemos agora definir uma medida de dispersão aproprida, a amplitude inter- quartis, que é a diferença entre o quartil superior e o inferior, Q3 − Q1. Note também que 50% dos dados estarão entre os quartis inferior e superior. Exemplo 1.9 : O número de crianças em 19 famı́lias foi contado e obteve-se os seguintes valores (já ordenados), 0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10. Assim, o número mediano de crianças é o valor de ordem (19+1)/2=10, i.e. 3 crianças. Analogamente, os quartis inferior e superior são os valores de ordem 5 e 15 respectivamente, i.e. 2 e 6 crianças. Portanto a amplitude inter-quartis é de 4 crianças. Vale notar também que no Exemplo 1.6 se um único aparelho apresentasse 15 defeitos ao invés de 4 a mediana e os quartis ficariam inalterados. Um importante método gráfico para apresentar caracteŕısticas de um con- junto de dados chama-se “Box-and-Whisker plot” ou simplesmente “Box-plot” e é baseado nas medidas vistas acima, i.e. o mı́nimo, o máximo, os quartis e a mediana. Um box-plot para os dados do Exemplo 1.3 é mostrado na Figura 1.6. A altura do retângulo representa a distância inter-quartis e as linhas se estendem Figura 1.6: Box-plot dos dados geoqúımicos do Exemplo 1.3. 10 12 14 16 18 co nc en tra çõ es d e Cr até as observações extremas, exceto aquelas consideradas discrepantes (outliers). 1.5. RESUMOS NUMÉRICOS 13 Para efeito de construção do Box-plot, uma observação x será considerada um outlier se, x < Q1 − 1, 5(Q3 − Q1) ou x > Q3 + 1, 5(Q3 − Q1). Exemplo 1.10 : Um box-plot para os dados do Exemplo 1.4 é mostrado na Figura 1.7. Os dados originais foram adicionados ao eixo vertical e pode-se notar que o valor 120 minutos foi considerado um outlier segundo o critério acima. Figura 1.7: Box-plot dos dados do Exemplo 1.4. 20 40 60 80 10 0 12 0 te mp os e m mi nu to s A presença de outliers em um conjunto de dados pode ser perfeitamente nor- mal, embora eles possam viesar cálculos baseados em somas. Eles também podem ser devido a erros (que podem ser corrigidos), ou ainda revelar que a distribuição dos dados tem “caudas pesadas” (e.g. dados intra-diários do mercado financeiro). Vale notar que este tipo de gráfico é particularmente útil para comparar ca- racteŕısticas de diferentes conjuntos de dados (como será visto na Seção 1.6.5). 1.5.3 A moda Algumas vezes, especialmente para dados de contagem, um único valor domina a amostra. Neste caso, a medida de locação apropriada é a moda, definida como o valor que ocorre com maior frequência. A proporção da amostra que assume este valor modal pode ser utilizada no lugar de uma medida formal de dispersão. 14 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA Na prática pode haver situações aonde se pode distinguir claramente dois ou mais ‘picos’ na frequência dos valores observados. Neste caso dizemos que os dados apresentam multimodalidade e devemos reportar todas os valores modais. Dados deste tipo são particularmente dif́ıceis de resumir e analisar. Exemplo 1.11 : O conjunto de dados discretos 3, 5, 7, 7, 7, 8, 10, 10, 10, 15, 20 apresenta duas modas 7 e 10 sendo assim chamado de bimodal. 1.6 Dados múltiplos Os resultados de um estudo tipicamente envolverão mais do que um único con- junto de dados. Neste caso, representações gráficas são úteis para comparar grupos de dados ou para verificar se exitem relações entre eles. Existem mui- tas possibilidades, mas a mais adequada dependerá das peculiaridades de cada conjunto de dados. Podemos criar combinações dos métodos já discutidos. Por exemplo, se me- dirmos as alturas e pesos de um conjunto de pessoas, podemos produzir box-plots de alturas lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à direita), ou um histograma acima do outro com a mesma escala no eixo horizontal de forma que eles possam ser facilmente comparados. Para um número diferente de grupos, uma série de box-plots verticais funciona bem como um simples resumo dos dados. Exemplo 1.12 : Na Figura 1.8 são apresentados os box-plots da renda familiar mediana (em salários mı́nimos) nos 75 bairros de Curitiba no ano de 2000, agru- pados por número de homićıdios (menor ou igual a 4 ou maior do que 41). Os valores originais dos dados aparecem nos eixos verticais. Que informações podem ser tiradas deste gráfico? Para combinações de dados categóricos, uma série de gráficos de setores ou de barras podem ser produzidos. No caso de dois ou três grupos de uma mesma variável categórica pode ser mais interessante colocar toda a informação em um mesmo gráfico de barras. Exemplo 1.13 : Em um estudo foram medidos os comprimentos de um dos dentes em cada um de 10 porquinhos da India submetidos a 3 doses de Vitamina 1O valor 4 foi fixado somente para fins de ilustração 1.6. DADOS MÚLTIPLOS 15 Figura 1.8: Box-plots dos dados de renda mediana em Curitiba no ano de 2000 agru- pados de acordo com o número de homicidios. Num. homic. > 4 Num. homic. <= 4 5 10 15 20 C (0,5, 1 e 2 mg) em 2 formas de ingestão (Ácido ascórbico e suco de laranja). Na Figura 1.9 são apresentados os box-plots das medidas separados por dosagem e forma de ingestão. 1.6.1 Diagramas de dispersão Para avaliar se existe uma relação entre duas variáveis cont́ınuas podemos pro- duzir um gráfico de pontos, em geral chamado de diagrama de dispersão. Neste caso faz pouco sentido unir os pontos, exceto quando o eixo horizontal representa peŕıodos de tempo. Śımbolos diferentes podem ser usados para diferentes grupos adicionando assim uma nova dimensão ao gráfico. Exemplo 1.14 : O gráfico na Figura 1.10 mostra as taxas de mortalidade por homicidio (por 100 mil habitantes) em São Paulo (capital mais região metropoli- tana e interior do estado) entre janeiro de 1979 e agosto de 1995. Os histogramas das duas variáveis aparecem nas margens e uma reta de regressão foi estimada. Que informações podem ser tiradas deste gráfico? Para mais do que duas variáveis, deve-se produzir diagramas de dispersão 16 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA Figura 1.9: Box-plots dos dados de comprimento de dente separados por dosagem e forma de ingestão. 0.5 1 2 0 5 10 15 20 25 30 35 Dose de Vitamina C em mg Co mp rim en to d o de nt e 0.5 1 2 0 5 10 15 20 25 30 35 Acido Ascorbico suco de laranja para todos os pares posśıveis produzindo assim uma matriz de gráficos de pontos (Ver Caṕıtulo 6). Gráfico temporal Um caso especial de um gráfico de pontos é um gráfico temporal onde a variável “tempo” está no eixo horizontal. Ou seja, as medidas dos dados são feitas ao longo do tempo. Nestes casos é usual unir pontos sucessivos por segmentos de reta, e é em geral uma boa prática deixar o eixo horizontal mais longo do que o vertical. Como exemplo deste tipo de dados, na Figura 1.11 são apresentados os gráficos temporais com medidas diárias de quatro indicadores de qualidade do ar em Nova Iorque entre maio e setembro de 1973. Uma referência para análise deste tipo de dadosé Morettin e Toloi (2004). 1.6. DADOS MÚLTIPLOS 17 Figura 1.10: Diagrama de dispersão das taxas de mortalidade por homicidio em São Paulo. 1 23 2 4 6 8 10 12 14 16 1. 0 1. 5 2. 0 2. 5 3. 0 Metropolitana In te rio r 1.6.2 Dados Pareados O exemplo abaixo ilustra um tipo de representação gráfica que pode ser útil para visualizar dados pareados. Exemplo 1.15 : Uma alteração foi introduzida na linha de montagem de um aparelho com o objetivo de reduzir o tempo gasto pelos operários para execução de certas tarefas. Uma amostra de 10 operários foi observada antes e depois da alteração e a Tabela 1.5 abaixo mostra os tempos de execução medidos. Uma representação gráfica destes dados é dada na Figura 1.12. É muito mais fácil ver do gráfico do que da tabela que os operários tenderam a reduzir seus tempos de execução, e que aqueles que não reduziram já tendiam a ter os menores tempos e provavelmente não necessitavam da alteração. 18 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA dias Oz on io 0 50 100 150 0 50 10 0 15 0 (a) dias Ra dia çã o so lar 0 50 100 150 0 50 10 0 15 0 20 0 25 0 30 0 (b) dias Ve nt o 0 50 100 150 5 10 15 20 (c) dias Te mp er at ur a 0 50 100 150 60 70 80 90 (d) Figura 1.11: Gráficos com as séries temporais de quatro indicadores de qualidade do ar em Nova Iorque, EUA. 1.6. DADOS MÚLTIPLOS 19 Tabela 1.5: Tempos de execução de tarefas por operário. Operário Tempo antes Tempo depois 1 10,3 12,2 2 11,4 12,1 3 10,9 13,1 4 12,0 11,9 5 10,0 12,0 6 11,9 12,9 7 12,2 11,4 8 12,3 12,1 9 11,7 13,5 10 12,0 12,3 Figura 1.12: Gráfico dos tempos de execução de tarefas por operários observados antes e depois de uma alteração. 10 11 12 13 14 tem po de ex ecu ção 20 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA 1.7 Problemas 1. Para um conjunto de n valores observados x1, . . . , xn mostre que: (a) a variância também pode ser escrita como ( ∑n i=1 x 2 i − nx2)/(n − 1); (b) somando-se uma constante k aos dados a variância não se altera e a média fica somada de k; (c) multiplicando-se os dados por uma constante k a média fica multipli- cada por k e a variância fica multiplicada por k2. (d) Calcule a média e a variância da transformação yi = axi + b para duas constantes a e b quaisquer. 2. No Exemplo 1.6 verifique que se um único aparelho apresentasse 15 defeitos ao invés de 4 a mediana e os quartis ficariam inalterados. 3. O salário médio dos funcionários de uma empresa era de R$500,00 com variância 100 reais2 e o salário mediano era de R$450,00. Se todos os salários forem duplicados o que ocorre com a média, variância, mediana e coeficiente de variação? 4. Descreva em palavras quais informações podem ser tiradas das Figuras 1.8, 1.9 e 1.10. 5. Forneça dois exemplos de variáveis qualitativas e dois de variáveis quanti- tativas (diferentes da apostila). 6. Descreva de forma concisa os seguintes dados usando suas palavras e algu- mas estat́ısticas descritivas, apontando caracteŕısticas principais observa- das. (a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estu- dantes de estat́ıstica no primeiro exame do semestre: 30 35 37 40 40 49 51 54 54 55 57 58 60 60 62 62 65 67 74 89 (b) O número de faltas de 20 trabalhadores num ano (ordenados por ta- manho): 0 0 0 0 0 0 0 1 1 1 2 2 3 3 4 5 5 5 8 45 (c) O número de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano: 1.7. PROBLEMAS 21 0 1 11 0 0 0 2 12 0 0 12 1 0 0 0 0 12 0 11 0 7. Faça um gráfico ramo-e-folhas para apresentação dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condição médica. 1,52 1,60 1,57 1,52 1,60 1,75 1,73 1,63 1,55 1,63 1,65 1,55 1,65 1,60 1,68 2.50 1,52 1,65 1,60 1,65 8. Os dados a seguir fornecem a concentração de um determinado poluente (em ppm) em 8 pontos de um afluente medidos antes e uma hora depois de um acidente ambiental: Antes Depois 4,67 5,44 4,97 6,11 5,11 6,49 5,17 6,61 5,33 6,67 6,22 6,67 6,50 6,78 7,00 7,89 Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o acidente provocou um aumento significativo nos ńıveis do poluente no aflu- ente. 9. A tabela abaixo fornece o número de grânulos de arenito por cm3 em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B). 22 CAPÍTULO 1. ESTATÍSTICA DESCRITIVA A B 171 397 116 375 431 795 375 440 288 257 151 192 1283 902 752 503 554 1621 979 1252 295 1004 208 688 568 1378 426 771 958 435 675 377 2415 1104 410 700 1212 396 736 315 (a) Calcule as médias e desvios-padrão nas duas localidades. (b) Faça histogramas dos dois conjuntos de dados, e compare-os. (c) Obtenha o mı́nimo, máximo, mediana, e os quartis de cada grupo? (d) Usando sua resposta ao item (c), construa boxplots para os dois con- juntos de dados e compare-os. (e) Você acha que existe uma diferença real entre os números de grânulos de arenito nas duas localidades, ou as diferenças observadas poderiam ter simplesmente ocorrido como uma consequência dos grupos consis- tirem de somente 20 observações cada? (f) Descreva as principais caracteŕısticas dos dados em uma ou duas sen- tenças. 10. O percentual de açúcar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados: Cereal açúcar sal 1 19 8 2 36 5 3 3 10 4 8 4 5 26 6 6 16 6 7 8 9 8 10 3 9 54 3 1.7. PROBLEMAS 23 (a) Faça um gráfico desses dados para investigar a relação entre o conteúdo de açúcar e sal nos cereais matinais. (b) Comente brevemente qualquer padrão observado nos dados. Caṕıtulo 2 Probabilidades Um conceito fundamental Os métodos estat́ısticos para análise de dados estão associados ao conceito de incerteza. Uma forma de quantificar o grau de incerteza (ou aleatoriedade) é através do conceito de probabilidade. Neste caṕıtulo serão apresentadas definições e propriedades em termos de teoria dos conjuntos. 2.1 Experimento aleatório Qualquer experimento cujo resultado não pode ser previsto com certeza absoluta é chamado de experimento aleatório. O espaço amostral é conjunto de todos os posśıveis resultados de um experimento aleatório, que aqui será denotado por S. Qualquer subconjunto A de S (i.e. A ⊂ S) é chamado de evento. Alguns exemplos de experimentos aleatórios com os respectivos espaços amos- trais e um evento associado são os seguintes, 1. Lançamento de uma moeda e observação da face superior. S = {cara, coroa}, A = {cara}. 2. Lançamento de um dado e observação da face superior. S = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6} 3. Contagem do número de peças defeituosas em um lote com 100 peças. S = {0, 1, 2, . . . , 100}, A = {0, 1, . . . , 10} 4. Medição do tempo de vida de um equipamento eletrônico em horas. S = (0,∞), A = (0, 100]. Note que o último espaço amostral é uma construção teórica já que na prática haverá sempre um limite superior para o intervalo. 24 2.2. DEFINIÇÃO DE PROBABILIDADE 25 Algumas operações com eventos serão muito úteis e são definidas a seguir. Para dois eventos A e B quaisquer: 1. A união entre eles (A∪B) ocorre se somente se pelo menos um deles ocorre. Em outras palavras, se ocorre apenas o evento A, ou ocorre apenas o evento B, ou ambos ocorrem simultaneamente. Podemos dizer ainda que A ou B ocorrem. 2. A interseção entre eles (A∩B) ocorre se somente se ambos ocorrem simul- taneamente, isto é, A e B ocorrem. Em particular, se A ∩ B = ∅ dizemos que A e B são mutuamente exclusivos. 3. Se A não ocorre dizemos que ocorre o seu complementar, A. Vale notar que as operações de interseção e união são comutativas, i.e. A ∩ B = B ∩ A e A ∪ B = B ∪ A. Algumas propriedades das operações de união, interseção e complementação também serão bastante úteis na resolução de problemas. A seguir listamos aquelas mais importantes,1. A ∩ S = A, A ∪ S = S, A ∩ ∅ = ∅ e A ∪ ∅ = A. 2. A ∩ A = ∅, A ∪ A = S, A ∩ A = A e A ∪ A = A. 3. A ∪ B = A ∩ B e A ∩ B = A ∪ B. 4. A = (A ∩ B) ∪ (A ∩ B). 2.2 Definição de probabilidade Seja um espaço amostral S associado a um dado experimento aleatório. A cada posśıvel evento A de S podemos associar um número real, representado por P (A) e denominado probabilidade do evento A, satisfazendo as seguintes propriedades, 1. 0 ≤ P (A) ≤ 1, 2. P (S) = 1, 3. P (A1 ∪ A2) = P (A1) + P (A2) se A1 e A2 são mutuamente exclusivos. 26 CAPÍTULO 2. PROBABILIDADES Esta última propriedade pode ser generalizada para um número finito ou infinito de eventos mutuamente exclusivos, A1, A2, . . . , An, ou seja P (A1 ∪ A2 ∪ · · · ∪ An) = P (A1) + P (A2) + · · ·+ P (An), se Ai ∩ Aj = ∅, para todo i 6= j. A partir destes axiomas outras propriedades bastante úteis podem ser obtidas, por exemplo 1. P (A) = 1 − P (A) onde A é o evento complementar de A. 2. P (A ∪ A) = 1 e P (∅) = 0. 3. Se A ⊂ B então P (A) ≤ P (B). 4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Uma definição mais simples de probabilidade é a chamada definição clássica. Neste caso a regra prática para obter P (A) consiste em simplesmente contar o número de resultados favoráveis ao evento A e dividir pelo número de resultados posśıveis do experimento. Assim, P (A) = número de resultados favoráveis a A número de resultados posśıveis . No entanto esta definição só faz sentido quando o espaço amostral é finito, de modo que possamos fazer as contagens requeridas, e também se todos os posśıveis resultados têm a mesma chance de ocorrer. 2.3 Probabilidade Condicional e Independência Para dois eventos A e B, sendo que P (B) > 0, definimos a probabilidade condi- cional de A dado que B ocorreu como P (A|B) = P (A ∩ B) P (B) . Vale notar que todas as propriedades vistas anteriormente continuam válidas para probabilidades condicionais. Por exemplo, P (A | B) = 1 − P (A | B). 2.3. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA 27 A partir desta definição obtemos a chamada regra do produto de probabilida- des, P (A ∩ B) = P (A|B)P (B). Esta é chamada probabilidade conjunta dos eventos A e B e também pode ser escrita como P (A, B). P (A) e P (B) são chamadas probabilidades marginais dos eventos A e B. Exemplo 2.1 : Duas bolas são retiradas ao acaso de uma urna contendo 2 bolas brancas (B) e 3 vermelhas (V ), sem reposição. Neste caso os posśıveis resultados do experimento são {BB, BV, V B, V V } e suas probabilidades são, P (B ∩ B) = P (B)P (B|B) = 2 5 × 1 4 = 2 20 P (B ∩ V ) = P (B)P (V |B) = 2 5 × 3 4 = 6 20 P (V ∩ B) = P (V )P (B|V ) = 3 5 × 2 4 = 6 20 P (V ∩ V ) = P (V )P (V |V ) = 3 5 × 2 4 = 6 20 . No exemplo acima imagine agora que as retiradas são feitas com reposição. Neste caso a informação sobre a cor da bola na primeira retirada não altera em nada chances de obtermos uma bola branca na segunda retirada. Em outras pa- lavras, P (B|V ) = P (B|B) = P (B) e dizemos que as retiradas são independentes. Em geral dizemos que dois eventos A e B são independentes se e somente se P (A|B) = P (A) e P (B|A) = P (B) e isto também equivalente a dizer que P (A ∩ B) = P (A)P (B). O conceito de independência pode ser estendido a um número qualquer de eventos, i.e. P (A1 ∩ · · · ∩ Ak) = P (A1) . . . P (Ak) se somente se os eventos A1, . . . , Ak forem independentes. 28 CAPÍTULO 2. PROBABILIDADES 2.4 Teorema de Bayes Suponha agora que os eventos A1, A2, . . . , Ak são dois a dois mutuamente ex- clusivos e a união deles é o próprio espaço amostral. Em outras palavras, um destes eventos necessariamente irá ocorrer porém dois deles não podem ocorrer simultaneamente, A1 ∪ A2 ∪ · · · ∪ Ak = S e Ai ∩ Aj = ∅, i 6= j. Então, qualquer outro evento B pode ser escrito como B = (B ∩ A1) ∪ (B ∩ A2) ∪ · · · ∪ (B ∩ Ak) sendo que estes k eventos do lado direito também são mutuamente exclusivos (verifique!). Além disso, P (B ∩ Aj) = P (B|Aj)P (Aj), j = 1, . . . k e portanto podemos escrever que P (B) = P (B ∩ A1) + P (B ∩ A2) + · · ·+ P (B ∩ Ak) = P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|Ak)P (Ak) = k∑ j=1 P (B|Aj)P (Aj). O fato é que em muitas aplicações conhecemos as probabilidades do lado direito desta igualdade e estaremos interessados em calcular a probabilidade de um dos eventos Ai ocorrer dado que B ocorreu, isto é P (Ai|B) = P (Ai ∩ B) P (B) = P (B|Ai)P (Ai) ∑k j=1 P (B|Aj)P (Aj) . Chamamos esta última igualdade de teorema de Bayes ou regra de Bayes, que nos mostra como atualizar a nossa crença no evento Ai após receber novas informações (i.e. que B ocorreu). • P (Ai) é a probabilidade a priori do evento Ai, porque antecede a informação sobre o evento B. • P (Ai|B) é a probabilidade a posteriori do evento Ai porque é calculada após termos informação sobre B. • Para um valor espećıfico de B, P (B|Ai) é chamada função de verossimi- lhança de Ai. 2.4. TEOREMA DE BAYES 29 Veremos uma aplicação no exemplo a seguir. Exemplo 2.2 : Um médico, ao examinar uma pessoa, “desconfia” que ela possa ter uma certa doença. Baseado na sua experiência, ele assume que a probabilidade do paciente ter a doença é 0,7. Para aumentar sua quantidade de informação sobre a doença o médico aplica um teste que tem probabilidades 0,4 e 0,95 de dar resultado positivo em pessoas sadias e pessoas doentes respectivamente. Sabendo que o teste deu positivo como fica a probabilidade da pessoa ter a doença? Aqui o evento de interesse é A= “o paciente tem a doença” e definimos o evento B= “teste deu resultado positivo”. Assim, P (B|Ā) = 0, 40 e P (B|A) = 0, 95. É bem intuitivo que a probabilidade de doença deve ter aumentado após este resultado e a questão aqui é quantificar este aumento. Usando o teorema de Bayes segue que P (A|B) = P (B|A)P (A) P (B|A)P (A) + P (B|A)P (A) = (0, 95)(0, 7) (0, 95)(0, 7) + (0, 40)(0, 30) = 0, 847. Exemplo 2.3 : No Exemplo 2.1 suponha que foram retiradas 2 bolas brancas mas não sabemos se as retiradas foram com ou sem reposição. Definindo o evento A=’retiradas com reposição’ gostariamos de calcular a probabilidade de A à luz do resultado do experimento (B ∩ B). Suponha que antes do sorteio não temos informação sobre o tipo de experimento (com ou sem reposição) e atribuimos a probabilidade a priori P (A) = 0, 5. Usando o Teorema de Bayes obtemos que P (A|BB) = P (BB|A)P (A) P (BB|A)P (A) + P (BB|A)P (A) = 0, 16 × 0, 5 0, 16 × 0, 5 + 0, 1 × 0, 5 = 0, 615. Assim, é mais provável agora (a posteriori) que o experimento tenha sido com reposição. Em muitas situações podemos estar interessados em comparar probabilidades a posteriori através da razão P (Ai|B) P (Aj|B) , ou seja, quanto o evento Ai é mais provável do que o evento Aj após observar o 30 CAPÍTULO 2. PROBABILIDADES evento B? Aplicando o teorema de Bayes ao numerador e denominador e notando que P (B) se cancela obtemos que P (Ai|B) P (Aj|B) ︸ ︷︷ ︸ razão de chances a posteriori = P (B|Ai) P (B|Aj) ︸ ︷︷ ︸ fator de Bayes P (Ai) P (Aj) . ︸ ︷︷ ︸ razão de chances a priori No Exemplo 2.2, ter a doença era 2,33 vezes mais provável do que não ter a doença antes de realizar o teste. Após realizar o teste e obter resultado positivo, o fator de Bayes indicou que ter a doença era 2,375 vezes mais plauśıvel do que não ter. Combinando estas duas informações conclui-se que ter a doença ficou 5,54 vezes mais provável a posteriori. No exemplo 2.3 temos que P (A|BB) P (A|BB) = 0, 615 1 − 0, 615 = 1, 597 ou seja, é 1,597 mais provável que o experimento tenha sido com reposição. 2.5 Problemas 1. Sejam os eventos S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, A = {1, 2, 3, 4, 5}, B = {2, 3, 5, 6} e {3, 4, 5, 6}. Obtenha A, A ∩ B, A ∩ C, A ∩ B, e A ∩ B. 2. Sejam os eventos A1, . . . , Ak tais que A1 ∪ · · · ∪ Ak = S e Ai ∩ Aj = ∅, i 6= j. Para um evento B qualquer verifiqueque B ∩ Ai são mutuamente exclusivos. 3. Duas moedas são lançadas. Escreva o espaço amostral para este experi- mento e liste os seguintes eventos, (a) pelo menos duas caras (b) exatamente duas caras (c) o complementar do item anterior Agora calcule as probabilidades dos eventos acima. 4. Suponha que 300 estudantes de uma universidade foram classificados o sexo e sua área de estudo. Obteve-se a distribuição de frequências abaixo. Se um estudante for selecionado ao acaso calcule, 2.5. PROBLEMAS 31 Area Sexo Biologicas Exatas Sociais masculino 50 58 54 feminino 43 34 90 (a) a probabilidade de que seja do sexo feminino e das ciencias sociais. (b) a probabilidade de que seja do sexo masculino e não seja das ciências biológicas. (c) a probabilidade de que seja do sexo masculino dado que é da área de exatas. 5. Considere o lançamento de dois dados e os seguintes eventos A: soma dos números obtidos igual a 6 e B: número obtido no primeiro dado maior ou igual a 3. (a) Enumere os elementos de A e B. (b) Obtenha A ∪ B, A ∩ B e B. (c) Calcule as probabilidades dos eventos no item anterior. 6. Dois dados são lançados e observa-se S, a soma dos valores obtidos nas faces. (a) Calcule a probabilidade da soma ser menor do que 8 sabendo que é um número ı́mpar. (b) Os dados são lançados até que se obtenha soma 7 ou 8. Calcule a probabilidade do evento A = {S = 7} sabendo que o experimento terminou. 7. Dois eventos independentes A e B ocorrem com probabilidades p e q, res- pectivamente. Qual a probabilidade de que (a) nenhum destes eventos ocorra? (b) pelo menos um destes eventos ocorra? 8. Dois eventos independentes A e B são tais que P (A) = 0, 4, P (B) = p e P (A ∪ B) = 0, 7. Para que valores de p os eventos serão: (a) mutuamente exclusivos, (b) independentes. 32 CAPÍTULO 2. PROBABILIDADES 9. Duas máquinas operam de forma independente em uma linha de produção. Em um peŕıodo de 8 horas as probabilidades de que cada uma delas apre- sente defeito são 1/3 e 1/4. Qual a probabilidade de que pelo menos uma das máquinas apresente defeito neste peŕıodo? 10. Um dado é viciado de tal forma que a probabilidade de sair uma face é proporcional ao seu valor, i.e. P (face x) ∝ x. Calcular: (a) A probabilidade de sair 5, sabendo-se que a face que saiu é ı́mpar. (b) A probabilidade de sair um número par, sabendo-se que saiu um número maior que 3. 11. Expresse as seguintes afirmações em termos de operações entre eventos. (a) A ocorre mas B não ocorre. (b) Exatamente um dos eventos A e B ocorre. (c) Nenhum dos dois eventos ocorre. (d) No máximo um deles ocorre. 12. Se A e B são eventos independentes mostre que também são independentes A e B, A e B, A e B. 13. Se A, B e C são eventos independentes verifique se (a) A e B ∪ C são independentes, (b) A ∩ B e A ∩ C são independentes. 14. Um médico, ao examinar uma pessoa, “desconfia” que ela possa ter uma certa doença e assume que a probabilidade do paciente ter a doença é 0,7. Para aumentar sua quantidade de informação o médico aplica um teste, que dá resultado positivo em 40% das pessoas sadias e em 95% das pessoas com esta doença. (a) Qual a probabilidade do teste dar resultado positivo? (b) Sabendo-se que o teste deu resultado positivo qual a probabilidade desta pessoa estar doente? (c) Foi aplicado um segundo teste que dá resultado positivo com pro- babilidades 0,04 e 0,98 em pessoas sadias e doentes respectivamente. Calcule a probabilidade deste teste dar positivo e a probabilidade de doença sabendo que ele deu negativo. 2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 33 15. Um componente eletrônico está sendo testado e sabe-se que ele pode ter sido produzido por máquinas do tipo I, II ou III com probabilidades 0,35, 0,25 e 0,40 respectivamente. Sabe-se também que as probabilidades deste componente ser defeituoso são 0,01, 0,02 e 0,03 respectivamente para cada tipo de máquina. Calcule a probabilidade deste componente eletrônico (a) Defina os eventos e enumere as probabilidades fornecidas no problema. (b) Qual a probabilidade deste componente eletrônico não ter sido fabri- cada por uma máquina do tipo I? (c) Qual a probabilidade dele ser defeituoso? (d) Qual a probabilidade dele ter sido fabricado por uma máquina do tipo II sabendo-se que é defeituoso? 16. Uma empresa de crédito precisa saber como a inadimplência está distribúıda entre seus clentes. Sabe-se que um cliente pode pertencer à uma de 4 clas- ses distintas com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente. Para cada uma destas classes as probabilidade de um cliente estar inadim- plente são 0,30, 0,10, 0,05 e 0,05 respectivamente. Um cliente é sorteado aleatoriamente. (a) Defina os eventos e enumere as probabilidades fornecidas no problema. (b) Calcule a probabilidade de pertencer às classes A ou B. (c) Calcule a probabilidade de estar inadimplente e pertencer à classe A. (d) Qual a probabilidade dele estar inadimplente ? (e) Sabendo que ele está inadimplente, qual a probabilidade dele pertencer à classe B? 17. Sejam duas moedas, uma honesta e a outra com 2 caras. Uma destas moedas foi sorteada e lançada. (a) Se o resultado foi cara, qual a probabilidade de ter sido usada a moeda honesta? (b) A moeda selecionada foi lançada novamente e o resultado foi cara. Qual a probabilidade de ser a moeda honesta? 2.6 Algumas distribuições de probabilidade Nesta seção estudaremos alguns modelos teóricos que se adequam a uma série de problemas práticos. Veremos que estes modelos envolvem parâmetros cujo 34 CAPÍTULO 2. PROBABILIDADES conhecimento é necessário para calcular probabilidades. Vale notar que na maio- ria dos problemas reais estes parâmetros serão desconhecidos e será preciso fazer algum tipo de inferência sobre eles, e este assunto será abordado no próximo caṕıtulo. Por enquanto vamos assumir que estes parâmetros são conhecidos e nos concentrar nas principais caracteŕısticas dos modelos apresentados. 2.6.1 A distribuição Uniforme Discreta Suponha um experimento com um número finito de posśıveis resultados e cada um deles com a mesma probabilidade de ocorrer. Definindo uma variável aleatória (v.a) X cujos posśıveis valores {x1, . . . , xk} estão associados aos resultados deste experimento, então P (X = xi) = 1 k , i = 1, . . . , k. O valor médio (ou valor esperado) é E(X) = (1/k) ∑k i=1 xi e sua variância é V ar(X) = 1 k k∑ i=1 [xi − E(X)]2 = 1 k [ k∑ i=1 x2i − kE(X)2] 2.6.2 A distribuição Binomial Em muitos experimentos os posśıveis resultados apresentam ou não uma deter- minada caracteŕıstica. Esta caracteŕıstica será muitas vezes determinada pelo pesquisador dependendo dos objetivos do experimento. Por exemplo, se uma pessoa for escolhida ao acaso dentre 1000 podemos estar interessados apenas se ela é do sexo masculino ou não. Neste tipo de experimento estaremos interessados na ocorrência de um sucesso ou falha e esta terminologia será utilizada daqui em diante. É usual denotar a probabilidade de sucesso por p, isto é P (sucesso) = p e portanto P (fracasso) = 1 − p. Podemos definir uma variável aleatória (v.a) X como a variável indicadora de sucesso em um experimento binário, i.e. X = { 1, se ocorre sucesso 0, se ocorre fracasso e a probabilidade de X assumir cada um dos seus posśıveis valores é P (X = x) = { px(1 − p)1−x se x = 0, 1 0 caso contrário. 2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 35 Dizemos que X tem distribuição de Bernoulli com parâmetro p ou equivalente- mente X ∼ Bernoulli(p), 0 < p < 1. Suponha agora que n experimentos (ou ensaios) independentes, são executa- dos, onde n é um número fixo, e que cada experimento resulta num sucesso com probabilidade p ou numa falha com probabilidade 1− p. Ou seja, o experimento consiste na observação das v.a. X1, . . . , Xn onde Xi ∼ Bernoulli(p), i = 1, . . . , n. Frequentementeestaremos interessados no número total de sucessos obtidos, independente da ordem em que eles ocorrem. Por exemplo, uma moeda é lançada 10 vezes e o número total de caras é contado (aqui “cara” é um sucesso). O número total de sucessos, Y = ∑n i=1 Xi, cujos posśıveis valores são 0, 1, . . . , n é uma variável aleatória com distribuição binomial com parâmetros n e p, ou Y ∼ Binomial(n, p). As probabilidades de cada um destes posśıveis valores são dadas por P (Y = k) = ( n k ) pk(1 − p)n−k, k = 0, 1, . . . , n (2.1) sendo ( n k ) = n! k!(n − k)! e m! = ∏m i=1 i é o fatorial de m (define-se 0! = 1). Além disso, o número médio (ou esperado) de sucessos é E(Y ) = np e a variância é V ar(Y ) = np(1−p). Na Figura 2.1 estão representadas graficamente distribuições Binomiais com probabilidades de sucesso p=0,2, 0,5, 0,7 e 0,9. Note como a distribuição é simétrica em torno da média quando p = 1/2 e é assimétrica para os outros valores de p. Exemplo 2.4 : Em uma linha de montagem estima-se que a proporção de itens defeituosos é aproximadamente 0,1. Se esta proporção é (aproximadamente) cons- tante ao longo do processo e 20 itens são selecionados de forma independente então o número médio ou esperado de defeituosos é 2 com variância 1,8 itens2. Definindo a v.a. Y : número de itens defeituosos podemos calcular por exemplo a probabilidade de no máximo 2 itens defeituosos como P (Y ≤ 2) = P (Y = 0) + P (Y = 1) + P (Y = 2) = ( 20 0 ) 0, 10 0, 920 + ( 20 1 ) 0, 11 0, 919 + ( 20 2 ) 0, 12 0, 918 = 0, 1216 + 0, 2702 + 0, 2852 = 0, 677. 36 CAPÍTULO 2. PROBABILIDADES 2.6.3 A distribuição de Poisson Um outro modelo bastante utilizado em aplicações práticas é a distribuição de Poisson. Ela é frequentemente usada para modelar dados de contagem, i.e. o número de ocorrências de um certo fenômeno, durante um intervalo fixo de tempo ou região fixa do espaço. Alguns exemplos são: o número de chamadas recebidas por uma central telefônica durante uma hora, o número de defeitos por unidade de comprimento de uma fita magnética, o número de nmetóides encontrados por unidade de superf́ıcie de solo, o número diário de novos casos de câncer de mama, etc. Neste caso, o número de ocorrências X por intervalo fixo (de tempo ou espaço) tem distribuição de Poisson e a probabilidade de exatamente k ocorrências é dada por P (X = k) = λke−λ k! , λ > 0, k = 0, 1, . . . . (2.2) sendo e a base do logaritmo natural (e = 2, 71828 . . . ). A constante λ (que é sempre positiva) pode ser interpretada como o número esperado (ou número médio) de ocorrências por unidade de tempo ou espaço. Assim, a média de uma variável aleatória com distribuição de Poisson é igual a λ e pode-se mostrar que a variância é igual a sua média, E(X) = V ar(X) = λ. Na Figura 2.2 estão representadas graficamente distribuições de Poisson com média λ=1, 2, 5 e 15. Exemplo 2.5 : O número de part́ıculas radioativas emitidas em cada intervalo de 5 segundos tem distribuição de Poisson e sabe-se que em média 2 part́ıculas são emitidas por intervalo. Se forem observados 10 intervalos de tempo qual a probabilidade de que em cada um deles menos de 3 part́ıculas sejam emitidas? Neste caso, podemos definir a v.a. X como o número de part́ıculas emitidas por intervalo sendo que o número médio de emissões é λ=2. Portanto X tem distribuição de Poisson com parâmetro igual a 2 e queremos calcular P (X < 3). Mas, P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) = 20e−2 0! + 21e−2 1! + 22e−2 2! = 0, 1351 + 0, 2707 + 0, 2707 = 0, 6767. Esta é a probabilidade de emissão de menos de 3 part́ıculas em um intervalo de 2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 37 tempo. Portanto, para 10 intervalos a probabilidade será 0, 676710 = 0, 0201. A distribuição de Poisson também pode ser vista como uma aproximação para a distribuição binomial quando n é grande e p é pequeno. Assim, intuitivamente podemos dizer que a distribuição de Poisson pode ser usada no estudo de eventos raros, i.e. com pequena probabilidade de ocorrência, quando o experimento é repetido um número grande de vezes. Neste caso o número médio de ocorrências é λ = np. Na prática esta aproximação é geralmente utilizada quando n ≥ 50 e np < 5. Exemplo 2.6 : Sabe-se que a proporção de pessoas com uma certa doença em uma população é 0,01. Em uma amostra aleatória de 200 pessoas qual a proba- bilidade de que pelo menos 4 delas tenham esta doença? Podemos assumir que a distribuição exata do número X de pessoas com a doença dentre estas 200 é binomial com parâmetros n = 200 e p = 0, 01. Como n > 50 e np = 2 < 5 podemos aproximá-la pela distribuição de Poisson com parâmetro λ = np = 2. Neste caso a probabilidade pedida é P (X ≥ 4) = ∞∑ k=4 P (X = k) = 1 − P (X < 4) = 1 − [P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)] = 1 − [ 20e−2 0! + 21e−2 1! + 22e−2 2! + 23e−2 3! ] = 1 − (0, 1353 + 0, 2707 + 0, 2707 + 0, 1804) = 0, 1428. Note que P (X ≥ 4) é uma soma infinita e foi mais fácil calcular a probabilidade do complementar. Finalmente, uma propriedade importante é que se temos n v.a. X1, . . . , Xn independentes e cada uma delas com distribuição Poisson(λ) então X = X1 + · · · + Xn ∼ Poisson(nλ) e X = X1 + · · ·+ Xn n tem média igual a λ e vriância igual a λ/n. 38 CAPÍTULO 2. PROBABILIDADES 2.6.4 Distribuição Geométrica A distribuição geométrica também está relacionada a experimentos dicotômicos realizados de forma independente e com a mesma probabilidade de sucesso. O evento de interesse neste caso é o número de experimentos X necessários para a ocorrência do primeiro sucesso. Por exemplo o número de inspeções necessárias até encontrar-se um item defeituoso em um lote. A probabilidade de que exatamente k experimentos sejam necessários até a ocorrência do primeiro sucesso é dada por P (X = k) = (1 − p)k−1p, k = 1, 2, . . . . Também pode-se mostrar que o número médio de repetições do experimento até ocorrer o primeiro sucesso é E(X) = (1 − p)/p e a variância é V ar(X) = (1 − p)/p2 = E(X)/p. Ou seja, quanto menor a probabilidade de sucesso menor será o número esperado de repetições para que ele ocorra. Exemplo 2.7 : Um motorista vê uma vaga de estacionamento em uma rua. Há cinco carros na frente dele, e cada um deles tem probabilidade 0,2 de tomar a vaga. Qual a probabilidade de a vaga ser tomada pelo carro que está imediatamente a frente dele? Neste caso, podemos definir a v.a. X como o número de carros que pas- sam pela vaga até que ela seja tomada (este é o evento definido como sucesso). Assume-se também que cada motorista toma a vaga ou não de forma indepen- dente. Ou seja queremos calcular P (X = 5) = (0, 8)4 0, 2 = 0, 082. 2.6.5 Variáveis Aleatórias Discretas Os modelos vistos até agora são chamados distribuições de probabilidade dis- cretas já que a v.a. associada assume valores em um conjunto finito ou infinito enumerável. Neste caso, probabilidades são calculadas como somas, i.e. P (X ∈ A) = ∑ k∈A P (X = k), 2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 39 para um conjunto A qualquer. Para distribuições discretas de probabilidade também é sempre posśıvel mostrar que ∑ k P (X = k) = 1. As definições de valor esperado (ou valor médio) e variância também podem ser generalizados para qualquer v.a. discreta X. Usaremos a seguinte notação, E(X) = µX = ∑ k kP (X = k) V ar(X) = σ2X = ∑ k P (X = k) (k − µX)2 para valor médio e variância respectivamente. O equivalente teórico ao conceito de frequências acumuladas vistas no Caṕıtulo 1 é a função de distribuição acu- mulada ou simplesmente função de distribuição definida como, F (x) = P (X ≤ x) = ∑ k≤x P (X = k), ∀x ∈ R Exemplo 2.8 : Em um experimento 5 peças foram inspecionadas e a v.a. X representao número de peças defeituosas com a seguinte distribuição de proba- bilidades x 0 1 2 3 4 5 P (X = x) 0,35 0,45 0,1 0,05 0,04 0,01 Neste caso podemos calcular o número médio de defeituosos e a variância como E(X) = 0× 0, 35 + 1× 0, 45 + 2× 0, 1 + 3× 0, 05 + 4× 0, 04 + 5× 0, 01 ≈ 1 peça V ar(X) = (0 − 1)20, 35 + (1 − 1)20, 45 + (2 − 1)20, 1 + (3 − 1)20, 05 + (4 − 1)20, 04 + (5 − 1)20, 01 ≈ 0, 9 peças2 Exemplo 2.9 : Um empresário vai abrir uma nova filial de sua empresa. Com base na experiência sobre outras filiais e outras empresas do ramo o lucro foi representado como uma v.a. discreta com a distribuição abaixo. 40 CAPÍTULO 2. PROBABILIDADES lucro -100 0 50 100 200 P (lucro = k) 0,05 0,05 0,30 0,50 0,10 E(Lucro) = −1000, 05 + 00, 05 + 500, 30 + 1000, 50 + 2000, 10 = 80. A seguir estudaremos distribuições de probabilidade chamadas cont́ınuas quando a v.a. associada assume valores no conjunto dos números reais. 2.6.6 A Distribuição Uniforme Cont́ınua A forma mais simples de modelar um fenômeno aleatório cujos valores ocorrem no intervalo (a, b) da reta dos reais é através de uma v.a. X cuja probabilidade de pertencer a qualquer subintervalo de (a, b) seja proporcional ao comprimento do subintervalo. Matematicamente, se (c, d) ⊆ (a, b) então P (c ≤ X ≤ d) ∝ d − c. Isto significa que função de densidade de probabilidade de X deve ser escrita como f(x) = 1 b − a, a ≤ x ≤ b 0, caso contrário Deste modo, P (c ≤ X ≤ d) = (d − c)/(b − a). Pode-se mostrar também que E(X) = (a + b)/2 e V ar(X) = (b − a)2/12. Exemplo 2.10 : Seja X uma v.a. com distribuição uniforme no intervalo (-1,4). Então a função de densidade de probabilidade de X é f(x) = { 1/5, −1 ≤ x ≤ 4 0, caso contrário e também P (0 ≤ X ≤ 2) = 2/5. 2.6.7 A Distribuição Normal A distribuição normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes em Estat́ıstica. Esta distribuição é carac- terizada por uma função de densidade de probabilidade cujo gráfico tem uma forma de sino como na Figura 2.3. 2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 41 Esta distribuição é apropriada para modelar variáveis aleatórias cont́ınuas, que assumem valores em algum subconjunto dos números reais. Neste caso, só faz sentido falar na probabilidade da variável pertencer a um certo intervalo [a, b] que é dada pela área sob a curva e dentro deste intervalo. A equação da curva normal é especificada usando dois parâmetros: a média µ, e o desvio padrão σ, ou equivalentemente a variância σ2. Denotamos N(µ, σ2) à curva normal com média µ e variância σ2. A média refere-se ao centro da distribuição e o desvio padrão ao grau de espalhamento de curva. A distribuição normal é simétrica em torno da média o que implica que a média, a mediana e a moda são todas coincidentes. Para referência, a equação da curva é dada por f(x) = 1√ 2πσ2 exp { −(x − µ) 2 2σ2 } , µ ∈ R, σ2 > 0. (2.3) O importante é que se entenda como a curva é afetada pelos valores numéricos de µ e σ. A forma da curva é mostrada na Figura 2.4 para alguns valores da média e desvio padrão. A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores espećıficos podemos determinar a proporção de área sob a curva entre esses dois valores. Em particular para a distribuição normal, a proporção de valores localizados dentro de um, dois, ou três desvios padrão em torno da média são: Intervalo Proporção µ ± 1σ 68,3% µ ± 2σ 95,5% µ ± 3σ 99,7% Um exemplo de como utilizar este resultado é o seguinte. Exemplo 2.11 : Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribuição normal, com média 140mm e desvio padrão 15mm. Neste caso, a proporção dos peixes que têm comprimentos entre 110mm e 170mm, por exemplo, é a proporção da área sob a curva normal entre 110 e 170. Então neste exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e 170mm. Em termos probabiĺısticos, se a variável aleatória X representa o comprimento dos peixes e se um peixe for selecionado ao acaso então P (µ − 2σ < X < µ + 2σ) = P (110 < X < 170) = 0, 95. Em geral as probabilidades são obtidas calculando-se a integral definida da 42 CAPÍTULO 2. PROBABILIDADES função f(x) em (2.3), i.e. P (a < X < b) = ∫ b a f(x)dx. Neste caso, P (X = x) = 0 e portanto segue que P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a ≤ X ≤ b). Na prática desejamos calcular probabilidades para diferentes valores de µ e σ. Para isso, a variável X cuja distribuição é N(µ, σ2) é transformada numa forma padronizada Z com distribuição N(0, 1) (distribuição normal padrão) pois tal distribuição é tabelada. A quantidade Z é dada por Z = X − µ σ (2.4) Exemplo 2.12 : A concentração de um poluente em água liberada por uma fábrica tem distribuição normal com média 8 ppm e desvio padrão 1,5 ppm. Qual a probabilidade, de que num dado dia, a concentração do poluente exceda o limite regulatório de 10 ppm? A solução deste problema resume-se em determinar qual proporção da dis- tribuição está acima de 10 ppm. Assim, definindo a v.a. X como sendo a con- centração do poluente na água segue que X ∼ N(9; 1, 52), e devemos calcular P (X > 10). Usando a estat́ıstica Z temos que P (X > 10) = P ( Z > 10 − 8 1, 5 ) = P (Z > 1, 33) = 1 − P (Z ≤ 1, 33) = 0, 5 − P (0 < Z < 1, 33) Consultando a tabela da distribuição normal padronizada obtemos que P (0 < Z < 1, 33) = 0, 4082 e assim P (X > 10) = 0, 0918. Portanto, espera- se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do tempo. Vale notar que a propriedade de simetria da curva normal em torno da média é bastante útil no cálculo de probabilidades. Por exemplo, se X tem distribuição N(µ, σ2) então, para quaisquer valores de µ, σ2 e h > 0, 1. P (X > µ) = P (X < µ) = 0, 50 uma vez que a área total abaixo da curva é igual a 1. 2.6. ALGUMAS DISTRIBUIÇÕES DE PROBABILIDADE 43 2. P (X > µ + h) = P (X < µ − h). 2.6.8 Distribuição Exponencial Frequentemente usada para modelar o tempo entre eventos que ocorrem a uma taxa média constante. Se X é uma v.a. com distribuição exponencial sua função de densidade de probabilidade tem a forma f(x) = λe−λx, x > 0, λ > 0, (2.5) sendo λ o parâmetro da distribuição. Usamos a notação X ∼ Exponencial(λ). Pode-se mostrar que o valor médio de X é 1/λ e sua variância é 1/λ2. Probabi- lidades são facilmente calculadas como P (a < X < b) = ∫ b a λe−λxdx = e−λa − e−λb Na Figura 2.5 estão representadas graficamente as funções de densidade (2.5) com λ=1, 2, e 0,5. Exemplo 2.13 : Em uma empresa os acidentes de trabalho ocorrem a uma taxa média de 0,1 por dia. Seja T o tempo (em dias) até a ocorrência do primeiro acidente, então T tem distribuição exponencial com parâmetro λ = 0, 1. Assim, o tempo médio até ocorrer o primeiro acidente é igual a 10 dias (E(T )=10). A probabilidade de não haver acidentes em uma semana de trabalho (de 5 dias) é dada por P (T > 5) = ∫ ∞ 5 0, 1e−0,1tdt = e−0,1×5 ≈ 0, 607. O modelo exponencial tem inúmeras aplicações práticas, por exemplo em teoria das filas (tempo entre chegadas de clientes em um sistema), confiabilidade (tempo até a falha de um equipamento), etc. 2.6.9 Variáveis Aleatórias Cont́ınuas Estes últimos modelos são chamados distribuições de probabilidade cont́ınuas já que a v.a. associada assume valores em um conjunto infinito. Neste caso, probabilidades são calculadas como integrais, i.e. P (X ∈ A) = ∫ A f(x)dx, 44 CAPÍTULO 2. PROBABILIDADES para um conjunto A ⊂ R qualquer. Também é sempre posśıvel mostrar que ∫ ∞ −∞ f(x)dx = 1. As definições de valor esperado (ou valor médio) e variância também podem ser generalizados paraqualquer v.a. cont́ınua X, E(X) = µX = ∫ ∞ −∞ xf(x)dx V ar(X) = σ2X = ∫ ∞ −∞ f(x) (x − µX)2. Neste caso a função de distribuição acumulada é definida como F (x) = P (X ≤ x) = ∫ x −∞ f(t)dt, ∀x ∈ R 2.6.10 Problemas 1. Mostre que as funções abaixo são funções de densidade de probabilidade e determine o valor da constante k. (a) f(x) = kx2 para 0 < x < 4. (b) f(x) = k(1 + 2x) para 0 < x < 2. (c) f(x) = k exp(−x) para x > 0. 2. Considerando a função de densidade no item (b) do problema 1. (a) Calcule P (X > 1, 5). (b) Calcule P (0, 7 < X < 1, 2). (c) Calcule o valor esperado de X. (d) Calcule a variância de X. (e) Calcule a mediana de X. (f) Calcule os quartis da distribuição de X. 3. A função de distribuição acumulada de uma certa variável aleatória é F (x) = 0, x < −2 0, 25x + 0, 5, −2 ≤ x < 2 x x ≥ 2 2.7. AJUSTE DE MODELOS TEÓRICOS 45 (a) Calcule P (X < 1, 8) (b) Calcule P (X > −1, 5) (c) Calcule P (X < −2) (d) Calcule P (−1 < X < 1) (e) Calcule a média e mediana de X 2.7 Ajuste de Modelos Teóricos Um problema de grande importância prática é o ajuste de distribuições teóricas às distribuições dos dados observados. Em outras palavras, queremos saber se a distribuição das frequências observadas nos dados segue o padrão de algum modelo teórico (normal, binomial, etc.). Nos exemplos a seguir veremos como fazer este ajuste. Exemplo 2.14 : Em uma amostra de 100 lotes com 5 itens cada um, verificou-se que o número de itens defeituosos tem a seguinte distribuição de frequências, Tabela 2.1: Frequências observadas para os dados de itens defeituosos. no de defeituosos 0 1 2 3 4 5 total no de lotes 75 21 3 1 0 0 100 Podemos ajustar uma distribuição binomial a estes dados com n = 5 e p a probabilidade de um item ser defeituoso. Neste caso a média teórica é np = 5p e o número médio de itens defeituosos observados é x̄ = 0, 3. Igualando as duas médias obtemos que 5p = 0, 3, e portanto p = 0, 06. Assim, se X representa o número de itens defeituosos em cada lote, a distribuição binomial ajustada será, P (X = k) = ( 5 k ) (0, 06)k(0, 94)5−k, k = 0, 1, 2, 3, 4, 5. Agora podemos calcular as frequências teóricas (ou ajustadas) e comparar com aquelas observadas, como na Tabela 2.2 a seguir. Com base nesta tabela podemos afirmar que o modelo binomial parece ser adequado já que as frequências observadas ficaram muitos próximas das ajusta- das. Em outras palavras, aquilo que foi observado parece estar de acordo com o modelo teórico. 46 CAPÍTULO 2. PROBABILIDADES Tabela 2.2: Frequências ajustadas e observadas para os dados de itens defeituosos. frequências no de defeituosos (k) P (X = k) ajustada observada 0 0,7339 73 75 1 0,2342 23 21 2 0,0299 3 3 3 0,0019 0 1 4 0,0001 0 0 5 0,0000 0 0 Tabela 2.3: Frequências observadas de defeitos em 300 itens. no de defeitos 0 1 2 3 4 total no de itens 80 122 53 31 14 300 Exemplo 2.15 : Em uma amostra de 300 itens, o número de defeitos observados em cada um deles tem a distribuição de frequências dada na Tabela 2.3 abaixo. Podemos pensar em ajustar uma distribuição de Poisson com parâmetro (λ) dado pelo número médio de defeitos observados por item. Neste caso a média amostral é x̄ = 1, 26, e portanto se X representa o número de defeitos por item então a distribuição ajustada será, P (X = k) = (1, 26)ke−1,26 k! , k = 0, 1, . . . A partir deste modelo podemos calcular as frequências ajustadas, e obtemos a Tabela 2.4 a seguir. Podemos dizer que o modelo ainda parece adequado embora as frequências observadas não estejam mais tão próximas das ajustadas (como no exemplo an- terior). Nos próximos caṕıtulos veremos como testar esta adequação mais for- malmente. Exemplo 2.16 : Em um determinada seção de um rio foram efetuadas 1000 medições de sua vazão (em m3/s), e obteve-se a distribuição apresentada na Tabela 2.5 abaixo. Podemos ajustar uma distribuição normal com parâmetros (média e variância) dados pela média amostral e variância amostral respectivamente. Neste caso, 2.7. AJUSTE DE MODELOS TEÓRICOS 47 Tabela 2.4: Frequências ajustadas e observadas para os dados de defeitos por item. frequências no de defeitos (k) P (X = k) ajustada observada 0 0,28 85 80 1 0,36 107 122 2 0,23 68 53 3 0,09 28 31 4 0,03 9 14 Tabela 2.5: Frequências observadas para os dados de vazão agrupados em classes. classes de vazão frequência observada 10-14 55 14-18 126 18-22 325 22-26 315 26-30 130 30-34 49 x̄ = 21, 9 e s = 4, 71 e portanto se X representa as medições de vazão então X tem distribuição N(21, 9; 4, 712) (esta é a distribuição ajustada). Calculado as probabilidades de obter uma medição em cada uma das classes podemos construir a Tabela 2.6 com as frequências ajustadas. A probabilidade da primeira classe foi obtida calculando-se P (10 < X < 14) = P ( 10 − 21, 9 4, 71 < Z < 14 − 21, 9 4, 71 ) = P (−2, 53 < Z < −1, 68) = P (1, 68 < Z < 2, 53) = P (Z < 2, 53) − P (Z < 1, 68) = 0, 9945− 0, 9535 = 0, 041 e este cálculo foi repetido para as outras classes. Novamente parece razoável afirmar que o modelo é adequado para estes da- dos uma vez que as frequências observadas ficaram relativamente próximas das ajustadas. 48 CAPÍTULO 2. PROBABILIDADES Tabela 2.6: Frequências ajustadas e observadas para os dados de vazão agrupados em classes. frequências classes de vazão Probabilidades das classes ajustada observada 10-14 0,041 41 55 14-18 0,157 157 126 18-22 0,305 305 325 22-26 0,300 300 315 26-30 0,150 150 130 30-34 0,038 38 49 2.8 Problemas 1. Suponha que a variável aleatória X possa assumir os seguintes valores -3,- 2,-1,0,1,2,3 com a mesma probabilidade. Determine distribuição de proba- bilidades de Y = X2 − X. 2. Considere um modelo uniforme discreto para a v.a. X no conjunto {1, 2, . . . , 10}. Calcule P (3 ≤ X < 7) e P (X ≤ 9|X ≥ 6). 3. A probabilidade de um atirador acertar no alvo num único tiro é 1/4. Se o atirador atira 20 vezes no alvo qual a probabilidade de acertar (a) exatamente 5 vezes; (b) pelo menos 3 vezes; (c) nenhuma vez; (d) no máximo 2 vezes. 4. Um professor aplica um teste do tipo certo-errado com 20 questões. Calcule a probabilidade de um aluno acertar mais de 80% das questões supondo que ele está respondendo ao acaso. 5. O número de part́ıculas alfa emitidas por segundo em sedimentos radioati- vos pode ser descrito por uma distribuição Poisson com média 6. (a) Qual a probabilidade de não haver nenhuma part́ıcula emitida num dado segundo? (b) Qual a probabilidade de pelo menos quatro part́ıculas serem emitidas num segundo? 2.8. PROBLEMAS 49 6. O número médio de colônias de bactérias por 10 ml de água retirada de um lago é igual a 3. (a) Qual a probabilidade de se achar pelo menos duas colônias em 10 ml de água deste lago? (b) Qual a probabilidade de não se achar nenhuma colônia em 10 ml de água deste lago? 7. Um curso de especialização garante que 9 em cada 10 alunos seus têm au- mento de produtividade. Uma empresa decide enviar uma turma de 15 funcionários para fazer o curso e verificar quantos aumentaram a produti- vidade. (a) Indique um modelo apropriado para este experimento e diga quais as hipóteses necessárias para que ele seja válido. (b) Assumindo que este modelo é válido, qual a probabilidade de que no máximo 2 funcionários não aumentem sua produtividade ? (c) O que ocorre com o item anterior se a empresa enviar 100 funcionários ? (Dê uma solução aproximada). 8. A tabela abaixo representa uma distribuição de frequências para o número de defeitos observados em certo tipo de componente eletrônico. no defeitos 1 2 3 4 5 6 7 frequência 3 9 8 5 3 1 1 (a) Você diria que a distribuição normal é adequada para modelar estes dados? (Justifique). (b) Assumindo que o modelo de Poisson é apropriado calcule a proba- bilidade de um componente escolhido
Compartilhar