Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade e Estatística Caroline Cavatti Vieira Bolonini carolinevieira@ceunes.ufes.br 2014/1 Bibliografia básica: • Caroline C. Vieira. Notas de aula • M. N. Magalhães; Antonio C. P. de Lima. Noções de Probabilidade e Estatística – 4ª ed. 1. Introdução • Definição de Estatística: é um conjunto de técnicas que nos permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos e experimentos. • Está dividida em duas áreas: • Estatística Descritiva: é utilizada na etapa inicial da análise para que possamos nos familiarizar com os dados, e tirarmos conclusões informais e diretas a respeito de características de interesse com base nos dados observados. • Inferência Estatística: Técnicas que permitem extrapolar para a população, conclusões tiradas de subconjuntos ou amostras desta população. Conceitos: • População: é um conjunto de dados / pessoas / objetos / etc. que possuem pelo menos uma característica em comum de interesse do pesquisador. Exemplos: 1. a população brasileira. 2. a totalidade dos carros produzidos no Brasil. 3. uma jazida de minério de ferro de determinada mina. 4. o sangue no corpo de uma pessoa. • Amostra: é um subconjunto desta população obtida de acordo com certas regras (técnicas de amostragem). 1. a população do Paraná. 2. carros produzidos pela Fiat. 3. um testemunho ou porção retirada da mina. 4. uma ampola de sangue colhida para um exame. Estatística Descritiva Amostragem População Amostra Inferência Estatística • Dados: Conjuntos de valores, numéricos ou não. Todo dado se refere à determinada característica (variável). Tipos de Variáveis: • Qualitativas: quando os possíveis valores que assume representam atributos ou qualidades. Podem ser: • Nominais: o conjunto dos possíveis valores não possui uma ordenação natural. Ex: Sexo, Raça, Religião, etc. • Ordinais: é possível ordenar o conjunto dos possíveis valores. Ex: Classe Social, Escolaridade do chefe da família, etc. • Quantitativas: quando os possíveis valores que assume são de natureza numérica. Podem ser: • Discretas: em geral são fruto de uma contagem. O conjunto de possíveis valores é enumerável. Ex: Número de filhos na família, número de pessoas chegando em uma fila, número de caras obtidas em 5 lançamentos de uma moeda etc. • Contínuas: assumem valores em intervalos dos números reais. Ex: peso, altura, idade, etc. 2. Estatística descritiva • Apresentação dos dados: organizar os dados de maneira prática e racional para o melhor entendimento do fenômeno que se está estudando. Pode ser por meio de tabelas e gráficos. 2.1. Construção de Tabelas • O conjunto de informações disponíveis após tabulação de questionário ou pesquisa de campo é denominado tabela de dados brutos. • Nela são listados individualmente cada elemento da população ou amostra, com os valores de todas as variáveis estudadas. (Vide anexo 1) • Apesar de conter muita informação, a tabela de dados brutos não é prática para respondermos rapidamente a questões de interesse. • Assim, a partir da tabela de dados brutos normalmente construímos uma nova tabela denominada tabela de frequência. • A tabela de frequência mais simples é aquela que lista os valores observados para determinada variável, e o número de ocorrências (ou frequência absoluta) de cada um destes valores. Exemplos: Sexo fi F 37 M 13 total 50 Turma fi A 25 B 25 total 50 • fi – Freq. absoluta: nº de elementos pertencentes a uma classe. Outras Freqüências: • Freqüência acumulada (fa): fa = freq. absoluta da classe + freq. absoluta das classes anteriores • Freqüência relativa (fr): • Freqüência relativa acumulada (fra): fra = freq. relativa da classe + freq. relativa das classes anteriores 𝑓𝑟 = 𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑓𝑟𝑒𝑞. 𝑡𝑜𝑡𝑎𝑙 Exemplo: Idade fi fa fr (%) fra (%) 17 9 9 18 18 18 22 31 44 62 19 7 38 14 76 20 4 42 8 84 21 3 45 6 90 22 0 45 0 90 23 2 47 4 94 24 1 48 2 96 25 2 50 4 100 Total 50 100 • No caso da variável discreta assumir muitos valores e no caso das variáveis contínuas, os dados serão classificados em grupos, possuindo diversos valores numa classe. Exemplo: Peso PMi fi fa fr fra 44 |- 52 48 11 11 0,22 0,22 52 |- 60 56 19 30 0,38 0,60 60 |- 68 64 7 37 0,14 0,74 68 |- 76 72 7 44 0,14 0,88 76 |- 84 80 1 45 0,02 0,90 84 |- 92 88 4 49 0,08 0,98 92 |- 100 96 1 50 0,02 1,00 Total 50 1 Definições: • Limite inferior da classe (LI): é o valor mínimo que a variável alcança. • Limite superior da classe (LS): é o valor máximo que a variável alcança. • Amplitude da classe (h): é a diferença entre o LS e o LI de uma mesma classe. • Amplitude total (R): é a diferença entre o maior e o menor valor observado. • Ponto médio da classe (PM): é obtido somando-se o LI e o LS de uma mesma classe, e dividindo-se o resultado por 2. 2.2. Procedimento para construção de tabelas 1. Calcular a amplitude total (R). 2. Estipular o número de classes da tabela (k). Em geral varia de 5 a 20. • Critério para escolher k: seja n o número de dados - se 𝑛 ≤ 25 → 𝑘 = 5 - se 𝑛 > 25 → 𝑘 ≈ 𝑛 3. Calcular a amplitude das classes (h), de forma que as classes tenham a mesma amplitude. Para isso, toma-se: • OBS: h deve ser tomado com número de casa decimais igual ou menor que os dados; e seu valor deve, sempre, ser arredondado para cima. = 𝑅 𝑘 • Exemplo: as notas de 32 estudantes de uma classe estão descritas a seguir. 0,0 0,0 1,0 1,5 2,0 2,0 2,5 3,5 3,5 4,0 4,0 4,0 4,5 4,5 4,5 5,0 5,0 5,0 5,0 5,0 5,5 5,5 6,0 6,0 6,0 6,5 6,5 7,0 7,0 7,0 8,0 8,5 1. 𝑅 = 8,5 − 0,0 = 8,5 2. 𝑘 = 32 ≈ 5,66 ≈ 6 3. = 8,5 6 ≈ 1,42 ≈ 1,5 • Construir a tabela de freqüência. Notas fi fa fr (%) fra (%) 0,0 |- 1,5 3 3 9 9 1,5 |- 3,0 4 7 13 22 3,0 |- 4,5 5 12 16 38 4,5 |- 6,0 10 22 31 69 6,0 |- 7,5 8 30 25 94 7,5 |- 9,0 2 32 6 100 Total 32 100 2.3. Construção de Gráficos • Gráfico de Barras: Para cada valor da variável, desenha-se no eixo horizontal (ou vertical) uma barra com altura correspondente a sua freq. absoluta (ou relativa). • Este tipo de gráfico se adapta melhor às variáveis quantitativas discretas ou qualitativas. • Ex: Gráfico de barras para a variável Idade. 0 5 10 15 20 25 17 18 19 20 21 22 23 24 25 F rq . A b so lu ta Idade • Diagrama circular, disco ou pizza: Tipo de gráfico muito utilizado para representação de variáveis qualitativas. • Consiste num círculo dividido em setores, cujos tamanhos são proporcionais às freq. absolutas ou porcentagens correspondentes. • É útil quando o número de classes é pequeno. • Ex: Gráfico de pizza para a variável OpTV. • Histograma: Este é um gráfico que parte de uma tabela de freqüência de dados agrupados. • Este gráfico consiste de retângulos contíguos cuja base é igual à amplitude da classe correspondente e área igual à freqüência relativa de cada classe. • A altura de cada retângulo é chamada de densidade da classe. A densidade da classe i é o valor dado por: 𝑑𝑖 = 𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖 • No caso da primeira classe da tabela de freq. da variável peso temos: 𝑑𝑖 = 0,22 8 = 0,0275 • Obs: o histograma pode ainda ser representado por retângulos contíguos cuja base é igual à amplitude da classe correspondente e altura igual à freqüência absoluta (ou relativa) de cada classe. • Ex: histograma da variável peso. • Polígono de Frequência: Este gráficoé obtido unindo-se os pontos médios de cada classe por segmentos de reta. • Este gráfico fornece uma melhor idéia da forma de distribuição dos dados. • OBS: Devem-se acrescentar classes com freqüência zero em ambos os extremos da distribuição para ligar o gráfico ao eixo horizontal. 0 0,005 0,01 0,015 0,02 0,025 0,03 0,035 0,04 0,045 0,05 48 56 64 72 80 88 96 D e n si d a d e Peso - Ponto Médio • Ogiva: Representação gráfica das freqüências acumuladas de uma tabela de freqüências de dados agrupados. • É uma linha poligonal que parte do eixo horizontal no limite inferior da 1ª classe e para cada limite superior indica a freqüência acumulada de sua classe. 0 11 30 37 44 45 49 50 0 10 20 30 40 50 60 44 52 60 68 76 84 92 100 Fr e q . a cu m u la d a Pesos 2.4. Medidas • Medidas são resumos ou sumários da informação trazida pela população (ou amostra) em um único número. • Existem diferentes classes de medidas, sendo as mais conhecidas as medidas de posição e dispersão. Definições: • Parâmetro: Resumo de uma característica obtido a partir de todos os elementos de uma população. Ex: média populacional (µ), desvio-padrão populacional (σ). • Estatística: Resumo da característica de interesse levando-se em conta apenas os elementos da amostra. Ex: média amostral ( ), desvio-padrão amostral (s). 𝑋 2.4.1. Medidas de posição • Tendem a representar os elementos comuns da população (ou amostra). Ex: média, moda, mediana, quartis, etc. Medidas de posição Medidas de tendência central Medidas Separatrizes Média Mediana Moda Quartis Percentis • Média amostral ( ): É um valor que representa o centro de massa ou ponto de equilíbrio da distribuição (histograma). É calculado por: 𝑿 X = X1 +X2 + ¢ ¢ ¢+Xn n = Pn i=1Xi n • Para melhor compreensão do conceito de média como centro de massa, imagine uma amostra com os seguintes valores {8, 9, 5, 5, 4, 3, 6, 4}. • Façamos um Diagrama de pontos, que é um gráfico útil para visualização de pequenas amostras. • Para tanto simplesmente plotamos um ponto para cada valor da amostra sobre um segmento de que contenha todos os valores. Se houver repetições plotamos um ponto sobre o outro. R • Note que a média pode ser pensada como um centro de massa porque se cada ponto tivesse a mesma massa, digamos 1kg, o triângulo representando a média equilibraria exatamente estes pesos. Média = 5,5 • Se os dados estiverem dispostos em tabela de freqüência como no exemplo abaixo, Variável fi X1 f1 X2 f2 ... ... ... ... Xk fk Total n fazemos: 𝑋 = 𝑋1𝑓1 + 𝑋2𝑓2 + ⋯ + 𝑋𝑘𝑓𝑘 𝑛 = 𝑋𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 • Se conhecermos a freqüência relativa, o cálculo da média passa a ser: 𝑋 = 𝑋1 𝑓1 𝑛 + ⋯ + 𝑋𝑘 𝑓𝑘 𝑛 = 𝑋1𝑓𝑟1 + ⋯ + 𝑋𝑘𝑓𝑟𝑘 = 𝑋𝑖 𝑘 𝑖=1 𝑓𝑟𝑖 • Exemplo: Para calcularmos a média dos dados abaixo: X fi fr 1 3 0,3 2 4 0,4 3 2 0,2 5 1 0,1 Total 10 1 • Pelos dados brutos: 𝑋 = 1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5 10 = 22 10 = 2,2 • Pela freqüência absoluta: 𝑋 = 1 × 3 + 2 × 4 + 3 × 2 + 5 × 1 10 = 2,2 • Pela freqüência relativa: 𝑋 = 1 × 0,3 + 2 × 0,4 + 3 × 0,2 + 5 × 0,1 = 2,2 • Dados agrupados em classe: Para calcularmos a média nestes casos devemos inicialmente calcular o ponto médio de cada classe, denotando-o por PMi. • A partir disto calculamos a média utilizando uma das seguintes expressões: 𝑋 = 𝑃𝑀𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 𝑋 = 𝑃𝑀𝑖𝑓𝑟𝑖 𝑘 𝑖=1 • Vamos calcular a nota média dos 32 alunos de nosso exemplo a partir da tabela de distribuição de frequências, incluindo o ponto médio de cada classe. • Assim, pela freq. absoluta: 𝑋 = 153 32 = 4,78 • Já pela freq. relativa: 𝑋 = 4,77 Notas PMi fi PMi*fi fr PMi*fr 0,0 |- 1,5 0,75 3 2,25 0,09 0,0675 1,5 |- 3,0 2,25 4 9 0,13 0,2925 3,0 |- 4,5 3,75 5 18,75 0,16 0,6 4,5 |- 6,0 5,25 10 52,5 0,31 1,6275 6,0 |- 7,5 6,75 8 54 0,25 1,6875 7,5 |- 9,0 8,25 2 16,5 0,06 0,495 Total 32 153 1 4,77 • Em certas situações, os valores de um conjunto de dados têm graus de importância diferentes, o que nos leva a calcular uma média ponderada. • Em tais casos, calculamos a média ponderada atribuindo pesos (w) diferentes aos diversos valores. Assim, X = w1 x1 +w2 x2 + ¢ ¢ ¢+ wn xn w1 + w2 + ¢ ¢ ¢+wn = Pn i=1wi xiPn i=1wi • Exemplo: média ponderada de 3 avaliações. w1 = 1 x1 = 7 w2 = 1 x2 = 8 w3 = 2 x3 = 6 X = 1£ 7 + 1£ 8 + 2£ 6 4 = 6; 75 Média Global: • Sejam as médias aritméticas de k conjuntos de elementos, respectivamente. A média aritmética da série formada pelo conjunto dos elementos é dada por: X1; X2; : : : ; Xk n1;n2; : : : ;nk n1 + n2 + ¢ ¢ ¢+ nk X = n1X1 + ¢ ¢ ¢+ nkXk n1 + ¢ ¢ ¢+ nk = Pk i=1 niX i Pk i=1 ni • Exemplo: 2 turmas de determinada disciplina. Turma 1: 40 alunos; média final ( ) = 8,5. Turma 2: 55 alunos; média final ( ) = 7,0. Turma 1 + Turma 2 = 95 alunos X1 X2 X = 40£ 8; 5 + 55£ 7; 0 95 = 7; 63 Observações: • A média é uma medida afetada por valores extremos. • Se calcularmos o valor médio de uma variável para toda a população, teremos a média populacional, normalmente designada pela letra grega µ (mi). Onde: 𝜇 = 𝑋𝑖 𝑁 𝑖=1 𝑁 • Mediana: É o valor que divide o conjunto de dados ao meio, de tal forma que 50% dos valores observados são menores ou iguais à mediana e 50% são maiores ou iguais a ela. Notação: md ou Md. Procedimento para calcular a mediana: 1. Ordenar os dados. 2. Localizar a posição central. Para isto calcula-se: 3. Se o número de observações (n) for ímpar, a mediana será a observação central; e se n for par, a mediana será o ponto médio entre as duas observações centrais. 2 1n Exemplos: • quando n é par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}. 1. {1; 1; 1; 2; 2; 3; 3; 3; 3 ;5}; 2. (10 + 1) 2 = 11 2 = 5,5 1 1 1 2 2 3 3 3 3 5 • Os dois candidatos a md são o 2 e o 3. Então, tomamos o ponto médio entre eles como a mediana: 𝑚𝑑 = 2 + 3 2 = 2,5 • quando n é ímpar: { 1; 1; 1; 3; 3; 4; 4; 5; 5}. Posição - (9 + 1) 2 = 10 2 = 5 Neste caso, 𝑚𝑑 = 3. • Observação: a mediana não é afetada por valores extremos. 1 1 1 3 3 4 4 5 5 Moda: • A moda de um conjunto de dados é o valor que ocorre com maior freqüência. Notação: mo ou Mo. • Exemplo: { 1; 1; 3; 3; 5; 3; 3; 2}. 𝑚𝑜 = 3. • Em um conjunto de dados pode haver mais de uma moda. • Exemplo: { 1; 1; 1; 1; 3; 3; 3; 3; 5}. 𝑚𝑜1 = 1 e 𝑚𝑜2 = 3. Neste caso se diz que o conjunto é bimodal. • Se houver mais de duas modas diz-se que o conjunto é multimodal. Por outro lado se nenhum valor se repete o conjunto não tem moda. Dados agrupados em classe (Método Czuber) • Uma das formas de se calcular a moda para dados agrupados é utilizando o Método de Czuber. Esse método consiste nos seguintes passos: 1. Localize a classe de maior freqüência (classe MODAL) e os limites superior (L) e inferior (l) desta classe. 2. Encontre as seguintes freqüências: – : freqüência absoluta da classe modal; – : freqüência absoluta da classe anterior à classe modal; – : freqüência absoluta da classe posterior à classe modal; fmo fant fpos 3. Aplique a fórmula de Czuber: mo = l+ (L¡ l) fmo¡ fant 2fmo¡ (fant + fpos) • O método de Czuber determina a moda por interpolação usando a hipótese que leva seu nome: “A moda divide o intervaloda classe modal em distâncias proporcionais às diferenças entre a freqüência da classe modal com a freqüência das classes adjacentes". • A partir daí, utilizando os conceitos de semelhança dos triângulos e observando o histograma abaixo vemos que: ¢1 = fmo ¡ fant ¢2 = fmo ¡ fpos X =mo ¡ l • Resolvendo a equação para X, temos: • Dessa Forma, X h¡X = ¢1 ¢2 (onde h = L¡ l) X = ¢1 ¢1 +¢2 h mo = l+ (L¡ l) fmo¡ fant 2fmo¡ (fant + fpos) • Exemplo: Para acharmos a moda da variável peso fazemos: Peso fi 44 |- 52 11 52 |- 60 19 60 |- 68 7 68 |- 76 7 76 |- 84 1 84 |- 92 4 92 |- 100 1 Total 50 C la ss e M o d al mo = 52 + (60¡ 52) 19¡ 11 2£ 19¡ (11 + 7) mo = 55; 2 fmo = 19 fant = 11 fpos = 7 Medidas de tendência central – Propriedades: 1. Se somarmos uma constante c a todos os valores de um conjunto de dados, a moda, média e mediana ficam também acrescidas dessa constante. 2. Se multiplicarmos uma constante c a todos os valores de um conjunto de dados, a moda, média e mediana ficam também multiplicadas dessa constante. Percentil (Pα): • O percentil de ordem α de um conjunto de dados é um valor Pα% tal que α% dos valores são inferiores ou iguais a ele e (100 - α)% dos valores são maiores ou iguais a ele. Observações: • A mediana é o percentil de ordem 50. • Os percentis de ordem 25, 50 e 75 são chamados respectivamente de 1º Quartil, 2º Quartil e 3º Quartil. Procedimento para calcular o percentil Pα : 1. Ordenar os dados de forma crescente. 2. Localizar a posição do percentil Pα. Para isto calcula- se: Se Rα for um número inteiro então a posição de Pα será dada por Rα+ 0,5. Caso contrário, a posição de Pα será dada pelo primeiro inteiro maior que Rα. nR 100 3. Encontre o valor correspondente a classificação obtida no passo 2. • Exemplo: Calcule o 1º e 3º quartis do conjunto de dados a seguir. {10 1 6 2 8 4 6 4 13 7 4 15 10 2 1} 1. {1 1 2 2 4 4 4 6 6 7 8 10 10 13 15} 2. Posição do 1º quartil = 4. Posição do 3º quartil = 12. 75,315 100 25 25 R 25,1115 100 75 75 R 3. Portanto, o 1º e 3º quartis são os valores que ocupam a 4ª e 12ª posições respectivamente. {1 1 2 2 4 4 4 6 6 7 8 10 10 13 15} Q1 Q2 Q3 Como calcular o percentil Pα para dados agrupados: 1. Localizar a classe a qual pertence o percentil Pα observando: Lα – limite superior da classe do percentil Pα. lα – limite inferior da classe do percentil Pα. 2. Encontrar a frequência relativa da classe que contém o percentil Pα. Denote-a por𝑓𝑟𝛼 . 3. Encontrar a frequência relativa acumulada até a classe anterior à classe do percentil Pα. Denote-a por 𝑓𝑟𝑎𝑎 . 4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a frequência relativa da classe (lα |- Pα). l® L® P® ®% fraa% 5. O valor da mediana é obtido resolvendo-se a seguinte regra de três: 𝐿𝛼 − 𝑙𝛼 → 𝑓𝑟𝛼 𝑃𝛼 − 𝑙𝛼 → 𝛼 − 𝑓𝑟𝑎𝑎 𝑃𝛼 = 𝑙𝛼 + (𝐿𝛼 − 𝑙𝛼) (𝛼 − 𝑓𝑟𝑎𝑎 ) 𝑓𝑟𝛼 Exemplo: Para acharmos a mediana e o 1º quartil das notas dos alunos de nosso exemplo fazemos: • Mediana (P50): 1. Classe 4,5|- 6,0. 2. 𝑓𝑟50 = 0,31. 3. 𝑓𝑟𝑎𝑎 = 0,38. Assim, 50% dos alunos tiraram notas inferiores a 5,1. 4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,5 − 0,38 = 0,12. 5. 𝑃50 = 4,5 + 6,0 − 4,5 0,12 0,31 ≅ 5,1 • 1º quartil (P25): 1. Classe 3,0|- 4,5. 2. 𝑓𝑟25 = 0,16. 3. 𝑓𝑟𝑎𝑎 = 0,22. 4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,25 − 0,22 = 0,03. 5. 𝑃25 = 3,0 + 4,5 − 3,0 0,03 0,16 ≅ 3,3. Assim, 25% dos alunos tiraram notas inferiores a 3,3. 2.4.2. Medidas de variabilidade • Medem o espalhamento ou dispersão dos dados. Complementam importantes informações escondidas pelas medidas de posição. • Exemplo: Desempenho de dois alunos em 5 avaliações: Aluno 1: {55; 57; 60; 62; 66}. 𝑋 = 60 e 𝑚𝑑 = 60. Aluno 2: {38; 49; 60; 72; 81}. 𝑋 = 60 e 𝑚𝑑 = 60. • Amplitude total (R): • A amplitude total de um conjunto de dados é definida como a diferença entre o maior e o menor valor observado. Ex: - Aluno 1: 𝑅 = 11. - Aluno 2: 𝑅 = 43. • • A variância é uma medida de dispersão que leva em conta todas as observações feitas. Ela mede a dispersão dos dados em torno da média amostral . • Considere as observações X1, X2, ... , Xn: Variância amostral (𝑺𝟐): • Temos • Assim define-se a variância amostral como: 𝑆2 = (𝑋𝑖 − 𝑋 ) 2𝑛 𝑖=1 𝑛 − 1 Ex: - Aluno 1: 𝑆2 = 55 − 60 2 + 57 − 60 2 + ⋯ + 66 − 60 2 𝑛 − 1 𝑆2 = 25 + 9 + 0 + 4 + 36 4 = 74 4 = 18.5 - Aluno 2: 𝑆2 = 38 − 60 2 + 49 − 60 2 + ⋯ + 81 − 60 2 𝑛 − 1 𝑆2 = 484 + 121 + 0 + 144 + 441 4 = 1190 4 = 297.5 • Observação: Se calcularmos a variância de uma população de tamanho N, teremos a variância populacional, normalmente designada pela letra grega σ (sigma). Onde: 𝜎2 = 𝑋𝑖 − 𝜇 2𝑁 𝑖=1 𝑁 • Inconvenientes da variância: 1. As unidades de medida da variância amostral são o quadrado da unidade original da variável (m2 para altura, kg2 para peso, etc). • Para evitar-se este desconforto estabeleceu-se o desvio padrão amostral definido por: que mostra a variabilidade medida na unidade original da variável analisada. 𝑆 = 𝑆2 = (𝑋𝑖 − 𝑋 )2 𝑛 𝑖=1 𝑛 − 1 • 2. Não permite comparar a variabilidade de dados medidos em diferentes unidades de medida ou medidos na mesma unidade mas com médias diferentes. Ex: - Aluno 1: 𝑆 = 18,5 = 4,3. - Aluno 2: 𝑆 = 297,5 = 17,2. • Aqui a solução foi a criação de uma medida chamada coeficiente de variação que não sofre influência nem da média nem da unidade de medida. O coeficiente de variação é definido como: • Amostra – • População – 𝐶𝑉 = (𝑆 𝑋 ) × 100 𝐶𝑉 = (𝜎 𝜇) × 100 • Exemplo: Em qual grupo há mais variação em torno da média: CVa = p 0; 0025 1; 70 £ 100 = 2; 9% CVp = p 2; 25 60 £ 100 = 2; 5% Variável média variância altura 1,70 m 0,0025 m2 peso 60 kg 2,25 kg2 • Fórmula da variância amostral abreviada: 𝑆2 = 1 𝑛 − 1 𝑋𝑖 2 𝑛 𝑖=1 − 𝑋𝑖 𝑛 𝑖=1 2 𝑛 • Se os dados estiverem dispostos em tabela de freqüência como no exemplo abaixo, Variável fi X1 f1 X2 f2 ... ... ... ... Xk fk Total n fazemos: • Ou ainda, 1 1 2 2 n fXX S k i ii n fX fX n S k i iik i ii 2 1 1 22 1 1 • Dados agrupados em classes: Para calcular a variância nestes casos, considere o ponto médio de cada classe e faça 𝑆2 = (𝑃𝑀𝑖 − 𝑋 ) 2 ∙ 𝑓𝑖 𝑘 𝑖=1 𝑛 − 1 ou 𝑆2 = 1 𝑛 − 1 𝑃𝑀𝑖 2𝑓𝑖 𝑘 𝑖=1 − 𝑃𝑀𝑖 𝑘 𝑖=1 𝑓𝑖 2 𝑛 • Exemplo: Freq. cardíaca PMi fi PMi*fi PMi 2*fi 60 |- 65 62,5 11 687,5 42968,75 65 |- 70 67,5 35 2362,5 159468,75 70 |- 75 72,5 68 4930 357425 75 |- 80 77,5 20 1550 120125 80 |- 85 82,5 12 990 81675 85 |- 90 87,5 10 875 76562,5 90 |- 95 92,5 1 92,5 8556,25 95 |- 100 97,5 3 292,5 28518,75 Total 160 11780 875300 • Assim, 𝑋 = 11780 160 = 73,6 𝑆2 = 1 159 875300 − 11780 2 160 = 50,3 𝑆 = 50,3 = 7,1 • Observação: A variância também é afetada por valores extremos. Variância – Propriedades: 1. Se somarmos uma constante c a todos os valores de um conjuntode dados, a variância não sofre alteração. 2. Se multiplicarmos uma constante c a todos os valores de um conjunto de dados, a variância fica multiplicada pela constante ao quadrado (c2). 2.5. Assimetria Definição: – Uma distribuição é simétrica quando a metade esquerda da mesma é a imagem-espelho da metade direita. – Uma distribuição de dados é assimétrica quando um dos lados da mesma apresenta-se mais prolongado que o outro. • Distribuição simétrica: moda =mediana =m¶edia X=mo =md ¹=Mo =Md • Tipos de assimetria – Assimetria à direita ou positiva: a distribuição apresenta uma cauda mais acentuada à direita. moda ·mediana ·m¶edia – Assimetria à esquerda ou negativa: a distribuição apresenta uma cauda mais acentuada à esquerda. m¶edia ·mediana ·moda 3. Probabilidade 3.1. Conceitos iniciais • Probabilidade é a medida de incerteza sobre algum fenômeno aleatório de interesse. • Fenômeno Aleatório: é um acontecimento cujo resultado não pode ser previamente previsto com certeza. Um experimento aleatório pode fornecer diferente resultados, mesmo que seja repetido sempre da mesma maneira. Exemplos: 1. O resultado do seu time no próximo jogo do Campeonato Brasileiro; 2. A altura do aluno sorteado ao acaso nesta sala; 3. A taxa de inflação do mês subseqüente; 4. O resultado do lançamento de um dado. • Espaço amostral (Ω ou S): é o conjunto de todos os resultados possíveis de um fenômeno ou experimento aleatório. Pode ser finito ou infinito, de acordo com a quantidade de possíveis resultados. • O espaço amostral de cada um dos exemplos anteriores é: 1. Ω = {derrota, empate, vitória}; 2. Ω = (0; ); 3. Ω = 4. Ω = {1, 2, 3, 4, 5, 6} 1. Ω = {derrota, empate, vitória}; 2. Ω = {0; 1 }; 3. Ω = ; 4. Ω = {1, 2, 3, 4, 5, 6}. R 1 • Evento (A; B; C; ... ; Z): é qualquer subconjunto do espaço amostral (Ω). Exemplos: 1. Seu time não perde A = {empate, vitória}; 2. A altura do aluno está entre 1,40 e 1,60 B = (1,40; 1,60); 3. A taxa de inflação do mês subseqüente é menor ou igual a 10% C = (- ; 0,10]; 4. Ocorre uma face par D = {2; 4; 6}. 1 • Evento elementar: é um resultado ou evento que não pode mais ser decomposto em componentes mais simples. Eventos especiais: • Evento impossível ( ): é o evento que nunca ocorre. • Evento certo (Ω): é o evento que sempre ocorre. ∅ • União de eventos (𝑨 ∪ 𝑩): representa a ocorrência de pelo menos um dos eventos A ou B, ou seja, A ou B ou ambos. Ω EX: Experimento: lançamento de um dado. • Evento A: ocorre face par. • Evento B: ocorre face inferior a 4. 𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6} • Interseção de eventos (𝑨 ∩ 𝑩): representa a ocorrência simultânea de A e B. Ω EX: no nosso exemplo anterior. • Evento A: ocorre face par. • Evento B: ocorre face inferior a 4. 𝐴 ∩ 𝐵 = {2} • Eventos disjuntos ou mutuamente exclusivos: São eventos que não podem ocorrer simultaneamente. A e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. Ω EX: Experimento: lançamento de um dado. • Evento A: ocorre face inferior a 4. • Evento B: ocorre face 5.Eventos disjuntos ou mutuamente exclusivos: São eventos que não podem ocorrer simultaneamente. A e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. • Eventos complementares (𝑨 ou 𝑨𝒄, ou 𝑨′ ): O evento 𝐴 ocorre se o evento A não ocorre. É formado por todos os pontos de Ω que não estão em A. A e 𝐴 são complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e 𝐴 ∪ 𝐴 = Ω. Ω • No lançamento de um dado, se A é o evento “ocorrer face par”, então o evento complementar de A é o evento “ocorrer face ímpar”. • Observação: É importante relembrar as leis de Morgan: (𝐴 ∪ 𝐵) = 𝐴 ∩ 𝐵 e (𝐴 ∩ 𝐵) = 𝐴 ∪ 𝐵 }5, 3, 1{A e }6 ,4 ,2{A 3.2. Interpretações de probabilidade • Probabilidade é uma função 𝑃(∙) definida do conjunto de todos os possíveis subconjuntos de Ω em [0;1]. Esta função atribui chances de ocorrência de cada evento de Ω. • Definição clássica de probabilidade: Seja um experimento aleatório com espaço amostral finito Ω = {𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛}. Se tivermos evidências de que todos os resultados têm a mesma chance de acontecer, define-se: 𝑃 𝜔𝑖 = 1 𝑛 𝑖 = 1, ⋯ , 𝑛 • Para 𝐴 ⊂ Ω defini-se: 𝑃 𝐴 = # 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴 # 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω = 𝑛(𝐴) 𝑛(Ω) Neste caso dizemos que os resultados 𝜔𝑖 são equiprováveis. Exemplos: 1. Qual e a probabilidade de se extrair um ás de um baralho bem misturado de 52 cartas? A = extrair um ás de um baralho. n(A) = 4; n(Ω) = 52 𝑃 𝐴 = 4 52 = 1 13 ≅ 0,08 2. Ɛ – lançar duas moedas e observar a configuração obtida. c = cara; k = coroa. Ω = {cc; ck; kc; kk} • Qual a probabilidade de se obter zero caras? E uma cara? A – zero caras → A = {kk} → 𝑃 𝐴 = 1 4 . B – uma cara → B = {ck; kc} → 𝑃 𝐵 = 2 4 . Aproximação da probabilidade pela freqüência relativa. • Realize (ou observe) um experimento aleatório Ɛ um grande número de vezes. • Registre quantas vezes o evento A ( ) ocorre efetivamente. A½ Ð • Então, a probabilidade de ocorrência do evento A é estimada como se segue 𝑃 𝐴 = # 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴 # 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 • Lei dos Grandes Números: Ao se repetir um experimento um grande número de vezes, a probabilidade pela freqüência relativa de um evento tende para a probabilidade teórica. • A lei dos Grandes Números afirma que a aproximação pela freqüência relativa tende a melhorar quando o número de observações aumenta. • Formalmente, tem-se que: Considere n repetições “independentes” de um experimento aleatório Ɛ. Seja A um evento qualquer. Defina: • A probabilidade frequencial de A é então dada por: 𝑃𝑛 𝐴 = # 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴 # 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 𝑃 𝐴 = lim 𝑛→∞ 𝑃𝑛 𝐴 Exemplos: 1. Num lançamento de um dado, a probabilidade de ocorrência da face i é dada por: • Quando o número de lançamentos é muito grande, fri se estabiliza. Daí, toma-se fri como a probabilidade de ocorrência da face i. 𝑓𝑟𝑖 = # 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑎 𝑓𝑎𝑐𝑒 𝑖 # 𝑙𝑎𝑛ç𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑜 𝑑𝑎𝑑𝑜 2. Suponha que temos uma linha de produção em grande escala. Retiramos n itens desta linha de produção, e a cada retirada contamos o número de itens defeituosos (A = item defeituoso) • Podemos então afirmar que a probabilidade frequencial de um item defeituoso nesta linha de produção é 0,05. 3.3. Regras básicas de probabilidade 1. 𝑃 Ω = 1. 2. 𝑃 ∅ = 0. 3. 0 ≤ 𝑃(𝐴) ≤ 1, para qualquer evento A. 4. Regra da adição: 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵) Se A e B forem disjuntos, então: 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 • 5. 𝑃 𝐴 = 1 − 𝑃(𝐴). Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅ e 𝐴 ∪ 𝐴 = Ω. Então, pela regra da adição, 𝑃 Ω = 𝑃 𝐴 ∪ 𝐴 = 𝑃 𝐴 + 𝑃 𝐴 e pela regra 1, 𝑃 𝐴 + 𝑃 𝐴 = 1, logo 𝑃 𝐴 = 1 − 𝑃 𝐴 . • Exemplo: Distribuição de alunos segundo o sexo e a escolha do curso. Curso Sexo Total Homens (H) Mulheres (M) Matemática Pura (P) 70 40 110 Matemática Aplicada (A) 15 15 30 Estatística (E) 10 20 30 Computação (C) 20 10 30 Total 115 85 200 - 𝑃 𝑃 ∪ 𝐸 = 𝑃 𝑃 + 𝑃 𝐸 = 110 200 + 30 200 = 140 200 = 0,7 - 𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃(𝐴 ∩ 𝑀) = 30 200 + 85 200 − 15 200 = 100 200 = 0,5 - 𝑃 𝐶 = 1 − 𝑃 𝐶 = 1 − 30 200 = 170 200 =0,85 3.4. Probabilidade condicional • Para dois eventos A e B do espaço amostral definimos: Definição: A probabilidade condicional de um evento A dado um evento B, denotada por 𝑃(𝐴|𝐵), é, 𝑃 𝐴 𝐵 = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) 𝑝𝑎𝑟𝑎 𝑃(𝐵) ≠ 0 • • A probabilidade condicional de A dado B revela a incerteza que se tem sobre o evento A supondo conhecida a verdade sobre o evento B. Podemos interpretá-la como a chance relativa de A restrita ao fato de que B ocorreu. Exemplos: 1. Uma urna contém 2 bolas brancas (B) e 3 bolas vermelhas (V). Suponha que são sorteadas duas bolas ao acaso, sem reposição. 2. As informações abaixo se referem aos candidatos que prestaram vestibular na UFES em 2010: Homem (H) Mulher (M) Total Aprovado (A) 8 14 22 Reprovado (R) 4 6 10 Total 12 20 32 • Um aluno é sorteado ao acaso. Qual é a probabilidade de: • Ser mulher e ter sido aprovado? • Se é mulher, ter sido aprovada? • Ser mulher dado que foi aprovado? • Soluções: a. 𝑃 𝑀 ∩ 𝐴 = 14 32 ≅ 0,44 b. 𝑃 𝐴 𝑀 = 𝑃(𝐴∩𝑀) 𝑃(𝑀) = 14 32 20 32 = 14 20 = 0,70 c. 𝑃 𝑀 𝐴 = 𝑃(𝐴∩𝑀) 𝑃(𝐴) = 14 32 22 32 = 14 22 ≅ 0,64 • Propriedades: 1. 𝑃 Ω|B = 1 2. 𝑃 ∅|B = 0 3. 0 ≤ 𝑃(𝐴|𝐵) ≤ 1, para qualquer evento A. 4. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 − 𝑃(𝐶 ∩ 𝐷|𝐵) 5. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 ⇔ 𝐶 ∩ 𝐷 = ∅ 6. 𝑃 𝐴 |𝐵 = 1 − 𝑃(𝐴|𝐵) 3.5. Regra da multiplicação • A definição de probabilidade condicional pode ser reescrita para fornecer uma expressão geral para a probabilidade da interseção de dois eventos: 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) Exemplo: • Acredita-se que na população do ES 20% de seus habitantes sofrem algum tipo de alergia, sendo classificados como alérgicos para fins de saúde pública. Sendo alérgico, a probabilidade de ter reação a certo antibiótico é de 0,5. Para os não alérgicos esta probabilidade é de apenas 0,05. • Escolhendo-se uma pessoa ao acaso da população do ES, qual a probabilidade de que ela: a. Seja do grupo dos alérgicos e tenha alergia ao ingerir o antibiótico? b. Seja do grupo dos não alérgicos e não tenha alergia ao ingerir o antibiótico? • Solução: Se fizermos A → ser do grupo dos alérgicos e B → ter reação, temos: a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10 b. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,95 × 0,8 = 0,76 3.6. Independência • Definição: Dois eventos A e B são independentes se a ocorrência de um não afeta a probabilidade de ocorrência do outro. Assim, tem-se que: 1. 𝑃 𝐴 𝐵 = 𝑃(𝐴) 2. 𝑃 𝐵 𝐴 = 𝑃(𝐵) • Dessa forma, para dois eventos independentes a regra da multiplicação reduz-se a: 𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵) Exemplos: 1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V). Sorteia-se 2 bolas ao acaso, com reposição. 2. Considere os sistemas com dois componentes apresentados na figura a seguir. • No sistema da figura (a) os componentes estão ligados em série. Neste caso, o sistema funcionará se os componentes 1 e 2 funcionarem simultaneamente. Se um dos componentes falhar, o sistema também falhará. • Se os componentes estiverem ligados em paralelo, como na figura (b), então o sistema funcionará se pelo menos um dos dois componentes funcionar. • Denotemos por F o evento “o sistema funciona” e por Ai o evento “o componente i funciona”, i = 1, 2. • Supondo que os componentes de ambos os sistemas funcionem independentemente, e se pi for a probabilidade de o componente i (i = 1, 2) funcionar, então: • A probabilidade do sistema da figura (a) funcionar será • Já a probabilidade do sistema da figura (b) funcionar será 212121 )()()()( ppAPAPAAPFP 2121212121 )()()()()( ppppAAPAPAPAAPFP 3.7. Regra da probabilidade total • A regra da multiplicação é útil para determinarmos a probabilidade de um evento que depende de outros eventos. Exemplo: • Em uma fábrica de parafusos, as máquinas A e B produzem 2/3 e 1/3 da produção total, respectivamente. Da produção de cada máquina 2% e 0,8%, respectivamente, são parafusos defeituosos. Escolhendo-se aleatoriamente um parafuso, qual a probabilidade que ele seja defeituoso? • Claramente a resposta depende de qual máquina produziu aquele parafuso. • Se chamarmos A → parafuso produzido pela máquina A, B → parafuso produzido pela máquina B e D → parafuso é defeituoso podemos afirmar que: 𝐷 = 𝐷 ∩ 𝐴 ∪ (𝐷 ∩ 𝐵) Ω • E como 𝐷 ∩ 𝐴 e (𝐷 ∩ 𝐵) são disjuntos podemos escrever que: 𝑃 𝐷 = 𝑃 𝐷 ∩ 𝐴 + 𝑃 𝐷 ∩ 𝐵 = 𝑃 𝐷 𝐴 𝑃 𝐴 + 𝑃 𝐷 𝐵 𝑃 𝐵 𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016 • Para generalizarmos o conceito da probabilidade total, definimos: • Definição: Dizemos que os eventos {A1; A2; ... ; An} formam uma partição do espaço amostral se: 1. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗 2. 𝐴𝑖 𝑛 𝑖=1 = Ω • Podemos assim enunciar o Teorema da Probabilidade Total: • Seja {A1; A2; ... ; An} uma partição do espaço amostral e seja B um evento qualquer, então, 𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛 𝑃(𝐵) = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛 𝑃(𝐵) = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑛 𝑖=1 3.8. Teorema de Bayes • Partindo da definição de probabilidade condicional e usando a comutatividade da interseção podemos escrever: 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴 = 𝑃 𝐵 𝐴 𝑃(𝐴) • E agora, usando o segundo e quarto termos da igualdade vem um resultado útil que nos permite escrever a probabilidade de A dado B em termos da probabilidade de B dado A: 𝑃 𝐴 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) 𝑃 𝐵 • Partindo desta expressão, e escrevendo o denominador usando a regra da probabilidade total, obtemos o Teorema de Bayes: • Teorema de Bayes: Se {A1; A2; ... ; An} for uma partição de Ω e B um evento qualquer, então: 𝑃 𝐴𝑖 𝐵 = 𝑃 𝐵 𝐴𝑖 𝑃(𝐴𝑖) 𝑃 𝐵 𝐴1 𝑃 𝐴1 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛 Exemplos: 1. Suponha que um fabricante de sorvetes recebe 20% de todo o leite que consome da fazenda F1, 30% da fazenda F2 e o restante da F3. • A vigilância sanitária inspecionou as fazendas de surpresa e observou que 20% do leite produzido na fazenda F1 estava adulterado por adição de água, o mesmo ocorrendo com 5% e 2% respectivamente nas fazendas F2 e F3. • Na indústria de sorvete os galões de leite são armazenados sem identificação das fazendas produtoras. Um galão é sorteado ao acaso na indústria. Calcule: a. A probabilidade de que o galão esteja adulterado. b. A probabilidade do galão estando adulterado ter vindo da fazenda F1. • Solução: Seja A → o leite está adulterado e Fi → o leite veio da fazenda Fi . a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3 𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3 𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 Assim: 𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065 b. Pelo teorema de Bayes, temos: 𝑃 𝐹1 𝐴 = 𝑃 𝐴 𝐹1 𝑃(𝐹1) 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 𝑃 𝐹1 𝐴 = 0,2 × 0,2 0,065 ≅ 0,615 2. Das pacientes da clínica de Ginecologia com idade acima de 40 anos, 60% são ou foram casadas e 40% são solteiras. Sendo solteira, a probabilidade de ter tido um distúrbio hormonal no último ano é de 10%, enquanto para as demais esta probabilidade aumenta para 30%. • Pergunta-se: a. Qual a probabilidade de uma paciente escolhida ao acaso ter tido um distúrbio hormonal no último ano? b. Se a paciente escolhida tiver tido um distúrbio, qual a probabilidadedela ser solteira? • Solução: Sejam os eventos S → paciente é solteira e H → paciente teve distúrbio hormonal no último ano. a. 𝑃 𝐻 = 𝑃 𝐻 𝑆 𝑃 𝑆 + 𝑃 𝐻 𝑆 𝑃 𝑆 𝑃 𝐻 = 0,1 × 0,4 + 0,3 × 0,6 = 0,22 b. 𝑃 𝑆 𝐻 = 𝑃 𝐻 𝑆 𝑃(𝑆) 𝑃 𝐻 = 0,1×0,4 0,22 ≅ 0,188 4. Variáveis Aleatórias • Sabe-se que um espaço amostral (Ω ou S) é o conjunto de todos os resultados possíveis de um fenômeno ou experimento aleatório. • Em muitos casos não estamos interessados na descrição detalhada de todos os resultados, e é mais interessante resumirmos o resultado através de números. • Definição: Uma variável aleatória (v.a.) é uma função que confere um número real a cada resultado no espaço amostral de um experimento aleatório. • Uma variável aleatória é denotada por uma letra maiúscula (por ex. X) e os valores que ela pode assumir como xi. Exemplos: 1. E – lançar duas moedas. O espaço amostral desta experiência é Ω = {cc; ck; kc; kk} onde c = cara e k = coroa. Uma variável aleatória pode ser “número de caras”, X = {0; 1; 2}. 2. E – jogar um dado duas vezes. X = soma das duas faces obtidas. Ω = (1; 1) … (1; 6) ⋮ ⋱ ⋮ (6; 1) … (6; 6) • A distribuição de probabilidades de uma variável aleatória X é uma descrição das probabilidades associadas com os possíveis valores de X. Esta descrição pode ser realizada em forma de tabelas ou gráficos. • No exemplo 1, onde a v.a. de interesse era “o número de caras obtidas num lançamento de duas moedas” temos a seguinte distribuição de probabilidades: 0 1 2 1/4 1/2 1/4 )( xXP X • Já no exemplo 2, definimos a v.a. X como “a soma das faces obtidas em dois lançamentos de um dado”. A distribuição de probabilidades de X é dad por: 2 3 4 5 6 7 8 9 10 11 12 )( xXP X 36 1 36 3 36 2 36 4 36 5 36 6 36 4 36 5 36 3 36 1 36 2 Classificação: • Variável aleatória discreta: assume valores num conjunto finito ou infinito enumerável. EX: n° de filhos, n° de peças defeituosas em um lote, bits transmitidos que foram recebidos com erros. • Variável aleatória contínua: seu conjunto de valores é qualquer intervalo dos números reais, o que seria um conjunto infinito não enumerável. EX: peso, altura, corrente elétrica, pressão, temperatura, tempo. 4.1. Variáveis aleatórias discretas Alguns modelos de variáveis aleatórias discretas: 1. Um sistema de comunicação por voz de uma empresa possui 48 linhas externas. A cada intervalo de tempo o sistema é supervisionado e registra-se o número de linhas em uso. Se fizermos X = número de linhas em uso. Os valores possíveis de X = {0; 1; 2; ...; 48}. 2. No processo de fabricação de semicondutores o fabricante deve se preocupar com o número de partículas contaminantes. Se definirmos a variável aleatória Y = número de partículas contaminantes em uma pastilha, os valores possíveis de Y = {0; 1; 2; ...}. Definição: • Seja X uma v.a. discreta. A função de probabilidade de X é uma função fX que atribui a cada valor possível de X a sua probabilidade de ocorrência. • Assim se X é uma variável aleatória assumindo os valores x1, x2, ... , xn a função de probabilidade associada a X é: • São propriedades da função de probabilidade: 1. 0 ≤ 𝑝𝑖 ≤ 1 2. 𝑝𝑖𝑖 = 1 nipxPxXPxf iiiiX ,, 1 , • Exemplo: Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro. As partes são adquiridas de fábricas diferentes (A e B), e a montagem consistirá e juntar as duas peças e pintá-las. • O produto acabado deve ter o comprimento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos limites, e isso só poderá ser verificado após a montagem. • Para estudar a viabilidade do seu empreendimento, o empresário quer ter uma idéia da distribuição do lucro por peça produzida. • Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme sua medida esteja dentro da especificação, maior ou menor que a medida especificada, respectivamente. • Foram obtidos com os fabricantes, o preço de cada componente, que é de R$ 5,00, e as probabilidades de produção de cada componente com as características bom, longo ou curto. Essas probabilidades estão apresentadas na tabela abaixo. Componente Fábrica A (cilindro) Fábrica B (esfera) Dentro das especificações - bom (B) 0,80 0,70 Maior que as especificações - longo (L) 0,10 0,20 Menor que as especificações - Curto (C) 0,10 0,10 • Se o produto final apresentar algum componente com a característica curto, ele será irrecuperável, e o conjunto será vendido como sucata ao preço de R$ 5,00. • Cada componente longo poderá ser recuperado a um custo adicional de R$ 5,00. • Se o preço de venda de cada unidade for de R$ 25,00, como seria a distribuição de probabilidade da variável X: lucro por unidade montada? • Primeiramente, vejamos a construção do espaço amostral para a montagem das unidades segundo as características de cada componente e seus respectivos lucros e probabilidades. • Como os componentes vêm de fábricas diferentes, vamos supor que a classificação do cilindro e da esfera, segundo suas características, sejam eventos independentes. • Uma representação do espaço amostral em questão é apresentada pelo diagrama em árvore a seguir. • Com base no diagrama em árvore, vemos que a v.a. X pode assumir os seguintes valores: – 15, se ocorrer o evento A1 = {BB}; – 10, se ocorrer o evento A2 = {BL, LB}; – 5, se ocorrer o evento A3 = {LL}; – -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}. • Cada um desses eventos tem uma probabilidade associada, ou seja, .19,0)( ,02,0)( ,23,0)( ,56,0)( 43 21 APAP APAP • Dessa forma, a distribuição de probabilidade da variável aleatória X é dada por: X P(x) -5 0,19 5 0,02 10 0,23 15 0,56 Total 1 4.1.1. Média e variância de uma variável aleatória discreta • A média ou valor esperado de uma variável aleatória discreta X é dada pela expressão: 𝜇 = 𝐸 𝑋 = 𝑥𝑖𝑝𝑖 𝑖 • A variância de X é dada pela expressão: 𝜎2 = 𝑉 𝑋 = (𝑥𝑖 − 𝜇) 2𝑝𝑖 = 𝑥𝑖 2𝑝𝑖 − 𝜇 2 𝑖𝑖 • O desvio padrão da v.a. X é, então, dado por: 2)( XDP • Exemplo: Para o último exemplo, tem-se que o lucro esperado por unidade montada é igual a: Ou seja, o empresário espera ter um lucro de 9,85 reais por unidade montada. .85,956,01523,01002,0519,0)5()( XE • Já a variância e o desvio padrão da v.a. X são dados por: 57,757,23)( 23,5702,9725,154)( 85,956,01523,01002,0519,0)5( 2 222222 XDP XV 4.2. Distribuições discretas mais comuns • Estudaremos nesta seção a distribuição de probabilidade de algumas variáveis aleatórias, que por possuírem características especiais comuns são agrupadas em “famílias”. 4.2.1. Distribuição Bernoulli Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica. Por exemplo: • Uma moeda é lançada: o resultado é cara ou não; • Uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou não; • Em ambos os casos, estamos interessados na ocorrência de sucesso ou fracasso. • OBS: A palavra sucesso como usada aqui é arbitrária e não representa, necessariamente, algo bom • Definição: Seja X uma variável aleatória que assume os valores 1 (sucesso) e 0 (fracasso). Diz-se que X tem distribuição Bernoulli com parâmetro p, onde p é a probabilidade de sucesso. • Notação: X ~ Bernoulli(p) • A função de probabilidade de X é: 𝑃 𝑋 =𝑥 = 𝑝𝑥(1 − 𝑝)1−𝑥 , 𝑥 = 0 𝑜𝑢 1 • Assim temos: 𝐸 𝑋 = 𝑥𝑃 𝑋 = 𝑥 1 𝑥=0 = 0𝑃 𝑋 = 0 + 1𝑃 𝑋 = 1 𝐸 𝑋 = 𝑃 𝑋 = 1 = 𝑝 𝑉 𝑋 = 𝑥2𝑃 𝑋 = 𝑥 1 𝑥=0 − 𝐸 𝑋 2 𝑉 𝑋 = 02𝑃 𝑋 = 0 + 12𝑃 𝑋 = 1 − 𝑝2 𝑉 𝑋 = 𝑃 𝑋 = 1 − 𝑝2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝) 4.2.2. Distribuição Binomial • Se realizarmos n experimentos de Bernoulli de forma independente e se cada experimento tem probabilidade de sucesso igual a p (fixo), então a variável aleatória que conta o número de sucessos nestes n experimentos tem distribuição binomial. Por exemplo: • Uma moeda é lançada três vezes; qual é a probabilidade de se obter duas caras? • Dez peças são extraídas, ao acaso, com reposição, de um lote de 500 peças; qual é a probabilidade de que pelo menos duas sejam defeituosas; sabendo-se que 10% das peças do lote são defeituosas? • Imagine o experimento de Bernoulli (E) em que: • Vamos realizar n repetições independentes de E, chamando X do número de sucessos nas n repetições. 𝐸 = 𝑠𝑢𝑐𝑒𝑠𝑠𝑜 → 𝑝 𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜 → 1 − 𝑝 O resultado desta experiência é um vetor (𝑥1, ⋯ , 𝑥𝑛) em que cada resultado pode ser um sucesso (S) ou um fracasso (F). Se quisermos calcular 𝑃(𝑋 = 𝑘) teremos: 𝑃 𝑆𝑆𝑆𝑆𝑆 ⋯𝑆𝑆𝑆 𝐹𝐹𝐹 ⋯ 𝐹𝐹 = 𝑝𝑘(1 − 𝑝)𝑛−𝑘 k n - k • • Mas quantos vetores de tamanho n com k sucessos e (n – k) fracassos podem ser formados? • Para responder a essa pergunta, basta calcularmos o número de permutações possíveis de n elementos com k e (n – k) repetições. • Dessa forma, o número de permutações procurado é: 𝑛! 𝑘! 𝑛 − 𝑘 ! = 𝑛 𝑘 • Agora é intuitivo ver que a probabilidade procurada é: 𝑃 𝑋 = 𝑘 = 𝑛 𝑘 𝑝𝑘(1 − 𝑝)𝑛−𝑘 . Definição: Uma distribuição de probabilidade Binomial resulta de um experimento que satisfaz os seguintes requisitos: 1. O experimento tem um número fixo de tentativas; 2. As tentativas devem ser independentes; 3. Cada tentativa deve ter todos os resultados classificados em duas categorias; 4. A probabilidade de um sucesso em cada tentativa, denotada por p, permanece constante. • A variável aleatória X, correspondente ao número total de sucessos nas n tentativas do experimento, tem distribuição Binomial com parâmetros n e p e função de probabilidade: 𝑃 𝑋 = 𝑥 = 𝑛 𝑥 𝑝𝑥(1 − 𝑝)𝑛−𝑥 , 𝑥 = 0, 1, 2, ⋯ , 𝑛. • Notação X~Binomial(n; p) Exemplos: 1. Um professor de Psicologia planeja dar um teste surpresa que consiste em 4 questões de múltipla escolha, cada uma com 5 alternativas possíveis (a, b, c, d, e), uma das quais é correta. Suponhamos que um aluno despreparado faça adivinhações aleatórias. Qual é a probabilidade de que este aluno acerte exatamente três questões? • Solução: Primeiramente, note que esse procedimento satisfaz os 4 requisitos para uma distribuição binomial. Se chamarmos de sucesso o fato da resposta estar correta, vemos que 𝑃 𝑆 = 1 5 = 0,2; uma vez que para cada questão há 5 respostas possíveis (a, b, c, d, e), uma das quais é correta. • • A variável aleatória X, número de respostas corretas dentre as 4 questões, pode assumir os valores {0, 1, 2, 3, 4}. • Dessa forma, X ~ Binomial(4; 0,2). • Assim, a probabilidade de 3 respostas corretas é: 𝑃 𝑋 = 3 = 4 3 0,23(1 − 0,2)4−3 𝑃 𝑋 = 3 = 4! 3! 4 − 3 ! × 0,008 × 0,8 ≅ 0,026 2. Uma linha de produção em grande escala produz 6% de itens defeituosos. 30 itens da produção semanal são observados. Calcular a probabilidade de se observar pelo menos 2 itens defeituosos? • Solução: Seja X = número de itens defeituosos dentre os 30 observados. X = {0, 1, 2, ..., 30}. • X ~ Binomial(30; 0,06) 𝑃 𝑋 ≥ 2 = 1 − 𝑃 𝑋 < 2 Onde, 𝑃 𝑋 < 2 = 𝑃 𝑋 = 0 + 𝑃 𝑋 = 1 𝑃 𝑋 < 2 = 30 0 0,06 0 0,94 30 + 30 1 0,06 1 0,94 29 𝑃 𝑋 < 2 = 0,156256 + 0,299213 = 0,455469 ∴ 𝑃 𝑋 ≥ 2 = 1 − 0,455469 ≅ 0,545 • A figura a seguir mostra exemplo de distribuições binomiais. Para n fixo (no exemplo n = 20) à medida que p aumenta de 0 a 0,5 a distribuição se torna mais simétrica. O mesmo acontece se p diminui de 1 a 0,5. • Média e variância de uma distribuição binomial: 𝐸 𝑋 = 𝑛𝑝 𝑉 𝑋 = 𝑛𝑝(1 − 𝑝) • Exemplo: No exemplo anterior da linha de produção, tem-se que o número esperado de itens defeituosos dentre os 30 observados è: • A variância e o desvio padrão são respectivamente: 𝐸 𝑋 = 30 × 0,06 = 1,8 𝑉 𝑋 = 30 × 0,06 × 0,94 = 1,692 𝐷𝑃 𝑋 = 1,692 = 1,3 4.2.3. Distribuição de Poisson • É útil para descrever as probabilidades do número de ocorrências num campo ou intervalo contínuo (em geral tempo ou espaço). • Por exemplo, a v.a. de interesse pode ser: – Nº de peças defeituosas substituídas num veículo durante o primeiro ano de vida; – Nº de erros tipográficos por página, em um material impresso; – Nº de acidentes por mês, em determinada rodovia; – Número de clientes que chegam ao caixa de um supermercado por hora; • A utilização da distribuição de Poisson baseia-se nas seguintes hipóteses: 1. A probabilidade de ocorrência é a mesma para dois intervalos quaisquer de igual comprimento. 2. A probabilidade de duas ou mais ocorrências simultâneas é aproximadamente zero. 3. O número de ocorrências em qualquer intervalo é independente do número de ocorrências em outros intervalos. • A função de probabilidade de Poisson é definida pela seguinte equação: P (X = x) = e¡¸¸x x! Onde, • - probabilidade de x ocorrências em um intervalo. • - base dos logaritmos naturais ( ). • - taxa de ocorrências no intervalo considerado. P(X=x) e e=2;71828 ¸ • OBS: o número de ocorrências não tem limite máximo. Ela é uma v.a. discreta que pode assumir uma sequência infinita de valores (X = 0, 1, 2, ...). • Média e variância de uma distribuição de Poisson 𝐸 𝑋 = 𝜆 𝑉 𝑋 = 𝜆 Exemplos: 1. Suponha que estejamos interessados no número de carros que chegam a um caixa automático drive- thru de um banco durante um período de 15 minutos nas manhãs de fins de semana. • Considere que a análise dos dados históricos mostre que o número médio de carros que chegam no período considerado é igual a 10. • Determine a probabilidade de: a) Exatamente 5 carros chegarem em 15 min.? X = nº de carros que chegam em um período de 15 min qualquer. P (X = 5) = e¡10105 5! = 0; 0378 b) Um carro chegar em um período de 3 mim.? Y = nº de carros que chegam em um período de 3 min qualquer. Número esperado de carros que chegam em um período de 3 min ¸= 3£ 10 15 = 2 =) • Portanto, 2. Suponha que os defeitos em fios para tear possam ser aproximados por um modelo de Poisson com média de 0,2 defeitos por metro. Inspecionando-se pedaços de fio de 6 metros de comprimento, determine a probabilidade de se encontrar menos de 2 defeitos. P (Y = 1) = e¡221 1! = 0; 2707 ¸=6£0;2 = 1;2 P (X · 1) = P (X = 0) + P (X = 1) = e¡1;21; 20 0! + e¡1;21; 2 1! = 0; 301 + 0; 3612 = 0; 6622 4.3. Variáveis aleatórias contínuas • Vimos que uma v.a. contínua é uma função X, definida sobre o espaço amostral Ω, que assume valores num intervalo dos números reais. • Ex: tempo de vida de uma lâmpada, nível de colesterol no soro sanguíneo, tempo de espera de um cliente para ser atendido num banco, duração de uma chamada telefônica, etc. • Distribuições de probabilidade contínuas: Dado que uma v.a. contínua X assume um conjunto infinito não enumerável de valores, torna-se impraticável a idéia de atribuir uma probabilidade a cada possível valor deX, como era feito no caso de uma v.a. discreta. • Agora, o procedimento para a obtenção de probabilidades levará em conta intervalos de valores e usará o histograma. • Considere uma distribuição de freqüências com 9 classes: Peso fi fr x0 |- x1 f1 fr1 x1 |- x2 f2 fr2 x2 |- x3 f3 fr3 x7 |- x8 f8 fr8 x8 |- x9 f9 fr9 Total n • Lembre-se que na construção de um histograma, a altura correspondente a cada retângulo equivale densidade da classe, onde . Dessa forma, a área de cada retângulo é igual a freq. relativa da classe. • Assim, dado que a soma das freq. relativas é igual a 1, a área total do histograma e do polígono de freqüências também é 1. 𝑑𝑖 = 𝑓𝑟/ di • Considere o intervalo (x1,x2). Temos que a probabilidade de um ponto qualquer cair entre x1 e x2 será aproximadamente igual a área do retângulo hachurado. • Se diminuirmos a amplitude dos intervalos, (aumentando, assim, o número de intervalos) tornando a mesma infinitamente pequena, o polígono de freqüências passará a ser uma curva. 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 𝑎𝑐𝑢𝑟𝑎𝑑𝑎 di Essa curva é a representação gráfica de uma função da v.a. X, denotada por 𝑓(𝑥) e chamada função de densidade de probabilidade. Esta função deve satisfazer as seguintes propriedades: 1. 𝑓(𝑥) ≥ 0, para todo 𝑥 ∈ −∞, ∞ ; 2. A área definida por 𝑓(𝑥) tem que ser igual a 1. • • Uma vez que, para v.a. contínuas, as probabilidades são definidas para intervalos de valores e são obtidas como áreas sob a curva 𝑓(𝑥), temos que: 𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0; Uma vez que só temos uma linha, cuja área é zero. • Exemplo: Arqueólogos estudaram certa região e estabeleceram um modelo teórico para a variável C, comprimento de fósseis na região (em cm). Suponha que C é uma variável aleatória contínua com a seguinte função densidade de probabilidade: f(c) = 8 < : 1 40 ¡ c 10 + 1 ¢ ; se 0 · c · 20 0 caso contr¶ario • É fácil observar que f(c) é positiva. Integrando a função densidade em todo o seu domínio podemos verificar que a área definida por f(c) é igual a 1. 15,05,0 40800 40 1 400 1 1040 1 20 0 20 0 2 20 0 20 0 20 0 cc dcdc c dc c • Dessa forma, concluímos que f(c) é efetivamente uma função densidade de probabilidade. • Deseja-se determinar: a. A probabilidade de um fóssil, escolhido ao acaso nessa região, apresentar comprimento inferior a 8 cm. b. O número k tal que . 8,0 kCP • Resolução: a. A probabilidade desejada é obtida integrando-se a função densidade de probabilidade no intervalo que vai de 0 a 8. Assim, 28,02,008,0 40800 8 40 1 400 1 1040 1 8 8 0 8 0 2 8 0 8 0 8 0 cc CP dcdc c dc c CP b. Nesse caso, queremos encontrar o valor k tal que a área definida por f(c) à direita de K seja igual a 0,8. Dessa forma, 016020 8,0 40 5,0 800 5,0 40800 8 40 1 400 1 1040 1 8,0 2 220 20 2 202020 kk kkcc CP dcdc c dc c kCP kk kkk Utilizando a fórmula de Bhaskara: cmk kk a acbb k 125,6 125,26 e 125,6 2 25,3220 2 4 21 2 4.3.1. Média e variância de uma variável aleatória contínua • A média ou valor esperado de uma variável aleatória discreta X é dada pela expressão: ¹ = E(X) = Z 1 ¡1 x f(x) dx • A variância de X é dada pela expressão: • O desvio padrão da v.a. X é, então, dado por: 𝜎 = 𝜎2 ¾2 = V (X) = Z 1 ¡1 (x¡ ¹)2 f(x) dx ¾2 = V (X) = Z 1 ¡1 x2 f(x) dx¡ ¹2 • Exemplo: Considerando o exemplo anterior, calcule a média e a variância da v.a. C, comprimento de fósseis de certa região (em cm), cuja função densidade de probabilidade é dada por: f(c) = 8 < : 1 40 ¡ c 10 + 1 ¢ ; se 0 · c · 20 0 caso contr¶ario Solução: • Cálculo da média cm cc dc c dc c dc c c 67,11 3 35 801200 40 400 1 1040 1 20 0 2 20 0 3 20 0 20 0 2 20 0 • Cálculo da variância e do desvio padrão 𝑐2𝑓(𝑐)𝑑𝑐 20 0 = 𝑐2 1 40 𝑐 10 + 1 𝑑𝑐 20 0 𝑐2𝑓(𝑐)𝑑𝑐 20 0 = 1 400 𝑐4 4 0 20 + 1 40 𝑐3 3 0 20 = 500 3 𝜎2 = 500 3 − 35 3 2 = 30,56 𝑐𝑚2 ∴ 𝜎 = 30,56 = 5,53 𝑐𝑚 • Propriedades da média: 1. 𝐸 𝑐 = 𝑐 2. 𝐸 𝑐𝑋 = 𝑐𝐸(𝑋) 3. 𝐸 𝑐𝑋 + 𝑏 = 𝑐𝐸 𝑋 + 𝑏 4. 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸(𝑌) • Propriedades da variância: 1. 𝑉 𝑐 = 0 2. 𝑉 𝑐𝑋 = 𝑐2𝑉(𝑋) 3. 𝑉 𝑐𝑋 + 𝑏 = 𝑐2𝑉(𝑋) 4. 𝑉 −𝑋 = 𝑉(𝑋) 4.4. Distribuições contínuas mais comuns 4.4.1. Distribuição Uniforme • Definição: Uma v.a. contínua tem uma distribuição uniforme se todos os valores que assume são igualmente prováveis. • Uma v.a. X tem distribuição Uniforme Contínua no intervalo [a, b], a < b, se sua função densidade de probabilidade é dada por: 𝑓 𝑥 = 1 (𝑏 − 𝑎) , 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏 0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 • Notação: X ~ Uniforme[a, b] • Exemplo: Uma professora planeja a aula tão cuidadosamente, que a duração de suas aulas é distribuída uniformemente entre 50 e 52 minutos. Isto é, qualquer tempo entre 50 e 52 minutos é possível, e todos esses valores possíveis são igualmente prováveis. • Se selecionarmos aleatoriamente uma aula e designarmos X a v.a. representativa do tempo de aula, então, X tem uma distribuição definida pela função densidade 𝑓 𝑥 = 1 2 , 𝑠𝑒 50 ≤ 𝑥 ≤ 52 0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 • Ache a probabilidade de uma aula durar mais de 51,5 minutos. 𝑃 𝑋 > 51,5 = á𝑟𝑒𝑎 𝑑𝑎 𝑟𝑒𝑔𝑖ã𝑜 𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎 𝑃 𝑋 > 51,5 = 0,5 × 0,5 = 0,25 • Média e variância de uma distribuição Uniforme Contínua 𝐸 𝑋 = 𝑎 + 𝑏 2 𝑉 𝑋 = 𝑏 − 𝑎 2 12 • Exemplo: No exemplo anterior relacionado à duração de aula de uma determinada professora, designou-se X a v.a. representativa do tempo de aula (em min.), onde X seguia uma distribuição Uniforme[50, 52]. Dessa forma, o tempo esperado de aula é: 𝐸 𝑋 = 52 + 50 2 = 51 • A variância e o desvio padrão são respectivamente: 𝑉 𝑋 = (52 − 50)2 12 = 4 12 ≅ 0,333 𝐷𝑃 𝑋 = 0,333 ≅ 0,578 4.4.2. Distribuição Exponencial • Uma v.a. contínua X, assumindo valores não negativos, segue o modelo Exponencial com parâmetro 𝛼 > 0 se sua densidade é: 𝑓 𝑥 = 𝛼𝑒−𝛼𝑥 , 𝑠𝑒 𝑥 ≥ 0 0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 • Notação: X ~ Exp(α). • Para calcular probabilidades com a exponencial, precisamos resolver a integral correspondente ao intervalo de interesse. Assim, 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = 𝛼𝑒−𝛼𝑥 𝑑𝑥 𝑏 𝑎 = − 𝑒−𝛼𝑥 𝑎 𝑏 = 𝑒−𝛼𝑎 − 𝑒−𝛼𝑏 • Esta distribuição tem sido amplamente utilizada nas áreas de física, engenharia, computação e biologia. • Variáveis como a vida útil de equipamentos, tempos de falha, tempos de sobrevivência de espécies e intervalos entre solicitações de recursos são algumas das quantidades que têm sido modeladas pela exponencial. • Média e variância de uma distribuição Exponencial 𝐸 𝑋 = 1 𝛼 𝑉 𝑋 = 1 𝛼2 • Exemplo: Uma indústria fabrica lâmpadas especiais que ficam em operação continuamente. A empresaoferece a seus clientes a garantia de reposição, caso a lâmpada dure menos de 50 horas. A vida útil dessas lâmpadas é modelada através da distribuição Exponencial com parâmetro 1 8000 . Determine a proporção de trocas por defeito de fabricação. Solução: Representemos pela v.a. T, o tempo de vida da lâmpada, e assim T ~ Exp(1 8000 ). A probabilidade desejada será: 𝑃 𝑇 < 50 = 1 8000 𝑒− 1 8000𝑡 𝑑𝑡 50 0 𝑃 𝑇 < 50 = − 𝑒− 1 8000𝑡 0 50 = 𝑒− 1 8000 ×0 − 𝑒− 1 8000 ×50 𝑃 𝑇 < 50 = 1 − 𝑒− 50 8000 ≅ 0,006 • Dessa forma, a proporção de trocas por defeito de fabricação será de aproximadamente 0,6%. • Esse número é relativamente pequeno, o que não é surpresa, tendo em vista que, como o parâmetro é 𝛼 = 1 8000 , a duração média das lâmpadas é 𝐸 𝑇 = 1 𝛼 = 8000 horas. 4.4.3. Distribuição Normal • Dizemos que uma variável aleatória contínua X tem distribuição Normal com parâmetros e 2, se sua função densidade é dada por: 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒𝑥𝑝 − 1 2𝜎2 (𝑥 − 𝜇)2 , 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ x µ • Notação: X ~ N(𝜇, 𝜎 2). • Propriedades da Normal: 1. 𝑓 𝑥 é simétrica em relação a . 2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞. 3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇. • A distribuição Normal é completamente especificada pela média μ e pela variância σ2 (parâmetros da distribuição). A figura a seguir mostra exemplo de distribuições Normais. • Como calcular Probabilidades para distribuição Normal ?Z ~ N(0,1) – distribuição Normal Padrão. 𝑃(𝑍 ≤ 𝑧1) são tabeladas (valores de z entre -3 e 3) z1 • Exemplo: Uma empresa de instrumentos científicos de precisão fabrica termômetros que devem informar temperaturas de 0°C no ponto de congelamento da água. • Testes em uma grande amostra desses instrumentos revelam que, no ponto de congelamento da água, alguns termômetros indicam temperaturas superiores ou inferiores a 0°C. • Suponha que as leituras desses termômetros sejam Normalmente distribuídas com média 0°C e desvio padrão 1°C. • Um termômetro é selecionado aleatoriamente. Calcule a probabilidade de que o termômetro escolhido apresente leitura no ponto de congelamento da água: a) inferior a 1,58°. b) superior a -1,23°C. c) entre -2,00°C e 1,50°C. a) A probabilidade de que o termômetro escolhido apresente leitura inferior a 1,58°C (no ponto de congelamento da água) corresponde à área sombreada na figura abaixo. • A área desejada é obtida diretamente da tabela da distribuição normal Padrão. Dessa forma, temos que, b) A tabela de probabilidade da Normal Padrão fornece a área à esquerda de -1,23 (área sombreada em cinza claro). .9429,058,1 ZP seguir. a figura na escuro cinza em sombreada área23,1 ZP • Dessa forma, temos que, 8907,01093,0123,123,1 ZPZP c) A tabela de probabilidade da Normal Padrão fornece a área à esquerda de -2,00 (área sombreada em cinza claro) e a área à esquerda de 1,50 (área pontilhada de preto). seguir. a figura na escuro cinza em sombreada área50,100,2 ZP • Dessa forma, temos que, 9104,00228,09332,0 00,250,150,100,2 ZPZPZP Procedimento para achar escores z a partir de áreas conhecidas. 1. Desenhe uma curva em forma de sino e identifique a região sob a curva que corresponde à probabilidade dada. Se esta região não for uma região acumulada à esquerda, trabalhe com regiões conhecidas que sejam acumuladas à esquerda. • Usando a área acumulada à esquerda, localize a probabilidade mais próxima no corpo da tabela da distribuição Normal e identifique o escore z correspondente. • Exemplo: Usando os mesmos termômetros do exemplo anterior, ache a temperatura correspondente ao percentil 95 (P95). • A figura a seguir ilustra o escore z que corresponde ao percentil 95. • A fim de encontrarmos o P95 devemos procurar a área mais próxima de 0,95 no corpo da tabela de probabilidades da Normal Padrão. P95 • Consultando a tabela observamos que a área de 0,95 está exatamente entre as áreas 0,9495 e 0,9505. • O escore z procurado é então obtido através do calculo da média dos escores 1,64 e 1,65. • Dessa forma, a temperatura correspondente ao percentil 95 é igual a 1,645°C. Assim, 95% dos termômetros fabricados pela empresa apresentam leituras (no ponto de congelamento da água) inferiores ou iguais a 1,645°C. • Como calcular probabilidades para uma N(μ,σ2)? • A fim de que possamos calcular probabilidades para distribuições Normais não-padronizadas, iremos transformar uma v.a. X ~ N(𝜇, 𝜎2) em uma v.a. com distribuição Normal padrão (Z ~ N(0,1)). A padronização de x é feita usando-se a fórmula: 𝑍 = 𝑋 − 𝜇 𝜎 • • Qual a distribuição de X - μ? • Qual a distribuição de Z = (X-μ)/σ? • Resultado Importante: Se X ~ N(𝜇, 𝜎2), então: 𝑍 = 𝑋 − 𝜇 𝜎 ~ 𝑁(0, 1) e 𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤ 𝑥 − 𝜇 𝜎 • Exemplo: Doentes sofrendo de certa moléstia são submetidos a um tratamento intensivo cujo tempo de cura foi modelado por uma densidade Normal, de média 15 e desvio padrão 2 (em dias). • Seja X a v.a. que denota o tempo de cura, temos que X ~ N(15, 4). • Calcule a probabilidade do tempo de cura: a. Ser superior a 17 dias? b. Ser inferior a 20 dias? c. Estar entre 14 e 17 dias? • Solução: a. 𝑃 𝑋 > 17 = 𝑃 𝑍 > 17−15 2 = 𝑃 𝑍 > 1 = 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587 b. 𝑃 𝑋 < 20 = 𝑃 𝑍 < 20−15 2 = 𝑃 𝑍 < 2,5 = 0,9938 c. 𝑃 14 < 𝑋 < 17 = 𝑃 14−15 2 < 𝑍 < 17−15 2 = 𝑃 −0,5 < 𝑍 < 1 = 𝑃 𝑍 < 1 − 𝑃(𝑍 < −0,5) ∴ 𝑃 14 < 𝑋 < 17 = 0,8413 − 0,3085 = 0,5328 • Uma questão interessante seria saber o tempo máximo necessário para a recuperação de 25% dos pacientes, ou seja, 𝑃 𝑋 < 𝑥 = 0,25 𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤ 𝑥 − 15 2 = 0,25 • A partir da tabela da Normal padrão obtemos: 𝑥 − 15 2 = −0,67 ⇒ 𝑥 = 13,66 Assim, 25% dos pacientes ficarão curados antes de 14 dias, aproximadamente. Dessa forma, 𝑥 = 𝜇 + (𝑧𝜎). • • 4.5. Distribuições amostrais 4.5.1. Distribuição de médias amostrais. • Considere uma população com parâmetros µ (média) e σ2 (variância). • Se tirarmos uma amostra aleatória de tamanho n e calcularmos sua média, teremos um valor para . 𝑋 • Se retirarmos outras amostras de tamanho n da mesma população, obteremos outros valores para 𝑋 que serão diferentes do primeiro. Logo 𝑋 é uma variável que muda de valor de amostra para amostra. • • Se associarmos a cada valor de 𝑋 a probabilidade da amostra que lhe corresponde, 𝑋 passa a ser uma variável aleatória. Assim, 𝑋 tem uma distribuição de probabilidade que recebe o nome de distribuição amostral de 𝑋 . • • Exemplo: Selecionamos todas as possíveis amostras de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Existem 5x5 = 25 possibilidades: 1 e 1 1 e 3 1 e 5 1 e 5 1 e 7 3 e 1 3 e 3 3 e 5 3 e 5 3 e 7 5 e 1 5 e 3 5 e 5 5 e 5 5 e 7 5 e 1 5 e 3 5 e 5 5 e 5 5 e 7 7 e 1 7 e 3 7 e 5 7 e 5 7 e 7 • E suas médias são: 1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5, 6, 3, 4, 5, 5, 6, 4, 5, 6, 6 e 7, respectivamente. • Como cada amostra tem probabilidade de ocorrência igual a 1/25, a distribuição amostral de é dada por:𝑋 1 2 3 4 5 6 7 𝑃(𝑋 = 𝑥 ) 1 25 2 25 5 25 6 25 6 25 4 25 1 25 • Note que a média e variância populacionaissão, respectivamente: 𝜇𝑋 = 𝐸 𝑋 = 𝑥 𝑖𝑝𝑖 = 4,2 𝑖 𝜎𝑋 2 = 𝑉 𝑋 = 𝑥 𝑖 2𝑝𝑖 − 𝜇𝑋 2 = 2,08 𝑖 𝜇 = 𝐸 𝑋 = 4,2 e 𝜎2 = 𝑉(𝑋) = 4,16, • Verificamos, aqui, dois fatos: – primeiro, a média das médias amostrais (𝜇𝑋 ) coincide com a média populacional (𝜇); – segundo, a variância de 𝑋 é igual à variância de X, dividida por n = 2. Esses dois fatos não são casos isolados. Na realidade, temos o seguinte resultado. • Teorema: Seja X uma v.a. com média 𝜇 e variância 𝜎2, e seja 𝑋1, ⋯ , 𝑋𝑛 uma amostra aleatória de X. Então, 𝜇𝑋 = 𝐸 𝑋 = 𝜇 e 𝜎𝑋 2 = 𝑉 𝑋 = 𝜎 2 𝑛 OBS: O desvio padrão de 𝑋 é comumente chamado de erro padrão de 𝑋 e denotado por 𝜎𝑋 . • Teorema Central do Limite (TCL) • Dado: 1. A v.a. X tem uma distribuição (que pode ou não ser normal) com média 𝜇 e desvio padrão 𝜎. 2. Amostras aleatórias, todas de tamanho n, são selecionadas da população. (As amostras são selecionadas de modo que todas as possíveis amostras de tamanho n têm a mesma chance de serem escolhidas). • Conclusão: A distribuição das médias amostrais (𝑋 ) irá se aproximar de uma distribuição normal à medida que n aumentar. Ou seja, 𝑋 ~N 𝜇, 𝜎 2 𝑛 . Regras práticas comumente utilizadas: 1. Se a população não for normalmente distribuída, eis uma diretriz em comum: para amostras de tamanho n maior que 30, a distribuição de 𝑋 pode ser razoavelmente bem aproximada pela distribuição normal. A aproximação se torna melhor à medida que o tamanho amostral n aumenta. • OBS: Populações com distribuições muito assimétricas, requerem tamanhos de amostra muito maiores que 30. 2. Se a população for normalmente distribuída, então 𝑋 será normalmente distribuída para qualquer tamanho amostral n. • Exemplo: Em uma certa cidade, a duração de conversas telefônicas em minutos, originárias de telefones públicos, segue um modelo Exponencial com parâmetro 1/3. Observando-se uma amostra aleatória de 50 dessas chamadas, qual será a probabilidade delas, em média, não ultrapassarem 4 minutos? • Solução: Representando por X a duração das chamadas, temos que X ~ Exp(1/3). Dessa forma, tem-se que: 𝐸 𝑋 = 3 e 𝑉 𝑋 = 9. Admitindo uma amostra suficientemente grande, pelo TCL temos que: 𝑋 ~N(3; 9/50). • • Dessa forma, podemos calcular a probabilidade desejada da seguinte forma: • Tendo em vista o alto valor de probabilidade encontrado, podemos dizer que é praticamente certo que a media amostral estará abaixo de 4 min. 𝑃 𝑋 ≤ 4 = 𝑃 𝑍 ≤ 4 − 3 9 50 = 𝑃 𝑍 ≤ 2,36 = 0,9909 4.5.2. Distribuição de proporções amostrais • Uma aplicação do TCL relaciona-se coma distribuição da proporção amostral. Recorde que a proporção amostral é definida como a fração de indivíduos com uma dada característica em uma amostra de tamanho n, isto é, 𝑝 = 𝑛° 𝑑𝑒 𝑖𝑛𝑑í𝑣. 𝑛𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 𝑐𝑜𝑚 𝑑𝑎𝑑𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑛 • Se construirmos para o i-ésimo indivíduo uma v.a. 𝑌𝑖 tal que 𝑌𝑖 = 1, 𝑠𝑒 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 Podemos reescrever a proporção amostral como 𝑝 = 𝑌1 + 𝑌2 + ⋯ + 𝑌𝑛 𝑛 = 𝑌𝑖 𝑛 𝑖=1 𝑛 = 𝑌. • • Logo, a proporção amostral nada mais é do que a média de v.a.’s convenientemente definidas. Assumindo que a proporção de indivíduos com a dada característica na população é p e que os indivíduos são selecionados aleatoriamente, temos que 𝑌1 , ⋯ , 𝑌𝑛 formam uma seqüência de v.a.’s independentes com distribuição de Bernoulli. • Assim, 𝐸 𝑌𝑖 = 𝑝 e 𝑉 𝑌𝑖 = 𝑝(1 − 𝑝). Logo, 𝐸 𝑝 = 𝐸 𝑌𝑖 𝑛 𝑖=1 𝑛 = 𝑝 𝑉 𝑝 = 𝑉 𝑌𝑖 𝑛 𝑖=1 𝑛 = 𝑝(1 − 𝑝) 𝑛 • • Tendo em vista o TCL temos que para n suficientemente grande, 𝑌 ~ N 𝑝, 𝑝(1−𝑝) 𝑛 e dessa forma, 𝑌 − 𝐸(𝑌 ) 𝑉 𝑌 = 𝑝 − 𝑝 𝑝(1 − 𝑝) 𝑛 𝑛→∞ 𝑁(0, 1). • Exemplo: Suponha que a proporção de peças fora de especificação em um lote é de 40%. Tomada uma amostra de tamanho 30, a probabilidade de esta amostra fornecer uma proporção de peças defeituosas menor que 0,50 pode ser calculada de forma exata pela Binomial e aproximada pelo modelo Normal. • Solução: Seja X a v.a. representando o número de peças defeituosas na amostra. Claramente, X ~ Binomial(30; 0,40). Logo, se representa a proporção amostral de peças defeituosas, temos que 𝑃 𝑝 < 0,50 = 𝑃 𝑋 30 < 0,50 = 𝑃(𝑋 < 15) = 30 𝑖 0,40𝑖 0,6030−𝑖 14 𝑖=0 = 0,825. • Considerando agora a aproximação pela normal, temos, como conseqüência do TCL 𝑝 ~𝑁 0,40; 0,40 × 0,60 30 • Assim, • Temos, então, mesmo para uma amostra não muito grande, uma proximidade razoável entre as duas respostas. 𝑃 𝑝 < 0,50 ≅ 𝑃 𝑍 < 0,50 − 0,40 0,40 × 0,60 30 𝑃 𝑝 < 0,50 ≅ 𝑃 𝑍 < 1,12 = 0,8686; 5. INFERÊNCIA ESTATÍSTICA • Objetiva estudar a população através de evidências fornecidas pela amostra. No nosso caso, as amostras serão obtidas por amostragem aleatória simples (AAS). 5.1. Estimação Definições: • Parâmetro: Resumo de uma característica obtido a partir de todos os elementos de uma população. Ex: média populacional (µ), desvio-padrão populacional (σ), proporção populacional (p). • Estimador: À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse. etc. • Estimativa: Um valor específico do estimador, obtido para uma amostra em particular. Notação: 𝜇 , 𝜎 , 𝑝 , 5.1.1. Estimação pontual • Um único valor amostral é usado como estimativa de um parâmetro da população. • A seguir encontram-se alguns exemplos de estimadores pontuais. Parâmetro Estimador µ 𝜇 = 𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑘 𝑛 p 𝑝 = 𝑓𝑟𝑒𝑞. 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑐𝑜𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑛 𝜎2 𝜎2 = 𝑆2 = (𝑋𝑖 − 𝑋 ) 2𝑛 𝑖=1 𝑛 − 1 𝜎 𝜎 = 𝑆 = 𝑆2 5.1.2. Intervalos de Confiança • Idéia Básica: Suponha que estamos interessados num parâmetro populacional verdadeiro (mas desconhecido) 𝜃. Podemos obter uma estimativa pontual de 𝜃 (𝜃 ) usando informação de nossa amostra. Contudo, sabemos que o valor estimado dificilmente será exatamente igual ao valor verdadeiro. • A partir da estimação pontual, somos incapazes de julgar qual a possível magnitude do erro que estamos cometendo. • Daí, surge a idéia de construir os intervalos de confiança, que são baseados na distribuição amostral do estimador pontual. • Definição: um intervalo de confiança (IC) é uma faixa (ou um intervalo) de valores usada para estimar o verdadeiro valor de um parâmetro populacional. 5.1.3. Intervalos de Confiança para µ • Suponha que queiramos estimar a média µ de uma população qualquer, e para tanto utilizamos a média 𝑋 de uma amostra de tamanho n. Do TCL, 𝑋 ~N 𝜇, 𝜎𝑋 2 • E portanto, 𝑒 = 𝑋 − 𝜇 ~ N 0, 𝜎𝑋 2 , onde 𝜎𝑋 2 = 𝑉 𝑋 = 𝜎 2 𝑛 • Daqui podemos determinar qual a probabilidade de cometermos erros de determinadas magnitudes. Por exemplo, 𝑃 𝑒 < 1,96 𝜎𝑋 = 1 − 𝛼 = 0,95 ou 𝑃 𝑋 − 𝜇 < 1,96 𝜎𝑋 = 0,95 • Que é equivalente a 𝑃 −1,96 𝜎𝑋 < 𝑋 − 𝜇 < 1,96 𝜎𝑋 = 0,95 E, finalmente, 𝑃 𝑋 − 1,96 𝜎𝑋 < 𝜇 < 𝑋 + 1,96 𝜎𝑋 = 0,95 Onde 1 − 𝛼 = 0,95
Compartilhar