Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Básica Caroline Cavatti Vieira Bolonini caroline.vieira@ufes.br 2015/2 Conteúdo Programático • Distribuições de frequência • Representação gráfica • Medidas estatísticas • Noções de probabilidade • Variáveis aleatórias discretas e contínuas • Distribuição de probabilidade Normal • Distribuição amostral da média • Teste de hipóteses Bibliografia básica: • Caroline C. Vieira. Notas de aula • M. N. Magalhães; Antonio C. P. de Lima. Noções de Probabilidade e Estatística – 2002. 1. Introdução • Definição de Estatística: é um conjunto de técnicas que nos permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos e experimentos. Conceitos: • População: é um conjunto de dados / pessoas / objetos / etc. que possuem pelo menos uma característica em comum de interesse do pesquisador. • Amostra: é um subconjunto desta população obtida de acordo com certas regras (técnicas de amostragem). • Em princípio, a seleção da amostra tenta fornecer um subconjunto de valores o mais parecido possível com a população que lhe dá origem. • Exemplos: 1. A fim de medir o grau de satisfação do brasileiro em relação ao atual governo Federal, foram selecionados aleatoriamente 2000 eleitores brasileiros . População – Todos os indivíduos brasileiros que possuem título eleitoral. Amostra – os 2000 eleitores selecionados aleatoriamente no país. 2. Deseja-se analisar a composição química de uma jazida de minério de ferro. Para tal retira-se um testemunho de 100 kg de minério de ferro dessa jazida. População – Toda a extensão da jazida mineral estudada. Amostra – A porção de 100 kg de minério de ferro retirada da jazida. • Dados: Conjuntos de valores, numéricos ou não. Todo dado se refere à determinada característica (variável). Tipos de Variáveis: • Qualitativas: quando os possíveis valores que assume representam atributos ou qualidades. Podem ser: • Nominais: o conjunto dos possíveis valores não possui uma ordenação natural. Ex: Sexo, Raça, Religião, etc. • Ordinais: é possível ordenar o conjunto dos possíveis valores. Ex: Classe Social, Escolaridade do chefe da família, etc. • Quantitativas: quando os possíveis valores que assume são de natureza numérica. Podem ser: • Discretas: em geral são fruto de uma contagem. O conjunto de possíveis valores é enumerável. Ex: Número de filhos na família, número de pessoas chegando em uma fila, número de caras obtidas em 5 lançamentos de uma moeda etc. • Contínuas: assumem valores em intervalos dos números reais. Ex: peso, altura, idade, etc. A Teoria Estatística está dividida em duas áreas: • Estatística Descritiva: é utilizada na etapa inicial da análise para que possamos nos familiarizar com os dados, e tirarmos conclusões informais e diretas a respeito de características de interesse com base nos dados observados. • Inferência Estatística: Técnicas que permitem extrapolar para a população, conclusões tiradas de subconjuntos ou amostras desta população. Estatística Descritiva Amostragem População Amostra Inferência Estatística 2. Estatística descritiva • Apresentação dos dados: organizar os dados de maneira prática e racional para o melhor entendimento do fenômeno que se está estudando. Pode ser por meio de tabelas e gráficos. 2.1. Construção de Tabelas • O conjunto de informações disponíveis após tabulação de questionário ou pesquisa de campo é denominado tabela de dados brutos. • Nela são listados individualmente cada elemento da população ou amostra, com os valores de todas as variáveis estudadas. (Vide anexo 1) • Apesar de conter muita informação, a tabela de dados brutos não é prática para respondermos rapidamente a questões de interesse. • Assim, a partir da tabela de dados brutos normalmente construímos uma nova tabela denominada tabela de frequência. • A tabela de frequência mais simples é aquela que lista os valores observados para determinada variável, e o número de ocorrências (ou frequência absoluta) de cada um destes valores. Exemplos: Sexo fi F 37 M 13 total 50 Turma fi A 25 B 25 total 50 • fi – Freq. absoluta: nº de elementos pertencentes a uma classe. Outras Freqüências: • Freqüência acumulada (fa): fa = freq. absoluta da classe + freq. absoluta das classes anteriores • Freqüência relativa (fr): • Freqüência relativa acumulada (fra): fra = freq. relativa da classe + freq. relativa das classes anteriores 𝑓𝑟 = 𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑓𝑟𝑒𝑞. 𝑡𝑜𝑡𝑎𝑙 Exemplo: Idade fi fa fr (%) fra (%) 17 9 9 18 18 18 22 31 44 62 19 7 38 14 76 20 4 42 8 84 21 3 45 6 90 22 0 45 0 90 23 2 47 4 94 24 1 48 2 96 25 2 50 4 100 Total 50 100 • No caso da variável discreta assumir muitos valores e no caso das variáveis contínuas, os dados serão classificados em grupos, possuindo diversos valores numa classe. Exemplo: Peso PMi fi fa fr fra 44 |- 52 48 11 11 0,22 0,22 52 |- 60 56 19 30 0,38 0,60 60 |- 68 64 7 37 0,14 0,74 68 |- 76 72 7 44 0,14 0,88 76 |- 84 80 1 45 0,02 0,90 84 |- 92 88 4 49 0,08 0,98 92 |- 100 96 1 50 0,02 1,00 Total 50 1 Definições: • Limite inferior da classe (LI): é o valor mínimo que a variável alcança. • Limite superior da classe (LS): é o valor máximo que a variável alcança. • Amplitude da classe (h): é a diferença entre o LS e o LI de uma mesma classe. • Amplitude total (R): é a diferença entre o maior e o menor valor observado. • Ponto médio da classe (PM): é obtido somando-se o LI e o LS de uma mesma classe, e dividindo-se o resultado por 2. 2.2. Procedimento para construção de tabelas 1. Calcular a amplitude total (R). 2. Estipular o número de classes da tabela (k). Em geral varia de 5 a 20. • Critério para escolher k: seja n o número de dados - se 𝑛 ≤ 25 → 𝑘 = 5 - se 𝑛 > 25 → 𝑘 ≈ 𝑛 3. Calcular a amplitude das classes (h), de forma que as classes tenham a mesma amplitude. Para isso, toma-se: • OBS: h deve ser tomado com número de casa decimais igual ou menor que os dados; e seu valor deve, sempre, ser arredondado para cima. ℎ = 𝑅 𝑘 • Exemplo: as notas de 32 estudantes de uma classe estão descritas a seguir. 0,0 0,0 1,0 1,5 2,0 2,0 2,5 3,5 3,5 4,0 4,0 4,0 4,5 4,5 4,5 5,0 5,0 5,0 5,0 5,0 5,5 5,5 6,0 6,0 6,0 6,5 6,5 7,0 7,0 7,0 8,0 8,5 1. 𝑅 = 8,5 − 0,0 = 8,5 2. 𝑘 = 32 ≈ 5,66 ≈ 6 3. ℎ = 8,5 6 ≈ 1,42 ≈ 1,5 • Construir a tabela de freqüência. Notas fi fa fr (%) fra (%) 0,0 |- 1,5 3 3 9 9 1,5 |- 3,0 4 7 13 22 3,0 |- 4,5 5 12 16 38 4,5 |- 6,0 10 22 31 69 6,0 |- 7,5 8 30 25 94 7,5 |- 9,0 2 32 6 100 Total 32 100 2.3. Construção de Gráficos • Gráfico de Barras: Para cada valor da variável, desenha-se no eixo horizontal (ou vertical) uma barra com altura correspondente a sua freq. absoluta (ou relativa). • Este tipo de gráfico se adapta melhor às variáveis quantitativas discretas ou qualitativas. • Ex: Gráfico de barras para a variável Idade. 0 5 10 15 20 25 17 18 19 20 21 22 23 24 25 F rq . A b so lu ta Idade • Diagrama circular, disco ou pizza: Tipo de gráfico muito utilizado para representação de variáveis qualitativas. • Consiste num círculo dividido em setores, cujos tamanhos são proporcionais às freq. absolutas ou porcentagens correspondentes. • É útil quando o número de classes é pequeno. • Ex: Gráfico de pizza para a variável OpTV. • Histograma: Este é um gráfico que parte de uma tabela de freqüência de dados agrupados. • Este gráfico consiste de retângulos contíguos cuja baseé igual à amplitude da classe correspondente e área igual à freqüência relativa de cada classe. • A altura de cada retângulo é chamada de densidade da classe. A densidade da classe i é o valor dado por: 𝑑𝑖 = 𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖 • No caso da primeira classe da tabela de freq. da variável peso temos: 𝑑𝑖 = 0,22 8 = 0,0275 • Obs: o histograma pode ainda ser representado por retângulos contíguos cuja base é igual à amplitude da classe correspondente e altura igual à freqüência absoluta (ou relativa) de cada classe. • Ex: histograma da variável peso. • Polígono de Frequência: Este gráfico é obtido unindo-se os pontos médios de cada classe por segmentos de reta. • Este gráfico fornece uma melhor idéia da forma de distribuição dos dados. • OBS: Devem-se acrescentar classes com freqüência zero em ambos os extremos da distribuição para ligar o gráfico ao eixo horizontal. 0 0,005 0,01 0,015 0,02 0,025 0,03 0,035 0,04 0,045 0,05 48 56 64 72 80 88 96 D e n si d a d e Peso - Ponto Médio • Ogiva: Representação gráfica das freqüências acumuladas de uma tabela de freqüências de dados agrupados. • É uma linha poligonal que parte do eixo horizontal no limite inferior da 1ª classe e para cada limite superior indica a freqüência acumulada de sua classe. 0 11 30 37 44 45 49 50 0 10 20 30 40 50 60 44 52 60 68 76 84 92 100 Fr e q . a cu m u la d a Pesos 2.4. Medidas • Medidas são resumos ou sumários da informação trazida pela população (ou amostra) em um único número. • Existem diferentes classes de medidas, sendo as mais conhecidas as medidas de posição e dispersão. Definições: • Parâmetro: Resumo de uma característica obtido a partir de todos os elementos de uma população. Ex: média populacional (µ), desvio-padrão populacional (σ). • Estatística: Resumo da característica de interesse levando-se em conta apenas os elementos da amostra. Ex: média amostral ( ), desvio-padrão amostral (s). 𝑋 2.4.1. Medidas de posição • Tendem a representar os elementos comuns da população (ou amostra). Ex: média, moda, mediana, quartis, etc. Medidas de posição Medidas de tendência central Medidas Separatrizes Média Mediana Moda Quartis Percentis • Média amostral ( ): É um valor que representa o centro de massa ou ponto de equilíbrio da distribuição (histograma). É calculado por: 𝑿 X = X1 +X2 + ¢ ¢ ¢+Xn n = Pn i=1Xi n • Para melhor compreensão do conceito de média como centro de massa, imagine uma amostra com os seguintes valores {8, 9, 5, 5, 4, 3, 6, 4}. • Façamos um Diagrama de pontos, que é um gráfico útil para visualização de pequenas amostras. • Para tanto simplesmente plotamos um ponto para cada valor da amostra sobre um segmento de que contenha todos os valores. Se houver repetições plotamos um ponto sobre o outro. R • Note que a média pode ser pensada como um centro de massa porque se cada ponto tivesse a mesma massa, digamos 1kg, o triângulo representando a média equilibraria exatamente estes pesos. Média = 5,5 • Se os dados estiverem dispostos em tabela de freqüência como no exemplo abaixo, Variável fi X1 f1 X2 f2 ... ... ... ... Xk fk Total n fazemos: 𝑋 = 𝑋1𝑓1 + 𝑋2𝑓2 + ⋯ + 𝑋𝑘𝑓𝑘 𝑛 = 𝑋𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 • Se conhecermos a freqüência relativa, o cálculo da média passa a ser: 𝑋 = 𝑋1 𝑓1 𝑛 + ⋯ + 𝑋𝑘 𝑓𝑘 𝑛 = 𝑋1𝑓𝑟1 + ⋯ + 𝑋𝑘𝑓𝑟𝑘 = 𝑋𝑖 𝑘 𝑖=1 𝑓𝑟𝑖 • Exemplo: Para calcularmos a média dos dados abaixo: X fi fr 1 3 0,3 2 4 0,4 3 2 0,2 5 1 0,1 Total 10 1 • Pelos dados brutos: 𝑋 = 1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5 10 = 22 10 = 2,2 • Pela freqüência absoluta: 𝑋 = 1 × 3 + 2 × 4 + 3 × 2 + 5 × 1 10 = 2,2 • Pela freqüência relativa: 𝑋 = 1 × 0,3 + 2 × 0,4 + 3 × 0,2 + 5 × 0,1 = 2,2 • Em certas situações, os valores de um conjunto de dados têm graus de importância diferentes, o que nos leva a calcular uma média ponderada. • Em tais casos, calculamos a média ponderada atribuindo pesos (w) diferentes aos diversos valores. Assim, X = w1 x1 +w2 x2 + ¢ ¢ ¢+ wn xn w1 + w2 + ¢ ¢ ¢+wn = Pn i=1wi xiPn i=1wi • Exemplo: média ponderada de 3 avaliações. w1 = 1 x1 = 7 w2 = 1 x2 = 8 w3 = 2 x3 = 6 X = 1£ 7 + 1£ 8 + 2£ 6 4 = 6; 75 Observações: • A média é uma medida afetada por valores extremos. • Se calcularmos o valor médio de uma variável para toda a população, teremos a média populacional, normalmente designada pela letra grega µ (mi). Onde: 𝜇 = 𝑋𝑖 𝑁 𝑖=1 𝑁 • Mediana: É o valor que divide o conjunto de dados ao meio, de tal forma que 50% dos valores observados são menores ou iguais à mediana e 50% são maiores ou iguais a ela. Notação: md ou Md. Procedimento para calcular a mediana: 1. Ordenar os dados. 2. Localizar a posição central. Para isto calcula-se: 3. Se o número de observações (n) for ímpar, a mediana será a observação central; e se n for par, a mediana será o ponto médio entre as duas observações centrais. 2 1n Exemplos: • quando n é par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}. 1. {1; 1; 1; 2; 2; 3; 3; 3; 3 ;5}; 2. (10 + 1) 2 = 11 2 = 5,5 1 1 1 2 2 3 3 3 3 5 • Os dois candidatos a md são o 2 e o 3. Então, tomamos o ponto médio entre eles como a mediana: 𝑚𝑑 = 2 + 3 2 = 2,5 • quando n é ímpar: { 1; 1; 1; 3; 3; 4; 4; 5; 5}. Posição - (9 + 1) 2 = 10 2 = 5 Neste caso, 𝑚𝑑 = 3. • Observação: a mediana não é afetada por valores extremos. 1 1 1 3 3 4 4 5 5 Moda: • A moda de um conjunto de dados é o valor que ocorre com maior freqüência. Notação: mo ou Mo. • Exemplo: { 1; 1; 3; 3; 5; 3; 3; 2}. 𝑚𝑜 = 3. • Em um conjunto de dados pode haver mais de uma moda. • Exemplo: { 1; 1; 1; 1; 3; 3; 3; 3; 5}. 𝑚𝑜1 = 1 e 𝑚𝑜2 = 3. Neste caso se diz que o conjunto é bimodal. • Se houver mais de duas modas diz-se que o conjunto é multimodal. Por outro lado se nenhum valor se repete o conjunto não tem moda. Exemplo: Com base na tabela de frequências abaixo, calcule as medidas de tendência central para a variável idade (em anos completos). Idade fi fa 17 9 9 18 22 31 19 7 38 20 4 42 21 3 45 22 0 45 23 2 47 24 1 48 25 2 50 Total 50 𝑚𝑜 = 18 anos 𝑚𝑑 = 18+18 2 = 18 anos Posição da mediana : 50 + 1 2 = 25,5 𝑋 = 17 ∙ 9 + 18 ∙ 22 + 19 ∙ 7 + 20 ∙ 4 + 21 ∙ 3 + 23 ∙ 2 + 24 ∙ 1 + 25 ∙ 2 /50 𝑋 = 18,9 anos Percentil (Pα): • O percentil de ordem α de um conjunto de dados é um valor Pα% tal que α% dos valores são inferiores ou iguais a ele e (100 - α)% dos valores são maiores ou iguais a ele. Observações: • A mediana é o percentil de ordem 50. • Os percentis de ordem 25, 50 e 75 são chamados respectivamente de 1º Quartil, 2º Quartil e 3º Quartil. Como calcular o percentil Pα para dados agrupados: 1. Localizar a classe a qual pertence o percentil Pα observando: Lα – limite superior da classe do percentil Pα. lα – limite inferior da classe do percentil Pα. 2. Encontrar a frequência relativa da classe que contém o percentil Pα. Denote-a por𝑓𝑟𝛼 . 3. Encontrar a frequência relativa acumulada até a classe anterior à classe do percentil Pα. Denote-a por 𝑓𝑟𝑎𝑎 . 4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a frequência relativa da classe (lα |- Pα). l® L® P® ®% fraa% 5. O valor damediana é obtido resolvendo-se a seguinte regra de três: 𝐿𝛼 − 𝑙𝛼 → 𝑓𝑟𝛼 𝑃𝛼 − 𝑙𝛼 → 𝛼 − 𝑓𝑟𝑎𝑎 𝑃𝛼 = 𝑙𝛼 + (𝐿𝛼 − 𝑙𝛼) (𝛼 − 𝑓𝑟𝑎𝑎 ) 𝑓𝑟𝛼 Exemplo: Para acharmos a mediana e o 1º quartil das notas dos alunos de nosso exemplo fazemos: • Mediana (P50): 1. Classe 4,5|- 6,0. 2. 𝑓𝑟50 = 0,31. 3. 𝑓𝑟𝑎𝑎 = 0,38. Assim, 50% dos alunos tiraram notas inferiores a 5,1. 4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,5 − 0,38 = 0,12. 5. 𝑃50 = 4,5 + 6,0 − 4,5 0,12 0,31 ≅ 5,1 • 1º quartil (P25): 1. Classe 3,0|- 4,5. 2. 𝑓𝑟25 = 0,16. 3. 𝑓𝑟𝑎𝑎 = 0,22. 4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,25 − 0,22 = 0,03. 5. 𝑃25 = 3,0 + 4,5 − 3,0 0,03 0,16 ≅ 3,3. Assim, 25% dos alunos tiraram notas inferiores a 3,3. 2.4.2. Medidas de variabilidade • Medem o espalhamento ou dispersão dos dados. Complementam importantes informações escondidas pelas medidas de posição. • Exemplo: Desempenho de dois alunos em 5 avaliações: Aluno 1: {55; 57; 60; 62; 66}. 𝑋 = 60 e 𝑚𝑑 = 60. Aluno 2: {38; 49; 60; 72; 81}. 𝑋 = 60 e 𝑚𝑑 = 60. • Amplitude total (R): • A amplitude total de um conjunto de dados é definida como a diferença entre o maior e o menor valor observado. Ex: - Aluno 1: 𝑅 = 11. - Aluno 2: 𝑅 = 43. • • A variância é uma medida de dispersão que leva em conta todas as observações feitas. Ela mede a dispersão dos dados em torno da média amostral . • Considere as observações X1, X2, ... , Xn: Variância amostral (𝑺𝟐): • Temos • Assim define-se a variância amostral como: 𝑆2 = (𝑋𝑖 − 𝑋 ) 2𝑛 𝑖=1 𝑛 − 1 Ex: - Aluno 1: 𝑆2 = 55 − 60 2 + 57 − 60 2 + ⋯ + 66 − 60 2 𝑛 − 1 𝑆2 = 25 + 9 + 0 + 4 + 36 4 = 74 4 = 18.5 - Aluno 2: 𝑆2 = 38 − 60 2 + 49 − 60 2 + ⋯ + 81 − 60 2 𝑛 − 1 𝑆2 = 484 + 121 + 0 + 144 + 441 4 = 1190 4 = 297.5 • Observação: Se calcularmos a variância de uma população de tamanho N, teremos a variância populacional, normalmente designada pela letra grega σ (sigma). Onde: 𝜎2 = 𝑋𝑖 − 𝜇 2𝑁 𝑖=1 𝑁 • Inconvenientes da variância: 1. As unidades de medida da variância amostral são o quadrado da unidade original da variável (m2 para altura, kg2 para peso, etc). • Para evitar-se este desconforto estabeleceu-se o desvio padrão amostral definido por: que mostra a variabilidade medida na unidade original da variável analisada. 𝑆 = 𝑆2 = (𝑋𝑖 − 𝑋 )2 𝑛 𝑖=1 𝑛 − 1 • 2. Não permite comparar a variabilidade de dados medidos em diferentes unidades de medida ou medidos na mesma unidade mas com médias diferentes. Ex: - Aluno 1: 𝑆 = 18,5 = 4,3. - Aluno 2: 𝑆 = 297,5 = 17,2. • Aqui a solução foi a criação de uma medida chamada coeficiente de variação que não sofre influência nem da média nem da unidade de medida. O coeficiente de variação é definido como: • Amostra – • População – 𝐶𝑉 = (𝑆 𝑋 ) × 100 𝐶𝑉 = (𝜎 𝜇) × 100 • Exemplo: Em qual grupo há mais variação em torno da média: CVa = p 0; 0025 1;70 £ 100 = 2; 9% CVp = p 2; 25 60 £ 100 = 2; 5% Variável média variância altura 1,70 m 0,0025 m2 peso 60 kg 2,25 kg2 • Fórmula da variância amostral abreviada: 𝑆2 = 1 𝑛 − 1 𝑋𝑖 2 𝑛 𝑖=1 − 𝑋𝑖 𝑛 𝑖=1 2 𝑛 • Se os dados estiverem dispostos em tabela de freqüência como no exemplo abaixo, Variável fi X1 f1 X2 f2 ... ... ... ... Xk fk Total n fazemos: • Ou ainda, 1 1 2 2 n fXX S k i ii n fX fX n S k i iik i ii 2 1 1 22 1 1 Exemplo: Com base na tabela de frequências abaixo, calcule a variância e o desvio padrão da variável idade (em anos completos). Idade fi Xi*fi Xi 2*fi 17 9 153 2601 18 22 396 7128 19 7 133 2527 20 4 80 1600 21 3 63 1323 23 2 46 1058 24 1 24 576 25 2 50 1250 Total 50 945 18063 𝑋 = 18,9 anos Temos que: anos 03,213,4 13,4 49 5,202 50 945 18063 49 1 2 2 S S • Observação: A variância também é afetada por valores extremos. Dados agrupados em classe • Neste caso, como a variável está apresentada em faixas de valores, não temos os valores efetivamente observados e, portanto, não podemos aplicar as fórmulas da média e variância. • Para contornar essa situação e obter resultados aproximados para as medidas desejadas, tomamos como representante de cada faixa seu ponto médio (PMi). • Dessa forma, o cálculo da média e da variância são feitos das seguintes formas: 𝑆2 = (𝑃𝑀𝑖 − 𝑋 ) 2 ∙ 𝑓𝑖 𝑘 𝑖=1 𝑛 − 1 ou 𝑆2 = 1 𝑛 − 1 𝑃𝑀𝑖 2𝑓𝑖 𝑘 𝑖=1 − 𝑃𝑀𝑖 𝑘 𝑖=1 𝑓𝑖 2 𝑛 𝑋 = 𝑃𝑀𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 𝑋 = 𝑃𝑀𝑖𝑓𝑟𝑖 𝑘 𝑖=1 ou • Exemplo: Freq. cardíaca PMi fi PMi*fi PMi 2*fi 60 |- 65 62,5 11 687,5 42968,75 65 |- 70 67,5 35 2362,5 159468,75 70 |- 75 72,5 68 4930 357425 75 |- 80 77,5 20 1550 120125 80 |- 85 82,5 12 990 81675 85 |- 90 87,5 10 875 76562,5 90 |- 95 92,5 1 92,5 8556,25 95 |- 100 97,5 3 292,5 28518,75 Total 160 11780 875300 • Assim, 𝑋 = 11780 160 = 73,6 𝑆2 = 1 159 875300 − 11780 2 160 = 50,3 𝑆 = 50,3 = 7,1 Cálculo da Moda para dados agrupados em classe (Método Czuber) • Uma das formas de se calcular a moda para dados agrupados é utilizando o Método de Czuber. Esse método consiste nos seguintes passos: 1. Localize a classe de maior freqüência (classe MODAL) e os limites superior (L) e inferior (l) desta classe. 2. Encontre as seguintes freqüências: – : freqüência absoluta da classe modal; – : freqüência absoluta da classe anterior à classe modal; – : freqüência absoluta da classe posterior à classe modal; fmo fant fpos 3. Aplique a fórmula de Czuber: mo = l+ (L¡ l) fmo¡ fant 2fmo¡ (fant + fpos) • O método de Czuber determina a moda por interpolação usando a hipótese que leva seu nome: “A moda divide o intervalo da classe modal em distâncias proporcionais às diferenças entre a freqüência da classe modal com a freqüência das classes adjacentes". • A partir daí, utilizando os conceitos de semelhança dos triângulos e observando o histograma abaixo vemos que: ¢1 = fmo ¡ fant ¢2 = fmo ¡ fpos X =mo ¡ l • Resolvendo a equação para X, temos: • Dessa Forma, X h¡X = ¢1 ¢2 (onde h = L¡ l) X = ¢1 ¢1 +¢2 h mo = l+ (L¡ l) fmo¡ fant 2fmo¡ (fant + fpos) • Exemplo: Para acharmos a moda da variável peso fazemos: Peso fi 44 |- 52 11 52 |- 60 19 60 |- 68 7 68 |- 76 7 76 |- 84 1 84 |- 92 4 92 |- 100 1 Total 50 C la ss e M o d al mo = 52 + (60¡ 52) 19¡ 11 2£ 19¡ (11 + 7) mo = 55; 2 fmo = 19 fant = 11 fpos =7 • Temos que: • Dessa forma, 2.5. Assimetria Definição: – Uma distribuição é simétrica quando a metade esquerda da mesma é a imagem-espelho da metade direita. – Uma distribuição de dados é assimétrica quando um dos lados da mesma apresenta-se mais prolongado que o outro. • Distribuição simétrica: moda =mediana =m¶edia X=mo =md ¹=Mo =Md • Tipos de assimetria – Assimetria à direita ou positiva: a distribuição apresenta uma cauda mais acentuada à direita. moda ·mediana ·m¶edia – Assimetria à esquerda ou negativa: a distribuição apresenta uma cauda mais acentuada à esquerda. m¶edia ·mediana ·moda 3. Probabilidade3.1. Conceitos iniciais • Probabilidade é a medida de incerteza sobre algum fenômeno aleatório de interesse. • Fenômeno Aleatório: é um acontecimento cujo resultado não pode ser previamente previsto com certeza. Um experimento aleatório pode fornecer diferente resultados, mesmo que seja repetido sempre da mesma maneira. Exemplos: 1. O resultado do seu time no próximo jogo do Campeonato Brasileiro; 2. A altura do aluno sorteado ao acaso nesta sala; 3. A taxa de inflação do mês subseqüente; 4. O resultado do lançamento de um dado. • Espaço amostral (Ω ou S): é o conjunto de todos os resultados possíveis de um fenômeno ou experimento aleatório. Pode ser finito ou infinito, de acordo com a quantidade de possíveis resultados. • O espaço amostral de cada um dos exemplos anteriores é: 1. Ω = {derrota, empate, vitória}; 2. Ω = (0; ); 3. Ω = 4. Ω = {1, 2, 3, 4, 5, 6} 1. Ω = {derrota, empate, vitória}; 2. Ω = {0; 1 }; 3. Ω = ; 4. Ω = {1, 2, 3, 4, 5, 6}. R 1 • Evento (A; B; C; ... ; Z): é qualquer subconjunto do espaço amostral (Ω). Exemplos: 1. Seu time não perde A = {empate, vitória}; 2. A altura do aluno está entre 1,40 e 1,60 B = (1,40; 1,60); 3. A taxa de inflação do mês subseqüente é menor ou igual a 10% C = (- ; 0,10]; 4. Ocorre uma face par D = {2; 4; 6}. 1 • Evento elementar: é um resultado ou evento que não pode mais ser decomposto em componentes mais simples. Eventos especiais: • Evento impossível ( ): é o evento que nunca ocorre. • Evento certo (Ω): é o evento que sempre ocorre. ∅ • União de eventos (𝑨 ∪ 𝑩): representa a ocorrência de pelo menos um dos eventos A ou B, ou seja, A ou B ou ambos. Ω EX: Experimento: lançamento de um dado. • Evento A: ocorre face par. • Evento B: ocorre face inferior a 4. 𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6} • Interseção de eventos (𝑨 ∩ 𝑩): representa a ocorrência simultânea de A e B. Ω EX: no nosso exemplo anterior. • Evento A: ocorre face par. • Evento B: ocorre face inferior a 4. 𝐴 ∩ 𝐵 = {2} • Eventos disjuntos ou mutuamente exclusivos: São eventos que não podem ocorrer simultaneamente. A e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. Ω EX: Experimento: lançamento de um dado. • Evento A: ocorre face inferior a 4. • Evento B: ocorre face 5.Eventos disjuntos ou mutuamente exclusivos: São eventos que não podem ocorrer simultaneamente. A e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅. • Eventos complementares (𝑨 ou 𝑨𝒄, ou 𝑨′ ): O evento 𝐴 ocorre se o evento A não ocorre. É formado por todos os pontos de Ω que não estão em A. A e 𝐴 são complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e 𝐴 ∪ 𝐴 = Ω. Ω • No lançamento de um dado, se A é o evento “ocorrer face par”, então o evento complementar de A é o evento “ocorrer face ímpar”. • Observação: É importante relembrar as leis de Morgan: (𝐴 ∪ 𝐵) = 𝐴 ∩ 𝐵 e (𝐴 ∩ 𝐵) = 𝐴 ∪ 𝐵 }5, 3, 1{A e }6 ,4 ,2{A 3.2. Interpretações de probabilidade • Probabilidade é uma função 𝑃(∙) definida do conjunto de todos os possíveis subconjuntos de Ω em [0;1]. Esta função atribui chances de ocorrência de cada evento de Ω. • Definição clássica de probabilidade: Seja um experimento aleatório com espaço amostral finito Ω = {𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛}. Se tivermos evidências de que todos os resultados têm a mesma chance de acontecer, define-se: 𝑃 𝜔𝑖 = 1 𝑛 𝑖 = 1, ⋯ , 𝑛 • Para 𝐴 ⊂ Ω defini-se: 𝑃 𝐴 = # 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴 # 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω = 𝑛(𝐴) 𝑛(Ω) Neste caso dizemos que os resultados 𝜔𝑖 são equiprováveis. Exemplos: 1. Qual e a probabilidade de se extrair um ás de um baralho bem misturado de 52 cartas? A = extrair um ás de um baralho. n(A) = 4; n(Ω) = 52 𝑃 𝐴 = 4 52 = 1 13 ≅ 0,08 2. Ɛ – lançar duas moedas e observar a configuração obtida. c = cara; k = coroa. Ω = {cc; ck; kc; kk} • Qual a probabilidade de se obter zero caras? E uma cara? A – zero caras → A = {kk} → 𝑃 𝐴 = 1 4 . B – uma cara → B = {ck; kc} → 𝑃 𝐵 = 2 4 . Aproximação da probabilidade pela freqüência relativa. • Realize (ou observe) um experimento aleatório Ɛ um grande número de vezes. • Registre quantas vezes o evento A ( ) ocorre efetivamente. A½ Ð • Então, a probabilidade de ocorrência do evento A é estimada como se segue 𝑃 𝐴 = # 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴 # 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 • Lei dos Grandes Números: Ao se repetir um experimento um grande número de vezes, a probabilidade pela freqüência relativa de um evento tende para a probabilidade teórica. • A lei dos Grandes Números afirma que a aproximação pela freqüência relativa tende a melhorar quando o número de observações aumenta. • Formalmente, tem-se que: Considere n repetições “independentes” de um experimento aleatório Ɛ. Seja A um evento qualquer. Defina: • A probabilidade frequencial de A é então dada por: 𝑃𝑛 𝐴 = # 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴 # 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜 𝑃 𝐴 = lim 𝑛→∞ 𝑃𝑛 𝐴 Exemplos: 1. Num lançamento de um dado, a probabilidade de ocorrência da face i é dada por: • Quando o número de lançamentos é muito grande, fri se estabiliza. Daí, toma-se fri como a probabilidade de ocorrência da face i. 𝑓𝑟𝑖 = # 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑎 𝑓𝑎𝑐𝑒 𝑖 # 𝑙𝑎𝑛ç𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑜 𝑑𝑎𝑑𝑜 2. Suponha que temos uma linha de produção em grande escala. Retiramos n itens desta linha de produção, e a cada retirada contamos o número de itens defeituosos (A = item defeituoso) • Podemos então afirmar que a probabilidade frequencial de um item defeituoso nesta linha de produção é 0,05. 3.3. Regras básicas de probabilidade 1. 𝑃 Ω = 1. 2. 𝑃 ∅ = 0. 3. 0 ≤ 𝑃(𝐴) ≤ 1, para qualquer evento A. 4. Regra da adição: 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵) Se A e B forem disjuntos, então: 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 • 5. 𝑃 𝐴 = 1 − 𝑃(𝐴). Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅ e 𝐴 ∪ 𝐴 = Ω. Então, pela regra da adição, 𝑃 Ω = 𝑃 𝐴 ∪ 𝐴 = 𝑃 𝐴 + 𝑃 𝐴 e pela regra 1, 𝑃 𝐴 + 𝑃 𝐴 = 1, logo 𝑃 𝐴 = 1 − 𝑃 𝐴 . • Exemplo: Distribuição de alunos segundo o sexo e a escolha do curso. Curso Sexo Total Homens (H) Mulheres (M) Matemática Pura (P) 70 40 110 Matemática Aplicada (A) 15 15 30 Estatística (E) 10 20 30 Computação (C) 20 10 30 Total 115 85 200 - 𝑃 𝑃 ∪ 𝐸 = 𝑃 𝑃 + 𝑃 𝐸 = 110 200 + 30 200 = 140 200 = 0,7 - 𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃(𝐴 ∩ 𝑀) = 30 200 + 85 200 − 15 200 = 100 200 = 0,5 - 𝑃 𝐶 = 1 − 𝑃 𝐶 = 1 − 30 200 = 170 200 = 0,85 3.4. Probabilidade condicional • Para dois eventos A e B do espaço amostral definimos: Definição: A probabilidade condicional de um evento A dado um evento B, denotada por 𝑃(𝐴|𝐵), é, 𝑃 𝐴 𝐵 = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) 𝑝𝑎𝑟𝑎 𝑃(𝐵) ≠ 0 • • A probabilidade condicional de A dado B revela a incerteza que se tem sobre o evento A supondo conhecida a verdade sobre o evento B. Podemos interpretá-la como a chance relativa de A restrita ao fato de que B ocorreu. Exemplos: 1. Uma urna contém 2 bolas brancas (B) e 3 bolas vermelhas (V). Suponha que são sorteadas duas bolas ao acaso, sem reposição. 2. As informações abaixo se referem aos candidatos que prestaram vestibular na UFES em 2010: Homem (H) Mulher (M) Total Aprovado (A) 8 14 22 Reprovado (R)4 6 10 Total 12 20 32 • Um aluno é sorteado ao acaso. Qual é a probabilidade de: • Ser mulher e ter sido aprovado? • Se é mulher, ter sido aprovada? • Ser mulher dado que foi aprovado? • Soluções: a. 𝑃 𝑀 ∩ 𝐴 = 14 32 ≅ 0,44 b. 𝑃 𝐴 𝑀 = 𝑃(𝐴∩𝑀) 𝑃(𝑀) = 14 32 20 32 = 14 20 = 0,70 c. 𝑃 𝑀 𝐴 = 𝑃(𝐴∩𝑀) 𝑃(𝐴) = 14 32 22 32 = 14 22 ≅ 0,64 • Propriedades: 1. 𝑃 Ω|B = 1 2. 𝑃 ∅|B = 0 3. 0 ≤ 𝑃(𝐴|𝐵) ≤ 1, para qualquer evento A. 4. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 − 𝑃(𝐶 ∩ 𝐷|𝐵) 5. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 ⇔ 𝐶 ∩ 𝐷 = ∅ 6. 𝑃 𝐴 |𝐵 = 1 − 𝑃(𝐴|𝐵) 3.5. Regra da multiplicação • A definição de probabilidade condicional pode ser reescrita para fornecer uma expressão geral para a probabilidade da interseção de dois eventos: 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴) Exemplo: • Acredita-se que na população do ES 20% de seus habitantes sofrem algum tipo de alergia, sendo classificados como alérgicos para fins de saúde pública. Sendo alérgico, a probabilidade de ter reação a certo antibiótico é de 0,5. Para os não alérgicos esta probabilidade é de apenas 0,05. • Escolhendo-se uma pessoa ao acaso da população do ES, qual a probabilidade de que ela: a. Seja do grupo dos alérgicos e tenha alergia ao ingerir o antibiótico? b. Seja do grupo dos não alérgicos e não tenha alergia ao ingerir o antibiótico? • Solução: Se fizermos A → ser do grupo dos alérgicos e B → ter reação, temos: a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10 b. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,95 × 0,8 = 0,76 3.6. Independência • Definição: Dois eventos A e B são independentes se a ocorrência de um não afeta a probabilidade de ocorrência do outro. Assim, tem-se que: 1. 𝑃 𝐴 𝐵 = 𝑃(𝐴) 2. 𝑃 𝐵 𝐴 = 𝑃(𝐵) • Dessa forma, para dois eventos independentes a regra da multiplicação reduz-se a: 𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵) Exemplos: 1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V). Sorteia-se 2 bolas ao acaso, com reposição. 2. Considere os sistemas com dois componentes apresentados na figura a seguir. • No sistema da figura (a) os componentes estão ligados em série. Neste caso, o sistema funcionará se os componentes 1 e 2 funcionarem simultaneamente. Se um dos componentes falhar, o sistema também falhará. • Se os componentes estiverem ligados em paralelo, como na figura (b), então o sistema funcionará se pelo menos um dos dois componentes funcionar. • Denotemos por F o evento “o sistema funciona” e por Ai o evento “o componente i funciona”, i = 1, 2. • Supondo que os componentes de ambos os sistemas funcionem independentemente, e se pi for a probabilidade de o componente i (i = 1, 2) funcionar, então: • A probabilidade do sistema da figura (a) funcionar será • Já a probabilidade do sistema da figura (b) funcionar será 212121 )()()()( ppAPAPAAPFP 2121212121 )()()()()( ppppAAPAPAPAAPFP 3.7. Regra da probabilidade total • A regra da multiplicação é útil para determinarmos a probabilidade de um evento que depende de outros eventos. Exemplo: • Em uma fábrica de parafusos, as máquinas A e B produzem 2/3 e 1/3 da produção total, respectivamente. Da produção de cada máquina 2% e 0,8%, respectivamente, são parafusos defeituosos. Escolhendo-se aleatoriamente um parafuso, qual a probabilidade que ele seja defeituoso? • Claramente a resposta depende de qual máquina produziu aquele parafuso. • Se chamarmos A → parafuso produzido pela máquina A, B → parafuso produzido pela máquina B e D → parafuso é defeituoso podemos afirmar que: 𝐷 = 𝐷 ∩ 𝐴 ∪ (𝐷 ∩ 𝐵) Ω • E como 𝐷 ∩ 𝐴 e (𝐷 ∩ 𝐵) são disjuntos podemos escrever que: 𝑃 𝐷 = 𝑃 𝐷 ∩ 𝐴 + 𝑃 𝐷 ∩ 𝐵 = 𝑃 𝐷 𝐴 𝑃 𝐴 + 𝑃 𝐷 𝐵 𝑃 𝐵 𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016 • Para generalizarmos o conceito da probabilidade total, definimos: • Definição: Dizemos que os eventos {A1; A2; ... ; An} formam uma partição do espaço amostral se: 1. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗 2. 𝐴𝑖 𝑛 𝑖=1 = Ω • Podemos assim enunciar o Teorema da Probabilidade Total: • Seja {A1; A2; ... ; An} uma partição do espaço amostral e seja B um evento qualquer, então, 𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛 𝑃(𝐵) = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛 𝑃(𝐵) = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖 𝑛 𝑖=1 Exemplo: • Suponha que um fabricante de sorvetes recebe 20% de todo o leite que consome da fazenda F1, 30% da fazenda F2 e o restante da F3. • A vigilância sanitária inspecionou as fazendas de surpresa e observou que 20% do leite produzido na fazenda F1 estava adulterado por adição de água, o mesmo ocorrendo com 5% e 2% respectivamente nas fazendas F2 e F3. • Na indústria de sorvete os galões de leite são armazenados sem identificação das fazendas produtoras. Um galão é sorteado ao acaso na indústria. Calcule a probabilidade de que o galão esteja adulterado. • Solução: Seja A → o leite está adulterado e Fi → o leite veio da fazenda Fi . a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3 𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3 𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 Assim: 𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065 a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3 𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3 𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3 Assim: 𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065 4. Variáveis Aleatórias • Sabe-se que um espaço amostral (Ω ou S) é o conjunto de todos os resultados possíveis de um fenômeno ou experimento aleatório. • Em muitos casos não estamos interessados na descrição detalhada de todos os resultados, e é mais interessante resumirmos o resultado através de números. • Definição: Uma variável aleatória (v.a.) é uma função que confere um número real a cada resultado no espaço amostral de um experimento aleatório. • Uma variável aleatória é denotada por uma letra maiúscula (por ex. X) e os valores que ela pode assumir como xi. Exemplos: 1. E – lançar duas moedas. O espaço amostral desta experiência é Ω = {cc; ck; kc; kk} onde c = cara e k = coroa. Uma variável aleatória pode ser “número de caras”, X = {0; 1; 2}. 2. E – jogar um dado duas vezes. X = soma das duas faces obtidas. Ω = (1; 1) … (1; 6) ⋮ ⋱ ⋮ (6; 1) … (6; 6) • A distribuição de probabilidades de uma variável aleatória X é uma descrição das probabilidades associadas com os possíveis valores de X. Esta descrição pode ser realizada em forma de tabelas ou gráficos. • No exemplo 1, onde a v.a. de interesse era “o número de caras obtidas num lançamento de duas moedas” temos a seguinte distribuição de probabilidades: 0 1 2 1/4 1/2 1/4 )( xXP X • Já no exemplo 2, definimos a v.a. X como “a soma das faces obtidas em dois lançamentos de um dado”. A distribuição de probabilidades de X é dad por: 2 3 4 5 6 7 8 9 10 11 12 )( xXP X 36 1 36 3 36 2 36 4 36 5 36 6 36 4 36 5 36 3 36 1 36 2 Classificação: • Variável aleatória discreta: assume valores num conjunto finito ou infinito enumerável. EX: n° de filhos, n° de peças defeituosas em um lote, bits transmitidos que foram recebidos com erros. • Variável aleatória contínua: seu conjunto de valores é qualquer intervalo dos números reais, o que seria um conjunto infinito não enumerável. EX: peso, altura, corrente elétrica, pressão, temperatura, tempo. 4.1. Variáveisaleatórias discretas Alguns modelos de variáveis aleatórias discretas: 1. Um sistema de comunicação por voz de uma empresa possui 48 linhas externas. A cada intervalo de tempo o sistema é supervisionado e registra-se o número de linhas em uso. Se fizermos X = número de linhas em uso. Os valores possíveis de X = {0; 1; 2; ...; 48}. 2. No processo de fabricação de semicondutores o fabricante deve se preocupar com o número de partículas contaminantes. Se definirmos a variável aleatória Y = número de partículas contaminantes em uma pastilha, os valores possíveis de Y = {0; 1; 2; ...}. Definição: • Seja X uma v.a. discreta. A função de probabilidade de X é uma função fX que atribui a cada valor possível de X a sua probabilidade de ocorrência. • Assim se X é uma variável aleatória assumindo os valores x1, x2, ... , xn a função de probabilidade associada a X é: • São propriedades da função de probabilidade: 1. 0 ≤ 𝑝𝑖 ≤ 1 2. 𝑝𝑖𝑖 = 1 nipxPxXPxf iiiiX ,, 1 , • Exemplo: Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro. As partes são adquiridas de fábricas diferentes (A e B), e a montagem consistirá e juntar as duas peças e pintá-las. • O produto acabado deve ter o comprimento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos limites, e isso só poderá ser verificado após a montagem. • Para estudar a viabilidade do seu empreendimento, o empresário quer ter uma idéia da distribuição do lucro por peça produzida. • Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme sua medida esteja dentro da especificação, maior ou menor que a medida especificada, respectivamente. • Foram obtidos com os fabricantes, o preço de cada componente, que é de R$ 5,00, e as probabilidades de produção de cada componente com as características bom, longo ou curto. Essas probabilidades estão apresentadas na tabela abaixo. Componente Fábrica A (cilindro) Fábrica B (esfera) Dentro das especificações - bom (B) 0,80 0,70 Maior que as especificações - longo (L) 0,10 0,20 Menor que as especificações - Curto (C) 0,10 0,10 • Se o produto final apresentar algum componente com a característica curto, ele será irrecuperável, e o conjunto será vendido como sucata ao preço de R$ 5,00. • Cada componente longo poderá ser recuperado a um custo adicional de R$ 5,00. • Se o preço de venda de cada unidade for de R$ 25,00, como seria a distribuição de probabilidade da variável X: lucro por unidade montada? • Primeiramente, vejamos a construção do espaço amostral para a montagem das unidades segundo as características de cada componente e seus respectivos lucros e probabilidades. • Como os componentes vêm de fábricas diferentes, vamos supor que a classificação do cilindro e da esfera, segundo suas características, sejam eventos independentes. • Uma representação do espaço amostral em questão é apresentada pelo diagrama em árvore a seguir. • Com base no diagrama em árvore, vemos que a v.a. X pode assumir os seguintes valores: – 15, se ocorrer o evento A1 = {BB}; – 10, se ocorrer o evento A2 = {BL, LB}; – 5, se ocorrer o evento A3 = {LL}; – -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}. • Cada um desses eventos tem uma probabilidade associada, ou seja, .19,0)( ,02,0)( ,23,0)( ,56,0)( 43 21 APAP APAP • Dessa forma, a distribuição de probabilidade da variável aleatória X é dada por: X P(x) -5 0,19 5 0,02 10 0,23 15 0,56 Total 1 4.1.1. Média e variância de uma variável aleatória discreta • A média ou valor esperado de uma variável aleatória discreta X é dada pela expressão: 𝜇 = 𝐸 𝑋 = 𝑥𝑖𝑝𝑖 𝑖 • A variância de X é dada pela expressão: 𝜎2 = 𝑉 𝑋 = (𝑥𝑖 − 𝜇) 2𝑝𝑖 = 𝑥𝑖 2𝑝𝑖 − 𝜇 2 𝑖𝑖 • O desvio padrão da v.a. X é, então, dado por: 2)( XDP • Exemplo: Para o último exemplo, tem-se que o lucro esperado por unidade montada é igual a: Ou seja, o empresário espera ter um lucro de 9,85 reais por unidade montada. .85,956,01523,01002,0519,0)5()( XE • Já a variância e o desvio padrão da v.a. X são dados por: 57,757,23)( 23,5702,9725,154)( 85,956,01523,01002,0519,0)5( 2 222222 XDP XV 4.3. Variáveis aleatórias contínuas • Vimos que uma v.a. contínua é uma função X, definida sobre o espaço amostral Ω, que assume valores num intervalo dos números reais. • Ex: tempo de vida de uma lâmpada, nível de colesterol no soro sanguíneo, tempo de espera de um cliente para ser atendido num banco, duração de uma chamada telefônica, etc. • Distribuições de probabilidade contínuas: Dado que uma v.a. contínua X assume um conjunto infinito não enumerável de valores, torna-se impraticável a idéia de atribuir uma probabilidade a cada possível valor de X, como era feito no caso de uma v.a. discreta. • Agora, o procedimento para a obtenção de probabilidades levará em conta intervalos de valores e usará o histograma. • Considere uma distribuição de freqüências com 9 classes: Peso fi fr x0 |- x1 f1 fr1 x1 |- x2 f2 fr2 x2 |- x3 f3 fr3 x7 |- x8 f8 fr8 x8 |- x9 f9 fr9 Total n • Lembre-se que na construção de um histograma, a altura correspondente a cada retângulo equivale densidade da classe, onde . Dessa forma, a área de cada retângulo é igual a freq. relativa da classe. • Assim, dado que a soma das freq. relativas é igual a 1, a área total do histograma e do polígono de freqüências também é 1. 𝑑𝑖 = 𝑓𝑟/ℎ di • Considere o intervalo (x1,x2). Temos que a probabilidade de um ponto qualquer cair entre x1 e x2 será aproximadamente igual a área do retângulo hachurado. • Se diminuirmos a amplitude dos intervalos, (aumentando, assim, o número de intervalos) tornando a mesma infinitamente pequena, o polígono de freqüências passará a ser uma curva. 𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎 di Essa curva é a representação gráfica de uma função da v.a. X, denotada por 𝑓(𝑥) e chamada função de densidade de probabilidade. Esta função deve satisfazer as seguintes propriedades: 1. 𝑓(𝑥) ≥ 0, para todo 𝑥 ∈ −∞, ∞ ; 2. A área definida por 𝑓(𝑥) tem que ser igual a 1. • • Uma vez que, para v.a. contínuas, as probabilidades são definidas para intervalos de valores e são obtidas como áreas sob a curva 𝑓(𝑥), temos que: 𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0; Uma vez que só temos uma linha, cuja área é zero. • Exemplo: Arqueólogos estudaram certa região e estabeleceram um modelo teórico para a variável C, comprimento de fósseis na região (em cm). Suponha que C é uma variável aleatória contínua com a seguinte função densidade de probabilidade: f(c) = 8 < : 1 40 ¡ c 10 + 1 ¢ ; se 0 · c · 20 0 caso contr¶ario • É fácil observar que f(c) é positiva. Integrando a função densidade em todo o seu domínio podemos verificar que a área definida por f(c) é igual a 1. 15,05,0 40800 40 1 400 1 1040 1 20 0 20 0 2 20 0 20 0 20 0 cc dcdc c dc c • Dessa forma, concluímos que f(c) é efetivamente uma função densidade de probabilidade. • Deseja-se determinar: a. A probabilidade de um fóssil, escolhido ao acaso nessa região, apresentar comprimento inferior a 8 cm. b. O número k tal que . 8,0 kCP • Resolução: a. A probabilidade desejada é obtida integrando-se a função densidade de probabilidade no intervalo que vai de 0 a 8. Assim, 28,02,008,0 40800 8 40 1 400 1 1040 1 8 8 0 8 0 2 8 0 8 0 8 0 cc CP dcdc c dc c CP b. Nesse caso, queremos encontrar o valor k tal que a área definida por f(c) à direita de K seja igual a 0,8. Dessa forma, 016020 8,0 40 5,0 800 5,0 40800 8 40 1 400 1 1040 1 8,0 2 220 20 2 202020 kk kkcc CP dcdc c dc c kCP kk kkk Utilizando a fórmula de Bhaskara: cmk kk a acbb k 125,6 125,26 e 125,6 2 25,3220 2 4 21 2 4.3.1. Média e variância de uma variável aleatória contínua • A média ou valor esperado de uma variável aleatória discreta X é dada pela expressão: ¹ = E(X) = Z 1 ¡1 x f(x) dx • A variância de X é dada pela expressão: • O desvio padrão da v.a. X é, então, dado por: 𝜎 = 𝜎2 ¾2 = V (X) = Z 1 ¡1 (x¡ ¹)2 f(x) dx ¾2 = V (X) = Z 1 ¡1 x2 f(x) dx¡ ¹2 • Exemplo: Considerando o exemplo anterior, calcule a média e a variância da v.a. C, comprimento de fósseis de certa região (em cm), cuja função densidade de probabilidade é dada por: f(c) = 8 < : 1 40 ¡ c 10 + 1 ¢ ; se 0 · c · 20 0 caso contr¶ario Solução: • Cálculo da média cm cc dc c dc c dc c c 67,11 3 35 801200 40 400 1 1040 1 20 0 2 20 0 3 20 0 20 0 2 20 0 • Cálculo da variância e do desvio padrão 𝑐2𝑓(𝑐)𝑑𝑐 20 0 = 𝑐2 1 40 𝑐 10 + 1 𝑑𝑐 20 0 𝑐2𝑓(𝑐)𝑑𝑐 20 0 = 1 400 𝑐4 4 0 20 + 1 40 𝑐3 3 0 20 = 500 3 𝜎2 = 500 3 − 35 3 2 = 30,56 𝑐𝑚2 ∴ 𝜎 = 30,56 = 5,53 𝑐𝑚 4.3.2. Distribuição de probabilidade Normal • Dizemos que uma variável aleatória contínua X tem distribuição Normal com parâmetros e 2, se sua função densidade é dada por: 𝑓 𝑥 = 1 𝜎 2𝜋 𝑒𝑥𝑝 − 1 2𝜎2 (𝑥 − 𝜇)2 , 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ x µ • Notação: X ~ N(𝜇, 𝜎 2). • Propriedades da Normal: 1. 𝑓 𝑥 é simétrica em relação a . 2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞. 3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇. • A distribuição Normal é completamente especificada pela média μ e pela variância σ2 (parâmetros da distribuição). A figura a seguir mostra exemplo de distribuições Normais. • Como calcular Probabilidades para distribuição Normal ?Z ~ N(0,1) – distribuição Normal Padrão. 𝑃(𝑍 ≤ 𝑧1) são tabeladas (valores de z entre -3 e 3) z1 • Exemplo: Uma empresa de instrumentos científicos de precisão fabrica termômetros que devem informar temperaturas de 0°C no ponto de congelamento da água. • Testes em uma grande amostra desses instrumentos revelam que, no ponto de congelamento da água, alguns termômetros indicam temperaturas superiores ou inferiores a 0°C. • Suponha que as leituras desses termômetros sejam Normalmente distribuídas com média 0°C e desvio padrão 1°C. • Um termômetro é selecionado aleatoriamente. Calcule a probabilidade de que o termômetro escolhido apresente leitura no ponto de congelamento da água: a) inferior a 1,58°. b) superior a -1,23°C. c) entre -2,00°C e 1,50°C. a) A probabilidade de que o termômetro escolhido apresente leitura inferior a 1,58°C (no ponto de congelamento da água) corresponde à área sombreada na figura abaixo. • A área desejada é obtida diretamente da tabela da distribuição normal Padrão. Dessa forma, temos que, b) A tabela de probabilidade da Normal Padrão fornece a área à esquerda de -1,23 (área sombreada em cinza claro). .9429,058,1 ZP seguir. a figura na escuro cinza em sombreada área23,1 ZP • Dessa forma, temos que, 8907,01093,0123,123,1 ZPZP c) A tabela de probabilidade da Normal Padrão fornece a área à esquerda de -2,00 (área sombreada em cinza claro) e a área à esquerda de 1,50 (área pontilhada de preto). seguir. a figura na escuro cinza em sombreada área50,100,2 ZP • Dessa forma, temos que, 9104,00228,09332,0 00,250,150,100,2 ZPZPZP Procedimento para achar escores z a partir de áreas conhecidas. 1. Desenhe uma curva em forma de sino e identifique a região sob a curva que corresponde à probabilidade dada. Se esta região não for uma região acumulada à esquerda, trabalhe com regiões conhecidas que sejam acumuladas à esquerda. • Usando a área acumulada à esquerda, localize a probabilidade mais próxima no corpo da tabela da distribuição Normal e identifique o escore z correspondente. • Exemplo: Usando os mesmos termômetros do exemplo anterior, ache a temperatura correspondente ao percentil 95 (P95). • A figura a seguir ilustra o escore z que corresponde ao percentil 95. • A fim de encontrarmos o P95 devemos procurar a área mais próxima de 0,95 no corpo da tabela de probabilidades da Normal Padrão. P95 95% • Consultando a tabela observamos que a área de 0,95 está exatamente entre as áreas 0,9495 e 0,9505. • O escore z procurado é então obtido através do calculo da média dos escores 1,64 e 1,65. • Dessa forma, a temperatura correspondente ao percentil 95 é igual a 1,645°C. Assim, 95% dos termômetros fabricados pela empresa apresentam leituras (no ponto de congelamento da água) inferiores ou iguais a 1,645°C. • Como calcular probabilidades para uma N(μ,σ2)? • A fim de que possamos calcular probabilidades para distribuições Normais não-padronizadas, iremos transformar uma v.a. X ~ N(𝜇, 𝜎2) em uma v.a. com distribuição Normal padrão (Z ~ N(0,1)). A padronização de x é feita usando-se a fórmula: 𝑍 = 𝑋 − 𝜇 𝜎 • • Qual a distribuição de X - μ? • Qual a distribuição de Z = (X-μ)/σ? • Resultado Importante: Se X ~ N(𝜇, 𝜎2), então: 𝑍 = 𝑋 − 𝜇 𝜎 ~ 𝑁(0, 1) e 𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤ 𝑥 − 𝜇 𝜎 • Exemplo: Doentes sofrendo de certa moléstia são submetidos a um tratamento intensivo cujo tempo de cura foi modelado por uma densidade Normal, de média 15 e desvio padrão 2 (em dias). • Seja X a v.a. que denota o tempo de cura, temos que X ~ N(15, 4). • Calcule a probabilidade do tempo de cura: a. Ser superior a 17 dias? b. Ser inferior a 20 dias? c. Estar entre 14 e 17 dias? • Solução: a. 𝑃 𝑋 > 17 = 𝑃 𝑍 > 17−15 2 = 𝑃 𝑍 > 1 = 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587 b. 𝑃 𝑋 < 20 = 𝑃 𝑍 < 20−15 2 = 𝑃 𝑍 < 2,5 = 0,9938 c. 𝑃 14 < 𝑋 < 17 = 𝑃 14−15 2 < 𝑍 < 17−15 2 = 𝑃 −0,5 < 𝑍 < 1 = 𝑃 𝑍 < 1 − 𝑃(𝑍 < −0,5) ∴ 𝑃 14 < 𝑋 < 17 = 0,8413 − 0,3085 = 0,5328 • Uma questão interessante seria saber o tempo máximo necessário para a recuperação de 25% dos pacientes, ou seja, 𝑃 𝑋 < 𝑥 = 0,25 𝑃 𝑋 ≤ 𝑥 = 𝑃 𝑍 ≤ 𝑥 − 15 2 = 0,25 • A partir da tabela da Normal padrão obtemos: 𝑥 − 15 2 = −0,67 ⇒ 𝑥 = 13,66 Assim, 25% dos pacientes ficarão curados antes de 14 dias, aproximadamente. Dessa forma, 𝑥 = 𝜇 + (𝑧𝜎). • • 4.5. Distribuição de médias amostrais. • Considere uma população com parâmetros µ (média) e σ2 (variância). • Se tirarmos uma amostra aleatória de tamanho n e calcularmos sua média, teremos um valor para . 𝑋 • Se retirarmos outras amostras de tamanhon da mesma população, obteremos outros valores para 𝑋 que serão diferentes do primeiro. Logo 𝑋 é uma variável que muda de valor de amostra para amostra. • • Se associarmos a cada valor de 𝑋 a probabilidade da amostra que lhe corresponde, 𝑋 passa a ser uma variável aleatória. Assim, 𝑋 tem uma distribuição de probabilidade que recebe o nome de distribuição amostral de 𝑋 . • • Exemplo: Selecionamos todas as possíveis amostras de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Existem 5x5 = 25 possibilidades: 1 e 1 1 e 3 1 e 5 1 e 5 1 e 7 3 e 1 3 e 3 3 e 5 3 e 5 3 e 7 5 e 1 5 e 3 5 e 5 5 e 5 5 e 7 5 e 1 5 e 3 5 e 5 5 e 5 5 e 7 7 e 1 7 e 3 7 e 5 7 e 5 7 e 7 • E suas médias são: 1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5, 6, 3, 4, 5, 5, 6, 4, 5, 6, 6 e 7, respectivamente. • Como cada amostra tem probabilidade de ocorrência igual a 1/25, a distribuição amostral de é dada por:𝑋 1 2 3 4 5 6 7 𝑃(𝑋 = 𝑥 ) 1 25 2 25 5 25 6 25 6 25 4 25 1 25 • Note que a média e variância populacionais são, respectivamente: 𝜇𝑋 = 𝐸 𝑋 = 𝑥 𝑖𝑝𝑖 = 4,2 𝑖 𝜎𝑋 2 = 𝑉 𝑋 = 𝑥 𝑖 2𝑝𝑖 − 𝜇𝑋 2 = 2,08 𝑖 𝜇 = 𝐸 𝑋 = 4,2 e 𝜎2 = 𝑉(𝑋) = 4,16, • Verificamos, aqui, dois fatos: – primeiro, a média das médias amostrais (𝜇𝑋 ) coincide com a média populacional (𝜇); – segundo, a variância de 𝑋 é igual à variância de X, dividida por n = 2. Esses dois fatos não são casos isolados. Na realidade, temos o seguinte resultado. • Teorema: Seja X uma v.a. com média 𝜇 e variância 𝜎2, e seja 𝑋1, ⋯ , 𝑋𝑛 uma amostra aleatória de X. Então, 𝜇𝑋 = 𝐸 𝑋 = 𝜇 e 𝜎𝑋 2 = 𝑉 𝑋 = 𝜎 2 𝑛 OBS: O desvio padrão de 𝑋 é comumente chamado de erro padrão de 𝑋 e denotado por 𝜎𝑋 . • Teorema Central do Limite (TCL) • Dado: 1. A v.a. X tem uma distribuição (que pode ou não ser normal) com média 𝜇 e desvio padrão 𝜎. 2. Amostras aleatórias, todas de tamanho n, são selecionadas da população. (As amostras são selecionadas de modo que todas as possíveis amostras de tamanho n têm a mesma chance de serem escolhidas). • Conclusão: A distribuição das médias amostrais (𝑋 ) irá se aproximar de uma distribuição normal à medida que n aumentar. Ou seja, 𝑋 ~N 𝜇, 𝜎 2 𝑛 . Regras práticas comumente utilizadas: 1. Se a população não for normalmente distribuída, eis uma diretriz em comum: para amostras de tamanho n maior que 30, a distribuição de 𝑋 pode ser razoavelmente bem aproximada pela distribuição normal. A aproximação se torna melhor à medida que o tamanho amostral n aumenta. • OBS: Populações com distribuições muito assimétricas, requerem tamanhos de amostra muito maiores que 30. 2. Se a população for normalmente distribuída, então 𝑋 será normalmente distribuída para qualquer tamanho amostral n. • Exemplo: Em uma certa cidade, a duração de conversas telefônicas, originárias de telefones públicos, é uma variável aleatória com média igual a 3 minutos e variância igual a 9 (minutos)2. Observando-se uma amostra aleatória de 50 dessas chamadas, qual será a probabilidade delas, em média, não ultrapassarem 4 minutos? • Solução: Admitindo uma amostra suficientemente grande, pelo TCL temos que: . • Dessa forma, podemos calcular a probabilidade desejada da seguinte forma: )509;3(~ NX 𝑃 𝑋 ≤ 4 = 𝑃 𝑍 ≤ 4 − 3 9 50 = 𝑃 𝑍 ≤ 2,36 = 0,9909 • Tendo em vista o alto valor de probabilidade encontrado, podemos dizer que é praticamente certo que a media amostral estará abaixo de 4 min. 5. INFERÊNCIA ESTATÍSTICA • Objetiva estudar a população através de evidências fornecidas pela amostra. No nosso caso, as amostras serão obtidas por amostragem aleatória simples (AAS). 5.1. Estimação Definições: • Parâmetro: Resumo de uma característica obtido a partir de todos os elementos de uma população. Ex: média populacional (µ), desvio-padrão populacional (σ), proporção populacional (p). • Estimador: À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse. etc. • Estimativa: Um valor específico do estimador, obtido para uma amostra em particular. Notação: 𝜇 , 𝜎 , 𝑝 , 5.1.1. Estimação pontual • Um único valor amostral é usado como estimativa de um parâmetro da população. • A seguir encontram-se alguns exemplos de estimadores pontuais. Parâmetro Estimador µ 𝜇 = 𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑘 𝑛 p 𝑝 = 𝑓𝑟𝑒𝑞. 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑐𝑜𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 𝑛 𝜎2 𝜎2 = 𝑆2 = (𝑋𝑖 − 𝑋 ) 2𝑛 𝑖=1 𝑛 − 1 𝜎 𝜎 = 𝑆 = 𝑆2 5.2. Teste de Hipóteses (TH) • Definição: Uma hipótese estatística é uma afirmação acerca dos parâmetros de uma população, ou acerca da distribuição da população. • O objetivo de um teste de hipóteses é fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese formulada. • A construção de um TH para um parâmetro populacional pode ser colocado do seguinte modo: • Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se comprovar ou não tal hipótese. • Exemplo: exemplo 8.1 do livro do Magalhães. • Existe uma v.a. X associada a dada população e tem-se uma hipótese sobre determinado parâmetro 𝜃 dessa população. Procedimento geral do teste de hipóteses 5.2.1. Teste sobre a média de uma população com variância conhecida Passo 1: Formular as hipóteses nula e alternativa. 𝐻0 (hipótese nula): é a hipótese que estamos pondo à prova. 𝐻1 (hipótese alternativa): hipótese que será considerada aceitável, caso 𝐻0 seja rejeitada. • As possíveis hipóteses de interesse são: 𝐻0: 𝜇 = 𝜇0 𝑉𝑠 𝐻1: 𝜇 ≠ 𝜇0 → ℎ𝑖𝑝ó𝑡𝑒𝑠𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝐻1: 𝜇 > 𝜇0 → ℎ𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎 𝐻1: 𝜇 < 𝜇0 → ℎ𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎 • Qualquer que seja a decisão tomada, vimos que estamos sujeitos a cometer erros. • Erro do tipo I: Rejeitar 𝐻0 quando essa é verdadeira. Chamamos de 𝛼 a probabilidade de cometermos esse erro, isto é, 𝛼 = 𝑃 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 • • Passo 2: Identificar a distribuição do estimador (estatística de teste) e obter sua estimativa. Erro do tipo II: Não rejeitar 𝐻0 quando essa é falsa. A probabilidade de cometermos esse erro é denotada por 𝛽, logo: 𝛽 = 𝑃 𝑛ã𝑜 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑓𝑎𝑙𝑠𝑎 • Passo 3: Fixar 𝛼 (nível de significância) e obter a região crítica (ou região de rejeição). Região crítica (RC): é o conjunto de todos os valores da estatística de teste que nos levam a rejeitar 𝐻0. • • A definição da RC de pende da hipótese alternativa. Por exemplo, suponha que estamos realizando um teste para a média (µ) de uma população qualquer. Tem-se que, para: 𝐻1: 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥 𝑐1 𝑜𝑢 𝑥 > 𝑥 𝑐2 𝐻1: 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 > 𝑥 𝑐 𝐻1: 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥 𝑐 • Ou de forma equivalente: 1 𝐻1: 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 2 𝐻1: 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 > 𝑧𝑐 3 𝐻1: 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ|𝑧 < 𝑧𝑐 • Após fixar a probabilidade 𝛼, constrói-se a RC, de modo que: 𝑃 𝑋 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 𝛼, onde𝑋 é o estimador de 𝜇. OBS: É importante ressaltar que a RC é sempre construída sob a hipótese de 𝐻0 ser verdadeira. • • Passo 4: Concluir o teste com base na estimativa e na região crítica. Se o valor da estatística de teste calculado com base na amostra não pertencer à RC, não rejeite 𝐻0; caso contrário rejeite 𝐻0. • Exemplo: A resistência à tração do aço inoxidável produzido numa usina permanecia estável, com uma resistência média de 73 kg/mm2 e um desvio padrão de 2,0 kg/mm2; sendo que tal resistência comporta- se de acordo com uma dist. Normal. Recentemente, a máquina foi ajustada. • A fim de determinar o efeito do ajuste, 10 amostras foram testadas. • Presuma que o desvio padrão seja o mesmo que antes do ajuste. Podemos concluir que o ajuste mudou a resistência à tração de aço? (Adote um nível de significância de 5%) 76,2 78,3 76,4 74,7 72,6 78,4 75,7 70,2 73,3 74,2 • Solução: Passo 1: Formulação das hipóteses. 𝐻0: o ajuste não mudou a resistência à tração de aço 𝐻1: o ajuste mudou a resistência à tração de aço Em termos estatísticos, temos que: 𝐻0: 𝜇 = 73 𝐻1: 𝜇 ≠ 73 • • • Passo 2: Identificar a distribuição do estimador (estatística de teste) e obter sua estimativa. 𝑋 ~𝑁 𝜇; 𝜎 2 𝑛 → 𝑋 ~𝑁 𝜇; 22 10 A amostra obtida forneceu a estimativa 𝑥 𝑜𝑏𝑠 = 75. Dessa forma, 𝑧𝑜𝑏𝑠 = 𝑥 𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 𝜎 𝑛 = 75 − 73 2 10 = 3,16 • • Passo 3: Fixar 𝛼 e obter a região crítica. Tendo em vista a especificação de 𝐻1, a RC será da forma: 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 • • Fixando-se 𝛼 = 0,05, temos que: 𝑃 𝑧 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 0,05 𝑃 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 𝜇 = 73 = 0,05 𝑃 𝑧 < 𝑧𝑐1 + 𝑃 𝑧 > 𝑧𝑐2 = 0,05 • Pela tabela da dist. normal padrão, tem-se que: 𝑧𝑐1 = −1,96 e 𝑧𝑐2 = 1,96 Dessa forma, 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < −1,96 𝑜𝑢 𝑧 > 1,96 • • Passo 4: Conclusão. Uma vez que 𝑧𝑜𝑏𝑠 = 3,16 pertence à RC, rejeitamos 𝐻0 ao nível de significância de 5%. Ou seja, concluímos que a resistência à tração do aço mudou após ter sido feito ajuste da máquina. 5.2.2. Teste sobre a média de uma população com variância desconhecida • Exemplo: Um fabricante afirma que seus cigarros contêm não mais que 30mg de nicotina. Uma amostra de 25 cigarros fornece média de 31,5mg e desvio padrão de 3mg. No nível de 5%, os dados refutam ou não a afirmação do fabricante? • Solução: Passo 1: 𝐻0: 𝜇 = 30 𝐻1: 𝜇 > 30 Passo 2: 𝑡 = 𝑋 − 𝜇 𝑆 𝑛 ~ 𝑡(24) • • • A amostra obtida forneceu a estimativa 𝑥 𝑜𝑏𝑠 = 31,5. Dessa forma, 𝑡𝑜𝑏𝑠 = 𝑥 𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 𝑆 𝑛 = 31,5 − 30 3 25 = 2,5 • Passo 3: Fixando-se 𝛼 = 0,05, temos que: 𝑃 𝑡 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 0,05 𝑃 𝑡 > 𝑡𝑐 𝜇 = 30 = 0,05 Pela tabela da dist. t-Student, tem-se que: 𝑡𝑐 = 1,711. Dessa forma, 𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 > 1,711 • • Passo 4: Uma vez que 𝑡𝑜𝑏𝑠 = 2,5 pertence à RC, rejeitamos 𝐻0 ao nível de significância de 5%. Ou seja, há evidências de que os cigarros contenham mais de 30mg de nicotina. 5.2.4. Probabilidade de significância (p-valor) • Ao realizarmos um teste de hipóteses, partimos da fixação do nível de significância 𝛼 para construirmos a RC. • Um enfoque alternativo consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se obter um valor da estatística de teste que seja no mínimo tão extremo quanto o que foi observado a partir da amostra. • Essa quantidade é chamada probabilidade de significância ou p-valor. • Valores pequenos de p-valor evidenciam que 𝐻0 é falsa, pois sendo a amostra nossa ferramenta de inferência sobre a população, ela fornece uma estimativa que teria uma probabilidade muito pequena de ocorrer, caso 𝐻0 fosse verdadeira. • Exemplo: Uma associação de defesa do consumidor desconfia que embalagens de 450 gramas de certo tipo de biscoito estão abaixo do peso. Para verificar tal afirmação, foram coletados ao acaso 80 pacotes em vários supermercados, obtendo-se uma média de peso de 447 gramas. Admitindo-se que o peso dos pacotes segue o modelo Normal com desvio padrão 10 gramas, que conclusão pode ser tirada através da probabilidade de significância (p-valor)? • As hipóteses de interesse são: 450: 450: 1 0 H H • As suposições feitas sobre a normalidade da variável peso implicam que . )80100;(~ NX • O valor observado na amostra foi . 447 obs x • Dessa forma o p-valor é dado por: 0037,068,2 8010 450447 450|447o verdadeir| 0 ZPZPvalorp XPHxXPvalorp obs • Note que o p-valor se relaciona diretamente com o nível de significância 𝛼. Neste exemplo, se tivéssemos fixado um 𝛼 ≥ 1,83%, a decisão seria pela rejeição de 𝐻0, ao passo que para 𝛼 < 1,83%, optaríamos por não rejeitar 𝐻0. • Neste exemplo, se tivéssemos fixado um nível de significância superior ou igual a 0,37%, a conclusão seria pela rejeição de H0, ao passo que valores inferiores a 0,37% conduziriam à não rejeição da hipótese nula. • Exemplo: No exemplo da seção 5.2.3, estávamos testando a afirmativa de que os cigarros de certo fabricante não contêm mais que 30mg de nicotina, ou seja, estávamos testando as seguintes hipóteses: Solução: Passo 1: 𝐻0: 𝜇 = 30 𝐻1: 𝜇 > 30 Passo 2: 𝑡 = 𝑋 − 𝜇 𝑆 𝑛 ~ 𝑡(24) • A amostra de 25 cigarros forneceu as estimativas mgSx obsobs 3 e mg 5,31 • Dessa forma o p-valor é dado por: 01,00,005 24. Para 5,2 253 305,31 30|5,31o verdadeir| 0 valorplg TPTPvalorp XPHxXPvalorp obs • Uma vez que p-valor< 0,05, rejeitamos H0. • Podemos considerar probabilidades de significância bilaterais. • Neste caso, precisamos considerar que a forma da região crítica envolve os valores de que se distanciam muito (para mais ou para menos) daquele previsto pela hipótese nula. • Um procedimento é tomar o p-valor unilateral como sendo igual a 2 vezes o p-valor unilateral. obs x • Dessa forma para testar 𝐻0: 𝜇 = 𝜇0 vs 𝐻1: 𝜇 ≠ 𝜇0, temos que: 1º Caso: se 𝑋 𝑜𝑏𝑠 < 𝜇0, 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 < 𝑋 𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑. 2º Caso: se 𝑋 𝑜𝑏𝑠 > 𝜇0, 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 > 𝑋 𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑. • • • Exemplo: No exemplo da resistência à tração do aço inoxidável, estávamos testando as hipóteses: 𝐻0: o ajuste não mudou a resistência à tração de aço 𝐻1: o ajuste mudou a resistência à tração de aço 𝐻0: 𝜇 = 73 𝐻1: 𝜇 ≠ 73 • Como vimos, sob 𝐻0, 𝑋 ~𝑁 73; 22 10 . Colhida a amostra obtivemos 𝑥 𝑜𝑏𝑠 = 75. • • Dessa forma o p-valor é dado por: 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 > 75| 𝜇 = 73 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑍 > 75 − 73 2 10 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑍 > 3,16 = 2 × 1 − 𝑃 𝑍 < 3,16 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 1 − 0,9992 = 2 × 0,0008 = 0,0016 • Uma vez que p-valor< 0,05, rejeitamos H0.
Compartilhar