Baixe o app para aproveitar ainda mais
Prévia do material em texto
CÁLCULO DAS PROBABILIDADES E ESTATÍSTICA I Tatiene Souza 28 de abril de 2021 1 Probabilidade A ideia de probabilidades está associada tanto com raciocínio indutivo e julgamen- tos tais como ‘Provavelmente Pedro é feliz’ ou ‘Você provavelmente será aprovado em Estatística’, quanto a experimentos físicos repetitivos tais como o arremesso de uma moeda ou de um dado. Fenômeno (experimento) aleatório está associado à situação ou acontecimento que não pode ser previsto com certeza. Por exemplo, quando arremessamos uma mo- eda - honesta ela pode cair com a face Cara ou Coroa voltada para cima. Assim o ar- remesso de uma moeda é um evento aleatório. Da mesma maneira nosso tempo de vida, o decaimento radioativo ou o resultado da loteria também são fenômenos alea- tórios. Os resultados de um experimento envolvendo um fenômeno aleatório são cha- mados eventos. Espaço amostral (ω) de um experimento é o conjunto dos resultados do experimento. Por exemplo, lançamento de um dado, o espaço amostral é dado por ω= {1,2,3,4,5,6}. 1.1 Operações com eventos aleatórios Considere um espaço amostral ω = {e1,e2, . . . ,en}. Sejam A e B dois eventos. Repre- sente graficamente: A∪B ; A∩B ;Ac ; A−B ; B − A. Exemplo 1.1. Seja ω= {(c,c); (c,r ); (r,c); (r,r )}, A = {(c,c); (r,r )} e B = {(c,r ); (c,c)}. (a)A ∪B ; (b)A ∩B ; (c)Ac ; (d)B c ; (e)Ac ∩B c ; (f )Ac ∪B c ; (g)B − A; (h)A −B ; (i)Ac ∩B ; (j)B c ∩ A. É a função P que associa a cada evento F um número real pertencente ao intervalo [0,1], tal que P (ω) = 1 e P (A∪B) = P (A)+P (B), se A e B forem mutuamente exclusivos. 1 TEOREMA:(i) Se os eventos A1, A2, . . . , An formam uma partição do espaço amostral, então ∑n i=1 P (Ai ) = 1; (ii) Se ; é o evento impossível, então P (;) = 0; (iii) P (A)+P (Ac ) = 1; (iv)P (A∪B) = P (A)+P (B)−P (A∩B). Exemplo 1.2. O seguinte grupo de pessoas está em uma sala, a saber: 5 rapazes com mais de 21 anos, 4 rapazes com menos de 21 anos; 6 moças com mais de 21 anos e 3 moças com menos de 21 anos. Uma pessoa é escolhida ao acaso dentre as 18. Consi- dere os seguintes eventos: A: a pessoa tem mais de 21 anos; B : a pessoa tem menos de 21 anos; C : a pessoa é um rapaz; D : a pessoa é uma moça. Apresente P (A),P (B),P (C ),P (D);P (B ∪D) Resposta: {11/18; 7/18; 9/18; 9/18; 13/18} 1.2 Probabilidade Condicional Considere o exemplo a seguir: Considere 250 alunos que cursam o primeiro período de uma faculdade. Destes alunos 100 são homens (H) e 150 são mulheres (M), 110 cursam física (F) 140 cursam química (Q). A distribuição dos alunos é a seguinte: XXXXXXXXXXXXSexo Disciplina Física Química TOTAL Homens 40 60 100 Mulheres 70 80 150 TOTAL 110 140 250 Pergunta: Qual a probabilidade de que o aluno esteja cursando química dado que é mulher? 80150 . Qual a probabilidade de mulher e de química? 80 250 . Qual a probabilidade de ser mulher? 150250 . Sejam A ⊂ ω e B ⊂ ω. Definimos probabilidade condicional de A dado que B ocorre (A/B) é dada por: P (A/B) = P (A∪B) P (B) ,se P(B) 6= 0. Também: P (B/A) = P (B ∪ A) P (A) ,se P(A) 6= 0. 2 Exemplo 1.3. Duas bolas serão retiradas de uma urna que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual a probabilidade de que ambas sejam verdes? Resposta: {1/6}. Qual a probabilidade de que sejam da mesma cor? Resposta: {5/18}. Sejam A ⊂ω e B ⊂ω. Definimos A e B são independentes se P (A∩B) = P (A)P (B). Os eventos A e B são mutuamente excludentes se P (A∩B) =;. Exemplo 1.4. Sejam A e B eventos tais que P (A) = 0.2, P (B) = p, P (A∪B) = 0.6. Calcule p considerando que A e B são mutuamente excludentes e independentes. Resposta: {0.4; 0.5}. Exemplo 1.5. Uma urna contém 3 bolas brancas e 2 amarelas. Uma segunda urna contém 4 bolas brancas e 2 amarelas. Escolhe-se, ao acaso, uma urna e dela retira-se, também ao acaso, uma bola. Qual a probabilidade de que seja branca? Seja (B): bola branca e (A): bola amarela. URNA II A −→ P (I I ∩ A) = 12 · 2626 B −→ P (I I ∩B) = 12 · 46 4 6 1 2 I A −→ P (I ∩ A) = 12 · 2525 B −→ P (I ∩B) = 12 · 35 3 5 1 2 Ou seja, P (B) = P (B ∩ I )+P (B ∩ I I ) = P (I )P (B/I )+P (I I )P (B/I I ) 1.3 Variáveis Aleatórias Muitos experimentos aleatórios produzem resultados não-numéricos. Por exemplo, considere o caso de um questionário, em que uma pessoa é indagada a respeito de uma proposição e as respostas possíveis são SIM ou NÃO. Podemos definir uma variá- vel que tome dois valores, 1 ou 0, por exemplo, correspondentes às respostas SIM ou NÃO. Portanto antes de analisar esse tipo de experimento, é conveniente transformar seus resultados em números, o que é feito através da variável aleatória, que é uma re- gra de associação de um valor numérico a cada ponto do espaço amostral. A Variável 3 aleatória pode ser Discreta: se assume valores num conjunto enumerável, com certa probabilidade; Contínua: se seu conjunto de valores é qualquer intervalo dos números reais, o que seria um conjunto não enumerável. Definição 1.1. Função de probabilidade é a função que associa a cada valor assumido pela variável aleatória a probabilidade do evento corresponde, i.e., P (X = xi ) = P (Ai ), i = 1, . . . ,n. É importante verificar que para que haja uma distribuição de probabilidade de uma variável aleatória X é necessário que ∑n i=1 P (X = xi ) = 1. Definição 1.2. Seja X uma variável aleatória discreta, a esperança matemática é um número real. É também uma média aritmética ponderada, ou seja, E(X ) =∑ni=1 xi P (X = xi ). Definição 1.3. Seja X uma variável aleatória contínua. A função densidade de proba- bilidade (f.d.p.), f (x), é dada por P (a ≤ X ≤ b) = ∫ b a f (x)d x. É importante verificar que para que haja função densidade, é importante que f (x) ≥ 0 e ∫ ∞ −∞ f (x) = 1. Definição 1.4. Seja X uma variável aleatória contínua, a esperança matemática é dada por E(X ) = ∫ ∞−∞ x f (x)d x. Exemplo 1.6. Uma variável aleatória tem função de densidade de probabilidade dada por: f (x) = kx,0 < x < 1. (a) Obtenha o valor de k; (b) Obtenha P [0 ≤ X < 1/2]; (c) E(X ); (d) Obtenha P [X ≤ 1/2/1/3 ≤ X ≤ 1/2/]. resposta: 2;1/4;2/3;5/12 2 Distribuição Binomial Suponha que n experimentos independentes, ou ensaios, são executados, onde n é um número fixo, e que cada experimento resulta em sucesso (com probabilidade p) ou em fracasso (com probabilidade 1−p). O número total de sucessos, X , é uma variável ale- atória com parâmetros n e p, ou seja, X ∼B(n, p). Por exemplo, uma moeda é lançada 10 vezes e o número total de caras é contado (aqui ‘cara’ é o sucesso). A probabilidade que X = k, denotada por P (X = k), pode ser encontrada como: P (X = k) = ( n k ) pk (1−p)n−k . A média de um variável aleatória Binomial é np e a variância é np(1−p). 4 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Exemplo 2.1. Numa criação de coelhos, 40% são machos. Qual a probabilidade de que nasçam pelo menos 2 coelhos machos em um dia em que nasceram 20 coelhos? Note que X é o número coelhos machos, i.e., X : 0,1, . . . ,20, a probabilidade de sucesso, p, é 0.40. Portanto, P (X ≥ 2) = 1−P (X < 2) = 1− [P (X = 0)+P (X = 1)], em que P (X = 0) = ( 20 0 ) (0.40)0(0.60)(20−0) e P (X = 1) = ( 20 1 ) (0.40)1(0.60)(20−1). Portanto, P (X ≥ 2) = 1−P (X < 2) = 1− [0.00003+0.00049] = 0.99948. Observe que se 20 coelhos forem selecionados, é esperado que 8 deles seja macho, ou seja, E(X ) = 20×0.40. 5 3 Distribuição Normal Dizemos que a variável aleatória X segue distribuição normal com parâmetros µ e σ2, se sua função densidade é dada por: f (x) = 1p 2πσ2 exp− (x−µ)2 2σ2 ,−∞< x <∞ Notação: Usaremos a notação X ∼ N (µ,σ2) para indicar que X segue distribuição normal com parâmetros µ e σ2. Os parâmetros µ e σ2 representam a média e a variância, respectivamente, a va- riável aleatória X que segue distribuição normal. Assim quando indicamos que X ∼ N (µ,σ2), segue imediatamente que E(X ) =µ e Var(X ) =σ2. Considere: P (a É X É b) = ∫ b a 1p 2πσ2 exp− (x−µ)2 2σ2 d x Entretanto a integral acima só pode ser resolvida de modo aproximado e por métodos numéricos.Por essa razão as probabilidades para o modelo Normal são calculadas com o auxílio de tabelas. Utiliza-se uma transformação que conduz sempre ao cálculo de probabilidades com uma variável de parâmetros (0,1), i.e., média 0 e variância 1. Considere X ∼ N (µ,σ2) e defina uma nova variável Z = X−µσ . Pelas propriedades do valor esperado e da variância, segue que: E(Z ) = E ( X −µ σ ) = 1 σ [E(X )−µ] = 0 Var(Z ) = Var ( X −µ σ ) = 1 σ2 [Var(X )] = 1 Para determinar a probabilidade de X ∈ [a,b], faremos: P (a ≤ X ≤ b) = P (a −µ≤ X −µ≤ b −µ) = P ( a −µ σ ≤ X −µ σ ≤ b −µ σ ) = P ( a −µ σ ≤ Z ≤ b −µ σ ) Para tabelas que disponibilizam valores para P (0 ≤ Z ≤ z), z ≥ 0, devido a simetria, podemos calcular valores de probabilidades em outros intervalos. Note que a simetria também implica que a probabilidade de estar acima (ou abaixo) de zero é 0.5. 6 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Exemplo 3.1. A concentração de um poluente em água liberada por uma fábrica tem distribuição N (8,1.5). Qual a chance, de que num dado dia, a concentração do polu- ente exceda o limite regulatório de 10 ppm? A solução do problema resume-se em determinar a proporção da distribuição que está acima de 10 ppm, i.e., P (X > 10). Usando a estatística z temos: P (X > 10) = P ( Z > 10−8 1.5 ) = P (Z > 1.33) = 1−P (Z ≤ 1.33) = 0.09 Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do tempo. EXERCÍCIOS - LISTA 1 1. Uma variável aleatória tem função de densidade de probabilidade dada por: f (x) = kx,0 < x < 5. (a) Obtenha o valor de k; (b) Obtenha P [X < 2]; (c) Obtenha P [1,5 < X ≤ 3]; (d) Obtenha P [X ≥ 2,5]. resposta: 0.08; 0.16; 0.27; 0.75 2. A distribuição da altura de uma determinada planta segue distribuição normal com média 29.7 cm e desvio-padrão 2.7 cm. A probabilidade de uma planta apre- sentar altura: a) entre 29.7 e 32 cm; b) acima de 32 cm; c) entre 27 e 32 cm; d) entre 25 e 27 cm. 3. Considerando a distribuição normal padrão, obtenha as áreas abaixo: a) Qual a área entre 0 e 1.73? b) Qual a área entre -1.73 e 0? c) Qual a área acima de 1.73? d) Qual a área entre 1 e 3? e) Qual a área entre -1 e 1? 4. Os escores obtidos em um exame de proficiência se distribuem segundo a dis- tribuição normal com média 400 e desvio padrão 45. (a) qual a porcentagem de pessoas com escores acima de 370? (b) qual a porcentagem de pessoas com es- cores entre 380 e 430? (c) qual valor deve ter 30% dos escores acima dele? (d) mantendo-se o desvio padrão, qual deveria ser o escore médio para que 10% dos escores estejam acima de 500? Resposta: {0.7475; 0.4191; 423.6; 442.3} 7 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce 5. Suponha que 5% de uma população sofre de hipertensão e que, de entre estes, 75% ingerem bebidas alcoólicas. De entre os que não são hipertensos 50% in- gerem bebidas alcoólicas. Suponha que um indivíduo é escolhido ao acaso da população. (a) Calcule a probabilidade de o indivíduo escolhido ingerir bebi- das alcoólicas. (b) Sabendo que o indivíduo escolhido ingere bebidas alcoólicas, calcule a probabilidade de sofrer de hipertensão. Resposta: {0.5125; 0.0732} 6. O peso de um certo tipo de semente de soja (expresso como peso de 1000 se- mentes) possui média de 170g e desvio padrão de 12g . Tomando-se um lote de 1000 sementes calcule: (a) a probabilidade de que o peso esteja acima 150g ; (b) a probabilidade de que o peso esteja entre 170 e 180g ; (c) a probabilidade de que o peso esteja entre 165 e 180g ; (d) a probabilidade de que o peso esteja acima 190g ; (e) o valor cuja probabilidade de estar acima dele seja de 0,15; (f) Supondo o mesmo desvio padrão, qual deveria ser o peso médio tal que a probabilidade do lote estar abaixo de 150g fosse no máximo de 0.5%? Resposta: {: 0.9522; 0.2977; 0.4592; 0.0478; 182.4; 180.9} 7. A nota média em um exame é 74, e o desvio-padrão é 7. Se 12% da classe recebe nota A (maiores notas), e as notas são ajustadas para seguir uma distribuição normal, qual é o A mais baixo possível (valor inteiro) e o B mais alto possível (valor inteiro)? 8. Em janeiro de 2003 o trabalhador norte-americano passou em média 77 horas conectado à internet enquanto se encontrava no trabalho. Suponha que a média populacional é de 77 horas e que os tempos estejam normalmente distribuídos e que o desvio-padrão seja 20 horas. a) Qual é a probabilidade de um trabalhador escolhido aleatoriamente ter pas- sado menos de 50 horas conectados à internet? b) Qual a porcentagem de tra- balhadores passou mais de 100 horas conectados à internet? c) Uma pessoa é classificada como usuário intensivo se estiver entre os 20% que fazem mais uso. Quantas horas um trabalhador deve se manter conectado à internet para ser classificado como usuário intensivo? 9. Em uma pesquisa publicada em 2003 o hábito de assistir TV atingiu o tempo médio diário de 8,35 horas por espectador. Utilize a distribuição normal com desvio-padrão de 2,5 horas para responder às seguintes perguntas sobre o tempo diário assistindo TV. a) Qual a probabilidade de que um espectador assista TV durante 5 a 10 horas por dia? b) Por quantas horas um espectador deve assistir TV para estar entre os 3% que mais assistem TV dentre todos os espectadores? c) Qual é a probabilidade de que um telespectador assista TV por mais de 3 horas por dia? 8 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce 4 Questões/Motivação - Estatística Descritiva 1. O que é estatística? 2. Para que serve a estatística? 3. Onde podemos utilizar a estatística? 4. ...? Estatística é um conjunto de métodos usados para se analisar dados. A Estatística pode ser aplicada em praticamente todas as áreas do conhecimento humano. A pa- lavra ‘Estatística´ tem pelo menos três significados, a saber: coleção de informações numéricas ou dados; medidas resultantes de um conjunto de dados; métodos usados na coleta e interpretação de dados. 5 Tipos de dados • Dados qualitativos ou categóricos que podem ser: (a) nominais, por exemplo sexo; (b) ordinais, i.e. categorias ordenadas, tais como, salinidade: baixa, média, alta. • Dados quantitativos ou numéricos (a) discretos, i.e. contagens ou número intei- ros, por exemplo, número de ovos postos pela tartaruga marinha; (b) contínuos, i.e. medidas numa escala contínua, por exemplo, peso. 6 Medidas Média, variância e desvio padrão servem para resumir dados quantitativos. A média é dada por: x = ∑n i=1 xi n = (x1 + . . .+xn) n , em que x1, . . . , xn são os valores dos dados e n é o tamanho da amostra. A variância é definida como o ‘desvio quadrático médio’ da média e é calculada de uma amostra de dados através de S2 = ∑n i=1(xi −x)2 n −1 = ∑n i=1 x 2 i −nx2 n −1 , o desvio padrão é dado pela raiz quadrada da variância, i.e, s = p s2. O coeficiente de variação amostral (CV ) é definido como a razão do desvio padrão, s, pela média, 9 X . O coeficiente de variação é interpretado como a variabilidade dos dados em re- lação à média. Quanto menor o CV mais homogêneo é o conjunto de dados. Usual- mente expresso em porcentagem, indicando o percentual que o desvio padrão é menor (100%CV< 100%) ou maior (100%CV > 100%) do que a média. Exemplo 6.1. Sete homens foram pesados, e os resultados em kg foram: 57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6. A média, x, é 454.3/7 = 64.9 kg , a variância, S2, é (29635.05-7*4212.01)/6 = 25.16 kg 2, portanto, o desvio padrão é 5.02 kg e o coeficiente de variação é de aproximadamente 7.77%. Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou percen- til 50) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo. Eles são obtidos ordenando os dados do menor para o maior, e então conta-se o número apropriado de observações: ou seja, é (n +1)/4, (n +1)/2 e 3(n+1)/4 para o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de observações, a mediana é a média dos valores do meio (e analogamente para os quartis inferior e superior). A medida de de dispersão é a amplitude inter- quartis , IQR =Q3 −Q1, i.e., é a diferença entre o quartil superior e o inferior. Exemplo 6.2. O número de crianças em 19 famílias foi 0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10. A mediana é o décimo valor ((19+1) / 2), i.e., 3 crianças. O quartil infe- rior e superior são 2 e 6 crianças (a quinta e décima quinta criança, respectivamente), portanto amplitude inter-quartil é de 4 crianças. Note que 50% dos dados estão entre os quartis inferior e superior. Nem todos os conjuntos de dados são suficientemente balanceados para o cálculo da média ou mediana. Algumas vezes, especialmente para dados de contagem, um único valor domina a amostra. A medida de locação apropriada é então a moda, a qual é o valor que ocorre com maior frequência. A proporção da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de dispersão. 7 Histograma É o método mais comum de apresentação de dados numéricos. As áreas dos retân- gulos resultantes devem ser proporcionais à frequência. Algumas vezes é conveniente agregar classes de frequência nos extremos da distribuição de forma que os intervalos 10 tenham larguras diferentes. Cuidado ao fazer isso - um intervalo que é duas vezes a largura de um outro deve tem altura igual à metade de sua frequência (para preservar a área contida dentro do intervalo). Da mesma forma um intervalo que é três vezes a largura dos outros deve ter um terço da altura de sua frequência observada. No eixo horizontal do histograma temos os valores dos intervalos, e as frequências absolutas dos valores contidos nos intervalos são apresentadas no eixo vertical. Exemplo 7.1. 150 peixes mortos foram encontrados vítimas de contaminação do rio e seus comprimentos foram medidos em milímetros. As medidas foram expressas na forma de tabela de frequência Comprimento do peixe (mm) Frequência 100-109 7 110-119 16 120-129 19 130-139 31 140-149 41 150-159 23 160-169 10 170-179 3 Apresente o histograma referente aos dados dos peixes. 8 Box-plot Box-plots são simples representações diagramáticas dos cinco números sumários: (mí- nimo, quartil inferior, mediana, quartil superior, máximo). A linha central do retângulo representa a mediana da distribuição, as bordas supe- rior e inferior do retângulo representam o primeiro e terceiro quartil, respectivamente. A altura deste retângulo é a amplitude inter-quartis (IQR), i.e., é a diferença entre o quartil superior e o inferior. A maior parte das definições considera que pontos acima do valor do terceiro quartil somado a 1.5 vezes a IQR, ou seja, LS =Q3+1.5(Q3−Q1) ou os pontos abaixo do valor do primeiro quartil subtraído de 1.5 vezes a (IQR), ou seja, LI =Q1 −1.5(Q3 −Q1) são considerados outlier. Exemplo 8.1. Considere a varável i d ade que assume os seguintes valores: i d ade = (21,22,24,18,19,27,22,22,23,21,23,21). Apresente o box-plot. Resposta: > summary(Idade) Min. 1st Qu. Median Mean 3rd Qu. Max. 18.00 21.00 22.00 21.92 23.00 27.00 11 Portanto, temos que o primeiro quartil é 21 anos, isto quer dizer que pelo menos 25% dos indivíduos dessa amostra tem no máximo 21 anos. Dado que o segundo quartil é 22, temos que pelo menos 50% da amostra está acima de 22 e pelo menos 50% está abaixo de 22. Por fim, tem que pelo menos 75% da amostra tem no máximo 23 anos. O valor máximo da idade é 27, e o mínimo, 18. Os valores dos limites inferiores e superi- ores são 18 e 26, respectivamente. Há um outlier que é a idade igual 27. ● 18 20 22 24 26 Boxplot: Idade Exemplo 8.2. O conjunto de dados ‘cats’ do pacote MASS do R contém dados de gatos adultos, pesando mais de 2 kg. Vamos considerar as variáveis peso corporal (Bwt) e sexo (Sex) para construir o box-plot comparativo. > summary(cats$Bwt) Min. 1st Qu. Median Mean 3rd Qu. Max. 2.000 2.300 2.700 2.724 3.025 3.900 > table(cats$Sex) F M 47 97 12 F M 2. 0 2. 5 3. 0 3. 5 Boxplot Comparativo: Peso x Sexo EXERCÍCIOS - LISTA 2 1. O conjunto de dados studentdata do pacote LearnBayes do programa R contém os registros de 657 questionários aplicados à estudantes. Os dados a seguir mos- tra os 10 primeiros registros dos questionários. Est. Altura Sexo Sapatos Numero Dvds Dormiu Acordou Cabelo Trab. Bebida 1 1 67 female 10 5 10 -2.5 5.5 60 30.0 water 2 2 64 female 20 7 5 1.5 8.0 0 20.0 pop 3 3 61 female 12 2 6 -1.5 7.5 48 0.0 milk 4 4 61 female 3 6 40 2.0 8.5 10 0.0 water 5 5 70 male 4 5 6 0.0 9.0 15 17.5 pop 6 6 63 female NA 3 5 1.0 8.5 25 0.0 water 7 7 61 female 12 3 53 1.5 7.5 35 20.0 water 8 8 64 female 25 4 20 0.5 7.5 25 0.0 pop 9 9 66 female 30 3 40 -0.5 7.0 30 25.0 water 10 10 65 male 10 7 22 2.5 8.5 12 0.0 milk Est.: número do estudante Altura: altura em polegadas Sexo: sexo (masculino/feminino) Sapatos: número de pares de sapato que possui Numero: um número escolhido entre 0 e 10 13 DVDs: número de DVD's de filmes que possui Dormiu: hora que foi dormir na noite anterior (em relação à meia noite) Acordou: hora que acordou na manha seguinte Cabelo: custo do ultimo corte de cabelo Trab.: número de horas (semanais) de trabalho Bebida: bebida usual na janta (água, leite, suco/refrigerante) Classifique as variáveis apresentadas. 2. Os números abaixo mostram as notas de um grupo de alunos em duas avalia- ções: Aluno: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Prova A : 35 39 50 47 33 17 17 80 23 51 2 21 20 12 81 98 47 34 Prova B: 65 63 80 72 65 35 62 72 50 60 32 59 40 68 79 85 80 55 (a) Calcule média, variância e coeficiente de variação das notas em cada avalia- ção; (b) Calcule mediana, quantis, amplitude e amplitude interquartílica de cada ava- liação; (c) Faça box-plot para comparar as notas das duas avaliações; (d) Usando os resultados das medidas obtidas compare o rendimento dos alunos nas duas provas. 3. A distribuição de frequência apresentada a seguir é referente ao número de mi- nutos que 50 assinantes da internet gastaram durante a conexão. Considerando a distribuição de frequência, apresente: Tabela 1: Distribuição de frequência para o tempo de uso da internet (em minutos) Comprimento do peixe (mm) Frequência 7-18 6 19-30 10 31-42 13 43-54 8 55-66 5 67-78 6 79-90 2 a) frequência acumulada; b) frequência relativa; c) frequência acumulada rela- tiva; d) qual o intervalo que apresenta maior e menor frequência, respectiva- mente; e) Qual o percentual de assinantes que gastam mais do que 42 minutos na internet? f) Qual o percentual que utiliza mais do que 78 minutos? 14 9 Questões/Motivação - Inferência Estatística 1. O que é inferência estatística? 2. Para que serve a inferência estatística? 3. O que estimação pontual? 4. O que é estimação intervalar? 5. O que testede hipótese? A estimação pontual (por ponto) consistirá simplesmente em adotar a estimativa disponível como sendo o valor do parâmetro. A ideia é simples, contudo a qualidade dos resultados irá depender fundamentalmente da conveniente escolha do estimador. Assim, dentre os vários estimadores razoáveis que poderemos imaginar para um de- terminado parâmetro, devemos ter a preocupação de escolher aquele que melhor sa- tisfaça às propriedades de um bom estimador. A principal restrição da estimação pontual é que quando estimamos um parâmetro através de um único valor numérico toda a informação presente nos dados é resumida através deste número. É importante encontrar também um intervalo de valores plau- síveis para o parâmetro. A ideia é construir um intervalo em torno da estimativa pon- tual de modo que ele tenha uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. Tipicamente as distribuições amostrais de estimadores dos parâmetros desconhecidos serão utilizadas. 10 Inferência estatística - alguns conceitos Inferência estatística é o processo pelo qual extraímos conclusões acerca da popula- ção usando informação de uma amostra. A população se refere a todos os casos ou situações as quais o pesquisador quer fazer inferências ou estimativas. Uma amostra é um subconjunto da população usado para obter informação acerca do todo. Pergunta: Mas exatamente por quê tomamos uma amostra? (a) custo alto para obter informação da população toda; (b) tempo muito longo para obter informação da po- pulação toda; (c) algumas vezes impossível, por exemplo, estudo de poluição atmosfé- rica. Características de uma população que diferem de um indivíduo para outro e as quais temos interesse em estudar são chamadas variáveis, por exemplo, comprimento, idade, temperatura, entre outros. 15 Ivanildo Marinho N Realce Utilizamos estimativas de uma amostra como nosso ‘chute’ para os verdadeiros va- lores populacionais. Exemplos: a média amostral e o desvio padrão amostral que esti- mam a verdadeira média e o desvio padrão da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados parâmetros. 11 Teorema Central do Limite É um resultado estatístico fundamental em aplicações práticas, pois este teorema ga- rante que mesmo que os dados não sejam distribuídos conforme uma distribuição normal, a média dos dados converge para a distribuição normal conforme o número de dados aumenta. Para amostras grandes, a distribuição amostral da média pode ser aproximada pela distribuição normal. Ou seja, considere uma amostra aleatória simples de tamanho n retirada de uma população com média µ e variânciaσ2 (note que o modelo da variável aleatória não é apresentado). Representando tal amostra por n variáveis aleatórias independentes X1, · · · , Xn , e denotando sua média por X , temos pelo teorema central do limite, que quando n for grande, a variável Z dada por X −µ σ/ p n tem distribuição aproximadamente normal com média 0 e variância 1 (N(0,1)). Exemplo 11.1. Os camarões macho da espécie A, para serem considerados adultos, devem apresentar um comprimento total maior ou igual a 22 mm. Suponha que numa população de camarões machos adultos a média dos comprimentos seja igual a µ = 27,3 e desvio padrãoσ= 7,8. Pergunta-se: Qual a probabilidade de que numa amostra de n = 35 camarões, obtenhamos uma média de X < 22. 12 Distribuição amostral da média Estender a noção de uma distribuição amostral a situações em que amostramos de uma distribuição normal. Considere X1, · · · , Xn uma amostra aleatória de uma distri- buição normal com média µ e desvio padrão σ. Suponha que estamos interessados em estimar quantas horas adicionais de sono são garantidas a um indivíduo após ingerir uma determinada droga. Além disso, su- ponha que a droga é testada em 20 indivíduos de modo que a média amostral X = 0,8 horas. Porém, se o estudo for repetido com outros 20 participantes podemos ter outros resultados para a média amostral. Por exemplo, podemos ter X = 1,3. E, repetindo o estudo novamente, poderíamos ter X = 0,2. Em termos estatísticos, haverá variação entre as médias amostrais. 16 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Este problema poderia ser resolvido se repetíssemos o estudo muitas vezes, po- rém isto é inviável. Quando as observações são amostradas aleatoriamente de uma distribuição normal, a média amostral também tem uma distribuição normal. Isto é, quando n observações são amostradas aleatoriamente de uma distribuição normal com média µ e variância σ2, a média amostral tem distribuição normal com média µ e variância σ2/n. Para amostras casuais simples X1, . . . , Xn retiradas de uma população com média µ e variância σ2, a distribuição amostral da média X se aproxima de uma distribuição normal com média µ e variância σ2/n, quando n tende a infinito. Desta forma: ? E(X ) =µ e Var(X ) =σ2/n. ? Se X ∼ N(µ,σ2) ⇒ X ∼ N(µ,σ2/n) Exemplo 12.1. Seja X ∼N (100,100). Seja X a média de uma amostra de 16 elementos retirados desta população, calcule P (90 < X < 110). Exemplo 12.2. Uma industria elétrica fabrica lâmpadas que têm vida útil distribuída aproximadamente normal, com média igual a 800h e desvio-padrão de 40 horas. De- termine a probabilidade de que uma amostra aleatória de 16 lâmpadas apresente vida útil menor do que 775 horas. Exemplo 12.3. Um importante processo industrial produz componente cilíndricos para a industria automotiva. É importante que o processo produza peças que tenham uma média de 5 milímetros. O engenheiro envolvido supõe que a média da população é de 5 milímetros. Um experimento é conduzido, no qual 100 peças produzidas pelo processo são selecionadas aleatoriamente e têm seu diâmetro medido. Sabe-se que o diâmetro médio da amostra é de X = 5,027 milímetros. A informação da amostra parece apoiar ou não a suposição do engenheiro? Suponha que temos duas populações diferentes, a primeira com médiaµ1 e variân- cia σ21, e a segunda com média µ2 e variância σ 2 2. Considere as médias amostrais, X 1 e X 2 de tamanho n1 e n2, respectivamente. Em grandes amostras, X 1 ∼N (µ1,σ1/pn1) e X 2 ∼N (µ2,σ2/pn2), portanto, X 1 −X 2 ∼N (µ1 −µ2,σ1/pn1 +σ2/pn2). Exemplo 12.4. Os tubos de imagem de aparelhos de televisão fabricados pela indus- tria A tem vida útil de 6,5 anos e desvio-padrão de 0,9 ano, enquanto aqueles fabricados pela industria B têm vida útil de 6 anos e desvio-padrão de 0,8 ano. Qual é a probabili- dade de que uma amostra aleatória de 36 tubos do fabricante A tenha vida útil média de pelo menos uma ano a mais do que a vida útil média de uma amostra de 49 tubos do fabricante B? Considere as seguintes informações: µ1 = 6,5;σ1 = 0,9;n1 = 36;µ2 = 6,0;σ2 = 0,8;n2 = 49 17 13 Distribuição amostral da proporção A noção de uma distribuição amostral é talvez mais fácil de explicar e ilustrar quando trabalhamos com a distribuição binomial. Para exemplificar, suponha que queremos determinar a proporção de adultos com idade superior aos 40 que sofrem de artrite. Logo, podemos definir uma variável aleatória X da seguinte maneira X = 1,se o indivíduo é portador de artrite X = 0,se o indivíduo não é portador de artrite logo, temos que X é uma variável discreta, com distribuição de Bernoulli tal que µ= E(X ) = p, σ2 =V ar (X ) = p(1−p). Retirada uma amostra aleatória X1, X2, ..., Xn sem reposição de tamanho n dessa população, e indicando por Yn o total de indivíduos portadores de artrite nessa amos- tra, sabemos que Yn ∼B(n, p), ou seja, P (Yn = k) = ( n k ) pk (1−p)n−k . Vamos definir por p̂ a proporção de indivíduos portadores de artrite, ou seja, p̂ = Yn n . A distribuição amostral de p̂ é obtida da distribuição de Yn . Observamos que Yn = X1 +X2 + . . .+Xn , em que cada Xi tem distribuição de Bernoulli com média µ= p e variância σ2 = p(1− p) com p desconhecido. Desta forma, podemos escrever que Yn = n∑ i=1 Xi = n n∑ i=1 Xi n = nX Pelo Teorema Central do Limite, X terá distribuição aproximadamente normal,com média p e variância p(1−p)/n, ou seja, X ∼ N ( p, p(1−p)n ) . Logo, a transformação Yn = nX terá a distribuição Yn ∼ N (np,np(1−p)). Podemos observar que X , na expressão acima, é a própria variável p̂ e, desse modo, para n grande podemos considerar a distribuição amostral de p como aproximada- mente normal 18 p̂ ∼N ( p, p(1−p) n ) Exemplo: Suponha que queremos saber a porcentagem de casamentos que terminam em divórcio entre casais que vivem em João Pessoa. Como não temos recursos sufi- cientes para checar todos os arquivos, vamos estimar esta porcentagem baseados em alguns dados disponíveis. Suponha que temos dados sobre 10 casais: X1 = 1, X2 = 0, X3 = 0, X4 = 0, X5 = 1, X6 = 0, X7 = 0, X8 = 0, X9 = 0, X10 = 1. Isto é, o primeiro casal se divorciou, os próximos três não se divorciaram, o quinto casal se divorciou e assim por diante. O número de divórcios entre estes casais é 10∑ i=1 Xi = 1+0+0+0+1+0+0+0+0+1 = 3, A probabilidade estimada de um divórcio é p̂ = 3 10 = 0,3. Note que para a distribuição binomial, se sabemos a real probabilidade de divórcio, p, poderíamos calcular a probabilidade de termos p̂ = 0,3 baseados em uma amostra de tamanho 10. Quando n = 10, esta é justamente a probabilidade de observamos 3 divórcios, ou seja, P (X = 3) = ( 10 3 ) p3(1−p)7. Se, por exemplo, p = 0,4, então P (X = 3) = 0,215. Isto é, a probabilidade de tomarmos p̂ = 0,3 é 0,215. Suponha que a taxa de divórcio de uma população é p = 0,3. Imagine agora 1000 equipes de pesquisadores e suponha que cada equipe estima a taxa de divórcio base- ada em dados de 10 casais. Neste caso, diferentes equipes de pesquisadores consegui- rão resultados diferentes. Por exemplo, a primeira equipe consegue p̂ = 0,5, a segunda equipe consegue p̂ = 0,1, e assim por diante. A distribuição amostral de p̂ se refere a distribuição dos valores de p̂ que as equipes de pesquisadores conseguiriam ao con- duzir o mesmo estudo. Exemplo 13.1. Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se 8 peças, com reposição, e calcula-se a proporção de peças defeituosas na amostra. Qual será a distribuição de p̂? 19 14 Nível de confiança, precisão, tamanho da amostra e Intervalo de Confiança A pesquisa com adolescentes na volta às aulas em 1998 incluiu a afirmação: margem de erro ±3.1%. A maioria das pesquisas é acompanhada por alguma afirmação se- melhante. Além de margem de erro, podemos encontrar também: erro amostral, erro máximo da pesquisa, erro estatístico, entre outros. Tecnicamente a margem de erro é o termo adicionado e subtraído do estimador para formar um intervalo de confiança. Por exemplo, usando um nível de confiança de 95%, a margem de erro para proporção p̂, assim, margem é igual 1,96 √ p̂(1− p̂)/n. De forma geral, podemos escrever do valor do erro amostral máximo como: emax = Zt ab σp n Diferentes pesquisadores, selecionando amostras de uma mesma população, po- derão obter estimativas obter estimativas pontuais diferentes para o mesmo parâme- tro populacional. Isto está relacionado com o que denominamos de variabilidade amostral do estimador pontual. Uma forma mais apropriada seria construir um es- timador que levasse em consideração essa variabilidade. Este seria o estimador por intervalo que combina o estimador pontual com o erro amostral máximo esperado. Os limites inferir (LI) e o superior (LS) de um intervalo de confiança para um parâ- metro θ é dado por: LI = θ̂−emax e LS = θ̂+emax. Podemos estar nos perguntando: Por que seguir um nível de confiança de 95% quando de pode chegar a um nível de 99%? Porque o ‘preço pago’ pelo nível de con- fiança maior é um intervalo mais largo. Em virtude do intervalo de 95% estender-se 1,96σ/ p n a cada lado de X , a amplitude do intervalo é 2(1,96)σ/ p n = 3,92σ/pn. De maneira semelhante, a amplitude do intervalo de confiança de 99% é 2(2,58)σ/ p n = 5,16σ/ p n. Isto é, teremos mais confiança no intervalo de 99% exatamente porque ele é mais largo. Assim quanto maior o grau de confiança desejado, mais largo é o intervalo resultante. Se imaginarmos a amplitude do intervalo como a especificação de sua precisão ou acurácia, então o nível de confiança estará inversamente relacionado a sua precisão. Dessa forma, não podemos dizer que o intervalo de 99% será preferível a um intervalo de 95% porque o ganho na confiabilidade exige perda na precisão. 14.1 Intervalo de confiança para média populacional Aqui precisamos considerar dois casos: 1. Desvio padrão da população é conhecido (usar tabela da normal); 20 Ivanildo Marinho N Realce 2. Desvio padrão da população não é conhecido (usar tabela da distribuição t ). Consideremos uma amostra aleatória simples X1, ..., Xn obtida de uma população com distribuição Normal, com média µ e variância σ2 conhecida. Desta forma, a dis- tribuição amostral da média também é Normal com média µ e variância σ2, ou seja X ∼ N ( µ, σ2 n ) . Assim, temos que Z = X −µσp n ∼ N (0,1), isto é, a variável Z tem distribuição Normal padronizada. Consideremos que a probabilidade da variável Z tomar valores entre −Zα/2 e Zα/2 é 1−α. Então, temos que P [−Zα/2 ≤ Z ≤ Zα/2] = (1−α) ou seja, P [ −Zα/2 ≤ X −µσp n ≤ Zα/2 ] = (1−α) o que implica que P [ X −Zα/2 σp n ≤µ≤ X +Zα/2 σp n ] = 1−α. Com isso, o intervalo de confiança da média com desvio-padrão conhecido é dado por IC (µ,1−α) = ( X −Zα/2 σp n ; X +Zα/2 σp n ) . Exemplo 14.1. A distribuição dos pesos de pacotes de sementes de milho, enchidos automaticamente por uma certa máquina, é normal com desvio padrão, σ, conhecido e igual a 0,20kg. Uma amostra de 15 pacotes retirada ao acaso apresentou os seguintes pesos, em kg: 20,05;20,10;20,25;19,78;19,69;19,90;20,20;19,89;19,70;20,30;19,93; 20,25;20,18;20,01;20,09. Construir os intervalos de confiança de 95% e 99% para o peso médio dos pacotes de sementes de milho. Exemplo 14.2. Uma amostra aleatória simples de 50 itens de uma população com desvio-padrão populacional igual a 6, resultou em uma média amostral igual a 32. Apresente o intervalo de confiança de 90%, 95% e 99% para média populacional. 21 Exemplo 14.3. Sabe-se que o intercalo de confiança de 95% para uma média popu- lacional é de 152 a 160. Se σ = 15, qual o tamanho amostral que foi utilizado nesse estudo? Em muitas situações quando desenvolvemos a estimativa intervalar de uma média populacional, geralmente não temos boa estimativa do desvio padrão populacional. Nesses casos, nós precisamos usar a mesma amostra para estimar µ e σ. Essa situação representa o caso de σ desconhecido. Quando o desvio padrão amostral, s, é utilizado para obter a margem de erro e a estimativa intervalar da média populacional se baseia em uma distribuição de probabilidade conhecida por distribuição t que depende do parâmetro conhecido como graus de liberdade. À medida que o número de graus de li- berdade aumenta, a diferença entre a distribuição t e normal se torna cada vez menor. O intervalo de confiança da média com desvio-padrão desconhecido é dado por: IC (µ,1−α) = ( X − tα/2 sp n ; X + tα/2 sp n ) , em que s é o desvio-padrão amostral dado por s = √∑n i=1(Xi−X )2 n−1 , (1−α) é o coeficiente de confiança, tα/2 é o valor t que produz uma área igual a α/2 na cauda superior da distribuição t , com n −1 graus de liberdade. Exemplo 14.4. Uma amostra do tempo de treinamento, em dias, de 20 funcionários da empresa A foi selecionada, a saber: 52, 59, 54, 42, 44, 50, 42, 48, 55, 54, 60, 55, 44, 62, 62, 57, 45, 46, 43, 56. Apresente a estimativa pontual da média amostral, a margem de erro e a estimativa intervalar para média ao nível de 95% de confiança. Exemplo 14.5. Encontre os valores t para os seguintes casos: a) Área da cauda superior igual a 0,025 com 12 graus de liberdade; b) Área da cauda inferior igual a 0,05 com 50 graus de liberdade; c) Área da cauda superior igual a 0,01 com 30 graus de liberdade. Exemplo 14.6. Uma amostra aleatória simples com n = 54 produziu a média amostral igual a 22,5 e o desvio padrão amostral igual a 4,4. Apresente ointervalo de confiança de 90%, 95% e 99% para média amostral. O que ocorre com a margem de erro e o intervalo de confiança quando o grau de confiança é aumentado? Se X 1 e X 2 são médias de amostras aleatórias independentes de tamanho n1 e n2 de populações com variâncias conhecidas σ21 e σ 2 2, respectivamente, o intervalo de confiança de 100(1−α)% para µ1 −µ2 é dado por: IC (µ1 −µ2,1−α) = (X 1 −X 2)− zα/2 √ σ21 n1 + σ 2 2 n2 ; (X 1 −X 2)+ zα/2 √ σ21 n1 + σ 2 2 n2 , 22 Ivanildo Marinho N Realce 14.2 Intervalo de confiança da proporção O parâmetro de p é a proporção de todos os indivíduos na população com a caracte- rística de interesse. A estimativa de p é a proporção amostral p̂, a proporção de in- divíduos incluídos na pesquisa com aquela característica. Quando n é grande, temos que a distribuição de p̂−pp p(1−p)/n é aproximadamente N (0,1). Portanto, o intervalo de confiança para proporção é dado por p̂ ± ztabep(p̂), em que ep = zα/2 √ p̂(1− p̂)/n. Exemplo 14.7. Suponha que queremos estimar a proporção da população portadora de hepatite B, usando uma amostra aleatória dessa população. Queremos que o ta- manho da amostra seja grande o suficiente, de modo que a margem de erro de nossa estimativa seja aceitável, digamos, não maior do que 3%. Lembrem-se: sabemos que o intervalo de confiança da proporção é dado por: p̂ ± ztabep(p̂). Portanto, queremos que ztabep(p̂) < 0,03. Note que não temos informações sobre p̂. Neste caso é razoável fazermos p̂ = 0.5. Então, considerando os dados da questão, temos: O tamanho mínimo da amostra é aproximadamente 1067 ((1,96/0,03)2x0,5x0,5). Pergunta: O que você achou o valor do tamanho amostral encontrado? Grande? Nota: O uso de p = 0.5 é uma ‘é uma adivinhação segura’ que garante que uma margem de erro não maior do que o emax. Se você soubesse que a verdadeira proporção está próxima de 0 ou 1, usar p = 0.5 lhe conduzirá a tomar uma amostra muito maior (mais cara) do que o estritamente necessário. Exemplo 14.8. Considerando os dados da questão anterior, obtenha o tamanho amos- tral necessário quando: a) p = 0,3; n ∼= 896 b) p = 0,9 n ∼= 384. Exemplo 14.9. Uma amostra aleatória simples de 400 pessoas apresentou 100 res- postas ‘SIM’. Qual a estimativa pontual da proporção da população populacional que apresentou resposta ‘SIM’? Qual a estimativa do desvio padrão da população? Apre- sente a estimativa intervalar para populacional ao nível de confiança de 95%? EXERCÍCIOS - LISTA 2 1. Uma a.a. de tamanho n = 100 observações é selecionada a partir de uma popu- lação com média igual a 30 e desvio padrão igual a 16. Apresente as seguintes probabilidades: a) P (X ≥ 28) (0.8944) 23 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce b) P (22.1 ≤ X ≤ 26.8) (0.0228) c) P (X ≤ 28.2) (0.1292) d) P (X ≥ 27) (0.9699) 2. Um fabricante de baterias de automóveis alega que a distribuição de vida útil das baterias tem média de 54 meses e do desvio-padrão de 6 meses. Recentemente, o fabricante recebeu muitas reclamações de clientes insatisfeitos cujas baterias pararam de funcionar antes do esperado. Suponha que o grupo de consumidores decida checar a alegação do fabricante comparando uma amostra de 50 dessas baterias e sujeitando-as a testes para determinar sua vida útil. a) Presumindo que a alegação do fabricante seja verdadeira, descreva a distribui- ção amostral da média de vida útil da amostra de 50 baterias. (N (54,0.72)) b) Presumindo que a alegação do fabricante seja verdadeira, qual a probabili- dade que a amostra do grupo de consumidores tenha uma média de 52 ou menos meses? (0.0094) 3. Em um teste de matemática os estudantes tiveram um média de mudanças na pontuação de +19 pontos, com desvio-padrão de 65 pontos. Em uma amostra aleatória de 100 alunos que pagam um tutor particular para melhorar suas notas, qual a probabilidade de que a mudança na pontuação média seja menor que 10 pontos? (0.0838) 4. Uma candidata politica recebeu 60% dos votos na ultima eleição. Ela agora quer avaliar a opinião publica sobre várias questões e quer para isto, extrair uma amos- tra aleatória de n eleitores. Umas das questões que ela levantará é se eles votaram nela na última eleição. a) Qual é a distribuição amostral aproximada da proporção de eleitores na amos- tra que votam nessa candidata? Resposta: p̂ ∼N (0,60;0,60.0,40/n) b) Se n = 200, qual é a probabilidade de se obter uma amostra na qual pelo me- nos 50% votaram nela? Resposta: 0,9977 5. Um importador japonês acabou de fazer um pedido de compra de mexilhões, cujos pesos têm média 100g e um desvio padrão de 15g. Os mexilhões são aco- modados em caixa de 50 para serem fretados para o Japão. Cada caixa será pe- sada na chegada e rejeitada se o peso médio dos mexilhões na caixa for inferior a 97g. Que percentagem de caixa seria rejeitada? Resposta: 0,9207 6. Os tempos de atendimento de fregueses no caixa de um supermercado são va- riáveis aleatórias independentes com valor esperado de 3,1 minutos e desvio pa- drão de 1,2 minuto. Uma amostra de 50 fregueses é selecionada. Qual é a proba- 24 bilidade de que o tempo médio de serviço para estes 50 fregueses seja inferior a 3,3 minutos? Resposta: 0,8810 7. A probabilidade de um paciente se recuperar de uma delicada operação cardíaca é de 0,9. Dos próximo 100 pacientes operados, qual é a probabilidade de que: a) entre 84 e 95, inclusive, sobrevivam? Resposta: 0,9297 b) pelo menos 86 sobrevivam? Resposta:0,0917 8. Um processo de encher garrafas de vinho fornece 10% de garrafas com volume abaixo do especificado. Extraída uma amostra de 400 garrafas enchidas por esse processo, qual a probabilidade de que a proporção amostral de garrafas com vo- lume abaixo do especificado estar entre 0.09 e 0.11? Resposta: 0.4972 9. Sabe-se que num processo de industrialização de pêssegos em latas, a probabi- lidade de apresentar peso drenado fora dos padrões é 0.05. Qual a probabilidade de, em uma amostra de 500 latas, apresentarem-se fora dos padrões: a) 6% ou mais das latas? Resposta: 0.1515 b) 4% ou menos das latas? Resposta: 0.1515 10. Camarões machos para serem considerados adultos, devem apresentar um com- primento total maior ou igual a 22 mm. Suponha que numa população de ca- marões machos adultos a média dos comprimentos seja igual a 3 mm e desvio padrão 7.8 mm. Pergunta-se: a) Qual a probabilidade de que numa amostra de n = 35 camarões, obtenhamos uma média menor que 22 mm? Resposta: 0.00003 b) Qual deve ser o valor da média do comprimento total, µ, tal que P (X̄ ≥ 22) = 0.05 ? Resposta: 24.2 mm 11. Um grande lote de frangos vem sendo tratado com uma determinada ração. Sa- bendo que o desvio padrão de ganho de peso no período de um mês é de 2 Kg, qual a probabilidade de que a média de uma amostra aleatória de 25 desses fran- gos, difira da média de todo o lote em 0.5 Kg ou mais, i.e., P (|X̄ −µ| ≤ 0.5) Resposta: 0.2112 mm 12. Cerca de 75% de todos os pacientes que têm corações femininos transplantados vão sobreviver no mínimo três anos. Noventa pacientes com corações femininos transplantados são escolhidos aleatoriamente. Qual é a probabilidade de que a proporção de amostra para sobrevivência por no minimo três anos seja menor que 70%? Resposta: 0.1357 13. Foram escolhidos ao acaso 500 animais (bovinos) de uma região para estimar a proporção de com propensão à uma certa doença. Destes, 120 testaram positivo. (a) Obtenha a estimativa pontual do percentual de susceptíveis na população. 25 (b) Obtenha a estimativa intervalar (com confiança de 95%) do percentual de susceptíveis na população. (c) Repita o item anterior considerando a confiança de 80%. (d) Para obter uma margem de erro de 1,5% para 95% de confian ça. Quantos animais adicionais devem ser selecionados e testados? resposta: 0,24; (0,203;0,277); (0,216;0,264); 3115 14. Qual o tamanho amostral deve ser selecionado para produzir um intervalo de confiança de 95% com a margem de erro igual a 10? Suponha que o desvio- padrão populacional seja de 40. resposta:15. Qual o tamanho amostral deve ser selecionado para produzir um intervalo de confiança de 95% com a margem de erro igual a 10? Suponha que o desvio- padrão populacional seja de 40. resposta: 16. Considerando o desvio-padrão populacional igual a 4, qual o tamanho amostral fornece uma margem de erro igual a 3 se o nível de confiança for de 95%? Qual seria o tamanho da amostra se a margem de erro for igual a 2? O que você pode concluir? resposta: 35; 78 17. O custo médio e um galão de álcool na região A foi relatado como sendo 2,41 reais. Durante o período que os preços se modificam rapidamente, o jornal uma amostragem nos postos de gasolina e prepara relatórios sobre os preços de galão de álcool. Suponha que o desvio-padrão seja de 0,15 centavos de reais, reco- mende o tamanho amostral amostral para o jornal utilizar, caso deseje relatar uma margem de erro com confiança de 95%. a) Suponha que a margem de erro seja de 0,07; b) Suponha que a margem de erro seja de 0,05 e c) Suponha que a margem de erro seja de 0,03. resposta: 18;35;97 18. Uma empresa de consultoria conduziu um estudo por telefone envolvendo 2000 adultos com a finalidade de saber sobre as principais preocupações econômicas relacionadas ao futuro. Dos adultos entrevistados, 1760 acreditam que o futuro equilíbrio do Seguro Social é uma importante preocupação econômica. Apre- sente o intervalo de confiança de 90% e 95% para proporção de adultos que acre- ditam que o futuro equilíbrio do Seguro Social é uma importante preocupação econômica. O que você pode concluir sobre a margem de erro considerando os níveis de confiança de 90% e 95%? resposta: [0,88±0,0120]; [0,88±0,0142]. 19. A porcentagem de pessoas que não tinham cobertura de seguro saúde em 2003 era de 15,6%. Um comitê do Congresso foi encarregado de realizar uma pesquisa para obter informações mais atuais. Qual o tamanho amostral você recomenda se o objetivo do comitê for obter a estimativa da proporção atual de indivíduos que de indivíduos que não têm seguro saúde com a margem de erro de 0,03, considere os níveis de confiança de 95% e 99%? resposta: 562; 971. 26 20. Uma pesquisa realizada com 369 pais trabalhadores, revelou que 200 deles dis- seram dedicar pouquíssimo tempo aos filhos em razão dos compromissos de trabalho. Qual a estimativa pontual da proporção populacional de pais traba- lhadores que afirmam se dedicar pouco tempo aos filhos? Qual a margem de erro e a estimativa intervalar ao nível de confiança de 95%? resposta: 0,5420; 0,0508, [0,4912;0,5928]. 21. Ao entrevistar 49 membros de uma categoria profissional, um pesquisador en- controu um salário médio de R$820,00. O desvio padrão dos salários dessa ca- tegoria é de R$140,00. Construa o intervalo de confiança para média. Adote a confiança de 80% e de 90%. O que você pode observar nos dois intervalos cons- truídos? Qual o tamanho amostral necessário para que mantidos os 90% de con- fiança, a margem de erro seja de no máximo 20? Resposta: [794,4; 845,6]; [787,1;852,9]; 133 22. Uma amostra aleatória de 100 proprietários de automóveis mostra que, no Es- tado da Virgínia, im automóvel é dirigido a uma média de 23500 quilômetros por ano, com desvio-padrão de 3900 quilômetros. Assuma a distribuição das medi- das como sendo aproximadamente normal. a) Construa um intervalo de confiança de 99% para o número médio de quilô- metros que um automóvel percorre anualmente no Estado da Virgínia. Resposta: [22497,7;24502,3] b) O que podemos afirmar com 99% de confiança sobre o tamanho possível de nosso erro se estimarmos o número médio de quilômetros percorridos pelos proprietários de automóveis como sendo 23500 quilômetros por ano? Resposta: 1002,3 23. Uma amostra aleatória de 200 eleitores é selecionada e 114 apoiam um processo de anexação. Determine o intervalo de confiança de 96% para fração da popu- lação de eleitores que votam a favor do processo. Resposta: [0,498; 0,641] O que podemos afirmar com 96% de confiança sobre o possível tamanho do erro se es- timarmos a fração de eleitores a favor anexação como sendo 0,57? Resposta: 0,007 24. Assuma que a porosidade do hélio (em porcentagem) das amostras de carvão tiradas de qualquer junta específica seja normalmente distribuída com desvio padrão igual a 0,75. a) Calcule o IC de 95% da porosidade média real de uma junta, caso a porosidade média de 20 especie seja 4,85. Resposta: (4,52;5,18) b) Calcule o IC de 98% da porosidade média real de outra junta com base 16 especies com média amostral de porosidade de 4,56. Resposta: (4,12;5,00) c) Que tamanho de amostra é necessário para estimar a porosidade média real dentro de 0,2 com confiança de 99%? Resposta: 93 27 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce 25. Em certo lago, uma amostra aleatória de 1000 peixes acusou 290 tilápias. Cons- trua um intervalo de 95% de confiança para a verdadeira proporção de tilápias na população piscosa do lago. Interprete o intervalo de confiança. Adote a con- fiança de 95% Resposta: [0,26; 0,32]. 26. Em uma pesquisa publicada relatou que em n = 48 tentativas em um laborató- rio específico, 16 resultaram em ignição de um tipo específico de substrato por um cigarro aceso. Seja p a proporção no longo prazo de todas as tentativas que resultariam em ignição. Qual a estimativa da proporção? Qual o intervalo de confiança de p com nível de confiança de 95%? Resposta: 0,333; [0,20; 0,47]. 28 Ivanildo Marinho N Realce 7 Estatística Aplicada Larson Farber Teste de hipóteses Seção 7.1 Uma hipótese estatística é uma alegação sobre uma população. A hipótese alternativa Ha contém uma afirmativa de desigualdade, tal como < , ou >. A hipótese nula H0 contém uma alternativa de igualdade, tal como , = ou . Afirmativas complementares Se eu sou verdadeiro, você é falso. Se eu sou falso, você é verdadeiro. Uma revista de consumidores alega que a proporção das chamadas telefônicas via celular feitas durante as tardes e os fins de semana é de no máximo 60%. Estabeleça uma alegação sobre a população. Em seguida, estabeleça seu complemento. Cada hipótese, tanto a nula quanto a alternativa, pode representar a alegação. Um hospital alega que o tempo de resposta de sua ambulância é inferior a dez minutos. Estabelecendo hipóteses (alegação) (alegação) H0 Ha H0 Ha 0,60 0,60 min min Antes de mais nada, admita que a condição de igualdade na hipótese nula é verdadeira. Não importa se a alegação está representada pela hipótese nula ou pela alternativa. Estratégia para o teste de hipóteses Colha os dados de uma amostra aleatória, retirada da população, e calcule as estatísticas amostrais cabíveis. Se a estatística amostral tiver baixa probabilidade de ser extraída de uma população na qual a hipótese nula seja verdadeira, você rejeitará H0. (Em conseqüência, você aceitará a hipótese alternativa.) Se a probabilidade não for baixa o bastante, você não poderá rejeitar H0. Erro do tipo I: A hipótese nula é realmente verdadeira, mas optou-se por rejeitá-la. Nível de significância, Probabilidade máxima de se cometer um erro do tipo I. Verdade real de H0 Erros e nível de significância H0 verdadeira H0 falsa Não rejeitar H0 Rejeitar H0 Decisão correta Decisão correta Erro do tipo II Erro do tipo I Teste monocaudal direito Teste bicaudal Teste monocaudal esquerdo Tipos de teste de hipóteses Ha é mais provável. Ha é mais provável. Ha é mais provável. Ha Ha valor valor valorHa O valor P é a probabilidade de se obter uma estatística amostral com um valor tão ou mais extremo que o determinado pelos dados da amostra. Se z é negativo, P é o dobro da área da cauda esquerda. Se z é positivo, P é o dobro da área da cauda direita. Valores P Valor P = área indicada z z zz Área na cauda esquerda. Área na cauda direita. Em um teste monocaudal esquerdo. Em umteste monocaudal direito. Em um teste bicaudal. Determinando valores P: teste monocaudal A estatística teste para um teste monocaudal direito é z = 1,56. Determine o valor P. A área à direita de z = 1,56 é 1 0,9406 = 0,0594. Logo, o valor P é 0,0594. z = 1,56 Área na cauda direita. A estatística teste para um teste bicaudal é z = 2,63. Determine o correspondente valor P. A área à esquerda de z = 2,63 é 0,0043. O valor P é 2(0,0043) = 0,0086. Determinando valores P: teste bicaudal z = 2,63 Decisões baseadas no valor P Após comparar o valor P ao valor de , o nível de significância do teste, podemos decidir se há evidência suficiente para rejeitar a hipótese nula. Se , não rejeite a hipótese nula. Se , rejeite a hipótese nula.P P O valor P de um teste de hipóteses é 0,0749. Tome sua decisão a um nível de significância de 0,05. Compare o valor P a . Como 0,0749 > 0,05, não rejeite H0. Se P = 0,0246, qual será sua decisão se: 1) Como , rejeite H0. 2) Como 0,0246 > 0,01, não rejeite H0. Usando os valores P 0,05 0,01 0,05,0,0246 Há evidência suficiente para rejeitar a alegação. Alegação Interpretando a decisão A alegação é H0 A alegação é Ha Rejeite H0 Não rejeite H0 Não há evidência suficiente para rejeitar a alegação. Há evidência suficiente para aceitar a alegação. Não há evidência suficiente para aceitar a alegação. 1. Estabeleça as hipóteses alternativa e nula. 2. Estabeleça o nível de significância. 3. Identifique a distribuição amostral. Escreva H0 e Ha como afirmativas matemáticas. Lembre que H0 sempre contém o símbolo =. Ele representa a probabilidade máxima de se rejeitar a hipótese nula, caso ela seja a realmente verdadeira (ou seja, de se cometer um erro do tipo I). A distribuição amostral é a distribuição da estatística teste, supondo-se que a condição de igualdade na H0 seja verdadeira e que o experimento foi repetido infinitas vezes. Etapas do teste de hipóteses 4. Determine a estatística teste e padronize-a. Faça os cálculos para padronizar sua estatística amostral. 5. Calcule o valor P da estatística teste. Ele representa a probabilidade de se obter a estatística teste (ou outro valor mais extremo) na distribuição amostral. Se o valor P for menor que (o nível de significância), rejeite H0. Se o valor P for maior que , não rejeite H0. 6. Tome sua decisão. 7. Interprete sua decisão. Se a alegação for a hipótese nula, você poderá rejeitá-la ou determinar que não há evidência suficiente para isso. Se a alegação for a hipótese alternativa, você poderá aceitá-la ou determinar que não há evidência suficiente para isso. Seção 7.2 O teste z para determinar a média O teste z é um teste estatístico capaz de determinar a média populacional. Ele pode ser usado: (1) se a população é normal e s é conhecido ou (2) quando o tamanho da amostra, n, é de pelo menos 30. A estatística teste é a média amostral e a estatística teste padronizada é z. Quando n 30, use s no lugar de . onde Um fabricante de cereais alega que a média de sódio em cada porção de seu produto não passa de 230 mg. Você trabalha para um serviço nacional de saúde e precisa testar essa alegação. Em uma amostra aleatória de 52 porções, você encontrou uma média de 232 mg de sódio, com um desvio padrão de 10 mg. Sendo = 0,05, você tem evidência suficiente para rejeitar a alegação do fabricante? 1. Escreva as hipóteses nula e alternativa. 2. Estabeleça o nível de significância. = 0,05 3. Determine a distribuição amostral. Como o tamanho da amostra é maior que 30, a distribuição amostral será normal. O teste z para determinar a média (valor P) HaH0 mg mg(alegação) 4. Determine a estatística teste e padronize-a. 5. Calcule o valor P para a estatística teste. Como se trata de um teste monocaudal direito, o valor P será a área encontrada à direita de z = 1,44 na distribuição normal. A partir da tabela, temos que P = 1 0,9251 n = 52 s = 10 Estatística teste z = 1,44 Área na cauda direita. P = 0,0749. 1,387 1,44 1,387 6. Tome sua decisão. 7. Interprete sua decisão. Compare o valor P a . Como 0,0749 > 0,05, não rejeite H0. Não há evidência suficiente para rejeitar a alegação do fabricante de que a média de sódio em cada porção de cereal não passa de 230 mg. Distribuição amostral de A região de rejeição é o intervalo de valores para os quais a hipótese nula não é provável. Ela fica sempre na direção da hipótese alternativa e sua área é igual a . Um valor crítico separa as regiões de rejeição e de não-rejeição. Regiões de rejeição Região de rejeição Valor crítico z0z z0 Um valor crítico z0 separa as regiões de rejeição e de não-rejeição. A área da região de rejeição é . Determine z0 para um teste monocaudal esquerdo com = 0,01. Determine z0 e z0 para um teste bicaudal com = 0,01. z0 = 2,33 z0 = 2,575 e z0 = 2,575 z0 = 1,645 Valores críticos z0 z0 Região de rejeição Região de rejeição z0z0 Região de rejeição Região de rejeição Determine z0 para um teste monocaudal direito com = 0,05. 1. Estabeleça as hipóteses nula e alternativa. 2. Estabeleça o nível de significância. 3. Identifique a distribuição amostral. Escreva H0 e Ha como afirmativas matemáticas. Lembre-se de que H0 sempre contém o símbolo =. Ele representa a probabilidade máxima de se rejeitar a hipótese nula, caso ela seja a realmente verdadeira (ou seja, de se cometer um erro do tipo I). A distribuição amostral é a distribuição da estatística teste, supondo-se que a condição de igualdade na H0 é verdadeira e que o experimento foi repetido infinitas vezes. Usando o valor crítico para tomar decisões 6. Determine a estatística teste. 5. Determine a região de rejeição. 4. Determine o valor crítico. O valor crítico separa as regiões de rejeição e de não-rejeição. A área da região crítica é igual ao nível de significância do teste. Faça os cálculos para padronizar sua estatística amostral. z0 Região de rejeição 7. Tome sua decisão. 8. Interprete sua decisão. Se a estatística teste cair na região crítica, rejeite H0. Caso contrário, não rejeite H0. Se a alegação for a hipótese nula, você pode rejeitá-la ou determinar que não há evidência suficiente para isso. Se a alegação for a hipótese alternativa, você pode aceitá-la ou determinar que não há evidência suficiente para isso. Um fabricante de cereais alega que a média de sódio em cada porção de seu produto não passa de 230 mg. Você trabalha para um serviço nacional de saúde e precisa testar essa alegação. Em uma amostra aleatória de 52 porções, você encontrou uma média de 232 mg de sódio, com um desvio padrão de 10 mg. Sendo = 0,05, você tem evidência suficiente para rejeitar a alegação do fabricante? 2. Estabeleça o nível de significância. = 0,05 3. Determine a distribuição amostral. Como o tamanho da amostra é maior que 30, a distribuição amostral será normal. Usando o teste z para determinar a média 1. Escreva as hipóteses nula e alternativa. H0 mg mg(alegação) Ha n = 52 = 232 s = 10 7. Tome sua decisão. 6. Determine a estatística teste e padronize-a. 8. Interprete sua decisão. 5. Determine a região de rejeição. Região de rejeição Como Ha contém o símbolo >, trata-se de um teste monocaudal direito. z = 1,44 não cai na região de rejeição, portanto não rejeite H0. Não há evidência suficiente para rejeitar a alegação do fabricante de que a média de sódio em cada porção de cereal não passa de 230 mg. 1,645 4. Determine o valor crítico. z0 Usando o valor P de um teste para comparar áreas z0 Região de rejeição 0,05 z0 = 1,645 z z = 1,23 Para tomar uma decisão com base no valor crítico, descubra se z está na região de rejeição. Em caso positivo, rejeite H0 e, em caso negativo, não rejeite H0. = 0,05 Para tomar uma decisão com base no valor P, compare as áreas. Se , rejeite H0. Se , nãorejeite H0. P = 0,1093 Seção 7.3 Determine o valor crítico t0 para um teste monocaudal esquerdo, dados = 0,01 e n = 18. Determine os valores críticos t0 e t0 para um teste bicaudal, dados g.l. = 18 1 = 17 t0 t0 = 2,567 g.l. = 11 1 = 10 t0 = 2,228 e t0 = 2,228 A distribuição amostral t = 0,05 e n = 11. Área na cauda esquerda t0 t0 Uma universidade diz que o número médio de horas-aula por semana, nos cursos de período integral, é 11,0. Uma amostra aleatória do número de horas-aula por semana, nos cursos de período integral, está relacionada a seguir. Solicitam a você, que trabalha em uma organização estudantil, que teste essa alegação. Sendo = 0,01, você tem evidência suficiente para rejeitar a alegação da universidade? 11,8 8,6 12,6 7,9 6,4 10,4 13,6 9,1 1. Estabeleça as hipóteses nula e alternativa. 2. Estabeleça o nível de significância. = 0,01 3. Determine a distribuição amostral. Como o tamanho da amostra é 8, a distribuição amostral é uma distribuição t com 8 1 = 7 g.l. Testando em uma amostra pequena HaH0 (alegação)11,0 11,0 t = 1,08 não cai na região de rejeição, portanto não rejeite H0 a = 0,01 n = 8 = 10,050 s = 2,485 7. Tome sua decisão. 6. Determine a estatística teste e padronize-a. 8. Interprete sua decisão. Não há evidência suficiente para rejeitar a alegação da universidade de que o curso tem uma média de 11 horas-aula semanais. 5. Determine a região de rejeição. Como Ha -se de um teste bicaudal. 4. Determine os valores críticos. 3,499 3,499 t0t0 0,878 10,050 11,0 0,95 1,08 2,485 Teste t para determinar a média Test of = 11.000 vs not = 11.000 Variable N Mean StDev SE Mean T P Hours 8 0.050 2.485 0.879 1.08 0.32 Escolha teste t no menu STAT. O Minitab registra a estatística t e o valor P. Como o valor P é maior que o nível de significância (0,32 > 0,01), você não deve rejeitar a hipótese nula a um nível de significância de 0,01. Solução no Minitab Seção 7.4 p é a proporção populacional de sucessos. A estatística teste é . Se e , a distribuição amostral de é normal. Teste para determinar proporções A estatística teste padronizada é: (a proporção de sucessos na amostra) Teste para determinar proporções Um porta-voz do setor de comunicações alega que mais de 40% dos norte-americanos têm celular próprio ou, pelo menos, têm alguém na família com celular. Em um levantamento aleatório de 1.036 norte-americanos, 456 disseram que eles ou alguém da família tinham um celular. Teste a alegação do porta-voz a = 0,05. O que você pode concluir? 1. Escreva as hipóteses nula e alternativa. 2. Estabeleça o nível de significância. = 0,05 H0 Ha0,40 0,40 (alegação) 3. Determine a distribuição amostral. 7. Tome sua decisão. 6. Determine a estatística teste e padronize-a. 8. Interprete sua decisão. z = 2,63 cai na região de rejeição, portanto rejeite H0. Há evidência suficiente para aceitar a alegação de que mais de 40% dos norte- americanos têm celular próprio ou, pelo menos, têm alguém na família com celular. 1.036(0,40) > 5 e 1.036(0,60) > 5. A distribuição amostral é normal. n = 1.036 x = 456 4. Determine o valor crítico. 1,645 5. Determine a região de rejeição. Região de rejeição 1.036 0,44 0,44 0,40 0,04 0,01522 2,63 1.036 (0,40) (0,60) EXERCÍCIOS - LISTA 3 1. Suponha que um alergologista deseja testar a hipótese de que pelo menos 30% das pessoas são alérgicas a alguns produtos feitos de queijo. Explique como o alergologista poderia cometer o erro tipo I e o erro tipo II. 2. Uma grande indústria está sendo acusada de práticas discriminatórias em seu processo de contração. Que hipótese está sendo testada se o júri comete on erro tipo I ao concluir que a empresa é culpada? Que hipótese está sendo testada se o júri comete on erro tipo II ao concluir que a empresa é culpada? 3. Uma amostra de cem registros de mortes nos EUA durante o ano passado mos- trou uma expectativa de vida de 71,8 anos. Assumindo um desvio padrão de 8,9 anos, isso parece indicar que a média da expectativa de vida hoje é maior do que 70 anos de idade? Adote α= 5%. RESPOSTA:H0 :µ= 70; H1 :µ> 70; Zcal = 2.02; p-valor=0.0217; Rejeita-se H0. 4. Uma pesquisa na Escola de Medicina da Universidade da Califórnia afirmou que ratos com média de vida de 32 meses viveriam por mais ou menos 40 meses se 40% das calorias de suas refeições fossem substituídas por vitaminas e proteínas. Há alguma razão para acreditarmos que µ < 40 se 64 ratos colocados sob essa dieta têm uma média de vida de 38 meses com desvio padrão de 5,8 meses? RESPOSTA: Zcal =−2.76; p-valor=0.0029 5. Acredita-se que uma droga comumente prescrita para aliviara a tensão nervosa tem apenas 60% de eficácia. Resultados experimentais com uma nova droga ad- ministrada em uma amostra aleatória de cem adultos que sofrem de tensão ner- vosa mostraram que 70 deles sentiram alívio. Isso é evidência suficiente para concluirmos que a nova droga é superior à droga comumente prescrita? RESPOSTA: Zcal = 2.04; p-valor=0.0207 6. Uma propaganda de certa marca de cigarros afirma que não há mais do que 18mg de nicotina por cigarro, em média. Num teste com 12 cigarros obteve- se uma média amostral de 19,1 mg de nicotina, com desvio padrão amostral de 1,9mg. Você acha que essa afirmação é verdadeira? 7. A associação de proprietários de indústrias metalúrgicas está preocupada com o tempo perdido em acidentes de trabalho, cuja média nos últimos tempo tem 39 Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce Ivanildo Marinho N Realce sido de ordem 60horas/homem por ano e o desvio padrão de 20 horas/homens. Tentou-se um programa de prevenção de acidentes e, após o mesmo, tomou- se uma amostra aleatória de 9 indivíduos e verificou-se que foram perdidas 50 horas/homem. Você diria, ao nível de 5%, que há evidências de melhoria? 8. Uma fábrica de automóveis anunciou que seus carros consomem em média 11 litros de combustível pro cada 100 Km rodados. Uma revista resolve testar essa afirmação e analisa uma amostra de 25 automóveis dessa marca, obtendo 11,3 litros por 100 Km como consume médio e 0,8 litro por 100 Km de desvio padrão. O que a revista pode concluir sobre o anúncio da fábrica ao nível de significância de 10%? Considere que a população segue distribuição normal. 40 Área na cauda superior gl 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005 1 1,000 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6 2 0,816 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60 3 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92 4 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610 5 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6,869 6 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959 7 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408 8 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041 9 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781 10 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587 11 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437 12 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318 13 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221 14 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140 15 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073 16 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015 17 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965 18 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922 19 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883 20 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850 21 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819 22 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792 23 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768 24 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745 25 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725 26 0,684 1,315 1,706 2,056 2,479 2,779 3,0673,435 3,707 27 0,684 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,689 28 0,683 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674 29 0,683 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,660 30 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646 35 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591 40 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551 45 0,680 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520 50 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496 z 0,674 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291 Nota: A coluna em destaque é a mais usada. Tabela 5 Distribuição t de Student 0 t Área indicada (Valor tabulado) BARBETTA, P. A. - Estatística aplicada às Ciências Sociais. 7 ed. Florianópolis: Editora da UFSC, 2010 Probabilidade Operações com eventos aleatórios Probabilidade Condicional Variáveis Aleatórias Distribuição Binomial Distribuição Normal Questões/Motivação - Estatística Descritiva Tipos de dados Medidas Histograma Box-plot Questões/Motivação - Inferência Estatística Inferência estatística - alguns conceitos Teorema Central do Limite Distribuição amostral da média Distribuição amostral da proporção Nível de confiança, precisão, tamanho da amostra e Intervalo de Confiança Intervalo de confiança para média populacional Intervalo de confiança da proporção
Compartilhar