Prévia do material em texto
Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 1 ESTATÍSTICA INDUTIVA MÓDULO 1 - REVISÃO I. DISTRIBUIÇÃO NORMAL OU DE GAUSS É a mais importante distribuição de probabilidades, sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da Estatística. É também conhecida como distribuição de Gauss, Laplace, Laplace-Gauss ou curva em sino (por lembrar o formato de um sino). Os primeiros estudos ligados à distribuição Normal foram feitos por De Moivre e, cem anos depois, por Laplace, que consolidou as descobertas feitas até então. Embora Gauss tenha nascido 23 anos depois da morte de De Moivre, a distribuição e a curva normais acabaram recebendo o seu nome. Seja X uma variável aleatória contínua. X terá distribuição normal se: f(x) = πσ 2. 1 . 2 . x 2 1 e − σ µ− , −∞ < x < +∞ onde: µ = média de distribuição, σ = desvio-padrão, π = 3,1416, e = 2,7182 O gráfico da distribuição normal é a curva: Se uma variável tem distribuição normal: 68,27% de seus valores cairão no intervalo de um desvio padrão, ou seja, −1σ < z < 1σ ; 95,45% de seus valores cairão no intervalo de dois desvios padrões, ou seja, −2σ < z < 2σ ; 99,73% de seus valores cairão no intervalo de três desvios padrões, ou seja, −3σ < z < 3σ. -∞ µ−σ µ µ+σ + ∞ x µ ≡ Mo ≡ Md f(x) 50% 50% −3σ −2σ −1σ µ 1σ 2σ 3σ z 68,27% 95,45% 99,73% Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 2 Principais características dessa função: a) a variável aleatória pode assumir qualquer valor real; b) o gráfico da distribuição normal é uma curva em forma de sino, simétrica em torno da média µ, que também é a moda e a mediana, como mostra a figura acima; c) a área total sob a curva vale 1 (100%), porque essa área corresponde à probabilidade de a variável aleatória assumir qualquer valor real; d) como a curva é simétrica em torno da média, os valores maiores do que a média e os valores menores do que a média ocorrem com igual probabilidade; e) é decrescente assintoticamente a zero nos extremos; f) a configuração da curva é dada por dois parâmetros: a média µ e a variância σ2. Mudando a média, muda a posição da distribuição; Mudando a variância, muda a dispersão da distribuição; g) µ−σ e µ+σ são pontos de inflexão. A determinação da probabilidade de se obter um valor em um dado intervalo poderia ser feita pela integral definida nesse intervalo, no entanto, o uso de tabelas facilita esse cálculo. Usaremos a tabela 1 de Faixa central, em anexo–p.3, que utiliza valores padronizados de uma variável z, em função de x, obtida pela transformação linear zo = σ µ−x . Essa variável chamada “normal reduzida” ou “normal padronizada” também é normalmente distribuída com µ(z) = 0 e σ(z) = 1. A variável z representa a distância algébrica entre o ponto x desejado e a média µ, medida em desvios padrões. Assim, obtido um valor zo correspondente a um valor xo considerado, teremos: P(µ ≤ x ≤ xo) = P(0 ≤ Z ≤ zo) A tabela de faixa central dá a área sob a curva normal padrão entre z = 0 e qualquer valor positivo de zo mas, sendo a curva simétrica em relação à média, em torno de z = 0, os valores fornecidos são válidos também para valores negativos de zo. O sinal da variável Z serve apenas para indicar se o valor está acima ou abaixo da média. Portanto, P(0 ≤ Z ≤ zo) = P(zo ≤ Z ≤ 0) 0 zo Z Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 3 0 zo Z Tabela 1. Áreas de uma distribuição normal padrão. Cada casa na tabela dá a proporção sob a curva inteira entre z = 0 e um valor positivo de z. As áreas para os valores de z negativos são obtidas por simetria. zo 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2518 0.2549 0.7 0.2580 0.2612 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4880 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 2.5 0.4938 0.4940 04941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964 2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974 2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981 2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 3.0 0.4986 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990 3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993 3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995 3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997 3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998 0.4998 3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.49990.4999 0.4999 3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.5000 0.5000 0.5000 3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 P(0 ≤≤≤≤ Z ≤≤≤≤ zo) Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 4 Para consultar a tabela, é preciso decompor o Zo em duas parcelas: Parte inteira + 1ª casa decimal e 0,0 + 2ª casa decimal 1ª PARCELA 2ª PARCELA 1ª parcela = 1,3 (vertical – margem esquerda) Se Zo = 1,39 2ª parcela = 0,09 (horizontal – margem superior) Zo 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 1,3 0,4177 No cruzamento das duas parcelas encontra-se a probabilidade correspondente à área da curva entre zero e zo calculado (também chamado crítico). A probabilidade que a tabela fornece (0,4177) corresponde à área hachurada. Exemplo 1: O tempo necessário para executar uma tarefa é uma variável normal de média 60 minutos e desvio padrão 5 minutos. Qual a proporção de vezes que o tempo necessário será: a) maior que 70 minutos? b) menor que 65 minutos? c) exatamente 40 minutos? d) maior que 53 e menor que 62 minutos? Solução: Temos: µ = 60 e σ = 5 Pela transformação linear z = σ µ−x = 5 60x − a) x = 70 zo = 5 6070 − = 2,00 Da tabela obtemos: 0,4772 P(X > 70) = 0,5 – 0,4772 = 0,0228 = 2,28% 50% b) x = 65 zo = 5 6065 − = 1,00 Da tabela obtemos: 0,3413 P(X < 65) = 0,5 + 0,3413 = 0,8413 = 84,13% 50% X Z 0 Z=1,00 0,3413 60 65 50% 0,4772 60 70 X 0 Z=2,00 Z 50% 0 1,39 Z Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 5 c) Como em qualquer tipo de variável aleatória contínua, a probabilidade da variável tomar exatamente um determinado valor é zero, concluímos que: P(X = 40) = 0 d) x = 53 z = 5 6053 − = − 1,40 Da tabela obtemos: 0,4192 x = 62 zo = 5 6062 − = 0,40 Da tabela obtemos: 0,1554 P(53<X<62) = 0,4192 + 0,1554 = 0,5746 = 57,46% Exemplo 2: As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60 m desvio-padrão 0,30 m. Encontre a probabilidade de um aluno medir: a) Entre 1,50 e 1,80 m? b) Mais de 1,75 m? c) Menos de 1,48 m? d) Qual deve ser a medida mínima para escolhermos 10% dos mais altos? Temos: µ = 1,60 e σ = 0,30 z = σ µ−x = 30,0 60,1x − a) x1 = 1,50 z1 = 30,0 60,150,1 − z1 = − 0,33 Tab. : 0,1293 x2 = 1,80 z2= 30,0 60,180,1 − z2 = 0,67 Tab.: 0,2486 P(1,50 < x < 1,80) = P(−0,33 < Z < 0,67) OBS.: Por simetria, obtemos da tabela z = − 0,33 = 0,33 Portanto: P(−0,33 < Z < 0,67) = 0,1293 + 0,2486 = 0,3779 = 37,79% Logo: P(1,50 < x < 1,80) = 37,79% b) x = 1,75 z1 = 30,0 60,175,1 − z1 = 0,5 Tab. : 0,1915 P(x > 1,75) = P(z > 0,5) X Z 0 Z=0,40 0,1554 60 62 53 Z=−1,40 0,4192 X 1,60 1,80 1,50 0,2486 Z 0 0,67 −0,33 0,1293 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 6 P(x > 1,75) = P(z > 0,5) = 0,5000 – 0,1915 = 0,3085 = 30,85% c) x = 1,48 z1 = 30,0 60,148,1 − z1 = −0,4 Tab. : 0,1554 P(x < 1,48) = P(z < −0,4) P(x < 1,48) = P(z < −0,4) = 0,5000 – 0,1554 = 0,3446 = 34,46% d) A operação é inversa aos itens (a), (b) e (c), ou seja, dada a probabilidade, determine a medida. z = σ µ−x 1,28 = 30,0 60,1x − x = 1,98 m MÓDULO 2 ESTATÍSTICA INDUTIVA: INTRODUÇÃO E AMOSTRAGEM INTRODUÇÃO: É a parte da Estatística que, baseando-se em resultados obtidos da análise de uma amostra da população, procura concluir, sugerir ou estimar as leis de comportamento da população da qual a amostra foi retirada. Os objetivos principais da Estatística Indutiva são: tirar conclusões sobre populações através de amostras extraídas dessa população, induzindo ou caracterizando uma população através de amostra e ainda dizer qual é a probabilidade de erro, já que o processo de indução não é exato. Também através da Estatística Indutiva podemos aceitar ou rejeitar hipóteses que podem surgir sobre 1,60 1,75 X 50% 0 0,5 Z 0,5 0,1915 1,60 1,48 X 50% 0,5 −0,4 0 Z 0,1554 0 Zo Z 1,60 X X 0,4 = 40% 0,1 = 10% Na tabela com P(z) = 0,4000, encontramos Z0 = 1,28 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 7 as características da população, a partir também da análise da amostra representativa dessa população. Como observação: quanto maior for a amostra, mais precisas e confiáveis deverão ser as induções realizadas na população. AMOSTRAGEM “Você não precisa beber todo o vinho para saber que gosto ele tem!”. 1. Introdução A teoria da amostragem é um estudo das relações existentes entre uma população e as amostras dela extraídas. Portanto é fundamental que a amostra seja representativa da população, isto é, deve possuir as mesmas características básicas da população no que diz respeito às variáveis pesquisadas para que possamos fazer inferências (conclusões ou induções) acerca da população. Em geral, um estudo de inferências, feito a respeito de uma população, mediante a utilização de amostras dela extraídas, juntamente com as indicações da precisão dessas inferências, obtidas por meio da teoria da probabilidade é denominada inferência estatística. Dependendo do tipo de variável a ser estudada, podemos encontrar maiore menor dificuldade para realizar a amostragem. As maiores dificuldades são obtidas nas pesquisas sócio-econômicas ou de opinião, onde é preciso deixar muito bem caracterizado a população e o processo de amostragem da mesma. Se a pesquisa é elaborada por questionários, deve-se ter o cuidado de não apresentar perguntas inibidoras ou dúbias. 2. Tipos de Amostragem 2.1) Amostragem Probabilística Uma amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Desta forma, a amostragem probabilística implica em um sorteio sobre todos os elementos da população com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível. Principais técnicas de amostragem probabilísticas: 1) Amostragem aleatória simples ou casual ou ao acaso ou elementar ou randômica. Este tipo de amostragem é equivalente a um sorteio lotérico. A amostragem Aleatória Simples é constituída de elementos retirados ao acaso da população, tendo cada um, igual probabilidade de pertencer à amostra e todas as possíveis amostras têm também igual probabilidade de ocorrer. Por isso é que a esse tipo de amostragem tende a produzir amostras representativas. Exemplo: Supondo que um clube tenha 650 sócios e deseja-se fazer uma amostra casual simples de 2% dos sócios desse clube, ou seja, 13 sócios. Para isso, faremos os seguintes passos: I. Numeramos os sócios de 001 a 650; Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 8 II. Escrevemos os números de 001 a 650, em pedaços iguais de um mesmo papel e colocamos os mesmos dentro de uma caixa (uma urna). Agite sempre a caixa para misturar bem os pedaços de papel e retire, um a um 13 números que formarão a amostra. Uma segunda opção para o sorteio seria: Coloque em uma urna, bolas numeradas de zero a nove, inclusive, misture bem e retire uma. Anote o número dessa bola que será o primeiro dígito do número do sócio que será amostrado. Volte a bola retirada à urna, misture bem e retire outra. O número dessa segunda bola será o segundo dígito do número do sócio que será amostrado. O procedimento deverá ser repetido até completar os três dígitos da numeração utilizada. Como a população é constituída por 650 sócios, devem ser desprezados os números maiores que 650, bem como os números que já foram sorteados e o número 000. O sorteio deverá ser repetido até se conseguir a amostra de 13 sócios. O processo de seleção exige que se atribuam números consecutivos aos itens listados escolhendo-se depois, aleatoriamente, os números dos itens que comporão a amostra. Conceitualmente, podemos usar cartas de baralho, dados, fichas numeradas ou bolas numeradas para gerar números aleatórios correspondentes aos números de nossa listagem. Na prática, tais dispositivos são empregados raramente, por várias razões. Uma delas é que cada dispositivo deixa algo a desejar; os métodos não são perfeitamente aleatórios. As cartas, por exemplo, podem aderir umas às outras, impedindo um embaralhamento perfeito. As arestas de um dado podem estar desgastadas. E sempre há o risco de que as bolas de uma urna não terem sido convenientemente misturadas. Em vista disso, e porque a amostragem aleatória é vital para a inferência estatística, existem tabelas especialmente elaboradas, chamadas tabelas de números aleatórios, construídas de modo que os dez algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas através de sorteio equiprovável. Na tabela de números aleatórios os dez algarismos 0, 1, 2, ..., 7, 8 , 9, podem ser lidos isoladamente ou em grupos; podem ser lidos em qualquer ordem, como por exemplo linhas ou colunas, num sentido ou no outro, diagonalmente, etc. e podem ser considerados aleatórios. A opção de leitura, porém, deve ser feito antes de iniciado o processo. Para usar uma tabela de números aleatórios devemos: 1) Fazer uma lista dos números da população; 2) Enumerar consecutivamente os itens da lista, a começar do zero; 3) Ler os números na tabela de números aleatórios de modo que o número de algarismos em cada um seja igual ao número de algarismos do último número da sua listagem; 4) Desprezar quaisquer números que não correspondam a números da lista ou que sejam repetições de números lidos anteriormente. Continue o processo até ter o número desejado de observações; 5) Usar os números assim escolhidos para identificar os itens da lista a serem incluídos na amostra. NOTA: O inconveniente desse processo é a exigência da enumeração de todos os elementos da população e sua identificação posterior, quando escolhidos para compor a amostra. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 9 EXEMPLO DE UMA TABELA DE NÚMEROS ALEATÓRIOS (retirada de: STEVENSON, William J. Estatística aplicada à administração, São Paulo: Harbra, 1981) 3690 2492 7171 7720 6509 7549 2330 5733 4730 0813 6790 6858 1489 2669 3743 1901 4971 8280 6477 5289 4092 4223 6454 7632 7577 2816 9202 0772 2160 8236 0812 4195 5589 0830 8261 9232 5692 9870 3583 8997 1533 6566 8830 7271 3809 2080 3828 7880 0586 8482 7811 6807 3309 2729 1039 3382 7600 1077 4455 8806 1822 1669 7501 7227 0104 4141 1521 9104 5563 1392 8238 4882 8506 6348 4612 8252 1062 1757 0964 2983 2244 5086 0303 7423 3298 3979 2831 2257 1508 7642 0092 1629 0377 3590 2209 4839 6332 1490 3092 0935 5565 2315 8030 7651 5189 0075 9353 1921 2605 3973 8204 4143 2677 0034 8601 3340 8383 7277 9889 0390 5579 4620 5650 0210 2082 4664 5484 3900 3485 0741 9069 5920 4326 7704 6525 6905 7127 5933 1137 7583 6450 5658 7678 3444 8387 5323 3753 1859 6043 0294 5110 6340 9137 4094 1957 0163 9717 4118 4276 9465 8820 4127 4951 3781 5101 1815 7068 6379 7252 1086 8919 9047 0199 5068 7447 1664 9278 1708 3625 2864 7274 9512 0074 6677 8676 0222 3335 1976 1645 9192 4011 0255 5458 6942 8043 6201 1587 0972 0554 1690 6333 1931 9433 2661 8690 2313 6999 8231 5627 1815 7171 8036 1832 2031 6298 6073 3995 9677 7765 3194 3222 4191 2734 4469 8617 2402 6250 9362 7373 4757 1716 1942 0417 5921 5295 7385 5474 2123 7035 9983 5192 1840 6176 5177 1191 2106 3351 5057 0967 4538 1246 3374 7315 3365 7203 1231 0546 6612 1038 1425 2709 5775 7517 8974 3961 2183 5295 3096 8536 9442 5500 2276 6307 2346 1285 7000 5306 0414 3383 3251 8902 8843 2112 8567 8131 8116 5270 5994 4675 1435 2192 0874 2897 0262 5092 5541 4014 3543 6130 4247 4859 2660 7852 9096 0578 0097 3521 8772 6612 0721 3899 2999 1263 7017 8057 5573 9396 3464 1706 9204 3389 5678 2589 0288 7478 7569 7551 3380 2152 5411 2647 7242 2800 3339 2854 9691 9562 3252 9848 6030 8472 2266 5505 8474 3167 8552 5409 1556 4247 4652 2953 6381 2086 5457 7703 2758 2963 8167 6712 9820 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 10 O uso da tabela pode ser entendido através do seguinte exemplo: De uma população constituída por650 elementos queremos retirar uma amostra aleatória de 50. O primeiro passo é enumerar a população de 001 a 650. A partir de um dígito escolhido ao acaso na tabela de números aleatórios vamos tomando os números, sempre com 3 algarismos (pois a população é constituída por 650 elementos), até completarmos os 50 elementos necessários para a amostra desejada. Suponhamos que os algarismos da tabela a partir do dígito escolhido sejam: 369024927171772065..., (percorrer a primeira linha da tabela da esquerda para a direita), os elementos sorteados para a amostra serão os de ordem 369, 024, 171, 065, etc. Os grupos 927 e 772 não foram considerados pois não constam da população. Então, são desprezados os números ou grupos que são maiores do que 650 e eventuais repetições, exceto se a amostragem seja com reposição. 2) Amostragem Sistemática Quando os elementos da população já se acham ordenados, não há necessidade de construir um sistema de referência. Por este processo, as amostras são retiradas periodicamente a partir de determinado elemento ou ponto de partida (por exemplo: de hora em hora). São exemplos os prontuários médicos de um Hospital, as linhas de produção, etc. Deve ser adotado com cuidado, pois pode conduzir a amostras enviesadas que não detectam eventos periódicos e cíclicos. Apesar de seus inconvenientes, é um método bastante usado em pesquisas de opinião pública, onde transeuntes são entrevistados de hora em hora ou após certa contagem. A seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Exemplo: Suponhamos uma população ordenada constituída por 650 elementos, da qual desejamos retirar uma amostra sistemática de 50 elementos. Podemos dividir o tamanho da população (N = 650) pelo tamanho da amostra (n = 50). O número obtido vai servir de base para efetuamos a amostragem. 50 650 = 13 O primeiro elemento da população a fazer parte da amostra deverá ser escolhido ao acaso entre os 13 primeiros. A partir do elemento escolhido a cada 13 retira-se outro. Assim, se o primeiro escolhido fosse o 10º, o seguinte seria o 23º, o outro seria o 36º e assim por diante. A amostragem sistemática é bastante usada pela sua simples execução. Em linhas de produção sua utilização é muito grande. Existe apenas um risco na sua utilização que é, por exemplo, a possibilidade de existir um defeito cíclico numa linha de produção e esse ciclo coincidir com o ciclo adotado na amostragem. 3) Amostragem por meio de conglomerados Consiste em subdividir a população que vai ser estudada em pequenos grupos (chamados de conglomerados) fisicamente próximos, independentemente de eles serem homogêneos ou não. Nesses grupos, são agregados os elementos com estreito contato físico (como casas, quarteirões, bairros, cidades, etc.). Ao invés de numerarmos os elementos da população para fazermos uma amostragem aleatória, numeramos os conglomerados e sorteamos alguns deles para constituírem a amostra. Na realidade é apenas uma maneira de simplificar o trabalho. A principal razão desse tipo de ajuntamento é que muitos elementos podem ser estudados por poucos pesquisadores. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 11 4) Amostragem estratificada Muitas vezes a população se divide em grupos (ou sub-populações) chamados estratos baseados em características associadas a cada elemento. Dentro de cada estrato os elementos são razoavelmente homogêneos mas diferentes de um estrato para outro. É o caso dos agrupamentos por sexo, raça, religião, escolaridade, etc. Ao fazermos a amostragem, se não levarmos em conta a existência dos estratos, poderá ocorrer que um ou mais fiquem sem representação na amostra, principalmente se esta for pequena. Portanto, a amostragem estratificada consiste em determinar quantos elementos da amostra serão retirados de cada estrato. São mais considerados dois tipos de amostragem estratificada: a uniforme e a proporcional. Na amostragem estratificada uniforme retira-se igual número de elementos de cada estrato e na amostragem estratificada proporcional, o número de elementos retirados de cada estrato é proporcional ao tamanho do estrato. A vantagem desse método com relação ao método da amostra aleatória simples (sem estratificação) é o de obter estimativas com maior precisão, com mesmo tamanho amostral. Exemplo: Seja obter uma amostra estratifica proporcional de 10% para a pesquisa da estatura de 100 alunos de uma escola onde 58 são meninos e 42 são meninas. Temos dois estratos: sexo masculino e sexo feminino. I) Primeiro vamos determinar o tamanho da amostra em cada estrato: Sexo População 10% Amostra Masculino 58 0,10 . 58 = 5,8 6 Feminina 42 0,10 . 42 = 4,2 4 Total 100 0,10 . 100 = 10 10 II) Numeramos os alunos de 001 a 100, sendo que de 001 a 058 correspondem meninos e de 059 a 100 meninas. II) Obtemos uma amostra aleatória ou sistemática de cada sexo e reunimos as informações numa só amostra, denominada amostra estratificada. 5) Amostragem múltipla A amostra é constituída pela retirada dos elementos da população em etapas sucessivas, sendo que a realização ou não de uma etapa depende do resultado da etapa anterior. A principal vantagem da amostragem múltipla é a diminuição do número de elementos inspecionados. 2.2) Amostragem Não Probabilística Quando nem todos os elementos da população tiverem uma probabilidade diferente de zero de pertencerem à amostra, dizemos que a amostragem é não-probabilística. Este processo de amostragem é subjetivo e seu regimento depende do conhecimento que o pesquisador possui a respeito da estrutura da população. É empregada, muitas vezes, por simplicidade ou pela impossibilidade de se obter amostragens probabilísticas. Para a Estatística Indutiva interessa a amostragem probabilística, pois assim, o acaso será o único responsável por eventuais diferenças entre a população e a amostra. No entanto, muitas vezes Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 12 não poderemos conseguir amostras probabilísticas e nesses casos o bom senso nos indicará como proceder para que os resultados possam ser considerados e trabalhados. Principais casos de amostragem não probabilística: 1) Amostragem por Julgamento (ou inacessibilidade a toda a população) A amostra é obtida na parte da população que é conhecida (ou acessível). Então se faz uma distinção entre população amostrada e população objeto. População amostrada é a parte da população que é acessível e da qual é retirada a amostra; População objeto é aquela sobre a qual pretendemos realizar o trabalho estatístico (de toda a população). Se as características das variáveis de interesse são as mesmas na população amostrada e na população objeto, a amostragem será equivalente a uma amostragem probabilística. Isso é muito comum quando concluímos sobre a qualidade de um produto pelas unidades que já foram produzidas e estendemos essa conclusão para as unidades que ainda serão produzidas. Se as condições de produção permanecerem as mesmas a conclusão será válida. Se o tamanho da amostra é bem pequeno, a amostragem aleatória poderá ser não- representativa, ao passo que uma pessoa familiarizada com a população pode especificar quais os itens mais representativos da população. Exemplo:Uma rede de pizzarias pode querer experimentar uma nova técnica de serviço, empregando bandejas com aquecimento. Problemas de custo podem fazer com que a experiência se limite a duas lojas, as quais podem diferir consideravelmente em termos de tamanho, localização, clientela e lucratividade. Ao invés de uma seleção aleatória das duas lojas a serem usadas como teste, será melhor confiar no conhecimento da administração para fazer tal escolha. 2) Amostragem a esmo ou sem norma É o caso em que o pesquisador procura ser aleatório, sem, no entanto, utilizar um sorteio aleatório rigoroso. Exemplo: Se tivermos numa caixa 15.000 parafusos e desejamos retirar uma amostra contendo 150 parafusos do mesmo modelo e tamanho, certamente não faríamos uma amostragem aleatória simples, pois seria extremamente trabalhosa, mas faríamos retiradas a esmo. Os resultados de uma amostragem a esmo são os mesmos de uma amostragem probabilística se a população é homogênea e se não existe a possibilidade de o pesquisador (ou amostrador) ser influenciado (mesmo que inconscientemente) por alguma característica dos elementos da população. Não seria o caso da amostra dos parafusos, acima, se estes tivessem modelos e tamanhos diferentes, e isto afetasse a característica observada nos parafusos. 3) População formada por material contínuo Quando a população for líquida ou gasosa o procedimento não probabilístico é homogeneizar a mistura e retirar uma amostra a esmo. Se a população for constituída por material sólido o processo não probabilístico é o da enquartação. O processo da enquartação consiste em dividir a população em diversas partes e sortear algumas para constituírem a amostra. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 13 4) Amostragem Intencional De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra por achá-los representativos da população. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Exemplo: Numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram. O grande risco desse procedimento é que fica sujeito ao julgamento de uma ou mais pessoas. 5) Amostragem por voluntários A amostra é constituída por elementos da população que concordam em ser voluntário principalmente em experiências com novos medicamentos. Exercícios 1) Os prontuários dos pacientes de um hospital estão organizados em um arquivo, por ordem alfabética. Qual é a maneira mais rápida de amostrar 1/3 do total de prontuários? 2) Um pesquisador tem dez gaiolas que contém, cada uma seis periquitos. Como o pesquisador pode selecionar dez periquitos para uma amostra? 3) Para levantar dados sobre o número de filhos por casal, em uma comunidade, um pesquisador organizou um questionário que enviou, pelo correio, a todas as residências. A resposta ao questionário era facultativa, pois o pesquisador não tinha condições de exigir a resposta. Nesse questionário pergunta-se o número de filhos por casal morador na residência. Você acha que os dados assim obtidos têm algum tipo de tendenciosidade? 4) Um pesquisador pretende levantar dados sobre o número de moradores por domicílio, usando a técnica de amostragem sistemática. Para isso, o pesquisador visitará cada domicílio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o pesquisador excluirá o domicílio da amostra. Esta última determinação introduz tendenciosidade. Por quê? 5) Muitas pessoas acreditam que as famílias se tornaram menores. Suponha que, para estudar essa questão, foi selecionada uma amostra de 2000 casais e perguntou-se quantos filhos eles tinham, quantos filhos tinham seus pais e quantos filhos tinham seus avós. O procedimento introduz tendenciosidade nos dados. Por quê? 6) Supondo que os dados abaixo sejam os diâmetros, medidos em mm, de 15 peças recebidas por uma empresa. Tome uma amostra de 5 elementos utilizando a tabela de números aleatórios a partir do 31º dígito da 5ª linha. Calcule a média, a variância e o desvio padrão das medidas dos diâmetros das peças da amostra. 11 15 16 10 20 18 14 12 12 19 17 23 13 22 17 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 14 NOTA: Para resolver as questões de 6 a 10, utilizar a tabela aleatória abaixo: Tabela de números aleatórios 25 19 64 82 84 62 74 29 92 24 61 03 91 22 48 64 94 63 15 07 66 85 12 00 27 23 02 41 46 04 44 31 52 43 07 44 06 03 09 34 19 83 94 62 94 48 28 01 51 92 55 85 66 96 28 28 30 62 58 83 65 68 62 42 45 13 08 60 46 28 95 68 45 52 43 68 45 19 69 59 35 14 82 56 80 22 06 52 26 39 59 78 98 76 14 36 09 03 01 86 69 31 46 29 85 18 88 26 95 54 01 02 14 03 05 48 00 26 43 85 33 93 81 45 95 37 31 61 28 98 94 61 47 03 10 67 80 84 41 26 88 84 59 69 14 77 32 82 81 89 66 42 19 24 94 13 13 38 69 96 76 69 76 24 13 43 83 10 13 24 18 32 84 85 04 33 65 78 12 35 91 59 11 38 44 23 31 48 75 74 05 30 08 46 32 90 04 93 56 16 76 32 06 19 35 22 95 30 19 29 57 74 43 20 90 20 25 36 70 69 38 32 11 01 01 43 33 42 02 59 20 39 84 95 61 58 22 04 02 99 99 78 78 83 82 43 67 16 38 95 28 31 93 43 94 87 73 19 38 47 54 36 90 98 10 83 43 32 26 26 22 00 90 59 22 97 19 21 63 34 69 33 17 03 02 11 15 50 46 08 42 69 60 17 42 14 68 61 14 48 82 80 37 14 20 56 39 59 89 63 33 90 38 44 50 78 22 87 10 88 06 58 87 39 67 03 68 03 13 60 64 13 90 37 11 86 02 57 41 99 31 66 60 65 64 03 03 02 58 97 65 16 58 11 01 98 78 80 63 23 07 37 66 20 56 20 96 06 79 80 33 39 40 49 42 24 65 58 57 04 18 62 85 28 24 26 45 17 82 76 39 65 01 73 91 50 37 49 38 73 02 72 64 07 75 85 66 48 38 73 75 10 96 59 31 48 78 58 08 88 72 08 54 57 17 79 16 78 63 99 43 61 00 66 42 76 26 71 14 33 33 86 76 71 66 37 85 05 56 07 04 75 14 93 39 68 52 16 83 34 64 09 44 62 58 48 32 72 26 95 32 67 35 49 71 40 64 64 57 60 97 00 12 91 33 22 14 73 01 11 83 97 68 95 65 67 77 80 98 87 7) Resolva o exercício anterior tomando uma amostra de 6 elementos, utilizando a tabela de números aleatórios a partir da intersecção da vigésima segunda coluna com a oitava linha. 8) Uma indústria recebeu determinado tipo de peça de dois fornecedores, sendo 30 peças do fornecedor A e 20 do B. Sabe-se que o aspecto a ser analisado é o peso. As peças foram numeradas ao darem entrada no almoxarifado e as 30 primeiras foram as do fornecedor A. 33 38 34 34 34 31 36 35 32 37 35 34 30 37 36 33 34 34 32 39 34 33 33 34 31 32 36 33 29 36 34 35 34 33 31 35 35 35 37 32 34 34 36 35 34 33 32 38 34 33 Pede-se: a) Utilizando a tabela de números ao acaso a partir do 11º dígito da 5ª linha, tome uma amostra de tamanho 10 e calcule o peso médio e a variância dos pesos das peças da amostra; a) Se fosse efetuada uma amostragem estratificada proporcional e a amostra fosse de 15 elementos, quantos seriam retirados de cada estrato? b) Suponha que das 30 peça do fornecedor A tenha sido colhida uma amostra sistemática de 5 peças e sabe-se que a 3ª peça a entrar no almoxarifado faz parte da amostra. Calcule a média e o desvio padrão dos pesos das peças dessa amostra. Estatística Indutiva para os cursos de Engenhariae Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 15 9) Uma população está dividida em 4 estratos de tamanhos 180, 420, 240 e 360. Foi realizada uma amostragem estratificada proporcional e foram retirados 9 elementos do menor estrato. Qual o tamanho total da amostra? 10) Na terceira série de um curso de Engenharia Mecatrônica existem duas turmas: a da manhã com 40 alunos e a da noite com 20 alunos. As 40 primeiras notas são dos alunos da manhã e as outras 20 são dos alunos da noite. 6,0 6,2 6,6 6,1 6,0 6,8 7,0 7,1 6,5 6,9 6,3 6,5 6,8 6,3 6,4 6,5 7,2 6,0 6,2 6,1 6,6 6,8 6,9 6,2 6,4 6,6 7,0 6,4 6,3 6,5 6,8 6,0 6,6 7,0 6,3 7,1 6,8 6,3 6,1 6,0 6,0 5,1 4,8 6,0 5,0 4,5 4,0 5,0 5,1 5,5 4,5 4,6 5,1 5,3 5,5 4,7 4,8 5,3 5,2 5,8 a) Foi retirada uma amostra aleatória de 10 notas com auxílio da tabela de números ao acaso, a partir da intersecção da sétima linha com a vigésima sexta coluna. Calcule a média e a variância das notas dessa amostra; b) Se tivesse sido realizada uma amostragem estratificada uniforme de 10 notas e tivesse sido obtida média 6,4 para os alunos da manhã e 5,2 para os alunos da noite, em quanto você estimaria a média dos 60 alunos? c) Se das notas dos alunos da manhã fosse retirada uma amostra sistemática de 8 notas e soubéssemos que a oitava nota (7,1) faz parte dessa amostra, qual a média e o desvio padrão das notas dessa amostra? Respostas: 1) Seleciona-se, para a amostra, um de cada três prontuários ordenados (por exemplo, o terceiro de cada três). 2) O pesquisador pode usar a técnica de amostragem estratificada, isto é, sortear um periquito de cada gaiola para compor a amostra. 3) Neste caso, é razoável esperar os seguintes tipos de tendenciosidade: a) os casais com muitos filhos responderiam, pensando na possibilidade de algum tipo de ajuda, como instalação de uma creche no bairro; b) os casais que recentemente tiveram o primeiro filho também responderiam; c) muitos dos casais que não têm filhos não responderiam. 4) Nos domicílios onde moram muitas pessoas, será fácil o pesquisador encontrar pelo menos uma pessoa, por ocasião de sua visita. Então é razoável admitir que os domicílios com poucos moradores têm maior probabilidade de serem excluídos da amostra. 5) Os casais de gerações anteriores que não tiveram filhos não têm possibilidade de serem selecionados para a amostra. Por outro lado, os casais de gerações anteriores que tiveram muitos filhos terão grande probabilidade de serem amostrados. 6) 16,0 22,5 4,74 7) 16,17 18,17 4,26 8) a) 35 4,44 b) 9 do A e 6 do B c) 34,4 2,8 9) 60 10) a) 5,98 e 0,508 b) 6,0 c) 6,25 e 0,78 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 16 MÓDULO 3 - CORRELAÇÃO E REGRESSÃO CORRELAÇÃO 1. INTRODUÇÃO: Uma das atividades humanas que realizamos sem cessar é a de associar a variação de uma variável à variação de outra, constituindo em um dos principais métodos de ajustamento ao ambiente em que vivemos. Já nos primeiros anos de vida, a criança é capaz de associar certas expressões faciais dos pais ao seu comportamento provável. É capaz, também, de associar certos ruídos com determinadas atividades que se passam no lar, e quanto maior for o número de associações que seja capaz de fazer, tanto melhor será o seu ajustamento ao lar. Esse relacionamento entre variáveis recebe o nome de correlação. Existe uma grande quantidade de variáveis que se relacionam através de uma fórmula matemática, como por exemplo, a área de um quadrado, que depende da medida do seu lado, ou seja, a área do quadrado é igual ao valor do seu lado elevado ao quadrado: A = llll2 ; outras variáveis não se relacionam através de uma fórmula matemática, como por exemplo, beleza x inteligência. Em estatística o assunto abordado pela correlação é exatamente uma tentativa de matematizar, sem no entanto resumir por fórmulas, a relação que existe entre duas variáveis. Outros exemplos estudados pela correlação: nível econômico x nível escolar cigarros x câncer horas trabalhadas x rendimento escolar peso x idade da pessoa consumo da família x renda familiar demanda de um produto x preço etc.... Particularmente em psicologia esse assunto é largamente aplicado em T.E.P. (técnicas do exame psicológico) na medida em que avalia a precisão e a validade de testes psicológicos,também em exames vocacionais que procuram indicar a profissão futura adequada para adolescentes. O que se faz é correlacionar os resultados obtidos pelos sujeitos com os resultados esperados para cada uma das profissões e daí, indica- se a profissão onde a correlação apresentou o maior grau. 2. DIAGRAMA DE DISPERSÃO É a representação dos pares ordenados (xi ; yi), de duas variáveis aleatórias X e Y, em um sistema de coordenadas cartesianas, obtendo uma “nuvem de pontos” que denominamos diagrama de dispersão. Exemplo: A tabela abaixo fornece as notas de 10 alunos de uma universidade nas disciplinas de matemática e estatística: N O T A S ALUNO MATEMÁTICA (xi) ESTATÍSTICA (yi) 01 5,0 6,0 02 5,0 9,0 03 7,0 8,0 04 10,0 10,0 05 6,0 5,0 06 7,0 7,0 07 9,0 8,0 08 3,0 4,0 09 8,0 6,0 10 2,0 2,0 xi e yi são as variáveis dadas na tabela. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 17 Diagrama de dispersão (gráfico da tabela): 0 2 4 6 8 10 12 0 2 4 6 8 10 12 notas de matemática n o ta s d e es ta tí st ic a Os pontos obtidos, no diagrama (nuvem de pontos), vistos em conjunto, formam uma elipse em diagonal. Podemos imaginar que, quanto mais fina (achatada) for a elipse, mais ela se aproximará de uma reta. Dizemos, então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear. Se essa reta for crescente, a correlação será linear positiva e se for decrescente, a correlação será linear negativa. 0 2 4 6 8 10 12 0 2 4 6 8 10 12 notas de matemática n o ta s d e es ta tí st ic a Correlação linear negativa 2 4 6 8 10 x Correlação linear positiva • • • • • • y • 10 8 6 4 2 0 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 18Ausência de correlação (correlação nula) • 2 4 6 8 10 x 1. MEDIDAS DE CORRELAÇÃO A correlação linear procura medir a relação entre duas variáveis X e Y através da disposição dos pontos (x, y) em torno de uma reta. O instrumento de medida da correlação linear é dado pelo coeficiente de correlação de Pearson que varia entre –1 e +1 no seguinte esquema: correlação aumenta correlação aumenta negativamente positivamente −−−−1 − 0,75 − 0,5 − 0,25 0 0,25 0,5 0,75 1 | | | | | | | | | Correlação positiva perfeita Correlação positiva alta (forte) Correlação positiva média Correlação positiva baixa (fraca) Ausência de correlação (correlação inexistente) Correlação negativa baixa (fraca) Correlação negativa média Correlação negativa alta (forte) Correlação negativa perfeita • • • • • • y • 10 8 6 4 2 0 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 19 4. Coeficiente de Pearson (rP) – Se as variáveis em questão X e Y são cardinais, utilizamos o coeficiente de Pearson (Karl Pearson, 1857– 1936) dado pela fórmula: rP = ])y ( y . n [ . ])x ( x . [n ) y ( . ) x ( ) y. (x . n 2 i 2 i 2 i 2 i iiii ∑ ∑ ∑ ∑−− ∑ ∑ ∑− , onde: n = número de observações OBS.: O coeficiente de Correlação Linear de Pearson pode ser calculado também por uma Fórmula Alternativa que é: rP = yyxx xy SS S . , onde: 1 )).(( ),cov( − −− = ∑ = n yyxx yxS ii xy , que é a covariância entre as variáveis x e y, cujo resultado determina o sinal e o grau da correlação das variáveis; ( ) ∑ ∑−= n x xS i ixx 2 2)( e ( ) ∑ ∑−= n y yS i iyy 2 2)( NOTA: O Coeficiente de Pearson calculado pela primeira fórmula é mais preciso que o calculado pela segunda fórmula (fórmula alternativa), pois trabalha com os Dados Brutos, sem transformações, sem arredondamentos. Exemplo: Calcule e interprete o coeficiente de Pearson (rP) para os dados da tabela: ALUNO BIOLOGIA (Xi) FISIOLOGIA (Yi) 1 4,5 3,5 2 6 4,5 3 3 3 4 2,5 2 5 5 5,5 6 5,5 5 7 1,5 1,5 8 7 6 ΣΣΣΣ 35 31 Completando a tabela, temos: Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 20 ALUNO BIOLOGIA (Xi) FISIOLOGIA (Yi) Xi . Yi (Xi) 2 (Yi) 2 1 4,5 3,5 15,75 20,25 12,25 2 6 4,5 27 36 20,25 3 3 3 9 9 9 4 2,5 2 5 6,25 4 5 5 5,5 27,5 25 30,25 6 5,5 5 27,5 30,25 25 7 1,5 1,5 2,25 2,25 2,25 8 7 6 42 49 36 ΣΣΣΣ 35 31 156 178 139 OBSERVAÇÃO: Como o cálculo de rP é trabalhoso, recomenda-se fazer o gráfico antes de começar qualquer cálculo. Se os pontos do gráfico distribuírem-se de tal modo que lembrem uma linha reta, convém calcular rP; se os pontos estiverem dispersos de modo não-linear, não convém calcular rP . A) Diagrama de Dispersão: 0 2 4 6 8 0 2 4 6 8 Notas de Biologia N o ta s d e F is io lo g ia B) Coeficiente de Pearson: rP = ]31 139 8. [ . ]35 178 . 8 [ 31 . 35 156 . 8 ])y ( y . n [ . ])x ( x . [n ) y ( . ) x ( ) y. (x . n 222 i 2 i 2 i 2 i iiii −− − = ∑ ∑ ∑ ∑−− ∑ ∑ ∑− rP = 35,173 163 rP = 0,94 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 21 C) Interpretação do resultado (correlação positiva alta) O resultado obtido pelo coeficiente de Pearson (rP = 0,94) indica uma correlação positiva altamente significativa entre as duas variáveis analisadas. D) Cálculo pela Fórmula Alternativa: 8 35 178 2 −=xxS = 24,875 , 8 31 139 2 −=yyS = 18,875 , 8 31.35 156 −=xyS = 20,375 rP = 875,18.875,24 375,20 = 668,21 375,20 rP = 0,94 OBSERVAÇÃO: A natureza não produz correlações perfeitas (do tipo rP = 1,00 ou rP = −1,00). Essas correlações pertencem ao campo da Matemática, por exemplo, se y = 2x, então: rP = ](20) (120) 5. [ . ](10) (30) . 5 [ (20) . (10) (60) . 5 ])y ( y . n [ . ])x ( x . [n ) y ( . ) x ( ) y. (x . 222 i 2 i 2 i 2 i iiii −− − = −− − ∑ ∑ ∑ ∑ ∑ ∑ ∑n rP = 200.50 100 = 10000 100 = 100 100 rP = 1,00 EXERCÍCIOS PROPOSTOS: 1. Descreva um exemplo de correlação linear positiva e um exemplo de correlação linear negativa, esboçando para cada um o respectivo diagrama de dispersão; Xi Yi Xi . Yi (Xi) 2 (Yi) 2 0 0 0 0 0 1 2 2 1 4 2 4 8 4 16 3 6 18 9 36 4 8 32 16 64 Σ 10 20 60 30 120 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 22 2. Numa pesquisa realizada sobre, número de cigarros fumados por dia (x) e idade da morte (y): Nº de cigarros/dia Idade da morte 20 60 25 55 30 40 15 70 25 55 20 61 18 63 28 42 20 58 Pede-se: a) esboçar o diagrama de dispersão; b) calcular o coeficiente de Pearson; c) interpretar os resultados. 3.De acordo com um estudo realizado por uma equipe de pesquisadores, as variáveis “medo do escuro” e “tempo de convivência diária com a mãe” estão correlacionadas. A variável medo foi medida através de uma escala que variou entre 1 e 5, sendo 1 o grau mínimo e 5 o grau máximo. A variável tempo foi avaliada em número de horas diárias que a criança convive exclusivamente com a mãe. Abaixo encontram-seos resultados do estudo em questão, obtidos com 8 crianças: Artigo I. Medo do escuro 2 4 3 5 1 3 5 3 Artigo II. Tempo de convivência 10 8 6 3 12 8 4 7 Pede-se: a) esboçar o diagrama de dispersão; b) calcular o coeficiente de Pearson; c) interpretar os resultados. 4. De acordo com uma pesquisa em uma clínica psicológica, levantou-se a hipótese segundo a qual o tempo de internação dos pacientes teria uma relação com o grau de satisfação que os sujeitos têm por sua família. Foi elaborado um questionário cujo resultado identificava, em uma escala de 0 a 10, o grau de satisfação dos sujeitos. Com base nos resultados, realize o procedimento adequado para a confirmação ou não desta hipótese, e interprete o resultado. X = grau de satisfação familiar Y = tempo de internação (número de dias) Artigo III. X 8 4 2 1 9 10 3 5 6 2 Artigo IV. Y 20 5 14 8 3 2 18 30 5 15 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 23 REGRESSÃO LINEAR Como vimos na Correlação, os pares ordenados de uma tabela determinam o que denominamos de diagrama de dispersão, que representa uma correlação entre as variáveis da tabela dada. Cabe à regressão linear fazer o ajustamento da reta, ou seja, obter a equação da reta que melhor se ajusta aos pontos dados no diagrama de dispersão. A análise de regressão tem por objetivo descrever, através de uma equação matemática, o relacionamento entre duas variáveis, partindo de n observações das mesmas. A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente (y) e a outra recebe o nome de variável independente (x) A equação do ajustamento de uma reta é dada por: y* = a x + b, onde a e b são os parâmetros. A indicação y* é devida pelo fato da eq. de regressão ter um valor aproximado ou teórico. Os valores dos parâmetros a e b são obtidos pelo método dos mínimos quadrados em que: a = ∑ ∑− ∑ ∑ ∑− 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n e b = x a y − , onde: n é o número de observações; x é a média dos valores xi : ∑= n x x i • • y é a média dos valores yi : ∑= n y y i • EXEMPLO: A tabela a seguir indica as quantidades produzidas mensalmente de um produto e os respectivos custos totais de produção: quantidade produzida xi 10 12 13 14 15 16 custo total (R$) yi 200 230 270 290 280 300 Pede-se estabelecer pela análise de regressão: a) a reta que melhor se ajusta a esses dados; b) o valor mais provável dos custos fixos; c) o valor do custo estimado para 18 produtos. reta imagem • • • • • • 10 8 6 4 2 0 y • 2 4 6 8 10 x Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 24 a) xi yi xi . yi xi 2 10 200 2000 100 12 230 2760 144 13 270 3510 169 14 290 4060 196 15 280 4200 225 16 300 4800 256 ΣΣΣΣ 80 1570 21330 1090 33,13 6 80 n x x i === ∑ e 66,261 6 1570 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 17 140 2380 80 1090 . 6 1570 . 80 21330 .6 2 == − − b = x a y − = 261,66 – 17 . 13,33 = 35,05 ≅ 35 Portanto a equação de ajuste da reta é: y = ax + b y* = 17x + 35 0 50 100 150 200 250 300 350 0 5 10 15 20 quantia produzida (unid.) cu st o t o ta l (R $) b) o Custo fixo é obtido quando fazemos x = o, assim: y* = 17 . 0 + 35 = 0 + 35 y* = R$ 35,00 (custo fixo) d) o Custo estimado para x = 18 é dado por: y* = 17 . 18 + 35 = 306 + 35 y* = R$ 341,00 (custo estimado) EXERCÍCIOS: 1. A tabela abaixo indica a quantidade de bolas de basquete produzidas mensalmente e os respectivos custos totais de produção: quantidade xi 10 11 12 13 14 15 custos em R$ yi 100 112 119 130 139 142 Reta que melhor se ajusta aos dados Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 25 Pede-se: a) a reta que melhor se ajusta a esses dados; b) o valor mais provável dos custos fixos; c) qual o custo para a quantidade de 16 bolas. 2. A tabela abaixo mostra a taxa de desemprego em porcentagem da população economicamente ativa de 1980 a 1992 de um determinado país. Pede-se: a) a reta que melhor se ajusta a esses dados; b) avaliar (estimar) a taxa de desemprego para o ano de 1993 Ano (xi) 80 81 82 83 84 85 86 87 88 89 90 91 92 % (yi) 2,2 4,3 4 4,3 4,9 4,5 2,4 2,6 3,8 3,2 2,6 4,5 6 3. A tabela abaixo mostra as alturas e o peso em quilogramas de uma amostra de alunos do curso de administração do 1º semestre. Pede-se: a) a reta que melhor se ajusta a esses dados; b) avaliar a altura do aluno cujo peso é 63 kg; c) avaliar o peso do aluno cuja altura é 180 cm peso (xi) 45 60 58 55 66 58 70 68 76 altura (yi) 150 155 158 160 162 165 170 175 178 4. A tabela abaixo revela uma amostra de valores de seguro pessoal contratados em função da quantidade de salários mínimos recebidos. Usando a equação de regressão linear, qual seria o montante segurado para alguém que recebe 30 salários mínimos? Salários (xi) 13 16 17 18 20 25 26 32 38 40 42 Seguro (mil R$) (yi) 50 150 200 100 100 120 150 300 400 500 400 5. A variação do valor do BTN (Bônus do Tesouro Nacional), relativamente a alguns meses de 1990, deu origem à tabela: Meses (xi) abr mai jun jul ago set out nov Valores ($) (yi) 41,73 41,73 43,98 48,91 53,41 59,06 66,65 75,76 Pede-se: a) a reta que melhor se ajusta a esses dados; ( y* = 4,9x + 17,15 ) b) estime o valor do BTN para o mês de dezembro do mesmo ano. ( $ 75,95 ) Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 26 Resolução dos exercícios da página 24 – Prof. Machado 1. quantidade xi 10 11 12 13 14 15 custo total (R$) yi 100 112 119 130 139 142 a) xi yi xi . yi xi 2 10 100 1000 100 11 112 1232 121 12 119 1428 14413 130 1690 169 14 139 1946 196 15 142 2130 225 ΣΣΣΣ 75 742 9426 955 5,12 6 75 n x x i === ∑ e 66,123 6 742 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 8,63 105 906 75 955 . 6 742 . 75 9426 .6 2 == − − b = x a y − = 123,66 – 8,63 . 12,5 = 15,785 ≅ 15,78 Portanto a equação de ajuste da reta é: y* = ax + b y* = 8,63x + 15,78 0 20 40 60 80 100 120 140 160 0 5 10 15 20 quantidade de bolas cu st o t o ta l ( R $) b) o Custo fixo é obtido quando fazemos x = o, assim: y* = 8,63 . 0 + 15,78 = 0 + 15,78 y* = R$ 15,78 (custo fixo) c) o Custo estimado para x = 16 é dado por: y* = 8,63 . 16 + 15,78 = 138,08 + 15,78 y* = R$ 153,86 (custo estimado) Reta que melhor se ajusta aos dados Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 27 2. Ano (xi) 80 81 82 83 84 85 86 87 88 89 90 91 92 % (yi) 2,2 4,3 4 4,3 4,9 4,5 2,4 2,6 3,8 3,2 2,6 4,5 6 a) xi yi xi . yi xi 2 80 2,2 176 6400 81 4,3 348,3 6561 82 4 328 6724 83 4,3 356,9 6889 84 4,9 411,6 7056 85 4,5 382,5 7225 86 2,4 206,4 7396 87 2,6 226,2 7569 88 3,8 334,4 7744 89 3,2 284,8 7921 90 2,6 234 8100 91 4,5 409,5 8281 92 6 552 8464 ΣΣΣΣ 1118 49,3 4250,6 96330 86 13 1118 n x x i === ∑ e 8,3 13 3,49 n y y i ===∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 0,06 2366 140,4 1118 13.96330 49,3 . 1118 4250,6 .13 2 == − − b = x a y − = 3,8 – 0,06 . 86 ≅ −1,36 Portanto a equação de ajuste da reta é: y* = ax + b y* = 0,06x – 1,36 b) a taxa de desemprego (estimada) para 1993 é obtida fazendo na equação do ajuste x = 93. Assim, y* = 0,06 . 93 – 1,36 = 5,58 – 1,36 = 4,2% Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 28 3. peso (xi) 45 60 58 55 66 58 70 68 76 altura (yi) 150 155 158 160 162 165 170 175 178 a) xi yi xi . yi xi 2 45 150 6750 2025 60 155 9300 3600 58 158 9164 3364 55 160 8800 3025 66 162 10692 4356 58 165 9570 3364 70 170 11900 4900 68 175 11900 4624 76 178 13528 5776 ΣΣΣΣ 556 1473 91604 35034 78,61 9 556 n x x i === ∑ e 67,163 9 1473 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 0,88 6170 5448 556 35034 . 9 1473 . 556 91604 .9 2 == − − b = x a y − = 163,67 – 0,88 . 61,78 = 109,3 Portanto a equação de ajuste da reta é: y* = ax + b y* = 0,88x + 109,3 b) para um peso x = 63 kg, temos: y* = 0,88 . 63 + 109,3 y* = 164,74 cm c) para uma altura y = 180 cm, temos: 180 = 0,88 x + 109,3 0,88 x = 180 – 109,3 0,88 x = 70,7 x = 80,34 kg Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 29 4. Salários (xi) 13 16 17 18 20 25 26 32 38 40 42 Seguro (mil R$) (yi) 50 150 200 100 100 120 150 300 400 500 400 a) xi yi xi . yi xi 2 13 50 650 169 16 150 2400 256 17 200 3400 289 18 100 1800 324 20 100 2000 400 25 120 3000 625 26 150 3900 676 32 300 9600 1024 38 400 15200 1444 40 500 20000 1600 42 400 16800 1764 ΣΣΣΣ 287 2470 78750 8571 1,26 11 287 n x x i === ∑ e 5,224 11 2470 n y y i ===∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 13,2 11912 157360 287 11.8571 2470 . 287 78750 .11 2 == − − b = x a y − = 224,5 – 13,2 . 26,1 ≅ −120 Portanto a equação de ajuste da reta é: y* = ax + b y* = 13,2x – 120 b) para quem recebe x = 30 salários mínimos, temos: y* = 13,2 . 30 – 120 = 396 – 120 y* = R$ 276,00 de montante segurado. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 30 5. Meses (xi) abr mai jun jul ago set out nov Valores ($) (yi) 41,73 41,73 43,98 48,91 53,41 59,06 66,65 75,76 a) xi yi xi . yi xi 2 4 41,73 166,92 16 5 41,73 208,65 25 6 43,98 263,88 36 7 48,91 342,37 49 8 53,41 427,28 64 9 59,06 531,54 81 10 66,65 666,5 100 11 75,76 833,36 121 ΣΣΣΣ 60 431,23 3440,5 492 5,7 8 60 n x x i === ∑ e 9,53 8 23,431 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 4,9 336 1650,2 60 8.492 431,23 . 60 3440,5 .8 2 == − − b = x a y − = 53,9 – 4,9 . 7,5 = 17,15 Portanto a equação de ajuste da reta é: y* = ax + b y* = 4,9x + 17,15 b) para o mês de dezembro, devemos ter x = 12. Logo: y* = 4,9 . 12 + 17,15 = 58,8 + 17,15 y* = $ 75,95 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 31 MÓDULO 4 −−−− ESTIMATIVA DE PARÂMETROS. 1. Parâmetro – é a medida usada para descrever uma característica numérica populacional, ou seja, da população. Exemplos de parâmetros populacionais: média (representada por µ), variância (representada por σ2) e desvio-padrão (representado por σ). 2. Estatísticas da amostra – são medidas características determinadas na amostra para escolher os estimadores de um parâmetro populacional. Exemplos de parâmetros populacionais: média amostral (representada por x ), Variância amostral (representada por s2) e desvio-padrão amostral (represen- tado por s). Resumindo: Parâmetros Populacionais Estatísticas da amostra (Estimadores) Média µ x Variância σ2 s2 Desvio padrão σ s 3. Distribuição Amostral – quando selecionamos aleatoriamente várias amostras de tamanho n da população, os valores da média e do desvio-padrão calculados estarão distribuídos em torno de valores verdadeiros para a população. Se selecionarmos aleatoriamente, todas as amostras com mesmo tamanho n desta população e calcularmos umaestatística x ou uma estatística s para as amostras, podemos construir uma distribuição de probabilidades da estatística. Essa distribuição é chamada de Distribuição Amostral. Observações: a) A média das médias das amostras é igual à média populacional, ou seja: µµ x ==== b) O desvio-padrão das médias das amostras é igual ao desvio-padrão populacional dividido pela raiz quadrada de n, ou seja: n x σ σ ==== O desvio-padrão da distribuição amostral das médias das amostras é denominado erro padrão da média. c) Amostra com reposição é aquela em que o elemento extraído é devolvido à população após anotadas suas características. d) Amostra sem reposição é aquela em que o elemento extraído não é devolvido à população após anotadas suas características. Exemplo: Suponha que a média de uma população bastante grande seja µ = 50 e o desvio padrão σ =12. Determinar a distribuição de amostragem das médias das amostras de tamanho n = 36. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 32 Solução: Em termos de valor esperado e de erro padrão da distribuição, temos: xµ = µ = 50 e n x σ σ ==== = 36 12 = 6 12 = 2 Notas: 1) Se usarmos amostras de uma população finita, deve-se incluir um fator de correção finita (ou fator de correção para população finita) na fórmula do erro padrão da média. Uma “regra de bolso” é que a correção é insignificante e pode ser omitida sempre que n < 0,05.N; isto é, quando o tamanho da amostra for menor que 5% do tamanho da população. A fórmula para o erro padrão da média quando se inclui o fator de correção finita é: n x σ σ ==== . 1N nN −−−− −−−− 2) Se o desvio padrão da população σσσσ for desconhecido, o erro padrão da média pode ser estimado, usando-se o desvio padrão da amostra s como um estimador do desvio padrão da população. Para diferenciar este erro padrão daquele baseado em um σσσσ conhecido, denota-se o mesmo por xs . A fórmula para o erro padrão estimado da média é: n s sx ==== A fórmula para o erro padrão estimado da média quando se inclui o fator de correção finita é: n s sx ==== . 1N nN −−−− −−−− , onde 1N nN −−−− −−−− é o fator de correção finita. Exemplo: Um auditor toma uma amostra aleatória de tamanho n = 16 de um conjunto de N = 100 contas a receber. Não se conhece o desvio padrão dos valores das 100 contas a receber. Contudo, o desvio padrão da amostra é s = $ 57,00. Determinar o valor do erro padrão da distribuição de amostragem da média. Solução: Temos: n = 16 e 5%.N = 0,05 . 100 = 5, então, n > 5%.N. Logo, usaremos o fator de correção finita para calcularmos o erro padrão estimado da média com base no desvio padrão amostral, ou seja: n s sx ==== . 1N nN −−−− −−−− = 16 57 . 1100 16100 −−−− −−−− = 4 57 . 99 84 = 14,25 . 0,9211 ≅ $ 13,13 3.1. Distribuição amostral das proporções Uma distribuição de proporções amostrais indica quão provável é determinado um conjunto de proporções amostrais, dados o tamanho da amostra e a proporção populacional. Quando o tamanho da amostra é 20 ou menos, as probabilidades dos diversos resultados possíveis podem ser lidas diretamente numa tabela de probabilidades binomiais simplesmente convertendo o número de sucessos em porcentagens. Por exemplo, 3 ocorrências em 10 observações correspondem a 30%, 5 ocorrências em 20 observações correspondem a 25%. Para maiores amostras, a aproximação normal da binomial dá resultados bastante satisfatórios. A média (proporção ou porcentagem média) da distribuição amostral é sempre igual à proporção populacional, isto é, p = p , onde: p = proporção populacional e p = média da distribuição amostral das proporções. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 33 Quando a população é muito grande ou infinita, o desvio padrão da distribuição amostral se calcula pela fórmula: n )p1( .p )p( − =σ ou n q p p . )( =σ , pois (1 – p) = q Exemplo1: Um varejista compra copos diretamente da fábrica em grandes lotes. Os copos vêm embrulhados individualmente. Periodicamente o varejista inspeciona os lotes para determinar a proporção dos quebrados ou lascados. Se um grande lote contém 10% de quebrados ou lascados, qual a probabilidade de o varejista obter uma amostra de 100 copos com 17% ou mais defeituosos? Solução: Temos: µ(p ) = p = 10%, que é a porcentagem populacional de defeitos, então (1 – p) = 90%; n = 100 O desvio padrão será: n )p1( .p )p( − =σ = 100 )90,0).(10,0( = 10 3,0 = 0,03 = 3%. z = )p( )p(p σ µ− = %3 %10%17 − = %3 %7 = 2,33 tab.: 0,4901 Potanto, P( p ≥ 17%) = P(z ≥ 2,33) = 0,5 – 0,4901 = 0,0099 = 0,99% ≅ 1% 4. Teorema do Limite Central – À medida que se aumenta o tamanho da amostra, a distribuição de amostragem da média se aproxima da forma da distribuição normal, qualquer que seja a forma da distribuição populacional. Na prática, a distribuição de amostragem da média pode ser considerada como distribuição normal sempre que o tamanho da amostra for n ≥≥≥≥ 30. Portanto, o uso da distribuição normal na estimativa da média populacional é garantido para qualquer grande amostra (n ≥ 30), sendo-o para uma pequena amostra (n < 30) somente se a população for normalmente distribuída e σ for conhecido, ou seja, é importante saber que a população submetida a amostragem tem distribuição normal, ou ao menos aproximadamente normal. Exemplo 1: Um auditor toma uma amostra de n = 36 de uma população de 1.000 contas a receber. O desvio padrão da população é desconhecido, mas o desvio padrão da amostra é s = $ 43,00. Se o verdadeiro valor da média da população de contas a receber é µ = $ 260,00, qual a probabilidade de que a média da amostra seja menor ou igual a $ 250,00, ou seja, P( x ≤ 250) = ? Solução: 5%N = 0,05.1000 = 50 n < 5%N. Logo, não inclui fator de correção. 10% 17% p 0 2,33 z 0,4901 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 34 A distribuição de amostragem é descrita pela média e pelo erro padrão: xµ = µ = 260,00 (como foi dado); n s sx ==== = 36 43 = 6 43 ≅ 7,17 Nota: s é usado como estimador de σσσσ, e o fator de correção finita não é necessário, uma vez que (n = 36 < 5%N = 0,05 . 1000 = 50) zo = xs x µ−−−− = 17,7 260250 −−−− = 17,7 10−−−− = −1,39 Tab.: 0,4177 P(x ≤≤≤≤ 250) = P(z ≤ −1,39) = 0,5 – 0,4177 = 0,0823 = 8,23% Exemplo 2: Uma transportadora entrega em uma adega 30 caixas, cada uma contendo três dúzias de garrafas de vinho. Sabendo-se queo volume médio do lote é 750 ml por garrafa, com um desvio-padrão de 20 ml, determine: a) o volume médio de cada caixa; b) a probabilidade de uma caixa, que contém 36 garrafas ter volume médio inferior a 740 ml, ou seja, P( x < 740) = ? Como a população é composta de N = 30 x 36 = 1080 garrafas, ela pode ser considerada infinita; Como n = 36 garrafas (n > 30), pode ser considerada uma grande amostra. Daí, a distribuição amostral do volume médio por garrafa pode ser considerado normal, seja qual for a distribuição populacional. a) A média da distribuição amostral é sempre igual à média da população. Logo, o volume médio por caixa será: µ=µ )x( = 750 ml b) Para determinar a probabilidade de uma caixa ter volume médio inferior a 740 ml, devemos calcular: I) o desvio padrão da distribuição amostral do volume médio: n )x( σ =σ = 36 20 = 6 20 = 3 10 (n = 36 < 5%N = 54 não inclui fator de correção finita). II) o valor do volume limite na escala reduzida padronizada Z: zo = )x( )x(x σ µ− = 3 10 750740 − = 10 10 .3− zo = − 3 tab.: 0,4986 P(x < 740) = P(z < −3) = 0,5000 – 0,4986 = 0,0014 = 0,14% zo 0.00 --- 0.09 1.3 0.4032 --- 0.4177 750 740 x 50% 0,5 −3 0 Z 0,4986 260 250 x 50% 0,5 −1,39 0 Z 0,4177 …… …… …… …… …… …… …… …… Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 35 Exemplo2: Uma máquina de encher sacos plásticos de leite foi ajustada para um volume médio de 1.000 ml, com um desvio padrão de 25 ml. O ajuste deve ser sempre verificado porque o Serviço de Inspeção Federal – SIF multará o fabricante se uma amostra aleatória acusar volume médio inferior a 950 ml e os sacos poderão romper-se no transporte se contiverem mais que 1.050 ml de leite. Se uma amostras de 25 unidades for aleatoriamente escolhidas sem reposição de um lote de 750 sacos, qual será: a) O volume médio esperado? b) O desvio padrão da distribuição amostral correspondente? c) O número de amostras com volume médio entre 990 ml e 1.010 ml? Temos: N = 750; n = 25; σ = 25; 5%N = 0,05.750 = 37,5 n < 5%N a) o volume médio esperado é igual ao volume populacional: µ=µ )x( = 1000 ml b) o desvio padrão da distribuição amostral correspondente é: n )x( σ σ ==== = 25 25 = 5 25 5 ml c) como σ é conhecido e a população tem distribuição amostral, ela é aproximadamente normal. P(990 < x < 1010) =? z1 = )x( )x(x σ µ− = 5 1000990 −−−− = − 2 tab.: 0,4772 z2 = )x( )x(x σ µ− = 5 10001010 −−−− = 2 tab.: 0,4772 Então: P(990 < x < 1010) = P(−2 < z < 2) = 2 . 0,4772 = 0,9544 = 95,44% Portanto, o número de amostras com volume médio entre 990ml e 1010ml é: n = 25 . 95,44% = 23,86 ≅ 24 5. Estimação Pontual – Uma estimativa é pontual quando é obtida de um único valor para um parâmetro populacional. Exemplo: a média amostral x é uma estimativa pontual para a média populacional µ. 6. Estimação por Intervalos. a) Uma estimativa intervalar é um intervalo (ou uma amplitude) de valores usados para estimar um parâmetro populacional. b) Nível de confiança (ou grau de confiança ou coeficiente de confiança) – é a probabilidade de que o intervalo estimado contenha o parâmetro populacional. Vimos que: Se n ≥ 30, a distribuição amostral das médias é uma distribuição normal. zo 0.00 0.01 0.02 2.0 0.4772 0.4778 0.4783 x 1000 1010 990 0,4772 Z 0 2 − 2 0,4772 …… …… …… …… …… …… …… …… Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 36 O nível de confiança c é a área sob a curva normal reduzida, entre os valores críticos −zc e zc Nota: Alguns autores representam o nível de confiança por (1 – α) (geralmente expressa com valor porcentual). 7. Intervalos de confiança para a média (amostras grandes) Sendo c um nível de confiança, a margem de erro E é a maior distância possível entre a estimativa pontual e o valor do parâmetro a ser estimado. Esse erro é dado pela fórmula: E = zc . n σ ou E = 2 z α . n σ Observação: Se n ≥ 30, o desvio padrão amostral s poderá ser usado no lugar do desvio padrão populacional σσσσ quando este for desconhecido. Neste caso, E = zc . n s ou E = 2 z α . n s Um intervalo de confiança c para a média populacional µµµµ é dado por: x − E < µµµµ < x + E ou µ = x ± E ou µ = x ± 2 z α . n σ Nota: Dizemos que c ou (1 – α) é a probabilidade de que o intervalo de confiança contenha a média populacional µµµµ. Observação: Os intervalos de confiança mais freqüentemente utilizados são os de 90%, 95% e 99% Proporções selecionadas de área sob a curva Nível (ou grau) de confiança c ou (1 – α)% α Valor crítico zc = 2 z α 90% = 0,90 10% = 0,10 1,645 95% = 0,95 5% = 0,05 1,96 99% = 0,99 1% = 0,01 2,575 1 − α = 90% α = 10% 1 − α = 95% α = 5% 1 − α = 99% α = 1% Exemplo: 2 α = 5% 45%=0,45 Z 0 1,645 − 1,645 45% 2 α = 5% 90% 2 α = 2,5% 1,96 − 1,96 47,5%=0,475 Z 0 47,5% 2 α = 2,5% 95% 49,5%=0,495 2 α = 0,5% Z 0 2,57 − 2,57 49,5% 2 α = 0,5% 99% z = 0 zc − zc z c (1 – αααα) 2 α 2 α 2 z α− 2 z α Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 37 Uma amostra aleatória de n = 36 elementos retirados de uma população aproximadamente normal forneceu média x = 15,5 e desvio-padrão s = 1,5. Construir um intervalo de 95% de confiança para a média dessa população. Solução: c = 95% = 0,95 ; n = 36 (n ≥ 30); s = 1,5 e x = 15,5 Na tabela da distribuição normal reduzida encontramos zc = 1,96 E = zc . n s = 1,96 . 36 5,1 = 0,49 (margem de erro) O intervalo será: 15,5 – 0,49 < µ < 15,5 + 0,4915,01 < µµµµ < 15,99 Portanto, com 95% de confiança, podemos dizer que a média populacional está entre 15,01 e 15,99. Refazer o exercício anterior para intervalo de 90% e 99% de confiança. (Você pode usar o valor de zc de acordo com a tabela de proporções selecionadas de área sob a curva representada na p.36) Nota: Quando a população é finita e a amostra constitui mais de 5% da população, devemos aplicar o fator de correção finita para modificar os desvios padrões das fórmulas: E = zc . n σ . 1N nN − − e E = zc . n s . 1N nN − − 8. Tamanho da amostra O tamanho da amostra para estimar a média, depende do grau de confiança desejado, da quantidade de dispersão entre os valores individuais da população e certa quantidade específica de erro tolerável. Para um nível de confiança c e um erro máximo E, podemos obter o tamanho mínimo da amostra necessária para estimar a média populacional a partir da fórmula do erro, ou seja: E = zc . n σ n = E .zc σ ( )2n = 2 c E .z σ n = 2 c E .z σ Exemplo 1 – Que tamanho de amostra será necessário para produzir um intervalo de 90% de confiança para a verdadeira média populacional, com erro de 1,0 em qualquer dos sentidos, se o desvio padrão da população é 10? Solução: Temos: E = 1,0; σ = 10; c = 90% = 0,90 zc = 2 z α = 1,645 n = 2 c E .z σ = 2 1 10 . 645,1 = 272,25 n ≅≅≅≅ 273 Obs.: quando necessário n será arredondado para o próximo inteiro. zc 0.00 --- 0.06 1.9 0.4032 --- 0.4750 z = 0 zc −zc z 47,5% = 0,4750 c = 95% …… …… …… …… …… …… …… …… Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 38 Exemplo 2 – Uma população aproximadamente normal forneceu média x = 15,5 e desvio-padrão de 1,5. Determinar o tamanho requerido de uma amostra para assegurar que, com confiança de 95%, a média amostral esteja dentro do intervalo 0,25 da média populacional. Solução: Temos: E = 0,25; s = 1,5 ; c = 95% = 0,95 zc = 1,96 n = 2 c E s .z = 2 0,25 1,5 . 96,1 = 138,2976 n ≅≅≅≅ 139 Exemplo 3 – Um comprador potencial deseja estimar o valor médio das compras por cliente em uma loja de brinquedos em um aeroporto. Com base em dados de outros aeroportos similares, o desvio padrão de tais valores de venda é estimado em cerca de σ = $ 0,80. Qual o tamanho mínimo que deveria ter uma amostra aleatória se a distribuição das vendas não for considerada normal e ele desejar estimar a média dos valores dentro de $ 0,50 com uma confiança de 99%? Solução: Temos: E = 0,50; σ = 0,80 ; c = 99% = 0,9 zc = 2,575 n = 2 c E .z σ = 2 0,50 0,80 . 575,2 = 16,97 n ≅ 17 Contudo, uma vez que a população não pode ser considerada como normalmente distribuída, o tamanho mínimo da amostra é n = 30, de tal forma que o Teorema do Limite Central possa ser invocado para usar-se a distribuição normal de probabilidade para construir o intervalo de confiança. 9. Intervalos de confiança para a média (amostras pequenas) Nos casos em que n < 30 e o desvio-padrão populacional σ (ou, a variância populacional σ2) é conhecido, o intervalo de confiança c ou (1 – α) é o mesmo para grandes amostras, isto é: x − E < µµµµ < x + E, onde E = zc . n σ Exemplo 1 – De uma população normalmente distribuída, com σ = 2, tiramos uma amostra de 20 elementos e obtemos x = 5,2. Determinar um intervalo de 90% de confiança para a média populacional µ. Solução: Temos: σ = 2; x = 5,2; n = 20; c = 90% = 0,9 zc = 1,645 I) E = zc . n σ = 1,645 . 20 2 = 0,7 II) x − E < µ < x + E 5,2 – 0,7 < µ < 5,2 + 0,7 4,5 < µµµµ < 5,9 Portanto, com 90% de confiança, podemos dizer que a média populacional está entre 4,5 e 5,9. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 39 Exemplo 2 – Suponha que o desvio padrão da vida útil de uma determinada marca de tubo de imagem de TV é conhecido e igual a σ = 500 horas, mas que a média da vida útil é desconhecida. Supõe-se que a vida útil dos tubos de imagem tem uma distribuição aproximadamente normal. Para uma amostra de n = 15, a média da vida útil é x = 8.900 horas de operação. Construir um intervalo de confiança de 95% para estimar a média da população. Solução: Temos: σ = 500; x = 8900; n = 15; c = 95% = 0,95 zc = 1,96 (p.36) A distribuição normal de probabilidade pode ser usada neste caso porque a população é normalmente distribuída e o σ é conhecido. I) E = zc . n σ = 1,96 . 15 500 = 253 II) x − E < µµµµ < x + E 8900 – 253 < µµµµ < 8900 + 253 8647 < µµµµ < 9153 Portanto, com 95% de confiança, podemos estimar a média populacional como estando entre 8.647 horas e 9.153 horas. Nota: Em muitos casos desconhecemos o valor do desvio-padrão populacional σσσσ e também não conseguimos uma amostra com (n ≥ 30). Nestes casos, se a população for normalmente distribuída, construímos um intervalo de confiança para a média utilizando a distribuição t de Student. Distribuição t de Student (ou Distribuição T) O criador da distribuição t foi William S. Gossett (1876 – 1937), empregado de uma cervejaria irlandesa chamada Guinnes, no início do século XX ele precisava de uma distribuição que pudesse ser utilizada com pequenas amostras. A empresa não gostava que seus empregados publicassem resultados de pesquisas e trabalhos em seu próprio nome, de modo que Gossett adotou o pseudônimo de Student em seus trabalhos sobre a distribuição t. Por isso é que ela tomou o nome de distribuição t de Student. Se a distribuição de uma variável aleatória é normalmente distribuída, então a distribuição amostral de x é uma distribuição t, onde t = x s x µ− ou t = n s )x(x µ− . Propriedades da curva t: a) A curva tem a forma de um sino tendo maior área nas caudas do que a curva Normal. Isto significa que, para um dado nível de confiança, o valor t será um pouco maior que o correspondente valor z; b) A área sob a curva é igual a 1; Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 40 c) A curva t é simétrica em torno da média; d) A distribuição t é uma família de curvas, cada uma delas depende de um parâmetro denominado grau de liberdade (g.l.). Quando usamos da distribuição t para estimar a média populacional, o número de graus de liberdade é igual ao tamanho da amostra subtraído de uma unidade, ou seja, g.l. = n −1Para encontrarmos um intervalo de confiança para a média populacional de amostras pequenas, devemos encontrar primeiramente o erro máximo, dado pela fórmula: E = tc . n s onde o valor de tc é encontrado na tabela de distribuição t, levando-se em conta o grau de liberdade (g.l.) curva t -3 -2 -1 0 1 2 3 curva t curva normal Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 41 0 tα αααα normal t 0 tα αααα normal t Tabela da Distribuição t (Student) Exemplo: O valor de tc na tabela para uma amostra de 10 elementos com nível de confiança de 95%, é igual à 2,262 Temos: n = 10 g.l. = n – 1 = 10 – 1 = 9 c = 95% c = 0,95 Logo, no cruzamento da coluna g.l. = 9 com a coluna c = 0,95, encontramos o valor de tc = 2,262. g.l. Nível de confiança c 0,50 0,80 0,90 0,95 0,98 0,99 1 1,000 3,078 6,314 12,706 31,821 63,657 2 0,816 1,886 2,920 4,303 6,965 9,925 3 0,765 1,638 2,353 3,182 4,541 5,841 4 0,741 1,533 2,132 2,776 3,747 4,604 5 0,727 1,476 2,015 2,571 3,365 4,032 6 0,718 1 ,440 1,943 2,447 3,143 3,707 7 0,711 1,415 1,895 2,365 2,998 3,499 8 0,706 1,397 1,860 2,306 2,896 3,355 9 0,703 1,383 1,833 2,262 2,821 3,250 10 0,700 1,372 1,812 2,228 2,764 3,169 11 0,697 1,363 1,796 2,201 2,718 3,106 12 0,695 1,356 1,782 2,179 2,681 3,055 13 0,694 1,350 1,771 2,160 2,650 3,012 14 0,692 1,345 1,761 2,145 2,624 2,977 15 0,691 1,341 1,753 2,131 2,602 2,947 16 0,690 1,337 1,746 2,120 2,583 2,921 17 0,689 1,333 1,740 2,110 2,567 2,898 18 0,688 1,330 1,734 2,101 2,552 2,878 19 0,688 1,328 1,729 2,093 2,539 2,861 20 0,687 1,325 1,725 2,086 2,528 2,845 21 0,686 1,323 1,721 2,080 2,518 2,831 22 0,686 1,321 1,717 2,074 2,508 2,819 23 0,685 1,319 1,714 2,069 2,500 2,807 24 0,685 1,318 1,711 2,064 2,492 2,797 25 0,684 1,316 1,708 2,060 2,485 2,787 26 0,684 1,315 1,706 2,056 2,479 2,779 27 0,684 1,314 1,703 2,052 2,473 2,771 28 0,683 1,313 1,701 2,048 2,467 2,763 29 0,683 1,311 1,699 2,045 2,462 2,756 ∞ 0,674 1,282 1,645 1,960 2,326 2,576 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 42 Um intervalo de confiança c para a média populacional µµµµ para amostras pequenas é dado por: x − E < µµµµ < x + E Exemplo 1 – Uma amostra de 15 elementos, extraída de uma população com distribuição normal, forneceu média x = 5,60 e desvio-padrão s = 0,80. Construir um intervalo de 90% de confiança para a média dessa população. Solução: Temos: n = 15; x = 5,60; s = 0,80 g.l. = n – 1 = 15 – 1 = 14 e c = 90% = 0,90 Como n < 30 e σ é desconhecido, usamos a distribuição t de Student: Logo, tc = 1,761 . Assim: I) E = tc . n s = 1,761 . 15 80,0 = 0,36 II) x − E < µµµµ < x + E 5,60 – 0,36 < µ < 5,60 + 0,36 5,24 < µµµµ < 5,96 Portanto, com 90% de confiança, podemos dizer que a média populacional está entre 5,24 e 5,96. Exemplo 2 – No exemplo (2) da página 39, construímos intervalos de confiança para estimar a média da vida útil de uma marca de tubos de imagens de TV com base na hipótese de que a vida útil de todos os tubos tinham distribuição aproximadamente normal e σ = 500 horas, dada uma amostra de n = 15, com x = 8900 horas. Suponha que σ seja desconhecido e que o desvio padrão da amostra seja s = 500 horas. Construir um intervalo de confiança de 95% para estimar a média da população e comparar este intervalo com a resposta daquele exemplo. Solução: O uso de uma distribuição t, neste caso, é apropriado porque a população é considerada como normalmente distribuída, σσσσ não é conhecido, e a amostra é pequena (n < 30). Temos: n = 15 g.l. = 15 – 1 = 14 c = 95% = 0,95 s = 500 I) E = tc . n s = 2,145 . 15 500 = 277 II) x − E < µ < x + E 8900 – 277 < µ < 8900 + 277 8623 < µµµµ < 9177 g.l. nível 0,50 de confiança c ------- 0,90 14 0,692 ------- 1,761 Tabela t: tc = 2,145 g.l. nível 0,50 de confiança c ------- 0,95 14 0,692 ------- 2,145 …… …… …… …… …… …… …… …… …… …… …… …… …… …… …… …… Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 43 Portanto, com 95% de confiança, podemos estimar a média populacional como estando entre 8.623 horas e 9.177 horas. Neste caso, nota-se claramente que o intervalo de confiança é mais amplo do que o do exemplo (2) da página 39 (8.647 horas e 9.153 horas), refletindo a diferença entre a distribuição t e a distribuição normal z. 10. Intervalos de confiança para a variância e o desvio padrão. Em muitos casos é necessário controlar o tamanho da variabilidade de um processo. Para isto utilizamos a distribuição χ2 (lê-se: qui-quadrado). Distribuição qui-quadrado χχχχ2 (χ: letra grega – pronúncia: qui) A distribuição qui-quadrado é uma estatística concebida por Karl Pearson em 1899, que relaciona a distribuição da variância amostral com uma família de distribuições de probabilidades. a) Definição – Se a variável aleatória tiver uma distribuição normal, então a distribuição 2 2 2 s).1n( σ − =χ formará uma distribuição qui-quadrado para amostras de qualquer tamanho (n > 1). b) Propriedades da distribuição qui-quadrado: I) A distribuição qui-quadrado é uma família de curvas, onde cada uma dessas curvas é determinada pelo número de graus de liberdade. Quando usamos a distribuição χ2 para estimar a variância populacional, o número de graus de liberdade é igual ao tamanho da amostra menos 1, isto é, g.l. = n -1 II) A área sob cada uma das curvas é igual a 1 (100%) Para encontrarmos o intervalo de confiança para a variância, primeiramente devemos encontrar o valor de 2 1α χ e 2 2α χ na tabela de distribuição qui-quadrado, onde α1 e α2 valem, respectivamente: 2 c1 1 − =α e 2 c1 2 + =α , sendo c o nível (ou grau) de confiança. De posse dos valores encontrados por α1 e por α2 e, conforme o grau de liberdade, determinamos os valores de 2 1α χ e 2 2α χ na tabela. Ex.: χ2 2 1α χ 2 2α χ c (nível de confiança) 2 2α χ χ2 2 1α χ 5% 5% 90% Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula EurípedesMACHADO Rodrigues 44 O Intervalo de confiança para a variância populacional σσσσ2 é dado por: 2 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − O intervalo de confiança para o desvio padrão populacional σσσσ é dado por: 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − Tabela da Distribuição qui-quadrado 2αχ . g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597 3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838 4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860 5 0,412 0,554 0,831 1,145 1,610 9,236 11,071 12,833 15,086 16,750 6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548 7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475 20,278 8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955 9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589 10 2,156 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209 25,188 11 2,603 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725 26,757 12 3,074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,299 13 3,565 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688 29,819 14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,139 15 4,601 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578 32,801 16 5,142 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000 34,267 17 5,697 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409 35,718 18 6,265 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805 37,156 19 6,844 7,633 8,907 10,117 11,651 27,204 30,144 32,852 36,191 38,582 20 7,434 8,260 9,591 10,851 12,443 28,412 31,410 34,170 37,566 39,997 21 8,034 8,897 10,283 11,591 13,240 29,615 32,671 35,479 38,932 41,401 22 8,643 9,542 10,982 12,338 14,042 30,813 33,924 36,781 40,289 42,796 23 9,262 10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638 44,181 24 9,886 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559 25 10,520 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928 26 11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290 27 11,808 12,879 14,573 16,151 18,114 36,741 40,113 43,194 46,963 49,645 28 12,461 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993 29 13,121 14,257 16,047 17,708 19,768 39,087 42,557 45,722 49,588 52,336 30 13,787 14,954 16,791 18,493 20,599 40,256 43,773 46,979 50,892 53,672 40 20,707 22,164 24,433 26,509 29,051 51,805 55,758 59,342 63,691 66,766 50 27,991 29,707 32,357 34,764 37,689 63,167 67,505 71,420 76,154 79,490 60 35,534 37,485 40,482 43,188 46,459 74,397 79,082 83,298 88,379 91,952 70 43,275 45,442 48,758 51,739 55,329 85,527 90,531 95,023 100,425 104,215 80 51,172 53,540 57,153 60,391 64,278 96,578 101,879 106,629 112,329 116,321 90 59,196 61,754 65,647 69,126 73,291 107,565 113,145 118,136 124,116 128,299 100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 45 Exemplo do uso da tabela: Encontrar 2 1α χ e 2 2α χ para um g.l. = 15, com 90% de confiança. Temos: c = 90% = 0,90 Então: I) 2 c1 1 − =α = 2 90,01− = 0,05 Na tabela, com g.l. = 15 e α = 0,05, obtemos: 2 1α χ = 24,996 II) 2 c1 2 + =α = 2 90,01+ = 0,95 Na tabela, com g.l. = 15 e α = 0,95, obtemos: 2 2α χ = 7,261 Exemplo1: Uma amostra de 15 elementos, extraída de uma população com distribuição normal, forneceu variância s2 = 7,05. Construir intervalos de confiança de 95% para a variância populacional e o desvio padrão populacional. Solução: Temos: c = 95% = 0,95; n = 15; g.l. = n – 1 = 15 – 1 = 14; s2 = 7,05 I) 2 c1 1 − =α = 2 95,01− = 0,025 II) 2 c1 2 + =α = 2 95,01+ = 0,975 Na tabela (distribuição χ2), com g.l. = 14, α1 = 0,025 e α2 = 0,975, obtemos: g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 --- --- --- --- --- --- --- --- --- --- --- 14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,139 2 1α χ = 26,119 e 2 2α χ = 5,629 Então, teremos os intervalos: I) O intervalo de 95% de confiança para a variância populacional é: 2 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − 119,26 05,7).115( − < σ2 < 629,5 05,7).115( − 3,78 < σσσσ2 < 17,53 II) O intervalo de 95% de confiança para o desvio padrão populacional é: 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − 119,26 05,7).115( − < σ < 629,5 05,7).115( − 78,3 < σ < 53,17 1,94 < σσσσ < 4,19 Exercícios Resolvidos Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 46 1. Uma amostra de 40 elementos, extraída de uma população normal, forneceu média amostral x = 35,56 e desvio padrão amostral de s = 3,50. Construir um intervalo de confiança de 99% para a média populacional. Solução: Temos: n = 40; s = 3,50; c = 99% = 0,99 zc = 2,575 (vide p. 36) I) E = zc . n s = 2,575 . 40 50,3 E = 1,42 II) x − E < µ < x + E 35,56 – 1,42 < µ < 35,56 + 1,42 34,14 < µµµµ < 36,98 Portanto, com 99% de confiança, podemos dizer que a média populacional está entre 34,14 e 36,98. 2. Com os dados do exercício anterior, determinar o tamanho requerido de uma amostra para assegurar que, com confiança de 95%, a média amostral esteja dentro do intervalo de 1,0 da média populacional. Solução: Temos: c = 95% = 0,95 zc = 1,96 (vide p. 36); E = 1,0; s = 3,5. Então: n = 2 c E s .z = 2 1 3,5 . 96,1 = 47,05 n ≅≅≅≅ 48 3. Uma amostra extraída de uma população normal forneceu os seguintes valores: 5,0 5,1 5,3 5,5 5,6 5,9 6,0 6,3 Construir: a) Um intervalo de confiança de 90% para a média populacional; b) Um intervalo de confiança de 90% para a variância populacional e para o desvio padrão populacional. Solução: xi xi – x (xi – x ) 2 5,0 − 0,59 0,3481 = 0,35 5,1 − 0,49 0,2401 = 0,24 5,3 − 0,29 0,0841 = 0,08 n = 8 5,5 − 0,09 0,0081 = 0,01 5,6 0,01 0,0001 = 0,00 5,9 0,31 0,0961 = 0,10 6,0 0,41 0,1681 = 0,17 6,3 0,71 0,5041 = 0,50 ΣΣΣΣ 44,7 1,4488 = 1,45 II) o desvio padrão amostral é: s = 1n )xx( 2i − −∑ = 7 45,1 ≅ 0,46 s = 0,46 a) sendo n = 8 g.l. = n – 1 = 8 – 1 g.l. = 7 O uso de uma distribuição t, neste caso, é apropriado porque a população é considerada como normalmente distribuída, σσσσ não é conhecido, e a amostra é pequena (n < 30). c = 90% =0,90 tc = 1,895 (p. 41) Temos: I) a média amostral é: x = n x i∑ x = 8 7,44 = 5,59 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 47 E = tc . n s = 1,895 . 8 46,0 E = 0,31 x − E < µ < x + E 5,59 – 0,31 < µ < 5,59 + 0,31 5,28 < µµµµ < 5,90 Portanto, com 90% de confiança, podemos dizer que a média populacional está entre 5,28 e 5,90. b) Para a variância e o desvio populacional, temos: 2 c1 1 − =α = 2 90,01− = 0,05 2 1α χ = 14,067 2 c1 2 + =α = 2 90,01+ = 0,95 2 2α χ = 2,167 g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 --- --- --- --- --- --- --- --- --- --- --- 7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475 20,278 Assim, temos: I) O intervalo de confiança de 90% para a variância populacional é: 2 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − 067,14 46,0).18( 2− < σ2 < 167,2 46,0).18( 2− 0,11 < σσσσ2 < 0,68 II) O intervalo de 95% de confiança para o desvio padrão populacional é: 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − 067,14 46,0).18( 2− < σ < 167,2 46,0).18( 2− 11,0 < σ < 68,0 0,33 < σσσσ < 0,82 MÓDULO 5 −−−−Testes de Hipóteses 1. Introdução Hipótese é uma afirmação sobre um determinado parâmetro. A aceitação ou a rejeição de uma hipótese, ou seja, a tomada de uma decisão é denominada de teste de hipótese. O teste de hipótese é empregado para se tomar decisões sobre o valor de um parâmetro de uma população tal como, sua média ou uma proporção da população. Por exemplo, pode- se ter uma situação onde um grupo de pessoas deseja saber se o volume informado pelo fabricante no rótulo das embalagens de leite é mesmo verdadeiro, ou se todos estão sendo lesados e ele faz o envasamento com uma quantidade menor do que a especificada. Outro exemplo poderia ser a do departamento de engenharia que quer comprovar se os componentes adquiridos de um fornecedor realmente têm uma vida útil de 1000 horas como a especificada em projeto. g.l. nível 0,50 de confiança c ------- 0,90 7 0,711 ------- 1,895 (g.l. = n – 1 = 7) …… …… …… …… …… …… …… …… Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 48 Tipicamente existem duas hipóteses em um teste de hipótese. A hipótese nula e a hipótese alternativa. Hipótese nula: É a hipótese a ser testada. Usamos a notação Ho para indicar a hipótese nula. A hipótese nula expressa uma igualdade. Hipótese alternativa: É a hipótese a ser considerada como uma alternativa à hipótese nula, caso esta seja rejeitada. Usamos a notação Ha para indicar a hipótese alternativa. A hipótese alternativa expressa uma desigualdade. Por exemplo: no caso de latas de refrigerantes, a hipótese nula poderia ser: Ho = “o conteúdo médio de todas as latas de refrigerante envasadas é igual ao conteúdo anunciado de 350 ml” e a hipótese alternativa pode ser: Ha = “o conteúdo médio de todas as latas de refrigerantes envasadas difere do conteúdo anunciado de 350 ml”. Podemos indicar as hipóteses do exemplo por: Ho: µµµµ = 350 ml (o envasamento está sendo feito corretamente) Ha: µµµµ ≠≠≠≠ 350 ml (o envasamento não está sendo feito corretamente). A hipótese nula, em um teste de hipótese relacionado com a média de uma população µµµµ, deve sempre especificar um único valor para aquele parâmetro. Isto significa que a hipótese nula deveria ser sempre da forma µµµµ = µµµµo, onde µµµµo é algum valor pré-determinado. Ho: µµµµ = µµµµo A hipótese alternativa, por outro lado, deve refletir o propósito do teste de hipótese em questão. Existem três possibilidades para a escolha da hipótese alternativa. a) Teste bilateral: Se estivermos preocupados em decidir se a média de uma população µµµµ, é diferente de um valor específico µµµµo. Neste caso expressamos a hipótese alternativa como: Ha: µµµµ ≠≠≠≠ µµµµo b) Teste unilateral à esquerda: Se quisermos comprovar que a média de uma população µµµµ, é menor do que um valor específico µµµµo. Neste caso expressamos a hipótese alternativa como: Ha: µµµµ < µµµµo c) Teste unilateral à direita: Se estivermos preocupados em decidir se a média de uma população µµµµ, é maior que um valor específico µµµµo. Neste caso expressamos a hipótese alternativa como: Ha: µµµµ > µµµµo Exemplos: Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 49 a) Ho: µ = 1,65 m Dará origem a um teste Ha: µ ≠ 1,65 m bilateral (ou bicaudal) . b) Ho: µ = 1,65 m Dará origem a um teste Ha: µ > 1,65 m unilateral (ou unicaudal) à direita. c) Ho: µ = 1,65 m Dará origem a um teste Ha: µ < 1,65 m unilateral (ou unicaudal) à esquerda. Após a definição das duas hipóteses (nula e alternativa), devemos traçar uma estratégia que nos permita dizer qual das duas é a verdadeira, precisamos estar aptos a dizer se acatamos a hipótese nula ou se a rejeitamos em favor da hipótese alternativa. De forma resumida, a estratégia é a seguinte: I) escolhemos uma amostra aleatória da população; II) fazemos uma comparação com a hipótese nula; III) se os dados da amostra forem consistentes com esta, não rejeitamos a hipótese nula; IV) se os dados da amostra não forem consistentes com a hipótese nula, rejeitamos a hipótese nula e assumimos que a hipótese alternativa é verdadeira. 2. Exemplo de aplicação do teste de hipótese Uma empresa fabrica sabonetes de massa 90g. Para verificar se a máquina que os produz está calibrada corretamente, uma amostra aleatória composta de 50 sabonetes foi retirada ao longo de um dia. As massas dos sabonetes da amostra estão na tabela abaixo. 92 91 94 90 85 90 88 94 90 90 90 87 95 87 92 85 86 84 89 91 84 86 91 91 89 87 90 89 91 87 87 92 89 87 93 94 91 90 88 89 86 91 88 89 89 91 93 88 91 90 Os dados da amostra permitem concluir que a máquina que produz os sabonetes está descalibrada? Use os seguintes passos para responder: a) Escrever as duas hipóteses para o teste de hipótese; b) Discutir a idéia básica para realizar o teste de hipótese; c) Obtenha um critério preciso para decidir se rejeitamos ou não a hipótese nula; d) Aplique o critério e faça a conclusão. Solução: Seja µµµµ a média de todos os sabonetes da empresa.a) As duas hipóteses podem ser escritas como: Ho: µ = 90g Ha: µ ≠ 90g Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 50 b) Basicamente, a idéia de realizar um teste de hipótese é a seguinte: Se a hipótese nula é verdadeira (isto é, se µ = 90g), então a média da amostra de 50 sabonetes deve ser aproximadamente 90 gramas. É natural que a média da amostra não seja realmente igual à média da população, algum erro deve ser esperado. Entretanto, se a média diferir muito do valor 90g então estaremos inclinados a rejeitar a hipótese nula e concluir que a hipótese alternativa é verdadeira. Da tabela (amostra de 50 sabonetes) podemos calcular a média da amostra: n x x i ∑= = 50 4471 = 89,42g µ − x = 90 – 89,42 = 0,58g A questão é se a diferença de 0,58g entre a média hipotética da população 90g e a média da amostra 89,42g pode ser atribuída a um erro de amostragem ou se a diferença é grande o suficiente para indicar que a média da população não é 90g. c) O critério adotado foi o seguinte: Se a média x , dos 50 sabonetes coletados estiver mais de dois (2) desvios padrão distante da média da população (90g), então rejeite a hipótese nula, µ = 90g, e conclua que a hipótese alternativa, µ ≠ 90g é verdadeira. Caso contrário, não rejeite a hipótese nula. Utilizando o Teorema do Limite Central, que nos diz que, se a amostra é grande (n ≥ 30) então a variável aleatória x é aproximadamente normal com média e desvio padrão dados por: Na tabela da distribuição normal z, com zo = 2, obtemos área igual a 0,4772. Então, de −zo = −2 à zo = 2, termos: µ = 2 . 0,4772 µ = 0,9544 Com base neste fato podemos dizer, por exemplo, que a probabilidade da média x estar em um intervalo de dois desvios padrões da média da população µ é de 0,9544, ou ainda, que a probabilidade da média da amostra estar fora deste intervalo é de apenas 1 – 0,9544 = 0,0456, como mostrado na figura acima. Podemos usar este fato como um critério para decidir se devemos ou não rejeitar a hipótese nula. Especificamente, se a média da amostra retirada da população estiver dentro do intervalo então podemos atribuir a diferença encontrada a um erro de amostragem e, assim, aceitar a hipótese nula. Por outro lado, se a média da amostra estiver distante mais de dois (2) desvios padrões da média da população de 90g, então podemos concluir que a hipótese nula é verdadeira e um evento extremamente improvável ocorreu durante a coleta da amostra ou que a hipótese nula é falsa (o que é muito mais razoável) e que a hipótese alternativa é verdadeira. Gráfico correspondente ao exercício: x µ x2x σ− 0,9544 x2x σ+ −2 2 z 0 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 51 0,0228 0,0228 x 90 x290 σ− 0,9544 x290 σ+ −2 2 z 0 Rejeite Ho Rejeite Ho Não rejeite Ho A probabilidade de rejeitar Ho é apenas 0,0456, como pode ser visto na figura acima. Esta probabilidade é denominada nível de significância do teste de hipótese. d) Finalmente, aplicando o critério adotado aos dados coletados da amostra, podemos colocar nossa conclusão. Assumiremos que o desvio padrão da população seja conhecido e igual a σ = 2,7 gramas (s = 1n )xx( 2i − −∑ = 49 18,342 ≅ 2,7g). Para aplicar o critério da parte (c) necessitamos determinar quantos desvios padrões a média da amostra se desvia (ou se afasta) da média da população. Isto é feito determinando-se o valor da variável aleatório padrão. Sabemos que σ = 2,7 gramas, n = 50 e, da parte (b), que a média da amostra é x = 89,42 gramas podemos calcular o valor de z. z = n x σ µ− = 50 7,2 42,8990 − = 1,52 Como a média dos 50 sabonetes encontra-se a menos de 2 desvios padrões da média 90 gramas, decidimos aceitar a hipótese nula e concluir que a hipótese alternativa, µ ≠ 90 gramas é falsa. Em outras palavras, os dados proporcionam evidência suficiente para concluir que a máquina está trabalhando corretamente. Esse procedimento de decisão pode levar a uma conclusão equivocada que pode ser de dois tipos. Uma ocorre quando rejeitamos a hipótese nula e aceitamos a hipótese alternativa, porém erroneamente, pois a hipótese nula era verdadeira, esse tipo de erro é chamado de erro tipo I. Também é possível ocorrer de aceitarmos a hipótese nula quando ela é falsa, esse erro é denominado erro tipo II. As probabilidades desses dois tipos de erros são designadas, respectivamente, por α e β. Resultados possíveis de um teste de hipótese. Ho verdadeira Ho falsa Aceitar Ho decisão correta (1 – α) erro tipo II (β) Rejeitar Ho erro tipo I (α) decisão correta (1 – β) Realidade Decisão Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 52 | Não rejeite Ho Não rejeite Ho | 0 −zα Unilateral à esquerda zα | 0 Unilateral à direita Rejeite Ho z Não rejeite Ho Nível de significância – Ao testar uma hipótese, a probabilidade máxima de ocorrer um erro tipo I é denominada nível de significância do teste. Essa probabilidade, representada freqüentemente por α, é geralmente especificada antes da extração de quaisquer amostras, de modo que os resultados obtidos não influenciem a escolha. Na prática, é usual a adoção de um nível de significância de 5% ou 1%, embora possam ser usados outros valores. Se usarmos um nível de significância 0,05 ou 5% haverá então cerca de 5 probabilidades em 100, da hipótese nula ser rejeitada, quando deveria ser aceita, isto é, há uma confiança de 95% de que a decisão tomada foi acertada. Tabela com alguns valores de α: αααα 0,10 0,05 0,025 0,01 0,005 zα z0,10 z0,05 z0,025 z0,01 z0,005 Valores críticos de zα 1,28 1,645 1,96 2,33 2,575 3. Teste de hipótese par média de uma população - grandes amostras (n ≥≥≥≥ 30) Descrevemos a seguir um procedimento para aplicação do teste de hipótese para a média de uma população. Condição: O tamanho da amostra é grande (n ≥ 30). Passo 1 – Escreva as hipóteses nula e alternativa; Passo 2 – Defina o nível de significância α; Passo 3 – Determine o(s) valor(es) crítico(s): a) Para teste bilateral é ± zα/2 b) Para teste unilateral à esquerda é −zα c) Para teste unilateral à direita é zα Use a tabela da distribuição normal padrão: Passo 4 – Calcule o valor da estatística de teste: n x z o σ µ− = Passo 5 – Se o valor da estatística de testecair na região de rejeição, então rejeite Ho; caso contrário, não rejeite Ho; Passo 6 – Dê sua conclusão. −zα/2 zα/2 0 z Rejeite Ho Rejeite Ho Bilateral Rejeite Ho z Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 53 2,33 | 0 Unilateral à direita • Rejeite Ho z Não rejeite Ho Área de 0,01 2,94 Exemplo 1 – Uma empresa de coleta de informações verificou que em 2003, o preço médio das refeições em restaurantes da cidade de São Paulo era de R$ 28,44. Neste ano realizou- se uma pesquisa em 40 restaurantes, aleatoriamente escolhidos, e foram obtidos os valores da tabela abaixo. Os dados fornecidos proporcionam evidência suficiente para concluir que o preço médio deste ano dos restaurantes da cidade de São Paulo aumentou com relação à média de R$ 28,44 de 2003? Realize o teste apropriado com nível de significância de 1%. Tabela de preço médio das refeições (por pessoa) nos restaurantes de São Paulo neste ano. 35 37 33 26 50 32 30 30 32 33 48 27 20 24 33 31 39 25 28 31 36 32 26 41 33 25 35 32 41 36 45 27 18 28 32 36 22 34 26 21 Solução: Como a amostra é considerada grande (n ≥ 30), podemos aplicar o procedimento descrito acima. Passo 1 – Escreve as hipóteses nula e alternativa. O teste em questão será do tipo unilateral à direita. Ho: µµµµ = 28,44 (o preço médio não aumentou) Ha: µµµµ > 28,44 (o preço médio aumentou) Passo 2 – Defina o nível de significância α. O nível de significância pedido é de 1%. Assim, α = 0,01. Passo 3 – Determine o(s) valor(re) crítico(s). Para α = 0,01, o valor crítico será z0,01. Da tabela, obtemos: z0,01 = 2,33 Portanto, o valor crítico é 2,33, conforme mostrado na figura: αααα 0,10 0,05 0,025 0,01 0,005 zα z0,10 z0,05 z0,025 z0,01 z0,005 Valores críticos de zα 1,28 1,645 1,96 2,33 2,575 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 54 Passo 4 – Cálculo do valor da estatística de teste: n s x z o µ− = Sabemos que µo = 28,44 e n = 40. Calculando a média e o desvio padrão da amostra, encontramos: n x x i∑= = 40 1270 = 31,75 e s = 1n )xx( 2i − −∑ = 39 48,1979 ≅ 7,12 Assim, o valor da estatística de teste é: n s x z oteste µ− = = 40 12,7 44,2875,31 − = 2,94 Esse valor de z está marcado na figura acima por um ponto próximo do valor z tabelado 2,33. Passo 5 – Se o valor de estatística de teste cair na região de rejeição, então rejeite Ho; caso contrário, não rejeite Ho. O valor da estatística de teste encontrado é de 2,94. Como pode ser visto no gráfico correspondente (figura acima), esse valor cai na região de rejeição e, assim, nós devemos rejeitar a hipótese nula Ho e aceitar a hipótese alternativa Ha. Passo 6 – Dê sua conclusão. Os dados proporcionam evidência suficiente para concluir que o preço médio dos restaurantes da cidade de São Paulo aumentou com relação ao preço médio de 2003. Exemplo 2 – Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X apresenta-se abaixo de 26mg por cigarro. Um laboratório realiza 10 análises do índice obtendo a média de 25,3mg. Sabe-se que o índice de nicotina dos cigarros da marca X se distribui normalmente com desvio padrão 2,32mg. Pode-se aceitar a afirmação do fabricante, ao nível de 5%? Solução: Temos: n = 10; µo = 26; x = 25,3 e σ = 2,32. 1) O teste em questão será unilateral à esquerda. Ho: µ = 26 (o nível de nicotina não abaixou) Ha: µ < 26 (o nível de nicotina abaixou) 2) O nível de significância pedido é de 5%, ou seja, α = 5% = 0,05. 3) O valor crítico será: z0,05 = 1,645 (tabela p.52) 4) Cálculo do valor da estatística de teste: n x z o σ µ− = = 10 32,2 263,25 − = − 0,954 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 55 | Não rejeite Ho • Exemplo 3 – De uma população normal com desvio padrão 6, toma-se uma amostra casual de tamanho 16, obtendo-se x = 43. Ao nível de 10%, teste as hipóteses: Ho: µ = 45 Ha: µ ≠ 45 Solução: As hipóteses já estão definidas. O nível de significância é de 10%, ou seja, α = 10% = 0,10. A amostra é de tamanho n = 16 , a estimativa da média já foi calculada, isto é, x = 43 e σ = 6 Como o teste é para média de populações normais com desvio padrão conhecido, usaremos a variável z como critério. Temos: 1) Como o teste em questão é do tipo bilateral, então o valor de α se divide igualmente nas caudas, ou seja: α = 0,10 α/2 = 0,05 z0,05 = 1,645 (tabela p.52) 2) n x z ocalc σ µ− = = 16 6 4543 − = −1,33 4. Teste de hipótese para uma população normal (n < 30) Em muitos casos não é possível ou não é econômico coletar uma amostra grande. Estudaremos um método que não requer amostras grandes, porém requer que a população sendo amostrada seja normalmente distribuída. Como na maioria dos problemas não conhecemos o desvio padrão populacional (σ), utilizaremos para a realização do teste o desvio padrão da amostra estudada (s). | 0 95% zcalc = −0,954 • −1,645 0,05 z Rejeite Ho Não rejeite Ho Como zcalc pertence a região de não rejeitar Ho, não se rejeita Ho, isto é, ao nível de 5%, podemos concluir que a afirmação do fabricante é falsa. = 0,05 0,05 = 0 −1,645 1,645 zcalc = −1,33 Rejeite Ho Rejeite Ho Como zcalc pertence a região de não rejeitar Ho, não se rejeita Ho, isto é, a média é 45, com 10% de risco de não rejeitarmos uma hipótese falsa. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 56 Vimos no capítulo anterior que se tomarmos uma amostra de tamanho n de uma população normalmente distribuída com média µ, a variável aleatória tem uma distribuição t com (n -1) graus de liberdade. Em outras palavras, as probabilidades para aquela variável aleatória são iguais às áreas sob a curva t com g.l. = n – 1. Conseqüentemente, quando a população amostrada é normalmente distribuída, nós podemos realizar um teste de hipótese com a hipótese nula Ho: µ = µo, empregandoa variável aleatória acima como nossa estatística de teste e usando a tabela da distribuição t para obter o valor crítico (ou valores críticos). Procedimento para aplicação do Teste de hipótese par a média de uma população com amostras de tamanho n < 30: Condição: População Normal Passo 1 – Escreva as hipóteses: nula e alternativa; Passo 2 – Defina o nível de significância α; Passo 3 – Determine o(s) valor(es) crítico(s) a) Para teste bilateral é ± tα/2 b) Para teste unilateral à esquerda é −tα c) Para teste unilateral à direita é tα. Com g.l. = n – 1, use a tabela da distribuição t de Student da p.58 Passo 4 – Calcule o valor da estatística de teste: n s x t o µ− = Passo 5 – Se o valor da estatística de teste cair na região de rejeição, então rejeite Ho; caso contrário não rejeite Ho. Passo 6 – Dê sua conclusão. Exemplo 1 – Assuma que a média de gasto com combustível de todas as famílias de uma certa região seja de R$ 1123,00 em um determinado ano. Neste mesmo ano, coletando-se uma amostra aleatória de 15 famílias de classe média alta obteve-se os valores mostrados na tabela abaixo, arredondados para o inteiro mais próximo. Com um nível de significância de 5%, os dados indicam que famílias da classe média alta gastam, em média, em combustível mais do que a média da região de R$ 1123,00? (Assuma que a distribuição de gasto com combustível das famílias da classe média alta seja normalmente distribuída). −tα/2 tα/2 0 t Rejeite Ho Rejeite Ho Bilateral | Não rejeite Ho Não rejeite Ho | 0 −tα Unilateral à esquerda Rejeite Ho t tα | 0 Unilateral à direita Rejeite Ho t Não rejeite Ho Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 57 Tabela dos gastos com combustível (R$) 1254 1350 1227 1154 1790 1615 1521 908 1231 1369 1711 1293 1205 1351 1185 Solução: Uma vez que a população em questão é normalmente distribuída, podemos aplicar o procedimento abaixo para realizar o teste de hipóteses. Passo 1 – Escreva as hipóteses nula e alternativa. O teste em questão será do tipo unilateral à direita. Ho: µ = 1123 (a média não é maior que a média nacional) Ha: µ > 1123 (a média é maior que a média nacional) Passo 2 – Defina o nível de significância α O nível de significância pedido é de 5%. Assim, α = 0,05. Passo 3 – Determine o(s) valor(es) crítico(s). O valor crítico par um teste unilateral à direita é tα, com g.l. = n – 1. Neste caso, n = 15. Logo, g.l. = 15 – 1 = 14, com α = 0,05. Da tabela (p.58), obtemos t0,05 = 1,761 Passo 4 – Calcule o valor da estatística de teste: n s x t o µ− = Sabemos que µo = 1123 e n = 15. Da tabela dos gastos com combustíveis determinamos que: x = 1344,27 e s = 231. Assim, temos: n s x t o µ− = = 15 231 112327,1344 − = 3,7098... ≅ 3,710 Passo 5 – Se o valor da estatística de teste cair na região de rejeição, então rejeite Ho; caso contrário não rejeite Ho. O valor encontrado é igual a 3,710 e este valor cai dentro da região de rejeição de Ho. Assim, rejeitamos Ho. Passo 6 – Dê sua conclusão. Os dados proporcionam a evidência suficiente para concluir que famílias da classe média alta gastaram mais com combustíveis do que a média nacional. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 58 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 59 MÓDULO 6 – Teste de Hipóteses com duas amostras Teste de hipótese para médias de duas populações Quando temos duas populações com amostras grandes e independentes, podemos fazer inferência estatística sobre as médias das populações. Duas amostras são independentes se a amostra retirada de uma população não interfere na amostra retirada da outra população. O problema consiste em comparar as médias de duas populações para decidir se existe alguma diferença entre elas. A lógica para se fazer esta comparação pode ser resumida como mostrado na figura abaixo: Uma amostra grande (n ≥ 30) é retirada aleatoriamente de cada população. As médias das amostras são calculadas e comparadas, levando a uma conclusão de que as médias não são iguais se houver uma diferença significativa entre elas. O procedimento adotado para realizar um teste de hipótese para as médias de duas populações é similar ao adotado anteriormente para uma única população. Os principais pontos do procedimento são: 1. Como temos duas populações com médias µ1 e µ2 e desejamos saber se existe diferença entre elas. A hipótese nula é: Ho: µ1 = µ2 (as médias coincidem) 2. Retiramos uma amostra de cada uma das populações e calculamos as médias. A diferença observada 21 xx − é, agora, a estatística de teste (em vez de x da seção anterior). 3. Se retirássemos todas as possíveis amostras de tamanho n1 e n2 das duas populações, nós teríamos uma distribuição das “diferenças entre as médias das amostras”. Se as amostras são grandes, o Teorema do Limite Central nos permite assumir que a distribuição da amostragem é aproximadamente normal. População 1 µ1 σ1 População 2 µ2 σ2 Amostra 1 Amostra 2 Calcule média 1 Calcule média 2 Compare a média 1 com a média 2. Tome uma decisão. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 60 µ1 – µ2 = 0 ba xx − α/2 | α/2 4. Se a hipótese nula Ho: µ1 = µ2 é verdadeira, então a média da distribuição das diferenças das médias das amostras deve ser zero, como mostrado na figura: O próximo passo é localizar a estatística de teste ( 21 xx − ) nesta distribuição e verificar onde ela cai relativo à média zero assumida. 5.Para localizar a estatística de teste na distribuição necessitamos calcular o desvio padrão da distribuição. Podemos provar que o desvio padrão é dado por 2x 2 xxx )()( 2121 σ+σ=σ − = σ + σ 2 2 2 1 2 1 nn 6. Como os valores das variâncias das duas populações são raramente conhecidos, podemos usar as variâncias das amostras como estimadores ou estimativas das variâncias das populações para calcular uma estimativa do desvio padrão. Para isso, basta substituir σ por s na fórmula anterior. =− 21 xxs + 2 2 2 1 2 1 n s n s 7. A localização da estatística da amostra 21 xx − , relativa à média da distribuição, pode ser encontrada calculando-se o valor de z. z = 2x1x s 0)xx( 21 − −− 8. Se a estatística de teste cair na região de rejeição então rejeite Ho; caso contrário, não rejeite Ho. Procedimento para aplicação do Teste de hipótese para aa médias de duas populações: Hipótese nula Ho: µ1 = µ2 Condições: Grandes amostras (n1 ≥ 30, n2 ≥ 30) e amostras independentes. Passo 1 – Escreva as hipóteses nula e alternativa; Passo 2 – Defina o nível de significância α; Passo 3 – Determine o(s) valor(es) crítico(s): a) Para teste bilateral é ± zα/2 b) Para teste unilateral à esquerda é −zα c) Para teste unilateral à direita é zα. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 61 −zα/2 zα/2 0 z Rejeite Ho Rejeite Ho Bilateral | Não rejeite Ho zα | 0 Unilateral à direita Rejeite Ho z Não rejeite Ho Use a tabela da distribuição normal padrão. Passo 4 – Calcule o valor da estatística de teste z = 2x1x s )xx( 21 − − , com =− 21 xxs + 2 2 2 1 2 1 n s n s Passo 5 – Se o valor da estatística de teste cair na região de rejeição, então rejeite Ho; caso contrário, não rejeite Ho. Passo 6 – Dê sua conclusão. Exemplo 1 – Deseja-se verificar se existe diferença entre os salários pagos a engenheiros que atuam na região Sul e Sudeste do país através de um teste de hipóteses. Para isso, selecionou-se aleatoriamente 30 engenheiros da região Sul e, com base em seus salários anuais, determinou-se a média e seus salários como sendo R$ 46.720,00 com desvio padrão de R$ 14.700,00. O mesmo procedimento foi adotado para 35 engenheiros da região Sudeste obtendo-se média de R$ 51.910,00 e desvio padrão R$ 16.200,00. O teste de hipótese deve ser feito com nível de significância igual a 5%. Solução: Passo 1 – Definir as hipóteses nula e alternativa. Seja µµµµ1 a média salarial dos engenheiros da região Sul e µµµµ2 a média salarial dos engenheiros da região Sudeste. As hipóteses nula e alternativa podem ser escritas como: Ho: µ1 = µ2 (as médias salariais coincidem) Ha: µ1 ≠ µ2 (as médias salariais são diferentes) Passo 2 – O nível de significância foi definido em 5%. Passo 3 – Os valores críticos de z para α = 0,05 são definidos como ± zα/2 Da tabela da curva normal de z, p.52, determinamos ± z0,05/2 = ± z0,025 = ± 1,96 Passo 4 – Cálculo do valor da estatística de teste. =− 21 xxs + 2 2 2 1 2 1 n s n s = + 35 16200 30 14700 22 = 3834,23 zteste = 2x1x s )xx( 21 − − = 23,3834 5191046720 − = − 1,35 Não rejeite Ho | 0 −zα Unilateral à esquerda Rejeite Ho z Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 62 | Não rejeite Ho 1,96 0 z Rejeite Ho Rejeite Ho = 0,025 0,025 = −1,96 • −1,35 Passo 5 – Na figura observamos que o valor zcalc = −1,35 não cai dentro da região de rejeição. Assim, nós não rejeitamos a hipóteses nula Ho. Passo 6 – Dê sua conclusão. Baseado nos dados da amostra nós não temos evidência suficiente para concluir que existe uma diferença entre as médias salariais dos engenheiros das regiões Sul e Sudeste. EXERCÍCIOS RESOLVIDOS 01. Uma amostra de 80 elementos, extraída de uma população aproximadamente normal cujo desvio padrão é s = 2,8, forneceu média x = 45,8. Construir um intervalo de confiança de 95% para a média dessa população. Resolução: Temos: n = 80; s = 2,8; x = 45,8; c = 0,95 Tabela: zc = 1,96 E = zc . n s = 1,96 . 80 8,2 = 0,6 x − E < µ < x + E 45,8 – 0,6 < µ < 45,8 + 0,6 45,2 < µµµµ < 46,4 02. Em uma clínica de endocrinologia, uma amostra de 40 pacientes foi observada. Depois de uma semana de dieta foram medidos os pesos que cada um dos pacientes perdeu, obtendo-se a tabela. Classes de pesos Nº de pacientes (fi) xi = PM xi . fi xi − x (xi − x ) 2. fi 1,0 |--- 1,5 5 1,25 6,25 − 1,24 7,69 1,5 |--- 2,0 6 1,75 10,5 − 0,74 3,29 2,0 |--- 2,5 10 2,25 22,5 − 0,24 0,58 2,5 |--- 3,0 8 2,75 22 0,26 0,54 3,0 |--- 3,5 6 3,25 19,5 0,76 3,47 3,5 |--- 4,0 5 3,75 18,75 1,26 7,94 ∑ 40 99,5 23,51 Construa um intervalo de confiança de 90% para a média populacional da quantidade de peso perdido pelos pacientes desta clínica. Resolução: n f.x x ii∑= 40 5,99 x = = 2,49; s = 1n f.)xx( i 2 i − −∑ = 140 51,23 − = 39 51,23 = 0,77 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 63 c = 90% = 0,90 Tabela: zc = 1,645; E = zc . n s = 1,645 . 40 77,0 = 0,20 x − E < µ < x + E 2,49 – 0,20 < µ < 2,49 + 0,20 2,29 < µµµµ < 2,69 03. Uma amostra de 10 peças forneceu os seguintes valores da largura em cm: a) Determine um intervalo de confiança de 90% para a média populacional; b) Determine um intervalo de confiança de 99% para a média populacional; c) Construir um intervalo de confiança de 95% para o desvio padrão populacional. Resolução: Temos: n = 10 xi xi − x (xi − x ) 2 7,5 0,2 0,04 7,8 0,5 0,25 7,6 0,3 0,09 7,5 0,2 0,04 7,0 − 0,3 0,09 6,9 − 0,4 0,16 7,2 − 0,1 0,01 7,1 − 0,2 0,04 7,0 − 0,3 0,09 7,4 0,1 0,01 ∑ = 73 0,82 Como n = 10 (n < 30) e σ não é conhecido, usamos a tabela t de Student com grau de liberdade g.l. = n – 1 = 10 – 1 = 9. a) c = 90% = 0,90 Tabela: tc = 1,833E = tc . n s = 1,833 . 10 30,0 = 0,17 x − E < µ < x + E 7,3 – 0,17 < µ < 7,3 + 0,17 7,13 < µµµµ < 7,47 b) c = 99% = 0,99 Tabela: tc = 2,262 E = tc . n s = 3,250 . 10 30,0 = 0,31 x − E < µ < x + E 7,3 – 0,31 < µ < 7,3 + 0,31 6,99 < µµµµ < 7,61 c) O intervalo de 95% de confiança para o desvio padrão populacional é dado 7,5 7,8 7,6 7,5 7,0 6,9 7,2 7,1 7,0 7,4 g.l. nível 0,50 de confiança c ------- 0,90 0,95 0,99 --- --- --- --- --- --- 9 0,703 ------- 1,833 2,262 3,250 3,7 10 73 n x x i === ∑ s = 1n )xx( 2i − −∑ = 110 82,0 − = 9 82,0 = 0,30 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 64 por 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − , em que: I) 2 c1 1 − =α = 2 95,01− = 0,025 II) 2 c1 2 + =α = 2 95,01+ = 0,975 Na tabela (distribuição χ2), com g.l. = 9, α1 = 0,025 e α2 = 0,975, obtemos: 2 1α χ = 19,023 e 2 2α χ = 2,700 Portanto: 2 2 2 2 21 s).1n( s).1n( αα χ − <σ< χ − 7,2 30,0.9 023,19 30,0.9 22 <σ< 0,21 < σσσσ < 0,55 04. As alturas dos alunos do sexo masculino de uma Universidade apresentam distribuição normal. Para estimar a altura média dessa população, foram observadas as alturas de 100 alunos, obtendo-se x = 170 cm e s = 20 cm. Determine um intervalo de confiança de 95% para a média populacional. Resolução: Temos: n = 100 (n ≥ 30); x = 170 e s = 20 c = 95% = 0,90 zc = 1,96 E = zc . n s = 1,96 . 100 20 = 3,92 x − E < µ < x + E 170 – 3,92 < µ < 170 + 3,92 166,08 < µµµµ < 173,92 05. Uma empresa diz que a vida média das lâmpadas fabricadas por elas é de 1800 horas. Para que ela não corra o risco de sofrer punição do órgão fiscalizador, seu departamento de controle de qualidade realiza testes freqüentes com amostras retiradas da linha de produção. Sabendo-se que a empresa só seria autuada caso as lâmpadas tivessem uma vida útil inferior a 1800 horas, determine baseando na amostra indicada abaixo, com um nível de significância igual a 5%: a) A média e o desvio padrão da amostra; b) O valor da estatística de teste; c) A empresa corre os risco de ser autuada por não cumprir o número médio de horas divulgado? g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 --- --- --- --- --- --- --- --- --- --- --- 9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 65 | 0 95% • −1,645 0,05 Rejeite Ho Não rejeite Ho zcalc = −3,22 Tabela do número de horas Resolução: c) Temos: n = 30; µo = 1800; x = 1754,5; s = 77,2 e zteste = − 3,22 1) O teste em questão será unilateral à esquerda. Ho: µ = 1800 h Ha: µ < 1800 h 2) O nível de significância pedido é de 5%, ou seja, α = 5% = 0,05. 3) O valor crítico será: z0,05 = 1,645 (tabela p.52) 1700 1750 1720 1810 1800 1790 1850 1810 1600 1800 1700 1820 1810 1620 1815 1800 1780 1760 1500 1740 1710 1700 1790 1750 1690 1830 1780 1790 1820 1800 Horas (xi) fi xi . fi xi − x (xi − x ) 2. fi 1500 1 1500 -254,5 64770,25 1600 1 1600 -154,5 23870,25 1620 1 1620 -134,5 18090,25 1690 1 1690 -64,5 4160,25 1700 3 5100 -54,5 8910,75 1710 1 1710 -44,5 1980,25 1720 1 1720 -34,5 1190,25 1740 1 1740 -14,5 210,25 1750 2 3500 -4,5 40,50 1760 1 1760 5,5 30,25 1780 2 3560 25,5 1300,50 1790 3 5370 35,5 3780,75 1800 4 7200 45,5 8281 1810 3 5430 55,5 9240,75 1815 1 1815 60,5 3660,25 1820 2 3640 65,5 8580,50 1830 1 1830 75,5 5700,25 1850 1 1850 95,5 9120,25 ∑ 30 52635 172917,5 30 52635 n f .x x )a ii == ∑ x = 1754,5 horas s2 = 130 5,172917 1n )xx.(f 2ii − = − −∑ s2 = 5962,67 s = 67,5962 s = 77,22 h ou s = 77,2 h b) z = 30 2,77 18005,1754 n s x − = µ− z = −−−− 3,22 z Como zcalc pertence à região de rejeição de Ho, rejeita Ho, isto é, ao nível de 5%, podemos concluir que a empresa corre os risco de ser autuada por não cumprir o número médio de horas divulgado. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 66 2,33 | 0 • Rejeite Ho z Não rejeite Ho Área de 0,01 zcalc = 3,54 06. A carga estática suportada por cabos utilizados na prática de alpinismo apresenta a média de 1800 kg e o desvio padrão de 100 kg. Com o desenvolvimento de uma nova fibra o fabricante afirma ter aumentado a capacidade de carga dos cabos. Para testar a veracidade da informação, ensaiou-se uma amostra de 50 cabos. A carga média suportada pelos novos cabos foi de 1850 kg. Pergunta: a) Qual é o valor da estatística de teste?; b) Pode-se confirmar a declaração de que a nova fibra é mais resistente? Utilize um nível de significância de 1%. Resp.: a) z = 3,54 b) Sim Resolução: Temos: µ = 1800 kg; σ = 100 kg; n = 50 (n ≥ 30) e x = 1850 kg. a) z = 50 100 18001850 n x − = σ µ− zcalc. = 3,54 b)1) O teste em questão será unilateral à direita. Ho: µ = 1800 kg Ha: µ > 1800 kg 2) O nível de significância pedido é de 1%, ou seja, α = 1% = 0,01. 3) O valor crítico será: ztab. = z0,01 = 2,33 (tabela p.52) O valor da estatística de teste encontrado é z = 3,54. Como pode ser visto no gráfico correspondente (figura acima), esse valor cai na região de rejeição de Ho e, assim, devemos rejeitar a hipótese nula Ho e aceitar a hipótese alternativa Ha, que afirma que a nova fibra é mais resistente. 07. A altura média dos jogadores que participam da liga nacional de vôlei é 196 cm. Um dos times participantes tem 12 jogadores com estatura média de 190 cm e desvio padrão 12 cm. Podemos afirmar com base nesses dados, que os jogadores do referido time são mais baixos do que a média nacional? Utilize um nível de significância de 0,01.Resolução: Temos: µ = 196 cm; s = 12 cm; n = 12 (n < 30) e x = 190 cm. I) O teste em questão será unilateral à esquerda. Ho: µ = 196 Ha: µ < 196 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 67 | 0 t = −1,732 • −2,718 0,01 Rejeite Ho Não rejeite Ho t II) Como n = 12 (n < 30) e σ não é conhecido, usamos a tabela t de Student com grau de liberdade g.l. = n – 1 = 12 – 1 = 11. (vide p. 58) III) O nível de significância é: α = 0,01 Tabela: − t0,01 = −2,718 IV) A estatística de teste é: tcalc. = 12 12 196190 − = − n s x µ = −1,732 MÓDULO 7 TESTE DE QUI-QUADRADO E TESTE F I. Teste de Qui-Quadrado. O teste de Qui-Quadrado verifica as hipóteses de aderência e de independência. O teste de aderência mostra se os dados coletados experimentalmente se ajustam de modo adequado a uma dada teoria, com determinado “grau de certeza”. O teste de Independência mostra se duas ou mais variáveis estão ou não vinculadas entre si por uma relação de dependência, para determinado “grau de certeza”. Teste de Qui-Quadrado – Aderência. O teste de Qui-Quadrado de aderência compara os dados coletados experimentalmente com os dados que seriam obtidos pela aplicação de determinada lei, ou seja, o teste tem interesse em verificar se a distribuição dos elementos, numa população, está de acordo com uma dada teoria. Essas comparações podem gerar diferenças grandes ou diferenças pequenas. Sejam: Ho: hipótese nula (hipótese que será testada) Ha: hipótese alternativa (hipótese que substitui Ho caso a mesma seja rejeitada). Como o valor da estatística do teste caiu na região de não rejeição de Ho, não podemos rejeitar Ho, ou seja, podemos afirmar com base nesses dados, que os jogadores do referido time têm estatura igual à média nacional. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 68 Exemplo 1 – No lançamento de uma moeda “honesta”, a probabilidade de sair cara é 0,5 (50%) e de sair coroa é 05, (50%). Nesse caso, a referida teoria (ou lei) pode ser dada pela probabilidade P(cara) = 0,5. Assim, podemos obter as hipóteses: Ho: P(cara) = 0,5 Ha: P(cara) ≠ 0,5 Conclusão: Para “grandes diferenças”: Ho dever ser rejeitada e deve ser utilizada Ha; Para “pequenas diferenças”: Ho não deve ser rejeitada e as diferenças verificadas são atribuídas ao acaso. A avaliação quantitativa das diferenças pode ser obtida elevando-as ao quadrado e dividindo-as pelos resultados teoricamente esperados pela “lei” em estudo. A soma dos referidos quocientes gera o parâmetro χo 2. A decisão final (ou seja, verificar se a hipótese Ho deve ou não ser rejeitada) é norteada pela comparação entre χo 2 e χt 2, que pode ser localizado na tabela Qui-Quadrado, para determinado “nível de significância α” (p. 44). Exemplo 2 – Em 50 lançamentos de uma moeda foram observados os seguintes resultados: 28 caras e 22 coroas. Que conclusões podem ser obtidas desses dados ao nível de significância α = 5%? Etapas para se calcular χo 2 : Resultado observado Resultado esperado (moeda honesta) Diferença entre o resultado observado e o resultado esperado. Quadrado da diferença Quociente entre o quadrado da diferença e o resultado esperado. Cara: 28 Cara: 25 28 – 25 = 3 (3)2 = 9 9/25 = 0,36 Coroa: 22 Coroa: 25 22 – 25 = −3 (−3)2 = 9 9/25 = 0,36 A soma dos quocientes entre o quadrado das diferenças e os resultados esperados fornece o valor χo 2 = 0,36 + 0,36 = 0,72. Para o teste de Aderência, calcula-se o número de graus de liberdade (g.l.) subtraindo 1 do número de linhas da tabela de dados, ou seja: g.l. = (nº de linhas – 1). No caso, a tabela de dados apresenta duas linhas com dados experimentais, logo, g.l. = 2 – 1 = 1. Na tabela de Qui-Quadrado p.44, localizamos o parâmetro χt 2 correspondente ao nível de significância estabelecido (α = 5% = 0,5) com grau de liberdade calculado (g.l. = 1): Temos: χt 2 = 3,841 g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 --- --- --- --- --- --- --- --- --- --- --- 100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 69 Como χo 2 (0,72) < χt 2 (3,841), a hipótese Ho não é rejeitada, ou seja, a probabilidade de sair cara é de 50%. Assim, a moeda pode ser considerada honesta para um nível de significância de 5%. De modo geral, o teste de aderência indica que: Se χo 2 > χt 2 , a hipótese Ho é rejeitada; Se χo 2 < χt 2 , a hipótese Ho não é rejeitada. Teste de Qui-Quadrado – Independência. O teste de Qui-Quadrado de independência é semelhante ao teste Qui-Quadrado de aderência, mas considera uma “lei” oriunda da própria tabela de dados experimentais a fim de avaliar se há ou não dependência entre duas variáveis. Quanto maior a dependência entre as duas variáveis, maior será o valor de χo 2. Quando as duas variáveis são independentes, o valor de χo 2 tende a zero. Exemplo 1 – Uma pesquisa classificou uma amostra de 800.000 alunos dos ensinos fundamental e médio (sendo 500.000 alunos do turno matutino e 300.000 alunos do turno vespertino) de acordo com o seguinte critério de rendimento escolar: ótimo, regular e péssimo, conforme a tabela abaixo: Tabela: turno e rendimento escolar: Rendimento Ótimo Rendimento Regular Rendimento Péssimo Totais Turno Matutino 80.000 300.00 120.000 500.000 Turno vespertino 150.000 60.000 90.000 300.000 Totais 230.000 360.000 210.000 800.000 A tabela apresenta como dados experimentais, 2 linhas e 3 colunas. Da amostra de 500.000 alunos do turno matutino, 80.000 apresentam rendimento escolar ótimo, 300.000 apresentam rendimento escolar regular e 120.000 apresentam rendimento escolar péssimo. Da amostra de 300.000 alunos do turno vespertino, 150.000 apresentam rendimento escolar ótimo, 60.000 apresentam rendimento escolar regular e 90.000 apresentam rendimento escolar péssimo. Da amostra dos 800.000 alunos, 230.000 apresentam rendimento escolar ótimo, 360.000 apresentam rendimento escolar regular e 210.000 apresentam rendimento escolar péssimo. Observando-se a amostra “total”: 000.800 000.230 = 0,2875 = 28,75% dos alunos pesquisados apresentam rendimento escolar ótimo. Caso essa proporção fosse mantida, seriam esperados: 0,2875 x 500.000 = 143.750 com ótimo rendimento escolar no período matutino e 0,2875 x 300.000 = 86.250 com ótimorendimento escolar no período vespertino. Essa é a “lei teórica” extraída da tabela turno e rendimento escolar. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 70 Vespertino Podemos obter a tabela dos cálculos dos resultados esperados. Tabela: Proporção: “lei da tabela” Resultado Observado Proporção (“Lei da Tabela”) Resultado Esperado 80.000 000.800 000.230 = 0,2875 0,2875 x 500.000 = 143.750 300.000 000.800 000.360 = 0,4500 0,4500 x 500.000 = 225.000 120.000 000.800 000.210 = 0,2625 0,2625 x 500.000 = 131.250 150.000 000.800 000.230 = 0,2875 0,2875 x 300.000 = 86.250 60.000 000.800 000.360 = 0,4500 0,4500 x 300.000 = 135.000 90.000 000.800 000.210 = 0,2625 0,2625 x 300.000 = 78.750 Tabela: Etapas para calcular χo 2 Resultado observado Resultado esperado Diferença entre o resultado observado e o resultado esperado. Quadrado da diferença Quociente entre o quadrado da diferença e o resultado esperado. 80.000 143.750 80.000 – 143.750 = −63.750 4.064.062.500 28.271,7391 300.000 225.000 300.000 – 225.000 = 75.000 5.625.000.000 25.000 120.000 131.250 120.000 – 131.250 = −11.250 126.562.500 964,2857 150.000 86.250 150.000 – 86.250 = 63.750 4.064.062.500 47.119,5652 60.000 135.000 60.000 – 135.000 = −75.000 5.625.000.000 41.666,6667 90.000 78.750 90.000 – 78.750 = 11.250 126.562.500 1.607,1429 Σ 144.629,3996 A soma dos quocientes entre o quadrado das diferenças e os resultados esperados (soma dos valores da última coluna da tabela) fornece o valor χo 2 = 144.629,3996 Para o teste de Independência, calcula-se o número de graus de liberdade (g.l.) efetuando-se o produto entre o número de linhas da tabela de dados subtraído de 1 e o número de colunas da tabela de dados, subtraído de 1, ou seja, g.l. = (nº de linhas -1) x (nº de colunas -1). Para o nosso exemplo, temos que o número de graus de liberdade é: g.l. = (2 – 1).(3 – 1) = 1 . 2 = 2 Na tabela de Qui-Quadrado (p. 44), localizamos o parâmetro χt 2 correspondente a α = 5% (ou α = 0,05) e o valor de g.l. calculado (g.l. = 2): χt 2 = 5,991 g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597 --- --- --- --- --- --- --- --- --- --- --- 100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169 Matutino Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 71 Como χo 2 (144.629,3996) > χt 2 (5,991), a hipótese Ho é rejeitada, ou seja, a variável “turno de estudo dos alunos dos ensinos fundamental e médio” e a variável “rendimento escolar” são dependentes. II. Teste F. O teste F é utilizado para verificar se duas populações apresentam variâncias populacionais iguais. Para tanto, devem ser conhecidas as variâncias amostrais normais s1 2 e s2 2 da duas populações em estudo. A variável do teste, denominada variável F, segue uma distribuição amostral assimétrica, que assume apenas valores positivos. Este teste também é conhecido como “teste da razão entre variáveis”, pois a variável F do teste é o quociente entre as duas variâncias amostrais. Para determinado “grau de certeza”, F é dada por: Fgl1, gl2 = 2 2 2 1 s s , onde: g.l. 1 é o grau de liberdade referente à população 1; g.l. 2 é o grau de liberdade referente à população 2. O grau de liberdade g.l. é calculado subtraindo 1 do número de amostras. Para se realizar o teste F a fim de comparar duas variâncias populacionais usando amostras de cada população, primeiramente devemos verificar se as amostras são independentes e selecionadas aleatoriamente de populações normalmente distribuídas. Devemos então seguir os seguintes passos: • Identificar Ho e Há ; • Determinar o “grau de certeza”; • Determinar os graus de liberdade gl 1 e gl 2; • Observar o valor na tabela da distribuição F; • Se F estiver na área de rejeição, rejeitamos Ho. População 1 σ1 2 População 2 σ2 2 Amostra 1 : s1 2 Amostra 2: s2 2 Calcule gl 1 Calcule gl 2 Fgl1, gl2 = 2 2 2 1 s s Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 72 Tabela F para “grau de certeza de 99%”, tomando-se gl 1 na horizontal e gl 2 na vertical. Exemplo 1 – Um engenheiro está elaborando um novo sistema que poderia reduzir a variância do tempo para a fabricação de peças. No sistema anterior, uma amostra aleatória de 10 peças, apresentava variância de 140. Com o novo sistema, uma amostra aleatória de 25 peças teria uma variância de 100. Sendo o “grau de certeza de 99%”, há evidências suficientes que garantam que o “novo sistema” é melhor que o “antigo”? Temos: Sistema 1 (antigo): s1 2 = 140 , n = 10 g.l.1 = 10 – 1 = 9 Sistema 2 (novo): s2 2 = 100 , n = 25 g.l.2 = 25 – 1 = 24 Fgl1, gl2 = 2 2 2 1 s s F9,24 = 100 140 = 1,40 Hipóteses: Ho : σ1 2 ≤ σ2 2 Ha : σ1 2 > σ2 2 Utilizando a tabela da distribuição F, para 99%, temos: F9, 24 = 3,26. Conclusão: Como F não está na região de rejeição, não é possível rejeitar Ho. EXERCÍCIOS RESOLVIDOS SOBRE TESTE DE QUI-QUADRADO g.l. 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 25 30 35 1 4052,24 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6143,0 6170,0 6191,4 6208,7 6239,9 6260,4 6275,3 2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,44 99,44 99,45 99,46 99,47 99,47 3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,92 26,83 26,75 26,69 26,58 26,50 26,45 4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,25 14,15 14,08 14,02 13,91 13,84 13,79 5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,77 9,68 9,61 9,55 9,45 9,38 9,33 6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,60 7,52 7,45 7,40 7,30 7,23 7,18 7 12,25 9,56 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,36 6,28 6,21 6,16 6,06 5,99 5,94 8 11,26 8,56 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,56 5,48 5,41 5,36 5,26 5,20 5,15 9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 5,01 4,92 4,86 4,81 4,71 4,65 4,60 10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,60 4,52 4,46 4,41 4,31 4,25 4,20 11 9,65 7,21 6,22 5,67 6,32 5,07 4,89 4,74 4,63 4,54 4,40 4,29 4,21 4,15 4,10 4,01 3,94 3,89 12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,05 3,97 3,91 3,86 3,76 3,70 3,65 13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,86 3,78 3,72 3,66 3,57 3,51 3,46 14 8,85 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,70 3,62 3,56 3,51 3,413,35 3,30 15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,56 3,49 3,42 3,37 3,28 3,21 3,17 16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,45 3,37 3,31 3,26 3,16 3,10 3,05 17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,35 3,27 3,21 3,16 3,07 3,00 2,96 18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,27 3,19 3,13 3,08 2,98 2,92 2,87 19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,19 3,12 3,05 3,00 2,91 2,84 2,80 20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,13 3,05 2,99 2,94 2,84 2,78 2,73 21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,07 2,99 2,93 2,88 2,79 2,72 2,67 22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 3,02 2,94 2,88 2,83 2,73 2,67 2,62 23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,97 2,89 2,83 2,78 2,69 2,62 2,57 24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,93 2,85 2,79 2,74 2,64 2,58 2,53 25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,89 2,81 2,75 2,70 2,60 2,54 2,49 26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,86 2,78 2,72 2,66 2,57 2,50 2,45 27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,82 2,75 2,68 2,63 2,54 2,47 2,42 28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,79 2,72 2,65 2,60 2,51 2,44 2,39 29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,77 2,69 2,63 2,57 2,48 2,41 2,36 30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,74 2,66 2,60 2,55 2,45 2,39 2,34 35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,96 2,88 2,74 2,64 2,56 2,50 2,44 2,35 2,28 2,23 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 73 1. Em 40 lançamentos de uma moeda, foram observados os seguintes resultados: 10 caras e 30 coroas. A moeda em questão pode ser considerada honesta, com nível de significância de 5%? Solução: Etapas para se calcular χo 2 : O E O – E (O – E)2 E )EO( 2− Resultado observado Resultado esperado (moeda honesta) Diferença entre o resultado observado e o resultado esperado. Quadrado da diferença Quociente entre o quadrado da diferença e o resultado esperado. Cara: 10 Cara: 20 10 – 20 = −10 (−10)2 = 100 100/20 = 5 Coroa: 30 Coroa: 20 30 – 20 = 10 (10)2 = 100 100/20 = 5 χχχχo 2 = ∑ − E )EO( 2 = 5 + 5 = 10 ou χχχχ2cal. = 10 Para o teste qui-quadrado de aderência, o g.l. = (nº de linhas da tabela) – 1, ou seja, g.l. = 2 – 1 = 1 e χt 2 é obtido na tabela p.44 com o nível de significância definido no problema, no caso, α = 5% = 0,05: 2tχ = 3,841 Conclusão: Como χo 2 = 10 > 2tχ = 3,841, rejeitamos a hipóteses Ho e podemos considerar que a moeda não é honesta. Lembrete: De modo geral, o teste de aderência ou de independência indica que: Se χo 2 > χt 2 , a hipótese Ho é rejeitada; Se χo 2 < χt 2 , a hipótese Ho não é rejeitada. 2. Foi feita uma pesquisa para saber se a audiência de 2 emissoras A e B, independe de sua programação, que são divididas em 3 tipos: Programas Musicais, Programas de Notícias e Programas Esportivos. Em uma amostra com 100 ouvintes, obtiveram-se os dados da tabela abaixo. Ao nível de 5% de significância podemos dizer que: Programas Emissoras Musicais Notícias Esportivos A 5 10 25 B 10 20 30 Solução: Neste caso, o teste é de Qui-Quadrado – Independência g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 --- --- --- --- --- --- --- --- --- --- --- 100 67,328 70,065 74,222 77,929 82,358 118,49 8 124,34 2 129,56 1 135,80 7 140,16 9 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 74 A B I) Da tabela temos: Programas Emissoras Musicais Notícias Esportivos TOTAIS A 5 10 25 40 B 10 20 30 60 TOTAIS 15 30 55 100 II) Tabela das proporções e Etapas para calcular χo 2 : O Proporção E O – E (O – E)2 E )EO( 2− 5 15,0 100 15 = 0,15 x 40 = 6 5 – 6 = –1 1 0,167 10 30,0 100 30 = 0,30 x 40 = 12 10 – 12 =–2 4 0,337 25 55,0 100 55 = 0,55 x 40 = 22 25 – 22 = 3 9 0,409 10 15,0 100 15 = 0,15 x 60 = 9 10 – 9 = 1 1 0,111 20 30,0 100 30 = 0,30 x 60 = 18 20 – 18 = 2 4 0,222 30 55,0 100 55 = 0,55 x 60 = 33 30 – 33 = –3 9 0,272 ΣΣΣΣ = 1,517 χo 2 = ∑ − E )EO( 2 = 0,167 + 0,337 + 0,409 + 0,111 + 0,222 + 0,272 = 1,517 ou diretamente na tabela, temos: χχχχo 2 = 1,517 Para o teste Qui-Quadrado de Independência, o g.l. = (nº de linhas da tabela – 1) x (nº de colunas da tabela – 1), ou seja, g.l. = (2 – 1) x ( 3 – 1) = 1 x 2 = 2 e χt 2 é obtido na tabela p.44 com o nível de significância definido no problema, no caso, α = 5% = 0,05: 2tχ = 5,991 g.l. αααα 0,995 0,99 0,975 0,950 0,90 0,10 0,05 0,025 0,01 0,005 1 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879 2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597 --- --- --- --- --- --- --- --- --- --- --- 100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169 Conclusão: Como χo 2 = 1,517 < 2tχ = 5,991, não podemos rejeitar Ho, ou seja, podemos dizer que a audiência não depende da programação das duas emissoras. 2 linhas 3 colunas Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 75 UNIP UNIDADE UNIVERSITÁRIA DE SOROCABA ENGENHARIA-2ºANO ESTATÍSTICA INDUTIVA (ANOTAÇÕES DE AULA) ALUNO(A):______________________________ RA.:_________ PROF. MACHADO 2º SEMESTRE DE 2012