Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 1 ESTATÍSTICA INDUTIVA MÓDULO 1 - REVISÃO I. DISTRIBUIÇÃO NORMAL OU DE GAUSS É a mais importante distribuição de probabilidades, sendo aplicada em inúmeros fenômenos e utilizada para o desenvolvimento teórico da Estatística. É também conhecida como distribuição de Gauss, Laplace, Laplace-Gauss ou curva em sino (por lembrar o formato de um sino). Os primeiros estudos ligados à distribuição Normal foram feitos por De Moivre e, cem anos depois, por Laplace, que consolidou as descobertas feitas até então. Embora Gauss tenha nascido 23 anos depois da morte de De Moivre, a distribuição e a curva normais acabaram recebendo o seu nome. Seja X uma variável aleatória contínua. X terá distribuição normal se: f(x) = πσ 2. 1 . 2 . x 2 1 e − σ µ− , −∞ < x < +∞ onde: µ = média de distribuição, σ = desvio-padrão, π = 3,1416, e = 2,7182 O gráfico da distribuição normal é a curva: Se uma variável tem distribuição normal: 68,27% de seus valores cairão no intervalo de um desvio padrão, ou seja, −1σ < z < 1σ ; 95,45% de seus valores cairão no intervalo de dois desvios padrões, ou seja, −2σ < z < 2σ ; 99,73% de seus valores cairão no intervalo de três desvios padrões, ou seja, −3σ < z < 3σ. -∞ µ−σ µ µ+σ + ∞ x µ ≡ Mo ≡ Md f(x) 50% 50% −3σ −2σ −1σ µ 1σ 2σ 3σ z 68,27% 95,45% 99,73% Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 2 Principais características dessa função: a) a variável aleatória pode assumir qualquer valor real; b) o gráfico da distribuição normal é uma curva em forma de sino, simétrica em torno da média µ, que também é a moda e a mediana, como mostra a figura acima; c) a área total sob a curva vale 1 (100%), porque essa área corresponde à probabilidade de a variável aleatória assumir qualquer valor real; d) como a curva é simétrica em torno da média, os valores maiores do que a média e os valores menores do que a média ocorrem com igual probabilidade; e) é decrescente assintoticamente a zero nos extremos; f) a configuração da curva é dada por dois parâmetros: a média µ e a variância σ2. Mudando a média, muda a posição da distribuição; Mudando a variância, muda a dispersão da distribuição; g) µ−σ e µ+σ são pontos de inflexão. A determinação da probabilidade de se obter um valor em um dado intervalo poderia ser feita pela integral definida nesse intervalo, no entanto, o uso de tabelas facilita esse cálculo. Usaremos a tabela 1 de Faixa central, em anexo–p.3, que utiliza valores padronizados de uma variável z, em função de x, obtida pela transformação linear zo = σ µ−x . Essa variável chamada “normal reduzida” ou “normal padronizada” também é normalmente distribuída com µ(z) = 0 e σ(z) = 1. A variável z representa a distância algébrica entre o ponto x desejado e a média µ, medida em desvios padrões. Assim, obtido um valor zo correspondente a um valor xo considerado, teremos: P(µ ≤ x ≤ xo) = P(0 ≤ Z ≤ zo) A tabela de faixa central dá a área sob a curva normal padrão entre z = 0 e qualquer valor positivo de zo mas, sendo a curva simétrica em relação à média, em torno de z = 0, os valores fornecidos são válidos também para valores negativos de zo. O sinal da variável Z serve apenas para indicar se o valor está acima ou abaixo da média. Portanto, P(0 ≤ Z ≤ zo) = P(zo ≤ Z ≤ 0) 0 zo Z Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 3 0 zo Z Tabela 1. Áreas de uma distribuição normal padrão. Cada casa na tabela dá a proporção sob a curva inteira entre z = 0 e um valor positivo de z. As áreas para os valores de z negativos são obtidas por simetria. zo 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2518 0.2549 0.7 0.2580 0.2612 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4880 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 2.5 0.4938 0.4940 04941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964 2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974 2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981 2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 3.0 0.4986 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990 3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993 3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995 3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997 3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998 0.4998 3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.49990.4999 0.4999 3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.5000 0.5000 0.5000 3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 P(0 ≤≤≤≤ Z ≤≤≤≤ zo) Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 4 Para consultar a tabela, é preciso decompor o Zo em duas parcelas: Parte inteira + 1ª casa decimal e 0,0 + 2ª casa decimal 1ª PARCELA 2ª PARCELA 1ª parcela = 1,3 (vertical – margem esquerda) Se Zo = 1,39 2ª parcela = 0,09 (horizontal – margem superior) Zo 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 1,3 0,4177 No cruzamento das duas parcelas encontra-se a probabilidade correspondente à área da curva entre zero e zo calculado (também chamado crítico). A probabilidade que a tabela fornece (0,4177) corresponde à área hachurada. Exemplo 1: O tempo necessário para executar uma tarefa é uma variável normal de média 60 minutos e desvio padrão 5 minutos. Qual a proporção de vezes que o tempo necessário será: a) maior que 70 minutos? b) menor que 65 minutos? c) exatamente 40 minutos? d) maior que 53 e menor que 62 minutos? Solução: Temos: µ = 60 e σ = 5 Pela transformação linear z = σ µ−x = 5 60x − a) x = 70 zo = 5 6070 − = 2,00 Da tabela obtemos: 0,4772 P(X > 70) = 0,5 – 0,4772 = 0,0228 = 2,28% 50% b) x = 65 zo = 5 6065 − = 1,00 Da tabela obtemos: 0,3413 P(X < 65) = 0,5 + 0,3413 = 0,8413 = 84,13% 50% X Z 0 Z=1,00 0,3413 60 65 50% 0,4772 60 70 X 0 Z=2,00 Z 50% 0 1,39 Z Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 5 c) Como em qualquer tipo de variável aleatória contínua, a probabilidade da variável tomar exatamente um determinado valor é zero, concluímos que: P(X = 40) = 0 d) x = 53 z = 5 6053 − = − 1,40 Da tabela obtemos: 0,4192 x = 62 zo = 5 6062 − = 0,40 Da tabela obtemos: 0,1554 P(53<X<62) = 0,4192 + 0,1554 = 0,5746 = 57,46% Exemplo 2: As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60 m desvio-padrão 0,30 m. Encontre a probabilidade de um aluno medir: a) Entre 1,50 e 1,80 m? b) Mais de 1,75 m? c) Menos de 1,48 m? d) Qual deve ser a medida mínima para escolhermos 10% dos mais altos? Temos: µ = 1,60 e σ = 0,30 z = σ µ−x = 30,0 60,1x − a) x1 = 1,50 z1 = 30,0 60,150,1 − z1 = − 0,33 Tab. : 0,1293 x2 = 1,80 z2= 30,0 60,180,1 − z2 = 0,67 Tab.: 0,2486 P(1,50 < x < 1,80) = P(−0,33 < Z < 0,67) OBS.: Por simetria, obtemos da tabela z = − 0,33 = 0,33 Portanto: P(−0,33 < Z < 0,67) = 0,1293 + 0,2486 = 0,3779 = 37,79% Logo: P(1,50 < x < 1,80) = 37,79% b) x = 1,75 z1 = 30,0 60,175,1 − z1 = 0,5 Tab. : 0,1915 P(x > 1,75) = P(z > 0,5) X Z 0 Z=0,40 0,1554 60 62 53 Z=−1,40 0,4192 X 1,60 1,80 1,50 0,2486 Z 0 0,67 −0,33 0,1293 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 6 P(x > 1,75) = P(z > 0,5) = 0,5000 – 0,1915 = 0,3085 = 30,85% c) x = 1,48 z1 = 30,0 60,148,1 − z1 = −0,4 Tab. : 0,1554 P(x < 1,48) = P(z < −0,4) P(x < 1,48) = P(z < −0,4) = 0,5000 – 0,1554 = 0,3446 = 34,46% d) A operação é inversa aos itens (a), (b) e (c), ou seja, dada a probabilidade, determine a medida. z = σ µ−x 1,28 = 30,0 60,1x − x = 1,98 m MÓDULO 2 ESTATÍSTICA INDUTIVA: INTRODUÇÃO E AMOSTRAGEM INTRODUÇÃO: É a parte da Estatística que, baseando-se em resultados obtidos da análise de uma amostra da população, procura concluir, sugerir ou estimar as leis de comportamento da população da qual a amostra foi retirada. Os objetivos principais da Estatística Indutiva são: tirar conclusões sobre populações através de amostras extraídas dessa população, induzindo ou caracterizando uma população através de amostra e ainda dizer qual é a probabilidade de erro, já que o processo de indução não é exato. Também através da Estatística Indutiva podemos aceitar ou rejeitar hipóteses que podem surgir sobre 1,60 1,75 X 50% 0 0,5 Z 0,5 0,1915 1,60 1,48 X 50% 0,5 −0,4 0 Z 0,1554 0 Zo Z 1,60 X X 0,4 = 40% 0,1 = 10% Na tabela com P(z) = 0,4000, encontramos Z0 = 1,28 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 7 as características da população, a partir também da análise da amostra representativa dessa população. Como observação: quanto maior for a amostra, mais precisas e confiáveis deverão ser as induções realizadas na população. AMOSTRAGEM “Você não precisa beber todo o vinho para saber que gosto ele tem!”. 1. Introdução A teoria da amostragem é um estudo das relações existentes entre uma população e as amostras dela extraídas. Portanto é fundamental que a amostra seja representativa da população, isto é, deve possuir as mesmas características básicas da população no que diz respeito às variáveis pesquisadas para que possamos fazer inferências (conclusões ou induções) acerca da população. Em geral, um estudo de inferências, feito a respeito de uma população, mediante a utilização de amostras dela extraídas, juntamente com as indicações da precisão dessas inferências, obtidas por meio da teoria da probabilidade é denominada inferência estatística. Dependendo do tipo de variável a ser estudada, podemos encontrar maiore menor dificuldade para realizar a amostragem. As maiores dificuldades são obtidas nas pesquisas sócio-econômicas ou de opinião, onde é preciso deixar muito bem caracterizado a população e o processo de amostragem da mesma. Se a pesquisa é elaborada por questionários, deve-se ter o cuidado de não apresentar perguntas inibidoras ou dúbias. 2. Tipos de Amostragem 2.1) Amostragem Probabilística Uma amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. Desta forma, a amostragem probabilística implica em um sorteio sobre todos os elementos da população com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível. Principais técnicas de amostragem probabilísticas: 1) Amostragem aleatória simples ou casual ou ao acaso ou elementar ou randômica. Este tipo de amostragem é equivalente a um sorteio lotérico. A amostragem Aleatória Simples é constituída de elementos retirados ao acaso da população, tendo cada um, igual probabilidade de pertencer à amostra e todas as possíveis amostras têm também igual probabilidade de ocorrer. Por isso é que a esse tipo de amostragem tende a produzir amostras representativas. Exemplo: Supondo que um clube tenha 650 sócios e deseja-se fazer uma amostra casual simples de 2% dos sócios desse clube, ou seja, 13 sócios. Para isso, faremos os seguintes passos: I. Numeramos os sócios de 001 a 650; Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 8 II. Escrevemos os números de 001 a 650, em pedaços iguais de um mesmo papel e colocamos os mesmos dentro de uma caixa (uma urna). Agite sempre a caixa para misturar bem os pedaços de papel e retire, um a um 13 números que formarão a amostra. Uma segunda opção para o sorteio seria: Coloque em uma urna, bolas numeradas de zero a nove, inclusive, misture bem e retire uma. Anote o número dessa bola que será o primeiro dígito do número do sócio que será amostrado. Volte a bola retirada à urna, misture bem e retire outra. O número dessa segunda bola será o segundo dígito do número do sócio que será amostrado. O procedimento deverá ser repetido até completar os três dígitos da numeração utilizada. Como a população é constituída por 650 sócios, devem ser desprezados os números maiores que 650, bem como os números que já foram sorteados e o número 000. O sorteio deverá ser repetido até se conseguir a amostra de 13 sócios. O processo de seleção exige que se atribuam números consecutivos aos itens listados escolhendo-se depois, aleatoriamente, os números dos itens que comporão a amostra. Conceitualmente, podemos usar cartas de baralho, dados, fichas numeradas ou bolas numeradas para gerar números aleatórios correspondentes aos números de nossa listagem. Na prática, tais dispositivos são empregados raramente, por várias razões. Uma delas é que cada dispositivo deixa algo a desejar; os métodos não são perfeitamente aleatórios. As cartas, por exemplo, podem aderir umas às outras, impedindo um embaralhamento perfeito. As arestas de um dado podem estar desgastadas. E sempre há o risco de que as bolas de uma urna não terem sido convenientemente misturadas. Em vista disso, e porque a amostragem aleatória é vital para a inferência estatística, existem tabelas especialmente elaboradas, chamadas tabelas de números aleatórios, construídas de modo que os dez algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas através de sorteio equiprovável. Na tabela de números aleatórios os dez algarismos 0, 1, 2, ..., 7, 8 , 9, podem ser lidos isoladamente ou em grupos; podem ser lidos em qualquer ordem, como por exemplo linhas ou colunas, num sentido ou no outro, diagonalmente, etc. e podem ser considerados aleatórios. A opção de leitura, porém, deve ser feito antes de iniciado o processo. Para usar uma tabela de números aleatórios devemos: 1) Fazer uma lista dos números da população; 2) Enumerar consecutivamente os itens da lista, a começar do zero; 3) Ler os números na tabela de números aleatórios de modo que o número de algarismos em cada um seja igual ao número de algarismos do último número da sua listagem; 4) Desprezar quaisquer números que não correspondam a números da lista ou que sejam repetições de números lidos anteriormente. Continue o processo até ter o número desejado de observações; 5) Usar os números assim escolhidos para identificar os itens da lista a serem incluídos na amostra. NOTA: O inconveniente desse processo é a exigência da enumeração de todos os elementos da população e sua identificação posterior, quando escolhidos para compor a amostra. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 9 EXEMPLO DE UMA TABELA DE NÚMEROS ALEATÓRIOS (retirada de: STEVENSON, William J. Estatística aplicada à administração, São Paulo: Harbra, 1981) 3690 2492 7171 7720 6509 7549 2330 5733 4730 0813 6790 6858 1489 2669 3743 1901 4971 8280 6477 5289 4092 4223 6454 7632 7577 2816 9202 0772 2160 8236 0812 4195 5589 0830 8261 9232 5692 9870 3583 8997 1533 6566 8830 7271 3809 2080 3828 7880 0586 8482 7811 6807 3309 2729 1039 3382 7600 1077 4455 8806 1822 1669 7501 7227 0104 4141 1521 9104 5563 1392 8238 4882 8506 6348 4612 8252 1062 1757 0964 2983 2244 5086 0303 7423 3298 3979 2831 2257 1508 7642 0092 1629 0377 3590 2209 4839 6332 1490 3092 0935 5565 2315 8030 7651 5189 0075 9353 1921 2605 3973 8204 4143 2677 0034 8601 3340 8383 7277 9889 0390 5579 4620 5650 0210 2082 4664 5484 3900 3485 0741 9069 5920 4326 7704 6525 6905 7127 5933 1137 7583 6450 5658 7678 3444 8387 5323 3753 1859 6043 0294 5110 6340 9137 4094 1957 0163 9717 4118 4276 9465 8820 4127 4951 3781 5101 1815 7068 6379 7252 1086 8919 9047 0199 5068 7447 1664 9278 1708 3625 2864 7274 9512 0074 6677 8676 0222 3335 1976 1645 9192 4011 0255 5458 6942 8043 6201 1587 0972 0554 1690 6333 1931 9433 2661 8690 2313 6999 8231 5627 1815 7171 8036 1832 2031 6298 6073 3995 9677 7765 3194 3222 4191 2734 4469 8617 2402 6250 9362 7373 4757 1716 1942 0417 5921 5295 7385 5474 2123 7035 9983 5192 1840 6176 5177 1191 2106 3351 5057 0967 4538 1246 3374 7315 3365 7203 1231 0546 6612 1038 1425 2709 5775 7517 8974 3961 2183 5295 3096 8536 9442 5500 2276 6307 2346 1285 7000 5306 0414 3383 3251 8902 8843 2112 8567 8131 8116 5270 5994 4675 1435 2192 0874 2897 0262 5092 5541 4014 3543 6130 4247 4859 2660 7852 9096 0578 0097 3521 8772 6612 0721 3899 2999 1263 7017 8057 5573 9396 3464 1706 9204 3389 5678 2589 0288 7478 7569 7551 3380 2152 5411 2647 7242 2800 3339 2854 9691 9562 3252 9848 6030 8472 2266 5505 8474 3167 8552 5409 1556 4247 4652 2953 6381 2086 5457 7703 2758 2963 8167 6712 9820 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 10 O uso da tabela pode ser entendido através do seguinte exemplo: De uma população constituída por650 elementos queremos retirar uma amostra aleatória de 50. O primeiro passo é enumerar a população de 001 a 650. A partir de um dígito escolhido ao acaso na tabela de números aleatórios vamos tomando os números, sempre com 3 algarismos (pois a população é constituída por 650 elementos), até completarmos os 50 elementos necessários para a amostra desejada. Suponhamos que os algarismos da tabela a partir do dígito escolhido sejam: 369024927171772065..., (percorrer a primeira linha da tabela da esquerda para a direita), os elementos sorteados para a amostra serão os de ordem 369, 024, 171, 065, etc. Os grupos 927 e 772 não foram considerados pois não constam da população. Então, são desprezados os números ou grupos que são maiores do que 650 e eventuais repetições, exceto se a amostragem seja com reposição. 2) Amostragem Sistemática Quando os elementos da população já se acham ordenados, não há necessidade de construir um sistema de referência. Por este processo, as amostras são retiradas periodicamente a partir de determinado elemento ou ponto de partida (por exemplo: de hora em hora). São exemplos os prontuários médicos de um Hospital, as linhas de produção, etc. Deve ser adotado com cuidado, pois pode conduzir a amostras enviesadas que não detectam eventos periódicos e cíclicos. Apesar de seus inconvenientes, é um método bastante usado em pesquisas de opinião pública, onde transeuntes são entrevistados de hora em hora ou após certa contagem. A seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Exemplo: Suponhamos uma população ordenada constituída por 650 elementos, da qual desejamos retirar uma amostra sistemática de 50 elementos. Podemos dividir o tamanho da população (N = 650) pelo tamanho da amostra (n = 50). O número obtido vai servir de base para efetuamos a amostragem. 50 650 = 13 O primeiro elemento da população a fazer parte da amostra deverá ser escolhido ao acaso entre os 13 primeiros. A partir do elemento escolhido a cada 13 retira-se outro. Assim, se o primeiro escolhido fosse o 10º, o seguinte seria o 23º, o outro seria o 36º e assim por diante. A amostragem sistemática é bastante usada pela sua simples execução. Em linhas de produção sua utilização é muito grande. Existe apenas um risco na sua utilização que é, por exemplo, a possibilidade de existir um defeito cíclico numa linha de produção e esse ciclo coincidir com o ciclo adotado na amostragem. 3) Amostragem por meio de conglomerados Consiste em subdividir a população que vai ser estudada em pequenos grupos (chamados de conglomerados) fisicamente próximos, independentemente de eles serem homogêneos ou não. Nesses grupos, são agregados os elementos com estreito contato físico (como casas, quarteirões, bairros, cidades, etc.). Ao invés de numerarmos os elementos da população para fazermos uma amostragem aleatória, numeramos os conglomerados e sorteamos alguns deles para constituírem a amostra. Na realidade é apenas uma maneira de simplificar o trabalho. A principal razão desse tipo de ajuntamento é que muitos elementos podem ser estudados por poucos pesquisadores. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 11 4) Amostragem estratificada Muitas vezes a população se divide em grupos (ou sub-populações) chamados estratos baseados em características associadas a cada elemento. Dentro de cada estrato os elementos são razoavelmente homogêneos mas diferentes de um estrato para outro. É o caso dos agrupamentos por sexo, raça, religião, escolaridade, etc. Ao fazermos a amostragem, se não levarmos em conta a existência dos estratos, poderá ocorrer que um ou mais fiquem sem representação na amostra, principalmente se esta for pequena. Portanto, a amostragem estratificada consiste em determinar quantos elementos da amostra serão retirados de cada estrato. São mais considerados dois tipos de amostragem estratificada: a uniforme e a proporcional. Na amostragem estratificada uniforme retira-se igual número de elementos de cada estrato e na amostragem estratificada proporcional, o número de elementos retirados de cada estrato é proporcional ao tamanho do estrato. A vantagem desse método com relação ao método da amostra aleatória simples (sem estratificação) é o de obter estimativas com maior precisão, com mesmo tamanho amostral. Exemplo: Seja obter uma amostra estratifica proporcional de 10% para a pesquisa da estatura de 100 alunos de uma escola onde 58 são meninos e 42 são meninas. Temos dois estratos: sexo masculino e sexo feminino. I) Primeiro vamos determinar o tamanho da amostra em cada estrato: Sexo População 10% Amostra Masculino 58 0,10 . 58 = 5,8 6 Feminina 42 0,10 . 42 = 4,2 4 Total 100 0,10 . 100 = 10 10 II) Numeramos os alunos de 001 a 100, sendo que de 001 a 058 correspondem meninos e de 059 a 100 meninas. II) Obtemos uma amostra aleatória ou sistemática de cada sexo e reunimos as informações numa só amostra, denominada amostra estratificada. 5) Amostragem múltipla A amostra é constituída pela retirada dos elementos da população em etapas sucessivas, sendo que a realização ou não de uma etapa depende do resultado da etapa anterior. A principal vantagem da amostragem múltipla é a diminuição do número de elementos inspecionados. 2.2) Amostragem Não Probabilística Quando nem todos os elementos da população tiverem uma probabilidade diferente de zero de pertencerem à amostra, dizemos que a amostragem é não-probabilística. Este processo de amostragem é subjetivo e seu regimento depende do conhecimento que o pesquisador possui a respeito da estrutura da população. É empregada, muitas vezes, por simplicidade ou pela impossibilidade de se obter amostragens probabilísticas. Para a Estatística Indutiva interessa a amostragem probabilística, pois assim, o acaso será o único responsável por eventuais diferenças entre a população e a amostra. No entanto, muitas vezes Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 12 não poderemos conseguir amostras probabilísticas e nesses casos o bom senso nos indicará como proceder para que os resultados possam ser considerados e trabalhados. Principais casos de amostragem não probabilística: 1) Amostragem por Julgamento (ou inacessibilidade a toda a população) A amostra é obtida na parte da população que é conhecida (ou acessível). Então se faz uma distinção entre população amostrada e população objeto. População amostrada é a parte da população que é acessível e da qual é retirada a amostra; População objeto é aquela sobre a qual pretendemos realizar o trabalho estatístico (de toda a população). Se as características das variáveis de interesse são as mesmas na população amostrada e na população objeto, a amostragem será equivalente a uma amostragem probabilística. Isso é muito comum quando concluímos sobre a qualidade de um produto pelas unidades que já foram produzidas e estendemos essa conclusão para as unidades que ainda serão produzidas. Se as condições de produção permanecerem as mesmas a conclusão será válida. Se o tamanho da amostra é bem pequeno, a amostragem aleatória poderá ser não- representativa, ao passo que uma pessoa familiarizada com a população pode especificar quais os itens mais representativos da população. Exemplo:Uma rede de pizzarias pode querer experimentar uma nova técnica de serviço, empregando bandejas com aquecimento. Problemas de custo podem fazer com que a experiência se limite a duas lojas, as quais podem diferir consideravelmente em termos de tamanho, localização, clientela e lucratividade. Ao invés de uma seleção aleatória das duas lojas a serem usadas como teste, será melhor confiar no conhecimento da administração para fazer tal escolha. 2) Amostragem a esmo ou sem norma É o caso em que o pesquisador procura ser aleatório, sem, no entanto, utilizar um sorteio aleatório rigoroso. Exemplo: Se tivermos numa caixa 15.000 parafusos e desejamos retirar uma amostra contendo 150 parafusos do mesmo modelo e tamanho, certamente não faríamos uma amostragem aleatória simples, pois seria extremamente trabalhosa, mas faríamos retiradas a esmo. Os resultados de uma amostragem a esmo são os mesmos de uma amostragem probabilística se a população é homogênea e se não existe a possibilidade de o pesquisador (ou amostrador) ser influenciado (mesmo que inconscientemente) por alguma característica dos elementos da população. Não seria o caso da amostra dos parafusos, acima, se estes tivessem modelos e tamanhos diferentes, e isto afetasse a característica observada nos parafusos. 3) População formada por material contínuo Quando a população for líquida ou gasosa o procedimento não probabilístico é homogeneizar a mistura e retirar uma amostra a esmo. Se a população for constituída por material sólido o processo não probabilístico é o da enquartação. O processo da enquartação consiste em dividir a população em diversas partes e sortear algumas para constituírem a amostra. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 13 4) Amostragem Intencional De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra por achá-los representativos da população. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Exemplo: Numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram. O grande risco desse procedimento é que fica sujeito ao julgamento de uma ou mais pessoas. 5) Amostragem por voluntários A amostra é constituída por elementos da população que concordam em ser voluntário principalmente em experiências com novos medicamentos. Exercícios 1) Os prontuários dos pacientes de um hospital estão organizados em um arquivo, por ordem alfabética. Qual é a maneira mais rápida de amostrar 1/3 do total de prontuários? 2) Um pesquisador tem dez gaiolas que contém, cada uma seis periquitos. Como o pesquisador pode selecionar dez periquitos para uma amostra? 3) Para levantar dados sobre o número de filhos por casal, em uma comunidade, um pesquisador organizou um questionário que enviou, pelo correio, a todas as residências. A resposta ao questionário era facultativa, pois o pesquisador não tinha condições de exigir a resposta. Nesse questionário pergunta-se o número de filhos por casal morador na residência. Você acha que os dados assim obtidos têm algum tipo de tendenciosidade? 4) Um pesquisador pretende levantar dados sobre o número de moradores por domicílio, usando a técnica de amostragem sistemática. Para isso, o pesquisador visitará cada domicílio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o pesquisador excluirá o domicílio da amostra. Esta última determinação introduz tendenciosidade. Por quê? 5) Muitas pessoas acreditam que as famílias se tornaram menores. Suponha que, para estudar essa questão, foi selecionada uma amostra de 2000 casais e perguntou-se quantos filhos eles tinham, quantos filhos tinham seus pais e quantos filhos tinham seus avós. O procedimento introduz tendenciosidade nos dados. Por quê? 6) Supondo que os dados abaixo sejam os diâmetros, medidos em mm, de 15 peças recebidas por uma empresa. Tome uma amostra de 5 elementos utilizando a tabela de números aleatórios a partir do 31º dígito da 5ª linha. Calcule a média, a variância e o desvio padrão das medidas dos diâmetros das peças da amostra. 11 15 16 10 20 18 14 12 12 19 17 23 13 22 17 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 14 NOTA: Para resolver as questões de 6 a 10, utilizar a tabela aleatória abaixo: Tabela de números aleatórios 25 19 64 82 84 62 74 29 92 24 61 03 91 22 48 64 94 63 15 07 66 85 12 00 27 23 02 41 46 04 44 31 52 43 07 44 06 03 09 34 19 83 94 62 94 48 28 01 51 92 55 85 66 96 28 28 30 62 58 83 65 68 62 42 45 13 08 60 46 28 95 68 45 52 43 68 45 19 69 59 35 14 82 56 80 22 06 52 26 39 59 78 98 76 14 36 09 03 01 86 69 31 46 29 85 18 88 26 95 54 01 02 14 03 05 48 00 26 43 85 33 93 81 45 95 37 31 61 28 98 94 61 47 03 10 67 80 84 41 26 88 84 59 69 14 77 32 82 81 89 66 42 19 24 94 13 13 38 69 96 76 69 76 24 13 43 83 10 13 24 18 32 84 85 04 33 65 78 12 35 91 59 11 38 44 23 31 48 75 74 05 30 08 46 32 90 04 93 56 16 76 32 06 19 35 22 95 30 19 29 57 74 43 20 90 20 25 36 70 69 38 32 11 01 01 43 33 42 02 59 20 39 84 95 61 58 22 04 02 99 99 78 78 83 82 43 67 16 38 95 28 31 93 43 94 87 73 19 38 47 54 36 90 98 10 83 43 32 26 26 22 00 90 59 22 97 19 21 63 34 69 33 17 03 02 11 15 50 46 08 42 69 60 17 42 14 68 61 14 48 82 80 37 14 20 56 39 59 89 63 33 90 38 44 50 78 22 87 10 88 06 58 87 39 67 03 68 03 13 60 64 13 90 37 11 86 02 57 41 99 31 66 60 65 64 03 03 02 58 97 65 16 58 11 01 98 78 80 63 23 07 37 66 20 56 20 96 06 79 80 33 39 40 49 42 24 65 58 57 04 18 62 85 28 24 26 45 17 82 76 39 65 01 73 91 50 37 49 38 73 02 72 64 07 75 85 66 48 38 73 75 10 96 59 31 48 78 58 08 88 72 08 54 57 17 79 16 78 63 99 43 61 00 66 42 76 26 71 14 33 33 86 76 71 66 37 85 05 56 07 04 75 14 93 39 68 52 16 83 34 64 09 44 62 58 48 32 72 26 95 32 67 35 49 71 40 64 64 57 60 97 00 12 91 33 22 14 73 01 11 83 97 68 95 65 67 77 80 98 87 7) Resolva o exercício anterior tomando uma amostra de 6 elementos, utilizando a tabela de números aleatórios a partir da intersecção da vigésima segunda coluna com a oitava linha. 8) Uma indústria recebeu determinado tipo de peça de dois fornecedores, sendo 30 peças do fornecedor A e 20 do B. Sabe-se que o aspecto a ser analisado é o peso. As peças foram numeradas ao darem entrada no almoxarifado e as 30 primeiras foram as do fornecedor A. 33 38 34 34 34 31 36 35 32 37 35 34 30 37 36 33 34 34 32 39 34 33 33 34 31 32 36 33 29 36 34 35 34 33 31 35 35 35 37 32 34 34 36 35 34 33 32 38 34 33 Pede-se: a) Utilizando a tabela de números ao acaso a partir do 11º dígito da 5ª linha, tome uma amostra de tamanho 10 e calcule o peso médio e a variância dos pesos das peças da amostra; a) Se fosse efetuada uma amostragem estratificada proporcional e a amostra fosse de 15 elementos, quantos seriam retirados de cada estrato? b) Suponha que das 30 peça do fornecedor A tenha sido colhida uma amostra sistemática de 5 peças e sabe-se que a 3ª peça a entrar no almoxarifado faz parte da amostra. Calcule a média e o desvio padrão dos pesos das peças dessa amostra. Estatística Indutiva para os cursos de Engenhariae Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 15 9) Uma população está dividida em 4 estratos de tamanhos 180, 420, 240 e 360. Foi realizada uma amostragem estratificada proporcional e foram retirados 9 elementos do menor estrato. Qual o tamanho total da amostra? 10) Na terceira série de um curso de Engenharia Mecatrônica existem duas turmas: a da manhã com 40 alunos e a da noite com 20 alunos. As 40 primeiras notas são dos alunos da manhã e as outras 20 são dos alunos da noite. 6,0 6,2 6,6 6,1 6,0 6,8 7,0 7,1 6,5 6,9 6,3 6,5 6,8 6,3 6,4 6,5 7,2 6,0 6,2 6,1 6,6 6,8 6,9 6,2 6,4 6,6 7,0 6,4 6,3 6,5 6,8 6,0 6,6 7,0 6,3 7,1 6,8 6,3 6,1 6,0 6,0 5,1 4,8 6,0 5,0 4,5 4,0 5,0 5,1 5,5 4,5 4,6 5,1 5,3 5,5 4,7 4,8 5,3 5,2 5,8 a) Foi retirada uma amostra aleatória de 10 notas com auxílio da tabela de números ao acaso, a partir da intersecção da sétima linha com a vigésima sexta coluna. Calcule a média e a variância das notas dessa amostra; b) Se tivesse sido realizada uma amostragem estratificada uniforme de 10 notas e tivesse sido obtida média 6,4 para os alunos da manhã e 5,2 para os alunos da noite, em quanto você estimaria a média dos 60 alunos? c) Se das notas dos alunos da manhã fosse retirada uma amostra sistemática de 8 notas e soubéssemos que a oitava nota (7,1) faz parte dessa amostra, qual a média e o desvio padrão das notas dessa amostra? Respostas: 1) Seleciona-se, para a amostra, um de cada três prontuários ordenados (por exemplo, o terceiro de cada três). 2) O pesquisador pode usar a técnica de amostragem estratificada, isto é, sortear um periquito de cada gaiola para compor a amostra. 3) Neste caso, é razoável esperar os seguintes tipos de tendenciosidade: a) os casais com muitos filhos responderiam, pensando na possibilidade de algum tipo de ajuda, como instalação de uma creche no bairro; b) os casais que recentemente tiveram o primeiro filho também responderiam; c) muitos dos casais que não têm filhos não responderiam. 4) Nos domicílios onde moram muitas pessoas, será fácil o pesquisador encontrar pelo menos uma pessoa, por ocasião de sua visita. Então é razoável admitir que os domicílios com poucos moradores têm maior probabilidade de serem excluídos da amostra. 5) Os casais de gerações anteriores que não tiveram filhos não têm possibilidade de serem selecionados para a amostra. Por outro lado, os casais de gerações anteriores que tiveram muitos filhos terão grande probabilidade de serem amostrados. 6) 16,0 22,5 4,74 7) 16,17 18,17 4,26 8) a) 35 4,44 b) 9 do A e 6 do B c) 34,4 2,8 9) 60 10) a) 5,98 e 0,508 b) 6,0 c) 6,25 e 0,78 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 16 MÓDULO 3 - CORRELAÇÃO E REGRESSÃO CORRELAÇÃO 1. INTRODUÇÃO: Uma das atividades humanas que realizamos sem cessar é a de associar a variação de uma variável à variação de outra, constituindo em um dos principais métodos de ajustamento ao ambiente em que vivemos. Já nos primeiros anos de vida, a criança é capaz de associar certas expressões faciais dos pais ao seu comportamento provável. É capaz, também, de associar certos ruídos com determinadas atividades que se passam no lar, e quanto maior for o número de associações que seja capaz de fazer, tanto melhor será o seu ajustamento ao lar. Esse relacionamento entre variáveis recebe o nome de correlação. Existe uma grande quantidade de variáveis que se relacionam através de uma fórmula matemática, como por exemplo, a área de um quadrado, que depende da medida do seu lado, ou seja, a área do quadrado é igual ao valor do seu lado elevado ao quadrado: A = llll2 ; outras variáveis não se relacionam através de uma fórmula matemática, como por exemplo, beleza x inteligência. Em estatística o assunto abordado pela correlação é exatamente uma tentativa de matematizar, sem no entanto resumir por fórmulas, a relação que existe entre duas variáveis. Outros exemplos estudados pela correlação: nível econômico x nível escolar cigarros x câncer horas trabalhadas x rendimento escolar peso x idade da pessoa consumo da família x renda familiar demanda de um produto x preço etc.... Particularmente em psicologia esse assunto é largamente aplicado em T.E.P. (técnicas do exame psicológico) na medida em que avalia a precisão e a validade de testes psicológicos,também em exames vocacionais que procuram indicar a profissão futura adequada para adolescentes. O que se faz é correlacionar os resultados obtidos pelos sujeitos com os resultados esperados para cada uma das profissões e daí, indica- se a profissão onde a correlação apresentou o maior grau. 2. DIAGRAMA DE DISPERSÃO É a representação dos pares ordenados (xi ; yi), de duas variáveis aleatórias X e Y, em um sistema de coordenadas cartesianas, obtendo uma “nuvem de pontos” que denominamos diagrama de dispersão. Exemplo: A tabela abaixo fornece as notas de 10 alunos de uma universidade nas disciplinas de matemática e estatística: N O T A S ALUNO MATEMÁTICA (xi) ESTATÍSTICA (yi) 01 5,0 6,0 02 5,0 9,0 03 7,0 8,0 04 10,0 10,0 05 6,0 5,0 06 7,0 7,0 07 9,0 8,0 08 3,0 4,0 09 8,0 6,0 10 2,0 2,0 xi e yi são as variáveis dadas na tabela. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 17 Diagrama de dispersão (gráfico da tabela): 0 2 4 6 8 10 12 0 2 4 6 8 10 12 notas de matemática n o ta s d e es ta tí st ic a Os pontos obtidos, no diagrama (nuvem de pontos), vistos em conjunto, formam uma elipse em diagonal. Podemos imaginar que, quanto mais fina (achatada) for a elipse, mais ela se aproximará de uma reta. Dizemos, então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear. Se essa reta for crescente, a correlação será linear positiva e se for decrescente, a correlação será linear negativa. 0 2 4 6 8 10 12 0 2 4 6 8 10 12 notas de matemática n o ta s d e es ta tí st ic a Correlação linear negativa 2 4 6 8 10 x Correlação linear positiva • • • • • • y • 10 8 6 4 2 0 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 18Ausência de correlação (correlação nula) • 2 4 6 8 10 x 1. MEDIDAS DE CORRELAÇÃO A correlação linear procura medir a relação entre duas variáveis X e Y através da disposição dos pontos (x, y) em torno de uma reta. O instrumento de medida da correlação linear é dado pelo coeficiente de correlação de Pearson que varia entre –1 e +1 no seguinte esquema: correlação aumenta correlação aumenta negativamente positivamente −−−−1 − 0,75 − 0,5 − 0,25 0 0,25 0,5 0,75 1 | | | | | | | | | Correlação positiva perfeita Correlação positiva alta (forte) Correlação positiva média Correlação positiva baixa (fraca) Ausência de correlação (correlação inexistente) Correlação negativa baixa (fraca) Correlação negativa média Correlação negativa alta (forte) Correlação negativa perfeita • • • • • • y • 10 8 6 4 2 0 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 19 4. Coeficiente de Pearson (rP) – Se as variáveis em questão X e Y são cardinais, utilizamos o coeficiente de Pearson (Karl Pearson, 1857– 1936) dado pela fórmula: rP = ])y ( y . n [ . ])x ( x . [n ) y ( . ) x ( ) y. (x . n 2 i 2 i 2 i 2 i iiii ∑ ∑ ∑ ∑−− ∑ ∑ ∑− , onde: n = número de observações OBS.: O coeficiente de Correlação Linear de Pearson pode ser calculado também por uma Fórmula Alternativa que é: rP = yyxx xy SS S . , onde: 1 )).(( ),cov( − −− = ∑ = n yyxx yxS ii xy , que é a covariância entre as variáveis x e y, cujo resultado determina o sinal e o grau da correlação das variáveis; ( ) ∑ ∑−= n x xS i ixx 2 2)( e ( ) ∑ ∑−= n y yS i iyy 2 2)( NOTA: O Coeficiente de Pearson calculado pela primeira fórmula é mais preciso que o calculado pela segunda fórmula (fórmula alternativa), pois trabalha com os Dados Brutos, sem transformações, sem arredondamentos. Exemplo: Calcule e interprete o coeficiente de Pearson (rP) para os dados da tabela: ALUNO BIOLOGIA (Xi) FISIOLOGIA (Yi) 1 4,5 3,5 2 6 4,5 3 3 3 4 2,5 2 5 5 5,5 6 5,5 5 7 1,5 1,5 8 7 6 ΣΣΣΣ 35 31 Completando a tabela, temos: Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 20 ALUNO BIOLOGIA (Xi) FISIOLOGIA (Yi) Xi . Yi (Xi) 2 (Yi) 2 1 4,5 3,5 15,75 20,25 12,25 2 6 4,5 27 36 20,25 3 3 3 9 9 9 4 2,5 2 5 6,25 4 5 5 5,5 27,5 25 30,25 6 5,5 5 27,5 30,25 25 7 1,5 1,5 2,25 2,25 2,25 8 7 6 42 49 36 ΣΣΣΣ 35 31 156 178 139 OBSERVAÇÃO: Como o cálculo de rP é trabalhoso, recomenda-se fazer o gráfico antes de começar qualquer cálculo. Se os pontos do gráfico distribuírem-se de tal modo que lembrem uma linha reta, convém calcular rP; se os pontos estiverem dispersos de modo não-linear, não convém calcular rP . A) Diagrama de Dispersão: 0 2 4 6 8 0 2 4 6 8 Notas de Biologia N o ta s d e F is io lo g ia B) Coeficiente de Pearson: rP = ]31 139 8. [ . ]35 178 . 8 [ 31 . 35 156 . 8 ])y ( y . n [ . ])x ( x . [n ) y ( . ) x ( ) y. (x . n 222 i 2 i 2 i 2 i iiii −− − = ∑ ∑ ∑ ∑−− ∑ ∑ ∑− rP = 35,173 163 rP = 0,94 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 21 C) Interpretação do resultado (correlação positiva alta) O resultado obtido pelo coeficiente de Pearson (rP = 0,94) indica uma correlação positiva altamente significativa entre as duas variáveis analisadas. D) Cálculo pela Fórmula Alternativa: 8 35 178 2 −=xxS = 24,875 , 8 31 139 2 −=yyS = 18,875 , 8 31.35 156 −=xyS = 20,375 rP = 875,18.875,24 375,20 = 668,21 375,20 rP = 0,94 OBSERVAÇÃO: A natureza não produz correlações perfeitas (do tipo rP = 1,00 ou rP = −1,00). Essas correlações pertencem ao campo da Matemática, por exemplo, se y = 2x, então: rP = ](20) (120) 5. [ . ](10) (30) . 5 [ (20) . (10) (60) . 5 ])y ( y . n [ . ])x ( x . [n ) y ( . ) x ( ) y. (x . 222 i 2 i 2 i 2 i iiii −− − = −− − ∑ ∑ ∑ ∑ ∑ ∑ ∑n rP = 200.50 100 = 10000 100 = 100 100 rP = 1,00 EXERCÍCIOS PROPOSTOS: 1. Descreva um exemplo de correlação linear positiva e um exemplo de correlação linear negativa, esboçando para cada um o respectivo diagrama de dispersão; Xi Yi Xi . Yi (Xi) 2 (Yi) 2 0 0 0 0 0 1 2 2 1 4 2 4 8 4 16 3 6 18 9 36 4 8 32 16 64 Σ 10 20 60 30 120 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 22 2. Numa pesquisa realizada sobre, número de cigarros fumados por dia (x) e idade da morte (y): Nº de cigarros/dia Idade da morte 20 60 25 55 30 40 15 70 25 55 20 61 18 63 28 42 20 58 Pede-se: a) esboçar o diagrama de dispersão; b) calcular o coeficiente de Pearson; c) interpretar os resultados. 3.De acordo com um estudo realizado por uma equipe de pesquisadores, as variáveis “medo do escuro” e “tempo de convivência diária com a mãe” estão correlacionadas. A variável medo foi medida através de uma escala que variou entre 1 e 5, sendo 1 o grau mínimo e 5 o grau máximo. A variável tempo foi avaliada em número de horas diárias que a criança convive exclusivamente com a mãe. Abaixo encontram-seos resultados do estudo em questão, obtidos com 8 crianças: Artigo I. Medo do escuro 2 4 3 5 1 3 5 3 Artigo II. Tempo de convivência 10 8 6 3 12 8 4 7 Pede-se: a) esboçar o diagrama de dispersão; b) calcular o coeficiente de Pearson; c) interpretar os resultados. 4. De acordo com uma pesquisa em uma clínica psicológica, levantou-se a hipótese segundo a qual o tempo de internação dos pacientes teria uma relação com o grau de satisfação que os sujeitos têm por sua família. Foi elaborado um questionário cujo resultado identificava, em uma escala de 0 a 10, o grau de satisfação dos sujeitos. Com base nos resultados, realize o procedimento adequado para a confirmação ou não desta hipótese, e interprete o resultado. X = grau de satisfação familiar Y = tempo de internação (número de dias) Artigo III. X 8 4 2 1 9 10 3 5 6 2 Artigo IV. Y 20 5 14 8 3 2 18 30 5 15 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 23 REGRESSÃO LINEAR Como vimos na Correlação, os pares ordenados de uma tabela determinam o que denominamos de diagrama de dispersão, que representa uma correlação entre as variáveis da tabela dada. Cabe à regressão linear fazer o ajustamento da reta, ou seja, obter a equação da reta que melhor se ajusta aos pontos dados no diagrama de dispersão. A análise de regressão tem por objetivo descrever, através de uma equação matemática, o relacionamento entre duas variáveis, partindo de n observações das mesmas. A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente (y) e a outra recebe o nome de variável independente (x) A equação do ajustamento de uma reta é dada por: y* = a x + b, onde a e b são os parâmetros. A indicação y* é devida pelo fato da eq. de regressão ter um valor aproximado ou teórico. Os valores dos parâmetros a e b são obtidos pelo método dos mínimos quadrados em que: a = ∑ ∑− ∑ ∑ ∑− 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n e b = x a y − , onde: n é o número de observações; x é a média dos valores xi : ∑= n x x i • • y é a média dos valores yi : ∑= n y y i • EXEMPLO: A tabela a seguir indica as quantidades produzidas mensalmente de um produto e os respectivos custos totais de produção: quantidade produzida xi 10 12 13 14 15 16 custo total (R$) yi 200 230 270 290 280 300 Pede-se estabelecer pela análise de regressão: a) a reta que melhor se ajusta a esses dados; b) o valor mais provável dos custos fixos; c) o valor do custo estimado para 18 produtos. reta imagem • • • • • • 10 8 6 4 2 0 y • 2 4 6 8 10 x Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 24 a) xi yi xi . yi xi 2 10 200 2000 100 12 230 2760 144 13 270 3510 169 14 290 4060 196 15 280 4200 225 16 300 4800 256 ΣΣΣΣ 80 1570 21330 1090 33,13 6 80 n x x i === ∑ e 66,261 6 1570 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 17 140 2380 80 1090 . 6 1570 . 80 21330 .6 2 == − − b = x a y − = 261,66 – 17 . 13,33 = 35,05 ≅ 35 Portanto a equação de ajuste da reta é: y = ax + b y* = 17x + 35 0 50 100 150 200 250 300 350 0 5 10 15 20 quantia produzida (unid.) cu st o t o ta l (R $) b) o Custo fixo é obtido quando fazemos x = o, assim: y* = 17 . 0 + 35 = 0 + 35 y* = R$ 35,00 (custo fixo) d) o Custo estimado para x = 18 é dado por: y* = 17 . 18 + 35 = 306 + 35 y* = R$ 341,00 (custo estimado) EXERCÍCIOS: 1. A tabela abaixo indica a quantidade de bolas de basquete produzidas mensalmente e os respectivos custos totais de produção: quantidade xi 10 11 12 13 14 15 custos em R$ yi 100 112 119 130 139 142 Reta que melhor se ajusta aos dados Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 25 Pede-se: a) a reta que melhor se ajusta a esses dados; b) o valor mais provável dos custos fixos; c) qual o custo para a quantidade de 16 bolas. 2. A tabela abaixo mostra a taxa de desemprego em porcentagem da população economicamente ativa de 1980 a 1992 de um determinado país. Pede-se: a) a reta que melhor se ajusta a esses dados; b) avaliar (estimar) a taxa de desemprego para o ano de 1993 Ano (xi) 80 81 82 83 84 85 86 87 88 89 90 91 92 % (yi) 2,2 4,3 4 4,3 4,9 4,5 2,4 2,6 3,8 3,2 2,6 4,5 6 3. A tabela abaixo mostra as alturas e o peso em quilogramas de uma amostra de alunos do curso de administração do 1º semestre. Pede-se: a) a reta que melhor se ajusta a esses dados; b) avaliar a altura do aluno cujo peso é 63 kg; c) avaliar o peso do aluno cuja altura é 180 cm peso (xi) 45 60 58 55 66 58 70 68 76 altura (yi) 150 155 158 160 162 165 170 175 178 4. A tabela abaixo revela uma amostra de valores de seguro pessoal contratados em função da quantidade de salários mínimos recebidos. Usando a equação de regressão linear, qual seria o montante segurado para alguém que recebe 30 salários mínimos? Salários (xi) 13 16 17 18 20 25 26 32 38 40 42 Seguro (mil R$) (yi) 50 150 200 100 100 120 150 300 400 500 400 5. A variação do valor do BTN (Bônus do Tesouro Nacional), relativamente a alguns meses de 1990, deu origem à tabela: Meses (xi) abr mai jun jul ago set out nov Valores ($) (yi) 41,73 41,73 43,98 48,91 53,41 59,06 66,65 75,76 Pede-se: a) a reta que melhor se ajusta a esses dados; ( y* = 4,9x + 17,15 ) b) estime o valor do BTN para o mês de dezembro do mesmo ano. ( $ 75,95 ) Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 26 Resolução dos exercícios da página 24 – Prof. Machado 1. quantidade xi 10 11 12 13 14 15 custo total (R$) yi 100 112 119 130 139 142 a) xi yi xi . yi xi 2 10 100 1000 100 11 112 1232 121 12 119 1428 14413 130 1690 169 14 139 1946 196 15 142 2130 225 ΣΣΣΣ 75 742 9426 955 5,12 6 75 n x x i === ∑ e 66,123 6 742 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 8,63 105 906 75 955 . 6 742 . 75 9426 .6 2 == − − b = x a y − = 123,66 – 8,63 . 12,5 = 15,785 ≅ 15,78 Portanto a equação de ajuste da reta é: y* = ax + b y* = 8,63x + 15,78 0 20 40 60 80 100 120 140 160 0 5 10 15 20 quantidade de bolas cu st o t o ta l ( R $) b) o Custo fixo é obtido quando fazemos x = o, assim: y* = 8,63 . 0 + 15,78 = 0 + 15,78 y* = R$ 15,78 (custo fixo) c) o Custo estimado para x = 16 é dado por: y* = 8,63 . 16 + 15,78 = 138,08 + 15,78 y* = R$ 153,86 (custo estimado) Reta que melhor se ajusta aos dados Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 27 2. Ano (xi) 80 81 82 83 84 85 86 87 88 89 90 91 92 % (yi) 2,2 4,3 4 4,3 4,9 4,5 2,4 2,6 3,8 3,2 2,6 4,5 6 a) xi yi xi . yi xi 2 80 2,2 176 6400 81 4,3 348,3 6561 82 4 328 6724 83 4,3 356,9 6889 84 4,9 411,6 7056 85 4,5 382,5 7225 86 2,4 206,4 7396 87 2,6 226,2 7569 88 3,8 334,4 7744 89 3,2 284,8 7921 90 2,6 234 8100 91 4,5 409,5 8281 92 6 552 8464 ΣΣΣΣ 1118 49,3 4250,6 96330 86 13 1118 n x x i === ∑ e 8,3 13 3,49 n y y i ===∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 0,06 2366 140,4 1118 13.96330 49,3 . 1118 4250,6 .13 2 == − − b = x a y − = 3,8 – 0,06 . 86 ≅ −1,36 Portanto a equação de ajuste da reta é: y* = ax + b y* = 0,06x – 1,36 b) a taxa de desemprego (estimada) para 1993 é obtida fazendo na equação do ajuste x = 93. Assim, y* = 0,06 . 93 – 1,36 = 5,58 – 1,36 = 4,2% Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 28 3. peso (xi) 45 60 58 55 66 58 70 68 76 altura (yi) 150 155 158 160 162 165 170 175 178 a) xi yi xi . yi xi 2 45 150 6750 2025 60 155 9300 3600 58 158 9164 3364 55 160 8800 3025 66 162 10692 4356 58 165 9570 3364 70 170 11900 4900 68 175 11900 4624 76 178 13528 5776 ΣΣΣΣ 556 1473 91604 35034 78,61 9 556 n x x i === ∑ e 67,163 9 1473 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 0,88 6170 5448 556 35034 . 9 1473 . 556 91604 .9 2 == − − b = x a y − = 163,67 – 0,88 . 61,78 = 109,3 Portanto a equação de ajuste da reta é: y* = ax + b y* = 0,88x + 109,3 b) para um peso x = 63 kg, temos: y* = 0,88 . 63 + 109,3 y* = 164,74 cm c) para uma altura y = 180 cm, temos: 180 = 0,88 x + 109,3 0,88 x = 180 – 109,3 0,88 x = 70,7 x = 80,34 kg Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 29 4. Salários (xi) 13 16 17 18 20 25 26 32 38 40 42 Seguro (mil R$) (yi) 50 150 200 100 100 120 150 300 400 500 400 a) xi yi xi . yi xi 2 13 50 650 169 16 150 2400 256 17 200 3400 289 18 100 1800 324 20 100 2000 400 25 120 3000 625 26 150 3900 676 32 300 9600 1024 38 400 15200 1444 40 500 20000 1600 42 400 16800 1764 ΣΣΣΣ 287 2470 78750 8571 1,26 11 287 n x x i === ∑ e 5,224 11 2470 n y y i ===∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 13,2 11912 157360 287 11.8571 2470 . 287 78750 .11 2 == − − b = x a y − = 224,5 – 13,2 . 26,1 ≅ −120 Portanto a equação de ajuste da reta é: y* = ax + b y* = 13,2x – 120 b) para quem recebe x = 30 salários mínimos, temos: y* = 13,2 . 30 – 120 = 396 – 120 y* = R$ 276,00 de montante segurado. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 30 5. Meses (xi) abr mai jun jul ago set out nov Valores ($) (yi) 41,73 41,73 43,98 48,91 53,41 59,06 66,65 75,76 a) xi yi xi . yi xi 2 4 41,73 166,92 16 5 41,73 208,65 25 6 43,98 263,88 36 7 48,91 342,37 49 8 53,41 427,28 64 9 59,06 531,54 81 10 66,65 666,5 100 11 75,76 833,36 121 ΣΣΣΣ 60 431,23 3440,5 492 5,7 8 60 n x x i === ∑ e 9,53 8 23,431 n y y i === ∑ a = ∑ ∑ ∑ ∑ ∑ − − 2 i 2 i ii ii ) x( x . n y . x ) y. (x . n = 4,9 336 1650,2 60 8.492 431,23 . 60 3440,5 .8 2 == − − b = x a y − = 53,9 – 4,9 . 7,5 = 17,15 Portanto a equação de ajuste da reta é: y* = ax + b y* = 4,9x + 17,15 b) para o mês de dezembro, devemos ter x = 12. Logo: y* = 4,9 . 12 + 17,15 = 58,8 + 17,15 y* = $ 75,95 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 31 MÓDULO 4 −−−− ESTIMATIVA DE PARÂMETROS. 1. Parâmetro – é a medida usada para descrever uma característica numérica populacional, ou seja, da população. Exemplos de parâmetros populacionais: média (representada por µ), variância (representada por σ2) e desvio-padrão (representado por σ). 2. Estatísticas da amostra – são medidas características determinadas na amostra para escolher os estimadores de um parâmetro populacional. Exemplos de parâmetros populacionais: média amostral (representada por x ), Variância amostral (representada por s2) e desvio-padrão amostral (represen- tado por s). Resumindo: Parâmetros Populacionais Estatísticas da amostra (Estimadores) Média µ x Variância σ2 s2 Desvio padrão σ s 3. Distribuição Amostral – quando selecionamos aleatoriamente várias amostras de tamanho n da população, os valores da média e do desvio-padrão calculados estarão distribuídos em torno de valores verdadeiros para a população. Se selecionarmos aleatoriamente, todas as amostras com mesmo tamanho n desta população e calcularmos umaestatística x ou uma estatística s para as amostras, podemos construir uma distribuição de probabilidades da estatística. Essa distribuição é chamada de Distribuição Amostral. Observações: a) A média das médias das amostras é igual à média populacional, ou seja: µµ x ==== b) O desvio-padrão das médias das amostras é igual ao desvio-padrão populacional dividido pela raiz quadrada de n, ou seja: n x σ σ ==== O desvio-padrão da distribuição amostral das médias das amostras é denominado erro padrão da média. c) Amostra com reposição é aquela em que o elemento extraído é devolvido à população após anotadas suas características. d) Amostra sem reposição é aquela em que o elemento extraído não é devolvido à população após anotadas suas características. Exemplo: Suponha que a média de uma população bastante grande seja µ = 50 e o desvio padrão σ =12. Determinar a distribuição de amostragem das médias das amostras de tamanho n = 36. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 32 Solução: Em termos de valor esperado e de erro padrão da distribuição, temos: xµ = µ = 50 e n x σ σ ==== = 36 12 = 6 12 = 2 Notas: 1) Se usarmos amostras de uma população finita, deve-se incluir um fator de correção finita (ou fator de correção para população finita) na fórmula do erro padrão da média. Uma “regra de bolso” é que a correção é insignificante e pode ser omitida sempre que n < 0,05.N; isto é, quando o tamanho da amostra for menor que 5% do tamanho da população. A fórmula para o erro padrão da média quando se inclui o fator de correção finita é: n x σ σ ==== . 1N nN −−−− −−−− 2) Se o desvio padrão da população σσσσ for desconhecido, o erro padrão da média pode ser estimado, usando-se o desvio padrão da amostra s como um estimador do desvio padrão da população. Para diferenciar este erro padrão daquele baseado em um σσσσ conhecido, denota-se o mesmo por xs . A fórmula para o erro padrão estimado da média é: n s sx ==== A fórmula para o erro padrão estimado da média quando se inclui o fator de correção finita é: n s sx ==== . 1N nN −−−− −−−− , onde 1N nN −−−− −−−− é o fator de correção finita. Exemplo: Um auditor toma uma amostra aleatória de tamanho n = 16 de um conjunto de N = 100 contas a receber. Não se conhece o desvio padrão dos valores das 100 contas a receber. Contudo, o desvio padrão da amostra é s = $ 57,00. Determinar o valor do erro padrão da distribuição de amostragem da média. Solução: Temos: n = 16 e 5%.N = 0,05 . 100 = 5, então, n > 5%.N. Logo, usaremos o fator de correção finita para calcularmos o erro padrão estimado da média com base no desvio padrão amostral, ou seja: n s sx ==== . 1N nN −−−− −−−− = 16 57 . 1100 16100 −−−− −−−− = 4 57 . 99 84 = 14,25 . 0,9211 ≅ $ 13,13 3.1. Distribuição amostral das proporções Uma distribuição de proporções amostrais indica quão provável é determinado um conjunto de proporções amostrais, dados o tamanho da amostra e a proporção populacional. Quando o tamanho da amostra é 20 ou menos, as probabilidades dos diversos resultados possíveis podem ser lidas diretamente numa tabela de probabilidades binomiais simplesmente convertendo o número de sucessos em porcentagens. Por exemplo, 3 ocorrências em 10 observações correspondem a 30%, 5 ocorrências em 20 observações correspondem a 25%. Para maiores amostras, a aproximação normal da binomial dá resultados bastante satisfatórios. A média (proporção ou porcentagem média) da distribuição amostral é sempre igual à proporção populacional, isto é, p = p , onde: p = proporção populacional e p = média da distribuição amostral das proporções. Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 33 Quando a população é muito grande ou infinita, o desvio padrão da distribuição amostral se calcula pela fórmula: n )p1( .p )p( − =σ ou n q p p . )( =σ , pois (1 – p) = q Exemplo1: Um varejista compra copos diretamente da fábrica em grandes lotes. Os copos vêm embrulhados individualmente. Periodicamente o varejista inspeciona os lotes para determinar a proporção dos quebrados ou lascados. Se um grande lote contém 10% de quebrados ou lascados, qual a probabilidade de o varejista obter uma amostra de 100 copos com 17% ou mais defeituosos? Solução: Temos: µ(p ) = p = 10%, que é a porcentagem populacional de defeitos, então (1 – p) = 90%; n = 100 O desvio padrão será: n )p1( .p )p( − =σ = 100 )90,0).(10,0( = 10 3,0 = 0,03 = 3%. z = )p( )p(p σ µ− = %3 %10%17 − = %3 %7 = 2,33 tab.: 0,4901 Potanto, P( p ≥ 17%) = P(z ≥ 2,33) = 0,5 – 0,4901 = 0,0099 = 0,99% ≅ 1% 4. Teorema do Limite Central – À medida que se aumenta o tamanho da amostra, a distribuição de amostragem da média se aproxima da forma da distribuição normal, qualquer que seja a forma da distribuição populacional. Na prática, a distribuição de amostragem da média pode ser considerada como distribuição normal sempre que o tamanho da amostra for n ≥≥≥≥ 30. Portanto, o uso da distribuição normal na estimativa da média populacional é garantido para qualquer grande amostra (n ≥ 30), sendo-o para uma pequena amostra (n < 30) somente se a população for normalmente distribuída e σ for conhecido, ou seja, é importante saber que a população submetida a amostragem tem distribuição normal, ou ao menos aproximadamente normal. Exemplo 1: Um auditor toma uma amostra de n = 36 de uma população de 1.000 contas a receber. O desvio padrão da população é desconhecido, mas o desvio padrão da amostra é s = $ 43,00. Se o verdadeiro valor da média da população de contas a receber é µ = $ 260,00, qual a probabilidade de que a média da amostra seja menor ou igual a $ 250,00, ou seja, P( x ≤ 250) = ? Solução: 5%N = 0,05.1000 = 50 n < 5%N. Logo, não inclui fator de correção. 10% 17% p 0 2,33 z 0,4901 Estatística Indutiva para os cursos de Engenharia e Informática. Anotações de Aula Eurípedes MACHADO Rodrigues 34 A distribuição de amostragem é descrita pela média e pelo erro padrão: xµ = µ = 260,00 (como foi dado); n s sx ==== = 36 43 = 6 43 ≅ 7,17 Nota: s é usado como estimador de σσσσ, e o fator de correção finita não é necessário, uma vez que (n = 36 < 5%N = 0,05 . 1000 = 50) zo = xs x µ−−−− = 17,7 260250 −−−− = 17,7 10−−−− = −1,39 Tab.: 0,4177 P(x ≤≤≤≤ 250) = P(z ≤ −1,39) = 0,5 – 0,4177 = 0,0823 = 8,23% Exemplo 2: Uma transportadora entrega em uma adega 30 caixas, cada uma contendo três dúzias de garrafas de vinho. Sabendo-se que
Compartilhar