Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introdução à Estatística Primeiro Semestre/2019 Inferência Estatística � Conjunto de técnicas que tem por objetivo estudar a população através de uma amostra. População Amostra Inferência Estatística: • Estimação de quantidades desconhecidas; • Extrapolação dos resultados; • Testes de hipóteses. Amostragem - Terminologia � População-Alvo: � População que se deseja descrever; � População de Estudo: � Subconjunto, da população-alvo, do qual as amostras serão selecionadas; � Sistema de referência: � Lista dos elementos pertencentes à população de estudo; � Amostra: � Todo o subconjunto não vazio e com um número menor de elementos do que o conjunto definido como população. � Unidade Amostral: � Cada elemento contido na amostra. Exemplo � Considere que é de interesse estudar a proporção de alunos do ensino médio que pretendem fazer vestibular; � Selecionamos uma amostra de 100 alunos e perguntamos sobre suas intensões futuras de estudo. Maneiras de Selecionar Amostras � Amostragem Aleatória Simples; � Amostragem Sistemática; � Amostragem Estratificada; � Amostragem por Conglomerado. Amostragem Aleatória Simples � Mesma chance de seleção para todos os elementos da população; � Metodologia: � listar ou numerar todos os elementos da população e sortear elementos ao acaso até que a amostra alcance o tamanho desejado. Exemplo � Suponha que tenham 5000 alunos no ensino médio na cidade na qual o estudo será feito; � Seriam dados números de 1 a 5000 a cada um dos alunos, e depois 100 desses números seriam sorteados sem reposição; � Dessa maneira obteríamos uma amostra simples da população de estudo. Amostragem Sistemática � Utiliza um sistema imposto pelo pesquisador na seleção dos elementos que formarão a amostra. � Metodologia usual: � tenho N elementos na população, quero uma amostra de n elementos. Utilizando o valor k = N/n (valor inteiro mais próximo) faço a seleção dos elementos em uma lista selecionando aqueles nas posições b + ak, com a pertencente aos naturais e b sendo um número sorteado entre 1 e k. Exemplo � Suponha que temos os mesmo 5000 alunos mencionados anteriormente e queremos uma amostra de 100 alunos; � Nesse caso, teria que ser feita uma lista com os nomes de todos os alunos, poderia ser em ordem alfabética, e novamente numerá-los; � � � ������� � 50; � Sortearíamos um número entre 1 e 50, considere que saiu o número 11; � Pertenceriam à amostra sistemática os alunos que tivessem os números {11,61,111,161,211,..., 4911, 4961}, respectivos à eles. Amostragem Estratificada � Coleta amostras de cada estrato de uma população. A amostra final é o conjunto de todas as amostras tomadas. � O termo estrato simboliza divisões entre elementos, como sexo, classe social, naturalidade, idade, entre outras. Exemplo � Considere os mesmos 5000 alunos; � Considere que exista o interesse em estratificar por tipo de escola: pública e particular; � Os 5000 alunos seriam divididos, então, em dois grupos: � Grupo 1: alunos de escola pública (3500 alunos); � Grupo 2: alunos de escola particular (1500 alunos). � Se o meu interesse for ter 50 alunos de escolas particulares e 50 de escolas publicas, seriam retiradas duas amostras simples, independentes, de tamanho 50 de cada um dos 2 grupos. Amostragem por Conglomerado � Considera uma amostra de conglomerados (prédios, escolas, hospitais, ...) dentre todos os existentes na população: � Estuda todos os elementos dentro de cada conglomerado selecionado (um estágio); � Ou amostra parte dos elementos dos conglomerados selecionados (dois estágios). Exemplo � Considere, mais uma vez, o exemplo com os 5000 alunos; � Agora, inicialmente, seria sorteada, uma escola; � Se fossemos fazer amostra por conglomerado em um estágio, todos os alunos de ensino médio da escola sorteada pertenceriam à amostra; � Se fossemos fazer amostra por conglomerado em dois estágios, seria selecionada uma amostra simples de 100 alunos do ensino médio da escola em questão. Amostra Viesada ou Tendenciosa � Tende a representar parte de uma população e não o todo; � Comum em amostragens não probabilísticas: não se conhece a probabilidade de inclusão das unidades amostrais. � Amostras de conveniência; � Amostras constituídas de voluntários. Inferência Estatística � Suponha que tenhamos retirado uma amostra simples de 100 alunos dos 5000 atualmente matriculados na nossa cidade; � Repetindo o método de amostragem acima, teríamos as mesmas amostras? � Obteríamos resultados iguais, ou próximos? Inferência Estatística � Devido à natureza aleatória envolvida no procedimento amostral, não podemos garantir que repetições de amostras produzam resultados idênticos; � Logo, as quantidades associadas à amostra têm caráter aleatório e, portanto, devem receber tratamento probabilístico. � Para eliminar ambiguidades e confusões de notação, vamos representar uma amostra de tamanho �, a ser retirada de uma população, por �, �, … , ��. � Parâmetro: � As quantidades da população, em geral desconhecidas, sobre as quais temos interesse, são denominadas parâmetros e, usualmente representadas por letras gregas tais como �, � e �, entre outras. � Estimador e estimativa: � À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população, denominamos de estimador. Em geral, denotamos os estimadores por símbolos com o acento circunflexo: ��, ��, ��, etc. � Aos valores numéricos assumidos pelos estimadores denominamos estimativas. Parâmetros, Estimadores e Estimativas Exemplo � Estamos interessados na média das alturas de jovens com idade entre 15 e 18 anos, nascidos na região sudeste do país. Vamos coletar uma amostra simples de tamanho 10 e usá-la para tirar conclusões. � Amostra, em metros: 1,65; 1,57; 1,72; 1,66; 1,71; 1,74; 1,81; 1,68; 1,60 e 1,77. � Abaixo estão algumas opções de estimadores para a média que se deseja calcular: � ��� � �á������í������ � 1,69; � ��� � � � 1,65; � ��� � !" #"⋯" !%� � 1,69. Inferência Estatística � Como escolher qual estimador utilizar? � Deve-se estudar as propriedades de um estimador; � Lembrando que para amostras diferentes de uma mesma população, obteremos estimativas, provavelmente, diferentes. Exemplo � Considere que foram retiradas 10 amostras distintas de 10 alunos da UFJF com o objetivo de estudar a idade média dos alunos da UFJF; � Ao calcular as médias de cada uma dessas amostras, temos: � ��� � 21,2; ��� � 21,5; ��� � 20,4; ��( � 21,2; ��� � 20,8; ��* � 20,7; ��, � 19,3; ��. � 19; ��/ � 20,4; ���� � 24,9 � Ou seja, as estimativas de um parâmetro, obtidas por um mesmo estimador, podem variar de acordo com a amostra retirada. � Vício � Um estimador �� é não viciado ou não viesado para um parâmetro � se 0 �� � �. Ou seja, sum estimador é não viciado se o seu valor esperado coincide com o parâmetro de interesse. � Consistência � Um estimador �� é consistente, se, à medida que o tamanho da amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero: � lim�→50 �� � �; � lim�→5678 �� � 0. � Eficiência � Dados dois estimadores ��� e ���, não viciados para um parâmetro �, dizemos que ��� é mais eficiente do que ��� se 678 ��� 9 678 ��� . Propriedades dos Estimadores Estimadores para média, proporção e variância Parâmetro Estimador Propriedades � : � � ; � ;⋯; �� Não viciado e consistente < <̂ � >8?@Aê�CD7 7FGHI87J CGF 7 C787CI?8íHIDC7� Não viciado e consistente �� K� � 1� L 1M � L : � � �N� Não viciado e consistente �� ��� � 1�M � L : � � �N� Viciado e consistente Distribuições Amostrais � Estimadores são funções de variáveis aleatórias, sendo assim, eles também são variáveis aleatórias; � Vamos estudar a distribuição de probabilidade de alguns dos estimadores mais utilizados. Distribuição da Média Amostral � Considerecomo a variável aleatória que representa o nível sérico de colesterol de homens (20 a 74 anos) norte américanos; � Suponha que segue uma distribuição normal com média de 211 mg/100ml e desvio padrão de 46 mg/100ml; � Se forem retiradas 50 amostras dessa população, e calculadas as médias para cada amostra, teremos 50 valores distintos que poderiam ser considerados como estimativas da média da população; � O̅�, O̅�, … , O̅��; � Podemos considerar as médias obtidas como uma nova variável aleatória. Distribuição da Média Amostral Histogramas das médias de níveis séricos de colesterol de 50 amostras retiradas da população de homens (20 a 74 anos) norte américanos cujo nível sérico de colesterol segue uma distribuição normal com média de 211 mg/100ml e desvio padrão de 46 mg/100ml. n = 5 n = 50 n = 100 210mg/100ml 210mg/100ml 210mg/100ml Teorema Central do Limite � Suponha uma amostra aleatória simples de tamanho � retirada de uma população com média � e variância �� (note que a distribuição de probabilidade da variável aleatória não é especificada). Representando tal amostra por � variáveis aleatórias independentes �, �, … , �� e, denotando sua média por :, temos que: : L � � �Q �→5R � com R~T 0,1 . Teorema Central do Limite � Garante que para � grande a distribuição da média amostral, devidamente padronizada, segue uma distribuição Normal Padrão; � Esse teorema permite que utilizemos a distribuição Normal para estudar : probabilisticamente; � Estudos, envolvendo simulações, mostram que, em muitos casos, valores de � ao redor de 30 fornecem aproximações bastante boas para aplicações práticas. Exercício 1 � Uma variável assume os valores 3, 6 e 8 com probabilidades 0,4; 0,3 e 0,3; respectivamente. Uma amostra com 40 observações é sorteada. � Qual a probabilidade da média amostral superar o valor 5? Teorema Central do Limite - Aplicação � Suponha que: � < represente a proporção de indivíduos com determinada característica em uma população (valor desconhecido) � <̂ represente o estimador dessa proporção, considerando uma amostra da tamanho �, dado por: <̂ � �úF?8G V? D�VDW. �7 7FGHI87 CGF V7V7 C787CI?8íHIDC7� � Tem-se que: � 0 <̂ � < e 678 <̂ � Y ��Y�� � Considerando o Teorema Central do Limite, tem-se que para � suficientemente grande: <̂ L < < 1 L < � �→5T 0,1� Exercício 2 � Suponha que a proporção de peças fora de especificação em um lote é de 40%. Tomada uma amostra de tamanho 30, qual a probabilidade dessa amostra fornecer uma proporção de peças defeituosas menor que 0,50? Estimação por intervalo � Até agora vimos estimadores pontuais, que fornecem um único valor numérico para o parâmetro de interesse; � Como os estimadores são variáveis aleatórias, pode-se apresentar uma estimativa mais informativa para o parâmetro de interesse, uma que inclua uma medida de precisão do valor obtido; � Esse método é denominado intervalo de confiança, e incorpora, à estimativa pontual do parâmetro, informações a respeito de sua variabilidade. Intervalos de Confiança � Pode-se utilizar o conhecimento da distribuição da média amostral para construir um intervalo de confiança para a média � de uma população; � Dada uma variável aleatória com média � e variância �� conhecida, tem-se que: � R � :�Z[ \Q ; � Dado que siga uma distribuição normal ou que � seja suficientemente grande (Teorema Central do Limite). Intervalos de Confiança � Para a variável aleatória R, que segue uma distribuição normal padrão, 95% das observações se encontram entre - 1,96 e 1,96: � P L1,96 ^ R ^ 1,96 � 0,95; � Dado que R � :�Z[ \Q , tem-se: � P L1,96 ^ :�Z[ \Q ^ 1,96 � 0,95; � As propriedades da distribuição normal permitem a manipulação da desigualdade dentro do parênteses sem alterar a afirmação da probabilidade; Intervalos de Confiança � Ao multiplicar os três termos da desigualdade pelo erro padrão da média, _ �, tem-se: � L1,96 _� ^ : L � ^ 1,96 _ �; � Em seguida, pode-se subtrair a média amostral ( :) dos três termos da desigualdade: � L1,96 _� L : ^ L� ^ 1,96 _ � L :; � Por fim pode-se multiplicar os três termos da desigualdade por -1; � 1,96 _� ; : ` � ` L1,96 _ � ; :; Intervalos de Confiança � Ao rearranjarmos os termos da desigualdades tem-se: � : L 1,96 _� ^ � ^ : ; 1,96 _ �; � O intervalo acima considera os valores inferior e superior que limitam 95% dos valores mais prováveis de representarem a média populacional; � As quantidades : L 1,96 _� e : ; 1,96 _ � limitam o intervalo de confiança de 95% para a média da população, ou seja, com 95% de confiança, o intervalo : L 1,96 _� , : ; 1,96 _ � conterá a média populacional �, em outras palavras, se forem retiradas 100 amostras independentes e construídos 100 intervalos de confiança, esperasse que 95 desse intervalos contenham o valor de � e 5 deles não. Intervalos de Confiança � É importante ressaltar que apesar de procurarmos tirar conclusões sobre a média populacional �, essa média é um valor fixo, embora desconhecido, e não uma variável aleatória; � O intervalo de confiança mais comum é o que considera um nível de confiança de 95%, porém esse não é o único, pode-se montar intervalos de confiança de qualquer tamanho, dependendo do interesse do pesquisador, no entanto, intervalos de menos de 90% de confiança são de pouca utilidade. Intervalos de Confiança � Seja ab #⁄ o valor que limita uma área de d �⁄ na extremidade superior da distribuição normal padrão, e Lab #⁄ o valor que limita uma área de d �⁄ na extremidade inferior da distribuição normal padrão; � Então a forma geral para um intervalo de confiança de 100 1 L e % para � é dada por: � : L ab #⁄ . _ � , : ; ab #⁄ . _ � . � Se, por exemplo, tomarmos e � 0,05, teríamos Lab #⁄ � La%,%g #Q � La�,���� L1,96 e a%,%g #Q � a�,��� � 1,96. Exercício 3 � Suponha que os comprimentos de jacarés adultos de uma certa raça siga uma distribuição normal com média � e variância igual a 0,01F�. Uma amostra de dez animais foi sorteada e forneceu média de 1,69F. � Encontre o intervalo de 95% de confiança para o parâmetro desconhecido �. Exercício 4 � Um provedor de acesso à internet está monitorando a duração do tempo das conexões de seus clientes, com o objetivo de dimensionar seus equipamentos. São desconhecidas a média e a distribuição de probabilidade desse tempo, mas o desvio padrão, por analogia a outros serviços, é considerado igual a 50 minutos. � Uma amostra de 500 conexões resultou num valor médio observado de 25 minutos. � O que dizer da verdadeira média, com confiança 92%? Intervalos de Confiança � O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra: � Para uma amostra de tamanho � fixo: h ad �Q Limites de confiança de 100 1 L e % para � Amplitude do Intervalo 0,1 1,65 : L 1,65. �� , : ; 1,65. � � 3,3. � � 0,05 1,96 : L 1,96. �� , : ; 1,96. � � 3,92. � � 0,01 2,58 : L 2,58. �� , : ; 2,58. � � 5,16. � � Intervalos de Confiança � O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra: � Para e � 0,05: h i Limites de confiança de 100% 1L e para � Amplitude do Intervalo 0,05 10 : L 1,96. �10 , : ; 1,96. �10 1,239� 0,05 100 : L 1,96. �100 , : ; 1,96. �100 0,392� 0,05 1000 : L 1,96. �1000 , : ; 1,96. �1000 0,124� Exercício 5 � A vida média de baterias automotivas de uma certa marca está sendo estudada. Baseado em estudos similares, com outras marcas, é possível admitir que a vida dessas baterias segue a distribuição normal com desvio padrão de 4,5 meses. � De qual tamanho deverá ser a amostra, para que a amplitude do intervalo de 90% de confiança para a vida média seja de 3 meses? Intervalos de Confiança � O Teorema Central do Limite também no diz que a distribuição de probabilidade do estimador da proporção de determinada característica,quando � é grande o suficiente se aproxima de uma distribuição normal: � Y��Y j !kj \ �→5T 0,1� � Logo, analogamente ao que foi feito para a média, pode-se construir um intervalo de confiança para a proporção em uma população com base na proporção amostral: � <̂ L ab #⁄ . Y ��Y � ,<̂ ; ab #⁄ . Y ��Y � Intervalos de Confiança � Não é possível utilizar o intervalo de confiança encontrado, já que não conhecemos o valor de <. Sendo assim, são propostas as soluções abaixo: � Substituir < por <̂ (intervalo otimista) � <̂ L ab #⁄ . Y� ��Y� � ,<̂ ; ab #⁄ . Y� ��Y� � � Substituir < 1 L < por � (⁄ , valor máximo que < 1 L < pode alcançar (intervalo conservador) � <̂ L ab #⁄ . � (� ,<̂ ; ab #⁄ . � (� Exercício 6 � Pretende-se estimar a proporção < de cura, através do uso de um certo medicamento em doentes contaminados com cercária, que é uma das formas do verme da esquistossomose. � Um experimento consistiu em aplicar o medicamento em 200 pacientes, escolhidos ao acaso, e observar que 160 deles foram curados. � O que podemos dizer da proporção < na população em geral, a um nível de 99% de confiança (utilize ambos os intervalos: otimista e conservador)? � Como os dois intervalos calculados se comparam?
Compartilhar