Buscar

10_capítulo7

Prévia do material em texto

Introdução à Estatística
Primeiro Semestre/2019
Inferência Estatística
� Conjunto de técnicas que tem por objetivo estudar a 
população através de uma amostra.
População
Amostra
Inferência Estatística:
• Estimação de quantidades desconhecidas;
• Extrapolação dos resultados;
• Testes de hipóteses.
Amostragem - Terminologia
� População-Alvo: 
� População que se deseja descrever;
� População de Estudo: 
� Subconjunto, da população-alvo, do qual as amostras serão selecionadas;
� Sistema de referência: 
� Lista dos elementos pertencentes à população de estudo;
� Amostra: 
� Todo o subconjunto não vazio e com um número menor de elementos 
do que o conjunto definido como população.
� Unidade Amostral:
� Cada elemento contido na amostra.
Exemplo
� Considere que é de interesse estudar a proporção de alunos do 
ensino médio que pretendem fazer vestibular;
� Selecionamos uma amostra de 100 alunos e perguntamos sobre suas 
intensões futuras de estudo.
Maneiras de Selecionar Amostras
� Amostragem Aleatória Simples;
� Amostragem Sistemática;
� Amostragem Estratificada;
� Amostragem por Conglomerado.
Amostragem Aleatória Simples
� Mesma chance de seleção para todos os elementos da 
população;
� Metodologia: 
� listar ou numerar todos os elementos da população e sortear 
elementos ao acaso até que a amostra alcance o tamanho 
desejado.
Exemplo
� Suponha que tenham 5000 alunos no ensino médio na 
cidade na qual o estudo será feito;
� Seriam dados números de 1 a 5000 a cada um dos alunos, 
e depois 100 desses números seriam sorteados sem 
reposição;
� Dessa maneira obteríamos uma amostra simples da 
população de estudo.
Amostragem Sistemática
� Utiliza um sistema imposto pelo pesquisador na seleção 
dos elementos que formarão a amostra.
� Metodologia usual: 
� tenho N elementos na população, quero uma amostra de n
elementos. Utilizando o valor k = N/n (valor inteiro mais 
próximo) faço a seleção dos elementos em uma lista 
selecionando aqueles nas posições b + ak, com a pertencente 
aos naturais e b sendo um número sorteado entre 1 e k.
Exemplo
� Suponha que temos os mesmo 5000 alunos mencionados 
anteriormente e queremos uma amostra de 100 alunos;
� Nesse caso, teria que ser feita uma lista com os nomes de 
todos os alunos, poderia ser em ordem alfabética, e 
novamente numerá-los;
� � � ������� � 50;
� Sortearíamos um número entre 1 e 50, considere que saiu o 
número 11;
� Pertenceriam à amostra sistemática os alunos que tivessem os 
números {11,61,111,161,211,..., 4911, 4961}, respectivos à eles.
Amostragem Estratificada
� Coleta amostras de cada estrato de uma população. A 
amostra final é o conjunto de todas as amostras tomadas.
� O termo estrato simboliza divisões entre elementos, 
como sexo, classe social, naturalidade, idade, entre outras.
Exemplo
� Considere os mesmos 5000 alunos;
� Considere que exista o interesse em estratificar por tipo 
de escola: pública e particular;
� Os 5000 alunos seriam divididos, então, em dois grupos:
� Grupo 1: alunos de escola pública (3500 alunos);
� Grupo 2: alunos de escola particular (1500 alunos).
� Se o meu interesse for ter 50 alunos de escolas 
particulares e 50 de escolas publicas, seriam retiradas 
duas amostras simples, independentes, de tamanho 50 de 
cada um dos 2 grupos.
Amostragem por Conglomerado
� Considera uma amostra de conglomerados (prédios, 
escolas, hospitais, ...) dentre todos os existentes na 
população:
� Estuda todos os elementos dentro de cada conglomerado 
selecionado (um estágio); 
� Ou amostra parte dos elementos dos conglomerados 
selecionados (dois estágios).
Exemplo
� Considere, mais uma vez, o exemplo com os 5000 alunos;
� Agora, inicialmente, seria sorteada, uma escola;
� Se fossemos fazer amostra por conglomerado em um 
estágio, todos os alunos de ensino médio da escola 
sorteada pertenceriam à amostra;
� Se fossemos fazer amostra por conglomerado em dois 
estágios, seria selecionada uma amostra simples de 100 
alunos do ensino médio da escola em questão.
Amostra Viesada ou Tendenciosa
� Tende a representar parte de uma população e não o 
todo;
� Comum em amostragens não probabilísticas: não se 
conhece a probabilidade de inclusão das unidades 
amostrais.
� Amostras de conveniência;
� Amostras constituídas de voluntários.
Inferência Estatística
� Suponha que tenhamos retirado uma amostra simples de 
100 alunos dos 5000 atualmente matriculados na nossa 
cidade;
� Repetindo o método de amostragem acima, teríamos as 
mesmas amostras?
� Obteríamos resultados iguais, ou próximos?
Inferência Estatística
� Devido à natureza aleatória envolvida no procedimento 
amostral, não podemos garantir que repetições de 
amostras produzam resultados idênticos;
� Logo, as quantidades associadas à amostra têm caráter 
aleatório e, portanto, devem receber tratamento 
probabilístico.
� Para eliminar ambiguidades e confusões de notação, 
vamos representar uma amostra de tamanho �, a ser 
retirada de uma população, por 	
�, 
�, … , 
��.
� Parâmetro:
� As quantidades da população, em geral desconhecidas, sobre as 
quais temos interesse, são denominadas parâmetros e, 
usualmente representadas por letras gregas tais como �, � e �, 
entre outras.
� Estimador e estimativa:
� À combinação dos elementos da amostra, construída com a 
finalidade de representar, ou estimar, um parâmetro de 
interesse na população, denominamos de estimador. Em geral, 
denotamos os estimadores por símbolos com o acento 
circunflexo: ��, ��, ��, etc.
� Aos valores numéricos assumidos pelos estimadores 
denominamos estimativas.
Parâmetros, Estimadores e Estimativas
Exemplo
� Estamos interessados na média das alturas de jovens com idade 
entre 15 e 18 anos, nascidos na região sudeste do país. Vamos 
coletar uma amostra simples de tamanho 10 e usá-la para tirar 
conclusões. 
� Amostra, em metros: 1,65; 1,57; 1,72; 1,66; 1,71; 1,74; 1,81; 1,68; 
1,60 e 1,77.
� Abaixo estão algumas opções de estimadores para a média que 
se deseja calcular:
� ��� � 	����������� � 1,69;
� ��� � 
� � 1,65;
� ��� � !" #"⋯" !%� � 1,69.
Inferência Estatística
� Como escolher qual estimador utilizar?
� Deve-se estudar as propriedades de um estimador;
� Lembrando que para amostras diferentes de uma mesma 
população, obteremos estimativas, provavelmente, 
diferentes.
Exemplo
� Considere que foram retiradas 10 amostras distintas de 10 
alunos da UFJF com o objetivo de estudar a idade média 
dos alunos da UFJF;
� Ao calcular as médias de cada uma dessas amostras, temos:
� ��� � 21,2; ��� � 21,5; ��� � 20,4; ��( � 21,2;
��� � 20,8; ��* � 20,7; ��, � 19,3; ��. � 19; 
��/ � 20,4; ���� � 24,9
� Ou seja, as estimativas de um parâmetro, obtidas por um 
mesmo estimador, podem variar de acordo com a amostra 
retirada.
� Vício
� Um estimador �� é não viciado ou não viesado para um parâmetro �
se 0 �� � �. Ou seja, sum estimador é não viciado se o seu valor 
esperado coincide com o parâmetro de interesse.
� Consistência
� Um estimador �� é consistente, se, à medida que o tamanho da 
amostra aumenta, seu valor esperado converge para o parâmetro de 
interesse e sua variância converge para zero:
� lim�→50 �� � �;
� lim�→5678 �� � 0.
� Eficiência
� Dados dois estimadores ��� e ���, não viciados para um parâmetro �, 
dizemos que ��� é mais eficiente do que ��� se 678 ��� 9 678 ��� .
Propriedades dos Estimadores
Estimadores para média, proporção e 
variância
Parâmetro Estimador Propriedades
� 
: � 
� ; 
� ;⋯; 
��
Não viciado e 
consistente
< <̂ � >8?@Aê�CD7	7FGHI87J	CGF	7	C787CI?8íHIDC7�
Não viciado e 
consistente
��
K� � 1� L 1M 
� L 
:
�
�
�N�
Não viciado e 
consistente
��
��� � 1�M 
� L 
:
�
�
�N�
Viciado e 
consistente
Distribuições Amostrais
� Estimadores são funções de variáveis aleatórias, sendo 
assim, eles também são variáveis aleatórias;
� Vamos estudar a distribuição de probabilidade de alguns 
dos estimadores mais utilizados.
Distribuição da Média Amostral 
� Considerecomo a variável aleatória que representa o nível 
sérico de colesterol de homens (20 a 74 anos) norte américanos;
� Suponha que 
 segue uma distribuição normal com média de 211 
mg/100ml e desvio padrão de 46 mg/100ml;
� Se forem retiradas 50 amostras dessa população, e calculadas as 
médias para cada amostra, teremos 50 valores distintos que 
poderiam ser considerados como estimativas da média da 
população;
� O̅�, O̅�, … , O̅��;
� Podemos considerar as médias obtidas como uma nova variável 
aleatória.
Distribuição da Média Amostral
Histogramas das médias de níveis séricos de colesterol de 50 amostras retiradas da 
população de homens (20 a 74 anos) norte américanos cujo nível sérico de 
colesterol segue uma distribuição normal com média de 211 mg/100ml e desvio 
padrão de 46 mg/100ml.
n = 5 n = 50 n = 100
210mg/100ml 210mg/100ml 210mg/100ml
Teorema Central do Limite
� Suponha uma amostra aleatória simples de tamanho �
retirada de uma população com média � e variância ��
(note que a distribuição de probabilidade da variável 
aleatória não é especificada). Representando tal amostra por 
� variáveis aleatórias independentes 	
�, 
�, … , 
�� e, 
denotando sua média por 
:, temos que:
: L �
� �Q
�→5R
� com R~T 0,1 .
Teorema Central do Limite
� Garante que para � grande a distribuição da média 
amostral, devidamente padronizada, segue uma 
distribuição Normal Padrão;
� Esse teorema permite que utilizemos a distribuição 
Normal para estudar 
: probabilisticamente;
� Estudos, envolvendo simulações, mostram que, em muitos 
casos, valores de � ao redor de 30 fornecem 
aproximações bastante boas para aplicações práticas.
Exercício 1
� Uma variável 
 assume os valores 3, 6 e 8 com 
probabilidades 0,4; 0,3 e 0,3; respectivamente. Uma 
amostra com 40 observações é sorteada.
� Qual a probabilidade da média amostral superar o valor 
5?
Teorema Central do Limite - Aplicação
� Suponha que:
� < represente a proporção de indivíduos com determinada 
característica em uma população (valor desconhecido)
� <̂ represente o estimador dessa proporção, considerando uma 
amostra da tamanho �, dado por:
<̂ � �úF?8G	V?	D�VDW. �7	7FGHI87	CGF	V7V7	C787CI?8íHIDC7�
� Tem-se que:
� 0 <̂ � < e 678 <̂ � Y	��Y��
� Considerando o Teorema Central do Limite, tem-se que para �
suficientemente grande:
<̂ L <
< 1 L <
�
�→5T	0,1�
Exercício 2
� Suponha que a proporção de peças fora de especificação 
em um lote é de 40%. Tomada uma amostra de tamanho 
30, qual a probabilidade dessa amostra fornecer uma 
proporção de peças defeituosas menor que 0,50?
Estimação por intervalo
� Até agora vimos estimadores pontuais, que fornecem um 
único valor numérico para o parâmetro de interesse;
� Como os estimadores são variáveis aleatórias, pode-se 
apresentar uma estimativa mais informativa para o 
parâmetro de interesse, uma que inclua uma medida de 
precisão do valor obtido;
� Esse método é denominado intervalo de confiança, e 
incorpora, à estimativa pontual do parâmetro, 
informações a respeito de sua variabilidade.
Intervalos de Confiança
� Pode-se utilizar o conhecimento da distribuição da média 
amostral para construir um intervalo de confiança para a 
média � de uma população;
� Dada uma variável aleatória 
 com média � e variância 
�� conhecida, tem-se que:
� R � :�Z[ \Q ;
� Dado que 
 siga uma distribuição normal ou que � seja 
suficientemente grande (Teorema Central do Limite).
Intervalos de Confiança
� Para a variável aleatória R, que segue uma distribuição 
normal padrão, 95% das observações se encontram entre -
1,96 e 1,96:
� P L1,96 ^ R ^ 1,96 � 0,95;
� Dado que R � :�Z[
\Q
, tem-se:
� P L1,96 ^ :�Z[
\Q
^ 1,96 � 0,95;
� As propriedades da distribuição normal permitem a 
manipulação da desigualdade dentro do parênteses sem 
alterar a afirmação da probabilidade;
Intervalos de Confiança
� Ao multiplicar os três termos da desigualdade pelo erro 
padrão da média, 
_
�, tem-se:
� L1,96 _� ^ 
: L � ^ 1,96
_
�;
� Em seguida, pode-se subtrair a média amostral (
:) dos três 
termos da desigualdade:
� L1,96 _� L 
: ^ L� ^ 1,96
_
� L 
:;
� Por fim pode-se multiplicar os três termos da desigualdade 
por -1;
� 1,96 _� ; 
: ` � ` L1,96
_
� ; 
:;
Intervalos de Confiança
� Ao rearranjarmos os termos da desigualdades tem-se:
� 
: L 1,96 _� ^ � ^ 
: ; 1,96
_
�;
� O intervalo acima considera os valores inferior e superior que 
limitam 95% dos valores mais prováveis de representarem a 
média populacional;
� As quantidades 
: L 1,96 _� e 
: ; 1,96
_
� limitam o intervalo de 
confiança de 95% para a média da população, ou seja, com 95% 
de confiança, o intervalo 
: L 1,96 _� , 
: ; 1,96
_
� conterá a 
média populacional �, em outras palavras, se forem retiradas 100 
amostras independentes e construídos 100 intervalos de 
confiança, esperasse que 95 desse intervalos contenham o valor 
de � e 5 deles não.
Intervalos de Confiança
� É importante ressaltar que apesar de procurarmos tirar 
conclusões sobre a média populacional �, essa média é 
um valor fixo, embora desconhecido, e não uma variável 
aleatória;
� O intervalo de confiança mais comum é o que considera 
um nível de confiança de 95%, porém esse não é o único, 
pode-se montar intervalos de confiança de qualquer 
tamanho, dependendo do interesse do pesquisador, no 
entanto, intervalos de menos de 90% de confiança são de 
pouca utilidade.
Intervalos de Confiança
� Seja ab #⁄ o valor que limita uma área de d �⁄ na 
extremidade superior da distribuição normal padrão, e 
Lab #⁄ o valor que limita uma área de d �⁄ na extremidade 
inferior da distribuição normal padrão;
� Então a forma geral para um intervalo de confiança de 
100 1 L e % para � é dada por:
� 
: L ab #⁄ .
_
� , 
: ; ab #⁄ .
_
� .
� Se, por exemplo, tomarmos e � 0,05, teríamos 
Lab #⁄ � La%,%g #Q � La�,���� L1,96 e a%,%g #Q � a�,��� �
1,96.
Exercício 3
� Suponha que os comprimentos de jacarés adultos de uma 
certa raça siga uma distribuição normal com média � e 
variância igual a 0,01F�. Uma amostra de dez animais foi 
sorteada e forneceu média de 1,69F.
� Encontre o intervalo de 95% de confiança para o 
parâmetro desconhecido �.
Exercício 4
� Um provedor de acesso à internet está monitorando a 
duração do tempo das conexões de seus clientes, com o 
objetivo de dimensionar seus equipamentos. São 
desconhecidas a média e a distribuição de probabilidade 
desse tempo, mas o desvio padrão, por analogia a outros 
serviços, é considerado igual a 50 minutos.
� Uma amostra de 500 conexões resultou num valor médio 
observado de 25 minutos.
� O que dizer da verdadeira média, com confiança 92%?
Intervalos de Confiança
� O tamanho de um intervalo de confiança varia de acordo 
com o nível de confiança do mesmo ou de acordo com o 
tamanho da amostra:
� Para uma amostra de tamanho � fixo:
h ad �Q Limites de confiança de 100 1 L e % para �
Amplitude do 
Intervalo
0,1 1,65 
: L 1,65. �� , 
: ; 1,65.
�
� 3,3.
�
�
0,05 1,96 
: L 1,96. �� , 
: ; 1,96.
�
� 3,92.
�
�
0,01 2,58 
: L 2,58. �� , 
: ; 2,58.
�
� 5,16.
�
�
Intervalos de Confiança
� O tamanho de um intervalo de confiança varia de acordo 
com o nível de confiança do mesmo ou de acordo com o 
tamanho da amostra:
� Para e � 0,05:
h i Limites de confiança de 100% 1L e para � Amplitude do 
Intervalo
0,05 10 
: L 1,96. �10 , 
: ; 1,96. �10 1,239�
0,05 100 
: L 1,96. �100 , 
: ; 1,96. �100 0,392�
0,05 1000 
: L 1,96. �1000 , 
: ; 1,96. �1000 0,124�
Exercício 5
� A vida média de baterias automotivas de uma certa marca 
está sendo estudada. Baseado em estudos similares, com 
outras marcas, é possível admitir que a vida dessas 
baterias segue a distribuição normal com desvio padrão 
de 4,5 meses.
� De qual tamanho deverá ser a amostra, para que a 
amplitude do intervalo de 90% de confiança para a vida 
média seja de 3 meses?
Intervalos de Confiança
� O Teorema Central do Limite também no diz que a 
distribuição de probabilidade do estimador da proporção de 
determinada característica,quando � é grande o suficiente se 
aproxima de uma distribuição normal:
�
Y��Y
j !kj
\
�→5T	0,1�
� Logo, analogamente ao que foi feito para a média, pode-se 
construir um intervalo de confiança para a proporção em uma 
população com base na proporção amostral:
� <̂ L ab #⁄ .
Y ��Y
� ,<̂ ; ab #⁄ .
Y ��Y
�
Intervalos de Confiança
� Não é possível utilizar o intervalo de confiança 
encontrado, já que não conhecemos o valor de <. Sendo 
assim, são propostas as soluções abaixo:
� Substituir < por <̂ (intervalo otimista)
� <̂ L ab #⁄ .
Y� ��Y�
� ,<̂ ; ab #⁄ .
Y� ��Y�
�
� Substituir < 1 L < por � (⁄ , valor máximo que < 1 L <
pode alcançar (intervalo conservador)
� <̂ L ab #⁄ .
�
(� ,<̂ ; ab #⁄ .
�
(�
Exercício 6
� Pretende-se estimar a proporção < de cura, através do uso 
de um certo medicamento em doentes contaminados com 
cercária, que é uma das formas do verme da 
esquistossomose. 
� Um experimento consistiu em aplicar o medicamento em 
200 pacientes, escolhidos ao acaso, e observar que 160 
deles foram curados. 
� O que podemos dizer da proporção < na população em 
geral, a um nível de 99% de confiança (utilize ambos os 
intervalos: otimista e conservador)?
� Como os dois intervalos calculados se comparam?

Continue navegando