Baixe o app para aproveitar ainda mais
Prévia do material em texto
Material didático – Profa. Dra. Adriana Barbosa Santos Estimação Inferência estatística: Trata-se do processo de generalização sobre parâmetros populacionais a partir da análise dos dados amostrais. Isto é conseguido pela construção de modelos que descrevam a origem dos dados, com suas respectivas suposições. Estimador pontual: A combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de interesse na população. Produz uma estimativa única de um parâmetro. Na verdade, um estimador de um parâmetro é uma função das variáveis aleatórias constituintes da amostra, isto é, 𝑓(𝑋1, 𝑋2, … , 𝑋𝑛). Logo, um estimador também é uma variável aleatória. Estimativas: valores numéricos assumidos pelos estimadores. Propriedades dos estimadores: Vício ou viés: Um estimador 𝜃 é dito não viciado ou não viesado para um parâmetro se 𝐸(𝜃) = 𝜃. Consistência: Um estimador 𝜃 é dito consistente se, à medida que o tamanho da amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero. Deste modo, deve satisfazer as duas propriedades abaixo: i) lim 𝑛→∞ 𝐸(𝜃) = 𝜃; ii) lim 𝑛→∞ 𝑉( (𝜃) = 0. Observe que para ser consistente o estimador depende de n, o tamanho da amostra, e somente será não viciado se n for grande. Na definição de estimador não viciado, a propriedade deve valer para qualquer n. Eficiência: Dados dois estimadores 𝜃1 e 𝜃2, não viciados para um parâmetro , dizemos que 𝜃1 é mais eficiente do que 𝜃2 se 𝑉(𝜃1) < 𝑉(𝜃2). Exercícios: 1. Analise as propriedades dos estimadores �̅� = ∑ 𝑋𝑖 𝑛 𝑖=1 𝑛 , �̂� e 𝑆2 = ∑ (𝑋𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 2. Foram sorteadas 15 famílias com filhos num certo bairro e observado o número de crianças de cada família, matriculadas na escola. Os dados foram: 1, 1, 2, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0, 0, e 2. Obtenha as estimativas correspondentes aos seguintes estimadores da média de crianças na escola nesse bairro: �̂�1 = (𝑚í𝑛𝑖𝑚𝑜 + 𝑚á𝑥𝑖𝑚𝑜) 2 �̂�2 = (𝑋1 + 𝑋2) 2 �̂�3 = �̅� Qual deles é o melhor estimador da média e por que? 3. Seja 𝑀𝑑 a mediana amostral da amostra 𝑋1, 𝑋2, … , 𝑋𝑛. Sendo 𝑉(𝑀𝑑) = ( 𝜋 2⁄ )( 𝜎2 𝑛⁄ ) a variância da mediana amostral, qual estimador é mais eficiente, a média ou a mediana amostral? Intervalo de confiança Intervalo de confiança para um parâmetro: método de estimação que atribui à estimativa pontual do parâmetro informações a respeito de sua variabilidade e são obtidos por meio da distribuição amostral de seus estimadores. É uma estimativa mais informativa para o parâmetro que inclui na estimativa a variabilidade amostral. Não dá só uma estimativa, mas o quanto confiável ela é. Intervalo de confiança para a média populacional - µ: Seja (X1, ...., Xn) uma amostra aleatória de tamanho n de uma variável aleatória X. Para calcularmos uma estimativa de µ que incorpore uma medida de sua precisão, teremos que produzir uma estimativa �̅� que não difira de µ por mais que uma quantia com probabilidade igual a (1-α), ou seja: 𝑃(|�̅� − 𝜇| < 𝜀) = 1 − 𝛼 Como vimos pelo Teorema Limite Central, a média amostral �̅� tem distribuição normal com média µ e variância 𝜎2/𝑛, então: �̅� − 𝑧 ( 𝛼 2 ) 𝜎 √𝑛 < 𝜇 < �̅� + 𝑧 ( 𝛼 2 ) 𝜎 √𝑛 Assim, o intervalo de confiança para µ, com coeficiente de confiança (1-α), é dado por: 𝐼𝐶𝜇(1 − 𝛼) = (�̅� − 𝑧(𝛼 2 ) 𝜎 √𝑛 ; �̅� + 𝑧 ( 𝛼 2 ) 𝜎 √𝑛 ) Como �̅� é uma variável aleatória, pelo fato de seus valores variarem de acordo com a amostra selecionada, o intervalo de confiança também é aleatório. Ao se definir o nível de confiança (1-α), e conhecido o valor de , o IC passa a ser um intervalo numérico. Interpretação: Se obtivermos várias amostras de mesmo tamanho e para cada uma delas calcularmos os intervalos de confiança com nível (1-α), esperamos que a proporção de intervalos que contenham o valor de µ seja igual a (1-α). O nível de confiança (1-α) é a taxa de sucesso do método de estimação. Intervalo de confiança para a proporção populacional - p: Seja (X1, ...., Xn) uma amostra aleatória de tamanho n de uma variável aleatória X que assume valores 0 ou 1. Uma estimativa de p que incorpore uma medida de sua precisão de modo que a estimativa �̂� que não difira de p por mais que uma quantia com probabilidade igual a (1-α) , ou seja: 𝑃(|�̂� − 𝑝| < 𝜀) = 1 − 𝛼 Como vimos pelo Teorema Limite Central, a média amostral �̅� tem distribuição normal com média µ e variância 𝜎2/𝑛, então: �̂� − 𝑧𝛼/2√ 𝑝𝑞 𝑛 < 𝜇 < �̂� + 𝑧𝛼/2√ 𝑝𝑞 𝑛 Assim, o intervalo de confiança para p, com coeficiente de confiança (1-α), é dado por: 𝐼𝐶𝑝(1 − 𝛼) = (�̂� − 𝑧𝛼 2 √ �̂��̂� 𝑛 ; �̂� + 𝑧𝛼 2 √ �̂��̂� 𝑛 ) (otimista) 𝐼𝐶𝑝(1 − 𝛼) = (�̂� − 𝑧𝛼 2 √ 1 4𝑛 ; �̂� + 𝑧𝛼 2 √ 1 4𝑛 ) (conservativo) Margem de erro: quantia somada e subtraída da estimativa pontual do parâmetro que mostra o grau de precisão que acreditamos que nossa conjectura tenha baseado na variabilidade da estimativa. Quanto menor, mais precisão terá o intervalo de confiança Nível de confiança: A escolha do nível de confiança, quase sempre 90% ou mais, dependerá de quanto seguro o pesquisador deseja estar de suas conclusões. Não temos certeza porque não conhecemos o parâmetro. Distribuição da variável de interesse na população Teorema do Limite Central População Amostras Material didático – Profa. Dra. Adriana Barbosa Santos O coeficiente de confiança (1 − 𝛼) é a probabilidade de que um intervalo de confiança selecionado aleatoriamente inclua o parâmetro da população. Formalmente, queremos informar se há um percentual de 90%, 95% ou 99% das amostras deste tamanho produzirem intervalos de confiança que cobrem o verdadeiro parâmetro. Neste caso, informamos o nível ou grau de confiança Em termos práticos nunca teremos essa certeza, mas sendo 𝛼 = 0,05, o Teorema do Limite Central assegura que somente 5%, em média, não alcançam o objetivo. Por isso, dizemos que estamos 95% confiantes na estimativa produzida pelo intervalo. Determinação de tamanho de amostra O intervalo de confiança para a média de uma população com distribuição Normal terá uma margem de erro especificada 𝜖 quando o tamanho da amostra for: 𝑛 = 𝑧 ( 𝛼 2 ) 2 𝜎2/𝜖2 onde z dependerá do grau de confiança desejado. Obs.: 1. A margem de erro deve ser fixada antes do cálculo de n, além disso, deve-se ter algum conhecimento sobre dispersão dos dados (). Este conhecimento pode provir de estudo piloto ou de algum estudo anterior já realizado envolvendo esta população. 2. A utilização dessa fórmula pressupõe que a população seja infinita. No caso de populações finitas deve-se usar: 𝑛 = 𝑁𝜎2𝑧 ( 𝛼 2 ) 2 (𝑁 − 1)𝜖2 + 𝜎2𝑧 ( 𝛼 2 ) 2 Tamanho de n para estimar a proporção p: 𝑛 = 𝑧 ( 𝛼 2 ) 2 �̂��̂�/𝜖2 𝑛 = 𝑁�̂��̂�𝑧 ( 𝛼 2 ) 2 (𝑁 − 1)𝜖2 + �̂��̂�𝑧 ( 𝛼 2 ) 2 TEOREMA: Seja (X1, ...., Xn) uma amostra aleatória de tamanho n de uma variável aleatória X com média µ e variância 2, √𝑛(�̅� − 𝜇)/𝑠 tem distribuição t de Student com n-1 graus de liberdade. Então, o intervalo de confiança para a média com desvio padrão desconhecido é dado por: 𝐼𝐶𝜇(1 − 𝛼) = (�̅� − 𝑡𝑛−1(𝛼 2 ) 𝑠 √𝑛 ; �̅� + 𝑡 𝑛−1( 𝛼 2 ) 𝑠 √𝑛 ) Exercícios 1. Uma amostra de trinta dias do número de ocorrências policiais em um certo bairro de São Paulo, apresentou os seguintes resultados: 7, 11, 8, 9, 10, 14, 6, 8, 8, 7, 8, 10, 10, 14, 12, 9, 11, 13, 13, 8, 6, 8, 13, 10, 14, 5, 14, 10, 13, 12. a) Fazendo as suposições devidas, construa um intervalo de confiança para a proporção de dias violentos (com pelo menos 12 ocorrências). Use os dois enfoques e a confiança de 88%. b) Em um ano (360 dias) e com a mesma confiança de 88%, qualseria a estimativa do número de dias violentos nesse bairro? 2. O secretário de habitação de um governo estadual deseja estudar várias características correspondentes a domicílios unifamiliares na cidade. Uma amostra aleatória de 70 casas revela o seguinte: - Área aquecida da casa (em metros quadrados): média=1759; desvio padrão=380 - 42 casas têm ar condicionado (a) desenvolva uma estimativa, com intervalo de confiança de 95%, da população correspondente á área aquecida média da casa (b) desenvolva uma estimativa, com intervalo de confiança de 95%, da população da proporção de casas que têm ar-condicionado. 3. Um aluno lê que um intervalo de confiança de 95% para a média do escore quantitativo da NAEP de homens na faixa etária de 21 a 25 anos é de 267,8 a 276,2. Solicitado a explicar o significado desse intervalo, o aluno diz: “95% de todos os homens jovens têm escore entre 267,8 e 276,2”. O aluno está correto? Justifique sua resposta. 4. Para avaliar a precisão de uma balança de laboratório, pesa-se repetidas vezes um objeto padrão de peso conhecido igual a 10 gramas. As leituras da balança têm distribuição normal com média desconhecida (essa média é 10 gramas, se a balança é equilibrada). Sabe-se que o desvio padrão das leituras é 0,0002 grama. Pesa-se o objeto 5 vezes e o resultado médio é 10,0023 gramas. Estabeleça um intervalo de 95% de confiança para a média de repetidas pesagens do objeto, sabendo-se que a confiança nos diz com que freqüência o nosso método irá produzir um intervalo que contém o verdadeiro parâmetro populacional, se usássemos o método um número muito grande de vezes. Quantas observações ou medidas devem entrar no cálculo da média, a fim de que se obtenha uma margem de 0,0001 de erro com 95% de confiança? 5. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo produto. Se a amostra de 300 forneceu 100 indivíduos que consomem o dado produto, determine: a) o intervalo de confiança de p, a proporção de pessoas que consomem o produto, com coeficiente de 95% (interprete o resultado). b) o tamanho da amostra para que o erro da estimativa não exceda a 2% com probabilidade de 95% (interprete o resultado). 6. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se a tabela abaixo. Utilize o Int. confiança para avaliar a diferença entre os percentuais de favoráveis nas duas cidades. Cidade A B Num. entrevistados 400 600 Num. favoráveis 180 350 7. Um estudo de saúde envolve 1000 mortes selecionadas aleatoriamente, dentre as quais 131 causadas por intoxicação alimentícia. a) com os dados amostrais, construa um int. de confiança de 99% para a proporção de mortes causadas por intoxicação. b) utilizando os dados amostrais como estudo piloto, determine o tamanho da amostra necessário para estimar a proporção de mortes por intoxicação em uma cidade. Admita um nível de confiança de 95%, em que o erro da estimativa não supere 0,01. c) Sabe-se que a cidade tem cerca de 250.000 habitantes. Você acha que esse dado poderia ser utilizado para melhorar a estimativa do tamanho da amostra? Como?
Compartilhar