Prévia do material em texto
Distribuições Amostral Material disponível em: http://bit.ly/2OWBTkn Turmas: T4 e T8 Ricardo Lopes de Andrade ricardo.lopesa@ufpe.br 2 Contexto: A Teoria de Probabilidade e a Inferência Estatística são processos "complementares“. Teoria da probabilidade: parte-se de um modelo totalmente especificado, que se assume como correto e se calcula. Ex.: as probabilidades de certos acontecimentos. Inferência estatística: Observam-se certos acontecimentos, e procura inferir-se sobre o modelo probabilístico pelo qual se regirá o experimento aleatório. Exemplo: Considere-se um grupo numeroso de pessoas entre as quais há uma proporção 𝜃 de fumadores. Se 𝜃 conhecido e estivermos interessados em conhecer a probabilidade de encontrar x fumadores num grupo de 10 pessoas escolhidas ao acaso - Teoria da Probabilidade Na prática, sucede quase sempre que 𝜃 é desconhecido. A partir da observação do número de fumadores na amostra de 10 pessoas, pretende-se tirar conclusões sobre a proporção de fumadores na população, 𝜃 - Inferência Estatística Inferência Estatística 3 Inferência estatística: produzir informações, tirar conclusões, sobre dada caracteristica da população, na qual estamos interessados, a partir de informações obtidas de uma parte dessa população, uma amostra. Pode ser dividida em: testes de hipóteses. Ex.: Os dados x são compatíveis com o modelo teórico? estimação de parâmetros (pontual e intervalar). Ex.: Admitindo a validade do modelo, como escolher um ou mais elementos do modelo que representem adequadamente os parâmetros desconhecidos à custa da informação contida nos dados? 4 Estimação de Parâmetros Estimação de Parâmetros 5 Um engenheiro analisa a resistência à tração de um componente de um automóvel. A resistência pode variar por motivos como: diferença na matéria prima, variação no processo de fabricação e no processo de medida. O engenheiro precisa estimar a resistência dos componentes. Usa dados amostrais ⇒ encontrar um valor razoável para a média verdadeira. Esse número é chamado estimativa pontual. 6 Testes de Hipótese Testes de Hipótese 7 Duas temperaturas, t1 e t2, podem ser usadas em um processo químico. O engenheiro suspeita que a temperatura t1 resulta em rendimentos maiores. O teste estatístico resolve problemas desse tipo. A hipótese é de que: o rendimento médio usando t1 é maior que usando t2. Não estamos interessados na estimação dos rendimentos. Queremos tirar conclusões acerca das hipóteses estabelecidas 8 Suponha que queremos estimar o parâmetro de uma população. Antes da coleta, os dados são variáveis aleatórias X1, X2, . . . , Xn . Qualquer função desses dados é também uma variável aleatória. Essa função é chamada de uma estatística. Estatística Estatística: é uma característica da amostra, ou seja, qualquer função dos dados. Exemplo: média amostral. 9 A estatística é uma variável aleatória ⇒ possui distribuição de probabilidade. Chamamos a distribuição de uma estatística de distribuição amostral. A noção de distribuição amostral é muito importante na inferência estatística. 10 Um parâmetro é uma medida usada para descrever uma característica da população. 11 12 Estimador Pontual 13 14 15 Temos várias possibilidades de escolha de estimador de um parâmetro. Exemplo: a média da população pode ser estimada por: média, mediana, ponto médio. Precisamos de critérios para decidir qual estimador é melhor. Isso vai depender das propriedades estatísticas do estimador. 16 Ligação entre os modelos de probabilidade e os dados: O valor numérico dos dados é o valor observado de uma variável aleatória. As variáveis são consideradas: independentes e identicamente distribuídas. Essas variáveis são conhecidas com uma amostra aleatória. 17 18 Amostragem Aleatória Simples (AAS) Aleatoriamente sorteia-se um elemento da população, sendo que todos os elementos têm a mesma chance de ser escolhidos. Repete-se o procedimento até que sejam sorteadas as 𝑛 unidades da amostra. AAS com/sem reposição: com reposição implica a propriedade de independência entre unidades selecionadas. Isso facilita o tratamento matemático de propriedades de estimadores que vamos construir em cima da amostra. 19 Amostragem Aleatória Simples (AAS) Uma amostra aleatória simples (AAS) de tamanho 𝑛 de uma variável aleatória 𝑋 , com dada distribuição, é o conjunto de 𝑛 variáveis aleatórias independentes X1, X2, ..., Xn, cada uma com a mesma distribuição de 𝑋. (X1, ..., Xn): Amostra aleatória simples (x1, ..., xn): Amostra observada 20 21 Distribuição Amostral 22 Exemplo: Consideremos uma população em que a variável X pode assumir um dos valores do conjunto {1, 3, 5, 5, 7}. A distribuição de probabilidade de X é Esperança e Variância 𝐸 𝑋 = 𝜇 = 4,2 𝑉𝑎𝑟(𝑋) = 𝜎2 = 4,16 23 Exemplo: Vamos selecionar todas as amostras aleatórias simples de tamanho 2, 𝑛 = 2, selecionadas ao acaso e com reposição da população X, e encontrar a distribuição do estimador pontual ത𝑋 = µ𝑋, ou seja, vamos encontrar a distribuição da média amostral. ത𝑋 = 𝑋1 + 𝑋2 2 em que X1 é o valor selecionado na primeira extração. X2 é o valor selecionado na segunda extração. 24 Exemplo: A distribuição de ത𝑋 para 𝑛 = 2. 25 Exemplo: Esperança e Variância 𝐸( ത𝑋) = µ𝑋 = 4,2 𝑉𝑎𝑟 ത𝑋 = 2,08 = 𝜎2 = 4,16/2 26 Análise dos Histogramas Conforme o tamanho da amostra aumenta, 𝑛 → ∞, os valores de ത𝑋 tendem a concentrar-se cada vez mais em torno de E( ത𝑋) = 𝜇 = 4,2. A variância diminui na medida que o tamanho da amostra aumenta. Para n suficientemente grande, a forma do histograma aproxima-se de uma distribuição normal. 27 Histogramas correspondentes às distribuições de X para amostras de tamanho 1 e 50 de algumas populações. 28 29 Exemplo: -1 -1/3 1/3 1 1/8 3/8 3/8 1/8 S2 0 4/3 1/4 3/4 Na maioria das vezes não é viável enumerar todos resultados possíveis. Precisamos de ferramentas para encontrar as distribuições. 30 31 32 33 A distribuição da população está longe da normal. Porém as médias são aproximadas razoavelmente por uma normal. Geralmente é necessário um tamanho de amostra grande. Valores como 𝑛 = 4 ou 𝑛 = 5 não costumam ser suficientes. Uma regra prática é usar a aproximação se 𝑛 ≥ 30. Se 𝑛 < 30 o teorema funcionará se a distribuição da população não for muito diferente da normal. 34 35 36 37 Exemplo: Seja X o consumo mensal em minutos por conta de celular de uma região. X tem média 40 e desvio padrão 12 minutos. Toma-se uma amostra de 24 usuários. Encontre: a probabilidade do tempo médio de uso na amostra exceder 45 minutos? A probabilidade do tempo médio de uso na amostra ser menor que 50 minutos? 38 50 39 Exemplo: As notas num certo exame padronizado têm média 450 e desvio padrão 50. Uma nota acima de 480 é considerada muito boa. Uma pessoa entra em uma Universidade se ela obtém acima de 480 neste exame. Numa certa sala onde o exame foi aplicado, 25 pessoas fizeram o teste. A nota média destas pessoas foi 490. Isso é estranho? Você acha que houve fraude? Dica: use o Teorema Central do Limite. 40 Distribuição Amostral de uma Proporção Considere-se uma população em que a distribuição de elementos portadores de determinada caraterística é p e defina-se a v.a. 𝑋 = ቊ 1, 𝑠𝑒 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑓𝑜𝑟 𝑝𝑜𝑟𝑡𝑎𝑑𝑜𝑟 𝑑𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎 0, 𝑠𝑒 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑛ã𝑜 𝑓𝑜𝑟 𝑝𝑜𝑟𝑡𝑎𝑑𝑜𝑟 𝑑𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎. Logo, 𝐸 𝑋 = 𝑝 = 𝜇 e 𝑉𝑎𝑟 𝑋 = 𝑝 1 − 𝑝 = 𝜎2, isto é, 𝑋~𝐵𝑒𝑟 𝑝 . Retirada uma AAS de dimensão n dessa população, define-se por: 𝑌𝑛- o total de indivíduos portadores dessa característica. Ƹ𝑝 = 𝑌𝑛 𝑛 - a proporção amostral de indivíduos portadores dessa característica, com 𝑌𝑛~𝐵𝑖𝑛(𝑛, 𝑝). Nas condições do TLC, para n grande, podemos considerar a distribuiçãoamostral de p como aproximadamente normal, Ƹ𝑝~𝑁 𝑝, 𝑝(1 − 𝑝) 𝑛 41 Exemplo: Suponha que 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de n = 100 estudantes e calculamos Ƹ𝑝 = proporção de mulheres na amostra. Qual probabilidade de que Ƹ𝑝 difira de p em menos de 0,01? 42 Exemplo: 43 44 Os estimadores devem ser escolhidos de forma adequada. Devem apresentar determinadas características: não tendencioso; com baixa variância. Conceitos Gerais de Estimação pontual 45 Estimador de 𝜃: Um estimador T do parâmetro 𝜃 é qualquer função das observações da amostra, ou seja, T = g(X1, ..., Xn). Estimativa de 𝜃 : Estimativa é o valor assumido pelo estimador em uma particular amostra. 46 - 47 Erro Médio Quadrático de um Estimador Entre os diversos possíveis estimadores, o EMQ é uma maneira de escolher o melhor estimador. Logo o EMQ é um critério de escolha de estimadores. Algumas vezes não é óbvio determinar um estimador não tendencioso. Em casos mais complexos, estimadores não tendenciosos podem possuir alta variabilidade, nesses casos, é possível encontrar estimadores tendenciosos no qual o EMQ seja reduzido. Portanto o EMQ é um critério que leva em conta tendência e variabilidade. 48 49 50 51 52