Baixe o app para aproveitar ainda mais
Prévia do material em texto
Distribuição amostral da média amostral Sandro Bruno do Nascimento Lopes Universidade Federal do Rio Grande do Norte 13 de maio de 2015 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 1 / 75 Sumário 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 2 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 3 / 75 Motivação Necessidade de tomada de decisão sobre uma população; Uso de métodos de inferência estatística; Inferência estatística pode ser dividida em duas áreas: Estimação de parâmetros; Teste de hipótese; Estimação de parâmetros: estabelecer um valor razoável para um parâmetro da população (estimativa pontual) a partir de uma amostra e com precisão previamente estabelecida; Teste de hipótese: verificar se uma afirmativa sobre um parâmetro da população é coerente ou não. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 4 / 75 Definições importantes população: Uma população consiste de todos os itens ou indivíduos sobre os quais desejamos tirar uma conclusão; amostra: Uma amostra é uma porção da população selecionada para a análise; parâmetro: Um parâmetro é uma medida numérica que descreve a distribuição da população; estatística: Uma estatística é uma medida numérica que descreve uma característica da amostra, ou seja, é qualquer função da amostra. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 5 / 75 Definições importantes Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 6 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 7 / 75 Motivação Para a realização de estimativas, deve-se selecionar uma amostra da população. E geralmente, são selecionadas várias amostras da população. Por exemplo, para duas amostras A e B , de tamanho n, extraídas de uma população X tem-se A = { xA1, xA2, · · · , xAn } e B = { xB1, xB2, · · · , xBn }; Cada seleção de amostras da população frequentemente implica em amostras diferentes; Isto significa que xA1 6= xB1, xA2 6= xB2, · · · , xAn 6= xBn; Há duas consequências diretas desta imprecisão: Cada elemento selecionado da amostra (ou cada observação feita) pode ser descrita inicialmente por uma variável aleatória; Isto significa que uma amostra R pode ser representada como um conjunto de n variáveis aleatórias como R = { X1,X2, · · · ,Xn }; Qualquer estatística calculado a partir da amostra será também uma variável aleatória Isto significa que os valores de média, variância, mediana, primeiro e terceiro quartis, por exemplo, determinados a partir da amostra também são variáveis aleatórias; Letras maiúsculas indicarão então variável aleatória estatística (antes) e letras minúsculas indicarão o valor que a estatística assume (depois). Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 8 / 75 Motivação Então: A partir de uma população seleciona-se um subconjunto { X1,X2, · · · ,Xn } como amostra de tamanho n; Como a amostra ainda não foi selecionada da população, os valores { X1,X2, · · · ,Xn } são variáveis aleatórias; Qualquer função calculada a partir da amostra { X1,X2, · · · ,Xn } é uma estatística. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 9 / 75 Motivação As funções calculadas a partir da amostra geralmente dependem de três fatores: Da distribuição de probabilidade da população envolvida; Do tamanho da amostra n; Do método de extração da amostra ou método de amostragem. Tipos de métodos de amostragem: Amostragem sem repetição, podendo o tamanho da amostra ser muito pequeno ou significativo em relação a população; Amostragem com repetição. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 10 / 75 Definição Uma amostragem aleatória é um método de amostragem que serve ou define muito bem a maior parte dos problemas. Definição Diz-se que as variáveis aleatórias X1,X2, · · · ,Xn formam uma amostra aleatória (simples) de tamanho n se: As variáveis aleatórias Xi forem independentes umas das outras; Todas as variáveis aleatórias Xi possuírem a mesma distribuição de probabilidade. Afirma-se também que amostra é dita uma amostra aleatória se for independente e identicamente distribuída (abreviadamente, iid). Independente: a coleta de uma observação independe da outra; Identicamente distribuída: cada valor tem a mesma distribuição de probabilidade. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 11 / 75 Definição Como obter amostra aleatória? Amostra por sorteio com reposição; Amostra por sorteio sem reposição de população infinita; Amostra por sorteio sem reposição de população suficientemente grande (no máximo 5% da população); Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 12 / 75 Exemplo Supondo que, em população de 4 alunos no curso, os possíveis valores da variável aleatória X = { idade dos alunos, em anos } são X = { 18, 20, 22, 24 }, determine: Quais são os valores possíveis para a idade de 2 alunos selecionados aleatoriamente, havendo reposição; Quais são os valores possíveis para a média da idade dos alunos selecionados? Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 13 / 75 Exemplo Primeira questão: A seleção de dois alunos pode ser dividia em duas partes. Cada parte consiste em selecionar um aluno e será descrita pela variável aleatória Xi , onde i é a posição da seleção corrente. Então é possível afirmar que: Primeira seleção: Os valores de idade possíveis são X1 = { 18, 20, 22, 24 }; Segunda seleção: Os valores de idade possíveis são X2 = { 18, 20, 22, 24 }. Como há reposição, então os valores retirados na primeira seleção podem ser utilizados na segunda seleção. Logo, o conjunto de valores possíveis vai ser o conjunto de arranjos possíveis de três elementos. Logo, tem-se que: Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 14 / 75 Exemplo Y = { Idade de dois indivíduos selecionados } = { (18, 18); (18, 20); (18, 22); (18, 24); (20, 18); (20, 20); (20, 22); (20, 24); (22, 18); (22, 20); (22, 22); (22, 24); (24, 18); (24, 20); (24, 22); (24, 24) }; Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 15 / 75 Exemplo Segunda questão: Para o valor médio das amostras Y , tem-se: Y = (18, 18) : Y = 18+ 182 = 18; Y = (18, 20) : Y = 18+ 202 = 19; Y = (18, 18) : Y = 18+ 222 = 20; Y = (18, 24) : Y = 18+ 242 = 21; Y = (20, 18) : Y = 20+ 182 = 19; Y = (20, 20) : Y = 20+ 202 = 20; Y = (20, 18) : Y = 20+ 222 = 21; Y = (20, 24) : Y = 20+ 242 = 22; Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 16 / 75 Exemplo Y = (22, 18) : Y = 22 + 182 = 20; Y = (22, 20) : Y = 22 + 202 = 21; Y = (22, 18) : Y = 22 + 222 = 22; Y = (22, 24) : Y = 22 + 242 = 23; Y = (24, 18) : Y = 24 + 182 = 21; Y = (24, 20) : Y = 24 + 202 = 22; Y = (24,18) : Y = 24 + 222 = 23; Y = (24, 24) : Y = 24 + 242 = 24. Logo, Y = {valor médio da idade dos alunos selecionados} = { 18,19,20,21,22,23,24 }. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 17 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 18 / 75 Motivação Como visto, uma estatística é uma medida numérica que descreve uma característica da amostra, ou seja, é qualquer função da amostra; De fato, para uma amostra, é possível calcular medidas numéricas já vistas (média, mediana, variância e desvio-padrão, por exemplo); Como uma amostragem pode ser tratada como um conjunto de variáveis aleatórias, estas medidas também são tratadas como variáveis aleatórias (e deverão apresentar as propriedades a elas definidas); Além disto, estas estatísticas serão variáveis aleatórias descritas em função das varáveis aleatórias que descrevem cada observação da amostra, ou seja, para uma medida numérica, uma estatística Θ, tem-se que: Θ ∼ h(X1,X2, · · · ,Xn) Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 19 / 75 Motivação Para cada estatística, é possível calcular medidas numéricas já vistas. Isto significa que é possível falar em: Variância da média de uma amostra; Média da média de uma amostra; Média da variância de uma amostra. Para diferenciar estas descrições, estabelece-se a seguinte notação: Para as estatística a serem calculadas, utiliza-se termos em letras maiúsculas: Média amostral: X ; Variância amostral: S.; Para os valores obtidos para as estatísticas, utiliza-se termos em letras minúsculas: Resultado calculado da média amostral: x ; Resultado calculado da variância amostral: s.; Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 20 / 75 Definição Uma das mais importantes medidas estatísticas é o valor da média amostral X ; Significa tirar conclusões sobre a média populacional, µ, partindo de informações de uma amostra; Exemplos: O Peso médio da população é maior do que 80 kg? A resistência média de vigas de um tipo de material é alta o suficiente para se adequar as normas? Um novo medicamento traz um benefício médio mais alto do que o benefício médio do medicamento antigo? Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 21 / 75 Definição A estatística de interesse é, portanto, a média amostral X , definida como: X = X1 + X2 + · · ·+ Xnn Se a média amostral é uma variável aleatória, torna-se importante determinar a sua distribuição de probabilidade? (fdp, fda, fmp?); Lembrar que a distribuição de probabilidade da estatística depende do método de amostragem e da distribuição da população. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 22 / 75 Propriedade Foi visto anteriormente uma propriedade da média e da variância para variáveis aleatórias (contínuas ou discretas). Com elas, é possível definir uma propriedade muito importante para a distribuição de uma média amostral: Propriedade Seja Y uma variável aleatória definida como a combinação linear de 2 outras variáveis aleatórias X1 e X2 , ou seja: Y = aX1 + bX2 Em que a e b são constantes. É possível concluir que: O valor esperado de Y , dado por E (Y ), é: E (Y ) = aE (X1) + bE (X2) Se X1 e X2 forem variáveis aleatórias independentes, então a variância de Y , dado por V (Y ), é: V (Y ) = a2V (X1) + b2V (X2) Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 23 / 75 Propriedade de uma amostra aleatória De acordo com a definição de amostra aleatória, tem-se que: Propriedade Se as variáveis aleatórias X1,X2, · · · ,Xn formam uma amostra aleatória (simples) de tamanho n de uma variável aleatória X, com média µ e variância σ2, e seja a media amostral X deste conjunto, dada por. X = X1 + X2 + · · ·+ Xnn Então, é possível afirmar que: O valor esperado de média amostral E (X ) é dada por: E (X ) = µ A variância da média amostral V (X ) é dada por: V (X ) = σ 2 n Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 24 / 75 Exemplo Seja X1,X2, · · · ,Xn uma amostra aleatória (simples) de tamanho n de uma variável aleatória X , com média µ e variância σ2, e seja a media amostral X deste conjunto, dada por. X = X1 + X2 + · · ·+ Xnn Determinar: 1 O valor esperado de média amostral E (X ); 2 a variância da média amostral V (X ). Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 25 / 75 Exemplo Primeira questão: O valor esperado da média amostral é dado por: E (X ) = E ( X1 + X2 + · · ·+ Xn n ) Consequentemente: E (X ) = E ( X1 + X2 + · · ·+ Xn n ) = 1 nE (X1 + X2 + · · ·+ Xn) = 1 n [E (X1) + E (X2) + · · ·+ E (Xn)] = 1 n [µ+ µ+ · · ·+ µ] = 1 n [nµ] = µ Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 26 / 75 Exemplo Segunda questão: O valor esperado da média amostral é dado por: V (X ) = V ( X1 + X2 + · · ·+ Xn n ) Como se trata de uma amostra aleatória, cada uma das amostras Xi é independente. Consequentemente: V (X ) = V ( X1 + X2 + · · ·+ Xn n ) = 1 n2V (X1 + X2 + · · ·+ Xn) = 1 n2 [V (X1) + V (X2) + · · ·+ V (Xn)] = 1 n2 [σ 2 + σ2 + · · ·+ σ2] = 1 n2 [nσ 2] = σ2 n Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 27 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 28 / 75 Interpretação Para entender (e visualizar) a ideia da média amostral, toma-se como exemplo o lançamento de um dado de seis faces não viciado; Associa-se a este experimento o evento X = {Número da face de cima do dado }. Neste caso, X = {1, 2, 3, 4, 5, 6}; Como se trata de um dado não-viciado, então a probabilidade de cada um dos resultados é a mesma para todos os seis resultados. Logo, a função massa de probabilidade pode ser definida como: x 1 2 3 4 5 6 p(x) 16 1 6 1 6 1 6 1 6 1 6 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 29 / 75 Interpretação Sejam agora duas duas variáveis que representam dois lançamentos consecutivos do dado, X1 = { Resultado do primeiro lançamento do dado } e X2 = { Resultado do segundo lançamento do dado }. Cada uma dela irá se comportar de maneira idêntica a variável X (ou seja, terá os mesmos valores de variável aleatória e a mesma função massa de probabilidade); Sabe-se que cada lançamento é feito de forma independente um do outro; Considere-se agora a variável Y , dada como a média dos valores das duas variáveis aleatórias, ou seja: Y = X1 + X22 Para cada variável aleatória, há 6 possibilidades de resultado. Logo, existe 36 possíveis arranjos de resultados (lembrar que, neste caso, existe uma ordem dos dados porque há uma sequência de lançamentos); Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 30 / 75 Interpretação Para cada par ordenado obtido (x1, x2), tem-se um valor de média Y associado. A tabela abaixo mostra os possíveis resultados: (x1, x2) 1 2 3 4 5 6 1 1 1, 5 2 2, 5 3 3, 5 2 1, 5 2 2, 5 3 3, 5 4 3 2 2, 5 3 3, 5 4 4, 5 4 2, 5 3 3, 5 4 4, 5 5 5 3 3, 5 4 4, 5 5 5, 5 6 3, 5 4 4, 5 5 5, 5 6 Consequentemente, a função massade probabilidade de Y é dada como: y 1 1, 5 2 2, 5 3 3, 5 4 4, 5 5 5, 5 6 p(y) 136 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 31 / 75 Interpretação Graficamente, a função massa de probabilidade é dada como: Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 32 / 75 Interpretação É possível visualizar este evento de outra forma: Deseja-se realizar uma inferência estatística acerca do experimento “lançamento de um dado”, que possui como variável aleatória associada X = { Número da face de cima do dado }; Para isto, é realizada uma amostragem com n observações. Cada observação implica em um lançamento do dado, de forma que, para o caso em questão, o valor de n é dois e a amostragem gera o conjunto {X1,X2}; Cada observação é feita de forma independente e cada observação descreve o mesmo conjunto da variável aleatória X , de forma que esta amostragem é considerada aleatória; Deseja-se calcular a média da amostra estabelecida, ou seja, X 2, que é nada mais do que o valor de Y . Consequentemente, a distribuição de probabilidade da média amostral é a mesma distribuição de Y . Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 33 / 75 Exemplo Uma grande empresa fabrica três tipos diferentes de motor. A diferença de cada motor é dada apenas pelo número de cilindros disponíveis, que também são fabricados pela empresa e empregados apenas em seus motores. Os tipos de motores em questão são de 6, 8 e 10 cilindros, e a proporção de fabricação associada a cada um dos tipos de motor é de 0, 5, 0, 3 e 0, 2, respectivamente. Calcule, então, a média e a variância do número médio de cilindros fabricados em um conjunto de 100 amostras, assumindo uma amostragem aleatória. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 34 / 75 Exemplo Sabe-se que a empresa possui três tipos diferentes de motor, cuja diferença é apenas o número de cilindros. Seja a variável aleatória X = {número de cilindros fabricados, para cada motor }. De acordo com o enunciado, é possível afirmar que: x = 6 : p(x) = 0, 5; x = 8 : p(x) = 0, 3; x = 10 : p(x) = 0, 2. Logo, o valor médio de X , µ, é dado por: µ = E (X ) = n∑ i=1 xip(xi) = 6 ∗ 0, 5 + 8 ∗ 0, 3 + 10 ∗ 0, 2 = 3 + 2, 4 + 2 = 7, 4 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 35 / 75 Exemplo E o valor da variância de X , σ2, é dado por: σ2 = V (X ) = n∑ i=1 (xi − µ)2p(xi) = (6− 7, 4)2 ∗ 0, 5 + (8− 7, 4)2 ∗ 0, 3 + (10− 7, 4)2 ∗ 0, 2 = (−1, 4)2 ∗ 0, 5 + 0, 62 ∗ 0, 3 + 2, 62 ∗ 0, 2 = 1, 96 ∗ 0, 5 + 0, 36 ∗ 0, 3 + 6, 76 ∗ 0, 2 = 0, 98 + 0, 108 + 1, 352 = 2, 44 Seja X 100 a média do número de cilindros fabricados em um conjunto de 100 amostras. Neste caso, o valor esperado e a variância para X 100 é: E(X 100) = µ = 7, 4; V (X 100) = σ2 n = 2, 44 100 = 0, 0244 Logo, a média E (X 100) e a variância V (X 100) do número médio de cilindros fabricados em um conjunto de 100 amostras é 7, 4 e 0, 0244, respectivamente. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 36 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 37 / 75 Motivação Viu-se o comportamento da média amostral para uma amostra aleatória; As restrições impostas as variáveis aleatórias envolvidas nas observações são àquelas definidas para a amostragem aleatória; Deseja-se verificar o caso em que as amostras aleatórias são normais. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 38 / 75 Propriedade de um média amostral normal No caso de uma distribuição normal, a combinação linear de variáveis aleatórias independentes tem distribuição normal. Propriedade Se duas variáveis aleatórias X1,X2 independentes possuem distribuição normal com médias µ1 e µ2, e variâncias σ21 e σ22 , respectivamente. Então a variável Y definida como a combinação linear de 2 outras variáveis aleatórias X1 e X2, ou seja: Y = aX1 + bX2 Em que a e b são constantes, é definida como uma variável normal com média µY e variância σ2Y , onde: µY = aµX1 + bµX2 ; σ2Y = a2σ2X1 + b 2σ2X2 . Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 39 / 75 Propriedade de uma amostra aleatória normal De acordo com a definição de amostra aleatória, tem-se que: Propriedade Se as variáveis aleatórias X1,X2, · · · ,Xn formam uma amostra aleatória (simples) de tamanho n de uma variável aleatória normal X com média µ e variância σ2, e seja a media amostral X deste conjunto, dada por. X = X1 + X2 + · · ·+ Xnn Então, é possível afirmar que X ∼ N ( µ, σ2 n ) . A média amostral normal possui uma variável associada Z , com distribuição normal padrão (e também chamada de Z-escore), dada por: Z = X − µ( σ√n ) Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 40 / 75 Propriedade de uma amostra aleatória normal Isto significa que, para uma população com distribuição normal, a distribuição da média amostral é uma normal com mesma média e desvio-padrão menor; A medida que o número de amostras n cresce, o valor do desvio-padrão diminui. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 41 / 75 Exemplo O diâmetro interno de um pistão selecionado ao acaso é uma variável aleatória normal com valor médio µ = 12cm e desvio-padrão σ = 0, 04cm. 1 Seja X 16 o diâmetro médio para uma amostra aleatória de tamanho n = 16 pistões. Qual é a distribuição de X 16? Faça o gráfico da função densidade de X 16 e indique onde está centrada a distribuição e o valor da variância da média amostral X 16; 2 Repita o processo anterior para um amostra com n = 64 pistões, isto é, obtenha a distribuição de X 64; 3 Para qual dos dois tamanhos de amostra, n = 16 ou n = 64, a probabilidade da média estar a menos do que 0, 01cm de distância de 12cm é menor? Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 42 / 75 Exemplo Primeira questão: Seja a variável aleatória da população dada como X = { Diâmetro interno de um pistão selecionado ao acaso }. De acordo com o enunciado, X possui distribuição de probabilidade normal, com média µ = 12 e desvio padrão σ = 0, 04. Ou seja, X ∼ N(12, 0, 042) = N(12, 0, 0016); Como a população tem distribuição normal, a média amostral de uma amostra X n com tamanho n também vai possuir distribuição normal, dada por X i ∼ N(µX i , σ2X i ), onde: µX i = µ; σX i = σ√n Assim, para uma amostra com 16 pistões, a média amostral X 16 é dada por: µX16 = 12; σX16 = 0, 04√ 16 = 0, 04 4 = 0, 01. Logo, para uma amostra com 16 pistões, a média amostral X 16 é dada por uma distribuição normal com média µX 16 = 12 e desvio-padrão σX 16 = 0, 01. Ou seja, µX 16 ∼ N(12, 0, 012) = N(12, 0, 0001). Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 43 / 75 Exemplo Segunda questão: Para uma amostra com 64 pistões, a média amostral X 64 é dada por: µX64 = 12; σX64 = 0, 04√ 64 = 0, 04 8 = 0, 005. Logo, para uma amostra com 64 pistões, a média amostral X 64 é dada por uma distribuição normal com média µX 64 = 12 e desvio-padrão σX 64 = 0, 005. Ou seja, µX 64 ∼ N(12, 0, 0052) = N(12, 0, 000025). Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 44 / 75 Exemplo Deseja-se calcular a probabilidade da média amostral estar a menosde 0, 01 de distância da média populacional, isto é, P(|X n − µ| < 0, 01). Consequentemente: P(|X n − µ| ≤ 0, 01) = P((µ− 0, 01) < X n < (µ+ 0, 01)) = P((12− 0, 01) < X n < (12 + 0, 01)) = P(11, 99 < X n < 12, 01) Então, deseja-se calcular o valor de P(11, 99 < X n < 12, 01) para n = 16 e n = 64, ou seja, P(11, 99 < X 16 < 12, 01) e P(11, 99 < X 16 < 12, 01), respectivamente. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 45 / 75 Exemplo Como se trata de distribuições normais, então torna-se necessário definir as variáveis aleatórias normais padrão equivalentes (também conhecidas como Z-escores) para cada uma das amostragens. Isto significa definir os valores de Z16 e Z64, para n = 16 e n = 64 amostras, respectivamente; Consequentemente: Z16 = X 16 − 12 0, 01 ; Z64 = X 16 − 12 0, 005 ; Para n = 16 amostras, tem-se que: x16 = 12, 01 : z16 = 12, 01− 12 0, 01 = 0, 01 0, 01 = 1; x16 = 11, 99 : z16 = 11, 99− 12 0, 01 = −0, 01 0, 01 = −1; Para n = 64 amostras, tem-se que: x64 = 12, 01 : z64 = 12, 01− 12 0, 005 = 0, 01 0, 005 = 2; x64 = 11, 99 : z64 = 11, 99− 12 0, 005 = −0, 01 0, 005 = −2; Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 46 / 75 Exemplo Portanto, o problema é definido como P(−1 < Z16 < 1) e P(−2 < Z64 < 2), para n = 16 e n = 64 amostras, respectivamente; Para P(−1 < Z16 < 1): P(−1 < Z16 < 1) = Φ(1)− Φ(−1) = 0, 8413− 0, 1587 = 0, 6826 = 68, 26% Para P(−2 < Z64 < 2): P(−2 < Z64 < 2) = Φ(2)− Φ(−2) = 0, 9772− 0, 0228 = 0, 9544 = 95, 44% Como P(−1 < Z16 < 1) = 68, 26% e P(−2 < Z64 < 2) = 95, 44%, então é possível perceber que a probabilidade da média estar a menos do que 0, 01cm da média populacional é menor para a amostra de 16 pistões. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 47 / 75 Exemplo Observar que, como a distribuição da média amostral com 64 pistões tem um desvio-padrão bem menor (a metade) do que o desvio-padrão da média com 16 pistões, não era necessário fazer os cálculos para responder à questão (lembrar que quanto maior o desvio padrão, menor e mais espalhada é o gráfico da distribuição). De fato, observando o gráfico das duas distribuições, tem-se que: Figura : Distribuição da média amostral para n = 16 (verde) e n = 64 (azul) amostras. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 48 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 49 / 75 Motivação Para amostras aleatórias normais, sabe-se que a média amostral se comportará com uma variável aleatória normal; O problema é que não há informações acerca da média amostral para amostras aleatórias que não são normais (incluindo distribuições discretas); Para amostras aleatórias com o número de amostras muito grande, é possível aplicar o Teorema do Limite Central. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 50 / 75 Definição Definição Seja X1,X2, · · · ,Xn uma amostra aleatória (variáveis aleatórias independentes e identicamente diferentes) de uma variável aleatória X que tem qualquer distribuição com média µ, e variância σ2 finita (ou seja, 0 < σ2 <∞). Se n→∞, então a média amostral X é tal que: X = X1 + X2 + · · ·+ Xnn → N ( µ, σ2 n ) O Teorema do Limite Central garante que se cada amostra for grande o suficiente (n tende ao infinito), a distribuição da média amostral é aproximadamente normal; Além disto, esta afirmação é válida para qualquer formato da distribuição de X ; Este é um dos motivos para explicar a popularidade da distribuições com formato de sino (normais) na natureza. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 51 / 75 Interpretação Para entender (e visualizar) a ideia do Teorema do Limite Central, retoma-se como exemplo o lançamento de um dado de seis faces não viciado, que possui associado o evento X = {Número da face de cima do dado }. Neste caso, X = {1, 2, 3, 4, 5, 6}; Viu-se que a função massa de probabilidade de X pode ser definida como: x 1 2 3 4 5 6 p(x) 16 1 6 1 6 1 6 1 6 1 6 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 52 / 75 Interpretação Tome-se a seguinte variável aleatória X1 = { Resultado do primeiro lançamento do dado }, como é possível observar, a variável X1 será idêntica a variável X ; Agora, seja a variável aleatória Y1 definida como a média dos valores da variável aleatória X1, ou seja: Y1 = X1 1 = X1 Conclui-se que a variável aleatória Y 1 será igual a X1 e, por consequência, será igual a X . Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 53 / 75 Interpretação Graficamente, a fmp de Y1 é dada como: Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 54 / 75 Interpretação Também é possível definir o valor da média e da variância de Y 1, como segue: Média de Y1, µY 1: µY1 = n∑ i=1 y1i ∗ p(y1i) = 1 ∗ 16 + 2 ∗ 1 6 + 3 ∗ 1 6 + 4 ∗ 1 6 + 5 ∗ 1 6 + 6 ∗ 1 6 = 21 6 = 3, 5 Variância de Y1, σ2Y 1: σ2Y 1 = n∑ i=1 (y1i − µY 1)2 ∗ p(y1i) = (1− 3, 5)2 ∗ 16 + (2− 3, 5) 2 ∗ 16 + (3− 3, 5) 2 ∗ 16+ (4− 3, 5)2 ∗ 16 + (5− 3, 5) 2 ∗ 16 + (6− 3, 5) 2 ∗ 16 ≈ 2, 9167 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 55 / 75 Interpretação Tome-se, agora, as seguintes variáveis aleatórias X1 = { Resultado do primeiro lançamento do dado } e X2 = { Resultado do segundo lançamento do dado }, e seja a variável aleatória Y2 definida como a média dos valores das duas variáveis aleatórias, ou seja: Y2 = X1 + X2 2 A variável aleatória Y2 será idêntica a variável aleatória Y calculada na interpretação da média amostral vista anteriormente. Logo, sua função massa de probabilidade será dada por: y2 1 1, 5 2 2, 5 3 3, 5 4 4, 5 5 5, 5 6 p(y2) 136 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 56 / 75 Interpretação Graficamente, a fmp de Y2 é dada como: Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 57 / 75 Interpretação Também é possível definir o valor da média e da variância de Y 2, como segue: Média de Y2, µY2 : µY1 = n∑ i=1 y1i ∗ p(y1i) = 1 ∗ 136 + 1, 5 ∗ 2 36 + 2 ∗ 3 36 + · · ·+ 6 ∗ 1 36 = 3, 5 Variância de Y2, σ2Y 2: σ2Y 1 = n∑ i=1 (y1i − µY 1)2 ∗ p(y1i) = (1− 3, 5)2 ∗ 136 + (1, 5− 3, 5) 2 ∗ 236 + · · ·+ (6− 3, 5) 2 ∗ 136 ≈ 1, 4583 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 58 / 75 Interpretação Percebe-se que a distribuição de Y2 se assemelha mais a distribuição normal que Y1, embora ainda esteja longe de apresentar um comportamento semelhante; Acompanhe-se, agora, o que acontece quando considera-se mais variáveis aleatórias Xn = { Resultado do n−ésimo lançamento de um dado }, na composição da média Yn: Quanto maior o número de variáveis aleatórias Xn = { Resultado do n−ésimo lançamento de um dado } forem consideradas no cálculo da média Yn, mais próximo de uma normal será a distribuição de Yn. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 59 / 75 Interpretação Associando cada variável Xn a n−ésima observação de uma amostra, tem-se um conjunto amostral de n elementos da população, e descrita por { X1,X2, · · · ,Xn }.; A média amostraldo conjunto, dada por X n será, então, idêntica a variável Yn na qual tem-se lidado. Isto leva a concluir que a distribuição da média amostral em questão pode ser aproximada por uma normal que, de acordo com o Teorema do Limite Central, irá possuir média µX (a média da população em questão) e variância σ 2 n (a razão entre a variância da população e o número de amostras). Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 60 / 75 Interpretação Visualização do Teorema do Limite Central em distribuições contínuas: Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 61 / 75 Propriedade Um problema a ser resolvido para a aplicação deste teorema é estabelecer qual o tamanho da amostragem n para o qual ele pode ser considerado. Para tanto, faz-se uso do seguinte conjunto de regras práticas: Para a maior parte das distribuições, n > 30 implica em uma distribuição da média amostral quase normal; Para distribuições praticamente simétricas, n > 15 implica em uma distribuição da média amostral quase normal; Para populações com distribuição normal, a distribuição da média amostral sempre é normal para qualquer n ≥ 1. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 62 / 75 Exemplo Sejam X1 , X2 , · · · , X100 os pesos líquidos reais de 100 sacos de fertilizantes de 50 kg selecionados aleatoriamente. Se o peso esperado de cada saco for 50kg e a variância for de 1kg2 ,calcule a probabilidade de a média amostral estar entre 49, 75kg e 50, 25kg (aproximadamente); Se o peso esperado for de 49, 8kg e não 50kg , de modo que, na média, os sacos não estejam muito cheios, calcule a mesma probabilidade do item anterior. Assuma mesma variância (1kg2 ) por saco. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 63 / 75 Exemplo Primeira questão: A variável aleatória associada a população é X = { Peso líquido real de um saco de fertilizante }. É possível considerar o conjunto { X1,X2, · · · ,X100 } como uma amostra aleatória de X, com tamanho n = 100; Pelo enunciado, E (X ) = µ = 50kg e V (X ) = σ2 = 1kg2. Como tem-se uma amostra aleatória grande (100 sacos de fertilizante) de uma população com variância finita, pelo Teorema do Limite Central, pode-se aproximar a distribuição da média amostral X 100 por uma distribuição normal com média µX 100 e variância σ 2 X 100 , calculadas da seguinte forma: µX100 = µ = 50kg ; σ2X100 = σ2 n = 1 100 = 0, 01kg 2. O desvio-padrão da média amostral, σX 100 , será dado por σX 100 = √ σ2X 100 = √ 0, 01kg2 = 0, 1kg . Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 64 / 75 Exemplo Deseja-se calcular o valor de P(49, 75 < X 100 < 50, 25). Logo: P(49, 75 < X 100 < 50, 25) = P(X 100 < 50, 25)− P(X 100 < 49, 75) = P(Z < 50, 25− 500, 1 )− P(Z < 49, 75− 50 0, 1 ) = P(Z < 2, 5)− P(Z < −2, 5) = 0, 9938− 0, 0062 = 0, 9876 = 98, 76% Portanto, calcule a probabilidade de a média amostral estar entre 49, 75kg e 50, 25kg , para este caso, é de, aproximadamente, 98, 76%. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 65 / 75 Exemplo Segunda questão: Pelo enunciado, E (X ) = µ = 49, 8kg e V (X ) = σ2 = 1kg2. AInda, pelo Teorema do Limite Central, pode-se aproximar a distribuição da média amostral X 100 por uma distribuição normal com média µX 100 e variância σ2X 100 , calculadas da seguinte forma: µX100 = µ = 49, 8kg ; σ2X100 = σ2 n = 1 100 = 0, 01kg 2. O desvio-padrão da média amostral, σX 100 , será dado por σX 100 = √ σ2X 100 = √ 0, 01kg2 = 0, 1kg . Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 66 / 75 Exemplo Deseja-se calcular o valor de P(49, 75 < X 100 < 50, 25). Logo: P(49, 75 < X 100 < 50, 25) = P(X 100 < 50, 25)− P(X 100 < 49, 75) = P(Z < 50, 25− 49, 80, 1 )− P(Z < 49, 75− 49, 8 0, 1 ) = P(Z < 4, 5)− P(Z < −0, 5) = 1− 0, 3085 = 0, 6915 = 69, 15% Portanto, calcule a probabilidade de a média amostral estar entre 49, 75kg e 50, 25kg , para este caso, é de, aproximadamente, 69, 15%. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 67 / 75 Exemplo Observar que as probabilidades mudaram devido à mudança na média populacional igual em 0, 2kg . Parece pouco, mas como o tamanho da amostra é muito grande, 0, 2kg corresponde a 2 vezes o desvio-padrão da média amostral. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 68 / 75 Sumario 1 Inferência estatística 2 Amostra aleatória 3 Distribuição da média amostral Interpretação Amostras aleatórias normais 4 Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 69 / 75 Definição Um item de um lote é selecionado aleatoriamente. Defina como o evento de interesse X = {O item não tem defeito } e associa-se a ele a característica de “sucesso” com probabilidade p. A variável aleatória X tem distribuição de Bernoulli, isto é: x 0 1 p(x) 1− p p Seleciona-se uma amostra aleatória de itens do lote, formando o conjunto {X1 , X2 , · · · , Xn }; Deseja-se calcular a distribuição da proporção amostral pˆ de itens não defeituosos na amostra de tamanho n, supondo que n é suficientemente grande. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 70 / 75 Definição Se Xi é igual a 1 se o i−ésimo item não é defeituoso, então a proporção amostral de itens defeituosos pˆ é dada por: pˆ = X n = X1 + X2 + · · ·+ Xn n Pelo Teorema do Limite Central, a distribuição de pˆ pode ser aproximada por uma distribuição normal, se n for suficiente grande, com média µX e variância σ 2 X n . Ou seja, pˆ ∼ N ( µX , σ2X n ) ; Como X é uma variável aleatória de Bernoulli, é possível afirmar que: µX = E(X) = p; σ2X = V (X) = p(1− p). Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 71 / 75 Definição Consequentemente: µXn = µX = p; σ2Xn = σ2X n = p(1− p) n Concluindo que X n ∼ N ( p, p(1− p)n ) . Propriedade Se { X1 , X2 , · · · , Xn } é uma amostra aleatória de uma variável aleatória de Bernoulli, cujo tamanho da amostra n é suficiente grande para ser considerado o Teorema do Limite Central, a distribuição da proporção amostral de sucessos pˆ é tal que: pˆ ∼ N ( p, p(1− p)n ) Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 72 / 75 Exemplo O primeiro trabalho de um curso de informática envolve o desenvolvimento de um programa simples. Se a experiência anterior indica que 40% de todos os alunos não cometeram erros de programação, calcule a probabilidade (aproximada) de que, em uma classe de 50 alunos, pelo menos 25 cometerão erros. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 73 / 75 Exemplo Seja a variável aleatória X = { O aluno não cometeu erro de programação }; Assuma-se que a amostragem é aleatória e cada observação Xi será tal que valerá 1 se o aluno i não comete erro, e 0, caso contrário; Considera-se 50 observações (i = 1, 2, · · · , 50) e cada observação (assim como a variável X ) terá uma distribuição de probabilidade de Bernoulli com probabilidade de sucesso p = 0, 4; Deseja-se calcular a proporção pˆ de alunos que não cometeram erro e calcular o valor de P(pˆ ≤ 2450 ) ou P(pˆ ≤ 0, 48); Utilizando o Teorema do Limite Central, tem-se que pˆ ∼ N ( p, p(1− p)n ) . Logo: p = 0, 4; p(1− p) n = 0, 4(1− 0, 4) 50 = 0, 4 ∗ 0, 6 50 = 0, 24 50 = 0, 0048 Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 74 / 75 ExemploConsequentemente: µpˆ = p = 0, 4; σpˆ = √ p(1− p) n = √ 0, 0048 ≈ 0, 0693 O valor de P(pˆ ≤ 0, 5) será dado como: P(pˆ ≤ 0, 48) = P(Z ≤ 0, 48− 0, 40, 0693 ) ≈ P(Z ≤ 1, 15) = 0, 8749 = 87, 49% Portanto, a probabilidade de que, em uma classe de 50 alunos, pelo menos 25 cometerão erros, é de, aproximadamente, 87, 49%. Sandro Bruno (UFRN) Distribuição amostral da média amostral 13 de maio de 2015 75 / 75 Inferência estatística Amostra aleatória Distribuição da média amostral Interpretação Amostras aleatórias normais Teorema do Limite Central Aplicação do Teorema do Limite Central: variável aleatória de Bernoulli
Compartilhar