Baixe o app para aproveitar ainda mais
Prévia do material em texto
24/08/2017 1 Faculdade de Engenharia Departamento de Engenharia Sanitária e Ambiental Prof. Samuel Rodrigues Castro ESA 037 – Tópicos Especiais: Tratamento de dados ambientais Distribuição normal Distribuição amostral das médias Na aula de hoje... Aula anterior • Probabilidade: permite uma ideia inicial da distribuição de frequência da variável de interesse; • Distribuição normal: modelo descrito por 2 parâmetros (posição e escala) • Padrão: N(0, 1) Distribuição das variáveis na prática • Distribuição normal como uma linha suave existe apenas teoricamente; • Na prática: histogramas que se aproximam, em maior ou menor grau de uma curva normal; • Para variáveis de distribuição descontínua ou assimétrica, o modelo da curva normal não fornece conclusões confiáveis. 24/08/2017 2 Distribuição das variáveis na prática Transformações mais usadas para tornar as distribuições mais próximas de uma normal: • 𝑥′ = log 𝑥 𝑜𝑢 𝑥′ = ln(𝑥) • 𝑥′ = 𝑥 • 𝑥′ = 1 𝑥 • 𝑥′ = 𝑥2 Distribuição amostral das médias Considere a alcalinidade média no rio Paraibuna como sendo de 19,6 mg de CaCO3/L e desvio padrão de 7,7 mg/L. Se em uma amostra recente de 16 observações a média for 16,2 mg, estará ela indicando que a alcalinidade no rio se modificou? Um ponto a considerar é saber se a diferença obtida (-3,4 mg) pode ser atribuída a uma diminuição real na alcalinidade ou a um erro aleatório, já que a média está baseada em uma amostra e não na população de valores possíveis. Para decidir sobre a significância estatística da diferença entre uma média amostral ( 𝑥)e o parâmetro tomado como referência (μ), é necessário saber como é o comportamento aleatório das médias amostrais, isto é, como é a sua distribuição probabilística. Gosset, 1908 Distribuição amostral das médias Média aritmética: medida de tendência central mais amplamente utilizada, sendo a melhor medida quando se supõe que a população segue uma distribuição normal. • Inexistência de viés a média das médias aritméticas de todas as amostras possíveis será igual à média aritmética da população. • Eficiência precisão da estatística de amostragem como um meio de estimar o parâmetro da população. Considerada medida resistente de localização??? • Consistência efeito do tamanho da amostra na utilidade de uma estimativa. Quanto maior o tamanho da amostra, menor a variação entre a média aritmética da amostra e a da população. Distribuição amostral das médias Ex.: considere uma população hipotética de 4 valores: - Calcule a média da população (μ) - Calcule o desvio padrão da população (σ) = 25 = 11,2 x = 10; 20; 30; 40 24/08/2017 3 Distribuição amostral das médias Ex.: considere uma população hipotética de 4 valores: - Retiram-se, agora, dessa população todas as amostras aleatórias possíveis de dois elementos, repondo novamente o primeiro para que haja outra vez quatro elementos possíveis para a segunda retirada amostragem com reposição. x = 10; 20; 30; 40 Quantas são as amostras possíveis? Quais são as médias possíveis? 𝑥 f fr 10 1 0,0625 15 2 0,1250 20 3 0,1875 25 4 0,2500 30 3 0,1875 35 2 0,1250 40 1 0,0625 16 1,0000 Distribuição amostral das médias Distribuição de frequências da população Distribuição de frequências das médias de amostras de 2 elementos Distribuição amostral das médias Teorema do limite central: à medida que o tamanho da amostra se torna suficiente grande, a distribuição da média aritmética das amostras será aproximadamente normal, com média μ e variância σ2/n. Isso torna-se verdadeiro, independente do formato da distribuição dos valores individuais na população. • Funciona bem para amostras pequenas (n = 4 ou 5) na maioria dos casos, quando a população é contínua, unimodal e simétrica; • Em muitos casos de interesse prático, se n ≥ 30, a aproximação normal será satisfatória, independente da forma da população; • Se n < 30, teorema do limite central funcionará se a distribuição da população não for muito diferente da normal. 24/08/2017 4 Distribuição amostral das médias Se x é o resultado de um dado não viciado, que pode assumir valores 1, 2, 3, 4, 5, 6. Sabe-se que para um lançamento, temos uma equiprobabilidade onde cada face possui um sexto de chances: 1 lançamento f fr 1 1 1 0,1667 2 2 1 0,1667 3 3 1 0,1667 4 4 1 0,1667 5 5 1 0,1667 6 6 1 0,1667 Média 3,5 6 1,0000 O teorema central do limite nos diz que, à medida que aumentamos o tamanho desta amostra (digamos, se jogarmos o dado 2 mil vezes e anotarmos os resultados), a média amostral se aproximará cada vez mais da média populacional, que é 3,5. Médias f fr 1 1 0,027778 1,5 2 0,055556 2 3 0,083333 2,5 4 0,111111 3 5 0,138889 3,5 6 0,166667 4 5 0,138889 4,5 4 0,111111 5 3 0,083333 5,5 2 0,055556 6 1 0,027778 36 1,000000 2 lançamentos Maior tendência das médias à distribuição normal Distribuição amostral das médias • Se a variável x tem distribuição normal, as médias de todas as amostras aleatórias de igual tamanho, originárias dessa população, distribuem-se também segundo uma curva de Gauss; Se a distribuição de x não for Normal, são necessárias amostras grandes para que a distribuição amostral das médias seja uma distribuição normal. Distribuição amostral das médias • A distribuição amostral das médias tem centro em μ (média da população). A variabilidade é expressa pelo desvio padrão das médias ou erro padrão da média, σ( 𝑥). O erro padrão pode ser obtido de duas maneiras: a) Usando os desvios de cada média amostral em relação a μ, conforme, onde f é o número de vezes em que cada média ocorreu; ou b) Pela fórmula, onde n é o tamanho da amostra. 24/08/2017 5 Distribuição amostral das médias Ex.: Em uma linha de produção, um aparelho de empacotamento que abastece caixas de cereal com 368 g está ajustado de modo que a quantidade de cereal em uma caixa seja normalmente distribuída c/ média 368 g. O desvio padrão da população para esse processo é conhecido como sendo igual a 15 g. Se uma amostra de 25 caixas for escolhida aleatoriamente das milhares que são abastecidas por dia e o peso médio for calculado, qual a probabilidade da amostra ter uma média aritmética entre 365 e 368 g? Distribuição amostral das médias A partir do estudo da distribuição normal, a área entre qualquer valor x e a média da população μ pode ser encontrada convertendo-se para unidades z padronizadas e encontrando o valor apropriado na tabela de distribuição normal. 0,3413 = 34,13% de todas as amostras possíveis teriam uma média entre 365 e 368 g Distribuição amostral das médias • Resultado explicado pelo fato de que cada amostra consiste de 25 valores diferentes, alguns pequenos e outros grandes. • A média dilui a importância de qualquer valor individual, principalmente quando o tamanho da amostra é grande. • A chance da média de uma amostra de 25 valores estar mais próxima da média da população é maior do que a de um único valor individual 7,93% < < 34,13 Distribuição amostral das médias Ex.: Como os resultados seriam afetados pelo uso de um tamanho de amostra maior, por ex., 100 caixas? Portanto, seria de se esperar que 47,72% das amostras possíveis de tamanho igual a 100 tivessem uma média entre 365 e 368 g. 24/08/2017 6 Distribuição amostral das médias Ex.: Com base nas 25 caixas, qual o intervalo em torno da média da população que inclui 95% das médias das amostras? Z Portanto, 95% de todas as médias de amostras baseadas em amostras de 25 caixas devem estar entre 362,12 e 373,88 g. Distribuição amostral das médias Ex.: Certo investigador mediu a pressão arterial de cinco executivos do sexo masculino, na faixa de 40 a 44 anos, escolhidos aleatoriamente, e obteve osvalores 135; 143; 149; 128 e 158 mmHg. A média observada nessa amostra foi de 142,6 mmHg. Serão esses dados suficientes para afirmar que os executivos apresentam pressão arterial diferente da média de 129 mmHg e desvio padrão de 15 mmHg (média e desvio observados na população dessa idade)? Dica: Necessário conhecer quais limites do intervalo de desvios não significativos para médias de amostras de 5 pessoas retiradas aleatoriamente dessa população Distribuição amostral das médias Dica: Necessário conhecer quais limites do intervalo de desvios não significativos para médias de amostras de 5 pessoas retiradas aleatoriamente dessa população Para um nível de significância α = 5%, tem-se o intervalo que determina a região de 95% no centro da curva da distribuição amostral das médias e duas regiões de 2,5%. Limite inferior do intervalo = 115,9 mm Hg Limite superior do intervalo = 142,1 mm Hg Portanto, a média de 142,6 mm Hg (dos 5 executivos) desvia-se significativamente da média da população de homens da mesma faixa etária. Distribuição amostral das médias Sequência de procedimentos para se determinar a significância de um desvio: 1. Escolher inicialmente o critério ou o nível de significância desejado (ex.: α = 0,05) 2. Obter o valor crítico de Z da tabela (ex.: Z α = 0,05 = 1,96) 3. Calcular o afastamento entre 𝑋 e μ em erros padrão: 4. Regra de decisão: A média amostral está 2,03 erros acima de μ 24/08/2017 7 Distribuição amostral das médias Considere a alcalinidade média no rio Paraibuna como sendo de 19,6 mg de CaCO3/L e desvio padrão de 7,7 mg/L. Se em uma amostra recente de 16 observações a média for 16,2 mg, estará ela indicando que a alcalinidade no rio se modificou? Um ponto a considerar é saber se a diferença obtida (-3,4 mg) pode ser atribuída a uma diminuição real na alcalinidade ou a um erro aleatório, já que a média está baseada em uma amostra e não na população de valores possíveis. Para decidir sobre a significância estatística da diferença entre uma média amostral ( 𝑥)e o parâmetro tomado como referência (μ), é necessário saber como é o comportamento aleatório das médias amostrais, isto é, como é a sua distribuição probabilística. Distribuição amostral das médias Estimativa do intervalo de confiança da média • Em geral, pode-se interpretar que uma estimativa do intervalo de confiança de 95% significa que, se todas as amostras possíveis de um mesmo tamanho n fossem retiradas, 95% delas iriam conter a verdadeira média da população. O nível de confiança é simbolizado por (1 – α) x 100%, onde α é a proporção de caudas da distribuição que estão fora do intervalo de confiança. Distribuição amostral das médias Estimativa do intervalo de confiança da média Ex.: Um fabricante produz papel para impressoras. O comprimento esperado é de 11 polegadas e o desvio padrão conhecido é de 0,02 polegadas. São selecionadas amostras periódicas para verificar se o comprimento médio se mantém em 11 polegadas. Uma amostra de 100 folhas foi selecionada e o comprimento médio foi de 10,998. Estimar o intervalo de confiança de 95% do comprimento médio do papel da população. Próxima aula 24/08/2017 8 Próxima aula • Testes de hipótese ... apenas para indicar diferenças Vc não aceita H0 vc não rejeita! H0 = H1 ≠ Faculdade de Engenharia Departamento de Engenharia Sanitária e Ambiental Prof. Samuel Rodrigues Castro ESA 037 – Tópicos Especiais: Tratamento de dados ambientais
Compartilhar