Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Juliane Silveira Freire da Silva Distribuição amostral das médias e das proporções Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Reconhecer a utilidade das distribuições amostrais. � Calcular as distribuições amostrais das médias. � Calcular as distribuições amostrais das proporções. Introdução Neste capítulo, você vai aprender o que é uma distribuição amostral e verificar que ela se aproxima de uma distribuição de probabilidades já existente. Vai ver as distribuições para a média e para a proporção. Além disso, você vai conhecer, entre as existentes, as distribuições amostrais das médias e das proporções, e saber calcular os intervalos de confiança dos valores amostrais de médias e de proporções. Distribuições amostrais Quando lidamos com dados, na maioria das vezes, não podemos utilizar os dados da população inteira, por isso utilizamos amostras para representar essas populações. Segundo Spiegel (2009), a teoria da amostragem é um estudo das rela- ções existentes entre uma população e as amostras obtidas delas. É útil para estimação de grandezas desconhecidas da população (tais como a média e a variância), com frequência denominados parâmetros da população, por meio do conhecimento das grandezas correspondentes denominadas estatísticas amostrais. Quando extraímos dados numéricos da população, chamamos esses dados de parâmetros. Quando extraímos dados numéricos de uma amostra, cha- mamos esses dados de estatísticas ou estimadores. Uma estimativa é um resultado particular de uma amostra com relação ao parâmetro (Figura 1). Figura 1. Estimadores amostrais de parâmetros populacionais. Fonte: Doane e Seward (2014, p. 293). Amostra Inferência Estimadores amostrais x– s p Parâmetros populacionais μ σ π Optamos por utilizar amostras em vez de dados de toda a população, pois são mais baratas, demoram menos tempo para a obtenção dos dados e, algumas vezes, são a única opção com ensaios destrutivos. O que configura uma população é que todos os elementos tenham pelo menos uma característica comum e que uma amostra seja um subconjunto dessa população, com as mesmas características comuns que foram definidas na população. Precisamos ter em mente que não é qualquer amostra que pode representar es- tatisticamente os dados da população. E como saber quando temos uma amostra representativa? As amostras representativas precisam ser amostras probabilísticas, ou seja, precisam ser amostras aleatórias da população. As técnicas de seleção dessas amostras precisam ser obrigatoriamente aleatórias. Distribuição amostral das médias e das proporções2 Amostras aleatórias são assim definidas, pois todas as unidades da popu- lação possuem uma probabilidade diferente de zero de compor a amostra. Ou seja, todos os elementos da população têm igual chance de serem sorteados para a amostragem. Toda vez que coletamos uma amostra, ela será uma das possíveis combi- nações de resultado da nossa verdadeira população. Será um dos possíveis resultados para a média, para a variância, para o desvio padrão, para a pro- porção, entre outros parâmetros a serem estimados. Imaginem quantas combinações possíveis teríamos para uma amostra se tivéssemos uma população de mil pessoas e quiséssemos uma amostra de 200 pessoas. Se, para realizar essa amostragem, 10 pesquisadores diferentes fizessem um sorteio, provavelmente obteriam amostras diferentes ou, em grande parte, distintas. E mesmo assim com a aleatoriedade dos dados todas as 10 amostras seriam representativas da população. Segundo Doane e Seward (2014), estatística amostral é uma variável aleatória cujo valor depende de quais unidades amostrais da população foram incluídas em uma amostra aleatória. Algumas amostras podem representar bem a população, enquanto outras podem diferir muito dela (em particular, se o tamanho da amostra for pequeno). É por esse motivo que podemos nos utilizar apenas das amostras aleatórias para gerar as distribuições para a média e para a proporção. As amostragens aleatórias podem nos fornecer a confiança da amostra, isso significa que sabemos de antemão a probabilidade de estarmos coletando os verdadeiros resultados da população, considerando a margem de erro fixada. Mesmo assim, apresentarão uma variabilidade em relação ao verdadeiro resultado populacional. Para o cálculo de tamanho de amostra fixamos um erro máximo para mais ou para menos que desejamos cometer e fixamos também o nível de confiança, ou seja, a probabilidade de acertamos o verdadeiro resultado da população considerando a margem de erro. Podemos ter amostras com e sem reposição. Uma amostra com reposição é quando, a cada seleção da unidade amostral, essa unidade retorna à popu- lação e pode ser novamente sorteada. Uma amostra sem reposição é quando sorteamos uma unidade amostral e ela é retirada da população e não tem mais chances de ser selecionada novamente. 3Distribuição amostral das médias e das proporções Podemos ter populações finitas ou infinitas. Se temos uma com bolas brancas, amarelas e azuis e selecionamos uma amostra com reposição, essa população será infinita, pois, por mais que façamos amostragens, ela não se esgotará. Por outro lado, se tivermos uma amostragem sem reposição, ao realizamos a amostragem, a nossa população será finita. Distribuição amostral das médias É pelo fato de existir uma variabilidade nas amostras coletadas de forma aleatória com relação ao verdadeiro resultado da população que existem as distribuições amostrais. Uma distribuição amostral é uma distribuição de probabilidades que reúne todos os resultados possíveis da estimativa com uma amostra aleatória. Segundo Spiegel (2009), considerando todas as amostras possíveis de tama- nho n que podem ser retiradas de uma população dada (com ou sem reposição). Para cada amostra podemos calcular uma grandeza estatística, como a média e o desvio padrão, que varia de amostra para amostra; desse modo, obtemos uma distribuição da grandeza que é denominada distribuição amostral. Como estamos lidando com dados de uma amostra, sempre teremos um erro amostral presente nos estimadores em relação ao seu respectivo parâmetro. Considere “x” uma variável aleatória de uma população com média (μ) e variância (𝜎²). Dessa população se extrai uma amostra aleatória com n elementos (x1, x2, x3, ..., xn). Temos: μx = μ– — média σx = – σ √n — erro padrão para populações infinitas, desvio padrão σx = – σ √n ∙ N – nN – 1 — erro padrão para populações finitas, desvio padrão Por exemplo, considere a população de celulares no Brasil. É um número muito grande e podemos interpretá-lo como infinito, então temos uma popula- ção infinita. A média de preço dessa população de celulares é de R$ 1.242,00 Distribuição amostral das médias e das proporções4 e seu respectivo desvio padrão é de R$ 700,00. Suponha uma distribuição de amostragem das médias em uma amostra de tamanho n = 49. O valor esperado e o erro padrão da distribuição seriam: μx = μ = 1242,00– –σx = σ √n ∙ 700 √49 = 10 Se as amostras variarem quando tivermos uma estimativa, estaremos cometendo um erro amostral. Erro amostral é a diferença entre a estimativa da amostra específica e o parâmetro da população da qual ela foi extraída. O erro amostral é um risco que corremos nas estimativas. Como é difícil de calcular esse erro amostral, pois não conhecemos o verdadeiro parâmetro populacional, devemos coletar amostras grandes o suficiente para diminuir esse erro. Também temos o conceito de vício. Um estimador viciado é aquele em que o valor esperado (o valor médio) é diferente do verdadeiro parâmetro populacional. Para a distribuição amostral da média desejamos sempre que nossas amos- tras sejam grandes para que possamos aproximar essa distribuição amostral da distribuição normal de probabilidades. A distribuição normal tem como parâmetros a média e o desvio padrão, N(μ, 𝜎); no entanto, nem sempresabemos de antemão qual distribuição os dados populacionais seguem. Caso esses dados sigam uma distribuição normal, como consequência os dados da distribuição amostral também seguirão uma distribuição de probabilidade normal. Quando não conhecemos a distribuição dos dados populacionais ou os dados não seguem uma distribuição normal, utilizamos o teorema do limite central para a distribuição amostral da média. Teorema do limite central Considerando x como sendo uma variável aleatória de uma população com média (μ) e variância (𝜎²) e tomando uma amostra aleatória de tamanho n dessa população, a distribuição amostral da média se aproxima de uma distribuição normal com média μ e variância 𝜎²/n quanto maior for o tamanho da amostra. 5Distribuição amostral das médias e das proporções O teorema do limite central assegura que conforme a amostra aumenta a distribuição da média se aproxima de uma distribuição normal, independen- temente da forma da distribuição da população da qual foi retirada (Figura 2). Segundo Kazmier (2008), para propósitos práticos, a distribuição de amos- tragem da média pode ser assumida como seguindo, de maneira aproximada, a distribuição normal, mesmo para as populações ou processos de não nor- malidade mais acentuada, sempre que o tamanho da amostra for maior do que n > 30. Figura 2. Ilustração do teorema do limite central. Fonte: Doane e Seward (2014, p. 297). População uniforme População assimétrica n = 1 n = 2 n = 4 n = 8 n = 1 n = 2 n = 4 n = 8 Distribuição amostral das médias e das proporções6 Segundo Doane e Seward (2014), o teorema do limite central nos permite definir um intervalo no qual se espera que as médias amostrais estejam. Contanto que o tamanho da amostra seja grande o suficiente, podemos usar a distribuição normal independentemente da forma da população (ou para qualquer n, se a população for normal). μ ± z ∙ σ √n Conhecidos os valores de μ e σ, o Teorema permite que seja calculado o intervalo da distribuição das médias amostrais, ou seja, o intervalo que poderia abranger os valores das médias amostrais de uma determinada população da qual possam ser retiradas as combinações de amostras. Para a obtenção do valor de z na fórmula, utilizamos a tabela da distribuição normal. Nessa tabela, temos as probabilidades associadas à área abaixo da curva normal padrão. Falar em curva normal padrão significa falar em uma distribuição de probabilidades normal com média igual a 0 e desvio-padrão igual ao apresentado na Figura 3. Figura 3. Tabela de distribuição normal. Valores totais abaixo da curva normal padrão. 7Distribuição amostral das médias e das proporções No exemplo da população de celulares no Brasil, a média de preço dessa população de celulares é de R$ 1.242,00 e seu respectivo desvio padrão é de R$ 700,00. O intervalo de variação com 95% de confiança seria o seguinte: Inicialmente, precisamos procurar na tabela de distribuição normal (Figura 3) o valor de z. Observamos que, dentro da tabela, existem valores que vão de 0,0000 a 1,0000. Essas são as probabilidades acumuladas abaixo da curva, então procuramos um valor de 0,9750, já que queremos uma confiança de 95%. O valor se encontra quando cruzamos a linha do 1,9 com a coluna do 0,06, então o valor de z para 95% é de 1,96. Voltando ao cálculo: μ ± z ∙ = 1242 ± 1,96 ∙σ √n 700 √49 1242 ± 1,96 . 100 [1046,00 ; 1438,00] Usamos o valor de 97,5% porque a tabela nos fornece as probabilidades acumuladas até o 1,96. Se tenho a confiança de 95%, falta 5% para os 100%, então dividimos esse valor pela metade para cada um dos lados da cauda da distribuição normal, assim 0,95 + 0,025 = 0,975. Os valores mais utilizados para os intervalos de confiança, são: � 90% de confiança → z = 1,645; � 95% de confiança → z = 1,960; � 99% de confiança → z = 2,576. De acordo com o teorema do limite central, também podemos calcular as probabilidades de encontrarmos determinado valor de média amostral, dentro da população da qual a retiramos, considerando a sua μ e 𝜎. Desse Teorema também podemos calcular os tamanhos de amostra, consi- derando a confiança e o erro amostral, quando queremos estimar uma média da população. Distribuição amostral das proporções Podemos querer estimar outros parâmetros da nossa população, por exemplo, descobrir a proporção de eleitores de determinado candidato nas eleições. Para isso precisaremos da distribuição amostral da proporção. Distribuição amostral das médias e das proporções8 Suponhamos uma população, em que a probabilidade de ocorrência de um determinado evento seja igual a e a não ocorrência desse de terminado evento seja igual a q = 1 – p. No exemplo do candidato às eleições, p seria probabilidade de votar no candidato e q a probabilidade de não votar nele. No caso da distribuição amostral das proporções, utilizamos a distribuição de probabilidades binomial, que tem como parâmetros o n e o p; B(n, p). Assim sendo, X uma variável aleatória de uma população com proporção π, a distribuição amostral das proporções terá: μp = p — média σp = p · (1 – p) n — desvio padrão Quando temos amostras grandes, n ≥ 30, podemos aproximar a distribuição binomial da distribuição normal, assim podemos também utilizar o Teorema do limite central no caso da distribuição amostral das proporções. Se podemos utilizar o Teorema também poderemos criar intervalos de confiança para a proporção amostral, bem como calcular o tamanho de amostra para quando queremos estimar a proporção de uma variável aleatória dentro de uma população. O intervalo de confiança para a proporção é dado por: p ± z · p · (1 – p) n DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: AMGH; Bookman, 2014. 840 p. KAZMIER, L. J. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: Bookman, 2008. 392 p. (Coleção Schaum). SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. 600 p. (Coleção Schaum). Leitura recomendada FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2006. 536 p. 9Distribuição amostral das médias e das proporções Conteúdo:
Compartilhar