Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Juliane Silveira Freire da Silva Níveis de confiança Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Diferenciar estimadores pontuais e por intervalo. � Calcular intervalos de confiança. � Comparar diferentes níveis de confiança. Introdução Neste capítulo, você entenderá a diferença entre estimativas pontuais e por intervalo, por que tomamos a decisão de utilizar uma ou outra estimativa. Além disso, aprenderá a calcular intervalos de confiança para média e proporção e compreenderá o que são os níveis de confiança desses intervalos. Estimadores pontuais e por intervalo Inicialmente, relembraremos alguns conceitos básicos de estatística. Um estimador, ou também conhecido como estimativa ou estatística, refere-se a uma medida numérica de uma amostra. Um parâmetro é uma medida numérica da população. Podemos, com base em uma amostra, estimar valores da população, ou seja, baseados em uma estimativa, podemos inferir o verdadeiro parâmetro populacional. Por exemplo, coletamos uma amostra de clientes de um banco e calculamos o valor médio em saldo na conta corrente. Calculamos a média amostral do saldo em conta corrente para estimar a média populacional do saldo em conta corrente. Quando estamos calculando uma média ou uma proporção, com base em uma amostra, com esses levantamentos amostrais obtemos um valor. Chamamos isso de estimador pontual, ou seja, a estimação por ponto. Essa medida é chamada assim porque temos um único valor para representar a medida numérica da amostra, uma média ou uma proporção, por exemplo. A Figura 1, a seguir, mostra os parâmetros e os estimadores. Figura 1. Parâmetros e estimadores. População Amostra Parâmetros Média – μ Proporção – π Desvio-padrão – σ Estimadores Média – x Proporção – p Desvio-padrão – s Mais útil do que a estimativa pontual é o que chamamos de estimativa por intervalo, ou simplesmente intervalo de confiança. Nos intervalos de confiança, ao invés de um único valor pontual, calculamos um intervalo com uma probabilidade de que, nele, encontraremos o verdadeiro valor do parâmetro populacional. No exemplo da média do saldo bancário, ao invés de termos um único valor, teremos um intervalo de valores com margem de erro conhecida em que podemos ter a verdadeira média da população de clientes desse banco pesquisado. Estudaremos, aqui, os intervalos de confiança para a média e a proporção. Primeiramente, relembraremos a forma de calcular essas estimativas de forma pontual. A média amostral é calculada por meio da soma de todos os valores da amostra e divisão pelo número de elementos. x– = ∑ xi n Níveis de confiança2 onde: x– é a média amostral; xi é cada um dos elementos da amostra; n é o número de elementos (tamanho) da amostra. A proporção amostral é calculada pela divisão dos casos favoráveis ao que se está estudando pelo total de elementos da amostra. p = x n onde: p é a proporção amostral; x é a quantidade de casos favoráveis; n é o tamanho da amostra. Já, quando estamos calculando uma estimativa por intervalo, além de considerarmos a estimativa pontual, consideramos uma margem de erro para encontrar o verdadeiro valor do parâmetro populacional. Para esse cálculo, consideramos o coeficiente de confiança ou o nível de confiança, um valor percentual. Para encontrarmos os valores do coeficiente de confiança, necessitamos de tabelas de probabilidade adequadas. A Figura 2 mostra o intervalo de confiança para a média. Figura 2. Intervalo de confiança para a média. Fonte: Doane e Seward (2015, p. 302). 3Níveis de confiança Para calcularmos os intervalos de confiança, utilizaremos a estimativa pontual e a confiança para gerar esse intervalo. A fim de chegarmos a uma boa estimativa, precisamos obter estimadores não viciados e não tendenciosos. Precisamos de amostras probabilísticas para podermos utilizar da estatística inferencial, ou seja, os estimadores somente são válidos para estimar os parâmetros populacionais quando forem calculados de amostras extraídas de forma probabilística ou com tamanho da amostra tendendo ao infinito. Cálculo de intervalos de confiança Neste capítulo, focaremos nos intervalos de confiança para estimar a média e a proporção. Para calcularmos um intervalo de confiança, precisamos da estimativa pontual do parâmetro estudado, e da tabela de distribuição normal (ou a tabela t-student) para podermos encontrar os valores padronizados do coeficiente de confiança escolhido. Deseja-se que as amostras tenham sido retiradas de populações que sigam a distribuição normal ou uma amostra suficientemente grande para podermos utilizar do teorema do limite central para a utilização dos coeficientes de confiança. O intervalo de confiança para a média populacional, considerando desvio- -padrão populacional (𝜎) conhecido é: x– ± zα/2 ∙ σ √n Ou seja: x– – zα/2 ∙ ≤ μ ≤ x – + zα/2 ∙ σ √n σ √n x– é a média amostral; zα/2 é o coeficiente de confiança associado à normal padrão; 𝜎 é o desvio-padrão populacional; n é o número de elementos (tamanho) da amostra. Níveis de confiança4 Frequentemente, não temos o valor do desvio-padrão populacional e calcula- mos somente o desvio-padrão amostral. Temos, então, o intervalo de confiança para a média, quando não conhecemos o valor do desvio-padrão populacional. Segundo Doane e Seward (2015), em situações em que a população é normal, mas o desvio-padrão populacional é desconhecido, a distribuição t-student deve ser usada no lugar da distribuição normal padrão, conforme Figura 3. Isso é particularmente interessante quando a amostra é pequena. x– ± tα/2 ∙ s √n Ou seja: x– – tα/2 ∙ ≤ μ ≤ x – + tα/2 ∙ s √n s √n x– é a média amostral; tα/2 é o coeficiente de confiança associado à distribuição t-student; s é o desvio-padrão populacional; n é o número de elementos (tamanho) da amostra. Figura 3. Intervalo de confiança para a média. Fonte: Doane e Seward (2015, p. 306). Segundo Doane e Seward (2015), o teorema do limite central também se aplica a uma proporção amostral, uma vez que a proporção é apenas uma média de dados cujos únicos valores são 0 ou 1. Para uma proporção, o teorema 5Níveis de confiança diz que a distribuição de uma proporção amostral (p) tende à normalidade, conforme o valor de aumenta. O intervalo de confiança para estimar a proporção populacional, consi- derando que podemos aproximar a proporção amostral de uma distribuição normal, é: p ± zα/2 ∙ p ∙ (1 – p) n Ou seja, p – zα/2 ∙ p ∙ (1 – p) n p + zα/2 ∙ p ∙ (1 – p) n≤ � ≤ onde: p é a proporção amostral; zα/2 é o coeficiente de confiança associado à norma padrão; n é o número de elementos (tamanho) da amostra. Níveis de confiança Segundo Navidi (2012), o nível de confiança é a proporção de todas as amostras possíveis para as quais o intervalo de confiança abrange o valor real. Então, quando estabelecemos o coeficiente de confiança, estamos determi- nando a probabilidade de estarmos calculando um intervalo que contenha o ver- dadeiro valor do parâmetro com uma probabilidade conhecida de acertarmos. Os valores mais comuns de níveis de confiança utilizados para as estimativas por intervalo são os de 90%, 95% e 99%. Quanto maior for o nível de confiança, maior será o intervalo, conforme pode ser visto no Quadro 1, a seguir. Níveis de confiança α 1 – α α/2 zα/2 90% 0,10 0,90 0,05 1,645 95% 0,05 0,95 0,025 1,960 99% 0,01 0,99 0,005 2,576 Quadro 1. Valores mais utilizados da normal padrão Níveis de confiança6 Utilizamos esses valores tanto para a distribuição normal padrão, quanto para a distribuição t-student. Porém, na distribuição t, precisamos calcular os graus de liberdade para podermos encontrar o valor correspondente. GL = n – 1 onde: GL = graus de liberdade; n é o tamanho da amostra. Quanto maior for o tamanho da amostra (n,) mais os valores da distribuição t-student aproximam-se dos valores da distribuição normal padrão.Observe, na última linha da tabela t da Figura 4, quando n tende ao infinito, que temos os mesmos valores da tabela normal padrão. Podemos observar que, quanto maior for o coeficiente de confiança, maio- res serão os valores tabelados. Logo, as estimativas por intervalo aumentam conforme aumenta o nível de confiança. Quanto maior o intervalo, maior é a chance de acertarmos o valor do verdadeiro parâmetro populacional. Por exemplo, podemos calcular o intervalo de confiança para o exemplo fictício da média do saldo bancário dos clientes de um banco. Suponha que a média de saldo seja de R$ 1.958,00, com desvio-padrão amostral de R$ 697,00. Essas estimativas pontuais foram extraídas de uma amostra de 90 clientes desse banco. Calcularemos as estimativas por intervalo, considerando os níveis de confiança de 90%, 95% e 99%. x– = 1958 s = 697 n = 90 t0,05 = 1,645 t0,025 = 1,960 t0,005 = 2,576 Intervalo de confiança de 90%: x– ± tα/2 ∙ s √n 1958 – 1,645 ∙ ≤ μ ≤697 √90 1958 + 1,645 ∙ 697 √90 [1837,14; 2078,86] 7Níveis de confiança Figura 4. Tabela distribuição t-student. Intervalo de confiança de 95%: 1958 – 1,960 ∙ ≤ μ ≤697 √90 1958 + 1,960 ∙ 697 √90 [1813,00; 2102,00] Níveis de confiança8 Intervalo de confiança de 99%: 1958 – 2,576 ∙ ≤ μ ≤697 √90 1958 + 2,576 ∙ 697 √90 [1768,74; 2147,26] Observe que, quanto maior o nível de confiança, maior é o intervalo do parâmetro estudado. DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: AMGH, 2015. NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: AMGH, 2012 9Níveis de confiança Conteúdo: ESTATÍSTICA Juliane Silveira Freire da Silva Estimação de parâmetros Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Expressar parâmetros populacionais. � Diferenciar estimativas tendenciosas de não tendenciosas. � Identificar as consequências dos estimadores. Introdução Neste capítulo, você identificará o que são parâmetros e estimadores. Além disso, aprenderá a identificar o que são estimadores tendenciosos e estimadores eficientes. Também, desenvolverá estratégias para identificar quais deles utilizar. Como aplicação da teoria de probabilidade aos estimadores, você aprenderá a calcular intervalos de confiança para a média e a proporção que possibilitam estimar um intervalo de valores em que esteja contido o verdadeiro parâmetro populacional, com base em uma amostra. Parâmetros populacionais Parâmetros são medidas numéricas calculadas com base nos dados de uma população. Podemos calcular alguns parâmetros, como a média populacional (μ), o desvio-padrão populacional (𝜎) e a proporção populacional (π). Observe que os parâmetros são representados por letras gregas. μ = ∑ Xi N média populacional onde: Xi: cada um dos N elementos da população; N: tamanho da população. σ = ∑(Xi – μ) 2 N desvio-padrão populacional onde: Xi: cada um dos N elementos da população; μ: média populacional; N: tamanho da população. Parâmetros nem sempre são fáceis de serem calculados — seja porque nem sempre temos acesso a todos os elementos de uma população, seja porque pode ser muito oneroso coletar dados de uma população inteira, ou, ainda, porque não temos tempo para investigar todos os dados de uma população. Por esses e outros motivos, acabamos, muitas vezes, optando por coletar dados relativos às amostras derivadas de uma população de interesse. Quando calculamos as medidas numéricas de uma amostra, teremos estimativas, também chamadas de estatísticas, para os parâmetros populacionais. Na Figura 1, a seguir, há uma representação desses estimadores amostrais de parâmetros populacionais. Figura 1. Estimadores amostrais de parâmetros populacionais. Fonte: Doane e Seward (2014, p. 293). Amostra Inferência Parâmetros populacionais μ σ π Estimadores amostrais x– s p Estimação de parâmetros2 Cada estimativa será o valor particular daquela amostra para estimar o verdadeiro valor do parâmetro. Se coletarmos amostras diferentes de uma mesma população, os valores do estimador poderão mudar aleatoriamente a cada amostra coletada. Então, a distribuição dessa variável (estimador amostral) é o que chamamos de distribuição de probabilidades amostral. O valor da estimativa da média, por exemplo, será específico para cada amostra, mas a distribuição de probabilidade que descreve essa aleatoriedade com os resultados das diferentes amostras é a distribuição amostral da média da amostra. Nessa distribuição, teremos todos os resultados prováveis da estimativa da média em um intervalo de valores que a estimativa ocorre e onde estará o verdadeiro parâmetro populacional. A distribuição amostral seguirá a mesma distribuição dos dados populacionais. Se estes seguem uma distribuição normal, consequentemente, os dados amostrais provenientes dessa população também seguirão uma distribuição de probabilidades normais. A partir dessa distribuição de probabilidades amostrais (podendo ser diferente para cada um dos parâmetros) é que podermos tomar decisões sobre os parâmetros populacionais com base em estimativas amostrais. Segundo Doane e Seward (2014), um estimador é uma estatística derivada de uma amostra para inferir o valor de um parâmetro populacional. Já uma estimativa é o valor do estimador em uma amostra particular. Quando calculamos o valor de apenas uma amostra e estimamos os valores dos parâmetros por essa medida amostral, teremos uma estimativa por ponto. Claramente, nem sempre o valor calculado para a média dessa determi- nada amostra (ou qualquer outro estimador) acertará no alvo o valor real da população. Sendo assim, para estimativas de parâmetros, podemos calcular intervalos com alta probabilidade de conter o verdadeiro valor do parâmetro populacional. Podemos, também, calcular o erro cometido com esse estimador e, ainda, o tamanho mínimo para a amostra dessa estimativa. Vale lembrar que o erro e a confiança fixados no cálculo para o tamanho de amostra só serão válidos se a amostra for probabilística. Qualquer amostra só poderá resultar em um bom estimador caso ela seja coletada de forma aleatória. Jamais podemos fazer uso de amostras não probabilísticas e ten- denciosas para estimarmos parâmetros. 3Estimação de parâmetros Estimativas tendenciosas e não tendenciosas Mas o que é uma estimativa tendenciosa? Chamamos uma estimativa de ten- denciosa, ou estimador viciado e estimador enviesado, quando esta subestimar ou superestimar o valor do parâmetro. Vício é a diferença entre a média da estatística (estimador) e o verdadeiro valor do parâmetro populacional. A Figura 2 ilustra a diferença entre um estimador tendencioso e não tendencioso. Figura 2. Ilustração de estimadores tendenciosos e não tendenciosos. Estimador não tendencioso Estimador tendencioso Segundo Doane e Seward (2014), a média amostral (x–) e a proporção amostral (p) são estimadores não viciados da μ e da π, respectivamente. Mas podemos encontrar estimadores viciados quando consideramos o desvio-padrão amostral e o desvio-padrão populacional. μ = ∑Xi N média populacional x– = ∑xi n média amostral � = XN proporção populacional p = xn proporção amostral Estimação de parâmetros4 σ = ∑(Xi – μ) 2 N desvio-padrão populacional s = ∑(xi – x –)2 n – 1 desvio-padrão amostral Estimativas eficientes Um estimador é dito eficiente frente aos demais possíveis dentre as amostras oriundas da mesma população. Será aquele que tiver a menor variabilidade. Ou seja, se dois estimadores tiverem a mesma média, o estimador mais efi- ciente será aquele com a maior variância. O outro estimador será considerado ineficiente, conforme ilustrado na Figura 3. Figura 3. Ilustração de estimadores eficientes e não eficientes, ambos não viciados. Estimador e�ciente Estimador não e�ciente Como existe essa variabilidade, podemos, então, estimar o erro que estamos cometendo com essa estimativa.Quando estamos estimando a média popula- cional (μ) pela média amostral (x–), cometemos o erro amostral: a probabilidade é de 1 – α de que a estimativa vá diferir para mais ou para menos do valor populacional por, no máximo, um erro de: E = zα/2 ∙ σ √n 5Estimação de parâmetros onde: E: erro máximo de estimativa; 𝜎: desvio-padrão populacional; n: tamanho da amostra; zα/2: valor da tabela normal padrão. Na Figura 4, pode ser visualizada a distribuição amostral da média. Figura 4. Distribuição amostral da média. Fonte: Freund (2006, p. 272). 1 – α α/2 α/2 x– μ zα/2 ∙ σ √n No Quadro 1, a seguir, apresentamos os valores para os principais níveis de significância. 1 – α α/2 zα/2 1 – 0,1 = 0,90 = 90% 0,05 1,645 1 – 0,05 = 0,95 = 95% 0,025 1,960 1 – 0,01 = 0,99 = 99% 0,005 2,575 Quadro 1. Valores da tabela normal para os principais níveis de significância Estimação de parâmetros6 Uma financeira coletou uma amostra aleatória de 100 pessoas para estimar o valor médio de endividamento de seus clientes. Com base em pesquisas anteriores, sabe-se que o desvio-padrão populacional é de R$ 630,00 (σ = 630,00). Com uma probabilidade de 95%, qual seria o erro máximo para a estimativa? E = 1,960 · = 123,48630 √100 Com uma confiança de 95%, podemos afirmar que o erro máximo dessa estimativa é de 123,48. Precisamos observar que nem sempre sabemos o verdadeiro valor do desvio-padrão populacional. Aliás, muito raramente teremos esse valor, pois, se tivéssemos facilmente o desvio-padrão populacional, já saberíamos o valor da média populacional. Assim sendo, é admissível utilizarmos o desvio-padrão amostral como estimativa do desvio-padrão populacional, sempre que tivermos um tamanho da amostra igual ou superior a 30. Consequências dos estimadores Como consequências das propriedades dos estimadores, quando temos uma distribuição de probabilidades para os possíveis resultados de amostras alea- tórias, podemos calcular intervalos de confiança que contenham o verdadeiro valor do parâmetro populacional e uma confiança associada a esse intervalo. Podemos, também, calcular tamanhos mínimos de amostras para que os dados amostrais sejam representativos de toda uma população. A distribuição de probabilidades associada aos dados da nossa população é que nos dará a confiança necessária tanto para os intervalos de confiança quanto para o tamanho mínimo de amostras. Leva-se em consideração o teorema do limite central. Intervalos de confiança Podemos calcular um intervalo de variação para a média amostral, que terá uma probabilidade definida de conter o verdadeiro valor do parâmetro populacional. Isso é possível porque temos uma distribuição associada aos dados po- pulacionais e amostrais. Utilizaremos a distribuição normal para esses in- tervalos e teremos uma confiança fixada de acordo com essa distribuição de probabilidades. 7Estimação de parâmetros Existem valores que são mais comuns para o cálculo dos intervalos de confiança: 90%, 95% e 99%. Os valores das probabilidades associadas a esses níveis de confiança são os seguintes: 90% de confiança → z0,05 = 1,645 95% de confiança → z0,025 = 1,960 99% de confiança → z0,005 = 2,575 O intervalo de confiança para estimar uma média é descrito a seguir: x– ± zα/2 ∙ σ √n com o desvio-padrão populacional conhecido x– ± tα/2; n – 1 ∙ s √n com o desvio-padrão populacional desconhecido Observe que, ao invés de utilizarmos a distribuição normal para o intervalo de confiança com o desvio-padrão desconhecido, tomamos a distribuição t-stu- dent, observando o α/2 e n–1 graus de liberdade. Vale ressaltar que, para n ≥ 30, os valores da distribuição t e da distribuição normal igualam-se. Observe a Figura 5, a seguir. Figura 5. Comparação distribuição t e distribuição normal. Fonte: Doane e Seward (2014, p. 306). A distribuição t tem o mesmo formato da distribuição normal, mas, para n menor do que 30, existe uma pequena diferença no formato, ocasionada pelo tamanho da amostra. Veja a tabela da Figura 6. Estimação de parâmetros8 Figura 6. Distribuição t-student. Para encontrar o valor tabelado, cruzamos a coluna de alfa escolhido com a linha dos graus de liberdade. Nesse caso do número de graus de liberdade, precisamos fazer n–1. 9Estimação de parâmetros Suponha que a financeira coletou uma amostra de 100 clientes e questionou sobre o valor de endividamento deles, obtendo como resultado uma média amostral de R$ 2.350,00 e um desvio-padrão amostral de R$ 590,00. Obtenha o intervalo de confiança de 95% para a média. x– = 2350,00 s = 590,00 n = 100 t0,025;99 = 1,960 x– ± tα/2 ;n – 1 · = 2350 ± 1,960 · 2350 ± 115,64 [2234,36; 2465,64] s √n 590 √100 Com 95% de confiança, a verdadeira média populacional para o valor médio de endividamento estará entre R$ 2.234,36 e R$ 2.465,64. De acordo com o intervalo, podemos calcular o tamanho mínimo de amostra para quando queremos estimar a média populacional, isolando o n na equação do erro máximo amostral. Esse valor nos fornecerá um tamanho de amostra mínimo para que a amostra seja representativa da população, caso coletada de forma aleatória. n = zα/2 ∙ σ E( ) 2 Por exemplo, qual seria o tamanho mínimo de amostra com uma confiança de 95%, no caso de uma pesquisa com consumidores para investigar o valor gasto com presentes no dia dos namorados. Sabe-se que o desvio-padrão populacional da pesquisa no ano anterior foi de R$ 65,00. Os pesquisadores querem errar, no máximo, em R$ 10,00. Estimação de parâmetros10 z0,025 = 1,96 σ = 65,00 E = 10,00 n = zα/2 ∙ σ E( ) ( ) 2 2 = = 162,3 = 1631,96 · 6510 Vale ressaltar que, no caso do tamanho mínimo de amostra, sempre se arredonda para cima, independentemente de regras de arredondamento. Podemos calcular, também, um intervalo de variação para a proporção amostral. A teoria é semelhante à empregada no intervalo de confiança para a média. Os cálculos são realizados de acordo com a equação a seguir. p ± zα/2 · p ∙ (1 – p) n onde: p: proporção amostral n: tamanho da amostra Zα/2 : valor tabela normal padrão Assim como podemos calcular o tamanho mínimo de amostra para estimar uma média, também podemos calcular o tamanho mínimo de amostra para estimar uma proporção. A fórmula do tamanho mínimo de amostra também é derivada da fórmula do erro máximo amostral para a proporção. Ainda temos o intervalo de variação para o desvio-padrão de uma amostra retirada de uma população que segue uma distribuição normal. n = zα/2 2 ∙ p(1 – p) E2 Quando não conhecemos o verdadeiro valor da proporção populacional, utilizamos o p = 0,5. Assim, podemos superestimar o tamanho da amostra, já que a proporção não é conhecida. 11Estimação de parâmetros Suponha que você deseja estimar a proporção de clientes satisfeitos com determinado produto da sua empresa. Deseja-se cometer um erro máximo de estimação de 3%, com uma confiança de 90%. Qual seria o tamanho mínimo de amostra para estimar essa proporção? zα /2 = 1,645 p = 0,5 pois o p é desconhecido E = 0,03 precisamos tirar do percentual n = zα/2 2 · p(1 – p) E2 = 1,6452 · 0,5 · (1 – 0,5) 0,032 = 752 DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: AMGH; Bookman, 2014. 840 p. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2006. 536 p. Leitura recomendada SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. 600 p. (Coleção Schaum). Estimação de parâmetros12 Conteúdo: ESTATÍSTICA Juliane Silveira Freire da Silva Amostragem aleatória Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Diferenciar amostra aleatória de amostra não aleatória. � Identificar os tipos de amostragem aleatória. � Escolher as amostragens aleatórias adequadas. Introdução Neste capítulo, você vai conhecer mais sobre amostragem probabilística, tambémchamada de amostragem aleatória. Vai aprender mais sobre os tipos dessa amostragem e saber escolher qual tipo é mais adequado para cada situação. Diferenças entre amostragem aleatória e amostragem não aleatória Quando queremos realizar um levantamento de dados não temos como inves- tigar toda a população, precisamos, na maioria das vezes, avaliar apenas os dados referentes a uma amostra do objeto de interesse (Figura 1). População é o conjunto de pessoas, seres ou objetos que tenham pelo menos uma característica comum a todos os seus elementos. A amostra será um subconjunto dessa população e terá as mesmas características comuns à população da qual foram retiradas. Figura 1. População-alvo e amostra. Fonte: Adaptada de Bakhtiar Zein/Shutterstock.com. População-alvo Amostra É preferível fazer o levantamento de uma amostra em vez de uma popula- ção, pois é menos custoso e mais rápido, sem contar que, em geral, é inviável obter dados de toda a população. O alcance de dados de todos os habitantes é chamada de censo e o de uma amostra é chamada de amostragem. Na maioria das vezes, a amostragem é suficiente para que possamos ter uma ideia do real resultado do levantamento. Isso vai depender das técnicas utilizadas para a escolha das unidades amostrais, que são as pessoas, os seres ou os objetos coletados na amostragem. Sempre que coletarmos as unidades amostrais de forma aleatória, po- deremos extrapolar o resultado para toda a população, a isso chamamos de inferência; já quando a amostra for coletada de forma não aleatória, não poderemos generalizar os dados amostrais para toda a população, ou seja, não podemos fazer inferências. Mas e como diferenciar uma amostragem aleatória de uma amostragem não aleatória? (Quadro 1) A diferença entre elas está somente na forma como são escolhidas as unidades amostrais. Amostragem aleatória2 Amostragem não aleatória Por quotas Cliente oculto Grupos focalizados Bola de neve Por conveniência Amostragem aleatória Aleatória simples Sistemática Estratificada Por conglomerados Quadro 1. Tipos de amostragem Na amostragem aleatória, cada um dos elementos tem uma probabilidade de compor a amostra conhecida e diferente de zero. Na amostragem não aleatória ocorre justamente o contrário, não se conhece a chance de uma unidade amostral compor a amostra e, às vezes, algumas unidades amostrais têm probabilidade zero de compor a amostra. Nesse tipo de amostragem, a decisão da escolha das unidades amostrais depende, pelo menos em partes, do julgamento do pesquisador. Imagine uma pesquisa sobre a satisfação com a qualidade de sinal de internet oferecida por determinada empresa na cidade do Rio de Janeiro. A população são os assinantes de internet dessa empresa. O pesquisador decide mandar um e-mail para todos os seus amigos que são clientes dessa operadora de internet. Perceba que, se a população são todos os assinantes da empresa e o entrevistador se limita a pesquisar apenas os seus amigos que são clientes, ele acaba deixando um grande número de unidades amostrais sem chance alguma de compor a amostra. Neste caso a amostragem não é aleatória. Porém, se o pesquisador coletasse na empresa uma listagem de todos os clientes, fizesse um sorteio e entrevistasse os clientes sorteados, teria uma amostragem aleatória, pois todos os elementos da população têm probabilidade igual e diferente de zero de compor a amostra. 3Amostragem aleatória Mas então por que escolher entre amostra aleatória e amostra não aleatória? Qual delas é melhor? Quando usar uma ou outra? Se a diferença entre elas é a forma de selecionar as unidades amostrais, ou seja, a forma de coleta, esse é o motivo para escolher um método ou outro. Sempre que quisermos obter informações e extrapolar, inferir para toda a população, precisamos obrigatoriamente utilizar uma amostragem aleatória. Somente ela nos permite extrapolar para toda a população, pois os elementos são coletados de forma aleatória e a escolha não tem a influência do pesquisador, que pode, de alguma forma, tornar a amostragem tendenciosa. A amostra aleatória pode nos fornecer a margem de erro e a probabilidade de estarmos acertando o verdadeiro resultado da população. Por exemplo, nas pesquisas eleitorais, presume-se que as unidades amostrais sejam coletadas de forma aleatória. Infelizmente, nem todos os institutos de pesquisa coletam as unidades amostrais de forma aleatória e, assim, as pesquisas eleitorais ficam desacreditadas muitas vezes. Essa pesquisa não pode ser feita por telefone, pois limitaria a população apenas aos eleitores que possuem telefone, ou seja, seriam excluídos alguns elementos da população com probabilidade zero, o que deixaria de configurar uma amostra probabilística. A forma correta de realizar uma pesquisa eleitoral é fazer entrevistas pessoais e selecionar as unidades amostrais de forma aleatória. Somente dessa maneira é que a margem de erro e a confiança informadas na pesquisa terão validade. Caso a escolha da unidade amostral depender pelo menos em algum ponto do julgamento do pesquisador, a amostra deixará de ser aleatória. Na amostra aleatória, as unidades amostrais devem ser selecionadas por sorteio, e assim, não sofrem influência do julgamento do pesquisador. Tipos de amostragem aleatória Dentro da amostragem aleatória há métodos de seleção diferentes. Todos eles são realizados por sorteio de forma aleatória, mas podem ser combinadas metodologias diferentes para a seleção das unidades amostrais. Amostragem aleatória4 Amostragem aleatória simples Esse é o método de amostragem aleatória mais importante, ele estará mesclado nos demais métodos que serão apresentados. A amostragem aleatória simples consiste em um sorteio para cada uma das unidades amostrais. Um exemplo desse método é a urna de um bingo. Nela, há o número total de elementos que vai corresponder a cada uma das bolas numeradas, e a cada elemento sorteamos uma bola referente à unidade amostral que possui aquele número. Assim, cada uma das unidades amostrais tem probabilidade igual, conhecida e diferente de zero de compor a amostra. Outro exemplo de amostragem aleatória é o levantamento do perfil de alunos de uma determinada instituição de ensino, a partir da seleção de alguns deles de uma lista com todos os estudantes. Os pesquisadores numeram todos os alunos da lista, após, utilizam o Excel e geram números aleatórios. Os números sorteados pelo programa posteriormente são os números escolhidos na lista de alunos que havia sido organizada. Essa amostra será aleatória e, se a quantidade de elementos selecionados for representativa da população, o resultado dessa amostra poderá ser extrapolado para todos os alunos da instituição, fixando a margem de erro e a confiança dos dados (probabilidade de acertar o verdadeiro resultado da população). Amostragem aleatória sistemática A amostragem aleatória sistemática consiste em selecionar um elemento a cada k unidades da população. Para esse método precisamos ter uma listagem da nossa população disposta de forma aleatória. k = N n Onde k — intervalo com o qual selecionaremos a unidade amostral; N — tamanho da população; n — tamanho da amostra. A amostragem sistemática é muito útil quando temos alguma listagem dos elementos da população ou quando as unidades amostrais estão dispostas em uma fila, pois não precisamos fazer um sorteio para a seleção de cada unidade amostral, podemos calcular o valor de k e, dentro do valor de k, sortear um número. 5Amostragem aleatória Por exemplo, queremos investigar sobre a satisfação de uma loja de e-commerce, para isso pegamos a listagem dos consumidores no último mês na ordem em que a compra foi efetuada. Suponhamos que a loja tenha tido um total de 10 mil clientes e que queremos investigar uma amostra de 385 clientes. Dividindo 10 mil por 385 temos k — 26, então, a cada 26 clientes selecionamos um. Para iniciarmos, sorteamos um valor entre 1 e 26; supondo queo número 10 tenha sido sorteado, selecionamos o 10º cliente, o 36º, o 62º, o 88º e assim sucessivamente a cada 26 unidades, até selecionarmos os 385 cientes. Amostragem estratificada A amostragem estratificada é uma amostragem aleatória, mas esse tipo de amostragem não é exatamente um método de coleta, ou seja, de escolha das unidades amostrais. Ele é mais uma forma de agrupamento em que as unidades amostrais também devem ser selecionadas de forma aleatória. A amostragem estratificada divide a população em estratos, em que seja interessante uma divisão por grupos. Esses grupos devem ter comportamento homogêneo dentro dos estratos e ter alguma variabilidade entre os grupos, que seja conveniente ao objetivo do estudo. A seleção das unidades amostrais dentro dos extratos pode ser feita pela amostragem aleatória simples ou pela amostragem sistemática. Esse tipo de amostragem é útil quando queremos verificar os cruzamentos dos estratos. Podemos, então, comparar dois ou mais grupos nas estatísticas descritivas. Por exemplo, estamos fazendo uma pesquisa sobre hábitos de consumo de perfumaria entre os colegas de trabalho. Faz sentido separar em estratos de homens e de mulheres, pois os hábitos de consumo de perfumaria são diferentes para os dois gêneros. Assim, dividimos a amostra de forma proporcional entre homens e mulheres e para a escolha de cada uma das unidades amostrais podemos fazer um sorteio com números aleatórios. Amostragem por conglomerados A amostragem por conglomerados, assim como a amostragem estratificada, é uma forma de agrupamento e não de seleção das unidades amostrais. A Amostragem aleatória6 amostragem por conglomerados também será utilizada em conjunto com a amostragem aleatória simples e/ou com a amostragem sistemática. Assim como na amostragem sistemática, dividimos a população em grupos. Porém, esses grupos serão formados normalmente por regiões geográficas. Faz sentido utilizar esse tipo de agrupamento quando esses conglomerados tiverem um comportamento com variabilidade dentro dos grupos e uma ho- mogeneidade entre eles. Por exemplo, agora quero fazer uma pesquisa com os colegas de trabalho em uma grande empresa sobre hábitos de consumo de vinho. Inicialmente, não existe nenhuma distinção de sexo, idade ou região para esses hábitos, então presume-se que a questão a ser investigada não tem um perfil que possa ser separado em grupos (o que seria conveniente apenas na amostragem estratificada). Assim, posso dividir meus conglomerados por setores dentro da empresa. Cada um dos setores representa um conglomerado, então seleciono de maneira aleatória alguns conglomerados e, dentro de cada um deles, posso entrevistar a totalidade dos funcionários daquele setor ou fazer um sorteio dentro do conglomerado selecionado de alguns colegas. A amostragem aleatória possui quatro tipos de amostragem. Os dois primei- ros são especificamente técnicas de seleção de unidades amostrais de forma aleatória; os outros dois são agrupamentos que fazem mais sentido de acordo com o problema de pesquisa. As unidades amostrais podem ser selecionadas de acordo com a amostragem aleatória simples e/ou com a amostragem sistemática. Quando utilizamos a amostragem aleatória, podemos usar fórmulas para poder cal- cular o tamanho da amostra. Essas fórmulas servem para estimar proporções ou para estimar médias. Esses cálculos são feitos com base na margem de erro que estamos dispostos a cometer e a probabilidade que queremos fixar para acertar o verdadeiro valor da população estudada. Quanto menor for a margem de erro que a pesquisa puder cometer, maior será o tamanho da amostra, e quanto maior for a probabilidade de acertar o verdadeiro valor da população considerando a margem de erro, maior será o tamanho da amostra. A margem de erro é inversamente proporcional ao tamanho da amostra e a confiança (probabilidade de acertar) é diretamente proporcional ao tamanho da amostra. Podemos afirmar erro e confiança para os dados coletados somente para a amos- tragem aleatória. 7Amostragem aleatória Escolha do tipo de amostragem aleatória Segundo Sampieri, Collado e Lucio (2013), inicialmente é preciso determinar quais são os objetivos da pesquisa. Algumas pesquisas buscam contribuir para resolver um determinado problema; nesse caso, devemos mencionar qual é esse problema e de que maneira achamos que o estudo irá ajudar a resolvê-lo. Outras, têm como objetivo principal comprovar uma teoria ou trazer evidência empírica a seu favor. A decisão sobre qual tipo de amostragem escolher depende de algumas questões. É preciso definir a população-alvo e o problema de pesquisa. De- finido isso, tomamos a decisão de inferir ou não para a população, isso nos guiará para a escolha de uma amostragem aleatória ou uma amostragem não aleatória. Porém, vale ressaltar que, muitas vezes, mesmo que queiramos ex- trapolar para a população como um todo, a indisponibilidade de informações da população-alvo nos impede de optar por uma amostragem aleatória e nos deixa apenas com a opção de uma amostragem não aleatória. Quando nos referimos à falta de informação de uma população queremos dizer que podemos não saber onde encontrar as unidades amostrais dessa população, que não as conhecemos direito, que não conseguimos nenhuma listagem dessa população, etc. Com a escolha do problema de pesquisa, a posterior definição da população- -alvo e a decisão de fazer extrapolação com base na amostra para toda a popula- ção, é que precisamos decidir qual tipo de amostragem aleatória será utilizada. Lembramos que, algumas vezes, com a definição da população, esbarramos em falta de informação e somos impedidos de utilizar a amostragem aleatória. Precisamos saber qual tipo de informação temos da população, se teremos uma listagem dela para poder fazer um sorteio, ou se elas estão dispostas em algum tipo de fila, por exemplo, ou, ainda, se estamos pesquisando um determinado bairro e as entrevistas serão feitas nas residências. Às vezes, se faz necessário restringir a população com mais características que sejam comuns para uma maior precisão na hora da coleta das unidades amostrais. Não existe um método melhor do que outro, o que existe é o método de amostragem mais adequado à população-alvo e aos objetivos da pesquisa. Ou seja, não quer dizer que escolher um tipo ou outro de amostragem possa ser mais vantajoso, pois muitas vezes a amostragem não aleatória satisfaz as exigências que o pesquisador necessita e pode ser a única maneira de coletar os dados. Não quer dizer que a amostragem não aleatória não seja boa, ela muitas vezes é a única opção. Amostragem aleatória8 Assim também acontece com a escolha da técnica dentro da amostragem aleatória. Não quer dizer que uma ou outra técnica de amostragem seja me- lhor do que a outra, o que precisamos garantir em todas é a aleatoriedade. O restante é o que melhor se adequar aos objetivos da pesquisa e à população a ser investigada, e ao acesso disponível com relação à população. Para relembrar, na amostragem aleatória simples, realizamos um sorteio para a escolha da unidade amostral. Na amostragem aleatória sistemática, escolhemos a unidade amostral a cada k unidades. A amostragem aleatória estratificada separa em grupos semelhantes dentro de cada grupo e os seleciona por sorteio ou de forma sistemática. A amostragem aleatória por conglomerados separa em grupos heterogêneos dentro de cada grupo e escolhe os grupos de forma aleatória ou sistemática. Acesse o link ou o código a seguir para assistir a um vídeo sobre amostragem aleatória simples. https://goo.gl/ba4s8R Depois da definição da técnica de escolha das unidades amostrais, pre- cisamos pensar no instrumento de coleta. Para as pesquisas quantitativas, normalmente se utiliza um questionário estruturado e fechado. Isso é o que irá facilitar a análise e a inferência posterior. Para a construção das perguntas do questionário, segundo Flick (2012) existem trêspontos importantes: � formulação da pergunta; � tipos de perguntas e possíveis respostas apropriadas; � propósito na formulação das perguntas. 9Amostragem aleatória As perguntas do questionário devem ser em sua maioria objetivas, então devemos pensar nas opções de resposta também. Podemos deixar algumas perguntas abertas, caso queiramos investigar alguma coisa que não temos conhecimento para dar as opções, ou então, se for uma questão que queremos investigar de forma detalhada. Suponhamos que desejamos realizar uma pesquisa dentro de uma sala de aula para verificar se o novo professor está atendendo às expectativas da turma. A turma tem 60 alunos e temos apenas o horário do intervalo para fazer essa pesquisa. Definida a população, que será a referida turma do novo professor, e o problema de pesquisa, que é verificar se os alunos aprovam o novo professor em alguns quesitos, o que podemos fazer para obter os dados? Como temos um curto espaço de tempo, realizaremos uma amostragem. Como todos os alunos estão na chamada, podemos sortear de forma prévia alguns deles (um número representativo) e, quando chegar o horário do intervalo, faremos as entrevistas com um questionário já estruturado e fechado. Após essa ação, teremos a coleta de dados dessa amostra e, posteriormente, podemos fazer a análise descritiva desses dados. Os resultados obtidos refletirão a opinião de toda a turma. FLICK, U. Introdução à metodologia de pesquisa: um guia para iniciantes. Porto Alegre: Penso, 2012. 256 p. SAMPIERI, R. H.; COLLADO, C. F.; LUCIO, M. P. B. Metodologia de pesquisa. 5. ed. Porto Alegre: AMGH; Penso, 2013. 624 p. Amostragem aleatória10 ESTATÍSTICA Juliane Silveira Freire da Silva Propriedades dos estimadores Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Expressar as propriedades dos estimadores. � Identificar estimador não enviesado. � Diferenciar estimadores eficientes de consistentes. Introdução Neste capítulo, você identificará o que são estimadores e estimativas e aprenderá sobre as suas propriedades. Saberá diferenciar estimadores não enviesados, eficientes e consistentes. E, ao final, verificará os melhores estimadores para alguns parâmetros populacionais. Propriedades dos estimadores Quando estamos lidando com dados estatísticos, na maioria das vezes, uti- lizamos amostras ao invés de populações. Isso ocorre porque a coleta de dados de uma população normalmente é onerosa e demorada , nem sempre necessária e possível. Utilizamos, então, dados coletados de amostras provenientes das popu- lações. Existem técnicas de coletas de dados amostrais probabilísticas, que traduzem muito bem os dados da população. Essa amostragem nos fornece dados aleatórios e não tendenciosos da população. Não é qualquer tipo de amostragem que é interessante para retratar os dados de uma população. Muitas vezes, amostras coletadas são tendenciosas e só podem retratar a amostra coletada, mas não a população como um todo, de onde essa amostra foi retirada. Então, para que possamos coletar dados numéricos de uma amostra, pre- cisamos, antes de tudo, coletar essa amostra de forma correta, de acordo com os objetivos da pesquisa. Se uma pesquisa busca retratar apenas o momento e aquelas pessoas que fizeram parte da amostra, será indiferente se coletarmos a amostra de forma probabilística ou não probabilística. Porém, se quisermos extrapolar os dados coletados na amostra para os dados da população, precisamos obrigatoriamente coletar a amostra de forma probabilística. Somente desta maneira pode-se assegurar o erro e a confiança que se pode cometer com essa extrapolação. Claro que, toda a vez que coletamos dados referentes de uma amostra, teremos dados numéricos — como médias, proporções e variabilidade — que serão o resumo da amostra coletada. São esses resumos numéricos que trataremos neste capítulo. O objetivo mais comum de coletarmos uma amostra é calcularmos esses resumos nu- méricos para podermos extrapolar para a população como um todo, inferindo que os dados da população tenham aproximadamente os mesmos resultados da amostra. Quando coletamos dados referentes a uma população e calculamos seus resumos numéricos, temos os parâmetros populacionais ou apenas parâmetros. Podemos exemplificar o parâmetro da média populacional que é representado por μ, o parâmetro do desvio padrão populacional que é representado por 𝜎 e a proporção populacional representada por π. Quando coletamos dados referentes a uma amostra oriunda de uma popula- ção e calculamos os resumos numéricos dela, teremos os estimadores (também chamados de estatísticas). Podemos exemplificar o estimador da média, que é representado por x–, o estimador do desvio padrão, representado por s, e o estimador para a proporção, representado por p. Na Figura 1, a seguir, há uma representação de população e amostra. Observe que os parâmetros são normalmente representados por letras gregas, e os estimadores, por letras do alfabeto latino. Os parâmetros são os valores corretos, não havendo o que contestar, afinal, eles foram coletados diretamente da população. Já os valores dos estimadores variarão de uma amostra para outra, pois existe uma variabilidade nos dados coletados de uma mostra para amostra. Propriedades dos estimadores2 Figura 1. Representação de população e amostra. População Amostragem Amostra Estimadores InferênciaParâmetros Como existe essa variabilidade entre as possíveis amostras (que, a priori, precisam ser amostras probabilísticas), existirão estimadores que represen- tarão melhor os dados do que outros, como os que podem apresentar um viés quando comparados com o parâmetro populacional. Há parâmetros que podem ser tendenciosos, ao serem comparados com o parâmetro populacional, e estimadores que são eficientes, se comparados ao parâmetro populacional. Podemos, também, ter estimadores pontuais ou intervalares. Os pontuais são a própria medida numérica obtida na amostra. O estimador intervalar, como o nome sugere, fornece um intervalo que conterá o verdadeiro valor populacional com uma probabilidade fixada. Quando estamos extrapolando os valores obtidos em uma amostra para toda a população de onde essa foi extraída, estamos entrando na área de estatística inferencial. Podemos ter vários parâmetros populacionais para estimarmos com base em uma amostra. Então, generalizaremos um parâmetro qualquer da população como sendo o de interesse representado por θ, e a estimativa amostral desse parâmetro de interesse, representada por θ̂ . O sinal de acento circunflexo representa o estimador. Então, o parâmetro de interesse θ pode representar os parâmetros μ, 𝜎, π (média populacional, desvio padrão populacional, proporção populacional), assim como o estimador θ̂ do parâmetro pode representar os estimadores x–, s, p (média amostral, desvio padrão amostral, proporção amostral). 3Propriedades dos estimadores A estatística tem duas grandes divisões. A estatística descritiva e a inferencial. Quando coletamos uma amostra, primeiramente, obtemos a análise descritiva desses dados. Dependendo de como os dados amostrais foram coletados, podemos realizar infe- rências para a população como um todo — chamamos isso de estatística inferencial. Estimador não enviesado Quando calculamos uma estimativa de um parâmetro populacional, comete- mos um erro na estimativa pontual. Pois, se coletamos amostras aleatórias, teremos amostras diferentes e aleatórias que fornecerão valores diferentes do valor do parâmetro — chamamos isso de erro amostral. Para a média, por exemplo, temos: Erro amostral = x– – μ Segundo Doane e Seward (2014), geralmente, o parâmetro que estimamos é desconhecido, e, portanto, não podemos calcular o erro amostral. O que sabemos é que a média da amostra x– é uma variável aleatória que, em média, estima corretamente μ, porque as medidas amostrais que superestimam μ tendem a ser compensadaspor aquelas que o subestimam. O erro amostral é calculado com base em uma estimativa pontual e um parâmetro populacional de interesse. Outro conceito importante para as definições a seguir é o conceito de valor esperado — ou expectância ou esperança matemática de uma variável. No caso de uma variável contínua, essa esperança é calculada como sendo a integral da função distribuição de probabilidade (FDP) da variável x. No caso de uma variável discreta, é calculada com o somatório das probabilidades. E(X) = ∫+∞ xf(x)dx para uma variável quantitativa contínua E(X) = ∑i = 1 xiP(X = xi) para uma variável quantitativa discreta –∞ n Dizemos que um estimador é não enviesado, ou não viesado ou não ten- dencioso, sem viés quando esse estimador tem o seu valor esperado igual ao do parâmetro de interesse que se pretende estimar. Propriedades dos estimadores4 E(θ ) = θ^ Observe que, em uma amostra, pode haver um erro amostral pontual, mas um estimador não enviesado é aquele que tem o seu valor esperado igual ao parâmetro populacional estimado. O estimador não enviesado não superesti- mará ou subestimar em média o parâmetro. Em contrapartida, um estimador enviesado é aquele que erra em média o valor do parâmetro. A diferença entre o valor esperado do estimador e o parâmetro é o que chamamos de viés. Viés = E(θ ) – θ^ Segundo Doane e Seward (2014), o erro amostral é aleatório, enquanto o vício é sistemático. Algumas amostras podem aparentar estarem mais próximas do centro do alvo do que outras, mas ao menos um estimador não viciado evita o erro sistemático. Você não pode observar o vício em uma amostra porque não conhece o verdadeiro parâmetro populacional, mas o vício pode ser estudado matematicamente ou por experimentos simulados. A Figura 2 ilustra a diferença entre um estimador viciado e um não viciado. Figura 2. Ilustração de vício, comparando um atirador com um alvo. Fonte: Doane e Seward (2014, p. 294). Estimador não viciado Estimador viciado 5Propriedades dos estimadores Temos, como exemplos de estimadores não enviesados, a média amostral representada por x–, bem como a proporção amostra, representada por p. μ = ∑Xi N média populacional x– = ∑Xi n média amostral � = proporção populacionalXN p = x n proporção amostral Como exemplos de estimadores enviesados, temos a variância amostral, representada por s2, e o desvio padrão amostral, representado por s. σ2 = ∑(Xi – μ) 2 N variância populacional s2 = ∑(xi – x–) 2 n – 1 variância padrão amostral σ = desvio padrão populacional ∑(xi – μ) 2 N s = desvio padrão amostral ∑(xi – x–) 2 n – 1 onde: xi cada um dos n elementos da amostral; Xi cada um dos N elementos da populacional; n tamanho da amostra; N tamanho da população. Propriedades dos estimadores6 Estimadores eficientes e consistentes A definição de um estimador eficiente consiste em determinar qual dos esti- madores tem a menor variabilidade. Na comparação entre estimadores obtidos dentro de uma mesma população com médias iguais ou valores esperados para a média iguais, o mais eficiente será aquele que tiver a menor variância. VAR(θ1) < VAR(θ2) ^ ^ Quanto menor for a variância da distribuição amostral da estimativa, mais eficiente será o estimador. Diz-se, então, que θ1 ^ é um estimador mais eficiente do que θ2 ^ . Utilizamos o estimador não viciado de variância mínima. Segundo Doane (2014), embora um estimador não viciado de variância mínima nem sempre exista para todo o parâmetro de todo o tipo de distribuição, os estatísticos provaram que, para uma distribuição normal, x– e s2 são estimadores de vari- ância mínima de μ e 𝜎², respectivamente. O mesmo se aplica para a proporção. A Figura 3, a seguir, ilustra um estimador mais eficiente e um menos eficiente. Figura 3. Ilustração de eficiência, comparando um atirador com um alvo. Fonte: Doane e Seward (2014, p. 294). Estimador mais e�ciente Estimador menos e�ciente 7Propriedades dos estimadores Observe, na figura, que ambos estimadores são não enviesados, porém o da esquerda é mais eficiente, pois apresenta uma variabilidade menor do que o alvo da direita. Podemos, ainda, calcular o erro quadrático médio de um estimador, distin- guindo, assim, a qualidade dos diferentes estimadores que podem ser obtidos de uma mesma população. EQM(θ) = E(θ – θ)2^^ Sobre o conceito de consistência de um estimador, representado na Figura 4, dizemos que, quanto maior for o tamanho da amostra, mais consistente será o estimador. Ou seja, quando temos n → ∞, existe uma tendência de que o valor esperado do estimador seja igual ao do parâmetro populacional (E(θ ) = θ)^ . Assim sendo, conforme o tamanho da amostra aumenta, o estimador para a média amostral (x–) aproxima-se do parâmetro da média populacional (μ). E a estimativa para a proporção (p) aproxima-se do parâmetro populacional (π), conforme o tamanho da amostra aumenta. Figura 4. Ilustração de consistência. Fonte: Doane e Seward (2014, p. 295). n = 5 n = 20 n = 80 Propriedades dos estimadores8 Observe que, na representação das distribuições da Figura 4, quanto maior for o tamanho da amostra, mais consistente será o estimador. Os pressupostos de estimadores consistentes, eficientes e não viciados são muito importantes para estimativas intervalares, testes de hipóteses e estatística inferencial como um todo. Vimos, neste capítulo, a teoria para estimadores pontuais, da qual po- demos estimar intervalos de confiança que contenham o verdadeiro valor do parâmetro de acordo com a probabilidade da distribuição que os dados populacionais seguem. DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: AMGH; Bookman, 2014. 840 p. Leituras recomendadas BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. 504 p. (Métodos de Pesquisa). SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. 600 p. (Coleção Schaum). Referência 9Propriedades dos estimadores Conteúdo:
Compartilhar