Baixe o app para aproveitar ainda mais
Prévia do material em texto
3 AVALIAÇÃO PELO MÉTODO DE INFERÊNCIA ESTATÍSTICA 4 Sumário Unidade 1: Inferência Estatística - Conceitos Básicos .......................................... 6 Seção 1.1: Introdução ................................................................................. 6 Amostragem Aleatória ou Probabilística ..................................................................... 7 Análise Exploratória de Dados .................................................................................... 9 Distribuição Amostral .................................................................................................. 9 Estimação por Ponto de Parâmetros ......................................................................... 11 Estimação por Ponto dos principais parâmetros ................................................. 12 Estimação por Intervalo de Parâmetros ................................................................ 12 ESTUDO DE CASO .................................................................................................. 16 Seção 1.2: População ............................................................................... 17 Seção 1.3: Amostra aleatória simples ..................................................... 18 Seção 1.4: Estatísticas e parâmetros ...................................................... 19 Seção 1.5: Distribuições amostrais ......................................................... 20 Seção 1.6: Propriedades de estimadores ............................................... 26 Unidade 2: Inferência Estatística e Amostragem ................................................. 29 Seção 2.1: Definição de inferência estatística ........................................ 29 Seção 2.2: Definições básicas ................................................................. 29 Seção 2.3: Técnicas de amostragem ....................................................... 30 Unidade 3: Inferência Estatística ........................................................................... 37 Seção 3.1: Desenvolvimentos acerca da inferência estatística ............ 37 Seção 3.2: Distribuições amostrais ......................................................... 39 Seção 3.3: Amostragem ............................................................................ 43 Seção 3.4: Estimação ................................................................................ 47 Referências .............................................................................................................. 57 5 NOSSA HISTÓRIA A nossa história inicia com a realização do sonho de um grupo de empresários, em atender à crescente demanda de alunos para cursos de Graduação e Pós- Graduação. Com isso foi criado a nossa instituição, como entidade oferecendo serviços educacionais em nível superior. A instituição tem por objetivo formar diplomados nas diferentes áreas de conhecimento, aptos para a inserção em setores profissionais e para a participação no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que constituem patrimônio da humanidade e comunicar o saber através do ensino, de publicação ou outras normas de comunicação. A nossa missão é oferecer qualidade em conhecimento e cultura de forma confiável e eficiente para que o aluno tenha oportunidade de construir uma base profissional e ética. Dessa forma, conquistando o espaço de uma das instituições modelo no país na oferta de cursos, primando sempre pela inovação tecnológica, excelência no atendimento e valor do serviço oferecido. 6 Unidade 1: Inferência Estatística - Conceitos Básicos Seção 1.1: Introdução Estatística é a ciência que se ocupa de organizar, descrever, analisar e interpretar dados para que seja possível a tomada de decisões e/ou a validação científica de uma conclusão. Os dados são coletados para estudar uma ou mais características de uma POPULAÇÃO: conjunto de elementos que tem pelo menos uma característica em comum => conjunto das medidas da(s) característica(s) de interesse em todos os elementos que a(s) apresenta(m). Uma população pode ser representada através de um modelo probabilístico: este apresenta condições para uso, uma certa forma para a distribuição de probabilidades, e parâmetros. Os dados necessários para a obtenção do modelo podem ser obtidos através de um CENSO (pesquisa de toda a população), ou através de uma AMOSTRA (subconjunto finito) da população. Uma AMOSTRA traz economia; rapidez e evita a exaustão/extinção da população, por isso deve A AMOSTRA ser representativa da população, suficiente para que o resultado tenha confiabilidade, e aleatória, retirada por sorteio não viciado. A Inferência Estatística consiste em fazer afirmações probabilísticas sobre as características do modelo probabilístico, que se supõe representar uma população, a partir dos dados de uma amostra aleatória (probabilística) desta mesma população. Fazer uma afirmação probabilística sobre uma característica qualquer é associar à declaração feita uma probabilidade de que tal declaração esteja correta (e portanto a probabilidade complementar de que esteja errada). Quando se usa uma 7 amostra da população SEMPRE haverá uma probabilidade de estar cometendo um erro (justamente por ser usada uma amostra): a diferença entre os métodos estatísticos e os outros reside no fato de que os métodos estatísticos permitem calcular essa probabilidade de erro. E para que isso seja possível a amostra da população precisa ser aleatória. As afirmações probabilísticas sobre o modelo da população podem ser basicamente: => estimar quais são os possíveis valores dos parâmetros (Estimação de Parâmetros): qual é o valor da média de uma variável que segue uma distribuição normal? qual é o valor da proporção de um dos 2 resultados possíveis de uma variável que segue uma distribuição binomial. => testar hipóteses sobre as características do modelo: parâmetros, forma da distribuição de probabilidades, etc. (Testes de Hipóteses). o valor da média de uma variável que segue uma distribuição é maior do que um certo valor? o modelo probabilístico da população é uma distribuição normal? o valor da média de uma variável que segue uma distribuição normal em uma população é diferente da mesma média em outra população? Amostragem Aleatória ou Probabilística Na amostragem aleatória todos os elementos da população têm chance diferente de zero de pertencer à amostra, uma vez que a seleção dos elementos é feita por sorteio não viciado. Amostragem Aleatória Simples => todos os elementos da população têm a mesma chance de pertencer à amostra (escolha por sorteio não viciado); => cada elemento sorteado é reposto na população antes do próximo sorteio. Obviamente nem sempre é viável a amostragem com reposição, se a amostragem for feita SEM REPOSIÇÃO os resultados serão praticamente iguais se o tamanho da amostra não exceder a 5% do tamanho da população (a reposição garante que as probabilidades de selecionar um determinado elemento permanecem constantes, uma vez que o “espaço amostral” permanece o mesmo. Quando o 8 tamanho da amostra é menor ou igual a 5% do tamanho da população, mesmo que não haja reposição supõe-se que as probabilidades não se modificam substancialmente) . Se a população não for homogênea em relação à variável sob estudo, para garantir a representatividade da amostra somos obrigados a selecionar elementos de cada uma de suas subdivisões. Análise Exploratória de Dados Uma vez tendo coletado os dados, seja através de censo ou por amostragem, é preciso resumi-los e organizá-los de maneira a permitir umaprimeira análise, e posterior uso das informações. As técnicas estatísticas que se ocupam desses aspectos constituem a Análise Exploratória de Dados. O conjunto de dados pode ser resumido (e apresentado) através das distribuições de freqüências, que relacionam os valores que a variável pode assumir com a freqüência (contagem) com que foram encontrados naquele conjunto. Esta distribuição pode ser apresentada na forma de uma tabela, ou através de um gráfico (estes dois métodos podem ser usados tanto para variáveis qualitativas quanto para variáveis qualitativas). Há uma terceira forma de resumir o conjunto de dados: as medidas de síntese ou estatísticas. As principais estatísticas são a média, o desvio padrão, a variância e a proporção. Serão apresentadas suas fórmulas básicas, e o que cada uma significa. 9 Os valores das medidas de síntese, além de resumirem o conjunto de dados, constituem uma indicação dos prováveis valores dos parâmetros. Assim, em estudos baseados em amostras, é comum utilizar tais medidas de síntese como estatísticas que serão utilizadas para estimar os parâmetros do modelo probabilístico que descreve a população. Distribuição Amostral Os valores dos parâmetros do modelo populacional calculados em uma amostra são chamados de estatísticas: Figura 1: Parâmetros x Estatística Parâmetros (População) Esatatística (Amostra) Média () Variância ( 2 ) s 2 Desvio Padrão () s Proporção () p Número de elementos (N) n Seja uma população qualquer com um parâmetro de interesse, correspondendo a uma estatística T em uma amostra. Amostras aleatórias são retiradas da população e para cada amostra calcula-se o valor t da estatística T. Os valores de t formam uma nova “população” que segue uma distribuição de probabilidades que é chamada de distribuição amostral de T. Figura 2: Distribuição Amostral 10 . Assim sendo, o conhecimento das distribuições amostrais das principais estatísticas é necessário para fazer inferências sobre os parâmetros do modelo probabilístico da população. Por hora, basta conhecer as distribuições amostrais das estatísticas média de uma variável quantitativa qualquer, e proporção de um dos dois únicos resultados de uma variável qualitativa. Exemplo elaborado pela professora Carmen Dolores de Freitas de Lacerda: Suponha uma variável quantitativa cujos valores constituem uma população com os seguintes valores: (2, 3, 4, 5) Para esta população, que tem uma distribuição uniforme, podemos observar que os parâmetros são: = 3,5 2 = 1,25 (usou-se n no denominador por ser uma população). Se retirarmos todas as amostras aleatórias de 2 elementos (com reposição) possíveis desta população (n = 2), teremos os seguintes resultados: (2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (3, 3) (3, 4) (3, 5) (4,2) (4, 3) (4, 4) (4, 5) (5, 2) (5, 3) (5, 4) (5, 5) O cálculo das médias de todas as amostras acima resultará na matriz abaixo: Se estas médias forem plotadas em um gráfico de freqüências (um histograma): 11 Figura 3: Histogramas de Médias Amostrais Se forem calculados a média e a variância das médias de todas as amostras o resultado será: Estimação por Ponto de Parâmetros Uma vez tendo decidido que modelo probabilístico é mais adequado para representar a variável de interesse na População resta obter os seus parâmetros. Nos estudos feitos com base em amostras é preciso escolher qual das estatísticas da amostra será o melhor estimador para cada parâmetro do modelo. A Estimação por Ponto consiste em determinar qual será o melhor estimador para o parâmetro de interesse. Como os parâmetros serão estimados através das estatísticas (estimadores) de uma amostra aleatória, e como para cada amostra aleatória as estatísticas 12 apresentarão diferentes valores, os estimadores também terão valores aleatórios. Em outras palavras um Estimador é uma variável aleatória que segue uma distribuição de probabilidades. Naturalmente haverá várias estatísticas T que poderão ser usadas como estimadores de um parâmetro . Como escolher qual das estatísticas será o melhor estimador para o parâmetro? Há basicamente três critérios para a escolha de um estimador: o estimador precisa ser justo, consistente e eficiente (na realidade há mais critérios, mas estes são os mais importantes) Um Estimador T é um estimador justo (não tendencioso) de um parâmetro quando o valor esperado de T é igual ao valor do parâmetro a ser estimado: E(T) = Um Estimador T é um estimador consistente de um parâmetro quando além ser um estimador justo a sua variância tende a zero à medida que o tamanho da amostra aleatória aumenta: lim n V(T) 0 . Se há dois Estimadores justos de um parâmetro o mais eficiente é aquele que apresentar a menor variância. Estimação por Ponto dos principais parâmetros Os principais parâmetros que vamos avaliar aqui são: média de uma variável que segue uma distribuição normal (ou qualquer distribuição se a amostra for suficientemente grande) em uma população (média populacional - ) e proporção de ocorrência de um dos valores de uma variável que segue uma distribuição de Bernoulli/Binomial (Ambas exigem que experimento seja um experimento de Bernoulli: que tenha (ou possa ser reduzido) a apenas 2 resultados possíveis complementares.) em uma população (proporção populacional - ). Em suma escolher quais estatísticas amostrais são mais adequadas para estimar estes parâmetros, usando os critérios definidos acima. Estimação por Intervalo de Parâmetros Geralmente uma inferência estatística é feita com base em uma única amostra: na maior parte dos casos é totalmente inviável retirar todas as amostras possíveis de uma determinada população. Intuitivamente percebemos que as estatísticas calculadas nessa única amostra, mesmo sendo os melhores estimadores para os parâmetros de interesse, terão uma 13 probabilidade infinitesimal de coincidir exatamente com os valores reais dos parâmetros. Então a Estimação por Ponto dos parâmetros é insuficiente, e as estimativas assim obtidas servirão apenas como referência para a Estimação por Intervalo. A Estimação por Intervalo consiste em colocar um Intervalo de Confiança (I.C.) em torno da estimativa obtida através da Estimação por Ponto. O Intervalo de Confiança terá uma certa probabilidade chamada de Nível de confiança (que costuma ser simbolizado como 1 - ) de conter o valor real do parâmetro: fazer uma Estimação por Intervalo de um parâmetro é efetuar uma afirmação probabilística sobre este parâmetro, indicando uma faixa de possíveis valores, e a probabilidade de que esta faixa realmente contenha o valor real do parâmetro. A probabilidade de que o Intervalo de Confiança não contenha o valor real do parâmetro é chamada de Nível de Significância (), e o valor desta probabilidade será o complementar do Nível de Confiança. É comum definir o Nível de Significância como uma probabilidade máxima de erro, um risco máximo admissível. A determinação do Intervalo de Confiança para um determinado parâmetro resume-se basicamente a definir o Limite Inferior e o Limite Superior do intervalo, supondo um determinado Nível de Confiança (ou Significância). A definição dos limites dependerá também da distribuição amostral da estatística usada como referência para o intervalo e do tamanho da amostra utilizada. Para os dois parâmetros em que temos maior interesse (média populacional e proporção populacional ) a distribuição amostral dos estimadores (média amostral x e proporção amostral p, respectivamente) pode ser aproximada por uma distribuição normal:15 o Intervalo de Confiança será então simétrico em relação ao valor calculado da estimativa (média ou proporção amostral), com base naamostra aleatória coletada. Figura 4: Intervalo de Confiança para uma distribuição normal 14 Onde: Li é o limite inferior e Ls é o limite superior do Intervalo de Confiança; 1 - é o Nível de Confiança estabelecido, observando que o valor do Nível de Significância é dividido igualmente entre os valores abaixo de Li e acima de Ls. Para obter os limites em função do Nível de Confiança devemos utilizar a distribuição normal padrão (variável Z com média zero e variância um): fixar um certo valor de probabilidade, obter o valor de Z correspondente, e substituir o valor em Z = (x - “média”)/ “desvio padrão”16 , para obter o valor x (valor correspondente ao valor de Z para a probabilidade fixada). Observe a figura 5 abaixo: Figura 5: Intervalo de Confiança para a distribuição normal padrão O limite Li (inferior) corresponde a Z1 e o limite Ls (superior) corresponde a Z2. O ponto central 0 (zero) corresponde ao valor calculado da Estimativa. Como a variável Z tem distribuição normal com média igual a zero (lembrando que a distribuição normal é simétrica em relação à média) os valores de Z1 e Z2 serão iguais em módulo (Z1 será negativo e Z2 positivo): Então obteremos os valores dos limites através das expressões: Z1 = (Li - “média”)/ “desvio padrão” => Li = “média” + Z1 “desvio padrão” Z2 = (Ls - “média”)/ “desvio padrão” => Ls = “média” + Z2 “desvio padrão” 15 Como Z1 = - Z2, podemos substituir: Li = “média” - Z2 “desvio padrão” Ls = “média” + Z2 “desvio padrão” E este valor Z2 é chamado de Zcrítico, porque corresponde aos limites do intervalo (esta notação é a utilizada na apostila de Roteiros e Tabelas): Li = “média” - Zcrítico “desvio padrão” Ls = “média” + Zcrítico “desvio padrão” Reparem que o mesmo valor é somado e subtraído da “média”. Este valor é chamado de semi-intervalo ou precisão do intervalo, e recebe símbolo e0: e0 = Zcrítico “desvio padrão” Resta agora definir corretamente o valor da “média” e do “desvio padrão” para cada um dos parâmetros em que estamos interessados (média e proporção populacional). Com base nas conclusões obtidas na Estimação por Ponto isso será simples. Contudo, há alguns outros aspectos que precisarão ser esmiuçados. 16 ESTUDO DE CASO No estudo da estatística descritiva, vimos que população é o conjunto de elementos para os quais se deseja estudar determinada(s) característica(s). Vimos também que uma amostra é um subconjunto da população. No estudo da inferência estatística, o objetivo principal é obter informações sobre uma população a partir das informações de uma amostra e aqui vamos precisar de definições mais formais de população e amostra. Para facilitar a compreensão destes conceitos, iremos apresentar alguns exemplos a título de ilustração Exemplo 1 Em um estudo antropométrico em nível nacional, uma amostra de 5000 adultos é selecionada dentre os adultos brasileiros e uma das variáveis de estudo é a altura. Neste exemplo, a população é o conjunto de todos os brasileiros adultos. No entanto, o interesse (um deles, pelo menos) está na altura dos brasileiros. Assim, nesse estudo, a cada sujeito da população associamos um número correspondente à sua altura. Se determinado sujeito é sorteado para entrar na amostra, o que nos interessa é esse número, ou seja, sua altura. Como vimos, essa é a definição de variável aleatória: uma função que associa a cada ponto do espaço amostral um número real. Dessa forma, a nossa população pode ser representada pela variável aleatória X = “altura do adulto brasileiro”. Como essa é uma v.a. contínua, a ela está associada uma função de densidade de probabilidade f e da literatura, sabemos que é razoável supor que essa densidade seja a densidade normal. Assim, nossa população, nesse caso, é representada por uma v.a. X ∼ N (μ; σ2). Conhecendo os valores de μ e σ teremos informações completas sobre a nossa população. Uma forma de obtermos os valores de μ e σ é medindo as alturas de todos os brasileiros adultos. Mas esse seria um procedimento caro e demorado. Uma solução, então, é retirar uma amostra (subonjunto) da população e estudar essa amostra. Suponhamos que essa amostra seja retirada com reposição e que os sorteios sejam feitos de forma independente, isto é, o resultado de cada extração não altera o resultado das demais extrações. Ao sortearmos o primeiro elemento, estamos realizando um experimento que dá origem à v.a. X1 =“altura do primeiro elemento”; o segundo elemento dá origem à v.a. X2 =“altura do segundo elemento” e assim por 17 diante. Como as extrações são feitas com reposição, todas as v.a. X1, X2,... têm a mesma distribuição, que reflete a distribuição da altura de todos os brasileiros adultos. Para uma amostra específica, temos os valores observados x1, x2,... dessas variáveis aleatórias. Exemplo 2 Consideremos, agora, um exemplo baseado em pesquisas eleitorais, em que estamos interessados no resultado do segundo turno de uma eleição presidencial brasileira. Mais uma vez, nossos sujeitos de pesquisa são pessoas com 16 anos ou mais, aptas a votar. O interesse final é saber a proporção de votos de um e outro candidato. Vamos considerar uma situação simplificada em que não estamos considerando votos nulos, indecisos, etc. Então, cada sujeito de pesquisa dá origem a uma variável aleatória binária, isto é, uma v.a. que assume apenas dois valores. Como visto, podemos representar esses valores por 1 (candidato A) e 0 (candidato B), o que define uma variável aleatória de Bernoulli, ou seja, essa população pode ser representada pela v.a. X ∼ Bern(p). O parâmetro p representa a probabilidade de um sujeito dessa população votar no candidato A. Uma outra interpretação é que p representa a proporção populacional de votantes no candidato A. Para obtermos informação sobre p, retira-se uma amostra da população e, como antes, vamos supor que essa amostra seja retirada com reposição. Ao sortearmos o primeiro elemento, estamos realizando um experimento que dá origem à v.a. X1 =“voto do primeiro elemento”; o segundo elemento dá origem à v.a. X2 =“voto do segundo elemento” e assim por diante. Como as extrações são feitas com reposição, todas as v.a. X1, X2,... têm a mesma distribuição de Bernoulli populacional, isto é, Xi ∼ Bern(p), i = 1, 2,... . Seção 1.2: População A inferência estatística trata do problema de se obter informação sobre uma população a partir de uma amostra. Embora a população real possa ser constituída de pessoas, empresas, animais, etc., as pesquisas estatísticas buscam informações sobre determinadas características dos sujeitos, características essas que podem ser representadas por números. Sendo assim, a cada sujeito da população está associado um número, o que nos permite apresentar a seguinte definição. Definição 1.1 A população de uma pesquisa estatística pode ser representada por uma variável aleatória X que descreve a característica de interesse. 18 Os métodos de inferência nos permitirão obter estimativas dos parâmetros de tal variável aleatória, que pode ser contínua ou discreta. Seção 1.3: Amostra aleatória simples Como já dito, é bastante comum o emprego da amostragem em pesquisas estatísticas. Nas pesquisas por amostragem, uma amostra é selecionada da população de interesse e todas as conclusões serão baseadas apenas nessa amostra. Para que seja possível inferir resultados para a população a partir da amostra, é necessário que esta seja “representativa” da população. Embora existam vários métodos de seleção de amostras, vamos nos concentrar aqui no caso mais simples, que é a amostragem aleatória simples. Segundo tal método, toda amostra de mesmo tamanho n tem igual chance (probabilidade) de ser sorteada. É possível extrair amostras aleatórias simples come sem reposição. Quando estudamos as distribuições binomial e hipergeométrica, vimos que a distribuição binomial correspondia a extrações com reposição e a distribuição hipergeométrica correspondia a extrações sem reposição. No entanto, para populações grandes - ou infinitas - extrações com e sem reposição não levam a resultados muito diferentes. Assim, no estudo da Inferência Estatística, estaremos lidando sempre com amostragem aleatória simples com reposição. Este método de seleção atribui a cada elemento da população a mesma probabilidade de ser selecionado e esta probabilidade se mantém constante ao longo do processo de seleção da amostra (se as extrações fossem sem reposição isso não aconteceria). No restante desse curso omitiremos a expressão “com reposição”, ou seja, o termo amostragem (ou amostra) aleatória simples sempre se referirá à amostragem com reposição. Por simplicidade, muitas vezes abreviaremos o termo amostra aleatória simples por aas. Uma forma de se obter uma amostra aleatória simples é escrever os números ou nomes dos elementos da população em cartões iguais, colocar estes cartões em uma urna misturando-os bem e fazer os sorteios necessários, tendo o cuidado de colocar cada cartão sorteado na urna antes do próximo sorteio. Na prática, em geral são usados programas de computador, uma vez que as populações tendem a ser muito grandes. 19 Agora vamos formalizar o processo de seleção de uma amostra aleatória simples, de forma a relacioná-lo com os problemas de inferência estatística que iremos estudar. Seja uma população representada por uma variável aleatória X. De tal população será sorteada uma amostra aleatória simples com reposição de tamanho n. Como visto nos exemplos anteriores, cada sorteio dá origem a uma variável aleatória Xi e, como os sorteios são com reposição, todas essas variáveis têm a mesma distribuição de X. Isso nos leva à seguinte definição. Definição 1.2 Uma amostra aleatória simples (aas) de tamanho n de uma v.a. X (população) é um conjunto de n v.a. X1, X2, ..., Xn independentes e identicamente distribuídas (i.i.d.). É interessante notar a convenção usual: o valor observado de uma v.a. X é representado pela letra minúscula correspondente. Assim, depois do sorteio de uma aas de tamanho n, temos valores observados x1, x2,...,xn das respectivas variáveis aleatórias. Seção 1.4: Estatísticas e parâmetros Obtida uma aas, é possível calcular diversas características desta amostra, como, por exemplo, a média, a mediana, a variância, etc. Qualquer uma destas características é uma função de X1, X2, ..., Xn e, portanto, o seu valor depende da amostra sorteada. Sendo assim, cada uma dessas características ou funções é também uma v.a. . Por exemplo, a média amostral é a v.a. definida por Temos, então, a seguinte definição: Definição 1.3 Uma estatística amostral ou estimador T é qualquer função da amostra X1, X2, ..., Xn, isto é, onde g é uma função qualquer. As estatísticas amostrais que estaremos considerando neste curso são 20 • média amostral • variância amostral Para uma amostra específica, o valor obido para o estimador será denominado estimativa e, em geral, serão representadas por letras minúsculas. Por exemplo, temos as seguintes notações correspondentes à média amostral e à variância: x e s2. Outras estatísticas possíveis são o mínimo amostral, o máximo amostral, a amplitude amostral, etc. De forma análoga, temos as características de interesse da população. No entanto, para diferenciar entre as duas situações (população e amostra), atribuimos nomes diferentes. Definição 1.4 Um parâmetro é uma característica da população. Assim, se a população é representada pela v.a. X, alguns parâmetros são a esperança E(X) e a variância V ar(X) de X. Com relação às características mais usuais, vamos usar a seguinte notação: Lembre-se que, para uma v.a. discreta (finita) uniforme, Seção 1.5: Distribuições amostrais Nos problemas de inferência, estamos interessados em estimar um parâmetro θ da população (por exemplo, a média populacional) através de uma aas X1, X2, ..., Xn. Para isso, usamos uma estatística T (por exemplo, a média amostral) e, com base no valor obtido para T a partir de uma particular amostra, iremos tomar as decisões 21 que o problema exige. Já foi dito que T é uma v.a., uma vez que depende da amostra sorteada; amostras diferentes fornecerão diferentes valores para T. Consideremos o seguinte exemplo, onde nossa população é o conjunto {1, 3, 6, 8}, isto é, este é o conjunto dos valores da característica de interesse da população em estudo. Assim, para esta população, ou seja, para essa v.a. X temos Suponha que dessa população iremos extrair uma aas de tamanho 2 e a estatística que iremos calcular é a média amostral. Algumas possibilidades de amostra são {1,1}, {1,3}, {6,8}, para as quais os valores da média amostral são 1, 2 e 7, respectivamente. Podemos ver, então, que há uma variabilidade nos valores da estatística e, assim, seria interessante que conhecêssemos tal variabilidade. Conhecendo tal variabilidade, temos condições de saber “quão infelizes” podemos ser no sorteio da amostra. No exemplo acima, as amostras {1,1} e {8,8} são as que têm média amostral mais afastada da verdadeira média populacional. Se esses valores tiverem chance muito mais alta do que os valores mais próximos de E(X), podemos ter sérios problemas. Para conhecer o comportamento da média amostral, teríamos que conhecer todos os possíveis valores de X, o que equivaleria a conhecer todas as possíveis amostras de tamanho 2 de tal população. Nesse exemplo, como só temos 4 elementos na população, a obtenção de todas as aas de tamanho 2 não é difícil. Lembre-se do nosso estudo de análise combinatória: como o sorteio é feito com reposição, em cada um dos sorteios temos 4 possibilidades. Logo, o número total de amostras aleatórias simples é 4 × 4 = 16. Por outro lado, em cada sorteio, cada elemento da população tem a mesma chance de ser sorteado; como são 4 elementos, cada elemento tem probabilidade 1/4 de ser sorteado. Finalmente, como os sorteios são independentes, para obter a probabilidade de um par de elementos pertencer à amostra basta multiplicar as probabilidades (lembre-se que Pr(A ∩ B) = Pr(A) Pr(B) quando A e B são independentes). A independência dos sorteios é garantida pela reposição de cada elemento sorteado. Na Tabela 1.1 a seguir listamos todas as 22 possíveis amostras, com suas respectivas probabilidades e para cada uma delas, apresentamos o valor da média amostral. Analisando esta tabela, podemos ver que os possíveis valores X são 1; 2; 3; 3,5; 4,5; 5,5; 6; 7; 8 e podemos construir a sua função de distribuição de probabilidade, notando, por exemplo, que o valor 2 pode ser obtido através de duas amostras: (1,3) ou (3,1). Como essas amostras correspondem a eventos mutuamente exclusivos, a probabilidade de se obter uma média amostral igual a 2 é Tabela 1.1: Distribuição amostral da média amostral Com o mesmo raciocínio, obtemos a seguinte função de distribuição de probabilidade para X : Note que a v.a. de interesse aqui é X! Daí segue que 23 Neste exemplo podemos ver que E(X) = μ e V ar(X) = σ2/2, onde 2 é o tamanho da amostra. Esses resultados estão nos dizendo que, em média (esperança), a estatística X é igual à média da população e que sua variância é igual à variância da população dividida pelo tamanho da amostra. Na Figura 1.1 temos os gráficos da função de distribuição de probabilidade de X (população) na parte (a) e de X (amostra) na parte (b). Podemos ver que a média de ambas é 4,5 (ambas são simétricas em torno de 4,5) e que a distribuição de X tem menor dispersão em torno dessa média.Note que essa média e essa variância são calculadas ao longo de todas as possíveis aas de tamanho 2. 24 Figura 1.1: Função de distribuição de probabilidade de X e de X para aas de tamanho 2 tirada da população {1, 3, 6, 8} Consideremos, agora, a mesma situação, só que, em vez de estudarmos a média amostral, uma medida de posição, vamos estudar a dispersão. Como visto, a variância populacional é V ar(X)=7, 25. Para a amostra, vamos trabalhar com dois estimadores. Um deles vai ser S2, definido na Equação (1.2) e o outro vai ser Da mesma forma que fizemos para a média amostral, vamos calcular o valor dessas estatísticas para cada uma das amostras. Na Tabela 1.2 temos os resultados parciais e globais de interesse. 25 Tabela 1.2: Distribuição amostral de 2 estimadores da variância Podemos ver que a função de distribuição de probabilidade de S2 é e a função de distribuição de probabilidade de σb2 é Para essas distribuições temos: 26 Vemos que, em média, S2 é igual à variância populacional, o que não ocorre com σb2 . Estes dois exemplos ilustram o fato de que qualquer estatística amostral T é uma variável aleatória, que assume diferentes valores para cada uma das diferentes amostras e tais valores, juntamente com a probabilidade de cada amostra, nos forneceriam a função de distribuição de probabilidades de T , caso fosse possível obter todas as aas de tamanho n da população. Isso nos leva à seguinte definição, que é um conceito central na Inferência Estatística. Definição 1.5 A função de distribuição amostral de uma estatística T é a função de distribuição de probabilidades de T ao longo de todas as possíveis amostras de tamanho n. Podemos ver que a obtenção da distribuição amostral de qualquer estatística T é um processo tão ou mais complicado do que trabalhar com a população inteira. Na prática, o que temos é uma única amostra e com esse resultado é que temos que tomar as decisões pertinentes ao problema em estudo. Esta tomada de decisão, no entanto, será facilitada se conhecermos resultados teóricos sobre o comportamento da distribuição amostral. Seção 1.6: Propriedades de estimadores No exemplo anterior, relativo à variância amostral, vimos que E(S2) = σ2 e E(σb2) 6= σ2. Analogamente, vimos também que E(X) = μ. Vamos entender direito o que esses resultados significam, antes de passar a uma definição formal da propriedade envolvida. Dada uma população, existem muitas e muitas aas de tamanho n que podem ser sorteadas. Cada uma dessas amostras resulta em um valor diferente da estatística de interesse (X e S2, por exemplo). O que esses resultados estão mostrando é como esses diferentes valores se comportam em relação ao verdadeiro (mas desconhecido) valor do parâmetro. Considere a Figura 1.2, onde o alvo representa o valor do parâmetro e os “tiros”, indicados pelos símbolo x, representam os diferentes valores amostrais da estatística de interesse. 27 Nas partes (a) e (b) da figura, os tiros estão em torno do alvo, enquanto nas partes (c) e (d) isso não acontece. Comparando as partes (a) e (b), podemos ver que na parte (a) os tiros estão mais concentrados em torno do alvo, isto é, têm menor dispersão. Isso reflete uma pontaria mais certeira do atirador em (a). Analogamente, nas partes (c) e (d), embora ambos os atiradores estejam com a mira deslocada, os tiros do atirador (c) estão mais concentrados em torno de um alvo; o deslocamento poderia até ser resultado de um desalinhamento da arma. Já o atirador (d), além de estar com o alvo deslocado, ele tem os tiros mais espalhados, o que reflete menor precisão. Traduzindo esta situação para o contexto de estimadores e suas propriedades, temos o seguinte: nas partes (a) e (b), temos dois estimadores que fornecem estimativas centradas em torno do verdadeiro valor do parâmetro, ou seja, as diferentes amostras fornecem valores distribuídos em torno do verdadeiro valor do parâmetro. A diferença é que em (b) esses valores estão mais dispersos e, assim, temos mais chance de obter uma amostra “infeliz”, ou seja, uma amostra que forneça um resultado muito afastado do valor do parâmetro. Essas duas propriedades estão associadas à esperança e à variância do estimador, que são medidas de centro e dispersão, respectivamente. Nas partes (c) e (d), as estimativas estão centradas em torno de um valor diferente do parâmetro de interesse e na parte (d), a dispersão é maior. Figura 1.2: Propriedades de estimadores 28 Temos, assim, ilustrados os seguintes conceitos. Definição 1.6 Um estimador T é dito um estimador não-viesado do parâmetro θ se E(T) = θ. Como nos exemplos vistos, essa esperança é calculada ao longo de todas as possíveis amostras, ou seja, é a esperança da distribuição amostral de T. Nas partes (a) e (b) da Figura 1.2 os estimadores são não-viesados e nas partes (c) e (d), os estimadores são viesados. Com relação aos estimadores X, S2 e σb2 , veremos formalmente que os dois primeiros são não-viesados para estimar a média e a variância populacionais, respectivamente, enquanto σb2 é viesado para estimar a variância populacional. Essa é a razão para se usar S2, e não σb2 . Definição 1.7 Se T1 e T2 são dois estimadores não-viesados do parâmetro θ, diz-se que T1 é mais eficiente que T2 se V ar(T1) < V ar(T2). Na Figura 1.2, o estimador da parte (a) é mais eficiente que o estimador da parte (b). Uma outra propriedade dos estimadores está relacionada à idéia bastante intuitiva de que à medida que se aumenta o tamanho da amostra, mais perto devemos ficar do verdadeiro valor do parâmetro. Definição 1.8 Uma seqüência {Tn} de estimadores de um prâmetro θ é consistente se, para todo ε > 0 Uma maneira alternativa de verificar se uma seqüência de estimadores é consistente é dada a seguir. Teorema 1.1 Uma seqüência {Tn} de estimadores de um prâmetro θ é consistente se 29 Unidade 2: Inferência Estatística e Amostragem Seção 2.1: Definição de inferência estatística Inferência estatística é uma área da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de valores representativos (amostra) sobre um universo e se assume que a amostra é muito maior do que o conjunto de dados observados. Esta afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua veracidade. Para realizar este trabalho, o estatístico coleta informações de dois tipos: experimentais (as amostras) e aquelas que obtém na literatura. As duas principais escolas de inferência são a inferência frequentista (ou clássica) e a inferência bayesiana. Seção 2.2: Definições básicas Abaixo, algumas definições utilizadas em Inferência Estatística são apresentadas: Variável Aleatória: • Característico numérico do resultado de um experimento. • É a Função que associa a cada elemento do espaço amostral um número real. População e Amostra: • População é o conjunto de todos os elementos ou resultados de um problema que está sendo estudado. • Amostra é qualquer subconjunto da população que contém os elementos que podem ser observados e é onde as quantidades de interesse podem ser medidas. Parâmetros: • Característica numérica (desconhecida) da distribuição dos elementos da população. Estimador: • É a Função da amostra, construída com a finalidade de representar, ou estimar um parâmetro de interesse na população. Estimativa: • Valor numérico que um estimador assume Exemplo: A distribuição da altura da população brasileira adulta pode ser representada por um modelo normal (embora as alturas não possam assumir valores negativos). 30 Neste caso, temos como interesse estimar os parâmetrosmédia e variância dessa distribuição. • Solução 1: Medir a altura de todos os brasileiros adultos. • Solução 2: Selecionar de forma aleatória algumas pessoas (amostra), analisá-las e inferir propriedades para toda a população. Seção 2.3: Técnicas de amostragem As Técnicas de Amostragem atuam no estudo de um pequeno grupo de elementos retirado de uma população que se pretende conhecer. Esses pequenos grupos retirados da população são chamados de Amostras. Veremos a seguir as principais técnicas de amostragem, divididas em probabilísticas e nãoprobabilísticas: Técnicas Probabilísticas (Aleatórias) As técnicas probabilísticas garantem a possibilidade de realizar afirmações sobre a população com base nas amostras. Normalmente, todos os elementos da população possuem a mesma probabilidade de serem selecionados. Assim, considerando N como o tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. Estas técnicas garantem o acaso na escolha. São técnicas probabilísticas: • Amostragem Aleatória Simples Amostragem Aleatória Simples é o processo mais elementar e freqüentemente utilizado. Ela pode ser realizada a partir da numeração dos elementos da população de 1 a n e sorteando, por meio de um dispositivo aleatório qualquer, X números dessa seqüência, que corresponderão aos elementos pertencente à amostra. Exemplo Obter uma amostra representativa de 10% de uma população de 200 alunos de uma escola. 1) Numerar os alunos de 1 a 200; 2) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna; 3) Retirar da urna 20 pedaços de papel, um a um, formando a amostra da população. 31 Nesta técnica de amostragem, todos os elementos da população têm a mesma probabilidade de serem selecionados: 1/N, onde N é o número de elementos da população. • Amostragem Estratificada Quando a população possui características que permitem a criação de subconjuntos, as amostras extraídas por amostragem simples são menos representativas. Nesse caso, a amostragem estratificada é utilizada. Como a população se divide em subconjuntos, convém que o sorteio dos elementos leve em consideração tais divisões para que os elementos da amostra sejam proporcionais ao número de elementos desses subconjuntos. Observe a figura abaixo: Figura 2: Relação entre população e amostra Exemplo Em uma população de 400 alunos, há 240 meninos e 160 meninas. Extraia uma amostra representativa de 10% dessa população. Nesse exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo. Considerando essa divisão, vamos extrair a amostra da população. 32 Figira 3: Tabela 1. Relação entre População e Amostra Portanto, a amostra deve conter 24 alunos do sexo masculino e 16 do sexo feminino, totalizando 40 alunos, que correspondem a 10% da população. Para selecionar os elementos da população com o objetivo de formar a amostra, podemos executar os seguintes passos: 1) Numerar os alunos de 1 a 400, sendo os meninos numerados de 1 a 240 e as meninas, de 241 a 400; 2) Escrever os números de 1 a 240 em pedaços de papel e colocá-los em uma urna A; 4) Escrever os números de 241 a 400 em pedaços de papel e colocá-los em uma urna B; 5) Retirar da urna A 24 pedaços de papel, um a um, e 16 da urna B, formando a amostra da população. São exemplos desta técnica de amostragem as pesquisas eleitorais por região, cidades pequenas e grandes, área urbana e área rural, sexo, faixa etária, faixa de renda, etc. • Amostragem Sistemática Esta técnica de amostragem é aplicada em populações que possuem os elementos ordenados em que não há a necessidade de construir um sistema de referência. Nesta técnica, a seleção dos elementos que comporão a amostra pode ser feita por um sistema criado pelo pesquisador. Exemplo Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica de amostragem, podemos realizar o seguinte procedimento: 1) Como 2000 dividido por 80 é igual a 25, escolhemos por um método aleatório qualquer um número entre 1 e 25, o que indica o primeiro elemento selecionado para a amostra. 2) Consideramos os demais elementos, periodicamente, de 25 em 25. 33 Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas casas: 8ª, 33ª, 58ª, 83ª, 108ª, etc. Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de variação, o que tornariam a amostra não-representativa da população. • Amostragem por Conglomerados Esta técnica é usada quando a identificação dos elementos da população é extremamente difícil. Todavia, pode ser relativamente fácil dividir a população em conglomerados (subgrupos) heterogêneos representativos da população global. A seguir, é descrito o procedimento de execução desta técnica: 1) Seleciona uma amostra aleatória simples dos conglomerados existentes; 2) Realizar o estudo sobre todos os elementos do conglomerado selecionado. São exemplos de conglomerados: quarteirões, famílias, organizações, agências, edifícios, etc. Exemplo Estudar a população de uma cidade, dispondo apenas do mapa dos quarteirões da cidade. Neste caso, não temos a relação dos moradores da cidade, restando o uso dos subgrupos heterogêneos (conglomerados). Para realizar o estudo estatístico sobre a cidade, realizaremos os seguintes procedimentos: 1) Numerar os quarteirões de 1 a 𝑛; 2) Escrever os números de 1 a 𝑛 em pedaços de papel e colocá-los em uma urna; 3) Retirar um pedaço de papel da urna e realizar o estudo sobre os elementos do conglomerado selecionado. Técnicas Não-Probabilísticas (Não-Aleatórias) São técnicas em que há uma escolha deliberada dos elementos da população onde não permite generalizar os resultados das pesquisas para a população, pois amostras não garantem a representatividade desta. São técnicas não-probabilísticas: • Amostragem Acidenta Trata-se da formação de amostras por aqueles elementos que vão aparecendo. Este método é utilizado, geralmente, em pesquisas de opinião em que os entrevistados são acidentalmente escolhidos. Exemplo 34 Pesquisas de opinião em shoppings, praças e locais públicos de grandes cidades, etc. • Amostragem Intencional De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que comporão a amostra. O pesquisador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião. Exemplo Em uma pesquisa sobre preferência por determinada cerveja, o pesquisador entrevista os frequentadores dos bares de uma cidade. Agora que já conhecemos as principais técnicas de amostragem, vamos aprender a calcular o tamanho das amostras dos estudos estatísticos. Antes de prosseguir, vamos definir alguns termos: Parâmetro: Característica da população. Estatística: Característica descritiva de elementos de uma amostra. Estimativa: valor acusado por uma estatística que estima o valor de um parâmetro. O cálculo do tamanho da amostra está diretamente ligado ao erro amostral tolerável. Mas o que é erro amostral? É a diferença entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro que se deseja estimar. O erro amostral tolerável é a margem de erro aceitável em um estudo estatístico. Para esclarecer melhor, é quando o apresentador do telejornal, em ano de eleições, anuncia: “O candidato A tem 42% das intenções de voto, 2 para mais, 2 para menos.” Quando o apresentador cita “2 para mais, 2 para menos”, ele se refere ao erro amostral tolerável para aquela pesquisa de intenções de voto. Tamanho da Amostra Obs.: um passo importante antes de iniciar o cálculo do tamanho da amostra é definir qual o erro amostral tolerável para o estudo que será realizado. Observe a seguinte fórmula: Onde: • 𝑛0 éa primeira aproximação do tamanho da amostra • 𝐸0 é o erro amostral tolerável (Ex.: 2% = 0,02) 35 , onde: • N é o número de elementos da população • n é o tamanho da amostra Observe o seguinte exemplo para compreender melhor: Exemplo Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma pesquisa de satisfação. Quantos colaboradores devem ser entrevistados para tal estudo? Resolução N = 2000 Definindo o erro amostral tolerável em 2% 𝐸0 = 0,02 Com o erro amostral tolerável em 2%, 1111 colaboradores devem ser entrevistados para a pesquisa. Vamos repetir os cálculos, definindo o erro amostral tolerável em 4%. N = 2000 36 𝐸0 = 0,04 Através deste segundo cálculo, é possível observar que, quando aumentamos a margem de erro, o tamanho da amostra reduz. E se houvesse 300.000 colaboradores na empresa? N = 300000 𝐸0 = 0,04 Observe que a diferença entre n e no, neste último cálculo, é muito pequena. Portanto: se o número de elementos da população (N) é muito grande, a primeira aproximação do tamanho da amostra já é suficiente. Observe ainda: N = 2000 𝐸0 = 0,04 𝑛 = 476 colaboradores = 23,8% da população. N = 300.000 E0 = 0,04 𝑛 = 623 colaboradores = 0,2% da população. 37 Unidade 3: Inferência Estatística Seção 3.1: Desenvolvimentos acerca da inferência estatística A Inferência Estatística consiste de procedimentos para fazer generalizações sobre as características de uma população a partir da informação contida na amostra. No processo de busca pelo conhecimento de certas características quantitativas ou qualitativas de uma determinada população são feitos estudos ou levantamentos onde são realizadas medições ou contagens provenientes de todos os elementos dessa população - levantamento censitário - ou de um subconjunto ou amostra dela - levantamento amostral. Em princípio, o senso comum nos diz que o levantamento censitário é mais preciso que um levantamento amostral. Entretanto, isso nem sempre é verdade, pois erros ocorrem devido ao despreparo da equipe de coleta de dados etc. Normalmente, utilizamos o levantamento amostral e, a partir de dados fornecidos por essas amostras fazemos afirmações probabilísticas sobre a população em estudo. Destacamos que o processo de seleção de uma amostra exerce um papel primordial na determinação da composição dessa amostra. Há situações, porém, em que a amostra se constitui por mera observação. Nas populações infinitas, a amostra será randômica se cada observação for independente da outra, isto é, a ocorrência de um evento não influencia de modo algum na ocorrência do outro. As características numéricas de uma população chamam-se parâmetros enquanto as características de uma amostra chamam-se estatísticas. Tais características podem ser medidas de tendência central (por exemplo: média ou moda), dispersão (por exemplo: desvio-padrão) ou, no caso de fenômenos qualitativos, a proporção de observações de determinada espécie. Naturalmente, os parâmetros de uma população infinita nunca são observados. Os parâmetros de uma população finita poderiam ser observados, mas por questões como custo e tempo de processamento tornam-se inviáveis de serem observados na prática. Assim, se a população for infinita, nunca poderá ser observada como um todo, e qualquer julgamento sobre ela só poderá vir da amostra. Mas mesmo no caso da população ser finita pode haver boa razão para observarmos apenas a amostra, como no caso de se querer medir a duração média de lâmpadas. 38 O objetivo da inferência estatística é, portanto, ajuizar sobre parâmetros populacionais com base em estatísticas amostrais. Na verdade, são tentativas de adivinhação revestidas de certo grau de segurança e que podem ser de dois tipos: ou se relacionam à estimação de parâmetros ou ao teste de alguma hipótese sobre o parâmetro de interesse. A estimação é feita com o auxílio de um estimador, ou seja, de uma fórmula que descreve o modo de calcularmos o valor de determinado parâmetro populacional. O valor específico de um estimador chama-se estimativa. Juízos na forma de testes de hipótese consideram a priori certos pressupostos sobre o valor de um parâmetro. Se a informação amostral fornecer evidência contra a hipótese, nós a rejeitamos. Caso contrário, a hipótese será aceita. É evidente que diferentes amostras conduzem a diferentes avaliações. Algumas estarão mais perto da verdade, ou seja, do valor verdadeiro do parâmetro, do que outras. Na prática, geralmente só temos uma amostra e, portanto, somente uma avaliação. Convém ressaltar, que a redução no erro de amostragem é substancial para aumentos iniciais no tamanho da amostra, tornando-se, porém, desprezível após determinado tamanho da amostra. Em síntese, a variabilidade amostral indica que nem todas as amostras são iguais. Já a representatividade amostral sugere que a média amostral terá características similares a da população se o método de amostragem utilizado for adequado. O equilíbrio entre essas duas ideias aparentemente antagônicas é primordial no estudo da Inferência Estatística. Nota-se que os estudantes em geral dão ênfase excessiva na representatividade da amostra e esquecem a sua variabilidade e o efeito do tamanho da amostra sobre a mesma. Destacamos que, no cálculo da variância de uma amostra de tamanho n, devemos utilizar um fator de correção da fórmula de variância conhecido como Fator de Correção de Bessel (APÊNDICE B). Assim, ao invés de dividirmos o desvio quadrático de cada valor possível em relação ao valor esperado por n (supondo que cada valor possível possui igual probabilidade de ocorrência), faremos a divisão por n-1. 39 Seção 3.2: Distribuições amostrais Na seção anterior vimos que a maneira de sabermos o grau de fidedignidade de uma avaliação é conhecer o comportamento de todas as avaliações que poderiam ser feitas com base em todas as amostras possíveis. Podemos retirar uma amostra após a outra, procurando saber qual o valor da avaliação de cada amostra e arranjar tais cálculos em forma de distribuição. Se tivermos um número infinito de tais amostras, a distribuição resultante será chamada de distribuição amostral. Consideremos, por exemplo, o problema de estimar a renda média familiar do Brasil em determinado mês, com base em uma amostra de 100 famílias. Uma possibilidade seria calcular a renda média familiar de nossa amostra e usá-la como estimativa da média populacional. Naturalmente, poderíamos usar a moda ou a mediana ou alguma outra medida como nosso estimador. Suponhamos que estimamos a média populacional usando a média amostral. Desejamos então saber o grau de segurança deste estimador. Um modo de descobrir isto seria retirar um número infinito de tais amostras, calculando o valor da média amostral de cada amostra e dispondo estes valores em forma de distribuição. Observe que, embora a população de todas as famílias do Brasil seja finita, o número de amostras que podemos retirar desta população é infinito, enquanto permitirmos que cada família seja incluída em cada uma das amostras. Tal amostragem chama-se amostragem com repetição. Se cada família contida na amostra for selecionada ao acaso, não saberemos de antemão qual será sua renda. Neste caso a renda familiar será uma variável randômica. Além disso, a renda média observada numa amostra é também uma variável randômica. Isso significa que a distribuição amostral de uma média de amostras, considerando um número infinito de amostras, é realmente uma distribuição de probabilidade. Tal distribuição pode ser discreta ou contínua, dependendo da natureza da variável populacional. Em nosso exemplo, a distribuição amostral é contínua visto que a renda é uma variável contínua. Naturalmente,amostras de diversos tamanhos nos darão informações diversas sobre a população de onde são retiradas. Portanto, os estimadores que utilizam amostras de diferentes tamanhos ostentarão diferentes graus de confiabilidade. É importante destacar que qualquer distribuição amostral se refere sempre a amostras do mesmo tamanho. 40 Quando se usa uma amostra da população sempre haverá uma probabilidade de estar cometendo um erro (justamente por ser usada uma amostra), chamado erro amostral: a diferença entre os métodos estatísticos e os outros reside no fato de que os métodos estatísticos permitem calcular essa probabilidade de erro. E para que isso seja possível a amostra da população precisa ser aleatória. Distribuição Amostral da Média Suponha uma população identificada pela variável aleatória Y, cujos parâmetros média populacional µ=E(Y) e variância σ² = Var(Y) são supostamente conhecidos. Vamos retirar todas as amostras possíveis de tamanho n dessa população e para cada uma delas, calcular a média Ῡ. Vamos supor a seguinte população {2,3,4,5} com média µ=3,5 e variância σ² = 1,25. Vamos relacionar todas as amostras possíveis de tamanho 2, com reposição, desta população. Da análise combinatória verificamos 16 possíveis combinações: 16 = 4x4 Agora, vamos calcular a média de cada amostra. Teremos: Por fim, vamos calcular a média das médias, ou seja, E(Ȳ) = (2,0 + 2,5 + ...+ 5,0)/16 = 3,5 = µ Agora, vamos calcular a variância: VAR (Ῡ) = [(2,0 - 3,5)² + (2,5 - 3,5)² + ... + (5,0 - 3,5)²]/16 VAR(Ȳ) = 0,625 Agora vamos relacionar todas as amostras possíveis de tamanho 3, com reposição, desta população. Nesse caso, existem 64 possíveis combinações: 64 = 4x4x4 41 Similarmente, calculando a média de cada amostra e a média das médias obteremos: E(Ȳ) = 3,5 e VAR(Ȳ) = 0,417 Seja VAR(Ȳ) = VAR(Y)/n , em que n é o tamanho das amostras retiradas da população: Para n=2 temos: VAR(Ȳ) = (1,25)/2 = 0,625 Para n=3 temos: VAR(Ȳ) = (1,25)/3 = 0,417 Podemos verificar que, a distribuição das médias destas amostras tende para uma distribuição com média µ (igual à média da população) e com desvio padrão Teorema Central do Limite O Teorema Central do Limite afirma que quando o tamanho da amostra aumenta a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. Este resultado é fundamental na teoria da inferência estatística, e sua utilidade vai desde estimar os parâmetros como a média populacional ou o desvio padrão da média populacional a partir de uma amostra aleatória dessa população, ou seja, da média amostral e do desvio padrão da média amostral, até calcular a probabilidade de um parâmetro ocorrer dado um intervalo, sua média amostral e o desvio padrão da média amostral. O uso generalizado da distribuição normal no universo estatístico deve-se ao Teorema Central do Limite. Sua prova pode ser encontrada em muitos textos de 42 estatística matemática, mas não a apresentaremos aqui por não fazer parte do escopo de nosso trabalho. Esse teorema apresenta três propriedades básicas: a) A média da distribuição amostral é igual à média da população, e igual à média de uma amostra quando o tamanho da amostra tende ao infinito (Lei dos Grandes Números). b) A forma da distribuição amostral tende a assumir a forma de sino à medida que se aumenta o tamanho da amostra, e aproximadamente normal, independente da forma da distribuição da população. c) A forma da distribuição amostral cresce em altura e decresce em dispersão à medida que o tamanho da amostra cresce. Seja uma população com média µ e desvio padrão σ, e selecionemos várias amostras de tamanho n. Para cada uma dessas amostras é possível calcular a respectiva média. Pelo Teorema Central do Limite, a distribuição das médias destas amostras tende para uma distribuição normal com média µ (igual à média da população) e com desvio padrão Ao desvio padrão da distribuição das médias amostrais dá-se o nome de erro padrão da média. Se o erro padrão for pequeno as amostras com médias semelhantes à média da população são mais frequentes e assim é mais provável que a amostra que obtivemos seja uma dessas amostras. O erro padrão pode ser controlado com o tamanho da amostra, pois quanto maior for o tamanho da amostra menor será o erro padrão. Obs: para amostras com tamanho n>30 a distribuição das médias amostrais pode ser aproximada satisfatoriamente por uma distribuição normal. Na verdade, já havíamos mostrado anteriormente a aplicação desse teorema (sem mencionálo explicitamente) quando discorremos sobre a distribuição de probabilidade no lançamento de n dados. Verificamos, também, sua validade no experimento de lançamento de n moedas se ao invés de classificarmos como sucesso ou insucesso a obtenção de cara ou coroa respectivamente atribuirmos o valor 0 para insucesso e 1 para sucesso. Exemplo: As notas num certo exame padronizado têm media 500 e desvio-padrão 60. Uma nota acima de 530 é considerada muito boa. Uma pessoa consegue entrar em 43 uma Universidade de prestígio se ela obtém acima de 530 neste exame. Numa certa sala onde o exame foi aplicado, 36 pessoas fizeram o teste. A nota média destas pessoas foi de 540. É razoável haver algum tipo de investigação para tentar detectar se houve alguma fraude no certame? Solução: Seja Y a nota no teste. Pelo enunciado do problema, Y tem media 500 e desviopadrão 60. Logo, a média amostral das notas das 36 pessoas daquela sala (supondo que as notas são independentes umas das outras e identicamente distribuídas) é uma variável com media 500 e variância (60)2 /36. Então, pelo Teorema Central do Limite: é aproximadamente N (0,1) Logo, é absolutamente improvável que a nota media daquelas 36 pessoas tenha sido de 540, um indício claro de fraude no teste e que, portanto, precisará ser investigado. Seção 3.3: Amostragem Amostragem é o processo de obtenção de amostras. Ele é considerado parte fundamental no estudo da inferência estatística. Nessa parte do trabalho apresentaremos algumas noções sobre esse assunto visto que a Teoria das Amostragens constitui hoje um campo bastante desenvolvido e amplo da Estatística. Um processo de amostragem diz-se enviesado quando tende sistematicamente a selecionar elementos de alguns segmentos da população, e a não selecionar sistematicamente elementos de outros segmentos da população. Surge assim a necessidade de fazer um planejamento da amostragem que consiste, entre outras coisas, estabelecer quais elementos da população deverão compor a amostra assim como o método de seleção desses elementos. De um modo geral, o trabalho do Estatístico deve começar antes de os dados serem recolhidos. Nesse sentido, o planejamento de um estudo estatístico, que 44 começa com a forma de selecionar a amostra, deve ser feito de forma a evitar amostras enviesadas. A seguir apresentamos exemplos de amostras enviesadas e como elas afetam o resultado da sua aplicação: • Amostra 1 – Utilização de alguns alunos de uma turma para tirar conclusões sobre o aproveitamento de todos os alunos da escola. Resultado – Poderíamos concluir que o aproveitamento dos alunos é pior ou melhor do que na realidade é. As turmas de uma escola não são todas homogêneas, pelo que a amostra não é representativa dos alunos da escola. Poderia servir para tirar conclusões sobre a população constituída pelos alunos da turma. • Amostra 2 – Utilização dos jogadores de uma equipa de basquete de uma determinada escola para avaliar as alturas dos alunos dessa escola. Resultado – O estudo concluiria que os estudantes são mais altos do que na realidade são. Os exemplos que apresentamos anteriormente são exemplos de amostras enviesadas porque tiveram a intervenção do fatorhumano. Veremos logo adiante que, mesmo uma amostra aleatória pode não ser representativa da população em estudo. A amostragem divide-se em métodos probabilísticos e métodos não probabilísticos. Os métodos não probabilísticos de seleção de amostras não podem ser medidos objetivamente em contraposição aos métodos probabilísticos. Uma amostra é dita probabilística se a sua seleção é feita de maneira que cada elemento da população tem probabilidade conhecida de ser selecionado. No presente trabalho apresentaremos os principais métodos probabilísticos de seleção de amostras: 1) Amostragem aleatória simples: todos os elementos da população têm a mesma chance de serem selecionados. Este tipo de amostragem probabilística somente é recomendável se a população for homogênea em relação à variável de interesse. Exemplo: Queremos realizar uma pesquisa de opinião sobre a qualidade de um curso universitário, que tem cerca de 1000 alunos, perguntando aspectos relativos ao encadeamento das disciplinas no currículo. No presente caso estamos interessados na opinião dos alunos sobre o currículo. É razoável imaginar que um aluno do quarto ano tenha um conhecimento diferente do currículo do que outro do segundo ano, podendo, portanto, acarretar em 45 diferentes opiniões e comprometer o resultado da pesquisa. Assim, como não há homogeneidade na população acerca da variável de interesse, a amostragem aleatória simples não é apropriada para este caso. 2) Amostragem estratificada: consiste em dividir a população em grupos (chamados estratos) por um processo denominado estratificação e de cada grupo selecionar uma amostra aleatória simples. A divisão da população em grupos tem por finalidade juntar num mesmo grupo elementos da população mais homogêneos entre si quanto à característica em estudo do que na população como um todo. Após a determinação dos estratos, seleciona-se uma amostra aleatória simples de cada estrato. Divide-se em: a) Amostragem Estratificada Proporcional: A proporcionalidade do tamanho de cada estrato da população é mantida na amostra. Exemplo: Se um estrato abrange 30% da população, ele também deve abranger 30% da amostra. Figura 4: Exemplo: Em uma população de 1000 pessoas, há 600 homens e 400 mulheres. Extraia uma amostra representativa, de 10%, dessa população. Nesse exemplo, há uma característica que permite identificar 2 subconjuntos, a característica sexo. Considerando essa divisão, a amostra será constituída da seguinte forma: Figura 5 46 Portanto, a amostra deve conter 60 pessoas do sexo masculino e 40 do sexo feminino, totalizando 100 pessoas, que correspondem a 10% da população. Para selecionar os elementos da população para formar a amostra, podemos executar os seguintes passos: 1) Numerar as pessoas de 1 a 1000, sendo os homens numerados de 1 a 600 e as mulheres, de 601 a 1000; 2) Escrever os números de 1 a 600 em pedaços de papel e colocá-los em uma urna A; 3) Escrever os números de 601 a 1000 em pedaços de papel e colocá-los em uma urna B; 4) Retirar 60 pedaços de papel, um a um, da urna A, e 40 da urna B, formando a amostra da população. São exemplos desta técnica de amostragem as pesquisas eleitorais por região, cidades pequenas e grandes, área urbana e área rural, sexo, faixa etária, faixa de renda, etc. Mais adiante, quando falarmos sobre pesquisa eleitoral, destacaremos a importância da existência de um cadastro. b) Amostragem Estratificada Uniforme: Selecionamos o mesmo número de elementos em cada estrato. É o processo usual quando se deseja comparar os diversos extratos. 3) Amostragem sistemática: quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente até compor o total da amostra, sendo o primeiro elemento sorteado aleatoriamente. Nesse tipo de amostragem a população deverá ser homogênea em relação à variável de interesse. Exemplo: Uma operadora telefônica pretende saber a opinião de seus assinantes comerciais sobre seus serviços em determinada cidade. Supondo que há 25037 assinantes comerciais, e a amostra precisa ter no mínimo 800 elementos, mostre como seria organizada uma amostragem sistemática para selecionar os respondentes. A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus assinantes, o intervalo de retirada será: k = N/n = 25037/800 = 31,2965 47 Como o valor de k é fracionário algo precisa ser feito. Aumentar o tamanho da amostra não resolverá o problema, porque 25037 é um número primo. Como não podemos reduzir o tamanho de amostra, devendo permanecer igual a 800, se excluirmos por sorteio 237 elementos da população, e refizermos a lista teremos: k = N/n = 24800/800 = 31 A cada 31 assinantes, um é retirado para fazer parte da amostra. Sorteando como ponto de partida um número de 1 a 31 (do 1º ao 31º assinante), e tendo como sorteado o número 5, então a amostra será da forma: {5, 36, 67, 98, ...., 24774} Seção 3.4: Estimação No processo de estimação, diferentemente do que ocorre no teste de hipóteses, não fazemos asserções apriorísticas cuja credibilidade deva ser disputada. No processo de estimação fazemos perguntas sobre o valor de um parâmetro particular, e mediante o uso de um estimador calculamos uma estimativa para aquele parâmetro. A estimação pode ser dividida em duas partes, estimação por pontos e estimação por intervalos. Na estimação por ponto o objetivo é usar a informação amostral e apriorística para se calcular um valor que seria, em certo sentido, nossa melhor avaliação quanto ao valor de fato do parâmetro em questão. Na estimativa por intervalo usa-se a mesma informação com o propósito de se produzir um intervalo que contenha o valor verdadeiro do parâmetro com algum nível de probabilidade. Como um intervalo está plenamente caracterizado por seus limites, a estimação de um intervalo equivale à estimação de seus limites. Para que o estimador atenda os objetivos do estatístico/pesquisador, ou seja, para que se alcance boas estimativas de um determinado parâmetro populacional, ele deverá apresentar as seguintes propriedades: 1. Consistência Consistência é uma propriedade por meio da qual a acurácia de uma estimativa aumenta quando o tamanho da amostra aumenta. 2. Não tendenciosidade Em uma particular amostra, o valor calculado pelo estimador pode desviar para mais ou para menos do valor do parâmetro, mas espera-se que, em média, ele 48 determine o verdadeiro valor do parâmetro populacional. Não tendenciosidade é uma propriedade que assegura que, em média, o estimador é adequado. 3. Erro quadrático médio É um conceito relacionado ao conceito de variância. A diferença entre a variância de um estimador e o erro quadrático médio é que, enquanto a variância mede a dispersão da distribuição em torno da media, o erro quadrático médio mede a dispersão em torno do verdadeiro valor do parâmetro. Quanto menor o seu valor, melhor é o estimador. Inicialmente faremos algumas considerações a respeito da aplicabilidade da estatística em um processo eleitoral. A ideia básica da estimação baseia-se na suposição de que se a nossa amostra é representativa da população, então a proporção de indivíduos na amostra que possuem a mesma intenção de voto em um determinado candidato deverá nos fornecer uma estimativa razoável do percentual de indivíduos da população em geral que pretendem votar nesse candidato. E para quantificarmos esse resultado utilizamos a teoria da probabilidade. Os institutos de pesquisa no Brasil não fazem pesquisas probabilísticas puras, sem cotas, como é comum nos Estados Unidos. O objetivo das cotas é garantir a representatividade do universo que se pretende estudar. No caso das pesquisas eleitorais, a amostra deve refletir a distribuição do eleitorado segundo dados atualizadospelo TSE. O tempo necessário para aplicar o método de forma correta no Brasil não permitiria acompanhar o caráter dinâmico do processo eleitoral. Além disso, os altos custos envolvidos nas pesquisas domiciliares com método probabilístico puro inviabilizam a técnica no país. Nos Estados Unidos, a maioria dos estudos eleitorais são feitos por telefone , com controle do histórico de comportamento do eleitorado (se o entrevistado foi votar em eleições anteriores, por exemplo). Mas mesmo lá pesquisas feitas por telefone têm sido questionadas, já que uma parcela significativa dos eleitores está trocando as linhas fixas por celulares. Uma dúvida bastante comum entre as pessoas é com relação aos dados divulgados pela imprensa. Quando algum instituto de pesquisa informa que o candidato A possui 44% das intenções de voto e que a margem de erro é de 2,0 pontos percentuais para mais ou para menos com intervalo de confiança de 95% isso significa que, em 100 amostras, 95 delas contêm o verdadeiro valor. Invariavelmente 49 os institutos de pesquisa omitem o intervalo de confiança. Geralmente o intervalo adotado é de 95%. Vejamos, então, a aplicação do método de estimação para calcularmos o percentual provável de indivíduos que irão votar em um determinado candidato em um processo eleitoral: Primeiramente, escolhemos um indivíduo aleatoriamente. Uma vez escolhido não queremos escolher o mesmo indivíduo novamente. Supondo que a população supera em muito qualquer número de indivíduos que possamos escolher para nossa pesquisa, isso significa que o percentual de indivíduos que compartilham de uma mesma opinião não se alterará, ao removermos esse indivíduo da população. Isso acontece ao removermos o segundo, o terceiro, o quarto ou o quinto indivíduo, e daí sucessivamente. Portanto, ao selecionarmos n indivíduos aleatoriamente da população estaremos reproduzindo na verdade o experimento de Bernoulli n vezes. Ainda não sabemos a probabilidade de sucesso em uma tentativa. Porém, se escolhermos um número significativo de indivíduos o modelo probabilístico se aproximará da distribuição normal. Como o experimento é aleatório, tudo pode acontecer. Mas esperamos que o número de sucessos em nossa amostra esteja próximo à media do experimento, e no intervalo de 1 ou 2 desvios-padrão da media. Portanto, o resultado esperado deverá ficar em algum ponto próximo da parte central de nossa curva de distribuição normal. Destacamos que, a proporção de eleitores da amostra que pretendem votar no candidato A certamente será diferente se selecionarmos outra amostra ao acaso. Utilizando a distribuição binomial e o fato de que para uma amostra suficientemente grande a distribuição de p* é aproximadamente normal com média igual a p e variância dada por p(1-p)/n, podemos mostrar que a probabilidade de que o intervalo abaixo contenha o verdadeiro valor de p é aproximadamente igual a 95%. Demonstração: Sejam: p– proporção de eleitores que pretendem votar no candidato A n– número de eleitores (tamanho da amostra) 50 p* é variável, dependendo da amostra colhida Com o auxílio da distribuição binomial mostraremos que a média de p* é igual a p e que a variância é dada por p(1-p)/n Sabemos como calcular o valor esperado e a variância de uma variável aleatória binomial (pag.16). Seja X o número de sucessos e p a proporção de sucessos em n tentativas, então p=X/n. Podemos encontrar E(p) e Var(p): E(p)=E(X/n)= E(X)/n= np/n=p e Var(p)=Var(X/n)=Var(X)/n 2 = np(1-p)/n 2 = p(1-p)/n Como a aferição desse intervalo depende do valor desconhecido de p, se substituirmos p(1- p) pelo seu valor máximo o problema estará resolvido. O produto p(1-p) atinge seu máximo quando p= 0,5. Portanto, pode-se afirmar que a probabilidade de que o intervalo supracitado contenha o verdadeiro valor de p é no mínimo de 95%. Assim, se desejarmos uma margem de confiança de 95% e uma margem de erro de 2,0 pontos percentuais (para mais ou para menos) o tamanho de nossa amostra n deverá satisfazer: E, portanto, n deverá ser igual a 2401 eleitores. Em nossa pesquisa eleitoral entrevistaremos 2401 pessoas aptas a votar. Suponhamos que o número de pessoas que responderam que iriam votar no candidato A seja de 1675 pessoas de 2401 pesquisadas. Se a amostra for realmente aleatória ela deverá refletir a população como um todo. Assumindo que a estimativa obtida em nossa amostra seja próxima à probabilidade p0 (nº de eleitores na população que apoiam o candidato A) então p0 ≈ 0,698. 51 Utilizando as fórmulas abaixo: Obtemos, Logo, há 95% de probabilidade da media µ se encontrar entre m – 1,96d e m + 1,96d. Ou seja, Como µ = 0 então, Concluímos, portanto, que o candidato A tem aproximadamente 70% de intenção de voto com margem de erro de 2% para mais ou para menos. Assim, se o tamanho da amostra permanecer fixo, um aumento da precisão implica necessariamente numa diminuição da confiança. A única forma de melhorar a precisão sem alterar a confiança é aumentando o tamanho da amostra. É importante observar também que a confiança e a precisão estão relacionadas com o tamanho da amostra. Nesse sentido, se quisermos manter a confiança e reduzir o intervalo pela metade, precisaremos de uma amostra quatro vezes maior que a proposta inicialmente. Logo, o preço a ser pago pela melhoria da precisão nem sempre será compensado pelo tempo de coleta. 52 Finalmente, devemos frisar que as pesquisas de intenção de voto são bem mais sofisticadas do que a apresentada nesse trabalho e que eventuais variações nos resultados das pesquisas eleitorais realizadas pelos diferentes institutos de pesquisa devem-se basicamente à metodologia adotada. Testes de Hipótese Nos testes de hipótese, faz-se uma afirmação referente à população, e o intuito é saber se a proposição é verdadeira ou falsa. Geralmente fazemos mais de uma afirmação, mas nem todas elas devem ser testadas. Aquelas informações que não se pretende que sejam expostas a testes chamam-se hipóteses subjacentes. Compõem- se de todos os pressupostos sobre os quais nos apoiamos e nos quais acreditamos. Naturalmente, nunca estamos totalmente certos de que tais pressupostos sejam válidos, caso contrário não seriam pressupostos. Acreditamos que eles possuem validade provável, de modo que as hipóteses subjacentes se encontram muito próximas das corretas. As suposições remanescentes que devem ser testadas chamamse hipóteses testáveis. Como afirmações específicas são mais fáceis de serem rejeitadas do que afirmações vagas, é desejável formular problemas de testes de hipótese de modo a fazer com que a hipótese nula seja a mais específica possível. Isso significa que frequentemente utilizamos como hipótese nula a proposição que de fato queremos rejeitar. Destacamos que, o critério para a rejeição ou não rejeição da hipótese nula com base em uma amostra não é uma garantia de chegarmos a uma conclusão correta. O teste de hipótese compõe-se essencialmente de três passos básicos: definição das hipóteses, estabelecimento dos limites entre as regiões de aceitação e rejeição e a obtenção do valor amostral do teste estatístico. No processo de obtenção desse valor duas ocorrências são possíveis: ou a estatística/teste estatístico cai na região de aceitação ou não. Vamos considerar, em primeiro lugar, a segunda ocorrência. 53 Neste caso o valor do teste estatístico é tal que, se a hipótese nula for realmente verdadeira, a probabilidade de ela ocorrer, por acaso, será muito pequena, por exemplo, 5% (intervalo de significância). Isto significa que, se o teste for repetido um número infinito de vezes e se a hipótese nula for realmente verdadeira, rejeitaríamos a hipótese nula 5% das vezes. Chamamos este erro de erro do
Compartilhar