Baixe o app para aproveitar ainda mais
Prévia do material em texto
- -----------------~--t --- , ESTATISTICA APLICADA Volume 2 Elizabeth Reis Paulo Melo Rosa Andrade Teresa Calapez 4ª EDIÇÃO - REVISTA ~--, -· ------~--------- É expressamente proibido reproduzir, no todo ou em parte, sob qualquer forma ou meio, nomeadamente fotocópia, esta obra. As transgressões serão passiveis das penalizações previstas na legislação em vigor. Visite a Silabo na rede: www.silabo.pt Editor: Manuel Robalo FICHA TÉCNICA: Título: Estatística Aplicada - Volume 2 Autores: Elizabeth Reis, Paulo Melo, Rosa Andrade, Teresa Calapez © Edições Silabo, Lda. 4ª Edição - Revista - 3ª Reimpressão Lisboa, 2008. Impressão e acabamentos: Europress, Lda. Depósito Legal: 170314/01 ISBN: 978-972-618-256-6 EDIÇÕES SÍLABO, LDA. R. Cidade de Manchester, 2 1170-100 LISBOA Telf.: 218130345 Fax: 218166719 e-mail: silabo@silabo.pt www.silabo.pt ·--··-·--··-------- Índice .... ---··-------------- ------------· NOTA INTRODUTÓRIA À SEGUNDA EDIÇÃO PREFÁCIO ................... . Capítulo V - O processo de amostragem . 11 13 1. INTRODUÇÃO .......... . . ........ 17 2. ALGUNS CONCEITOS IMPORTANTES NA TEORIA DA AMOSTRAGEM ................. . . 19 3. QUESTÕES PRÉVIAS AO PROCESSO DE AMOSTRAGEM . 22 4. AS FASES DO PROCESSO DE AMOSTRAGEM . . . . . . . 23 4.1. A identificação da população alvo I população inquirida 4.2. Os métodos de selecção da amostra . 4.2.1. Métodos de amostragem aleatória . 4.2.1.1. Amostragem aleatória simples 4.2.1.2. Amostragem casual sistemática . 4.2.1.3. Amostragem estratificada 4.2.1.4. Amostragem por clusters 4.2. 1.5. Amostragem multi-etapas 4.2.1.6. Amostragem multi-fásica . 4.2.2. Métodos de amostragem dirigida 4.2.2.1. Amostragem por conveniência 4.2.2.2. Amostragem intencional 4.2.2.3. Amostragem snowball . 4.2.2.4. Amostragem sequencial 4.2.2.5. Amostragem por quotas EXERCÍCIOS PROPOSTOS ..... Capítulo VI - Distribuições amostrais 1. INTRODUÇÃO ........ . 1 .1. Amostra aleatória-.-.-.--.- . 1.2. Parâmetros e estatísticas . . 24 . 26 . 27 . 28 . 31 . 32 . 35 . 36 . 37 . 39 . 39 . 40 . 41 . 41 . 42 . 45 .. .. 49 . -:·-.--:-so- ~ .... 53 1.3. Lei dos grandes números ...... . 1.4. Teorema do limite central ...... . 2. DISTRIBUIÇÕES AMOSTRAIS TEÓRICAS 2.1. Distribuição normal .. 2.2. Outras distribuições . 2.2.1. Distribuição do Qui-quadrado 2.2.1.1. Principais características da distribuição do X2 . 2.2.1.2. Alguns teoremas .... . 2.2.2. Distribuição t de Student .. . 2.2.2.1. Principais características da distribuição t de Student 2.2.2.2. Alguns teoremas ..... . 2.2.3. Distribuição F de Snedecor .. 2.2.3.1. Principais características da distribuição F 2.2.3.2. Alguns teoremas ............ . 3. DISTRIBUIÇÕES AMOSTRAIS DAS ESTATÍSTICAS . 55 . 57 . 59 . 59 . 62 . 62 . 63 . 63 . 64 . 65 . 65 . 66 . 67 . 67 MAIS IMPORTANTES . . . . . . . . . . . . . . . 69 3.1. Populações Bernoulli . . . . . . . . . . . . . . . . 69 3.1.1. Distribuição de uma proporção amostral . . . 71 3.1.2. Distribuição da diferença entre duas proporções amostrais . 73 3.2. Populações normais . . . . . . . . . . . . . . . . . . . . . . . 74 3.2.1. Distribuição da média amostral (X) quando a variância ri é conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 3.2.2. Distribuição da variância amostral (S 2) ............ 75 3.2.3. Distribuição da média amostral (X) quando a variância cr2- não é conhecida . . . . . . . . . . . . . . . . . . . . . . . . 76 3.2.4. Distribuição do quociente de variâncias amostrais ( S '~ / S '~) . . . . . . . . . . . . . . 77 3.2.5. Distribuição da diferença entre médias amostrais (X1 - X2) . 78 3.3. Distribuições amostrais dos extremos . . 80 3.3.1. Distribuição do máximo da amostra . . 80 3.3.2. Distribuição do mínimo da amostra . 81 EXERCÍCIOS PROPOSTOS . . . . . . . . . . 83 Capítulo VII - Estimação de parâmetros 1. INTRODUÇÃO . . . . . . . . . . 2. ESTIMAÇÃO PONTUAL- .. - ~ .- . 2.1. Estimadores e estimativas .. 2.2. Propriedades dos estimadores 2.3. Métodos de estimação pontual . 2.3.1. O método da máxima verosimilhança . 3. ESTIMAÇÃO POR INTERVALOS EXERCÍCIOS PROPOSTOS .. Capítulo VIII - Ensaio de hipóteses 1. A NECESSIDADE DOS ENSAIOS DE HIPÓTESES 2. HIPÓTESES E ERROS ........... . 3. COMO FAZER UM ENSAIO DE HIPÓTESES . 4. ERROS NOS ENSAIOS DE HIPÓTESES . 4.1. Análise de erros . 4.1 .1. O erro tipo / . . . . . . 4.1.2. O erro tipo li . . . . . . 4.1.3. Minimização dos erros . 4.2. Função potência do ensaio ..... 5. ESCOLHA DA ESTATÍSTICA ADEQUADA AO ENSAIO 5.1. Introdução . . . . . . . . . . . . . . . . . 5.2. Ensaios de hipóteses com uma amostra .. 5.2.1. Ensaio para a média µ do universo ... 5.2.1.1 . A população é normal e a variância do universo é conhecida . . . . . . . 5.2.1.2. A população é normal e a variância do universo é desconhecida . 5.2.1.3. A população é desconhecida 5.2.2. Ensaio para a proporção ... . 5.2.3. Ensaio para a variância .... . ........ 89 . 90 . 90 . 91 103 103 111 123 131 133 135 143 145 146 149 153 159 165 165 166 166 166 166 170 171 172 5.3. Ensaios de hipóteses com duas amostras . . ........ 174 ------s:3:1~-Ensaio-para-a-·diferença-de-mêdias--.. -.- -:-·:---:--:-:--:-.--. -. -. 174 5.3.1. 1. Populações normais e variâncias conhecidas 5.3.1.2. Qualquer população, variâncias desconhecidas, mas amostras grandes . . . . . . . . . . 5.3.1.3. Amostras pequenas, populações normais e variâncias desconhecidas mas iguais . 5.3. 1.4. Amostras emparelhadas ......... . 5.3.2. Ensaio para a diferença de proporções ... . 5.3.3. Ensaio para comparação de duas variâncias . 5.4. Ensaio de hipóteses para mais de duas amostras 5.4. 1. Ensaio para a diferença de k médias - - análise de variância simples . . . . . . 5.4.2. Testes de comparação múltipla ..... . 5.4.3. Ensaios para a diferença de k variâncias EXERCÍCIOS PROPOSTOS ............ . Capítulo IX - Testes não-paramétricos 1. INTRODUÇÃO ....... . 175 175 178 180 184 187 191 192 198 205 208 217 2. TESTES DE AJUSTAMENTO 221 2. 1. Teste de ajustamento do qui-quadrado 223 2.2. Teste de Kolmogorov-Smirnov . 232 3. TABELAS DE CONTINGÊNCIA . . 238 3. 1. Teste do Qui-quadrado de Independência 238 3.2. Medidas de Associação . . . . . . . . . 245 4. TESTES À IGUALDADE DE DUAS OU MAIS DISTRIBUIÇÕES 248 4.1. Testes à igualdade de distribuições em duas amostras independentes . . . . . . . . . . . . 250 4.1.1. Teste de Mann-Whitney . . . . . . . . . . . . . . . 250 4. 1.2. Teste de Kolmogorov-Smirnov para duas amostras 259 4.2. Teste à igualdade de distribuições em mais de duas amostras independentes - o teste de Kruskall-Wallis . 263 5. COMPARAÇÕES ENTRE DUAS AMOSTRAS EMPARELHADAS 271 5. 1. Teste de McNemar ou de mudança de opiniâo . 272 5.2. Teste do sinal . . 277 5.3. Teste de Wilcoxon . 280 EXERCÍCIOS PROPOSTOS . ' 286 Apêndice - Tabelas de distribuição Distribuição do qui-quadrado . DistribuiÇãOde-fde Sfoâeri\ ·· Distribuição F de Snedcor . Valores críticos da distribuição do studentized range para comparações múltiplas .... 291 292 293 295 Quantis da estatística de Kolmogorov-Smirnov para uma amostra 299 Quantis da estatística de Mann-Whitney . . . . . . . . . . . . . 300 Quantis da estatística de Kolmogorov-Smirnov para duas amostras de igual dimensão . . . . . . . . . . . . . 304 Quantis da estatística de Kolmogorov-Smirnov para amostras de dimensões diferentes. 305 Quantis da estatística de Kruskal-Wallis para pequenas amostras 307 BIBLIOGRAFIA .......................... . 309 Nota à segunda edição Esta nova edição de Estatística ApÍicada, para além de constituir uma nova versão revista e actualizada, apresenta-se agora dividida em dois volumes, para, tanto quanto possível, responder às solicitações de muitos dos nossos leitores, docentes e alunos, cujos programas de Estatística assim se encontram estruturados. O primeiro volume, para além do capítulo introdutório, inclui um segundo capítulo sobre Teoria das Probabilidades, um terceiro sobre Variáveis Aleató- rias, sendo o quarto e último sobre as Distribuições Teóricas mais Importantes. Os restantes cinco capítulos da primeira edição fazem agora parte do segundo volume. Embora maioritariamente dedicado aos métodos de Inferên- cia Estatística (capítulos VII, VIII e IX, Estimação de Parâmetros, Ensaios de Hipóteses e Testes não-Paramétricos), depois de uma breve introdução aos Processos de Amostragem (quinto capítulo), é também feita a apresentação das Distribuições Amostrais (capítulo VI). Acreditamos que esta solução dará também resposta às preferências de muitos outros leitores que, pelo carinho e interesse com que acompanharam a primeira edição, pelas sugestões e indicações de gralhas e erros, decidida- mente contribuíram para a produção desta nova edição. A todos, os nossos agradecimentos. Conscientes de que é possível fazer melhor, esperamos que esta nova edição vos desperte tanta atenção como a anterior, deixando aqui a promessa de nos mantermos empenhados no seu aperfeiçoamento. Os autores Lisboa, Setembro de 1997 Prefácio Este livro de Estatística Aplicada destina-se a profissionais licenciados ou não e a estudantes universitários que, na vida prática ou no processo de aprendizagem, têm necessidade de saber Estatística e de a aplicar aos pro- blemas mais variados do dia-a-dia. Como objectivos finais, este livro pretende tornar compreensíveis a linguagem e notação estatísticas, bem como exempli- ficar as suas potenciais utilizações, sem descurar os pressupostos subjacentes e o rigor teórico necessário. Deverá referir-se que a escolha do título não foi pacífica. De entre os vários alternativos - Probabilidades e Estatística, Inferência Estatística, etc. - a preferência por Estatística Aplicada justifica-se pela abordagem diferenciada de outras obras já publicadas sobre Inferência Estatística, e que resumidamen- te pode ser assim descrita: mais do que «ensinar», pretende-se com este livro, a) despertar e estimular o interesse dos leitores pelo método estatístico de resolução dos problemas; b) utilizando uma linguagem simples e acessível, apresentar os conceitos e métodos de análise estatística de modo mais intuitivo e informal; c) acompanhar a apetência teórica com exemplos apropriados a cada situação. O livro encontra-se dividido em nove capítulos. No capítulo 1 {Introdução) são explicitadas várias razões para que um profissional, técnico, estudante ou mero cidadão adquira um nível mínimo de conhecimentos em Estatística. A Teoria das Probabilidades é objecto de estudo do capitulo li. Nele são apresentados os diferentes conceitos de probabilidade e a sua axiomática, dando especial relevo aos teoremas da probabilidade total e de Bayes. Os terceiro e quarto capítulos, tal como o segundo, são essenciais para a compreensão dos seguintes, relativos à Inferência Estatística. O capítulo Ili respeita às Variáveis Aleatórias, sua definição, características e propriedades. No quarto capítulo estudam-se em pormenor as distribuições de algumas variáveis aleatórias de importância maior nas áreas de aplicação das ciências sócio-económicas como sejam as distribuições de Bernoulli, binomial, Poisson, binomial negativa, hipergeométrica, multinomial, uniforme e normal. O capítulo V é dedicado ao estudo dos processos de amostragem, incluindo os diferentes métodos de recolha de uma amostra, enquanto que no capítulo VI s~ ªfir~serita111_A~ distribuiçQ§!J>_ªmostrai_$._JDais_importantes. _____ -- ---- Os três últimos capítulos são dedicados à Inferência Estatística propriamen- te dita. No capitulo VII apresentam-se métodos de estimação de parãmetros, com ênfase especial para o método de máxima verosimilhança. Inclui-se ainda a estimação por intervalos. Os capítulos VI 11 e IX destinam-se à apresentação, respectivamente, dos ensaios de hipóteses paramétricos e não-paramétricos. Com excepção do primeiro, todos os restantes capítulos são finalizados com um conjunto de exercícios não resolvidos, acompanhados geralmente das respectivas soluções. No Apêndice estão incluídas as Tabelas (das distribuições) necessárias à compreensão do texto e à resolução dos exemplos e dos exercícios propostos. Este livro é o resultado de alguns anos de experiência docente dos seus autores na equipa de Estatística do ISCTE e da tentativa de responder às necessidades sentidas por muitos - alunos e docentes de variadas licencia- turas, docentes do ensino secundário, profissionais e técnicos de diferentes áreas cientificas (gestão, economia, sociologia, psicologia, medicina, enferma- gem, engenharia, informática, etc.) - que, no decorrer destes anos, e na falta de uma obra que os ajudasse a encontrar as soluções estatísticas apropriadas aos seus problemas, procuraram ajuda junto dos autores. Sem dúvida que a responsabilidade desta obra é assumida pelos seus autores, mas a sua concretização só se tornou possivel com a ajuda, apoio e disponibilidade de muitos. Por isso, não deixando de agradecer a todos os que, directa ou indirectamente, contribuíram para a sua realização, gostaríamos de, nominalmente, dar uma palavra especial de agradecimento aos seguintes docentes de Estatística do ISCTE: Ana Cristina Ferreira, Ana Paula Marques, António Robalo, Fátima Ferrão, Fátima Salgueiro, Graça Trindade, Helena Carvalho, Helena Pestana, João Figueira, J.C. Castro Pinto, J.J. Dias Curto, Margarida Perestrelo e Paula Vicente. Finalmente, uma palavra de apreço a todos ::s alunos, quer das licenciatu- ras do ISCTE, quer dos mestrados do INDEG/ISCTE, cujas sugestões, dúvidas e problemas certamente contribuíram para enriquecer este livro. Os autores 'I .1 Capítulo V O processo de amostragem Introdução A amostragem e em particular os processos de amostragem aplicam-se em variadíssimas áreas do conhecimento e constituem, muitas vezes, a única forma de obter informações sobre uma determinada realidade que importa conhecer. A teoria da amostragem é assim um dos instrumentos que possibilita esse conhecimento científico da realidade (sempre complexa), onde outros proces- sos ou métodos alternativos, por razões diversas, não se mostram adequados ou até mesmo possíveis. Ainda que as pessoas não vejam esta temática, em particular os princípios da teoria da amostragem, como algo banalizado, a verdade é que eles supor- tam (ou deviam suportar) muitas das mensagens que no seu quotidiano lhes são transmitidas nas mais variadas situações. Se não vejamos: «Neste último mês foi-me pedido para colaborar em dois inquéritos de rua e até num pelo telefone)>. «A telenovela e os programas desportivos continuam a ter as maiores audiên- cias em todo o país>>. ><Os valores Amizade e Liberdade alteraram-se substancialmente na última décadan. «O líder do partido A tem visto nos últimos meses aumentar o seu prestígio em detrimento dos lideres dos partidos B e e ... «A opinião dos consumidores sobre o nosso produto é bastante desfavorável, dadas as razões da sua preferência quanto às diferentes características dos que existem no mercado>>, «Nunca tinha pensado que as razões principais do divórcio tossem as que esse artigo refere>>. -- -----~-----··-··-- ----------- ----17 EST ATÍSTJCA APLICADA 18 «o lote entregue pelo nosso fornecedor não satisfaz a qualidade a que se comprometeu, pelo que não deverá ser aceite>>. «Os nossos concorrentes têm como pontos fortes o cumprimento dos prazos de entrega e as condições de pagamento>>. <<O índice de preços no consumidor tem baixado substancialmente nos últimos anos». ccOe acordo com 0 interesse manifestado pelos utentes, a Carris vai proceder à reestruturação de algumas carreiras em várias zonas da cidade». cc o baixo clima social existente na empresa poderá ser bastante diminuído por uma comunicação mais cuidada, em particular no que respeita aos quadros superiores e intermédios)). <<Quando a estenose aórtica se manifesta por angina de peito, a média de sobrevida não ultrapassa os 5 anos». uma boa parte das mensagens atrás descritas aparecem como conclusões sobre determinada realidade em que se aplicou a Inferência Indutiva _:_ isfo é _ a partir dos resultados de experiências ou inquéritos que fornecem dados estatísticos sobre determinada investigação, formulam-se conclusões que ul- trapassam 0 âmbito das experiências ou inquéritos efectuados. Ou seja, faz-se a extensão do particular para o geral. Mas, então, põe-se a questão: serão válidas as conclusões a que se chega? A Estatística Indutiva fornece as técnicas que permitem realizar as inferên- cias indutivas e controlar e até medir o grau de incerteza que aquelas conclusões possam conter. ---·-------·-- Alguns co.n_~f!it<?_~ __ _ importantes na teoria da amostragem O problema da Inferência Indutiva é, do ponto de vista da Estatística, encarado da seguinte forma: a finalidade da investigação é descobrir algo sobre determinada população ou universo. Importa assim que se definam alguns conceitos fundamentais na teoria da amostragem: • População ou universo Conjunto de unidades com características comuns. O conjunto dos utentes da Carris, das famílias moradoras em certos bairros, dos alunos do ISCTE, das peças produzidas por uma máquina em determinado período, dos resultados obtidos no lançamento de um dado, são exemplos de populações ou universos. Refira-se que os exemplos atrás mencionados referem-se a populações reais, com excepção para o conjunto de resultados obtidos com o lançamento de um dado em que tal universo ou população se diz hipotética. A unidade básica de uma população denomina-se elemento da população. •Amostra Sub-conjunto do universo ou população. A obtenção de informação sobre parte de uma população denomina-se amostragem. Em geral, o investigador está interessado em certa(s) característica(s) es- pecífica(s) da população em estudo. Define-se então uma certa variável X que representará a característica que se pretende avaliar. A variável X poderá designar o número de filhos, o rendimento disponível ou o atributo de ser trabalhador por conta de outrém (X= 1) ou trabalhador por_ __ _ ---conta: própria (x; 6) das famíliasinoradoras em cario bairro (população). 19 ESTATÍSTICAAPUCADA 20 A característica X poderá ser uma variável discreta ou contínua, mas, desde que o elemento tenha sido escolhido ao acaso da população, é uma variável a!eatória com uma certa distribuição de probabilidade. Embora a variável aleatória X designe uma característica de uma popula- ção, é frequente utilizar no âmbito da teoria da amostragem a designação X para a própria população. No estudo das variáveis aleatórias e distribuições, parte-se sempre de determinado modelo probabilístico e a partir dele calculam-se probabilidades de çertos resultados e observações. Na Inferência Estatística, o processo é, como alguns autores afirmam, o inverso - isto é, parte. se de certos resultados ou observações fornecidas para uma amostra e procura-se chegar a um modelo probabilístico. Suponha-se que a população em estudo é constituída por 1 O mil familias residentes em determinada região. Aquelas familias utilizam diferentes marcas de óleo alimentar que se encon- tram à disposição no mercado. A característica em estudo é o atributo utilizar o óleo A (X= 1) ou não utilizar o óleo A (X = 0). Seja p a proporção das familias que utilizam o óleo A. Escolhem-se ao acaso 100 familias e pretende-se determinar a probabilidade de, no conjunto das 100 familias, encontrar 30 que utilizem o óleo A (e as restantes 70 utilizarem um outro óleo). Convém aqui distinguir duas situações: •Situação 1 A proporção das familias que utilizam o óleo A é conhecida, isto é, o p é conhecido, supondo-se igual a 0,4. Então, para determinar aquela probabilidade, bastaria aplicar o modelo proba- bilístico adequado. Trata-se de uma distribuição hipergeométrica (ou binomial sem reposição), desde que as 100 familias tenham sido seleccionadas sem reposição - o que aliás é a situação que realisticamente tem mais sentido - já que se pressupõe que uma mesma família não pode ser seleccionada mais que uma vez. O PROCESSO DE AMOSTRAGEM Se por exemplo p = 0,4, isto é, se das 10000 familias, 4000 utilizam o óleo A, então a probabilidade pedida será dada por 1: •Situação 2 A proporção das familias que utilizam o óleo A é desconhecida, isto é, p é desconhecido. Esta é a situação que, na prática, sucede na maioria das vezes e o objectivo é diferente do da situação anterior. Ao serem seleccionadas as 100 famílias, o objectivo consiste em tirar conclu- sões sobre a verdadeira percentagem das familias que utilizam o óleo A, no total das 10000 familias. Ou seja, a partir dos resultados de uma amostra, pretende-se concluir para o universo ou população que neste caso é constituído pelas 10000 familias residentes em determinada região. É óbvio que as conclusões a que se chega-conterão,- em maior ou menor grau, uma certa dose de incerteza - que, no entanto, respeitadas certas condições, pode ser medida e controlada. Não se pode dizer que tais conclusões são verdadeiras ou falsas, a não ser que fossem inquiridas as 10000 familias e depois se verificasse qual a proporção das que utilizam o óleo A. Na situação 2 está-se no âmbito da inferência indutiva onde se pretende - utilizando toda a informação disponível a partir da amostra (do particular) - concluir para o universo ou população em estudo (o geral). Ora, a observação de toda a população (as 10000 familias) teria um preço demasiado elevado para se obter uma resposta sem qualquer grau de incerteza. Quando a população é conceptualmente infinita, a sua enumeração torna-se até impossível. Noutros casos, o processo de amostragem é destrutivo - a numeração completa do Universo é possível, mas teria custos demasiado elevados2. • 1 Aquela probabilidade poderá ser dada de forma aproximada por c~ggoJ 0,430 0,67º dado ~ue P se mantém quase fixo de prova para prova (de tiragem em tiragem), o que corresponderá ~-aplicação da distribuição binomial. Poder-se-ia ainda fazer a aproximação à distribuição normal Ja que n é suficientemente grande e p tem um valor intermédio. ---~-~-g~en~ralidadedOS-t8Stes de con.:.tr_o_lo-de_q_u-al-id-a-de_d_o_s_p.:.ro_d_u_to_s_ou--m-a-te-n-.a-is-q-ua_n_to-à res1stenc1a, durabilidade, etc., são exemplos disto. 21 li Questões prévias ao processo de amostragem 22 Uma definição clara dos objectivos do estudo a efectuar é fundamental e deve ser feita numa fase anterior ao início daquilo a que chamamos o processo de amostragem. Definidos os objectivos, nomeadamente as características da População que se pretende estudar, há que efectuar um levantamento e sistematização da informação disponível que no caso se torna relevante. A formulação e resposta àquelas questões prévias é por demais importante já que pode sugerir um quadro geral de alternativas cuja escolha acaba por condicionar alguma ou algumasfases de qualquer processo de amostragem. Exemplifique-se: i) Se a informação disponível sobre as variáveis (ou características) em estudo for bastante escassa, as alternativas que se põem na escolha da População, do método de amostragem e na dimensão da amostra serão em mais reduzido número. ii) Se a informação estatística obtida permitir concluir da existência de uma grande variabilidade na(s) característica(s) em estudo, dever-se-á utilizar uma amostra de maior dimensão. As fases _cl_º_!!_roct!_ssº--_~--~-11- de amostragem Depois de se identificar os dados que deverão ser recolhidos e o instru- mento (questionário estruturado, por exemplo) a utilizar para essa recolha, 0 passo seguinte consiste em definir um processo de amostragem adequado ao tipo de dados e ao instrumento de análise. No processo de recolha de dados é necessário desenvolver um processo sistemático que assegure a fiabilidade e comparabilidade dess_es dados. Mais especificamente, é necessário que se estabeleça à partida um plano de amos- tragem de acordo com a população alvo, com a definição da população a inquirir e com um processo adequado de administração do inquérito. O plano de amostragem deverá começar por determinar qual o nível de extensão geográfica em que o processo de amostragem deverá ser conduzido (mundial, nacional, regional, urbano, rural, grupo de indivíduos, etc.). A construção da amostra propriamente dita envolve várias etapas igualmen- te importantes e que são: 1. A identificação da população alvo/população inquirida. 2. O método de selecção da amostra. 3. A dimensão da amostra. 23 ESTATiSTICAAPLICADA 4. 1. A identificação da população alvo/ população inquirida 24 A identificação da população de uma forma clara e objectiva é imprescin- dível, embora possa parecer demasiado óbvia em muitas circunstâncias. Designa-se por população alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo de informações. Suponha que o proprietário de um edíficio onde irá funcionar um centro comercial pretende avaliar qual o impacte nos utilizadores do centro da existência de uma livraria. Qual a população alvo? Na verdade a população alvo é constituída por todos os potenciais utilizadores do centro. No entanto, neste caso particular, esta definição não é operacional, já que a informação disponível não permite distinguir os potenciais utilizadores dos poten- ciais não utilizadores do centro (numa fase anterior à conclusão do edíficio). Assim, várias alternativas na escolha da chamada população inquirida (aquela que será objecto de análise) se poderão pôr: a) Todos os residentes na cidade onde se situa o centro. b) Apenas aqueles de uma área circundante de raio inferior a 3 Km. e) Os moradores do bairro/freguesia onde se situa o centro. A escolha da alternativa - ou seja, qual a população inquirida - torna-se uma questão chave pois é a partir dela que se retirará a amostra. • Um estudo sobre as intenções de voto terá como população alvo todos aqueles que estão em idade e em condições de votar. No entanto, a população inquirida poderá incluir apenas aqueles que votaram nas últimas ele_iÇÕf:!S., • O PROCESSO DE AMOSTRAGEM Num estudo efectuado sobre.o.grau-de-satisfação.dos clientes-utilizadores-de embalagens de cartão canelado relativamente aos vários fornecedores existentes no mercado, é possível, pelo menos de uma forma aproximada, conhecer a população alvo através das Estatísticas Industriais do INE (repartida até pelos var~os sectores de actividade), podendo haver assim coincidência entre a popu- laçao alvo e a população inquirida naquele estudo. • Refira-se ainda que nos casos em que não há coincidências entre a popu- lação alvo e a população inquirida, as inferências indutivas dizem respeito à população inquirida e que se torna abusivo inferir para a população alvo. Resumindo, a população alvo é constituída por todos os elementos sobre os quais se deseja obter um determinado conjunto de informações. No entanto, em muitas situações, não é operacional inquirir uma amostra retirada da população alvo, havendo necessidade de definir qual é a população a inquirir, não coincidente com a população alvo, e a partir da qual se retirará a amostra. Em seguida, os respondentes serão seleccionados de entre a população a inquirir, de acordo com a unidade de análise. Por exemplo, num inquérito sobre o consumo das famílias em produtos alimentares, a unidade de análise é a família e o respondente poderá ser o elemento feminino do casal. Por último, é necessário definir qual o processo de amostragem e o tamanho da amostra mais adequados. Estes passos estão apresentados na figura seguinte. ESTATfSTICAAPLICADA Desenvolvimento de um plano amostral População alvo Processo amostral Dimensão da amostra População a inquirir Amostra final Método de recolha de dados 4.2. Os métodos de selecção da amostra 26 Qual o método que se deve adoptar quando se pretende seleccionar uma amostra? Existem dois grandes grupos de métodos para seleccionar amostras: os métodos probabilísticos, também chamados de amostragem casual e os mé- todos não probabilísticos ou de amostragem dirigida. Será sobretudo analisado o primeiro daqueles grupos, pois a amostragem casual tem diversas vantagens sobre a amostragem dirigida, permitindo ao investigador: i) Demonstrar a representatividade da amostra. ii) Medir explicitamente (em termos probabilísticos) o grau de incerteza com que se extrapola para a população/universo, isto é, o erro cometido por se usar uma amostra em vez da população. iii) Identificar explicitamente os potenciais enviesamentos. Refira-se ainda que a precisão e o custo inerente ao processo de amostra- gem são lactares determinantes na escolha do tipo de método a utilizar. O PROCESSO DE AMOSTRAGEM 4.2.1. Métodos de amostragem aleatória Devido às suas bases teóricas;-apoiadas na teoria ·das· proba:biliC!Mes, a: amostragem aleatória tem sido adaptada pela pesquisa em muitas áreas cien- tíficas. O grau de confiança associado aos resultados obtidos, quando se utiliza um processo de amostragem aleatório, pode ser medido e controlado. Do mesmo modo, pode ser evitado qualquer enviesamento provocado por uma escolha dirigida dos respondentes, uma vez que o processo de selecção é casual e mecânico a partir de uma listagem de todos os indivíduos. Estes factores podem ser considerados como as vantagens deste tipo de amostragem. No entanto, deverão ser também referidas as dificuldades em recolher uma amostra aleatória. E a principal dificuldade consiste na obtenção de uma listagem completa da população a inquirir. Estas listagens são, na maioria dos casos, difíceis de conseguir, de custo elevado, demoradas na sua obtenção e nem sempre de fiabilidade aceitável. O segundo tipo de dificuldades relaciona-se com as não-respostas. Depois de definidos os respondentes, não poderão haver substituições, pelo que as não-respostas constituem uma importante fonte de enviesamento e terá de ser feito tudo para que a sua taxa seja minimizada. Todas as novas tentativas (por entrevista pessoal, telefone ou correio) para obter respostas bem sucedidas implicam aumento de custos e demora na obtenção dos resultados. A amostragem aleatória é, sem dúvida, o processo mais caro, mas os custos tendem a tornar-se pouco importantes face à fiabilidade dos resultados obtidos. De uma forma genérica podemos dizer que nos métodos de amostragem casual a probabilidade de seleccionar determinado elemento da população é conhecida a priori e que tais métodos conduzem às chamadas amostras aleatórias. Importará caracterizar os métodos de amostragem casual mais frequente- mente utilizados: 1. amostragem aleatóriasimples 2. amostragem sistemática 3. amostragem estratificada 4. amostragem por c/usters 5. amostragem multi-etapas 6. amostragem multi-fásica. --------------- -·-----·--·- -- --------------------~~-----·-------·--· -· 27 ESTATÍSTICA APLICADA 4.2.1.1. Amostragem aleatória simples 28 Caracteriza-se por: i) Cada elemento da população ter a mesma probabilidade de ser selec- cionado; ii) Cada amostra de dimensão n ter a mesma probabilidade de ser escolhida. Há duas formas de obter uma amostra daquele tipo: 1 - a da lotaria; 2 - a dos números aleatórios. Para ilustrar o chamado método da lotaria, suponhamos que Ana, Bernardo, Carlos e Dora constituem a população de um atelier. Os quatro pretendem ter férias no mês de Agosto, mas apenas dois deles podem ir nesse período. Decide-se então colocar numa caixa quatro papéis com as letras A, B, C e D e retirar (sem reposição) uma amostra de dois daqueles papéis. Existem diferentes amostras de dimensão dois que podem ser seleccionadas, mas cada amostra ($;) tem a mesma probabilidade de ser escolhida, isto é: 1 1 P[S1]=(~)=5 ou seja, há seis amostras diferentes de dois elementos que são: S1 - Ana, Bernardo S2 - Ana, Carlos S3 - Ana, Dora S4 - Bernardo, Carlos S5 - Bernardo, Dora S6 - Carlos, Dora Por outro lado, cada elemento da população tem idêntica probabilidade de ser seleccionado, ou seja: 3 1 P[A] = P[B] = P[C] = P[O] = B = 2· Neste procedimento, constrói-se assim uma miniatura do universo ou popu- lação e a partir dela são seleccionados aleatoriamente os elementos que cons~ tituirão a amostra. O PROCESSO DE AMOSTRAGEM Este método é no entanto extremamente moroso, dadas as dificuldades de construção de uma miniatura do universo, o que fez com que tivesse caído em desuso. • Numa fábrica de automóveis trabalham 200 operários em 10 linhas de mon- tagem. Em cada uma dessas linhas trabalham 20 operários. Pretende-se obter uma amostra aleatória de 15 operários que semanalmente serão sujeitos a um teste de álcool, recorrendo à tabela de números aleatórios da página seguinte. Como obter aquela amostra? Inicie-se a leitura a partir, por exemplo, do terceiro grupo de colunas e obter- -se-ão os seguintes números com 3 algarismos Oá que o número total de operá- rios, N = 200): '660' que se rejeita, '083', ... '009', '140' '148', ... '154', ... '200' ... '165', '058', '191' ... '172' ... '100' ... '019' ... '111','116','011' quefarãopartedaamos- tra. Assim escolher-se-á o 9º, 11º e 19º da 1ª linha de montagem, o 3º e o 202 da 5' linha de montagem, o 11' e 16' da 6' linha de montagem e assim sucessiva- mente. • As tabelas de números aleatórios são geradas por forma a garantir a natureza aleatória dos números que as compõem. Existem diferentes formas de obter números aleatórios, embora seja mais simples recorrer às tabelas já existentes. A grande dificuldade que os métodos de amostragem casual simples apre- sentam é a morosidade, sobretudo quando as amostras são de grande dimen- são, a não ser que o processo de obtenção dos elementos que constituirão a amostra seja totalmente computorizada e se disponha de uma listagem dos -elementos que constituem a população. 29 ESTATfSTICA APLICADA 30 82 41 73 24 23 56 79 72 36 60 84 59 09 51 98 40 89 95 94 24 54 91 38 05 36 84 99 98 05 72 19 07 80 09 61 83 40 95 11 76 37 59 52 06 48 11 65 73 07 87 96 25 26 18 17 76 94 62 75 37 EXTRATO DE UMA TABELA DE NÚMEROS ALEATÓRIOS 89 96 97 87 73 39 90 09 87 43 38 89 94 42 16 75 54 95 83 33 06 96 66 69 14 42 24 25 53 41 38 82 86 84 48 83 40 02 02 52 20 09 62 21 50 40 06 07 03 31 06 78 84 18 60 06 35 44 40 25 66 04 74 08 37 78 50 19 93 00 96 80 14 09 96 14 80 18 35 44 14 97 22 79 15 40 53 24 32 40 54 68 21 28 99 67 28 12 57 35 75 53 20 05 50 87 56 20 16 57 59 05 80 19 19 10 27 65 32 85 43 43 05 17 20 53 38 78 21 10 04 50 64 94 59 86 90 85 42 86 90 92 18 88 36 08 45 01 90 89 29 97 47 79 11 90 72 25 36 11 19 66 11 60 93 01 17 59 93 66 78 95 99 03 78 14 34 52 62 04 36 22 20 79 08 88 42 29 97 44 58 80 13 75 59 67 97 72 47 74 40 68 48 83 61 6< 25 65 63 31 07 48 86 81 00 02 03 70 08 22 97 72 92 38 85 72 23 33 38 22 22 89 77 74 96 56 69 67 66 66 i i O PROCESSO DE AMOSTRAGEM 4.2.1.2. Amostragem casual sistemática Este método é também chamado quasi-aleatório por não dar a todas as amostras que se podem retirar de uma mesma população-a mesma protlacili=- dade de ocorrência. Para aplicação deste método é necessário calcular o rácio K = _!j_. Em seguida, escolhe-se aleatoriamente um número, no intervalo n [1, K], que servirá como ponto de partida e primeiro elemento da amostra. Adicionando ao primeiro valor obtido o rácio K (arredondando o resultado por defeito), obtém-se o segundo elemento e a adição sucessiva do mesmo rácio permite encontrar os restantes elementos da amostra. Como se verifica, ape- nas o primeiro elemento é escolhido aleatoriamente enquanto que os restantes são determinados de modo sistemático pelo rácio. Por exemplo, se K = 2, então a dimensão da amostra será constituída por metade {50%) da dimensão da População. Se K = 20, então a amostra será apenas 5% da População. Chama-se amostra sistemática a uma amostra obtida através deste proce- dimento. Em geral, o primeiro elemento a fazer parte da amostra é seleccionado aleatóriamente por um processo que se escolhe à partida. Suponha-se que uma empresa industrial pretende fazer um inquérito por amostragem aos seus 1000 clientes. A partir da lista dos seus 1000 clientes, a empresa poderá retirar uma amostra cujo primeiro elemento é escolhido aleatoriamente e os seguintes de forma sis- temática. No caso de a dimensão da amostra pretendida ser n = 100, então K seria igual a 1 O; isto é, após a escolha aleatória do primeiro cliente, os restantes clientes seriam retirados da lista de 1 O em 1 O a partir daquele. Embora este procedimento possa ser visto como uma aproximação mais prática da amostragem casual simples, pode no entanto revelar-se inadequado no caso em que existam determinadas «regularidades» na lista dos elementos da população, que prejudicarão a representatividade da amostra. Isto é, este método é de mais fácil execução permitindo mais informação por unidade de custo dispendida, desde que se salvaguarde a aleatoriedade da forma como a lista está ordenada, requisito que a amostragem casual sistemática exige. ·-- -----·--------- 31 ESTATÍSTICA APLICADA No caso do exemplo anterior, poder-se-ia verificar a posteriori que os 100 clientes incidiam apenas numa área geográfica muito restrita ou num conjunto de sectores económicos muito limitado e com pouca expressão no negócio da empresa. A situação limite é o caso em que de uma lista de utilizadores de um voo aéreo fretado para uma viagem oferecida a casais (em que o nome do homem aparece invariavelmente em 1 º lugar e o da respectiva mulher a seguir) se retira uma amostra casual sistemática. Este método de selecção conduziria a uma amostra formada só por mulheres ou só por homens no caso em que o Kfosse par. As empresas que executam estudos de mercado utilizam frequentemente o método denominado Random Route, que mais não é do que um processo de amostragem casual sistemática, já que partem de um ponto de partida escolhido aleatóriamente, seguindo depois um itinerário obtido com intervalos sistemáticos (inquéritos de porta em porta por exemplo). Um outro exemplo são os inquéritos por telefone sobre os níveis de audiência de certos progra- mas televisivos. 4_2. 1 _3_ Amostragem estratificada 32Uma amostra estratificada obtém-se separando os elementos da população em grupos mutuamente exclusivos denominados estratos 1 e a partir destes a selecção de uma amostra aleatória simples dentro de cada estrato. Por mutuamente exclusivos pretende-se dizer que nenhum elemento da população pode estar simultaneamente presente em dois ou mais estratos. Este método permite, no caso de se conhecerem algumas características do universo ou população, obter resultados mais eficientes2 com uma amostra de menor dimensão e igual representatividade. 1 Grupos homogéneos relativamente à característica ou características a estudar. 2 Menor custo, menor tempo e menor possibilidade de erro. O PROCESSO DE AMOSTRAGEM Essa eficiência será ainda mais importante se a variável a ser estratificada se encontrar correlacionada com várias outras variáveis como por exemplo idade, sexo, rendimento, status, área geográfica;··etc:;·o-·que-petmititã-esttati- ficar simultaneamente segundo várias variáveis, desde que se assegure uma adequada representatividade dos estratos existentes na população. Quando se utiliza um processo aleatório simples, o erro aleatório cometido resulta de dois erros diferentes: o erro dentro de cada estrato e o erro entre os diferentes estratos. Esta última componente é nula quando a amostra é estratificada, uma vez que se recolhem as opiniões dos diferentes estratos da população. A amostragem estratificada é ainda mais efectiva quando a diferen- ça entre os vários estratos é mais acentuada, isto é, quando a dispersão dentro da população é elevada. Existem dois modos de obtenção de amostras estratificadas. No primeiro, cada estrato está representado na amostra proporcionalmente à sua importân- cia (ou tamanho) na população total. No entanto, nos diferentes estratos, dimensões maiores poderão não estar associadas a uma maior dispersão ou variabilidade. Por essa razão, um modo de conseguir uma maior represen- tatividade da amostra será representar os estratos na amostra tendo em conta a dispersão dentro de cada estrato da população. Este segundo modo de obtenção de uma amostra estratificada só pode ser aplicado nos casos em que se conhece a variabilidade dentro de cada estrato da população ou, no mínimo, quando existem estimativas dessa variabilidade retiradas de inquéritos feitos a populações semelhantes. Imagine que se quer construir uma amostra de empresas consumidoras de embalagens de cartão canelado em Portugal. A população em estudo é constituída pela totalidade das empresas portugue- sas que utilizam aquele tipo de embalagem e cujo número, em termos aproxi- mados, se pode obter a partir das Estatísticas Industriais (principais produtos consumidos por cada um dos subsectores da CAE). As variáveis de estratificação são: principais sectores de actividade e áreas geográficas mais importantes. Tendo em atenção a importância do consumo relativo de cada um dos sub- i-----sectores-da-cAE- e ·o-número-de-empresas··existentes-em-ca:da-um-·daqaeles· subsectores, obtiveram-se os dados necessários para o preenchimento da última 33 ESTATÍSTICA APLICADA 34 coluna do quadro seguinte. Posteriormente e de acordo com a localização das empresas dos vários subsectores, foram preenchidas as restantes colunas. Obteve-se assim o quadro do universo estratificado seguinte: Áreas NORTE geográficas CENTRO SUL OUTROS TOTAL (Braga (Coimbra, (Lisboa, (Restantes Principais e Aveiro Setúbal sectores Porto) e Leiria) e Santarém) distritos) Alimentação 180 160 310 200 850 Bebidas 150 70 230 50 500 O. bens de consumo 1 260 550 700 190 2700 B. intlb. equip. 1 070 610 600 170 2450 . TOTAL 2660 1 390 1 840 610 6500 Supondo igual variabilidade em todos os estratos poder-se-ia utilizar a afixa- ção proporcional para constituir a amostra; no quadro abaixo exemplifica-se o caso de a dimensão da amostra ser de n = 650 (10% da população). NORTE CENTRO SUL OUTROS TOTAL Alimentação 18 16 31 20 85 Bebidas 15 7 23 5 50 O. bens de consumo 126 55 70 19 270 B. inVb. equip. 107 61 60 17 245 TOTAL 266 139 184 61 650 • O PROCESSO DE AMOSTRAGEM 4.2.1.4. Amostragem por clusters Este tipo de amostragem torna-se particularmente-útil-quando-a-população--· se encontra dividida num reduzido número de grupos ou c/usters, caracteriza- dos por terem uma dispersão idêntica à população total, isto é, os grupos / deverão, tanto quanto possível, ser «microcosmos» da população a estudar. Primeiro, seleccionam-se aleatoriamente alguns dos grupos. Em seguida, in- cluem-se na amostra todos os indivíduos pertencentes aos grupos selec- cionados. Trata-se afinal de um processo de amostragem casual simples em que cada unidade é um c/uster. Selecção aleatória dos grupos B e D Amostra = C/usters Jm lff 0 o o o o o o ª- o Suponha que se pretende conhecer as atitudes dos trabalhadores da área industrial do Barreiro sobre as suas condições de trabalho. É mais operacional compilar uma lista de fábricas daquela área do que uma outra onde constem os trabalhadores nominalmente (e até provavelmente impossível de elaborar). Neste caso, cada fábrica constitui um cluster de trabalhadores. Apenas uma parte destes c/usters (fábricas) participarão na amostra. Finalmente serão inquiridos todos os trabalhadores que fazem parte dos clusters (fábricas) considerados na amostra. Assinale-se que, neste tipo de amostragem, alguns c/usters serão ignorados. Se estes forem semelhantes aos incluídos na amostra estará assegurado um elevado nível de precisão. • Este tipo de amostragem é extremamente utilizado quando se torna impra- ticável ou até impossível construir uma lista de todos os elementos que consti- ,___ __ tuem determin-ada população sendo, no entanto, muito mais fácil listar grupos desses mesmos elementos. 35 ESTATfSTJCA APLICADA 4.2.1.5. Amostragem multi-etapas 36 O primeiro passo deste tipo de amostra é idêntico ao anterior. A população encontra-se dividida em vários grupos e seleccionam-se aleatoriamente alguns desses grupos. No passo seguinte, também os elementos de cada grupo são aleatoriamente escolhidos. Este processo pode multiplicar-se por mais de duas etapas se os grupos estiverem divididos em sub-grupos. Num estudo de mercados internacionais foram seleccionados dois países para se identificarem as lácticas de posicionamento a seguir para as pastas dentífricas. Em cada um dos países escolhidos foram seleccionados cinco centros urbanos e, dentro destes, catorze estabelecimentos comerciais. Em todas as etapas (paí- ses, centros urbanos, estabelecimentos comerciais) as escolhas resultaram de um processo aleatório. Selecção aleatória 2 Países 0 5 Centros urbanos 14 Estabelecimentos comerciais Amostragem multi-etapas Países 1 2 3 4 123456 mnn1ITTmm mnl ITTl 1mn • Imagine que se pretendia conhecer a aceitação de um novo produto de higiene pelas potenciais consumidoras (mulheres adultas) na área da grande Lisboa. Obviamente que, embora não sendo impossível construir uma lista onde·-·· constassem todas as mulheres adultas residentes naquela área, isso seria não O PROCESSO DE AMOSTRAGEM só extremamente dispendioso como a morosidade na sua obtenção a tornaria rapidamente desactualizada. Neste·caso, poder-se-á utilizar uma variante do método de amostragem·casuatl-------- por c/usters - a amostragem por áreas em etapas múltiplas: 1' A área da Grande Lisboa seria dividida em concelhos (c/usters) e proce- der-se-ia à selecção aleatória de algum destes concelhos. 2' A partir dos concelhos escolhidos anteriormente proceder-se-ia à selecção aleatória de algumas freguesias (c/uslers). 3º De igual modo, cada freguesia seleccionada seria dividida em quarteirões (clusters) procedendo-se à selecçãoaleatória de alguns destes. 4º Ponderando cada quarteirão pelo número de fogos existentes, seleccionar- ·se-ia uma amostra sistemática dos fogos que fariam parte da amostra. 5' Finalmente seriam inquiridas as mulheres adultas moradoras nestes fogos. Caso exista em determinado fogo mais do que uma mulher adulta, esco- lher-se-ia aleatoriamente uma delas (amostra casual simples). Sublinhe-se que a probabilidade de seleccionar um determinado c/uster (con- celho, freguesia, quarteirão) é sempre proporcional à sua população. • Como desvantagem deste método adiante-se o facto de que os possíveis erros de amostragem se poderem multiplicar, dado que ao longo deste proces- so se vão utilizando várias sub-amostras com a possibilidade de erros de amostragem em cada uma delas. A preocupação com a dimensão e precisão da amostra é aqui uma cons- tante a nível de cada uma das etapas deste método. 4.2.1.6. Amostragem multi-fásica Não deverão ser confundidos estes dois processos de amostragem: multi- ·etapas e multi-fásicas. No primeiro processo as unidades amostrais variam de uma etapa para outra. No exemplo referido no ponto anterior, as unidades amostrais eram, sucessivamente, os países, os centros urbanos e os estabe- lecimentos comerciais, enquanto na amostragem multi-fásica define-se sempre a mesma unidade amostral para todas as fases de extracção da amostra. i----Na-primeira-fase;·recolhem 0se-dados-sobre·-determinadas-características···-··--· dos respondentes - por exemplo, o seu comportamento e frequência quanto 37 ESTATÍSTICA APLfCADA 38 ao consumo de determinado produto, variáveis demográficas, tamanho das empresas, a sua disponibilidade para responder novamente a um inquérito. Esta informação pode ser usada para a definição de uma listagem dos possí- veis respondentes à segunda fase do inquérito. É então retirada desta listagem uma segunda amostra que responderá a um questionário com um nível de profundidade mais elevado. Para avaliar o potencial do mercado internacional de micro-computadores, poderá ser aconselhável realizar primeiro um inquérito pelo telefone a nível inter- nacional que permita determinar, para diferentes sectores de actividade e tamanhos das empresas, os grandes compradores destes produtos. Em seguida, proceder-se-ia à listagem dessas empresas com base nos resultados do inquérito. Desta listagem seria retirada uma amostra para a qual se estudaria, em maior profundidade, o seu comportamento consumidor, as suas características-chave em termos de escolha do vendedor, quem na empresa é responsável pela com- pra, quais os principais utilizadores do produto, etc. Dependendo do orçamento de pesquisa, dentro de cada empresa poderiam ser entrevistados todos os parti- cipantes-chave na decisão de compra, utilizadores e responsáveis pela compra, ou apenas alguns deles. • Antes de se tecerem algumas considerações sobre os métodos de amos- tragem dirigida (não probabílisticos), importará esclarecer que os diferentes tipos de métodos de amostragem aleatória que acabámos de abordar não são m~tuamente exclusivos, podendo ser utilizados conjuntamente em fases dife- rentes do processo de amostragem. Por outro lado, fique bem claro que uma amostra obtida por um método de amostragem do tipo aleatório não garante por si só uma resposta correcta (a verdadeira, a que se obteria se se utilizasse o universo). No entanto, garante, isso sim, a capacidade de medir a probabilidade de obter a resposta errada. Existem outros proce;ssos de extrair amostras, sendo muitos deles combina- ções das técnicas anteriormente descrttas com outras técnicas de amostragem não aleatória ou dirigida, que se apresentarão em seguida com maior detalhe. ! ) O PROCESSO DE AMOSTRAGEM 4.2.2. Métodos de amostragem dirigida Aqui a selecção de cada elemento que fará parte da amostra é-baseada . ------ em maior ou menor grau em juízos de valor sobre a população alvo. Pretende-se que a amostra represente certas características que se conhe- cem sobre a população, não sendo no entanto possível conhecer a proba- bilidade de determinado elemento do universo ser seleccionado para constituir a amostra. Fazem parte deste grupo um grande número de métodos tais como: a amostragem por conveniência, o método intencional, a amostragem snowball, sequencial e ainda o método de amostragem por quotas. Uma amostra obtida através de um destes processos, e se não se pretende generalizar os resultados obtidos a toda a população, pode ser adequada nas seguintes condições: i) O estudo constitui apenas uma primeira experiência ou a primeira fase de um estudo mais alargado. ii) Existe uma maior preocupação em aperfeiçoar um questionário do que em recolher resultados fidedignos. iii) É impossível utilizar qualquer tipo de amostragem aleatória (casual). 4.2.2.1. Amostragem por conveniência Este tipo de amostra baseia-se na premissa de que certo tipo de respon- dentes apresentam uma maior disponibilidade ou se encontram mais aces- síveis para responder ao inquérito. Dadas as dificuldades e os custos elevados da realização de um processo de amostragem aleatório, em muitas situações a amostragem por conveniência torna-se particularmente atractiva e, embora não se possa falar de representatividade, frequentemente é possível evitar um enviesamento sistemático. Este tipo de amostragem pode também ser utilizado na fase de pré-teste a um questionário. Neste método, selecciona-se a amostra em função da disponibilidade e acessibilidade dos elementos que constituem a população alvo. Uma das aplicações deste método é o caso de inquéritos sobre a aceitação de determinado produto que se encontra nos locais de venda, aproveitando assim a presença dos consumidores actuais ou potenciais, que são seleccio- ___ ,,_ ados-desde-que-se-mostrem-disponíveis-para-re·sponder. -- ·-------- ---• 39 ESTATÍSTICA APLICADA 4.2.2.2. Amostragem intencional 40 Neste procedimento, a escolha dos elementos a constituirem a amostra baseia-se na opinião de uma ou mais pessoas que são fortemente conhece- doras das características específicas da população em estudo que se pretende analisar. Se, por exemplo, a população forem os vendedores ambulantes, torna-se impossível obter uma lista daqueles e a ajuda para a selecção dos elementos da amostra poderia vir da Polícia de Segurança Pública ou das Associações de Comerciantes ... No caso da população em estudo serem os homossexuais, ou os consumi- dores de drogas pesadas, a amostra, em ambos os casos, teria de consistir em volurtários dispostos a assumir as situações respectivas e a ajuda poderia vir de conhecedores dos habituais frequentadores de certo tipo de bares e de certos locais, ou de responsáveis de determinadas instituições de prevenção e combate à droga, por exemplo. 41+1i@@r9 Em países menos desenvolvidos um inquérito que se pretenda realizar para recolha de informação sobre o comportamento dos consumidores poderá ser aplicado no mercado, a uma amostra de consumidores que o frequentam nos vários dias da semana. Mas pode ainda ser adaptado um outro processo de recolha de informação, escolhendo para respondentes aqueles que se pensa conhecerem melhor a situação, isto é, os hábitos de consumo da população. Poderão ser os mais idosos, os chefes ou os dirigentes religiosos, autênticos «peritos>> cujo conhecimento advém de uma longa vivência dentro da comunidade . • Um outro exemplo diz respeito à força de vendas das empresas que, em certos ambientes e situações, pode constituir uma importante fonte de informação pelo seu conhecimento das necessidades e interesses dos consumidores. Deverá ter-se cuidado especial ao utilizar-se estimativas quantitativas derivadas desta fonte, sobretudo quando se referirem ao potencial de vendas daempresa, onde existe um risco de maior enviesamento devido a opiniões subjectivas,--- ··- ·--·- • :i· 1 O PROCESSO DE AMOSTRAGEM 4.2.2.3. Amostragem snowball Este processo de amostragem é partiC:úlarmentei a.conselnaao quariâo se-- ·-- pretende estimar características relativamente raras na população total. É uma forma de abordagem intencional que se utiliza frequentemente em estudos cujas populações são pequenas e muito específicas. Este tipo de método utiliza-se em certos estudos em que à partida é o próprio inquirido que sugere outros eventuais inquiridos (snowball) bem inse- ridos na temática que se pretende estudar. O método consiste em escolher inicialmente os inquiridos de modo aleatório e, numa segunda fase, escolher respondentes adicionais a partir da informação obtida dos primeiros. Na maior parte dos casos, a população alvo é muito restrita e encontra-se muito dispersa por uma série de organismos diferenciados (ministérios, empre- sas, laboratórios, centros de investigação universitários, etc). Num estudo a nível europeu sobre o software utilizado pelos técnicos de estudo de mercado, foram consultados os técnicos das empresas portuguesas a quem foi pedida a identificação de outras empresas nos paises da U.E. A amostra irá sendo aumentada à medida que os inquiridos vão sugerindo novos nomes. • 4.2.2.4. Amostragem sequencia/ Outro tipo de amostragem dirigida que pode ser considerado como relati- vamente semelhante ao método multi-fásico é a amostragem sequencial. Neste processo de amostragem, a realização da fase seguinte só é decidida depois de analisados os resultados da fase anterior. Com o desenvolvimento das respostas computorizadas aos inquéritos, este processo tenderá a tornar- se cada vez mais popular. Os respondentes vão sendo entrevistados e os ~ad_o_s_analisados simultan_Ei.<1mef!!_~ou em_certos momentos pré-defi11_idos, tomando-se, em seguida, a decisão de continuar ou não com as entrevistas . 41 ESTATÍSTICA APLICADA 4.2.2.5. Amostragem por quotas 42 Este método não probabilístico pode ser representado como algo equiva- lente à amostragem aleatória estratificada. Na amostragem por quotas, estabelece-se uma quota para cada estrato que seja proporcional à sua representação na população e assegura-se que um número mínimo de elementos faça parte da amostra, para cada estrato especificado. Pretende-se assim obter uma amostra que seja semelhante à população em certas características pré-especificadas, ditas características ou variáveis de «controlo>). Seja P a dimensão da população a inquirir e P1 o número de indivíduos dessa população no estrato 1. Se a dimensão da amostra for S, então S x ( ~ ) será o número de indivíduos na amostra pertencentes ao estrato 1. Por exemplo, se numa população de 10000 indivíduos, 2500 pertencem ao grupo etário dos 25 aos 35 anos, numa amostra de 400 indivíduos retirados desta população, 100 deverão ter idades dentro daquela faixa. Em resumo, na amostragem por quotas, as proporções dos vários sub-gru- pos na amostra reflectem a sua distribuição dentro da população. A cada entrevistador são dadas as características que os entrevistados deverão satisfazer. As entrevistas terminarão quando se obtiverem as quotas pré-estabelecidas para cada sub-grupo. Existem dois modos de definição das quotas: independentes e interrelacio- nadas. Com quotas independentes simplifica-se o trabalho dos entrevistadores uma vez que necessitam de obter respostas que satisfaçam cada uma das quotas separadamente. Suponha-se que se pretende estudar as características dos automóveis con- sideradas mais importantes pelos consumidores. Neste caso, poder-se-ia formular a hipótese de tais características poderem ser diferenciadas em função-de.certas __ _ O PROCESSO DE AMOSTRAGEM variáveis da população ditas de «controlo» e que nesta situação particular seriam as seguintes: Idade: 2 categorias (menos de 40-anos-e··mais-deAO-anos) · - ·- ------- ----- - Sexo: 2 categorias (1/4 mulheres e 3/4 homens) Educação: 4 categorias Rendimento/Status: 5 categorias Seriam assim, 2 x 2 x 4 x 5 = 80 estratos diferentes determinando-se de se- guida os valores (quotas) para cada um deles. • Como alguns problemas e desvantagens deste método saliente-se que: - ainda que uma amostra por quotas e a população sejam coincidentes nas medidas para as quais conhecemos as características de ambas, podem diferir substancialmente noutras características para as quais temos apenas o valor da amostra; - daí que as variáveis de «Controlo» devam ser bem seleccionadas e a ausência de uma delas, importante no estudo em causa, poderá condu- zir a incorrecções graves. Por outro lado, o próprio preenchimento de todos os estratos (células) nem sempre se torna de fácil execução. A amostragem por quotas foi largamente utilizada nos E.U.A. durante as décadas de 30 e 40 para recolha de informação a nível nacional, mas foi sendo posta de parte com o desenvolvimento de métodos de amostragem aleatória. Actualmente, é altamente criticada pelos estatísticos devido à sua fraqueza teórica e, simultaneamente, defendida pelos técnicos de pesquisa de mercados e de estudos de opinião pelo seu reduzido custo, facilidade de administração e ainda por ultrapassar certo tipo de problemas tais como a falta de uma listagem completa e actualizada da população a inquirir e a necessidade de informação urgente para tomada de decisão. As principais vantagens podem ser assim resumidas: rapidez, economia e simplicidade administrativa. --------------- - 43 ESTATÍSTICA APLICADA 44 A grande desvantagem deste processo de amostragem é o enviesamento introduzido pelo entrevistador na selecção dos respondentes e que é de muito difícil medição e controlo. Conscientemente ou não, o entrevistador tem ten- dência para: - escolher determinado tipo de inquiridos e evitar outros por deformação ou simpatia pessoal; - tentar rentabilizar ao máximo o seu trabalho, fazendo as entrevistas seguidas à mesma hora do dia e no mesmo local, quando deveriam ser mais espaçados no tempo e na localização. Algumas destas desvantagens podem ser minimizadas através de formação adequada dos entrevistadores e controlo de todo o processo de recolha de informação. O PROCESSO DE AMOSTRAGEM Exercícios propostos 1. Defina os conceitos de população e amostra. 2. Quais as etapas a seguir na construção de uma amostra? 3. Uma empresa de estudos de mercado pretende realizar um inquérito sobre as preferências de consumo dos portugueses relativamente às fraldas descartáveis para bébé. Qual a população alvo e a população a inquirir? 4. Quais as vantagens e desvantagens dos métodos probabilísticos de selecção de uma amostra? 5. Quais as vantagens e desvantagens dos métodos dirigidos de selecção de uma amostra? 6. Que técnicas se poderão utilizar para recolha de uma amostra aleatória sim- ples? 7. Quais as diferenças entre um processo amostral estratificado e um por quotas? 8. Por que razão se designa a amostragem causal sistemática como quasi-alea- tória? 9. Em que situações é aconselhável utilizar um processo snowball de recolha de uma amostra? ---------------------------- ------- ···-··· 45 Capítulo VI Distribuições amostrais ' --·------------------·---- -~-------------~ " !' ' 1 i r J Introdução D- Quando se pretende estudar determinada população, interessa fazê-lo ana- lisando certas características (ou variáveis) dessa população. Essas variáveis podem ser discretas ou contínuas e o seu «comportamen- to., pode ser definido segundo uma função de probabilidade (se a variável é discreta) ou função de densidade de probabilidade (se a variável é contínua). Como se referiu anteriormente,embora uma variável X designe uma carac- terística duma população, é frequente utilizar, no âmbito da teoria da amostra- gem, a designação X para a própria RoPulaç1jo. Para que o comportamento de X seja conhecido, basta conhecer a sua distribuição e o valor dos parâmetros caracterizadores dessa distribuição. Por exemplo, tratando-se de uma população Bernoulli, terá de ser conhecido o valor de p; tratando-se de uma população normal há necessidade de conhecer os valores de µ e cr. Como se sabe, numa população Bernoulli, p representa a probabilidade de um elemento da população possuir o atributo em estudo; numa população normal, µ e cr representam, respectivamente, a média e o desvio-padrão da característica em estudo. Acontece, porém, que os parâmetros de uma população só serão conheci- dos se for possível estudar todos os elementos que a ela pertencem, facto só possível em populações finitas e, regra geral, pouco numerosas. Os custos resultantes do estudo de toda uma população são, por vezes, tão elevados, que a melhor alternativa consiste em retirar uma amostra dessa população e estimar esses parâmetros a partir dos valores amostrais, inferindo assim da amostra para a população. Mas nem todas as amostras permitem que, a partir dos seus resultados, se faça uma generalização a toda a população. Os métodos de inferência estatística, apresentados nos capítulos seguintes, pres- supõem que a amostra é casual ou aleatória. 49 ESTATÍSTICA APLICADA 1. 1. Amostra aleatória 50 Considere-se uma população da qual interessa estudar a característica X, cuja função de probabilidade ou f.d.p. é dada por f (x) . Se for retirada dessa população uma amostra (A,) de dimensão n, obtém-se (x 1. x ~ • ... , x ~ ), onde o k-ésimo elemento x~ (k = 1, 2, ... n) é um valor do conjunto de valores que X pode assumir. Se for retirada uma outra amostra (A2) , de igual dimensão, obtém-se 2 2 2 . d (x 1, x 2, ... , x n) . Podem, assim, retirar-se sucessivas amostras a mesma dimensão 1 1 1 amostra A1 : (x 1, x 2 , ... , x n) A r r r amostra r: (x 1, x 2, ... , x n) Pode ser definida uma amostra «tipo» que, por gerar as várias amostras (A1, A2, ... , A,, ... ), pode ser entendida como uma variável aleatória n-dimensional com função de probabilidade ou f.d.p. conjunta l(x1, x2, ... , Xn). Facilmente se constata que as variáveis aleatórias X1, X2, ... , Xn assumem os mesmos valores de X, uma vez que são elementos de uma amostra, todos eles retirados de uma mesma popula- ção, segundo, portanto, a mesma função de probabilidade ou f.d.p. da população: f(X1) = f(X2) = ... f(Xn) = f(x). Acrescente-se ainda que, porque (X1, X2, ... , Xn) é uma amostra reco- lhida segundo um processo casual ou aleatório, os seus elementos ouva,riá.v!lis aleatórias X1, X2 , ... , Xn são independentes entre si. DISTRIBUIÇÔES AMOSTRAIS Seja uma amostra aleatória de dimensão n = 3, (X1, X2. X3), retirada duma população Bernoulli. Que amostras diferentes podem ser recolhidas da população? Deduza a função de probabilidade conjunta daquela amostra. Qual a mais provável no caso de se ter p = O, 1? (X1, X2, X3) => Amostra aleatória Amostras concretas: (O, O, O) amostra em que não ocorre qualquer sucesso. (O, 1, O) } (0, o, 1) amostras em que ocorre apenas um sucesso (1, O, O) (0, 1, 1) } (1, 1, 0) amostras em que ocorrem dois sucessos (1, o, 1) (1, 1, 1) amostra em que ocorrem apenas sucessos ····--·······-··-----·--- 51 ESTATÍSTICA APLICADA 52 Distribuição de probabilidade conjunta da amostra aleatória (X1, X2, X3 ): l(x1) Assim, a probabilidade de ocorrer uma amostra (x1, x2, x, ) com p =·o, 1 é dada por: l(X1 ,X2,X3lp = 0,1) = 0,1X,+X,+",, 0,93-(x,+x,+x,) Concretizando: 1(0, O, OI p = 0,1) = 0,1º . 0,93 = 0,729 1(0, 1,0lp = 0,1)} 1(0, O, 1 I p = 0,1) = 0,1 1 . 0,92 = 0,081 1(1,0,0lp = 0,1) 1 (O, 1, 1 I p = O, 1) \ 1(1, O, 1 lp = 0,1) = 0,1 2 . 0,91 = 0,009 1(1, 1,0lp = 0,1) 1(1, 1, 1 lp = 0,1) = 0,1 3 . 0,9° = 0,001 ----------------·· Conclui-se que a amostra mais provável é aquela em que ocorrem três insu- cessos (X1, X2, X3) = (0,0,0) o que aliás faz sentido pois é extremamente baixa a probabilidade de ocorrência dum sucesso (a verdadeira proporção de sucessos na população é p = O, 1 ). • DISTRIBUfÇóES AMOSTRAIS 1.2. Parâmetros e estatísticas Um parâmetro é uma característica duma população, isto é, um valor carac- terizador da população que, embora possa ser desconhecido, é fixo. Uma estatlstica é uma característica da amostra, melhor dizendo, é uma função da amostra e, portanto, assume valores diferentes para diferentes amostras (ou seja, é uma variável aleatória). Se, para cada uma das amostras A1, A2, .... A,, ... referidas no ponto anterior, se calcular, por exemplo, a res- . 'd' b . - 1 - 2 - r pecllva me 1a, o ter-se-ia x , x , .. ., x , ... Poder-se-ia então dizer que a média (amostral) X é uma variável aleatória amostral, que assume um valor concreto ( x ') para cada amostra concreta (A,). Assim, a média µ e o desvio-padrão cr duma população normal ou a média p e o desvio-padrão ._/p (1 - p) duma população Bernoulli são parâmetros. A média duma amostra {chamada também média amostral) recolhida de determinada população é uma estatística e designa-se por X. O desvio-padrão duma amostra é também uma estatística e designa-se por S. Suponha que se pretende estudar a reacção despertada por um novo produto a lançar no mercado. Estamos interessados em conhecer a idade média e a proporção de interessados no novo produto. Uma resposta exacta àquelas questões só seria obtida se perguntássemos à totalidade da População em estudo ... Poderemos estimar aqueles parâmetros através de uma amostra? A resposta é afirmativa. É que, a partir duma amostra, podemos obter as estatísticas: idade média (idade amostral) e proporção de interessados no novo produto na amostra . • 53 ESTA TJST/CA APLICADA 54 Alguns exemplos de estatísticas: n - T1 = X = * 2, X; é a chamada média amostral i= 1 n ~ -2 4' (X;- X) - T2 = 52 = _,_·=_1 ___ _ n n ~ -2 4' (X; - X) é a chamada variância amostral - T3 = 5•2 = ~'~·=~'--- n - 1 é a chamada variância amostral corrigida n - T4 = 2, X'f i=t X1 + Xn -Ts = 2 - T5 = + { min (X1, X2, ... , Xn) + max(X1, X,. ... , Xn) }. • Como facilmente se pode verificar, cada amostra aleatória retirada duma população X irá dar origem a estatísticas com valores diferentes. Daí que as estatísticas sejam variáveis aleatórias e portanto tenham uma certa distribuição de probabilidade. Chamam-se distribuições amostrais às distribuições de probabilidade das estatísticas. Como obter então a distribuição amostral de uma estatística? Há duas alternativas: uma teórica que se baseia na distribuição conjunta da amostra e outra empírica que consiste em retirar sucessivas amostras, calcular o valor concreto da estatística que se pretende e obter a respectiva distribuição de frequências. ·- ··--·-··- ··-···-··-- j. =i DISTRIBUIÇÕES AMOSTRAIS Antes da apresentação das principais distribuições amostrais das estatísti- cas mais importantes é necessário introduzir um parentesis e falar de duas leis muito importantes na inferência estatística: a lei dos grandes números e o teorema do limite central, dois conc~it~;-;e.1acionadoseiitresi e absolutamente fundamentais à compreensão dos métodos de inferência. 1.3. Lei dos grandes números A Lei dos grandes números desenvolve-se a partir da desigualdade de Chebishev que convém aqui recordar: Se X for uma variável aleatória com µ = E [X], Var [X] = cf e E um qualquer valor real positivo (E > O), então P [ IX - µI 2 E ] :". Var [X] E2 isto é, X difere deµ em mais de E com uma probabilidade nunca superior a Var [X]IE2 . Para o caso particular em que E = K cr a desigualdade prova que 1 P [ IX - µI ;, K cr] :". - 2-K ou seja, a probabilidade de que a variável aleatória X se desvie da média mais do que K desvios-padrão é sempre inferior ou igual a --;- . K É possível agora definir, com base nesta desigualdade, a Lei dos grandes números. ------------------------·-·--·-·---- 55 ESTATÍSTICA APLICADA DISTRIBUIÇÕES AMOSTRAIS 56 Demonstração: Uma vez que X1, X2 , ... , Xn são elementos de uma amostra aleatória· retirados de uma mesma população, são independentes e têm todos a mesma distribuição, logo Var [ Sn] = n . Var (X) = n a2- e Var[ ; ] = Var(Sn) n cr2 a2- --- - n2 n2 n Sabe-se ainda que Pela desigualdade de Chebishev, para qualquer E > O , Fixando E e fazendo n tender para =, obtém-se o limite dessa proba- bilidade ou, complementarmente c.q.d. s Como poderá verificar, _n_ é a média amostral, razão porque esta lei é n também conhecida por «lei das médias». O seu significado é facilmente com- preendido: à medida que n aumenta, a probabilidade de a média amostral se afastar da média da população em mais do que um valor E previamente fixado, tende para O; ou ainda, atendendo ao complementar deste acontecimento, à medida que n aumenta, a probabilidade de os desvios entre a média amostral e a média populacional se tornarem mais pequenos que um valor qualquer E > O tende para 1 . 1.4. Teorema do limite central 57 ESTATÍSTICA APLICADA 58 A demonstração deste teorema, por requerer técnicas matemáticas avan- çadas, não é aqui apresentada 1. A sua aplicação é deveras importante, como se verá nos pontos seguintes deste capítulo. Dividindo por n o numerador e o denominador da variável Yn , obtém-se n I Sn i= 1 mas - n n X; = X. Sn - µ n o n n (0,1) Logo, pelo teorema do limite central, conclui-se que, se X for uma variável aleatória com média µ e variância finita o2 , então a média amostral X, para amostras grandes, terá uma distribuição aproximadamente normal com média .. . a2 . d µ e vananc1a - , ou a1n a n X - µ º --'-'-----'-'-- n n (O, 1 ) . cr {{) Apresenta-se, em seguida, e mais detalhadamente a distribuição amostral de algumas estatísticas muito importantes no capítulo da Inferência Estatística. Para tal, é necessário que primeiro se definam algumas distribuições amostrais teóricas. 1 p . ara os que pretendam seguir essa demonstração aconselha-se a consulta de Mooo, GAAYBILL e BOES (1974), pág. 235. 'i !i '1 !I 1 ' Distribuições_ . amostrais teóricas 2.1. Distribuição normal No âmbito do estudo da distribuição normal foi referido o teorema da aditividade da normal. Viu-se então que, dadas n variáveis aleatórias inde- pendentes com distribuição normal de parãmetros µ e cr, n L X; n n(nµ; crin) i= 1 ou seja, n L X; - nµ i= 1 --a-in~n~- n n(O, 1). Dividindo numerador e denominador por n vem: isto é X~µ í1 n(O, 1) {() Como uma amostra aleatória de dimensão n é uma variável aleatória n-dimen- sional, em que todas as variáveis X; (i = 1, 2, 3, . . . n) têm a mesma distribuição do Universo e são independentes, os resultados anteriores podem aplicar-se. - L X; (" . 'd d ___ C_onclubse.assim.que-~média_amostraL.X_~ n _ !S_to_e_a-1!l.ª-.J.lLJilJlª- -· amostra aleatória) retirada duma população normal, tem distribuição normal, 59 ESTATÍSTICA APLICADA 60 cujo desvio-padrão é função não só do desvio-padrão da população (a) como também da dimensão da amostra (n ). O valor esperado ou médio de X coincide com a média do Universo (µ). Facilmente se demonstra o que se acabou de dizer. De facto, se tivermos uma amostra aleatória de elementos X; , retirados de uma população normal, isto é, X; (1 n (µ, a). então, a média amostral, X, tem também distribuição normal uma vez que depende dos valores X; , com os seguintes parâmetros: 1 =-E[X1+X2+ ... +Xnl= n = - 1 -[E(X1) + E(X2) + ... + E(Xn)] = n 1 = n [ µ + µ + ... + µ l = 1 . n. µ = n = µ. VAR [ --!i- L X;] = n\ VAR [ L X; J = 1 = - 2- VAR [X; + X2 + . . . + Xn] = n 1 = - 2 [ VAR (Xi) + VAR (X2) + . . . + VAR (Xn)] = n 1 n2 1 n2 = _1 a2 n [a2+a2+ ... +a2] = n . cr2 DJSTRIBUIÇÔES AMOSTRAIS logo E se X, o Universo ou população, não tiver distribuição normal ou for desconhecida a sua distribuição? Suponha que X tem uma distribuição diferente da distribuição normal, com uma certa média µ e variância a2 , isto é, X n f (µ, a). Importa aqui distinguir duas situações: 1. Se X tiver distribuição diferente da normal e se se tomar uma pequena amostra 1 então ter-se-á de determinar a distribuição assumida por X, que será como é óbvio, função da distribuição do universo, isto é, X n f( ... ). 2. Se X tiver distribuição diferente da normal e se se tomar uma grande amostra então a distribuição de X será próxima da distribuição normal (fala-se em distribuição aproximada) e tanto mais próxima quanto maior for a dimensão da amostra, isto é - o ( Cí J X (1 n µ; -ln . Este resultado provém da aplicação do teorema do limite central já apre- sentado no ponto anterior. -y--- Geralmente, fala-se em pequenas amostras quando n s 30 e em grandes amostras quando n > 30, onde n designa a dimensão da amostra. 61 ESTATÍSTICA APLICADA 2.2. Outras distribuições Além da distribuição normal que acabou de ser apresentada como distribui- ção amostral, existem outras distribuições teóricas de uso bastante genera- lizado sobretudo na área da inferência estatística e que são: - Distribuição do Qui-quadrado - x.2 - Distribuição t de Student - Distribuição F de Snedecor 2.2. 1. Distribuição do Qui-quadrado 62 +~ (w) = J xw-1 e-x d* o. A distribuição do Qui-quadrado é um caso particular da distribuição Gama (vd volume 1). É fácil notar que: X(nJ n G 2• 2 . 2 ( n 1 J ,,. ! ! 1 .) DISTRIBUIÇÕES AMOSTRAIS 2.2. 1.1. Principais características da distribuição do x2 1. É uma função positiva e não simétrica. 2. Se X n xi\, J então demonstra-se que E [X] = n VAR [X] = 2n. 3. O seu aspecto gráfico depende do n (parâmetro caracterizador da distri- buição). Na figura abaixo, ilustram-se algumas distribuições do qui-qua- drado. l(x) o ' ' ' ' ' -~_10 ----- -- X 4. É uma distribuição aditiva, isto é: se as variáveis aleatórias X;, (i = 1, 2, ... , n), são independentes e X; n xfn;J então n n I X;n 2 XcmJ onde m=L, ni. i= 1 i= 1 2.2.1.2. Alguns teoremas 1. O quadrado de uma variável aleatória normal standartizada tem distribui- ção do qui-quadrado com 1 grau de liberdade, xfo. 2 (X-µJ2 2 Z = n X(1J -···-.·-·--·-· -·· __ q ___ -·-·--··-··-·--·-·-··-·-·-··-··---··--·----·-··-· -· sendo Z n n (O, 1). 63 ESTATÍSTICA APLICADA 2. O somatório do quadrado de n variáveis aleatórias com distribuição normal padrão tem distribuição do x2 com n graus de liberdade, ou seja: n [ J2 X; - µ; 2 L a· ílX(n)· i= 1 I 3. A distribuição do xfn l tende para a distribuição normal, à medida que n aumenta. Ou seja, quando n -? =, tem-se: xfn) n n(n,'Í2n) ou 2 X(n) - n '12n o í1 n (O, 1) . por aplicação do teorema do Limite central. Uma melhor aproximação resulta ainda quando se utiliza: ~ 2X~) - {2{) n n (O, 1) para valores de n > 30. 2.2.2. Distribuição t de Student 64 DISTRIBUIÇÔES AMOSTRAIS 2.2.2. 1. Principais características da distribuição t de Student -··-------- ........ ------~i 1. É simétrica em relação ao eixo x =O. 2. Se X n trn l então demonstra-se que:
Compartilhar