Prévia do material em texto
- -----------------~--t ---
,
ESTATISTICA
APLICADA
Volume 2
Elizabeth Reis
Paulo Melo
Rosa Andrade
Teresa Calapez
4ª EDIÇÃO - REVISTA
~--,
-· ------~---------
É expressamente proibido reproduzir, no todo ou em parte, sob qualquer
forma ou meio, nomeadamente fotocópia, esta obra. As transgressões
serão passiveis das penalizações previstas na legislação em vigor.
Visite a Silabo na rede:
www.silabo.pt
Editor: Manuel Robalo
FICHA TÉCNICA:
Título: Estatística Aplicada - Volume 2
Autores: Elizabeth Reis, Paulo Melo, Rosa Andrade, Teresa Calapez
© Edições Silabo, Lda.
4ª Edição - Revista - 3ª Reimpressão
Lisboa, 2008.
Impressão e acabamentos: Europress, Lda.
Depósito Legal: 170314/01
ISBN: 978-972-618-256-6
EDIÇÕES SÍLABO, LDA.
R. Cidade de Manchester, 2
1170-100 LISBOA
Telf.: 218130345
Fax: 218166719
e-mail: silabo@silabo.pt
www.silabo.pt
·--··-·--··--------
Índice
.... ---··-------------- ------------·
NOTA INTRODUTÓRIA À SEGUNDA EDIÇÃO
PREFÁCIO ................... .
Capítulo V - O processo de amostragem
. 11
13
1. INTRODUÇÃO .......... . . ........ 17
2. ALGUNS CONCEITOS IMPORTANTES NA TEORIA
DA AMOSTRAGEM ................. . . 19
3. QUESTÕES PRÉVIAS AO PROCESSO DE AMOSTRAGEM . 22
4. AS FASES DO PROCESSO DE AMOSTRAGEM . . . . . . . 23
4.1. A identificação da população alvo I população inquirida
4.2. Os métodos de selecção da amostra .
4.2.1. Métodos de amostragem aleatória .
4.2.1.1. Amostragem aleatória simples
4.2.1.2. Amostragem casual sistemática .
4.2.1.3. Amostragem estratificada
4.2.1.4. Amostragem por clusters
4.2. 1.5. Amostragem multi-etapas
4.2.1.6. Amostragem multi-fásica .
4.2.2. Métodos de amostragem dirigida
4.2.2.1. Amostragem por conveniência
4.2.2.2. Amostragem intencional
4.2.2.3. Amostragem snowball .
4.2.2.4. Amostragem sequencial
4.2.2.5. Amostragem por quotas
EXERCÍCIOS PROPOSTOS .....
Capítulo VI - Distribuições amostrais
1. INTRODUÇÃO ........ .
1 .1. Amostra aleatória-.-.-.--.- .
1.2. Parâmetros e estatísticas .
. 24
. 26
. 27
. 28
. 31
. 32
. 35
. 36
. 37
. 39
. 39
. 40
. 41
. 41
. 42
. 45
.. .. 49
. -:·-.--:-so- ~
.... 53
1.3. Lei dos grandes números ...... .
1.4. Teorema do limite central ...... .
2. DISTRIBUIÇÕES AMOSTRAIS TEÓRICAS
2.1. Distribuição normal ..
2.2. Outras distribuições .
2.2.1. Distribuição do Qui-quadrado
2.2.1.1. Principais características da distribuição do X2 .
2.2.1.2. Alguns teoremas .... .
2.2.2. Distribuição t de Student .. .
2.2.2.1. Principais características
da distribuição t de Student
2.2.2.2. Alguns teoremas ..... .
2.2.3. Distribuição F de Snedecor ..
2.2.3.1. Principais características da distribuição F
2.2.3.2. Alguns teoremas ............ .
3. DISTRIBUIÇÕES AMOSTRAIS DAS ESTATÍSTICAS
. 55
. 57
. 59
. 59
. 62
. 62
. 63
. 63
. 64
. 65
. 65
. 66
. 67
. 67
MAIS IMPORTANTES . . . . . . . . . . . . . . . 69
3.1. Populações Bernoulli . . . . . . . . . . . . . . . . 69
3.1.1. Distribuição de uma proporção amostral . . . 71
3.1.2. Distribuição da diferença entre duas proporções amostrais . 73
3.2. Populações normais . . . . . . . . . . . . . . . . . . . . . . . 74
3.2.1. Distribuição da média amostral (X) quando a variância ri
é conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4
3.2.2. Distribuição da variância amostral (S 2) ............ 75
3.2.3. Distribuição da média amostral (X) quando a variância cr2-
não é conhecida . . . . . . . . . . . . . . . . . . . . . . . . 76
3.2.4. Distribuição do quociente
de variâncias amostrais ( S '~ / S '~) . . . . . . . . . . . . . . 77
3.2.5. Distribuição da diferença
entre médias amostrais (X1 - X2) . 78
3.3. Distribuições amostrais dos extremos . . 80
3.3.1. Distribuição do máximo da amostra . . 80
3.3.2. Distribuição do mínimo da amostra . 81
EXERCÍCIOS PROPOSTOS . . . . . . . . . . 83
Capítulo VII - Estimação de parâmetros
1. INTRODUÇÃO . . . . . . . . . .
2. ESTIMAÇÃO PONTUAL- .. - ~ .- .
2.1. Estimadores e estimativas ..
2.2. Propriedades dos estimadores
2.3. Métodos de estimação pontual .
2.3.1. O método da máxima verosimilhança .
3. ESTIMAÇÃO POR INTERVALOS
EXERCÍCIOS PROPOSTOS ..
Capítulo VIII - Ensaio de hipóteses
1. A NECESSIDADE DOS ENSAIOS DE HIPÓTESES
2. HIPÓTESES E ERROS ........... .
3. COMO FAZER UM ENSAIO DE HIPÓTESES .
4. ERROS NOS ENSAIOS DE HIPÓTESES .
4.1. Análise de erros .
4.1 .1. O erro tipo / . . . . . .
4.1.2. O erro tipo li . . . . . .
4.1.3. Minimização dos erros .
4.2. Função potência do ensaio .....
5. ESCOLHA DA ESTATÍSTICA ADEQUADA AO ENSAIO
5.1. Introdução . . . . . . . . . . . . . . . . .
5.2. Ensaios de hipóteses com uma amostra ..
5.2.1. Ensaio para a média µ do universo ...
5.2.1.1 . A população é normal e a variância
do universo é conhecida . . . . . . .
5.2.1.2. A população é normal e a variância
do universo é desconhecida .
5.2.1.3. A população é desconhecida
5.2.2. Ensaio para a proporção ... .
5.2.3. Ensaio para a variância .... .
........ 89
. 90
. 90
. 91
103
103
111
123
131
133
135
143
145
146
149
153
159
165
165
166
166
166
166
170
171
172
5.3. Ensaios de hipóteses com duas amostras . . ........ 174
------s:3:1~-Ensaio-para-a-·diferença-de-mêdias--.. -.- -:-·:---:--:-:--:-.--. -. -. 174
5.3.1. 1. Populações normais e variâncias conhecidas
5.3.1.2. Qualquer população, variâncias desconhecidas,
mas amostras grandes . . . . . . . . . .
5.3.1.3. Amostras pequenas, populações normais
e variâncias desconhecidas mas iguais .
5.3. 1.4. Amostras emparelhadas ......... .
5.3.2. Ensaio para a diferença de proporções ... .
5.3.3. Ensaio para comparação de duas variâncias .
5.4. Ensaio de hipóteses para mais de duas amostras
5.4. 1. Ensaio para a diferença de k médias -
- análise de variância simples . . . . . .
5.4.2. Testes de comparação múltipla ..... .
5.4.3. Ensaios para a diferença de k variâncias
EXERCÍCIOS PROPOSTOS ............ .
Capítulo IX - Testes não-paramétricos
1. INTRODUÇÃO ....... .
175
175
178
180
184
187
191
192
198
205
208
217
2. TESTES DE AJUSTAMENTO 221
2. 1. Teste de ajustamento do qui-quadrado 223
2.2. Teste de Kolmogorov-Smirnov . 232
3. TABELAS DE CONTINGÊNCIA . . 238
3. 1. Teste do Qui-quadrado de Independência 238
3.2. Medidas de Associação . . . . . . . . . 245
4. TESTES À IGUALDADE DE DUAS OU MAIS DISTRIBUIÇÕES 248
4.1. Testes à igualdade de distribuições
em duas amostras independentes . . . . . . . . . . . . 250
4.1.1. Teste de Mann-Whitney . . . . . . . . . . . . . . . 250
4. 1.2. Teste de Kolmogorov-Smirnov para duas amostras 259
4.2. Teste à igualdade de distribuições em mais de duas
amostras independentes - o teste de Kruskall-Wallis . 263
5. COMPARAÇÕES ENTRE DUAS AMOSTRAS EMPARELHADAS 271
5. 1. Teste de McNemar ou de mudança de opiniâo . 272
5.2. Teste do sinal . . 277
5.3. Teste de Wilcoxon . 280
EXERCÍCIOS PROPOSTOS . ' 286
Apêndice - Tabelas de distribuição
Distribuição do qui-quadrado .
DistribuiÇãOde-fde Sfoâeri\ ··
Distribuição F de Snedcor .
Valores críticos da distribuição do studentized
range para comparações múltiplas ....
291
292
293
295
Quantis da estatística de Kolmogorov-Smirnov para uma amostra 299
Quantis da estatística de Mann-Whitney . . . . . . . . . . . . . 300
Quantis da estatística de Kolmogorov-Smirnov
para duas amostras de igual dimensão . . . . . . . . . . . . . 304
Quantis da estatística de Kolmogorov-Smirnov
para amostras de dimensões diferentes. 305
Quantis da estatística de Kruskal-Wallis para pequenas amostras 307
BIBLIOGRAFIA .......................... . 309
Nota à segunda edição
Esta nova edição de Estatística ApÍicada, para além de constituir uma nova
versão revista e actualizada, apresenta-se agora dividida em dois volumes,
para, tanto quanto possível, responder às solicitações de muitos dos nossos
leitores, docentes e alunos, cujos programas de Estatística assim se encontram
estruturados.
O primeiro volume, para além do capítulo introdutório, inclui um segundo
capítulo sobre Teoria das Probabilidades, um terceiro sobre Variáveis Aleató-
rias, sendo o quarto e último sobre as Distribuições Teóricas mais Importantes.
Os restantes cinco capítulos da primeira edição fazem agora parte do
segundo volume. Embora maioritariamente dedicado aos métodos de Inferên-
cia Estatística (capítulos VII, VIII e IX, Estimação de Parâmetros, Ensaios de
Hipóteses e Testes não-Paramétricos), depois de uma breve introdução aos
Processos de Amostragem (quinto capítulo), é também feita a apresentação
das Distribuições Amostrais (capítulo VI).
Acreditamos que esta solução dará também resposta às preferências de
muitos outros leitores que, pelo carinho e interesse com que acompanharam
a primeira edição, pelas sugestões e indicações de gralhas e erros, decidida-
mente contribuíram para a produção desta nova edição. A todos, os nossos
agradecimentos.
Conscientes de que é possível fazer melhor, esperamos que esta nova
edição vos desperte tanta atenção como a anterior, deixando aqui a promessa
de nos mantermos empenhados no seu aperfeiçoamento.
Os autores
Lisboa, Setembro de 1997
Prefácio
Este livro de Estatística Aplicada destina-se a profissionais licenciados ou
não e a estudantes universitários que, na vida prática ou no processo de
aprendizagem, têm necessidade de saber Estatística e de a aplicar aos pro-
blemas mais variados do dia-a-dia. Como objectivos finais, este livro pretende
tornar compreensíveis a linguagem e notação estatísticas, bem como exempli-
ficar as suas potenciais utilizações, sem descurar os pressupostos subjacentes
e o rigor teórico necessário.
Deverá referir-se que a escolha do título não foi pacífica. De entre os vários
alternativos - Probabilidades e Estatística, Inferência Estatística, etc. - a
preferência por Estatística Aplicada justifica-se pela abordagem diferenciada
de outras obras já publicadas sobre Inferência Estatística, e que resumidamen-
te pode ser assim descrita: mais do que «ensinar», pretende-se com este livro,
a) despertar e estimular o interesse dos leitores pelo método estatístico de
resolução dos problemas; b) utilizando uma linguagem simples e acessível,
apresentar os conceitos e métodos de análise estatística de modo mais intuitivo
e informal; c) acompanhar a apetência teórica com exemplos apropriados a
cada situação.
O livro encontra-se dividido em nove capítulos. No capítulo 1 {Introdução)
são explicitadas várias razões para que um profissional, técnico, estudante ou
mero cidadão adquira um nível mínimo de conhecimentos em Estatística.
A Teoria das Probabilidades é objecto de estudo do capitulo li. Nele são
apresentados os diferentes conceitos de probabilidade e a sua axiomática,
dando especial relevo aos teoremas da probabilidade total e de Bayes.
Os terceiro e quarto capítulos, tal como o segundo, são essenciais para a
compreensão dos seguintes, relativos à Inferência Estatística. O capítulo Ili
respeita às Variáveis Aleatórias, sua definição, características e propriedades.
No quarto capítulo estudam-se em pormenor as distribuições de algumas
variáveis aleatórias de importância maior nas áreas de aplicação das ciências
sócio-económicas como sejam as distribuições de Bernoulli, binomial, Poisson,
binomial negativa, hipergeométrica, multinomial, uniforme e normal.
O capítulo V é dedicado ao estudo dos processos de amostragem, incluindo
os diferentes métodos de recolha de uma amostra, enquanto que no capítulo
VI s~ ªfir~serita111_A~ distribuiçQ§!J>_ªmostrai_$._JDais_importantes. _____ --
----
Os três últimos capítulos são dedicados à Inferência Estatística propriamen-
te dita. No capitulo VII apresentam-se métodos de estimação de parãmetros,
com ênfase especial para o método de máxima verosimilhança. Inclui-se ainda
a estimação por intervalos. Os capítulos VI 11 e IX destinam-se à apresentação,
respectivamente, dos ensaios de hipóteses paramétricos e não-paramétricos.
Com excepção do primeiro, todos os restantes capítulos são finalizados com
um conjunto de exercícios não resolvidos, acompanhados geralmente das
respectivas soluções.
No Apêndice estão incluídas as Tabelas (das distribuições) necessárias à
compreensão do texto e à resolução dos exemplos e dos exercícios propostos.
Este livro é o resultado de alguns anos de experiência docente dos seus
autores na equipa de Estatística do ISCTE e da tentativa de responder às
necessidades sentidas por muitos - alunos e docentes de variadas licencia-
turas, docentes do ensino secundário, profissionais e técnicos de diferentes
áreas cientificas (gestão, economia, sociologia, psicologia, medicina, enferma-
gem, engenharia, informática, etc.) - que, no decorrer destes anos, e na falta
de uma obra que os ajudasse a encontrar as soluções estatísticas apropriadas
aos seus problemas, procuraram ajuda junto dos autores.
Sem dúvida que a responsabilidade desta obra é assumida pelos seus
autores, mas a sua concretização só se tornou possivel com a ajuda, apoio e
disponibilidade de muitos. Por isso, não deixando de agradecer a todos os que,
directa ou indirectamente, contribuíram para a sua realização, gostaríamos de,
nominalmente, dar uma palavra especial de agradecimento aos seguintes
docentes de Estatística do ISCTE: Ana Cristina Ferreira, Ana Paula Marques,
António Robalo, Fátima Ferrão, Fátima Salgueiro, Graça Trindade, Helena
Carvalho, Helena Pestana, João Figueira, J.C. Castro Pinto, J.J. Dias Curto,
Margarida Perestrelo e Paula Vicente.
Finalmente, uma palavra de apreço a todos ::s alunos, quer das licenciatu-
ras do ISCTE, quer dos mestrados do INDEG/ISCTE, cujas sugestões, dúvidas
e problemas certamente contribuíram para enriquecer este livro.
Os autores
'I
.1
Capítulo V
O processo
de amostragem
Introdução
A amostragem e em particular os processos de amostragem aplicam-se em
variadíssimas áreas do conhecimento e constituem, muitas vezes, a única
forma de obter informações sobre uma determinada realidade que importa
conhecer.
A teoria da amostragem é assim um dos instrumentos que possibilita esse
conhecimento científico da realidade (sempre complexa), onde outros proces-
sos ou métodos alternativos, por razões diversas, não se mostram adequados
ou até mesmo possíveis.
Ainda que as pessoas não vejam esta temática, em particular os princípios
da teoria da amostragem, como algo banalizado, a verdade é que eles supor-
tam (ou deviam suportar) muitas das mensagens que no seu quotidiano lhes
são transmitidas nas mais variadas situações. Se não vejamos:
«Neste último mês foi-me pedido para colaborar em dois inquéritos de rua e
até num pelo telefone)>.
«A telenovela e os programas desportivos continuam a ter as maiores audiên-
cias em todo o país>>.
><Os valores Amizade e Liberdade alteraram-se substancialmente na última
décadan.
«O líder do partido A tem visto nos últimos meses aumentar o seu prestígio
em detrimento dos lideres dos partidos B e e ...
«A opinião dos consumidores sobre o nosso produto é bastante desfavorável,
dadas as razões da sua preferência quanto às diferentes características dos que
existem no mercado>>,
«Nunca tinha pensado que as razões principais do divórcio tossem as que
esse artigo refere>>.
-- -----~-----··-··-- ----------- ----17
EST ATÍSTJCA APLICADA
18
«o lote entregue pelo nosso fornecedor não satisfaz a qualidade a que se
comprometeu, pelo que não deverá ser aceite>>.
«Os nossos concorrentes têm como pontos fortes o cumprimento dos prazos
de entrega e as condições de pagamento>>.
<<O índice de preços no consumidor tem baixado substancialmente nos últimos
anos».
ccOe acordo com 0 interesse manifestado pelos utentes, a Carris vai proceder
à reestruturação de algumas carreiras em várias zonas da cidade».
cc o baixo clima social existente na empresa poderá ser bastante diminuído por
uma comunicação mais cuidada, em particular no que respeita aos quadros
superiores e intermédios)).
<<Quando a estenose aórtica se manifesta por angina de peito, a média de
sobrevida não ultrapassa os 5 anos».
uma boa parte das mensagens atrás descritas aparecem como conclusões
sobre determinada realidade em que se aplicou a Inferência Indutiva _:_ isfo é
_ a partir dos resultados de experiências ou inquéritos que fornecem dados
estatísticos sobre determinada investigação, formulam-se conclusões que ul-
trapassam 0 âmbito das experiências ou inquéritos efectuados. Ou seja, faz-se
a extensão do particular para o geral.
Mas, então, põe-se a questão: serão válidas as conclusões a que se chega?
A Estatística Indutiva fornece as técnicas que permitem realizar as inferên-
cias indutivas e controlar e até medir o grau de incerteza que aquelas
conclusões possam conter.
---·-------·--
Alguns co.n_~f!it<?_~ __ _
importantes na teoria
da amostragem
O problema da Inferência Indutiva é, do ponto de vista da Estatística,
encarado da seguinte forma: a finalidade da investigação é descobrir algo sobre
determinada população ou universo.
Importa assim que se definam alguns conceitos fundamentais na teoria da
amostragem:
• População ou universo
Conjunto de unidades com características comuns.
O conjunto dos utentes da Carris, das famílias moradoras em certos bairros,
dos alunos do ISCTE, das peças produzidas por uma máquina em determinado
período, dos resultados obtidos no lançamento de um dado, são exemplos de
populações ou universos.
Refira-se que os exemplos atrás mencionados referem-se a populações
reais, com excepção para o conjunto de resultados obtidos com o lançamento
de um dado em que tal universo ou população se diz hipotética.
A unidade básica de uma população denomina-se elemento da população.
•Amostra
Sub-conjunto do universo ou população.
A obtenção de informação sobre parte de uma população denomina-se
amostragem.
Em geral, o investigador está interessado em certa(s) característica(s) es-
pecífica(s) da população em estudo. Define-se então uma certa variável X que
representará a característica que se pretende avaliar.
A variável X poderá designar o número de filhos, o rendimento disponível
ou o atributo de ser trabalhador por conta de outrém (X= 1) ou trabalhador por_ __ _
---conta: própria (x; 6) das famíliasinoradoras em cario bairro (população).
19
ESTATÍSTICAAPUCADA
20
A característica X poderá ser uma variável discreta ou contínua, mas,
desde que o elemento tenha sido escolhido ao acaso da população, é uma
variável a!eatória com uma certa distribuição de probabilidade.
Embora a variável aleatória X designe uma característica de uma popula-
ção, é frequente utilizar no âmbito da teoria da amostragem a designação X
para a própria população.
No estudo das variáveis aleatórias e distribuições, parte-se sempre de
determinado modelo probabilístico e a partir dele calculam-se probabilidades
de çertos resultados e observações.
Na Inferência Estatística, o processo é, como alguns autores afirmam, o
inverso - isto é, parte. se de certos resultados ou observações fornecidas para
uma amostra e procura-se chegar a um modelo probabilístico.
Suponha-se que a população em estudo é constituída por 1 O mil familias
residentes em determinada região.
Aquelas familias utilizam diferentes marcas de óleo alimentar que se encon-
tram à disposição no mercado.
A característica em estudo é o atributo utilizar o óleo A (X= 1) ou não utilizar
o óleo A (X = 0).
Seja p a proporção das familias que utilizam o óleo A.
Escolhem-se ao acaso 100 familias e pretende-se determinar a probabilidade
de, no conjunto das 100 familias, encontrar 30 que utilizem o óleo A (e as
restantes 70 utilizarem um outro óleo).
Convém aqui distinguir duas situações:
•Situação 1
A proporção das familias que utilizam o óleo A é conhecida, isto é, o p é
conhecido, supondo-se igual a 0,4.
Então, para determinar aquela probabilidade, bastaria aplicar o modelo proba-
bilístico adequado.
Trata-se de uma distribuição hipergeométrica (ou binomial sem reposição),
desde que as 100 familias tenham sido seleccionadas sem reposição - o que
aliás é a situação que realisticamente tem mais sentido - já que se pressupõe
que uma mesma família não pode ser seleccionada mais que uma vez.
O PROCESSO DE AMOSTRAGEM
Se por exemplo p = 0,4, isto é, se das 10000 familias, 4000 utilizam o óleo A,
então a probabilidade pedida será dada por 1:
•Situação 2
A proporção das familias que utilizam o óleo A é desconhecida, isto é, p é
desconhecido.
Esta é a situação que, na prática, sucede na maioria das vezes e o objectivo
é diferente do da situação anterior.
Ao serem seleccionadas as 100 famílias, o objectivo consiste em tirar conclu-
sões sobre a verdadeira percentagem das familias que utilizam o óleo A, no total
das 10000 familias. Ou seja, a partir dos resultados de uma amostra, pretende-se
concluir para o universo ou população que neste caso é constituído pelas 10000
familias residentes em determinada região.
É óbvio que as conclusões a que se chega-conterão,- em maior ou menor grau,
uma certa dose de incerteza - que, no entanto, respeitadas certas condições,
pode ser medida e controlada.
Não se pode dizer que tais conclusões são verdadeiras ou falsas, a não ser
que fossem inquiridas as 10000 familias e depois se verificasse qual a proporção
das que utilizam o óleo A.
Na situação 2 está-se no âmbito da inferência indutiva onde se pretende -
utilizando toda a informação disponível a partir da amostra (do particular) -
concluir para o universo ou população em estudo (o geral).
Ora, a observação de toda a população (as 10000 familias) teria um preço
demasiado elevado para se obter uma resposta sem qualquer grau de incerteza.
Quando a população é conceptualmente infinita, a sua enumeração torna-se
até impossível.
Noutros casos, o processo de amostragem é destrutivo - a numeração
completa do Universo é possível, mas teria custos demasiado elevados2.
•
1
Aquela probabilidade poderá ser dada de forma aproximada por c~ggoJ 0,430 0,67º dado
~ue P se mantém quase fixo de prova para prova (de tiragem em tiragem), o que corresponderá
~-aplicação da distribuição binomial. Poder-se-ia ainda fazer a aproximação à distribuição normal
Ja que n é suficientemente grande e p tem um valor intermédio.
---~-~-g~en~ralidadedOS-t8Stes de con.:.tr_o_lo-de_q_u-al-id-a-de_d_o_s_p.:.ro_d_u_to_s_ou--m-a-te-n-.a-is-q-ua_n_to-à
res1stenc1a, durabilidade, etc., são exemplos disto.
21
li Questões prévias
ao processo de amostragem
22
Uma definição clara dos objectivos do estudo a efectuar é fundamental e
deve ser feita numa fase anterior ao início daquilo a que chamamos o processo
de amostragem.
Definidos os objectivos, nomeadamente as características da População
que se pretende estudar, há que efectuar um levantamento e sistematização
da informação disponível que no caso se torna relevante.
A formulação e resposta àquelas questões prévias é por demais importante
já que pode sugerir um quadro geral de alternativas cuja escolha acaba por
condicionar alguma ou algumasfases de qualquer processo de amostragem.
Exemplifique-se:
i) Se a informação disponível sobre as variáveis (ou características) em
estudo for bastante escassa, as alternativas que se põem na escolha da
População, do método de amostragem e na dimensão da amostra serão
em mais reduzido número.
ii) Se a informação estatística obtida permitir concluir da existência de uma
grande variabilidade na(s) característica(s) em estudo, dever-se-á utilizar
uma amostra de maior dimensão.
As fases _cl_º_!!_roct!_ssº--_~--~-11-
de amostragem
Depois de se identificar os dados que deverão ser recolhidos e o instru-
mento (questionário estruturado, por exemplo) a utilizar para essa recolha, 0
passo seguinte consiste em definir um processo de amostragem adequado ao
tipo de dados e ao instrumento de análise.
No processo de recolha de dados é necessário desenvolver um processo
sistemático que assegure a fiabilidade e comparabilidade dess_es dados. Mais
especificamente, é necessário que se estabeleça à partida um plano de amos-
tragem de acordo com a população alvo, com a definição da população a
inquirir e com um processo adequado de administração do inquérito.
O plano de amostragem deverá começar por determinar qual o nível de
extensão geográfica em que o processo de amostragem deverá ser conduzido
(mundial, nacional, regional, urbano, rural, grupo de indivíduos, etc.).
A construção da amostra propriamente dita envolve várias etapas igualmen-
te importantes e que são:
1. A identificação da população alvo/população inquirida.
2. O método de selecção da amostra.
3. A dimensão da amostra.
23
ESTATiSTICAAPLICADA
4. 1. A identificação da população
alvo/ população inquirida
24
A identificação da população de uma forma clara e objectiva é imprescin-
dível, embora possa parecer demasiado óbvia em muitas circunstâncias.
Designa-se por população alvo a totalidade dos elementos sobre os quais
se deseja obter determinado tipo de informações.
Suponha que o proprietário de um edíficio onde irá funcionar um centro
comercial pretende avaliar qual o impacte nos utilizadores do centro da existência
de uma livraria.
Qual a população alvo?
Na verdade a população alvo é constituída por todos os potenciais utilizadores
do centro.
No entanto, neste caso particular, esta definição não é operacional, já que a
informação disponível não permite distinguir os potenciais utilizadores dos poten-
ciais não utilizadores do centro (numa fase anterior à conclusão do edíficio).
Assim, várias alternativas na escolha da chamada população inquirida (aquela
que será objecto de análise) se poderão pôr:
a) Todos os residentes na cidade onde se situa o centro.
b) Apenas aqueles de uma área circundante de raio inferior a 3 Km.
e) Os moradores do bairro/freguesia onde se situa o centro.
A escolha da alternativa - ou seja, qual a população inquirida - torna-se
uma questão chave pois é a partir dela que se retirará a amostra.
•
Um estudo sobre as intenções de voto terá como população alvo todos
aqueles que estão em idade e em condições de votar. No entanto, a população
inquirida poderá incluir apenas aqueles que votaram nas últimas ele_iÇÕf:!S.,
•
O PROCESSO DE AMOSTRAGEM
Num estudo efectuado sobre.o.grau-de-satisfação.dos clientes-utilizadores-de
embalagens de cartão canelado relativamente aos vários fornecedores existentes
no mercado, é possível, pelo menos de uma forma aproximada, conhecer a
população alvo através das Estatísticas Industriais do INE (repartida até pelos
var~os sectores de actividade), podendo haver assim coincidência entre a popu-
laçao alvo e a população inquirida naquele estudo.
•
Refira-se ainda que nos casos em que não há coincidências entre a popu-
lação alvo e a população inquirida, as inferências indutivas dizem respeito à
população inquirida e que se torna abusivo inferir para a população alvo.
Resumindo, a população alvo é constituída por todos os elementos sobre
os quais se deseja obter um determinado conjunto de informações. No entanto,
em muitas situações, não é operacional inquirir uma amostra retirada da
população alvo, havendo necessidade de definir qual é a população a inquirir,
não coincidente com a população alvo, e a partir da qual se retirará a amostra.
Em seguida, os respondentes serão seleccionados de entre a população a
inquirir, de acordo com a unidade de análise. Por exemplo, num inquérito sobre
o consumo das famílias em produtos alimentares, a unidade de análise é a
família e o respondente poderá ser o elemento feminino do casal. Por último,
é necessário definir qual o processo de amostragem e o tamanho da amostra
mais adequados.
Estes passos estão apresentados na figura seguinte.
ESTATfSTICAAPLICADA
Desenvolvimento de um plano amostral
População alvo
Processo amostral
Dimensão da amostra
População
a inquirir
Amostra final
Método de recolha
de dados
4.2. Os métodos de selecção da amostra
26
Qual o método que se deve adoptar quando se pretende seleccionar uma
amostra?
Existem dois grandes grupos de métodos para seleccionar amostras: os
métodos probabilísticos, também chamados de amostragem casual e os mé-
todos não probabilísticos ou de amostragem dirigida.
Será sobretudo analisado o primeiro daqueles grupos, pois a amostragem
casual tem diversas vantagens sobre a amostragem dirigida, permitindo ao
investigador:
i) Demonstrar a representatividade da amostra.
ii) Medir explicitamente (em termos probabilísticos) o grau de incerteza com
que se extrapola para a população/universo, isto é, o erro cometido por
se usar uma amostra em vez da população.
iii) Identificar explicitamente os potenciais enviesamentos.
Refira-se ainda que a precisão e o custo inerente ao processo de amostra-
gem são lactares determinantes na escolha do tipo de método a utilizar.
O PROCESSO DE AMOSTRAGEM
4.2.1. Métodos de amostragem aleatória
Devido às suas bases teóricas;-apoiadas na teoria ·das· proba:biliC!Mes, a:
amostragem aleatória tem sido adaptada pela pesquisa em muitas áreas cien-
tíficas. O grau de confiança associado aos resultados obtidos, quando se utiliza
um processo de amostragem aleatório, pode ser medido e controlado. Do
mesmo modo, pode ser evitado qualquer enviesamento provocado por uma
escolha dirigida dos respondentes, uma vez que o processo de selecção é
casual e mecânico a partir de uma listagem de todos os indivíduos. Estes
factores podem ser considerados como as vantagens deste tipo de amostragem.
No entanto, deverão ser também referidas as dificuldades em recolher uma
amostra aleatória. E a principal dificuldade consiste na obtenção de uma
listagem completa da população a inquirir. Estas listagens são, na maioria dos
casos, difíceis de conseguir, de custo elevado, demoradas na sua obtenção e
nem sempre de fiabilidade aceitável.
O segundo tipo de dificuldades relaciona-se com as não-respostas. Depois
de definidos os respondentes, não poderão haver substituições, pelo que as
não-respostas constituem uma importante fonte de enviesamento e terá de ser
feito tudo para que a sua taxa seja minimizada. Todas as novas tentativas (por
entrevista pessoal, telefone ou correio) para obter respostas bem sucedidas
implicam aumento de custos e demora na obtenção dos resultados.
A amostragem aleatória é, sem dúvida, o processo mais caro, mas os custos
tendem a tornar-se pouco importantes face à fiabilidade dos resultados obtidos.
De uma forma genérica podemos dizer que nos métodos de amostragem
casual a probabilidade de seleccionar determinado elemento da população é
conhecida a priori e que tais métodos conduzem às chamadas amostras
aleatórias.
Importará caracterizar os métodos de amostragem casual mais frequente-
mente utilizados:
1. amostragem aleatóriasimples
2. amostragem sistemática
3. amostragem estratificada
4. amostragem por c/usters
5. amostragem multi-etapas
6. amostragem multi-fásica.
--------------- -·-----·--·- -- --------------------~~-----·-------·--· -·
27
ESTATÍSTICA APLICADA
4.2.1.1. Amostragem aleatória simples
28
Caracteriza-se por:
i) Cada elemento da população ter a mesma probabilidade de ser selec-
cionado;
ii) Cada amostra de dimensão n ter a mesma probabilidade de ser escolhida.
Há duas formas de obter uma amostra daquele tipo:
1 - a da lotaria;
2 - a dos números aleatórios.
Para ilustrar o chamado método da lotaria, suponhamos que Ana, Bernardo,
Carlos e Dora constituem a população de um atelier. Os quatro pretendem ter
férias no mês de Agosto, mas apenas dois deles podem ir nesse período.
Decide-se então colocar numa caixa quatro papéis com as letras A, B, C e D
e retirar (sem reposição) uma amostra de dois daqueles papéis.
Existem diferentes amostras de dimensão dois que podem ser seleccionadas,
mas cada amostra ($;) tem a mesma probabilidade de ser escolhida, isto é:
1 1 P[S1]=(~)=5
ou seja, há seis amostras diferentes de dois elementos que são:
S1 - Ana, Bernardo
S2 - Ana, Carlos
S3 - Ana, Dora
S4 - Bernardo, Carlos
S5 - Bernardo, Dora
S6 - Carlos, Dora
Por outro lado, cada elemento da população tem idêntica probabilidade de ser
seleccionado, ou seja:
3 1 P[A] = P[B] = P[C] = P[O] = B = 2·
Neste procedimento, constrói-se assim uma miniatura do universo ou popu-
lação e a partir dela são seleccionados aleatoriamente os elementos que cons~
tituirão a amostra.
O PROCESSO DE AMOSTRAGEM
Este método é no entanto extremamente moroso, dadas as dificuldades de
construção de uma miniatura do universo, o que fez com que tivesse caído em
desuso.
•
Numa fábrica de automóveis trabalham 200 operários em 10 linhas de mon-
tagem. Em cada uma dessas linhas trabalham 20 operários.
Pretende-se obter uma amostra aleatória de 15 operários que semanalmente
serão sujeitos a um teste de álcool, recorrendo à tabela de números aleatórios
da página seguinte.
Como obter aquela amostra?
Inicie-se a leitura a partir, por exemplo, do terceiro grupo de colunas e obter-
-se-ão os seguintes números com 3 algarismos Oá que o número total de operá-
rios, N = 200):
'660' que se rejeita, '083', ... '009', '140'
'148', ... '154', ... '200' ... '165', '058',
'191' ... '172' ... '100' ... '019' ... '111','116','011' quefarãopartedaamos-
tra.
Assim escolher-se-á o 9º, 11º e 19º da 1ª linha de montagem, o 3º e o 202 da
5' linha de montagem, o 11' e 16' da 6' linha de montagem e assim sucessiva-
mente.
•
As tabelas de números aleatórios são geradas por forma a garantir a
natureza aleatória dos números que as compõem.
Existem diferentes formas de obter números aleatórios, embora seja mais
simples recorrer às tabelas já existentes.
A grande dificuldade que os métodos de amostragem casual simples apre-
sentam é a morosidade, sobretudo quando as amostras são de grande dimen-
são, a não ser que o processo de obtenção dos elementos que constituirão a
amostra seja totalmente computorizada e se disponha de uma listagem dos
-elementos que constituem a população.
29
ESTATfSTICA APLICADA
30
82 41 73
24 23 56
79 72 36
60 84 59
09 51 98
40 89 95
94 24 54
91 38 05
36 84 99
98 05 72
19 07 80
09 61 83
40 95 11
76 37 59
52 06 48
11 65 73
07 87 96
25 26 18
17 76 94
62 75 37
EXTRATO DE UMA TABELA
DE NÚMEROS ALEATÓRIOS
89 96 97
87 73 39
90 09 87
43 38 89
94 42 16
75 54 95
83 33 06
96 66 69
14 42 24
25 53 41
38 82 86
84 48 83
40 02 02
52 20 09
62 21 50
40 06 07
03 31 06
78 84 18
60 06 35
44 40 25
66 04 74
08 37 78
50 19 93
00 96 80
14 09 96
14 80 18
35 44 14
97 22 79
15 40 53
24 32 40
54 68 21
28 99 67
28 12 57
35 75 53
20 05 50
87 56 20
16 57 59
05 80 19
19 10 27
65 32 85
43 43 05
17 20 53
38 78 21
10 04 50
64 94 59
86 90 85
42 86 90
92 18 88
36 08 45
01 90 89
29 97 47
79 11 90
72 25 36
11 19 66
11 60 93
01 17 59
93 66 78
95 99 03
78 14 34
52 62 04
36 22 20
79 08 88
42 29 97
44 58 80
13 75 59
67 97 72
47 74 40
68 48 83
61 6< 25
65 63 31
07 48 86
81 00 02
03 70 08
22 97 72
92 38 85
72 23 33
38 22 22
89 77 74
96 56 69
67 66 66
i
i
O PROCESSO DE AMOSTRAGEM
4.2.1.2. Amostragem casual sistemática
Este método é também chamado quasi-aleatório por não dar a todas as
amostras que se podem retirar de uma mesma população-a mesma protlacili=-
dade de ocorrência. Para aplicação deste método é necessário calcular o rácio
K = _!j_. Em seguida, escolhe-se aleatoriamente um número, no intervalo n
[1, K], que servirá como ponto de partida e primeiro elemento da amostra.
Adicionando ao primeiro valor obtido o rácio K (arredondando o resultado por
defeito), obtém-se o segundo elemento e a adição sucessiva do mesmo rácio
permite encontrar os restantes elementos da amostra. Como se verifica, ape-
nas o primeiro elemento é escolhido aleatoriamente enquanto que os restantes
são determinados de modo sistemático pelo rácio.
Por exemplo, se K = 2, então a dimensão da amostra será constituída por
metade {50%) da dimensão da População. Se K = 20, então a amostra será
apenas 5% da População.
Chama-se amostra sistemática a uma amostra obtida através deste proce-
dimento.
Em geral, o primeiro elemento a fazer parte da amostra é seleccionado
aleatóriamente por um processo que se escolhe à partida.
Suponha-se que uma empresa industrial pretende fazer um inquérito por
amostragem aos seus 1000 clientes.
A partir da lista dos seus 1000 clientes, a empresa poderá retirar uma amostra
cujo primeiro elemento é escolhido aleatoriamente e os seguintes de forma sis-
temática. No caso de a dimensão da amostra pretendida ser n = 100, então K
seria igual a 1 O; isto é, após a escolha aleatória do primeiro cliente, os restantes
clientes seriam retirados da lista de 1 O em 1 O a partir daquele.
Embora este procedimento possa ser visto como uma aproximação mais
prática da amostragem casual simples, pode no entanto revelar-se inadequado
no caso em que existam determinadas «regularidades» na lista dos elementos da
população, que prejudicarão a representatividade da amostra. Isto é, este método
é de mais fácil execução permitindo mais informação por unidade de custo
dispendida, desde que se salvaguarde a aleatoriedade da forma como a lista está
ordenada, requisito que a amostragem casual sistemática exige.
·-- -----·---------
31
ESTATÍSTICA APLICADA
No caso do exemplo anterior, poder-se-ia verificar a posteriori que os 100
clientes incidiam apenas numa área geográfica muito restrita ou num conjunto
de sectores económicos muito limitado e com pouca expressão no negócio da
empresa.
A situação limite é o caso em que de uma lista de utilizadores de um voo
aéreo fretado para uma viagem oferecida a casais (em que o nome do homem
aparece invariavelmente em 1 º lugar e o da respectiva mulher a seguir) se
retira uma amostra casual sistemática. Este método de selecção conduziria a
uma amostra formada só por mulheres ou só por homens no caso em que o
Kfosse par.
As empresas que executam estudos de mercado utilizam frequentemente
o método denominado Random Route, que mais não é do que um processo
de amostragem casual sistemática, já que partem de um ponto de partida
escolhido aleatóriamente, seguindo depois um itinerário obtido com intervalos
sistemáticos (inquéritos de porta em porta por exemplo). Um outro exemplo
são os inquéritos por telefone sobre os níveis de audiência de certos progra-
mas televisivos.
4_2. 1 _3_ Amostragem estratificada
32Uma amostra estratificada obtém-se separando os elementos da população
em grupos mutuamente exclusivos denominados estratos 1 e a partir destes a
selecção de uma amostra aleatória simples dentro de cada estrato.
Por mutuamente exclusivos pretende-se dizer que nenhum elemento da
população pode estar simultaneamente presente em dois ou mais estratos.
Este método permite, no caso de se conhecerem algumas características
do universo ou população, obter resultados mais eficientes2 com uma amostra
de menor dimensão e igual representatividade.
1 Grupos homogéneos relativamente à característica ou características a estudar.
2 Menor custo, menor tempo e menor possibilidade de erro.
O PROCESSO DE AMOSTRAGEM
Essa eficiência será ainda mais importante se a variável a ser estratificada
se encontrar correlacionada com várias outras variáveis como por exemplo
idade, sexo, rendimento, status, área geográfica;··etc:;·o-·que-petmititã-esttati-
ficar simultaneamente segundo várias variáveis, desde que se assegure uma
adequada representatividade dos estratos existentes na população.
Quando se utiliza um processo aleatório simples, o erro aleatório cometido
resulta de dois erros diferentes: o erro dentro de cada estrato e o erro entre
os diferentes estratos. Esta última componente é nula quando a amostra é
estratificada, uma vez que se recolhem as opiniões dos diferentes estratos da
população. A amostragem estratificada é ainda mais efectiva quando a diferen-
ça entre os vários estratos é mais acentuada, isto é, quando a dispersão dentro
da população é elevada.
Existem dois modos de obtenção de amostras estratificadas. No primeiro,
cada estrato está representado na amostra proporcionalmente à sua importân-
cia (ou tamanho) na população total. No entanto, nos diferentes estratos,
dimensões maiores poderão não estar associadas a uma maior dispersão ou
variabilidade. Por essa razão, um modo de conseguir uma maior represen-
tatividade da amostra será representar os estratos na amostra tendo em conta
a dispersão dentro de cada estrato da população. Este segundo modo de
obtenção de uma amostra estratificada só pode ser aplicado nos casos em
que se conhece a variabilidade dentro de cada estrato da população ou, no
mínimo, quando existem estimativas dessa variabilidade retiradas de inquéritos
feitos a populações semelhantes.
Imagine que se quer construir uma amostra de empresas consumidoras de
embalagens de cartão canelado em Portugal.
A população em estudo é constituída pela totalidade das empresas portugue-
sas que utilizam aquele tipo de embalagem e cujo número, em termos aproxi-
mados, se pode obter a partir das Estatísticas Industriais (principais produtos
consumidos por cada um dos subsectores da CAE).
As variáveis de estratificação são: principais sectores de actividade e áreas
geográficas mais importantes.
Tendo em atenção a importância do consumo relativo de cada um dos sub-
i-----sectores-da-cAE- e ·o-número-de-empresas··existentes-em-ca:da-um-·daqaeles·
subsectores, obtiveram-se os dados necessários para o preenchimento da última
33
ESTATÍSTICA APLICADA
34
coluna do quadro seguinte. Posteriormente e de acordo com a localização das
empresas dos vários subsectores, foram preenchidas as restantes colunas.
Obteve-se assim o quadro do universo estratificado seguinte:
Áreas
NORTE geográficas CENTRO SUL OUTROS
TOTAL (Braga (Coimbra, (Lisboa, (Restantes Principais e Aveiro Setúbal
sectores Porto) e Leiria) e Santarém) distritos)
Alimentação 180 160 310 200 850
Bebidas 150 70 230 50 500
O. bens de consumo 1 260 550 700 190 2700
B. intlb. equip. 1 070 610 600 170 2450
.
TOTAL 2660 1 390 1 840 610 6500
Supondo igual variabilidade em todos os estratos poder-se-ia utilizar a afixa-
ção proporcional para constituir a amostra; no quadro abaixo exemplifica-se o
caso de a dimensão da amostra ser de n = 650 (10% da população).
NORTE CENTRO SUL OUTROS TOTAL
Alimentação 18 16 31 20 85
Bebidas 15 7 23 5 50
O. bens de consumo 126 55 70 19 270
B. inVb. equip. 107 61 60 17 245
TOTAL 266 139 184 61 650
•
O PROCESSO DE AMOSTRAGEM
4.2.1.4. Amostragem por clusters
Este tipo de amostragem torna-se particularmente-útil-quando-a-população--·
se encontra dividida num reduzido número de grupos ou c/usters, caracteriza-
dos por terem uma dispersão idêntica à população total, isto é, os grupos
/ deverão, tanto quanto possível, ser «microcosmos» da população a estudar.
Primeiro, seleccionam-se aleatoriamente alguns dos grupos. Em seguida, in-
cluem-se na amostra todos os indivíduos pertencentes aos grupos selec-
cionados. Trata-se afinal de um processo de amostragem casual simples em
que cada unidade é um c/uster.
Selecção aleatória
dos grupos B e D
Amostra =
C/usters Jm lff 0
o o o o o o ª- o
Suponha que se pretende conhecer as atitudes dos trabalhadores da área
industrial do Barreiro sobre as suas condições de trabalho. É mais operacional
compilar uma lista de fábricas daquela área do que uma outra onde constem os
trabalhadores nominalmente (e até provavelmente impossível de elaborar).
Neste caso, cada fábrica constitui um cluster de trabalhadores. Apenas uma
parte destes c/usters (fábricas) participarão na amostra.
Finalmente serão inquiridos todos os trabalhadores que fazem parte dos
clusters (fábricas) considerados na amostra.
Assinale-se que, neste tipo de amostragem, alguns c/usters serão ignorados.
Se estes forem semelhantes aos incluídos na amostra estará assegurado um
elevado nível de precisão.
•
Este tipo de amostragem é extremamente utilizado quando se torna impra-
ticável ou até impossível construir uma lista de todos os elementos que consti-
,___ __ tuem determin-ada população sendo, no entanto, muito mais fácil listar grupos
desses mesmos elementos.
35
ESTATfSTJCA APLICADA
4.2.1.5. Amostragem multi-etapas
36
O primeiro passo deste tipo de amostra é idêntico ao anterior. A população
encontra-se dividida em vários grupos e seleccionam-se aleatoriamente alguns
desses grupos. No passo seguinte, também os elementos de cada grupo são
aleatoriamente escolhidos. Este processo pode multiplicar-se por mais de duas
etapas se os grupos estiverem divididos em sub-grupos.
Num estudo de mercados internacionais foram seleccionados dois países para
se identificarem as lácticas de posicionamento a seguir para as pastas dentífricas.
Em cada um dos países escolhidos foram seleccionados cinco centros urbanos
e, dentro destes, catorze estabelecimentos comerciais. Em todas as etapas (paí-
ses, centros urbanos, estabelecimentos comerciais) as escolhas resultaram de
um processo aleatório.
Selecção aleatória
2 Países 0
5 Centros urbanos
14 Estabelecimentos
comerciais
Amostragem multi-etapas
Países
1 2 3 4 123456
mnn1ITTmm mnl ITTl 1mn
•
Imagine que se pretendia conhecer a aceitação de um novo produto de higiene
pelas potenciais consumidoras (mulheres adultas) na área da grande Lisboa.
Obviamente que, embora não sendo impossível construir uma lista onde·-··
constassem todas as mulheres adultas residentes naquela área, isso seria não
O PROCESSO DE AMOSTRAGEM
só extremamente dispendioso como a morosidade na sua obtenção a tornaria
rapidamente desactualizada.
Neste·caso, poder-se-á utilizar uma variante do método de amostragem·casuatl--------
por c/usters - a amostragem por áreas em etapas múltiplas:
1' A área da Grande Lisboa seria dividida em concelhos (c/usters) e proce-
der-se-ia à selecção aleatória de algum destes concelhos.
2' A partir dos concelhos escolhidos anteriormente proceder-se-ia à selecção
aleatória de algumas freguesias (c/uslers).
3º De igual modo, cada freguesia seleccionada seria dividida em quarteirões
(clusters) procedendo-se à selecçãoaleatória de alguns destes.
4º Ponderando cada quarteirão pelo número de fogos existentes, seleccionar-
·se-ia uma amostra sistemática dos fogos que fariam parte da amostra.
5' Finalmente seriam inquiridas as mulheres adultas moradoras nestes fogos.
Caso exista em determinado fogo mais do que uma mulher adulta, esco-
lher-se-ia aleatoriamente uma delas (amostra casual simples).
Sublinhe-se que a probabilidade de seleccionar um determinado c/uster (con-
celho, freguesia, quarteirão) é sempre proporcional à sua população.
•
Como desvantagem deste método adiante-se o facto de que os possíveis
erros de amostragem se poderem multiplicar, dado que ao longo deste proces-
so se vão utilizando várias sub-amostras com a possibilidade de erros de
amostragem em cada uma delas.
A preocupação com a dimensão e precisão da amostra é aqui uma cons-
tante a nível de cada uma das etapas deste método.
4.2.1.6. Amostragem multi-fásica
Não deverão ser confundidos estes dois processos de amostragem: multi-
·etapas e multi-fásicas. No primeiro processo as unidades amostrais variam de
uma etapa para outra. No exemplo referido no ponto anterior, as unidades
amostrais eram, sucessivamente, os países, os centros urbanos e os estabe-
lecimentos comerciais, enquanto na amostragem multi-fásica define-se sempre
a mesma unidade amostral para todas as fases de extracção da amostra.
i----Na-primeira-fase;·recolhem 0se-dados-sobre·-determinadas-características···-··--·
dos respondentes - por exemplo, o seu comportamento e frequência quanto
37
ESTATÍSTICA APLfCADA
38
ao consumo de determinado produto, variáveis demográficas, tamanho das
empresas, a sua disponibilidade para responder novamente a um inquérito.
Esta informação pode ser usada para a definição de uma listagem dos possí-
veis respondentes à segunda fase do inquérito. É então retirada desta listagem
uma segunda amostra que responderá a um questionário com um nível de
profundidade mais elevado.
Para avaliar o potencial do mercado internacional de micro-computadores,
poderá ser aconselhável realizar primeiro um inquérito pelo telefone a nível inter-
nacional que permita determinar, para diferentes sectores de actividade e
tamanhos das empresas, os grandes compradores destes produtos. Em seguida,
proceder-se-ia à listagem dessas empresas com base nos resultados do inquérito.
Desta listagem seria retirada uma amostra para a qual se estudaria, em maior
profundidade, o seu comportamento consumidor, as suas características-chave
em termos de escolha do vendedor, quem na empresa é responsável pela com-
pra, quais os principais utilizadores do produto, etc. Dependendo do orçamento
de pesquisa, dentro de cada empresa poderiam ser entrevistados todos os parti-
cipantes-chave na decisão de compra, utilizadores e responsáveis pela compra,
ou apenas alguns deles.
•
Antes de se tecerem algumas considerações sobre os métodos de amos-
tragem dirigida (não probabílisticos), importará esclarecer que os diferentes
tipos de métodos de amostragem aleatória que acabámos de abordar não são
m~tuamente exclusivos, podendo ser utilizados conjuntamente em fases dife-
rentes do processo de amostragem.
Por outro lado, fique bem claro que uma amostra obtida por um método
de amostragem do tipo aleatório não garante por si só uma resposta correcta
(a verdadeira, a que se obteria se se utilizasse o universo).
No entanto, garante, isso sim, a capacidade de medir a probabilidade de
obter a resposta errada.
Existem outros proce;ssos de extrair amostras, sendo muitos deles combina-
ções das técnicas anteriormente descrttas com outras técnicas de amostragem
não aleatória ou dirigida, que se apresentarão em seguida com maior detalhe.
! )
O PROCESSO DE AMOSTRAGEM
4.2.2. Métodos de amostragem dirigida
Aqui a selecção de cada elemento que fará parte da amostra é-baseada . ------
em maior ou menor grau em juízos de valor sobre a população alvo.
Pretende-se que a amostra represente certas características que se conhe-
cem sobre a população, não sendo no entanto possível conhecer a proba-
bilidade de determinado elemento do universo ser seleccionado para constituir
a amostra.
Fazem parte deste grupo um grande número de métodos tais como: a
amostragem por conveniência, o método intencional, a amostragem snowball,
sequencial e ainda o método de amostragem por quotas.
Uma amostra obtida através de um destes processos, e se não se pretende
generalizar os resultados obtidos a toda a população, pode ser adequada nas
seguintes condições:
i) O estudo constitui apenas uma primeira experiência ou a primeira fase
de um estudo mais alargado.
ii) Existe uma maior preocupação em aperfeiçoar um questionário do que
em recolher resultados fidedignos.
iii) É impossível utilizar qualquer tipo de amostragem aleatória (casual).
4.2.2.1. Amostragem por conveniência
Este tipo de amostra baseia-se na premissa de que certo tipo de respon-
dentes apresentam uma maior disponibilidade ou se encontram mais aces-
síveis para responder ao inquérito. Dadas as dificuldades e os custos elevados
da realização de um processo de amostragem aleatório, em muitas situações
a amostragem por conveniência torna-se particularmente atractiva e, embora
não se possa falar de representatividade, frequentemente é possível evitar um
enviesamento sistemático. Este tipo de amostragem pode também ser utilizado
na fase de pré-teste a um questionário.
Neste método, selecciona-se a amostra em função da disponibilidade e
acessibilidade dos elementos que constituem a população alvo.
Uma das aplicações deste método é o caso de inquéritos sobre a aceitação
de determinado produto que se encontra nos locais de venda, aproveitando
assim a presença dos consumidores actuais ou potenciais, que são seleccio-
___ ,,_ ados-desde-que-se-mostrem-disponíveis-para-re·sponder. -- ·-------- ---•
39
ESTATÍSTICA APLICADA
4.2.2.2. Amostragem intencional
40
Neste procedimento, a escolha dos elementos a constituirem a amostra
baseia-se na opinião de uma ou mais pessoas que são fortemente conhece-
doras das características específicas da população em estudo que se pretende
analisar.
Se, por exemplo, a população forem os vendedores ambulantes, torna-se
impossível obter uma lista daqueles e a ajuda para a selecção dos elementos
da amostra poderia vir da Polícia de Segurança Pública ou das Associações
de Comerciantes ...
No caso da população em estudo serem os homossexuais, ou os consumi-
dores de drogas pesadas, a amostra, em ambos os casos, teria de consistir
em volurtários dispostos a assumir as situações respectivas e a ajuda poderia
vir de conhecedores dos habituais frequentadores de certo tipo de bares e de
certos locais, ou de responsáveis de determinadas instituições de prevenção
e combate à droga, por exemplo.
41+1i@@r9
Em países menos desenvolvidos um inquérito que se pretenda realizar para
recolha de informação sobre o comportamento dos consumidores poderá ser
aplicado no mercado, a uma amostra de consumidores que o frequentam nos
vários dias da semana. Mas pode ainda ser adaptado um outro processo de
recolha de informação, escolhendo para respondentes aqueles que se pensa
conhecerem melhor a situação, isto é, os hábitos de consumo da população.
Poderão ser os mais idosos, os chefes ou os dirigentes religiosos, autênticos
«peritos>> cujo conhecimento advém de uma longa vivência dentro da comunidade .
•
Um outro exemplo diz respeito à força de vendas das empresas que, em certos
ambientes e situações, pode constituir uma importante fonte de informação pelo
seu conhecimento das necessidades e interesses dos consumidores. Deverá
ter-se cuidado especial ao utilizar-se estimativas quantitativas derivadas desta
fonte, sobretudo quando se referirem ao potencial de vendas daempresa, onde
existe um risco de maior enviesamento devido a opiniões subjectivas,--- ··- ·--·-
•
:i·
1
O PROCESSO DE AMOSTRAGEM
4.2.2.3. Amostragem snowball
Este processo de amostragem é partiC:úlarmentei a.conselnaao quariâo se-- ·--
pretende estimar características relativamente raras na população total. É uma
forma de abordagem intencional que se utiliza frequentemente em estudos
cujas populações são pequenas e muito específicas.
Este tipo de método utiliza-se em certos estudos em que à partida é o
próprio inquirido que sugere outros eventuais inquiridos (snowball) bem inse-
ridos na temática que se pretende estudar.
O método consiste em escolher inicialmente os inquiridos de modo aleatório
e, numa segunda fase, escolher respondentes adicionais a partir da informação
obtida dos primeiros.
Na maior parte dos casos, a população alvo é muito restrita e encontra-se
muito dispersa por uma série de organismos diferenciados (ministérios, empre-
sas, laboratórios, centros de investigação universitários, etc).
Num estudo a nível europeu sobre o software utilizado pelos técnicos de
estudo de mercado, foram consultados os técnicos das empresas portuguesas a
quem foi pedida a identificação de outras empresas nos paises da U.E. A amostra
irá sendo aumentada à medida que os inquiridos vão sugerindo novos nomes.
•
4.2.2.4. Amostragem sequencia/
Outro tipo de amostragem dirigida que pode ser considerado como relati-
vamente semelhante ao método multi-fásico é a amostragem sequencial.
Neste processo de amostragem, a realização da fase seguinte só é decidida
depois de analisados os resultados da fase anterior. Com o desenvolvimento
das respostas computorizadas aos inquéritos, este processo tenderá a tornar-
se cada vez mais popular. Os respondentes vão sendo entrevistados e os
~ad_o_s_analisados simultan_Ei.<1mef!!_~ou em_certos momentos pré-defi11_idos,
tomando-se, em seguida, a decisão de continuar ou não com as entrevistas .
41
ESTATÍSTICA APLICADA
4.2.2.5. Amostragem por quotas
42
Este método não probabilístico pode ser representado como algo equiva-
lente à amostragem aleatória estratificada.
Na amostragem por quotas, estabelece-se uma quota para cada estrato
que seja proporcional à sua representação na população e assegura-se que
um número mínimo de elementos faça parte da amostra, para cada estrato
especificado.
Pretende-se assim obter uma amostra que seja semelhante à população
em certas características pré-especificadas, ditas características ou variáveis
de «controlo>).
Seja P a dimensão da população a inquirir e P1 o número de indivíduos
dessa população no estrato 1. Se a dimensão da amostra for S, então
S x ( ~ ) será o número de indivíduos na amostra pertencentes ao estrato 1.
Por exemplo, se numa população de 10000 indivíduos, 2500 pertencem ao
grupo etário dos 25 aos 35 anos, numa amostra de 400 indivíduos retirados
desta população, 100 deverão ter idades dentro daquela faixa.
Em resumo, na amostragem por quotas, as proporções dos vários sub-gru-
pos na amostra reflectem a sua distribuição dentro da população. A cada
entrevistador são dadas as características que os entrevistados deverão satisfazer.
As entrevistas terminarão quando se obtiverem as quotas pré-estabelecidas para
cada sub-grupo.
Existem dois modos de definição das quotas: independentes e interrelacio-
nadas. Com quotas independentes simplifica-se o trabalho dos entrevistadores
uma vez que necessitam de obter respostas que satisfaçam cada uma das
quotas separadamente.
Suponha-se que se pretende estudar as características dos automóveis con-
sideradas mais importantes pelos consumidores. Neste caso, poder-se-ia formular
a hipótese de tais características poderem ser diferenciadas em função-de.certas __ _
O PROCESSO DE AMOSTRAGEM
variáveis da população ditas de «controlo» e que nesta situação particular seriam
as seguintes:
Idade: 2 categorias (menos de 40-anos-e··mais-deAO-anos) · - ·- ------- ----- -
Sexo: 2 categorias (1/4 mulheres e 3/4 homens)
Educação: 4 categorias
Rendimento/Status: 5 categorias
Seriam assim, 2 x 2 x 4 x 5 = 80 estratos diferentes determinando-se de se-
guida os valores (quotas) para cada um deles.
•
Como alguns problemas e desvantagens deste método saliente-se que:
- ainda que uma amostra por quotas e a população sejam coincidentes
nas medidas para as quais conhecemos as características de ambas,
podem diferir substancialmente noutras características para as quais
temos apenas o valor da amostra;
- daí que as variáveis de «Controlo» devam ser bem seleccionadas e a
ausência de uma delas, importante no estudo em causa, poderá condu-
zir a incorrecções graves. Por outro lado, o próprio preenchimento de
todos os estratos (células) nem sempre se torna de fácil execução.
A amostragem por quotas foi largamente utilizada nos E.U.A. durante as
décadas de 30 e 40 para recolha de informação a nível nacional, mas foi sendo
posta de parte com o desenvolvimento de métodos de amostragem aleatória.
Actualmente, é altamente criticada pelos estatísticos devido à sua fraqueza
teórica e, simultaneamente, defendida pelos técnicos de pesquisa de mercados
e de estudos de opinião pelo seu reduzido custo, facilidade de administração
e ainda por ultrapassar certo tipo de problemas tais como a falta de uma
listagem completa e actualizada da população a inquirir e a necessidade de
informação urgente para tomada de decisão.
As principais vantagens podem ser assim resumidas: rapidez, economia e
simplicidade administrativa.
--------------- -
43
ESTATÍSTICA APLICADA
44
A grande desvantagem deste processo de amostragem é o enviesamento
introduzido pelo entrevistador na selecção dos respondentes e que é de muito
difícil medição e controlo. Conscientemente ou não, o entrevistador tem ten-
dência para:
- escolher determinado tipo de inquiridos e evitar outros por deformação
ou simpatia pessoal;
- tentar rentabilizar ao máximo o seu trabalho, fazendo as entrevistas
seguidas à mesma hora do dia e no mesmo local, quando deveriam ser
mais espaçados no tempo e na localização.
Algumas destas desvantagens podem ser minimizadas através de formação
adequada dos entrevistadores e controlo de todo o processo de recolha de
informação.
O PROCESSO DE AMOSTRAGEM
Exercícios propostos
1. Defina os conceitos de população e amostra.
2. Quais as etapas a seguir na construção de uma amostra?
3. Uma empresa de estudos de mercado pretende realizar um inquérito sobre as
preferências de consumo dos portugueses relativamente às fraldas descartáveis
para bébé. Qual a população alvo e a população a inquirir?
4. Quais as vantagens e desvantagens dos métodos probabilísticos de selecção
de uma amostra?
5. Quais as vantagens e desvantagens dos métodos dirigidos de selecção de
uma amostra?
6. Que técnicas se poderão utilizar para recolha de uma amostra aleatória sim-
ples?
7. Quais as diferenças entre um processo amostral estratificado e um por quotas?
8. Por que razão se designa a amostragem causal sistemática como quasi-alea-
tória?
9. Em que situações é aconselhável utilizar um processo snowball de recolha de
uma amostra?
---------------------------- ------- ···-···
45
Capítulo VI
Distribuições amostrais
'
--·------------------·---- -~-------------~
" !'
'
1
i
r
J
Introdução D-
Quando se pretende estudar determinada população, interessa fazê-lo ana-
lisando certas características (ou variáveis) dessa população.
Essas variáveis podem ser discretas ou contínuas e o seu «comportamen-
to., pode ser definido segundo uma função de probabilidade (se a variável é
discreta) ou função de densidade de probabilidade (se a variável é contínua).
Como se referiu anteriormente,embora uma variável X designe uma carac-
terística duma população, é frequente utilizar, no âmbito da teoria da amostra-
gem, a designação X para a própria RoPulaç1jo.
Para que o comportamento de X seja conhecido, basta conhecer a sua
distribuição e o valor dos parâmetros caracterizadores dessa distribuição. Por
exemplo, tratando-se de uma população Bernoulli, terá de ser conhecido o valor
de p; tratando-se de uma população normal há necessidade de conhecer os
valores de µ e cr.
Como se sabe, numa população Bernoulli, p representa a probabilidade de
um elemento da população possuir o atributo em estudo; numa população
normal, µ e cr representam, respectivamente, a média e o desvio-padrão da
característica em estudo.
Acontece, porém, que os parâmetros de uma população só serão conheci-
dos se for possível estudar todos os elementos que a ela pertencem, facto só
possível em populações finitas e, regra geral, pouco numerosas. Os custos
resultantes do estudo de toda uma população são, por vezes, tão elevados,
que a melhor alternativa consiste em retirar uma amostra dessa população e
estimar esses parâmetros a partir dos valores amostrais, inferindo assim da
amostra para a população. Mas nem todas as amostras permitem que, a partir
dos seus resultados, se faça uma generalização a toda a população. Os
métodos de inferência estatística, apresentados nos capítulos seguintes, pres-
supõem que a amostra é casual ou aleatória.
49
ESTATÍSTICA APLICADA
1. 1. Amostra aleatória
50
Considere-se uma população da qual interessa estudar a característica X,
cuja função de probabilidade ou f.d.p. é dada por f (x) .
Se for retirada dessa população uma amostra (A,) de dimensão n, obtém-se
(x 1. x ~ • ... , x ~ ), onde o k-ésimo elemento x~ (k = 1, 2, ... n) é um valor do
conjunto de valores que X pode assumir.
Se for retirada uma outra amostra (A2) , de igual dimensão, obtém-se
2 2 2 . d (x 1, x 2, ... , x n) . Podem, assim, retirar-se sucessivas amostras a mesma
dimensão
1 1 1 amostra A1 : (x 1, x 2 , ... , x n)
A r r r amostra r: (x 1, x 2, ... , x n)
Pode ser definida uma amostra «tipo»
que, por gerar as várias amostras (A1, A2, ... , A,, ... ), pode ser entendida
como uma variável aleatória n-dimensional com função de probabilidade ou
f.d.p. conjunta l(x1, x2, ... , Xn). Facilmente se constata que as variáveis
aleatórias X1, X2, ... , Xn assumem os mesmos valores de X, uma vez que
são elementos de uma amostra, todos eles retirados de uma mesma popula-
ção, segundo, portanto, a mesma função de probabilidade ou f.d.p. da
população:
f(X1) = f(X2) = ... f(Xn) = f(x).
Acrescente-se ainda que, porque (X1, X2, ... , Xn) é uma amostra reco-
lhida segundo um processo casual ou aleatório, os seus elementos ouva,riá.v!lis
aleatórias X1, X2 , ... , Xn são independentes entre si.
DISTRIBUIÇÔES AMOSTRAIS
Seja uma amostra aleatória de dimensão n = 3, (X1, X2. X3), retirada duma
população Bernoulli.
Que amostras diferentes podem ser recolhidas da população?
Deduza a função de probabilidade conjunta daquela amostra.
Qual a mais provável no caso de se ter p = O, 1?
(X1, X2, X3) => Amostra aleatória
Amostras concretas:
(O, O, O) amostra em que não ocorre qualquer sucesso.
(O, 1, O) } (0, o, 1) amostras em que ocorre apenas um sucesso
(1, O, O)
(0, 1,
1) } (1, 1, 0) amostras em que ocorrem dois sucessos
(1, o, 1)
(1, 1, 1) amostra em que ocorrem apenas sucessos
····--·······-··-----·---
51
ESTATÍSTICA APLICADA
52
Distribuição de probabilidade conjunta da amostra aleatória (X1, X2, X3 ):
l(x1)
Assim, a probabilidade de ocorrer uma amostra (x1, x2, x, ) com p =·o, 1 é dada
por:
l(X1 ,X2,X3lp = 0,1) = 0,1X,+X,+",, 0,93-(x,+x,+x,)
Concretizando:
1(0, O, OI p = 0,1) = 0,1º . 0,93 = 0,729
1(0, 1,0lp = 0,1)}
1(0, O, 1 I p = 0,1) = 0,1 1 . 0,92 = 0,081
1(1,0,0lp = 0,1)
1 (O, 1, 1 I p = O, 1) \
1(1, O, 1 lp = 0,1) = 0,1 2 . 0,91 = 0,009
1(1, 1,0lp = 0,1)
1(1, 1, 1 lp = 0,1) = 0,1 3 . 0,9° = 0,001
----------------··
Conclui-se que a amostra mais provável é aquela em que ocorrem três insu-
cessos (X1, X2, X3) = (0,0,0) o que aliás faz sentido pois é extremamente baixa
a probabilidade de ocorrência dum sucesso (a verdadeira proporção de sucessos
na população é p = O, 1 ).
•
DISTRIBUfÇóES AMOSTRAIS
1.2. Parâmetros e estatísticas
Um parâmetro é uma característica duma população, isto é, um valor carac-
terizador da população que, embora possa ser desconhecido, é fixo.
Uma estatlstica é uma característica da amostra, melhor dizendo, é uma
função da amostra e, portanto, assume valores diferentes para diferentes amostras
(ou seja, é uma variável aleatória). Se, para cada uma das amostras
A1, A2, .... A,, ... referidas no ponto anterior, se calcular, por exemplo, a res-
. 'd' b . - 1 - 2 - r pecllva me 1a, o ter-se-ia x , x , .. ., x , ...
Poder-se-ia então dizer que a média (amostral) X é uma variável aleatória
amostral, que assume um valor concreto ( x ') para cada amostra concreta
(A,).
Assim, a média µ e o desvio-padrão cr duma população normal ou a média
p e o desvio-padrão ._/p (1 - p) duma população Bernoulli são parâmetros.
A média duma amostra {chamada também média amostral) recolhida de
determinada população é uma estatística e designa-se por X.
O desvio-padrão duma amostra é também uma estatística e designa-se por S.
Suponha que se pretende estudar a reacção despertada por um novo produto
a lançar no mercado. Estamos interessados em conhecer a idade média e a
proporção de interessados no novo produto.
Uma resposta exacta àquelas questões só seria obtida se perguntássemos à
totalidade da População em estudo ...
Poderemos estimar aqueles parâmetros através de uma amostra? A resposta
é afirmativa.
É que, a partir duma amostra, podemos obter as estatísticas: idade média
(idade amostral) e proporção de interessados no novo produto na amostra .
•
53
ESTA TJST/CA APLICADA
54
Alguns exemplos de estatísticas:
n
- T1 = X = * 2, X; é a chamada média amostral
i= 1
n
~ -2 4' (X;- X)
- T2 = 52 = _,_·=_1 ___ _
n
n
~ -2 4' (X; - X)
é a chamada variância amostral
- T3 = 5•2 = ~'~·=~'---
n - 1 é a chamada variância amostral corrigida
n
- T4 = 2, X'f
i=t
X1 + Xn
-Ts = 2
- T5 = + { min (X1, X2, ... , Xn) + max(X1, X,. ... , Xn) }.
•
Como facilmente se pode verificar, cada amostra aleatória retirada duma
população X irá dar origem a estatísticas com valores diferentes.
Daí que as estatísticas sejam variáveis aleatórias e portanto tenham uma
certa distribuição de probabilidade.
Chamam-se distribuições amostrais às distribuições de probabilidade das
estatísticas.
Como obter então a distribuição amostral de uma estatística?
Há duas alternativas: uma teórica que se baseia na distribuição conjunta da
amostra e outra empírica que consiste em retirar sucessivas amostras, calcular
o valor concreto da estatística que se pretende e obter a respectiva distribuição
de frequências. ·- ··--·-··- ··-···-··--
j.
=i
DISTRIBUIÇÕES AMOSTRAIS
Antes da apresentação das principais distribuições amostrais das estatísti-
cas mais importantes é necessário introduzir um parentesis e falar de duas leis
muito importantes na inferência estatística: a lei dos grandes números e o
teorema do limite central, dois conc~it~;-;e.1acionadoseiitresi e absolutamente
fundamentais à compreensão dos métodos de inferência.
1.3. Lei dos grandes números
A Lei dos grandes números desenvolve-se a partir da desigualdade de
Chebishev que convém aqui recordar:
Se X for uma variável aleatória com µ = E [X], Var [X] = cf e E um
qualquer valor real positivo (E > O), então
P [ IX - µI 2 E ] :". Var [X]
E2
isto é, X difere deµ em mais de E com uma probabilidade nunca superior a
Var [X]IE2 .
Para o caso particular em que E = K cr a desigualdade prova que
1 P [ IX - µI ;, K cr] :". - 2-K
ou seja, a probabilidade de que a variável aleatória X se desvie da média mais
do que K desvios-padrão é sempre inferior ou igual a --;- .
K
É possível agora definir, com base nesta desigualdade, a Lei dos grandes
números.
------------------------·-·--·-·----
55
ESTATÍSTICA APLICADA DISTRIBUIÇÕES AMOSTRAIS
56
Demonstração:
Uma vez que X1, X2 , ... , Xn são elementos de uma amostra aleatória·
retirados de uma mesma população, são independentes e têm todos a mesma
distribuição, logo
Var [ Sn] = n . Var (X) = n a2-
e
Var[ ; ] =
Var(Sn) n cr2 a2-
---
-
n2 n2 n
Sabe-se ainda que
Pela desigualdade de Chebishev, para qualquer E > O ,
Fixando E e fazendo n tender para =, obtém-se o limite dessa proba-
bilidade
ou, complementarmente
c.q.d.
s Como poderá verificar, _n_ é a média amostral, razão porque esta lei é
n
também conhecida por «lei das médias». O seu significado é facilmente com-
preendido: à medida que n aumenta, a probabilidade de a média amostral se
afastar da média da população em mais do que um valor E previamente fixado,
tende para O; ou ainda, atendendo ao complementar deste acontecimento, à
medida que n aumenta, a probabilidade de os desvios entre a média amostral
e a média populacional se tornarem mais pequenos que um valor qualquer
E > O tende para 1 .
1.4. Teorema do limite central
57
ESTATÍSTICA APLICADA
58
A demonstração deste teorema, por requerer técnicas matemáticas avan-
çadas, não é aqui apresentada 1. A sua aplicação é deveras importante, como
se verá nos pontos seguintes deste capítulo. Dividindo por n o numerador e o
denominador da variável Yn , obtém-se
n
I
Sn i= 1
mas
-
n n
X;
= X.
Sn
- µ
n o n n (0,1)
Logo, pelo teorema do limite central, conclui-se que, se X for uma variável
aleatória com média µ e variância finita o2 , então a média amostral X, para
amostras grandes, terá uma distribuição aproximadamente normal com média
.. . a2 . d µ e vananc1a - , ou a1n a
n
X - µ º
--'-'-----'-'-- n n (O, 1 ) .
cr
{{)
Apresenta-se, em seguida, e mais detalhadamente a distribuição amostral
de algumas estatísticas muito importantes no capítulo da Inferência Estatística.
Para tal, é necessário que primeiro se definam algumas distribuições amostrais
teóricas.
1 p .
ara os que pretendam seguir essa demonstração aconselha-se a consulta de Mooo, GAAYBILL e
BOES (1974), pág. 235.
'i
!i
'1
!I
1
'
Distribuições_ .
amostrais teóricas
2.1. Distribuição normal
No âmbito do estudo da distribuição normal foi referido o teorema da
aditividade da normal. Viu-se então que, dadas n variáveis aleatórias inde-
pendentes com distribuição normal de parãmetros µ e cr,
n
L X; n n(nµ; crin)
i= 1
ou seja,
n
L X; - nµ
i= 1 --a-in~n~- n n(O, 1).
Dividindo numerador e denominador por n vem:
isto é
X~µ í1 n(O, 1)
{()
Como uma amostra aleatória de dimensão n é uma variável aleatória n-dimen-
sional, em que todas as variáveis X; (i = 1, 2, 3, . . . n) têm a mesma distribuição
do Universo e são independentes, os resultados anteriores podem aplicar-se.
- L X; (" . 'd d
___ C_onclubse.assim.que-~média_amostraL.X_~ n _ !S_to_e_a-1!l.ª-.J.lLJilJlª- -·
amostra aleatória) retirada duma população normal, tem distribuição normal,
59
ESTATÍSTICA APLICADA
60
cujo desvio-padrão é função não só do desvio-padrão da população (a) como
também da dimensão da amostra (n ). O valor esperado ou médio de X coincide
com a média do Universo (µ).
Facilmente se demonstra o que se acabou de dizer. De facto, se tivermos uma
amostra aleatória de elementos X; , retirados de uma população normal, isto é,
X; (1 n (µ, a).
então, a média amostral, X, tem também distribuição normal uma vez que
depende dos valores X; , com os seguintes parâmetros:
1
=-E[X1+X2+ ... +Xnl=
n
= -
1
-[E(X1) + E(X2) + ... + E(Xn)] =
n
1
= n [ µ + µ + ... + µ l =
1
. n. µ =
n
= µ.
VAR [ --!i- L X;] = n\ VAR [ L X; J =
1
= - 2- VAR [X; + X2 + . . . + Xn] = n
1
= - 2 [ VAR (Xi) + VAR (X2) + . . . + VAR (Xn)] = n
1
n2
1
n2
= _1 a2
n
[a2+a2+ ... +a2] =
n . cr2
DJSTRIBUIÇÔES AMOSTRAIS
logo
E se X, o Universo ou população, não tiver distribuição normal ou for
desconhecida a sua distribuição?
Suponha que X tem uma distribuição diferente da distribuição normal, com
uma certa média µ e variância a2 , isto é, X n f (µ, a).
Importa aqui distinguir duas situações:
1. Se X tiver distribuição diferente da normal e se se tomar uma pequena
amostra 1 então ter-se-á de determinar a distribuição assumida por X,
que será como é óbvio, função da distribuição do universo, isto é,
X n f( ... ).
2. Se X tiver distribuição diferente da normal e se se tomar uma grande
amostra então a distribuição de X será próxima da distribuição normal
(fala-se em distribuição aproximada) e tanto mais próxima quanto maior
for a dimensão da amostra, isto é
- o ( Cí J X (1 n µ; -ln .
Este resultado provém da aplicação do teorema do limite central já apre-
sentado no ponto anterior.
-y---
Geralmente, fala-se em pequenas amostras quando n s 30 e em grandes amostras quando
n > 30, onde n designa a dimensão da amostra.
61
ESTATÍSTICA APLICADA
2.2. Outras distribuições
Além da distribuição normal que acabou de ser apresentada como distribui-
ção amostral, existem outras distribuições teóricas de uso bastante genera-
lizado sobretudo na área da inferência estatística e que são:
- Distribuição do Qui-quadrado - x.2
- Distribuição t de Student
- Distribuição F de Snedecor
2.2. 1. Distribuição do Qui-quadrado
62
+~
(w) = J xw-1 e-x d*
o.
A distribuição do Qui-quadrado é um caso particular da distribuição Gama
(vd volume 1). É fácil notar que:
X(nJ n G 2• 2 . 2 ( n 1 J
,,.
!
!
1
.)
DISTRIBUIÇÕES AMOSTRAIS
2.2. 1.1. Principais características da distribuição do x2
1. É uma função positiva e não simétrica.
2. Se X n xi\, J então demonstra-se que
E [X] = n
VAR [X] = 2n.
3. O seu aspecto gráfico depende do n (parâmetro caracterizador da distri-
buição). Na figura abaixo, ilustram-se algumas distribuições do qui-qua-
drado.
l(x)
o
'
'
'
'
'
-~_10
----- --
X
4. É uma distribuição aditiva, isto é: se as variáveis aleatórias
X;, (i = 1, 2, ... , n), são independentes e X; n xfn;J então
n n
I X;n 2 XcmJ onde m=L, ni.
i= 1 i= 1
2.2.1.2. Alguns teoremas
1. O quadrado de uma variável aleatória normal standartizada tem distribui-
ção do qui-quadrado com 1 grau de liberdade, xfo.
2 (X-µJ2 2 Z = n X(1J
-···-.·-·--·-· -·· __ q ___ -·-·--··-··-·--·-·-··-·-·-··-··---··--·----·-··-· -·
sendo Z n n (O, 1).
63
ESTATÍSTICA APLICADA
2. O somatório do quadrado de n variáveis aleatórias com distribuição
normal padrão tem distribuição do x2 com n graus de liberdade, ou seja:
n [ J2 X; - µ; 2 L a· ílX(n)·
i= 1 I
3. A distribuição do xfn l tende para a distribuição normal, à medida que n
aumenta. Ou seja, quando n -? =, tem-se:
xfn) n n(n,'Í2n)
ou
2 X(n) - n
'12n
o
í1 n (O, 1) .
por aplicação do teorema do Limite central.
Uma melhor aproximação resulta ainda quando se utiliza:
~ 2X~) - {2{) n n (O, 1) para valores de n > 30.
2.2.2. Distribuição t de Student
64
DISTRIBUIÇÔES AMOSTRAIS
2.2.2. 1. Principais características
da distribuição t de Student
-··-------- ........ ------~i
1. É simétrica em relação ao eixo x =O.
2. Se X n trn l então demonstra-se que:E [X] = O
n VAR [X]= n _ 2 se n > 2
3. O seu aspecto gráfico depende do parâmetro n (números de graus de
liberdade) como se vê na figura; assinale-se ainda a semelhança entre
a distribuição t de Student para n = 1 O e a normal standartizada.
n (O, 1)
X
2.2.2.2. Alguns teoremas
1. Se as variáveis aleatórias X e Y forem independentes e se
X Y 2 -íl n (O, 1) e n X(n )• entao
X
T = --- íl l(n)
Ou seja: o quociente entre uma normal reduzida e a raiz quadrada de
uma qui-quadrado dividida pelo respectivo número de graus de liberdade
é uma variável aleatória com distribuição t de Student com os mesmos
n graus de liberdade.
65
ESTATÍSTICA APLICADA
2. A distribuição t de Student tende para a distribuição normal, à medida
que n aumenta. Ou seja, se X n l(n l• quando n -7 ~. então
ou
X o n n(O, 1)
ou simplesmente X n n (O, 1 ). Este resultado advém da aplicação do
teorema do Limite central.
2.2.3. Distribuição F de Snedecor
66
'I
'i'
DISTRIBUIÇÕES AMOSTRAIS
2.2.3.1. Principais características da distribuição F
1. É uma distribuição posllivaenão simétrica.
2. Se X n F(m, n l então demonstra-se que:
n
E [X] = n - 2 se n > 2
VAR [X] = 2n 2 (m + n - 2)
m (n - 2)2 (n - 4)
se n > 4
3. O seu aspecto gráfico depende dos parâmetros m e n. A sua repre-
sentação gráfica é a seguinte:
f(x)
o
,-,
' '
' '
' '
' ' l \ F(30,3_0)
' '
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
' '
'
'
'
'
\, ____ F(4.12)
X
2.2.3.2. Alguns teoremas
1. Se a variável aleatória X n F(m, n l então ~ n F(n, m J·
2. Se as variáveis aleatórias X e Y forem independentes e se
X n XTmJ e y n xfni então
X
m
F = --y n F(m, n)-
n
Ou seja: o quociente de duas variáveis aleatórias independentes com
~-----distribuição-de~2-divididas-pelos-respec:tivos-graus-de-tiberdade-1em~---·--·--- ---<
67
ESTATÍSTICA APLICADA
68
distribuição F, cujos graus de liberdade são, por ordem, os graus de
liberdade da x2 que está em numerador e os da x2 em denominador.
3. o quadrado de uma variável aleatória com distribuição t de Student com ,.
n graus de liberdade tem uma distribuição F com 1 e n graus de liberdade.
Ou seja, se T n t(n) então
T 2 n F(1, n).
Distribuiçóas ---li-
amostrais das estatísticas
mais importantes
Apresentar-se-ão em seguida, de uma forma sistemática, as distribuições
amostrais utilizadas e frequentemente definidas a partir de amostras de popu-
lações Bernoulli e de populações normais.
3. 1. Populações Bernoulli
Suponha-se que é possível especificar a priori que se está perante uma
população Bernoulli, isto é, uma população composta por elementos de dois
tipos - os que possuem e os que não possuem determinado atributo 1. As
populações Bernoulli são caracterizadas pela seguinte função de probabili-
dade:
X= 0,1
em que x = 1 corresponde aos elementos da população que possuem deter-
minado atributo ex= O aoselementosquenãopossuemesteatributo.
Oparâmetro p = P [X = 1] representa a probabilidade de obter um ele-
mento possuindo o atributo em questão. Ou seja, p representa a verdadeira
proporção de elementos (no universo) com aquele atributo. Ora, em geral, o
parâmetro p é desconhecido; daí que nos problemas de amostragem interes-
sem particularmente as seguintes estatísticas:
---, ------- .
Existem, aliâs, métodos para testar se é de aceitar ou não que determinada amostra foi recolhida
de certa população com distribuição conhecida, como se verá posteriormente.
69
ESTATÍSTICA APLICADA
n
1) L X;= X1 + X2 + ... + Xn = Sn
i = 1
que é o número de elementos que, numa amostra de dimensão n,
possuem determinado atributo.
i= 1 y
que é a proporção de elementos na amostra, que têm aquele atributo. ._
70
Importa então conhecer as distribuições amostrais destas duas estatísticas.
Comecemos por 1 ):
Sn = X1 + X2 + . . . + Xn é a soma de n variáveis aleatórias indepen-
dentes com distribuição Bernoulli. Facilmente se deduz a distribuição amostral
de L X;:
E[ i X;] = E[X1 + X2 + ... + Xn] =
1=1
= E[X1] + E[X2] + ... + E[Xn] =
=p+p+ ... +p
n vezes
= np.
.\
DISTRIBUIÇÕES AMOSTRAIS
VAR [ ;~ X;] = VAR [X1 +X2+ ... +Xn]=
= VAR [X1 ] + VAR [X2] + . . . + VAR [Xn] =
= p. q + p. q + ... + p .q
n vezes
= n . p . q = n . p (1 - p ).
n
A estatística I, X; é afinal o número de sucessos na amostra de tamanho
i= 1
n, ou seja, trata-se de uma distribuição binomial, de parâmetros n e p:
n
L X; = Sn n b (n; p ).
j = 1
Quando a dimensão da amostra for grande (n > 30) tem-se que:
o
n n (O, 1 ).
A análise da estatística 2) é feita no ponto seguinte.
3.1.1. Distribuição de uma proporção amostral
A out t t· t. -X L X; - · · d -ra es a 1s 1ca = -- nao e mais o que a proporçao de suces-
n
sos, numa amostra de dimensão n.
________ A_ sua disJribuiçâo_pode_deduzirose_da seguinte_Jorma:.. --·----·--·-· -··----·-·- _
71
ESTATISTJCAAPLICADA
72
- [X1+X2+ ... +Xn] E[X] = =
n
1
= - E[X1 + X2 + ... + Xn] =
n
1
n .n.p=p.
1
= - 2- VAR [X1 + X2 + . . . + Xn] = n
= p. g
n
Quando a dimensão da amostra, n, é grande tem-se que
ou seja,
X-p o n n(O, 1).
OISTRIBUIÇÔES AMOSTRAIS
3. 1.2. Distribuição da diferença entre
duas proporções amostrais
Considerem-se duas populações Bernoulli com parãmetros p1 e P2 que
representam as verdadeiras proporções de elementos com determinado atri-
buto na população 1 e na população 2, respectivamente. Em muitas situações
práticas é usual pretender comparar as duas proporções.
Por exemplo:
1. Proporção de consumidores interessados num novo produto numa zona
rural e a proporção dos mesmos numa zona urbana.
2. Proporção de respostas favoráveis a uma campanha publicitária feita em
dois semanários diferentes.
Pretende-se assim concluir algo sobre (p1 - P2) que se desconhece. A
estatística utilizada nestas circunstâncias é a diferença entre as proporções
observadas ou seja:
em que:
n,
I X1;
X1
i= 1
=
nl
n,
I X2;
X2 = i= 1
fl:<
onde n1 e n2 correspondem às dimensões das amostras 1 e 2 que se supõem
independentes. Quando as duas amostras forem grandes (n1, n2 > 30) vem:
- --- --------·---
ESTATÍSTICA APLICADA
e como
E[ X1 - X2] = P1 - P2
P1 ql P2 CJ2 VAR[X1 - X2] = -- + --
n1 fl2_
vem
como distribuição amostral daquela estatística. Ou, de forma equivalente,
o
n n(O, 1)
3.2. Populações normais
Considerem-se agora amostras casuais (X1, X2 , •. ., Xn) obtidas a partir
de populações Normais. Serão estudadas sucintamente as distribuições amos-
trais das estatísticas mais importantes.
3.2.1. Distribuição da média amostral (X)
quando a variância cr2 é conhecida
74
Já se demonstrou anteriormente que, se a população X tiver distribuição
normal, então:
..
DISTRIBUIÇÕES AMOSffiAIS
ou
X-µ -~~ .. n-n.(O,JJ._ . ·--·-----
cr
rn
Mais ainda, se a distribuição da população não for normal, mas se se tratar
duma amostra grande, então, pelo teorema do limite central
3.2.2. Distribuição da variância amostral ( s 2)
Se (X1, x2 , .. ., Xn) for uma amostra aleatória de dimensão n, tal que
X; n n (µ, cr), então
X; - µ
n n(O, 1)
(J
e, pelos teoremas da distribuição do qui-quadrado,
logo
n
(X; - µ)2
(J2
2 n X(l)
(X; - µ)2 2 L cr2 n X(n) ·
i= 1
Quando µ é desconhecido e é necessário utilizar o seu estimador X,
perde-se um grau de liberdade, ou seja
n
i= 1
- 2 (X; - X)
(J2
2 n X(n-1J
75
ESTATÍSTICA APLICADA
mas
Então
ou
n
i= 1
- 2 (X; - X)
cr2
n
=I
i= 1
n
=-2
cr
- 2
n(Xi-X)
n cr2
i= 1
=se for utilizada a variância amostral corrigida S' 2.
3.2.3. Distribuição da média amostral (X)
quando a variância cr2 não é conhecida
76
Se (X1, X2, ... , Xn) for uma amostra aleatória de dimensão n, como já se
demonstrou anteriormente
e
X-µ
í1n(O,1)
cr
-ln
(n - 1) S' 2
cr2
2 íl X(n-1) ·
,j!
'J
'
,,
.
··1
::,
·-!
DISTRIBUIÇÕES AMOSTRAIS
Se se aceitar a independência das distribuições da média amostral e da
variância corrigida da amostra, utilizando um teorema da distribuiçâo t de
Student, de monstra-SE; que- o -- seguinte-quociente-tem--uma--distribuição-t-de
Student com (n - 1) graus de liberdade:
X-µ
cr
-ln
~ (n - 1) S' 2 1 cr2 n - 1
ou, depois de feitas as necessárias simplificações,
3.2.4. Distribuição do quociente
de variâncias amostrais ( S '~ / S '~).
Sejam duas amostras independentes (de tamanho n1 e n2) retiradas da
mesma população normal ou de duas populações normais com a mesma
variância cr2. Como já se mostrou, as seguintes estatísticas têm ambas distri-
buição do qui-quadrado:
(n1 - 1) S'~ 2 íl X(n1 -1)
2 íl X(n2 -1J
i------- -- -
77
ESTATÍSTICA APLICADA
Por um teorema da distribuição F de Snedecor, o quociente entre duas
distribuições do qui-quadrado independentes, depois de divididas pelos respec-
tivos graus de liberdade, tem a seguinte distribuição:
(1 Fcn, - 1, n2 - 1 l
ou
3.2.5. Distribuição da diferença_
78
entre médias amostrais (X1 - X2)
Considerem-se três situações ou casos diferentes.
CASO 1:
Hipóteses: Sejam duas populações normais em que a~ e
cidas; sejam duas amostras independentes de tamanho n1
vamente, retiradas daquelas populações. Demonstra-se que:
a~ são conhe-
e ~ respecti-
Este resultado provém da aplicação do teorema da aditividade da normal.
. ,1'
DISTRIBUIÇÕES AMOSTRAIS
No caso de populações com distribuição desconhecida, mas sendo as
amostras grandes (n1, n2 > 30), aquela distribuição é aproximadamente nor-
---·- --------
mal reduzida .
CASO 2:
Hipóteses: Sejam duas populações normais em que ifi e ~ são desco-
nhecidas. Considerem-se duas amostras (de tamanho n1 e ~ ~ 30) e
admita-se a hipótese de igualdade de variâncias: ifi = ~- Demonstra-se que:
CASO 3:
Hipóteses: Sejam duas populações normais ou não em que se desconhe-
cem efi e ~- Considerem-se duas amostras de tamanhos n1 e n2 maiores que
30. Demonstra-se que:
79
ESTATÍSTICA APLICADA
3.3. Distribuições amostrais dos extremos
Seja X uma população qualquer, com função (densidade) de probabilidade
f(x) e ( X1, X2 , ... , Xn) uma amostra aleatória retirada dessa população.
A distribuição do mínimo e do máximo da amostra é, por vezes, de interas-
se.
3.3.1. Distribuição do máximo da amostra
80
Considere-se a amostra ( X1:n, X2:n, .. ., Xn:n), resultante da ordenação
de ( X1, X2, .. ., Xn ). Qual a distribuição de Xn:n?
= P [todos os elementos da amostra :o; x]
= P [ X1 $ x A X2 $ x A ... A Xn $ x]
Como X; são independentes e identicamente distribuídas, com distribuição
igual à da população, vem:
= P [ X1 =" x] . P [ X2 :O:: x] ... P [ Xn :O:: x]
Sendo Fx (x) a função de distribuição de X, vem finalmente que:
Fx"'" (X) = ( Fx(X) r
.J
J
:!;
.. ,,
' :!
DISTRIBUIÇÔES AMOSTRAIS
Seja X uma população de Poisson de parâmetro '/.. = 2, e ( X1, .. ., X10 ) uma
amostra aleatória retirada dessa população.
Qual a probabilidade do máximo da amostra não exceder 3?
Como
então, neste caso,
10 [ k Fx1010 (x)=(Fx(x)) = ;~
onde k é o maior inteiro menor ou igual a x, isto é, k= L x J.
O que se pretende é
10 -- 10
Fx10,10 (3) = ( Fx(3)) = ( fx(O) + fx(1) + fx(2) + fx(3))
= (0,1353 + 0,2707 + 0,2707 + 0,1804)10
= 0,8571 10 ~ 0,214.
•
3.3.2. Distribuição do mínimo da amostra
Pretende-se neste caso conhecer
Fx,,0 (x) = P[X1:n :O:: x] = 1 - P[ X1:n > x]
= 1 - P [todos os elementos da amostra > x]
= - n P[ xi > x]
= 1 - n (1 - P [xi :o:: xJ J
= 1 - (1 - Fx(x))n.
81
ESTATÍSTICA APLICADA
82
Assim,
F (x) = 1 - (1 - Fx(x)) 0 • x,,n
Seja X uma população uniforme contínua em [1 O, 20] e (X1, X2, X3, X4, X5)
uma amostra aleatória retirada dessa população.
Qual a probabilidade do mínimo da amostra ser maior do que 12?
Dado ter sido recolhida uma amostra aleatória, tem-se que X; n U [1 O, 20]
e
Como
5 Fx,,, (X) = 1 - (1 - Fx(X))
Fx(x) =
o
X - 10
10
X < 10
10,;x,;20
X> 20
vem que
5
-( 1 - x~010 J, Fx,,5 (x) = 1 X E [10, 20)
Fx,,, (x) = 1 - (20 - x)
5
105
X E (10, 20)
Pretende-se
P[X1:s > 12] = 1 - P[X1:5,; 12)
= 1 - Fx,,, (12)
= 1 - [ 1 - (20 1-0512)5 ] ~ 0,328.
•
'Í'
"
{'
i'
Exercícios propostos
) 1. Diga o que entende por parâmetro e estatística. Dê alguns exemplos.
'\'
2. Defina o conceito de distribuição amostral.
3- Defina o conceito de função de probabilidade (ou de densidade de proba-
bilidade) conjunta de uma amostra.
4. A população X segue uma distribuição normal com média O e desvio-padrão
1. Considere uma amostra aleatória de dimensão 16 recolhida daquela população
e as seguintes estatísticas:
10
- 2
T2 = L (X; - 2 x'" J .
i"' 1
a) Deduza a distribuição amostral de T1.
b) Calcule P [ T2 < 15,6 ).
R: a) T1 n xf4l com E [ T1 J = 4, Var[ T1 J = 8; b) 0,75.
5. Considere uma amostra aleatória de dimensão n = 2, ( X1 , X2 ), retirada da
população X: número de animais de estimação por família, cuja distribuição é a
seguinte:
X o 2 3
1( x) 0,60 0.25 0,10 0,05
a) Qual a probabilidade de obter a amostra (3, 1 ), ou seja, qual a probabilidade
de a primeira família seleccionada ter três animais de estimação e a segun-
da familia seleccionada ter 1 animal de estimação?
b) Liste todas as possíveis amostras daquela dimensão que pode obter.
e) Qual das amostras possíveis de dimensão 2 é a mais provável?
d) Qual a probabilidade de a média amostral X ser igual a 2,5?
-R:aJ-o~o-r2·s;~-oJ--(o~o)-(O~f}-(0:-2)-(o-;-3y-r1-;-01-r1~1")-C1~2)11-:-3Jl2. o) ________________ ·-··· ·---
(2, 1) (2, 2) (2, 3) (3, O) (3, 1) (3, 2) (3, 3); e) (O, O); d) 0,01.
83
EST AT{STICA APLICADA
84
6. Considere uma população Bernoulli X da qual se retira uma amostra aleatória
dedimensão5.Afunçãoprobabilidadeéf(X) = px(1 -p)1 -x, X= O, 1
a) Deduza a distribuição conjunta da amostra e explique qual o seu significado.
b) Admitindo que p - proporção de sucessos na população - é 0,6, calcule
a probabilidade de obtermos a seguinte amostra
(x1, x,, x3, x4, x5) = (1, O, 1, O, 1)
e) Obtenha a distribuição amostral da proporção de sucessos numa amostra
de dimensão 5.
R: a) f(x) = pL x, (1 - p)5 -1: x,; b) 0,03456;
e) f(x) = ( 5\). p
5
'. (1 - p)s-sx, x =o, ~, ; , ~, : ,
7. Sejam X 1 e X 2 as médias de duas amostras da mesma dimensão retiradas
de uma população normal de parâmetros µ e cr.
Determine o tamanho das amostras de modo a que:
P[ 1 X 1 - X 2 I > cr] :o; 0,01
R: n <: 14.
8. Considere as variáveis X1, X2, X3, ....... , X9com distribuição binomial em que,
X; (1 b (X;; n; = i; p = 0,5) para i = 1, 2, 3, ..... , 9
e as variáveis
Yi n n(2; 1) parai= 1, 2
Estas variáveis são todas independentes.
5
a) Deduza a distribuição amostral de T = I X;
i= 1
b) Calcule o valor esperado e a variância de T.
9 2
e) Deduza a distribuição amostral de R = L X; - I Yi
i= 1 j= 1
R: a) T n b(t; 15; 0,5); b) E[ T] = 7,5 VAR[ T] = 3,75
e) R (-, n (18,5; ~ 13,25 ).
DISTRIBUIÇÕES AMOSTRAIS
9. Considere a seguinte estatística, definida com base numa amostra de tamanho
10:
SX1+5X10
T = 10
Qual a distribuição e parâmetros de T, se considerarmos que aquela amostra
foi retirada de uma População Normal?85
Capítulo VII
Estimação de parâmetros
'
t--- ---- ..
1
,i
J
'11
1
Jntroâução D
No presente capitulo, ir-se-á entrar na área de aplicação da inferência
'· estatística 1. Em certas situações, sabe-se qual o modelo a aplicar ao fenómeno
em estudo (a distribuição da população) e o objectivo é estimar os parâmetros
dessa população2. Noutras situações, nem sequer se sabe qual é a distribuição
da população e aqui importa antes de mais testar uma distribuição que se
adeque ao fenómeno em causa, e estimar os respectivos parâmetros. A infe-
rência estatística inclui assim três grandes tipos de aplicação:
r
t [
[
1
~:
L
1. Estimação pontual
2. Estimação por intervalos
3. Ensaio de hipóteses
Neste capitulo serão abordados os dois primeiros tipos de aplicação sendo
o terceiro objecto de estudo do capitulo seguinte.
1
Fazer inferência estatística é basicamente partir de informação amostral para obter resultados
2
estatisticamente credíveis relativos à população.
Ou testar uma hipótese feita sobre um ou vários parâmetros.
89
Estimação pontual
O objectivo da estimação por pontos é usar toda a informação disponível a
partir da amostra, para produzir um valor que é o melhor valor que se pode
adiantar para um certo parâmetro do Universo.
Suponha-se uma certa população ou Universo X, com determinada distri-
buição f (x; 8) que se conhece, mas onde o parâmetro caracterizador da
distribuição, 8, se desconhece. Pretende-se propor um valor para 8 que per-
tença, como é óbvio, ao espaço de resultados do parâmetro, ou seja ao
conjunto de valores que o parâmetro pode assumir.
Existem dois procedimentos possíveis:
1) Propor um estimador para 8 que pareça um •bom» estimador graças às
propriedades de que ele goza.
2) Construir um estimador e, no processo de construção, assegurar que ele
goza das propriedades desejáveis num •bom» estimador. Este segundo
procedimento será abordado no ponto seguinte - Métodos de estimação
pontual.
Mas afinal, o que é um estimador?
2. 1. Estimadores e estimativas
90
De entre as estatísticas já vistas, há algumas especiais que se designam
por estimadores. Um estimador para um certo parâmetro 8 designa-se generi-
A A
camente por 8 = 8 ( X1 , X2 , ... , Xn) e é uma estatística 1, ou seja, é uma
variável aleatória função da amostra. Pretende-se que ele forneça, para cada
amostra observada, uma aproximação concreta ao valor do parâmetro que lhe
está associado. Esta designa-se por estimativa e denota-se, usualmente, por
- --x~---- - - - - - - -
8.
1 Qualquer estimador é uma estatística, mas nem todas as estatísticas são estimadores.
~
I
~_:
ESnMAÇÃO DE PARÂMETROS
_______ um.estim<1dor é assim uma •fórmula», função de variáveis observáveis a
partir da amostra, que não pode envolver valores desconhecidos. Para um
mesmo parâmetro 8 (desconhecido) é possível propor estimadores alternativos.
Cada estimador ~ é uma variável aleatória que fornece infinitas estimativas,
uma por cada concretização da amostra aleatória.
Para estimar o parâmetro µ (média do Universo) duma população normal,
poder-se-ia utilizar, entre outros estimadores, o estimador 8 = X, isto é, a média
amostral. Como 8 é uma variável aleatória, 6 terá uma certa distribuição amostral
e podem calcular-se as suas características numéricas tais como:
E[6]
Var[8] = E[Ô2] - (E[Ô])2 = E{(6 - E[6])2 }
Erro amostral = 6 - 0
A A Enviesamento = env ( 0 ) = E [ 0] - 0.
•
2.2. Propriedades dos estimadores
Como se referiu, para estimar um certo parâmetro do Universo, podem-se
utilizar estimadores alternativos. Por exemplo, para a média do Universo (µ)
pode propor-se, entre outros, a média X, a mediana Me ou a moda M0
amostrais.
Que critério usar para escolher o estimador?
Em termos teóricos considerar-se-á que o estimador 8 é preferível ao
estimador li, se para qualquer intervalo [a, b) pertencente ao espaço de resul-
tados do parâmetro se tiver:
"' P [a < G < b] > P [a < e < b].
91
,1
ESTATÍSTICA APLICADA
92
o-estimadore-será-óptimo;-se-tal-se-veriliear-para-qualquer-estimador
alternativo &. Em termos práticos, a selecção de um estimador entre outros
possíveis será feita com base num conjunto de propriedades consideradas
desejáveis para um «bom» estimador. Estas propriedades subdividem-se em
2 grandes grupos:
i) - Propriedades que se referem a estimadores obtidos a partir de peque-
nas amostras, embora válidas para grandes amostras.
ii) - Propriedades que se referem a estimadores obtidos a partir de grandes
amostras e que se designam por propriedades assimptóticas (só váli-
das para grandes amostras).
i) - Propriedades dos estimadores em pequenas amostras
1 . Não enviesamento
2. Eficiência
3. Suficiência
1. Não enviesamento.
Embora esta propriedade seja bastante desejável num estimador, só por si
não permite qualificar um estimador de «bom» estimador. As figuras seguintes
pretendem ilustrar o que se acaba de afirmar: & e e são ambos não enviesa-
dos, no entanto as variãncias dos estimadores são bastante diferentes.
e
ESTIMAÇÃO DE PARÂMETROS
___ . A média amostral (X) e a variância amostral corrigida S '2 são exemplos
de estimadores não enviesados já que se demonstra que:
E[ X] = µ
E[S' 2 ] =ri.
A variância amostral S 2 é um exemplo de um estimador enviesado já que
E[S2] = n- 1 cr2 * cr2.
n
2. Eficiência
Esta propriedade está relacionada com a dispersão da distribuição de
probabilidade de um estimador.
D~dos dois estimadores @e e ambos não enviesados, @ será mais eficiente
que e se:
" -Var ( 0 ) ::; Var ( 0 ).
Repare-se que aqui se está a falar em termos de eficiência relativa, em
termos práticos mais fácil de estudar. A eficiência absoluta é, de uma maneira
geral, difícil de se obter.
1
D~ entre os estimadores para a média duma população normal demonstra-se 1
que X é um estimador eficiente pois:
i)E[X]=µ
ii) Var [X] ::; Var [ (i ] onde (i designa qualquer outro estimador não envie-
sado paraµ.
•
A partir da chamada desigualdade de Frechet-Cramer-Rao.
93
ESTATÍSTICA APLICADA
94
.3 •. Suficiência.
Esta é uma noção simplista, já que para a indagação concreta da eficiência
de um estimador existem critérios - o de Fisher-Neyman e o da factoriza-
ção - que não são, no entanto, objecto de estudo neste livro 1.
Os estimadores Mo e Me são estimadores suficientes para a média duma
população normal (µ).
•
ii) - Propriedades dos estimadores em grandes amostras
O segundo grupo de propriedades, as chamadas propriedades assimptóti-
cas, define-se quando a dimensão da amostra é grande (n ---'> =):
1 . Não enviesamento assimptótico
2. Consistência
3. Eficiência assimptótica
1 . Não enviesamento assimptótico
1 Para aprofundar este assunto veja-se, por exemplo, MuRTElRA, BENTO, Probabilidades e Estatística,
Vol 11, Me Graw-Hill, 2ª Edição, Lisboa, 1990.
ESTIMAÇÃO DE PARÃMETROS
___ C~<Jnclui-se que um estimador não enviesado é também assimptoticamente
não enviesado embora o reciproco se não verifique:
Não enviesamento ~ não enviesamento assimptótico.
O estimador S 2 (variância amostral) para a variância do Universo é um
estimador não enviesado assimptoticamente para a2 pois,
lim E[S2 ] = lim ~ a2 = a2.
n~= n~= n
No entanto, como já foi referido, S 2 é um estimador enviesado para a2.
•
2. Consistência
Esta propriedade é no entanto de difícil operacionalização.
É possível definir uma noção de consistência mais restrita que, ao verificar-
se para um certo estimador, implique que esta seja também consistente em
probabilidade. É a chamada consistência em média quadrática.
95
ESTATÍSTICA APLICADA
Um estimador pode não ser consistente em média quadrática,sendo no
~--·~-------
96
entanto consistente em probabilidade:
Consistência em média quadrática : consistência em probabilidade
" Note-se que se e for um estimador não enviesado para e então:
lim EQM ( Ô ) = lim [VAR ( Ô ) + O] = lim [ VAR ( Ô ) ]
já que neste caso o enviesamento é nulo.
A média amostral (X) é um estimador consistente para a média do Universo
(µ) pois:
lim EQM(X)= lim [VAR(X)+(env(X))2 ]=
= lim VAR ( X) + O = poisE[X]-µ=0
n-> ~
ª2
lim -=O.
n~- n
•
3. Eficiência assimptótica
Observe-se que, se um estimador é o mais eficiente, então ele é também
o mais eficiente assimptoticamente, isto é:
6 é eficiente : 6 é eficiente assimptoticamente. -1
!
'
ESTIMAÇÃO DE PARÂMETROS
Seja a estatística
(n - 1) X1 + Xn
T=
n
definida com base numa amostra aleatória de dimensão n, recolhida de uma
população normal.
a) Verifique se T constitui um estimador não enviesado ou centrado para a
média da população.
b) Será Tum estimador consistente para aquele parâmetro da população?
População: X n n (µ; a )
Amostra: (X1, X2, ... , Xn)
a) T é estimador não enviesado para µ se e só se: E [T] = µ
[
(n-1)X1+Xn] 1 E[T]= E n =n[(n-1)µ+µ]=
1
= -[n µ - µ + µ l = µ.
n
Logo, T é estimador não enviesado para µ.
.b) s.e .... lim EQM(T) =O então Té estimador consistente em média qua-
drática.
EQM(T) = VAR(T) + [env (T) ]2 •
Como T é estimador não enviesado para µ, então env (T) = O e vem:
lim EQM(T) = lim VAR(T)
n->-
= lim VAR[ (n - 1) X1 + Xn ] =
n~"" n
97
ESTATiSTICA APLICADA
--------=~l~im~~12 VAR L(i:!_-:-_112(t_± __ ~nJ_= __ _
n-i.oo n
98
= lim ~((n - 1)2 VAR(X1 ) + VAR(Xn)) =
n-i.oo n
= lim ~((n2 - 2n + 1)cr2 + cr2 )
n-i.oo n
= lim 12 (n2 cr2 - 2n cr2 + 2cr2) = cr2
n-i."" rr
Logo T não é um estimador consistente em média quadrática para µ.
•
Uma variável aleatória X representa o número de avarias de um dispositivo
electrónico durante uma certa unidade de tempo.
A variável X obedece a uma lei de Poisson de parâmetro À desconhecido. Para
aquele parâmetro foram indicados dois estimadores 5: e À.
Compare os estimadores propostos quanto ao não enviesamento, eficiência e
suficiência.
5:= X1+X2+ ... +Xn
n
População: X n p (x; À)
Amostra: (X1, X,. .. ., Xn)
i) Não enviesamento:
ESTIMAÇÃO DE PARÂMETROS
- íX1+Xn] 1 1 +-----E~[_À~]_=_E_,~ _ 2 ___ = 2 E[X1 + Xnl = 2(À + Ã.) =À.
Logo, quer 5: quer À são estimadores centrados ou não enviesados para À.
ii) Eficiência: analise-se a eficiência relativa daqueles estimadores:
VAR[5:] =
1
=-(À+Â.+
n2
n Â. À
+À)= - = - .
n2 n
- [X1 +Xn] 1 VAR[À] = VAR 2 = 4 VAR[X1 + Xn] =
Â.
VAR(5:) n 2
VAR (Ã.)
=--=-
À
2
n
Conclui-se que: se n = 2, os estimadores 5: e À são igualmente eficientes; se
n > 2 então 5: é mais eficiente que ~ pois
VAR[5:]
VAR[Ã.] < 1
iii) Suficiência: só ~ é suficiente pois contém toda a informação disponível na
amostra, enquanto que Â. é apenas função do primeiro e do último (11-ésimo)
elemento da amostra.
•
99
ESTATÍSTICA APLICADA
100
Considere uma amostra aleatória de dimensão n, retirada duma população X
com uma certa distribuição de média µ e variância cr2.
a)
a) Mostre que a variância amostral corrigida, S ' 2 , é estimador não enviesado
para a variância da população, cr2.
b} Considerando a propriedade do não enviesamento, que poderá afirmar
quanto ao estimador S 2 (variância amostral)?
n -
i~ (X; - X)2 lj =
n - 1
E[ i (X; - µ)2 - n (X - µ)2 ] =
1=1
pela igualdade n a seguir indicada
n ~ 1 [ ;~ E (X; - µ)2 - n E (X - µ)2 J =
1 -
= --1 [n VAR(X;) - n VAR(X)] = n -
= __ 1_ (ncr2 _ cr2) = cr2
n - 1
-2 ~ 2 - 2 (') L (X; - X) = "-"' (X; - µ) - n (X - µ)
ESTIMAÇÃO DE PARÂMETROS
De-facto,-- -
n n
L, (X; - µ)2 = L, (X; - X + X - µ)2 =
i= 1 i= 1
n
L, [ (X; - x) + (X - µJ J2 =
i= 1
n
L, [(X; - x )2 + 2 (X; - x) (X - µ) + (X - µ)2 J =
i= 1
n n
L, (X; - x )2 + 2 ex - µ) L, - - 2 (X; - X) + n (X - µ) =
i= 1 i= 1
n
L, (X; - X)2 + n(X - µ)2
i= 1
n
pois L, (X; - X) = O,
i= 1
donde se conclui que:
n n
-2 ~ 2 - 2 L (X; - X) = "-"' (X; - µ) - n (X - µ) .
i= 1 i= 1
b)
r i - 2 l (X; - X)
E[ $2] = 1 i= 1 1 = -"--=-1._ E[ S'2] EL n J n
n - (J2
---
n
! pois s 2 = n -1----- n
1
101
ESTATÍSTICA APLICADA
102
Logo s-2-e estimaaor enviesaao paraõ2~No enranto;-s 2-é~am-estimador não
enviesado assimptoticamente para a2- pois:
lim E[ S 2 ] = lim ~. a2- =a'-
o--Jo= o--Jo= n
pois lim n - 1 --- - 1.
n
•
Considere uma população com distribuição de Bernoulli, de parâmetro
p:Q,;p,;1.
Considere o estimador
A P= n
obtido a partir duma amostra de dimensão n retirada daquela população.
/\ - . ' . ~ . Estude o estimador p quanto ao nao enviesamento e quanto a cons1stenc1a
em média quadrática.
População: X n b(x; 1; p)
Amostra: (X1, X2, ... , Xn)
A [X1+X2+ ... E[ p] = E n . .. + Xn] =
1 1
= 11IP + P + ... +p] = n. n. P = p.
n vezes
Logo P é estimador não enviesado para p.
Como P é não enviesado vem:
·i;m EQM (p) = lim VAR (p) =
= lim VAR
n_,~ (
X1 + X2 + ...
n
+ Xn) =
ESTIMAÇÃO DE PARÂMETROS
l"------·----· --·-·-· 1. 1 ) = tm - 2 (pq+pq+ ... +pq n__,,,., n
1
. 1
= 1m - 2 npq =
n--Jo"" n
= lim .E.!L = O.
o--Joe-o n
A Logo p é consistente em média quadrática.
•
2.3. Métodos de estimação pontual
Estudaram-se antes alguns critérios através dos quais se pode julgar esti-
madores do ponto de vista da sua «qualidade» - isto é, critérios que permitem
verificar se determinado estimador proposto para um parâmetro desconhecido
goza das propriedades desejáveis num «bom» estimador.
Existem contudo procedimentos gerais que permitem construir estimadores
com as propriedades desejadas - são procedimentos que se denominam por
. .. .métodos de estimação. Um destes, provavelmente o mais importante, é o
método da máxima verosimilhança. Antes de ser feita a sua apresentação
refiram-se a título de exemplo o método dos momentos (cujos estimadores se
obtêm por substituição dos momentos da amostra nas expressões que repre-
sentam os momentos do Universo) e o método dos mínimos quadrados, cujos
estimadores são geralmente estudados no âmbito da análise de regressão e
correlação lineares.
2.3.1. O método da máxima verosimilhança
Suponha o seguinte problema de estimação:
__ .-·Uma pastelaria fabrica bombons com três paladares diferentes: de amên-
doa, de noz e de ginja. Aqueles bombons são vendidos em caixas de dois tipos
(Tipo I e Tipo li) cuja composição é a que segue:
103
ESTATÍSTICA APLICADA
104
Tipo 1
- 40% de bombons de ginja
- 30% de bombons de noz
- 30% de bombons de amêndoa.
Tipo li
- 30% de bombons de ginja
- 30% de bombons de noz
- 40% de bombons de amêndoa.
Foi encontrada uma caixa que não está identificada, isto é, desconhece-se
de que tipo se trata.
Retiraram-se dessa caixa, ao acaso e com reposição, 6 bombons.
Seja X - número de bombons de ginja naquela amostra de dimensão 6.
A variável X assim definida tem distribuição binomial em que há duas
alternativas para o valor de p (p = 0,4 se se tratar duma caixa do tipo / ou
p = 0,3 se se tratar duma caixa po tipo li).
Os resultados possíveis naquela amostra com n = 6 são os que constam
no quadro seguinte, como pode ser visto por consulta à tabela da binomial.
Distribuição PIX=x]
p
de X
X=O X=1 X=2 X=3 X=4 X=5 X=6
0,3 b (x; 6; 0,3) O, 1176 0,3025 0,3241 0,1852 0,0595 0,0102 0,0007
0,4 b (x; 6; 0,4) 0,0467 O, 1866 0,3110 0,2765 0,1382 0,0369 0,0041
Utilizando o método da máxima verosimilhança, de que tipo lhe pareceráser a caixa?
Note-se que, uma vez obtida a amostra concreta, aquela distribuição virá
apenas função de p. Haverá neste caso que escolher apenas entre p = 0,3 e
··p-= 0,4. Se se pretender·escolherp-pelõ critério da máxima verosimilhança,
isto é, se se escolher o p que gera a amostra observada com a maior prob-
abilidade, dever-se-á adoptar o seguinte procedimento:
ESTIMAÇÃO DE PARÂMETROS
-''-----~se_o_r1úme.ro_ de bombons de ginja obtidos na amostra de 6 for inferior
A
ou igual a 2, isto é, se X ,; 2, então a estimativa PMV = 0,3 será
preferível a 0,4, já que aquele valor torna aquela amostra concreta mais
provável (mais verosímil).
- Se o número de bombons de ginja obtidos na amostra de 6 for superior
A.
a 2, isto é, X > 2, então a estimativa Pi.tv = 0,4 será preferível a 0,3.
Como se sabe, a distribuição de probabilidade da amostra f (x1, x 2 , ... , Xn ; p )
fornece as probabilidades com que ocorrem as diversas amostras possíveis.
Conhecida uma amostra concreta, a distribuição de probabilidade conjunta
fica apenas função do parâmetro p. Diferentes valores de p originam diferentes
valores para a probabilidade de ocorrência de uma determinada amostra. O
estimador da máxima verosimilhança será o valor de p que torna aquela
amostra concreta mais verosímil, isto é, mais provável.
Em termos gerais, seja uma população X com uma função de probabilidade
ou função de densidade de probabilidade (conforme X seja discreta ou contí-
nua, respectivamente) designada por f (x, 8), onde e é o parâmetro de que
depende a distribuição de probabilidade de X. Pretende-se obter o estimador
A da máxima verosimilhança para e que será designado por eMV·
Designa-se por função de verosimilhança L (e ) = L ( 8 1 x1, x2 ... Xn) a
função do parâmetro 8, conhecida a amostra ( x1 , x2 , ... , Xn ), tal que:
f (X1 , X2 ,. . ., Xn; 8) =
= f ( X1 ; 8 ) f ( X2 ; 8 ) ... f ( Xn ; 8 )
n
IJf(x;;8).
i= 1
Caso X seja discreta, cada valor assumido por L (.) iguala a probabilidade
de ocorrência da amostra concreta ( x1 , x2 , ... , Xn ) segundo os diferentes
valores que o parâmetro pode assumir. Caso X seja contínua, cada valor de
8 origina um valor de L (.) coincidente com o da função densidade conjunta de
( X1 , X2 , ... , Xn) calculada no ponto ( x1 , x2 , ... , Xn ), para esse e .
105
ESTATÍSTICA APLICADA
1
-:---
106
Uma vez o5liaa -a amosffã-;-ficarão a sérconl1eciâos-bs-valores (x1, x2 , ... ,
Xn) e poderá pôr-se a seguinte questão:
Qual o valor de e que torna aquela amostra concreta mais provável?
Se (l = (l (X1, X2, ... , Xn) é O valor de (l E 0 que maximiza L (81 X1, ... , Xn ),
então @ é o estimador da máxima verosimilhança para 8. Para obter aquele
estimador bastará então:
Max L (8 1 X1' X2, ... , Xn)
{8}
s.a. 0 E e
O que é equivalente a max1m1zar o logaritmo da função anterior se o
intervalo de variação dos x; não depender de 81:
Max M(8) = ln L (81 X1, X2, ... , Xn)
{8}
s.a. 8 E e
Esta transformação, em geral, torna o problema de maximização mais
simples.
Este método de construção de estimadores é generalizável para uma po-
pulação com mais de que um parâmetro como é o caso da população normal.
No entanto, é condição necessária para a aplicação deste método, que se
conheça a distribuição da população ou Universo.
Por último, refira-se que os estimadores da máxima verosimilhança gozam,
em geral, das propriedades desejáveis num bom estimador: são os mais
eficientes, consistentes e, se não são centrados, são pelo menos não envie-
sados assimptoticamente.
1
Deduza o estimador da máxima verosimilhança para o parâmetro de um
Universo com distribuição geométrica, isto é, cuja função de probabilidade é dada
por:
f(x, 8) = 8 (1 - e)'- 1 x = 1, 2, 3, ... , o < e < 1 .
Seja (X,, X2, ... , Xn) uma amostra aleatória de dimensão n e (x1, X2, ... , Xn)
1ima:- sua ·co-ncfrêtiiaÇão:-- --
Melhor dizendo, se a função de verosimilhança for regular no sentido de Cramer-Rao: L (O)
duplamente diferenciável e com a variação de x a não depender do parâmetro a estimar.
ESTIMAÇÃO DE PARÀMETROS
A suã-füiíÇãO de verosimilhança será:
n
L (8 1 x,' X2, ... , Xn) = L (O 1 ~) = II f (X;; 8 ) =
i= 1
n
II (O (1 - B)x,- 1 ] =
i= 1
=8(1-B)x,- 1
~
f (X1)
8(1 - 8)"- 1 ... 8(1 - B)x.- 1 <=>
~~
l(x2) f(xn)
L xi-n
<=> L (8 I ~) = eº (1 - 8) 'º'
Fazendo a transformação logarítmica de L (.), obtém-se:
M(8l~J = lnL(Bl~J = n. ln8 + [ i X;- n) ln(1 - O).
1=1
Pretende-se encontrar os valores de e que maximizam a função anterior. Para
tal é necessário que sejam satisfeitas duas condições: serem pontos onde a
primeira derivada da função em ordem a 8 se anula {condição de primeira ordem)
é õr\dé a Segunda derivada é negativa {condição de segunda ordem).
Condição de primeira ordem:
n
L x;- n
dM{8lx) = 0 <=> n de e
c.i=_1~-- = o <=>
Note-se que:
1 - e
<=> n (1 - 8) - 8 [ _i, x1 - n) = o <=>
I= 1
n
<=> n - ne - o L x1 + 8 n = o <=>
i=1
n <=>e= _n __ _
L Xj
i=1
1 E[X] = -
o
1
.. O = E[ X]
107
ESTATÍSTICA APLICADA
-·----- ---· ----··-----·-Gond~ão-de-segunda-ordem;.-: ----
1
1
: i
1
1
1
.1
d 2 M(8l~l
de2
d 2 M(0lx)
de2
n
Como L x;;;?: n porque x;;;::, 1, Vi
i= 1
<o
8=~w
n
= --2 -
0
n
L Xj - n
i= 1
<O. (1 - 9)2
então ,; o, V e, e em particular no ponto n 1 8=--=-L X; X
A n 1 O estimador de máxima verosimilhança será 8Mv = ~ = -=- .
L- X; X
•
Seja (X1, X2, .. ., Xn ), uma amostra aleatória de uma população com função
de densidade dada por:
t (x; e) = e (1 + x r <1 • 0>, x > o, 0 > o.
Pretende-se estimar e pelo método da máxima verosimilhança.
Seja (x1, x2, .. ., Xn) uma amostra de dimensão n concreta:
A função de verosimilhança será:
n
L (0 1 X1, X2,. . ., Xn) = rr f (X;; 9)
-~-------- -------- ---~-----i= 1 --- .
n
.1 II [O (1 + X; f <1 + 81 ] .
i= 1
108
ESTIMAÇÃO DE PARÀMETROS
n -{1+0)
!;----- ---T(0 j~) = 0" rr (1 + X;f(1 +8)
= e"( ir (1 + X;) J
11
1
1
1
l
' !
i
1
L
i=1 1=1
Logaritmizando L (0 1 ~) obtém-se:
M(Sl~l = lnL(0l~l = nln9-(1+0)1n(~ (1 + x;)J =
n
= n ln e - (1 + 9) L ln (1 + x;) .
i= 1
Condição de primeira ordem: dM ~991 x) = o.
n
dM(e 1 x)
=o
"" ~-L ln (1 + xi) = O "" de
i= 1
n
""
...!!.. = L ln (1 + x;) "" e
i= 1
n <=> e = -n-~'----
L ln (1 + x;)
i= 1
As condições de segunda ordem estão verificadas pois:
d 2 M(e [ x) n
2 = - - 2 < O, V e e em particular no ponto calculado. de e
A n Assim, o estimador de máxima verosimilhança é eMv = ------L 1n< 1 +X;)
•
Pretende-se agora exemplificar o caso de uma função de verosimilhança não
regular, o que acontece geralmente quando a variação de x depende do parâme-
tro.
Seja uma população com a seguinte função de densidade de probabilidade:
2x t (x; 9) = - 2 , o ,; x ,; e, e ;, O. e
109
ESTATÍSTICA APLICADA
·~--------f!retend~e-construiLO estimador de máxima verosimilhança para 8.
1
'1
Dada uma amostra aleatória de dimensão n, (X1, X,, ··· Xn) e
( X X ) Uma sua concretizaça-o, a função de verosimilhança será: X1, 2· ··· n
n
L(8l!'l=Il
i= 1
2Xi
- 2-,0$X;$0 8
n
2"
--n X;,0$X;$0.
= 82n i= 1
Como a amostra está fixa, esta função é decrescente com 8. No entanto, todos
os Xi têm de verificar a condição de serem inferiores ou iguais a 0. Assim, o valor
mais pequeno que 8 pode assumir corresponde ao maior valor observado dos
x;(i = 1, .. ., n), ou seja, llMV = Max X;.
1=1 • ... , n
•
Estimação por intervalos li
Quando se utiliza um estimador, surge sempre a questão da sua precisão.
Na prática, costuma estimar-se o erro-padrãoisto é, ~- No entanto, há uma
outra forma de se ter uma ideia clara do grau de precisão du~ estimador,
construindo um intervalo de confiança. Na estimação por intervalos, em vez de
se indicar um valor concreto para certo parâmetro da população, e, constrói-se
um intervalo que, com certo grau de certeza, previamente estipulado, o conte-
nha. Os intervalos de confiança permitem assim medir a precisão de um
estimador. Saliente-se, no entanto, que os intervalos de confiança só podem
ser construidos se a distribuição do estimador for conhecida.
Suponha uma população normal com média µe variância cr2. Sabe-se que
a
a média amostral (X) tem distribuição normal de parâmetros µ e {f1 ou
seja:
_X_-~µ~ n n(O, 1).
a
{f1
Assim Z = (X - µ) tem uma distribuição que é independente deµ, sendo
a
{f1
possível determinar-se a probabilidade de a variável aleatória Z se situar num
certo intervalo.
Em particular sabe-se que:
p (- 1 ,96 < z < 1,96 ] = 0,95.
Então,
P[-1,96 < * < 1,96] = 0,95
[
- a
P X- 1,96 {f1 < µ<X+ 1,96;,,] 0,95.
111
ESTATÍSTICA APLICADA ESTIMAÇÃO OE PARÂMETROS
112
----.--- ·-·---·-·---
-+----"'º(_q!,!.e u.tilizar um nível de confiança (À) igual a 95% e não outro
qualquer?
0.95
- 1.96 o 1.96 z
Conclui-se assim que a probabilidade do intervalo
]
- cr - cr [ x- 1,96 rn: x+ 1,96 rn
conter µ (o verdadeiro parâmetro do Universo) é de 0,95. Trata-se de um
intervalo aleatório, pois os seus limites, inferior e superior, são variáveis alea-
tórias - dependem de X que é, como se sabe, uma variável aleatória. Significa
que se se recolhessem 100 amostras aleatórias e se para cada uma delas
fosse calculado o intervalo acima referido, seriam 95 os intervalos que conte-
riam a verdadeira média µ.
No entanto, para cada amostra aleatória, os limites do intervalo variam. A
partir do momento em que se substitui a variável aleatória X pelo seu valor
concreto numa certa amostra, obtém-se um intervalo concreto e aqui já não
se pode afirmar que 95% das vezes a média µ cairá nesse intervalo! Só estão
envolvidas constantes, já que µ é uma constante. Obtida uma outra amostra
aleatória, X será concretamente diferente e os limites do intervalo serão
também diferentes.
Por que utilizar um intervalo simétrico?
Há um número infinito de intervalos possíveis com a mesma probabilidade
da normal-padrão. Por exemplo, P [ - 2, 1 < Z < 1,85] = 0,95. No entanto,
este intervalo não é centrado e a sua amplitude é de 3,95. A amplitude do
_interyalo ao\erio1m_~_Q_t§fQ_nsider11do _er_a_ IT16.nor ... Prova-se que, como a função
densidade de probabilidade duma normal-padrão é simétrica em relação a
z =O, a amplitude do intervalo é mínima para valores de Z que sejam simétri-
cos. Ora, um intervalo de confiança com menor amplitude é mais preciso ...
l
!
t
'
' :·
t
ii
" '•
Não há razão nenhuma em especial a não ser o facto de serem mais
vulgares os intervalos de confiança a 90%, 95% e 99%. Pode-se utilizar
qualquer outro nível de confiança. Repare-se que, quanto maior for o nível de
confiança estipulado, maior amplitude terá o intervalo, portanto, menor preci-
são. Poder-se-á assim concluir que, para um intervalo de confiança, é neces-
sário:
1. Encontrar um estimador pontual.
2. Estabelecer um nível de confiança À.
3. Conhecer a dimensão da amostra.
4. Conhecer a distribuição amostral da variável aleatória utilizada para es-
timar o parâmetro.
Mas como escolher a estatística adequada para a estimação por inter-
valos?
O método utilizado é o chamado método da variável fulcral e que se pode
resumir da seguinte forma: a variável aleatória a escolher para estimar o
parâmetro deve ser tal que:
i) contenha o parâmetro a estimar na sua expressão;
ii) não contenha na sua expressão quaisquer outros parâmetros desconhe-
cidos;
iii) a sua distribuição não dependa do parâmetro a estimar, nem de quais-
quer outros valores que se desconheçam.
No quadro que se segue indicam-se as variáveis fulcrais apropriadas para
cada caso.
113
ESTATÍSTICA APLICADA
---------------euadro•--
Parâmetros Tipo Dimensão Conhece-se Variável
a de da
estimar população cr? fulcral amostra
µ Normal Qualquer Sim x-µ
<J/.[rl
µ Normal ns;3o Não x-µ
s;,rn
Normal
Não x-µ µ
ou qualquer n>30 o/.[rl
µ Qualquer n> 30 Sim x-µ
a;,rn
~ X1 -X2) -(!:!1 - ~)
(cr1 e cr2)
µ,-µ2 Normais Quaisquer
.y di + if, Sim
n, "2
CX1 - X2) - (µ1 - µ2)
(cr1ecr2)
" 1 1 n1 s; 30 -+-;;-µ, -µ, Normais Não n.
"n2::>;30
A d/:if, ,Y (n1 -1) si+ ("2-1) sl
n1+112_-2
(x1 - xz) - (µ1 - µ2)
Normal n1 >30 (cr1 e cr2)
,)A+A µ, -µ, ou qualquer À t?.:!>30 Não
n, "2
a2 Normal Qualquer - (n-1) s"
cr2
x-p
p Bernoulli n>30 - '1 p(1-p)
n
n1 >30
(x1 - xz) - (p, - P2l
P1-P2 Bernoulli -
,/ P1 q, + P2 '12 À f>2>30
---
--·-- . - n, "2
crl '2 cri Normais Qualquer S1
cri - il -~
114
Distribuição
amostral
f\ n (O, 1)
(] fn-1
o
nn(0,1)
o (ln(O, 1)
(ln(O, 1)
n tn1 +n2-2
(p/n>30
aprox.
normal)
nn(O, 1)
(]X~-1)
nn(0,1)
n n (O, 1)
nF~~=~
ESTIMAÇÃO DE PARÂMETROS
Suponha que se pretende estimar a média de uma população da qual se
conhece a.
(X - µ) A função a/ {() contém na sua expressão µ, o parâmetro a estimar, e não
contém qualquer outro parâmetro desconhecido. A sua distribuição, n (O, 1 ), não
depende de nenhum valor que se ignore. Logo, aquela função pode ser utilizada
como variável fulcral na construção de um intervalo de confiança para µ.
•
A construção de um intervalo de confiança para estimar um parâmetro pode
ser organizada de acordo com a seguinte metodologia:
1. Definição da população, da sua distribuição e do parâmetro a estimar:
Seja, por exemplo, uma população X cuja distribuição se considera normal
com média desconhecida e desvio-padrão a = 4000.
Pretende-se estimar µ através de um intervalo de confiança.
2. Escolha da variável fulcral: X - µ
(J
-rn
já que X é estimador de µ.
3. Determinação da distribuição amostral da variável fulcral:
X-µ
(J ;{fl nn(0,1).
4. Escolha do nível de confiança: '),, = 0,95, por exemplo.
5. Construção do intervalo aleatório:
X-µ
(J
-rn
115
ESTATÍSTICA APLICADA ESTIMAÇÃO DE PARÂMETROS
[- cr - cr ] PrX~1~96 {f) <-µ-<-X-+-1,96 {f) -= 0,95c --- ~-t~~~~~P~r~e_te~.d~~e
1
1
1
I•
1
.i.
i
0.95
al2 = 0,025
-z;i.12 = -1,96 Z,,,,=1,96 z
6. Determinação dos limites do intervalo aleatório: neste caso seria
]
- cr - cr [ ]lo,95[µ = X- 1,96 {f); X+ 1,96 {f) .
7. Determinação dos limites do intervalo de confiança concretos, a partir
dos valores da amostra: para fazer inferência para µ, tem de se recolher uma
amostra e calcular as estatísticas adequadas. Neste caso, recolheu-se uma
amostra de dimensão n = 100 e calculou-se x = 200000.
* ] 4000 4000 [ j lo,95 (µ = 200000 - 1,96 X {100 ; 200000 + 1,96 X {100 =
= l 199216; 200784 [ .
Uma máquina de bebidas está regulada de modo a servir uma quantidade de
líquido que é uma variável aleatória com distribuição aproximadamente normal.
Sabendo que numa amostra de 25 bebidas se obtiveram os seguintes resultados:
25
1 __ _ I x; = 6250ml
- -------~-i=-1
'
1
i
116
25
I (X; - x)2 = 384 ml2.
i=1
a) Construir um intervalo de confiança a 95% para a verdadeira quantidade
média de líquido das bebidas servidas.
b) Determinar quantas bebidas deveriam ser incluídas na amostra, se se
pretendesse aumentar a precisão do intervalo para 2 mi.
a) Vai-se determinar um intervalo de confiança paraµ, com grau de confiança
de 95%.
População: X- quantidade de líquido (em mi) que certa máquina de bebidas
serve.
Valores observados na amostra:
25I x; = 6250ml
i= 1
25
L ex; - x)2 = 384 m12
i= 1
A variável fulcral a utilizar será:
X-µ
S' n l(n-1)
.[[)
pois não se conhece o valor de cr e a amostra é pequena. Note-se que S'
(desvio-padrão amostral corrigido) representa o "melhor" estimador para cr.
Construção do intervalo aleatório, por consulta da tabela da distribuição t de
Student:
0.95
- t= - 2,064 t= 2,064 t"
117
1 1
ESTATÍSTfCA APLICADA
118
p [ _ t < t (n- 1) < t]-=-0;95
p (-2,064 <
X-µ
S'
{fJ
< 2,0641 = 0,95
S' - S' ] p [X - 2,064 {fJ < µ < X + 2,064 {fJ = 0,95
pelo que o intervalo aleatório se pode escrever como
e
1 • [ - X - 2 064 r:- ; X + 2,064 r:- . 1- S' - S' [ '0,95µ- ''JO 'Jn
A partir dos dados da amostra podemos calcular
25
L X;
- i=1
X = ---z5 = 250 mi
25
b (X;,- _)<)2
2 .;::c=.:..1 --..,.-- 384
s' = - n - 1 = 24
s' 2 = 16ml2
s' = +"16 = 4ml.
o intervalo de confiança virá:
] /o,95 [ ~ = ] 250 - 2,064 ~ ; 5 ; 250 + 2,064 · ~ ; 5 (
= ] 248,3488; 251,6512 [.
A amplifüaeaeste intervalo-é-251,6512 - 248,3488 = 3,3024 mi.
ESTtMAÇÃO DE PARÃMETROS
,::....----'b,,)...:P...:r...:e_te_ride-_s_e _agora saber qual o valor de n que faz com que:
amplitude intervalo = 2 mi
amplitude = 2 x t 1 _ J.
n-t;-
2
-
s' {fJ = 2.
Ao pretender reduzir a amplitude do intervalo é necessário aumentar n, o que
permite utilizar a normal padrão ( n > 30):
s'
amplitude = 2 x 1,96 x {fJ = 2.
Admitindo-se que uma alteração da dimensão da amostra não implica altera-
ções no valor do desvio-padrão amostral, então
4 1,96 X {fJ = 1
1
{fJ = 1,96 X 4
{fJ = 7,84
n = 62.
•
A administração do Metropolitano defronta uma situação de irregularidade na
hora de passagem dos comboios pelas diversas estações. Essa irregularidade
(em segundos) pode ser descrita por uma variável aleatória normal cuja média
se estima em 5 segundos mas cuja variância se desconhece. Com n = 22 e
s' 2 = 9, pretende-se saber entre que valores se situa a variância, com nível de
confiança de 0,99.
Pretende-se construir um intervalo de confiança para a variância, a 2, da
população.
População: X n n (µ ; o)
onde X representa a irregularidade da hora de passagem dos comboios do
Metropolitano.
119
i
J
1
. i
i l
EST AT{STICA APLICADA
120
A variável fulcral a utilizar é:
(n-1)S' 2 2
n Xn-1
Ter-se-á então:
). =0,99
a= 8,034
P[a < X~-1 < b] =À
(n-1)S' 2
cr2-
[
(n-1)S' 2
p b < (J2 <
e, consequentemente,
]
(n-1)S' 2
] /o,99 [a' = 41,405
b=41,405
(n - 1) S' 2
a ] = À
(n - 1)S' 2 [
8,034
é o intervalo de confiança aleatório pretendido.
O intervalo de confiança concreto para a amostra recolhida, será com
n = 22 e s' 2 = 9,
] lo 99 [a' • = ] 4,56; 23,53 [
•
ESTIMAÇÃO DE PARÂMETROS
Foi feito um estudo para determinar se a ausência às aulas durante o semestre
de Inverno é superior num centro urbano do norte ou do sul. Foram seleccionados
dois grupos de alunos aleatoriamente: um grupo na cidade de Faro e outro na
cidade da Braga.
De 300 estudantes de Faro, 64 faltaram pelo menos um dia e de 400 de Braga,
51 faltaram um ou mais dias.
Para tal, pretende-se determinar o intervalo de confiança a 99°1o para a dife-
rença entre as proporções de estudantes que faltaram nas duas cidades.
População A: Estudantes da cidade de Faro
PA : proporção de estudantes de Faro que faltaram pelo menos um dia às
aulas.
População 8: Estudantes da cidade de Braga
p8 : proporção de estudantes de Braga que faltaram pelo menos um dia às
aulas.
Como nA = 300 e na = 400 (amostras grandes). a variável fulcral a utilizar é:
(XA - Xa) - (PA - Pa) o
----;===~=õ=7===:7===;= (l n (O, 1).
--,/ PA (1 - PA) + Pa (1 - Pa)
Construção do intervalo aleatório:
P[-z <
-V
- 2,576
(XA - Xa) - (PA - Pa)
Pa (1 - Pa)
+-----
na
). = 0,99
< z] = 0,99
z
121
ESTATÍSTICA APLICADA
li
,,,
,,,
~ i i
,[1
1
l.1 ____ _
11
122
Pl(X - X ) - 2 576 :V PA (1 - PA) + Pa (1 - Pa) < PA - Pa <
A a ' nA na
] = 0,99 - • 1 PA (1 - PA) Pa (1 - Pa) < ( XA - X a ) + 2 ,5 76 " + -'--''-'----'-"-'--nA na
Note-se que os limttes deste intervalo contêm os parâmetros PA e Pa. havendo,
no entanto, dificuldades de cálculo para isolar PA e Pa·
Um dos procedimentos possíveis neste caso é o de substituir PA e Pa pelos
seus estimadores XA e Xa respectivamente, o que torna o grau de confiança
apenas aproximado.
Virá então:
] - - -..J XA (1 - XA) ) lo,99 [pA - Pa = (XA - Xa) - 2,576 nA +
Xa(1 -Xa) .
na
Xa(1 - Xa) r .
na l
Como xA = :~ = 0,2133 e x8 = i6o = O, 1275, obtém-se o intervalo
de confiança concreto seguinte:
] / 0,99 [p,- Pa = ] 0,0858 - 2,576 X 0,0289; 0,0858 + 2,576 X 0,0289 [
= ] 0,01135; O, 16035 [.
•
t
[
i
' j
~
Exercícios propostos
1. Seja Y,, Y2, .... , Y1 uma amostra aleatória retirada de uma população com
média fl e variância if.
Seja B um estimador para fl dado por:
1
Li Y;
A .i=_1'---p = - 1
2. i
i= 1
a) Mostre que B é um estimador não enviesado para fl.
b) Mostre que B é consistente. Note que:
L i = t(t; 1) e também L ;2 = t(t + 1) ~2 t + 1)
i=1 i=1
2. Dada uma população Bernoulli considere as seguintes estatísticas:
n
2,X;+Xn
i=1 T, = ~-'---
n + 1
n-2
2,X;+2Xn
1' -'-i "-''------
2 = n+2
a) Verifique se T1 consfüui um estimador centrado para p.
b) Compare T1 e T2 quanto à eficiência.
e) Será T2 um estimador consistente para p ? Porquê.
R: a) Sim; b) Em pequenas amostras T1 é mais eficiente pois T2 não é centrado .
Em grandes amostras T2 é mais eficiente; e) Sim.
3. Encontre o estimador da máxima verosimilhança para o parâmetro e de uma
População com a seguinte distribuição:
f(x; 8) = { ~8 + 1) x 6 0 <X< 1 outros valores ' o > -1
123
ESTIMAÇÃO DE PARÂMETROS
ESTATÍSTICA APLICADA
4 f
· dad • d N t d E opa e· ---":11'--"---._.E,ª---E __ n __ c_o __ nt __ r_e o estimador de máxima verosimilhança para À.
-------- ~A-temperatura-c:tue-se- az-S8Ahr-9m- O-Pais- o_. O[ e_ a_ U[ ___ uma
variável aleatória normal de média 1° C. Desconhece-se a variância. Com base b} Em 1 O dias diferentes escolhidos ao acaso e para o mesmo período,
na amostra aleatória (X1, x2, X3, X4) foram definidos os seguintes estimadores procedeu-se à contagem do número de pessoas que visitavam o supermer-
para aquele parâmetro: cada, tendo-se obtido os seguintes valores:
v 2 (30, 50, 40, 60, 1 O, 20, 50, 1 O, 30, 1 O)
T, = K(X1 - X2 + X3 - , .. )
4
1 - 2
T2 = 3 L (X; - X ) .
i= 1
a) Calcule o valor que a constante K deve tomar para que T, seja não
enviesado para rl-.
b) Compare T1 e T2 quanto à eficiência, para esse k.
e) Calcule P[(X, - 1)2 > 5 rl-].
1
R: a) K = 4;
b) T2 é mais eficiente pois Var [ T2 ] = ; a2 e Var [ T, ] = 2 a2;
e)= 0,025.
5. Cada um dos 50 investigadores de um grupo de investigação obteve separa-
damente e de forma independente um intervalo de confiança a 95% para a média
µ da resposta (considerada normal) âüm organismo sujeito à presença de deter-
minada substância química. Diga, justificando, se considera verdadeiras ou !aloco
as seguintes afirmações:
a) Alguns intervalos de confiança podem não conter µ.
b) A probabilidade deµ pertencer ao l.C. é de 0,95.
e) A precisão de um intervalo de confiança diminui quando se aumenta o nível
de confiança mantendo-se a dimensão da amostra fixa.
R: a) V; b) F; e) V.
6. o número de pessoas que entre as 18 e as 19 horas chega a um supermer-
cado segue uma distribuição de Poisson, isto é, a sua função de probabilidades é:
Qual é, neste caso, a estimativa de máxima verosimilhança?
A - A
R:a)ÀMv=X; b}ÀMv=x=31.7. Com base numa amostra aleatória de tamanho n, deduza o estimador de
máxima verosimilhança para o parâmetro e duma população com a seguinte f.d.p.:
f(x) = { ~
A
R: 0Mv =
xe- t
n
L lnx;
0<X<1,0>0
outros valores de x ·
8. Com respeito às próximas eleições autárquicas foi efectuada uma sondagem
sobre as intenções de voto dos eleitores lisboetas, recolhendo-se 500 respostas.
Nestas, 200 estabeleciam a intenção de votar no actual Presidente da Câmara,
150 pronunciavam-se favoráveis ao candidato do outro partido e as restantes têm
·preferência por outros candidatos ou não expressam a sua preferência. O estudo
destina-se a avaliar as hipóteses de êxito do actual Presidente da Câmara.
a} Qual a população em causa? Justifique a escolha especificando quais os
parâmetros de distribuição.
b) Indique, justificando, qual o melhor estimador para a proporção de eleitores
lisboetas que não votam no actual Presidente. Com base na amostra reco-
lhida indique uma estimativa para essa proporção.
e) Construa um intervalo a 90% para a proporção de eleitores que preferem
votar no candidato do outro partido. Interprete o resultado.
R: b} 0,6; e} ] /0,90 [ ~ = ]0,2737; 0,3263[.
L ~l~
X:::: 1, 2, ...
9. Um fabricante produz peças de peso especificado em 200 grs. Querendo
estimar o verdadeiro peso médio num grande lote a fornecer ao seu maior cliente,
seleccionou 35 peças ao acaso, que depois de pesadas forneceram os seguintes
valores:
1 l(X) =
·',", --------- Seja (X1, x2~ : .. ~ XnJüma:amoslra-aleãtiYriã de dimensão n.
.1
xl
L x; = 7140 grs L (x,- - x )2 = 560 grs2.
124
'
1
125
ESTATÍSTICA APLICADA ESTIMAÇÃO DE PARÃMETROS
---------a)_Ap.[es.ente uma estimativa (!ara o peso médio das peças do lote. Justifique
a escolha do estimador.
---::*!I;:::::'.==~· Uma estaç~o de rádio quer estimar o tempo médio que uma família dedica,
dia, a ouvir essa rádio.
126
b) Construa um intervalo com um grau de confiança de 95% para o peso
médio das peças do lote.
R: a) 204 grs; b) ] 202,58 ; 205,42 [ .
1 O. Se numa operação STOP na Estrada Nacional EN1, em 600 carros, 114
tinham o sistema eléctrico com deficiências graves, construa um Intervalo de
Confiança para a verdadeira proporção de carros com deficiências graves no
sistema eléctrico viajando nessa estrada (laça os pressupostos que julgar neces-
sários).
R:]/ 0,9s[~ = ]0,1586; 0,2214[.
11. Na estimação da média de uma População Normal por meio de um Intervalo
de Confiança a 90°/o, qual deve ser a dimensão mínima da amostra para que a
amplitude daquele intervalo seja inferior a ; , sendo a conhecido?
R: n = 877.
12. Qual deve ser a dimensão da amostra, de forma a que o erro amostral seja
inferior a 0,06, na estimação com 95% de confiança da proporção de sucessos
numa População de Befr\óülli?
R: n ~ 267.
13. No exame de Estatistica efectuado na 2ª época do ano lectivo 94/95, foram
avaliados 31 alunos. Considerando estes alunos como uma amostra represen-
tativa da população dos alunos matriculados na cadeira de Estatística e tendo em
conta que, para essa amostra, se obtiveram os seguintes resultados:
31 31
2, Xj = 299 2, (X; - x.)' = 120.
i= 1 i=1
Determine um intervalo de confiança a 90°/o para a variância dos resultados
em Estatística dos alunos matriculados na cadeira. Interprete o resultado.
R:] /o g [ ', = ]2,74; 6,49[.
-- - ---L·-·<J··-·- ---------·-------------·--
Foi recolhida uma amostra aleatória de 81 familias, tendo sido calculados uma
média diária de audição de 2,4 horas e um desvio-padrão de 0,7 horas.
Naquela cidade, quanto tempo dedica, em média, por dia uma família a ouvir
aquela rádio?
Responda, fornecendo uma estimativa pontual e um intervalo de confiança a
90%. Interprete o significado dos valores encontrados.
R: 2,4 horas; entre 2,27 h e 2,53 h.
15. Num estudo de mercado, sobre a hipótese de utilização pelas donas de casa
do Distrito de Lisboa, duma nova margarina em campanha de lançamento, inqui-
riram-se 600 donas de casa, das quais 100 ainda não tinham experimentado 0
produto, 200 dizem ter gostado e ir mudar para a nova margarina, 1 oo dizem ter
gostado, mas não o suficiente para mudar e 200 dizem não ter gostado.
a) Construa um intervalo de confiança a 95% para a percentagem de donas
de casa que vão mudar o seu consumo para a nova margarina. Comente
o resultado a que chegar.
b} O que faria se, com o mesmo nível de confiança, pretendesse reduzir a
amplitude do intervalo?
_____ R:a)]io,ssl~x100% = ]35,7%; 44,3%[.
127
!
.1
1
------------
1
' li
1
I,,,,.
; d
1 i
'"
1
,1
,,.li
11
,J. l~' ------- -
1.
1
J
il
,,1,
Capítulo VIII
Ensaio de hipóteses
.1,,,.1,;
liJ
ll'I(
1 ;,I !
: :' 1
l,1 ;I
.JU!
11:'1'1
.
. !.1!1 JJ!l .
. Iil,__I ---
1 ·1(
, I·• i"
•Ili Ili
1! IJ'
,, '
'!
·-----· ·------
necessidade dos ensaios
de hipóteses
· Neste capítulo de inferência estatística, serão apresentados métodos que
1
po5sibilitam validar ou não determinadas afirmações sobre os parâmetros de
· Ürna população .
.,.,,,,._:
,: · 1,. Em várias áreas de economia e gestão é necessário, muitas vezes, decidir
r:~~tre opções alternativas. A decisão, qualquer que ela seja, comporta um risco,
Ji"' ::·:·o.risco de errar. Mas este pode ser controlado e minimizado.
·: ,···
O contributo dos métodos estatísticos resta sempre, porém, na área do
-···_auxílio à decisão, isto é, não deve ser o único elemento para a tomada de
2.~:.C-'éfecisão. O gestor pode (deve) socorrer-se destes métodos, mas conhecendo ~\ , as respectivas potencialidades e limites.
Considere-se os seguintes exemplos onde os métodos analisados neste
capítulo podem ser úteis na tomada de decisões. Sugere-se que, depois de
. familiarizado com os ensaios de hipóteses, volte a este parágrafo e procure
~W1:at1arestatisticamente as situações propostas:
1. O Ministério da Saúde afirma que, com os meios agora postos à dispo-
sição dos hospitais civis, o número médio de dias de internamento é, no
máximo, oito.
Quem o afirmou baseou-se em estudos recentes com um conjunto de
225 doentes onde se observou que o número médio de dias de interna-
mento tinha sido de nove. Quer comentar?
2. O peso das embalagens de 1 Kg de café em grão da marca GAMA tem
vindo a ser contestado por uma associação de consumidores que afirma
que, embora, em média, essas embalagens pesem 1000 gramas, a
variabilidade do peso ultrapassa os limites considerados razoáveis 1. Exis-
tem, assim, consumidores muito prejudicados. Que procedimento adaptar
para decidir sobre o diferendo entre a empresa produtora e a associação
de consumidores?
(1) . Desvio de 1°/o no peso.
131
ESTATÍSTICA APLICADA
--------~3- Com o intuito de decidir sobre a compra de tempo de antena num
1,
1.11
ili
.Ili
1:11
,. '
!I
' 1.
. ,
!1i 1
ii:1 I
132
programa de televisão de grande audiência, certa empresa decidiu reco-
lher uma amostra de cem pessoas. No inquérito realizado, 75 pessoas
declararam ver o programa assiduamente, 1 Q de vez em quando e as
restantes declararam nunca o ver.
Suponha que a empresa só comprará o referido tempo de antena se for
credível a hipótese de que a percentagem de pessoas que vê assidua-
mente o programa for de, pelo menos, 80%. Qual a decisão a tomar?
4. Pretendem comparar-se dois processos de fabrico do mesmo produto.
Adopta-se a seguinte regra de decisão: «com base numa amostra de 100
unidades para cada processo, eliminar-se-á aquele processo que condu-
za a uma proporção observada de produtos defeituosos superior à do
outro, em pelo menos 2%». Com que probabilidade se toma uma decisão
errada?
--------
1
Hipótesese erros
Um exemplo derivado de uma situação a todos familiar permitirá introduzir
alguns conceitos fundamentais 1.
Considere-se o julgamento de uma pessoa acusada de ter cometido um
delito. O processo consiste em apreciar os elementos fornecidos pela acusação
e pela defesa e decidir em função deles e da lei. Mas, em princípio, a pessoa é
inocente; é a acusação que tem de apresentar provas em contrário. Se não houver
evidência nesse sentido, a pessoa continua a ser considerada não culpada.
Designe-se a hipótese em questão (o réu está inocente) como hipótese nula
(Hof Quer isto dizer que existe uma hipótese posta em contraposição a esta
(o réu não está inocente, está culpado), designada por hipótese alternativa
(H1 ou Ha ).
Se as provas apresentadas pela acusação forem incompatíveis com a
manutenção da hipótese nula,. a decisão é rejeitar Ho e, portanto, aceitar H1,
isto.é, ... o réu é culpado. Se tal não acontecer, o juiz absolve o réu, isto é,
considera que não pode rejeitar H03.
Mas atenção! Associado a qualquer uma destas duas decisões, existe um
risco: o de estar a tomar uma decisão errada. De facto, conforme for a verda-
deira situação (ou estado da natureza), isto é, conforme o réu for de facto
culpado/inocente, assim a decisão de o absolver/condenar terá sido errada.
(l) E t 1 1 • · · s e exemp o e ass1co vem descrito, por ex., em Mooo, GRAYBILL & SOES , fntroduction to the
(2) th_eory of statistics, McGraw-Hill, 1979, 2ª Ed. ~ot: que o termo nula está a indicar que não há nenhuma diferença entre o que é explicitado na
{J) h1potese e a situação verdadeira.
Repare que isto não significa aceitar que o réu seja realmente inocente. Significa tão só que não
pode_ rejeitar a hipótese de que ele o seja. Por isso, é preferível dizer «não rejeitar HO» a dizer
«aceitar Ho» .
133
.1
•. ~,.!:.:
. 1•·.
1 1
!, .1:
,,., .. ,,
ESTATÍSTICA APLICADA
Atente-se no seguinte quafüo, onâe_s_e-sumarizam-as-várias-situações:
DECISÃO
SITUAÇÃO REAL
BASEADA NAS PROVAS H0 E VERDADEIRA Ho E FALSA
(o réu é de facto inocente) (o réu é de facto culpado)
Decisão incorrecta:
NÁO REJEITAR Ho considerar inocente
(réu não é considerado Decisão correcta um réu que é de facto
culpado) culpado
Erro tipo li
Decisão incorrecta:
REJEITAR Ho considerar culpado
um réu que é de facto Decisão correcta {réu é culpado) inocente
Erro tipo 1
Sem dúvida que encontrou duas expressões novas: erro tipo I e erro tipo
li. São exactamente os dois tipos de erro que podem ser cometidos:
Erro tipo I - ocorre quando se decide rejeitar H0 , sendo H0 verdadeira
(rejeitar uma hipótese verdadeira);
Erro tipo li - ocorre quando se decide não -rejeitar H0 , sendo H0 falsa (não
rejeitar uma hipótese quando tal deveria ser feito, já que é
falsa).
Concluindo o exemplo do julgamento, pode então verificar-se que qualquer
decisão tomada pode ser acertada ou errada. l .. :i,','ii: i>!'I' Mas não é por isto que os tribunais devem ser abolidos! O que deve haver
: 1 é a preocupação de recolher a informação mais pertinente e correcta de modo
1', Hif a minimizar o risco, isto é, a probabilidade de errar.
, •. ,,. No domínio estatístico, as hipóteses formuladas são confrontadas com a
h !Ili evidência proveniente de dados recolhidos em amostras aleatórias. O processo
.!:L'. 1)[ de decisão, consciente dos erros que podem ser cometidos, permite avaliá-los
i:· 1i·i'i1 Jlllil e, de certo modo, minimizá-los.
' ,,,,'!-------- -Eesse processo de.decisão.não.é.mais_d_Q_gue uma regra de procedimento
l ll!l.i ~u:~r~~c=e a~~:á~~~:i~~o:~::i:~::~~~ic~e s:b:e~i~~;:s~nªul:s~:~i~:rc~~~;:~:
,.) 1:
I,;: I, ': ou não rejeitada.
11;
·.·•1 ii "1·1
lli1
1
i1:
134
'
.:!ti.· ·~! ...•
11i r i!~! r
:., r·
T1 1
. ,·
'
Como fazer um ensaio
de hipóteses
'
·"· '- A realização de um bom ensaio de hipóteses parte de uma correcta formu-
!
lação das hipóteses, a qual se obtém pela análise do problema proposto, a
maior parte das vezes através de elementos não estatísticos. De facto, é na
natureza da questão que se deve encontrar o modo de formular as hipóteses.
A recolha dos dados da amostra aleatória é determinante: são os erros de
amostragem que impedem que a amostra represente correctamente a popula-
ção. Mas a formulação das hipóteses deve ser anterior à recolha da amostra
' para que o procedimento não seja enviesado.
É a informação da amostra que vai ser confrontada com os critérios entre-
tanto estabelecidos para decidir da rejeição ou não da hipótese nula.
Um bom ensaio levará a uma boa decisão, ao mesmo tempo que permitirá
avaliar os riscos envolvidos.
Para ilustrar a metodologia, utilizar-se-á o exemplo que se segue .
A empresa NOVOPAC, na apresentação da sua nova máquina para empaco-
tamento automático de bolachas, divulgou que garantia o empacotamento de uma
média de 60 pacotes por minuto, com um desvio-padrão de 3 pacotes. o número
de pacotes embalados por minuto segue uma distribuição aproximadamente nor-
mal.
A fábrica de bolachas BEMBOM pôs a máquina à experiência nas suas
instalações e, registando o número de pacotes embalados em 25 periodos de um
minuto, constatou uma média de 58 pacotes embalados.
O comprador potencial diz que a máquina não garante atingir a média prome-
tida de 60 pacotes por minuto. Por seu lado, o vendedor garante que a diferença
encontrada se deve apenas ao acaso e que de modo nenhum põe em causa a
média publicitada. ·
•
li
135
ENSAIO DE HIPÓTESES
ESTATÍSTICA APLICADA
.],
--------De-facto,-quando_0 _resultado_da_amQstra está relativamente perto do valor _ _,,_ ___ ~R~e11are-seque <l_sit_uação de status quo, de não diferença, surge na hipó-
posto como hipótese para a população (neste caso: que a média é igual a 60), tese nula. Ver-se-á que é um procedimento standard - o colocar em Ho a
torna-se mais fácil não rejeitar a hipótese de partida (e é nesse raciocínio que situação de igualdade -, que permite identificar claramente quais os valores
se baseia o vendedor para a sua defesa). À medida que a média amostral se da estatística que levam a rejeitar ou não a hipótese nula. Permite ainda
afasta da média presumível para a população, baixa a credibilidade da hipótese calcular a probabilidade do erro tipo 1, isto é, «medir" o risco de se cometerem
em jogo. Se, por exemplo, a média amostral fosse 40 pacotes por minuto, era erros tipo I que se está disposto a aceitar.
muito mais claro que se deveria rejeitar a hipótese de a média ser 60. o ensaio virá, pois,
O problema é que a nova máquina a comprar pela empresa BEMBOM é
cara e o comprador receia cometer um erro se não rejeitar a máquina. Por isso,
há todo o interesse em verificar se a diferença encontrada (de 58 para 60) é
mesmo devido ao acaso, isto é, se não há evidência estatística para rejeitar a
hipótese de que a média seja 60.
O ensaio de hipóteses que será feito, e que ao mesmo tempo permitirá ir
apresentando a sequência metodológica proposta para este tipo de problema,
permitirá identificar as situações de erro, e controlá-las, mesmo que os riscos
não sejam eliminados.
1º PASSO - Formulação das hipóteses.
A hipótese em jogo é a de que «não há diferença entre a média de
empacota,mento da máquina colocadam1 empresa BEM BOM e a média divul-
gada pela NOVOPAC», isto é,
ondeµ indica a média da população: número de pacotes embalados por minuto
pela máquina colocada à experiência.
:1 A metodologia procurará validar H0. Se a evidência da amostra fornecer
1
1 uma informação (média amostral) significativamente diferente de 60, então
:li. rejeita-se H0 . Se tal não acontecer, considera-se que não há diferença e não
ili se pode rejeitar H0 . Note-se que H0 consubstancia a posição do vendedor.
,
1
, A hipótese alternativa,H8 , consistirá em afirmar aquilo que se quer aceitar,
•11 no caso de se rejeitar H0 :
.J[[ «há diferença entre ... ", o que levaria a formular H8 , como,
t
11[,[_ _______ _ __ Ha: µ * 60
1'1
·_\il
1
136
ou, e esta é a opção correcta, pois incorpora a situação real em que o problema
foi configurado, reflectindo a posição do comprador,
Ha: µ < 60
H0 :µ=60
Ha: µ < 60
Se, no teste, não for possível provar que µ = 60, e, portanto, Ho for rejei-
tada, então a verdadeira média poderá ser 58, 57, 54, etc.
Nesse caso, a média amostral de 58 será a melhor estimativa possível,
condicionada ao erro que se poderá ter cometido (tipo 1).
Recorde-se que, se H0 não for rejeitada, isso não quer dizer que Ho seja
verdadeira. O máximo que se pode afirmar é que é provavelmente verdadeira,
embora haja também a consciência de que se poderá ter cometido um erro
(tipo li).
2º PASSO - Fixação do nível de significância
O ensaio em causa é, recorde-se,
Ho:µ=60
Ha: µ < 60
Este teste designa-se por teste unilateral, pois a questão é posta em termos
de direcção de alteração face ao valor da hipótese nula (genericamente: na
H8 , figuram desigualdades do tipo<, >; na Ho, pode estar=, ;o, ou :".).
Apresentar-se-ão adiante os testes bilaterais, em que o acento é posto na
alteração face a um valor colocado na hipótese nula (genericamente:
Ho: e = K, contra Ha: e * K) .
As hipóteses que restringem o parâmetro a um valor (do tipo µ = 60),
designam-se hipóteses simples; hipóteses compostas surgem quando o parâ-
metro pode assumir vários valores (do tipo µ < 60).
137
i ,,
!,
'' !
":I'
'!'!
'~
ESTATÍSTICA APLICADA ENSAIO DE HIPÓTESES
----Voltando-ao-teste-P-ara-Se-estabelecer_uma_regra_dedecisi\o,é necessário __ _.. ____ No_entao!9pode-se esta_r a errar, a amostra pode provir de facto da popu-
estabelecer previamente o nível de significância do teste. Mas o que significa lação da hipótese nula, mas o valor para a probabilidade de erro tipo I que se
esta expressão? está a admitir é 0,05.
Diagramaticamente:
A distribuição da média amostral é, no presente problema, normal com valor
esperado igual ao da população_ Então, é possível representar o problema
como
µ=60
Rejeitar Ho Não rejeitar Hn
Sabe-se que, se a média amostral for inferior a 60, a decisão encaminha-se
no sentido de rejeitar H0: quanto maior for essa diferença, isto é, quanto mais
significativa for a diferença entre o valor posto como hipótese para a média da
população e o valor obtido na_amos_tra _(a média amostral), tanto mais o decisor
é levado a pensar que a população que gerou aquela amostra não é a que
figura em Ho e, consequentemente, decide rejeitar H0.
O ponto de separação (ponto crítico, Xc) entre uma diferença significativa
e uma diferença não significativa depende do risco de cometer um erro tipo 1
que o decisor está disposto a correr, isto é, do risco de decidir rejeitar H0 ,
quando Ho é verdadeira. Fixar esse risco em, por exemplo, 5%, significa que
é de 0,05 a probabilidade admitida para que a decisão de rejeitar H0 tenha
sido errada, ou seja, de que a amostra - que deu origem a um valor à
esquerda (no exemplo) do ponto crítico - não tenha sido gerada por uma
população do tipo da definida em H0, quando realmente o foi (Ho verdadeira).
Para a esquerda do ponto crítico, a diferença entre o valor da média
amostral e o valor da média da população (60) é significativamente grande
fl<lrf!_ perrnitirconcluirque_a __ ~opulaiã()_ qu_e gerou a amostra não tem média
igual a 60.
Um teste nestas condições diz-se com um nível de significância de 5%,
correntemente designado pela letra a..
Constata-se que a. coincide com a probabilidade de erro tipo 1, quando este
é calculado para o valor de igualdade da hipótese nula.
Verifica-se no diagrama anterior que,
p [ erro tipo I ] = P [rejeitar Ho 1 H0 é verdadeira]
J
x,
= t(x)dX=o,o5.
3º PASSO - Escolha da estatística a usar e estabelecimento
da regra de decisão
É fundamental ter uma regra que permita considerar que, de facto, a
···- __ f11_áquina à experiência não cumpre os parâmetros que o vendedor afirma ou
então que, de facto, nada permite dizer que a máquina não esteja perfeitamente
em ordem.
Essa regra consiste em definir a acção a tomar face ao resultado da
amostra. É, pois, no espaço amostral que se irá trabalhar, definindo duas
regiões complementares:
- Região crítica ou de rejeição (RC)
- Região de não rejeição ou de aceitação (RA).
Para tal, considere-se a distribuição amostral da estatística a usar, na
condição da hipótese nula ser verdadeira (recorde-se que Ho é verdadeira até
prova em contrário).
Neste caso, a estatística a usar é X (estimador de µ, parâmetro sobre o
qual se está a fazer inferência) e a sua distribuição amostral é
139
1
.1
'' .1.
i,\
1!'
ESTATÍSTICA APLICADA
No problema anterior, e fixando o nível de significância em 5%, como a
distribuição amostral de X para o valor de Ho , µ = 60, é
x n n ( µ:x = µ = 60 ; a x = fn = ~ = 0,6)
representam-se as regiões de decisão como se segue:
0,05
Com Xc = µ:x - 1,645 cr x = 59,01
RC = {X: X ,,; Xc} = J - = , Xc J = J - = , 59,01 ]
e
RA ={X: X> Xc} = ]Xc, +=[ = ]59,01, +=[
De facto, verifica-se:
P[X< :Xcl = 0,05
donde
) = 0,05
com
X - µo n n (O; 1).
----- --crx- -· --· ----- ·- ···--- ·----------- -
ENSAIO DE Hf PÓTESES
Ora, PT Z <: - 1,645] = 0,05, por consulta da tabela da normal estan-
dardizada e, por isso,
xc - 60
o,6 = - 1,645 ç; xc = 60 - 1,645 . 0,6 = 59,01
A regra de decisão virá, pois, em função do valor da média amostral:
1) Se x ,,; 59,01 pacotes, rejeitar H0 (a máquina não cumpre a especifica-
ção).
2) Se x > 59,01 pacotes, não rejeitar H0 (a máquina, presumivelmente,
cumpre com a especificação).
Um método equivalente consiste em exprimir a regra de decisão em função
X- µo
da variável Z = n n (O; 1 ).
cr
{f)
1) Se Z ,,; - 1,645, rejeitar H0
2) Se Z > - 1,645, não rejeitar H0
0,05
-1,645 o
I! RC .. 1 ___ .,0R!0,A ___ _..
4• PASSO - Tomada de decisão
Z= X-µ,,
o,
Este é o momento de recolher o valor fornecido pela amostra e confron-
tá-lo com a regra de decisão: obteve-se x = 58 e, face à regra enunciada,
x E RC, pois, 58 < 59,01. Quer isto dizer que há evidência estatística que
141
··!
!! l
.i: •.
j
1
ESTATÍSTICA APLICADA
--------pmmtte-rejeitar-HrF-a-diferença-entre-o-va!or-enconlrado-para-a-média amostral ·
(58) e µ0 (60) é suficientemente grande para, face ao nível de significância
pré-estabelecido 1, concluir que a população de onde proveio a amostra (isto
é, os pacotes embalados por minuto na máquina à experiência), não é a
mesma na qual se baseia a publicidade do vendedor, isto é, Ho não é verda-
!I
deira.
O comprador poderá reavaliar a questão, sabendo, com este ensaio, que a
máquina não garante uma média de 60 pacotes por minuto. Sabe que é de
apenas 0,05 a probabilidade de estar a tomar uma decisão errada.
A decisão com base no critério em termos da variável Z leva obviamente
à mesma conclusão:
O valor da amostra x = 58 equivale a
Z=
58 -60
0,6
-3,33
que, comparando com o valor crítico - 1 ,645,
- 3,33 E RC : a decisão é rejeitar H0.
permite concluir que
.,, ____________ -
,,
j:I
1,1
li 142
(1) É também determinante a magnitude do desvio-padrão. Ensaie outros valores para cr e veja como
pode concluir o contrário.
Erros nos ensaios
de hipóteses
Até agora, viu-se como um ensaio de hipóteses dá a possibilidade de tomar
uma decisão àcerca de um problema, para o qual se dispõe da necessária
informação.
Já foi introduzida, com a questão do nível de significância (a), a ideia de
que, associada à decisão,está a possibilidade de errar.
Veja-se agora, mais em detalhe, os riscos de tomar decisões incorrectas,
pois é importante saber que se podem cometer, como medi-los e como podem
ser minimizados.
Uma pizzaria recebe diariamente encomendas por telefone, que se têm com-
portado segundo uma lei normal. A empresa está dimensionada para uma procura
média diária que não ultrapasse as 200 pizzas, admitindo um desvio-padrão de
15.
Uma campanha promocional realizada nos últimos 9 dias levou a uma procura
média de 21 O pizzas. O problema consiste em avaliar a necessidade de reforçar
a capacidade média de venda, estudando se houve de facto uma alteração
significativa na procura diária de pizzas.
Proceder-se-á ao ensaio de hipóteses, seguindo a metodologia proposta ante-
riormente.
Defina-se a variável X - procura diária de pizzas, que se sabe ter o seguinte
comportamento estatístico;
X f\ n(µ; o= 15).
Então:
1 º PASSO - Estabelecimento das hipóteses
Ho:µo>200
Ha: µ > 200.
li
143
ENSAIO DE HIPÓTESES
ESTATÍSTICA APLICADA
-------~estetesteTde-hipótese·nula·composla-contra-hipótese.altemativacomposta), __ .,_____________ _ _ .. __ _
está em causa se a procura média diária de pizzas continua inferior ou igual a
200 unidades.
2• PASSO - Fixação do nível de significância
Considere a. = 0,05.
3• PASSO - Escolha da estatística a usar e estabelecimento da regra de
decisão
Estatística:
X-µ n n(0, 1).
Com o nível de significância de 0,05 e, de acordo com a formulação das
hipóteses, rejeitando Ho para valores superiores a 200, pode-se estabelecer a
seguinte região crítica unilateral (direita):
RC = [ 1,645; + = [
RA = ]-=; 1,645[
o 1,645
0,05
.X-µ Z---
- cr/..Jn
OU, em termos da variável X n n (!lo = 200 ' "x = 5 ),
Xc - 200
1,645 = 5
donde
Xc = 200+ 1,645 . 5 .'." _208,225. l
1
1
1
1 [
RC = [ 208,225; + = [
RA = ] - = ; 208,225 [ .
200 208,225
0,05
Se o valor de X da amostra pertencer a RA, não se rejeita H0; se pertencer
a RC rejeita-se H0•
4• PASSO - Tomada de decisão
Como o valor recolhido na amostra para a procura média diária de pizzas é
x = 210 ou, na escala da variável estandardizada, z = 210 ~ 200 = 2 e estes
valores pertencem à região crítica, decide-se rejeitar H0, isto é rejeitar a hipótese
de que a procura média diária continue a ser inferior a 200.
O ensaio indica que a campanha de promoção induziu a uma alteração na
procura de pizzas, pelo que há que estudar o reforço da capacidade de venda.
•
4. 1. Análise de erros
A pizzaria do exemplo anterior estava dimensionada para uma procura
média máxima de 200 pizzas por dia, com um desvio-padrão de 15. A campa-
nha promocional levou a uma procura média de 21 O. O teste efectuado conduz
à rejeição de H0 , pelo que se pode concluir que a procura média aumentou.
Neste caso concreto, pode-se estar a cometer um erro - o erro tipo /.
Caso a decisão tivesse sido no sentido de não rejeitar H0 , poderia ocorrer
o erro tipo //.
145
ESTATÍSTICA APLICADA ENSAIO DE HIPÓTESES
___ ----------=E"'s"'ta=-=s~itu~a,,,ção genérica ~ode ser resumida no qlladro segllinte
--1----Lµ ~ 19jl __
1
u
i 1
u
11 I" !:
' !I·
li.
li.
SITUACÃO REAL
DECISÃO Ho E VERDADEIRA
BASEADA NA AMOSTRA (a procura média Ho E FALSA
não aumentou' (a procura média aumentou)
NÃO REJEITAR Ho Decisão correcta. Decisão incorrecta: não rejeitar
(o teste evidencia que não há Probabilidade é no mínimo a manutenção do nível
diferença significativa no nível 1 - a. da procura, quando de facto
da procura). ele aumentou.
Erro tipo li. Probabilidade é ~ .
REJEITAR Ho Decisão incorrecta: rejeitar Decisão correcta
(O teste evidencia a manutenção do nível Probabilidade é 1 - (3 .
que há diferença significativa da procura, quando de facto
no nível da procura). ele não aumentou.
Erro tipo!.
Probabilidade é no máximo a .
4.1.1. O erro tipo I
146
Analise-se o erro tipo I - aquele que ocorre quando se rejeita indevida-
mente H0 - sob dois aspectos-particulares:
a) Probabílídade do erro tipo/ e nível de significância (a)
Sabe-se que:
P [erro tipo I ] = P [ rejeitar H0 1 Ho é verdadeira].
No exemplo anterior:
P [ erro tipo I ] = P [ X > 208,225 1 µ :5 200 ].
Calcule-se a probabilidade do erro tipo I para diversos valores compatíveis
com H0, isto é, para os valores de µ que fazem Ho verdadeira:
• µ = 200
.... P[X>~9~.22_sl11_= 20?J_~ p[x-5200 > 2os,22~ - 200]
= p [ z > 1,645] = 0,05
que é exactamente o valor de a .
P[ X> 208,225 I µ 199] = p[ z > 208,22~ - 199 ]
= p [ z > 1,845] 0,03255.
• µ ~ 195
P[ X> 208,225 I µ = 195] = p [ z > 2,645] = 0,00405.
Facilmente se verificaria, então, que P [erro tipo I ] :5 a.
Graficamente, pode-se ilustrar os vários valores para a probabilidade de
cometer um erro tipo 1, para o exemplo anterior:
200
199
195
Região de aceitação
de H0
Valor crítico = 208,225
0,03255
0,00405
Região critica ou de rejeição
de H0
Assim, o erro tipo 1 é função do valor µ, para µE Ho , podendo escrever-se
P [ erro tipo /] = a (µ). Tem-se que a (µ) :5 a , V µ E Ho .
147
... .L
.. J.
ESTATÍSTICA APLICADA
b) Custos do erro tipo /
A fixação do nível de significância (a) e, por conseguinte, do valor máximo
que se admite para o erro tipo / pode ser analisada em termos dos custos
incorridos ao poder tomar a decisão errada associada a este tipo de erro.
No exemplo da pizzaria, está-se disposto a aceitar que, mesmo que real-
mente a procura média não tenha aumentado, se possa concluir o contrário
com uma probabilidade de 0,05. Isto significa que é possível, por exemplo,
ór.•:estir numa nova máquina para satisfazer o aumento da procura, quando
realmente ela não se justificaria, já que a verdade é que a procura não
aumentou.
Mas há a possibilidade de se ser mais exigente no critério de decisão e de
se procurar reduzir a probabilidade de cometer um erro deste género. Para tal,
o decisor pode fixar o nível de significância a um nível mais baixo, reduzindo
assim a probabilidade do erro tipo /.
A alteração de a pode levar a tomar outras decisões, com a mesma
evidência da realidade, com a mesma amostra.
Tipicamente, os valores usados para a são O, 10, 0,05, 0,01 e mesmo
inferiores. Utilizando, por exemplo, o valor de a ; 0,01 no caso da pizzaria, a
situação é a seguinte:
ou
a ; 0,01
X-µ Valor crítico para Z ; --~
cr
..fn
Zc ; 2,326
RC ; [ 2,326; + = [ e RA ; ] - = ; 2,326 [
Valor do teste z ; 2
Decisão: z E RA , pelo que não se rejeita H0
1 Valor crítico para X: Xc ; 200 + 2,326 . 5 ; 211,63
-L·~----· --RC =[21-1;63;-+=+ e -RA ;-)---=~-211,63[
'
·'
·' !
1
d.
··! 1·
.. 1 ... 1
'l "i
I': .:11 ''
1::·:1!;
Valor do teste: x ; 21 O
Decisão: x E RA , pelo que não se rejeita H0.
148
ENSAIO DE HIPÓTESES
pode ainda determinar-se qual a probabilidade de erro tipo Ia partir da qual
8 decisão se altera, com a amostra recolhida:
x ; 21 O, ao que corresponde z ; 2
p (Z > 2) ; 0,0228.
Então, para a < 0,0228, a decisão passa de «rejeitar Ho», para «não
rejeitar Ho".
Graficamente, a situação em análise é a seguinte:
Valor da amostra X= 210
200 208,22
a= 0,0228
200 210 x
a= 0,01
200 211,63
Xe RC
Xe RC, mas X-Se RA
comõ>O
Xe RA
4. 1.2. O erro tipo li
Considere-se agora o erro tipo li, cuja probabilidade se representa por ~. e
que, tal como ilustrado no quadro anterior, se obtém fazendo
~ ; P [não rejeitar H0 1 Ho é falsa]
149
.1
!
'!
1
.I
ESTATÍSTICA APLICADA
_____ a)_Cá/cufo_da_pcobabilidade-do.erco-tipo_fl ___ _________ _
É óbvio que, no caso da pizzaria que foi apresentado, com um a = 0,05,como a decisão foi «rejeitar Ho>>, nunca se incorreria num erro tipo li. Este só
ocorre quando se decide «não rejeitar H0». Para usar ainda o caso em estudo,
considere-se um valor diferente para a, por exemplo, a = 0,01, que leva à - "
decisão de «não rejeitar Ho"·
a = 0,01
Xc = 211,63 e RC = [ 211,63; + ~ [
x = 21 O pelo que x E RA, decidindo-se «não rejeitar Ho'» isto é, não
rejeitar que µ ,; 200.
0,01
µ,=200 X=210 Xc=211,63 X
Então, tendo decidido não rejeitar H0 , poder-se-á estar a cometer um erro
(erro tipo li), na eventualidade de Ho ser falsa.
Para cada valor deµ a que corresponde a verdadeira média (µ > 200) pode
determinar-se o respectivo valor da probabilidade do erro tipo li, ~ .
Suponha-se que se aceitou que a procura média não aumentou, quando
realmente ela passou para 220. A probabilidade de erro tipo li é a probabilidade
de não se ter detectado este novo valor para a procura média diária de pizzas,
isto é, de não ter rejeitado H0 (manutenção da procura) quando na realidade
tal deveria ter sido feito.
-------· ------~------- -------
150
---'---'g_valor_d_g_~ será calculado da seguinte forma:
p (µa = 220) = P [ não rejeitar Ho 1 µ8 = 220 ] =
= P[X< 211,631µª = 220] =
= P [ x - µ. < _2_1_1~,6_3=--_2_2_0 ] =
(J / -.rn 5
= p [ z < - 1,674] = 0,0471.
Identicamente, se obteriam outros valores para ~(µa):
p (µa = 205) = P 1x < 211,63 1 µ. = 205 J =
= p[ Z< 211,63
5
- 205] =
= p [ z < 1,326 l = 0,90756.
• µ. = 210,
~ [ µ. = 210 l = P[ X< 211,631 µ. = 210 l =
= p [ z < 0,326] = 0,62778.
• µ. = 215
~<µa = 215) = P 1 :X < 211,63 1 µª = 215 J =
= P[Z < -0,674] = 0,250216.
ENSAIO DE HIPÓTESES
151
IT'
ESTATÍSTICA APLICADA
!1'·
'1
Pode-se ilustrar graficament;;as Situações antenores
1
Valor crítico Xc == 21 1.53
"= 0,05
200
~ (µ = 205) = 0,90756
~ (µ = 210) = 0,62778
210
215
i ~ (µ = 220) = 0,0471
•. l.,Mi•..l '
ENSAIO DE HIPÓTESES
- ----·-- -- o-valor-de ~-diminui à medida que o verdadeiro valor de µ se afasta de
µ0 = 200 como se ilustra na figura anterior.
Na realidade, à medida que µa se afasta de µ0, torna-se mais difícil errar,
ou seja, é menos provável que não se detecte o novo valor da procura média.
Se a verdadeira média for 205, é mais fácil confundir uma amostra retirada
dessa população com uma amostra retirada da população com µ0 = 200 ( e,
por isso, dizer que ela é do grupo da H0, isto é, não rejeitar H0), do que se a
verdadeira média for 220.
b) Custos do erro tio o li
Uma decisão errada pode custar caro ao decisor! O facto de não ter
rejeitado indevidamente a manutenção da procura média diária em níveis que
não ultrapassam as 200 pizzas, e, portanto, não ter detectado que a campanha
promocional gerou uma procura superior, não aumentando a capacidade de
vendas, pode fazer com que haja clientes que se sintam insatisfeitos e optem
por ir a outra pizzaria.
4_ 1.3. Minimização dos erros
Quando se constrói um teste, é desejável que, tanto a como ~. sejam os
menores possíveis, pois isso significa diminuir as probabilidades de errar. Mas,
para uma dada dimensão da amostra, não é possível diminuir simultaneamente
os dois valores:
- para um dado a, o valor de ~ (para um certo valor de Ha ) é determinado
pela RA correspondente; se a diminuir, diminui a RC e, como tal, au-
menta o valor de ~;
- se o decisor quiser reduzir o risco do erro tipo li (~), terá de diminuir a
RA, aumentando o nível de significância e, portanto, a probabilidade do
erro tipo /.
Actuar simultaneamente sobre os dois erros, diminuindo a sua probabili-
--·aaae,· pode ser feito aumentando a dimensão da amostra, isto é, recolhendo
mais informação, o que tem, normalmente, custos associados. Assim, deverá
ser feito o balanço entre estes custos adicionais e as probabilidades de erro.
153
1
ESTATÍSTICA APLICADA
Oe-facto;-o-aumento-da-dimensão-da-amostra-pmvoca_uma_diminuição na
variância da distribuição do estimador, com correspondentes efeitos nas pro-
babilidades dos erros.
Durante vários anos, uma determinada tarefa no processo de fabrico de um
produto foi executada pelo Sr. Silva, que a levava a efeito num tempo médio de
35 minutos.
O Sr. Silva abandonou a empresa, e foi substituído por um novo operário, o
jovem Alberto que, apesar de não ter nenhuma experiência, frequentou um curso
de formação profissional que o pode tornar mais eficiente.
Admita-se que o tempo de execução da tarefa pelo novo operário segue uma
distribuição aproximadamente normal, com desvio-padrão de 4 minutos.
a) Se, nas últimas 25 observações, o Alberto demorou, em média, 34 minu-
tos, como classificaria a performance do jovem operário?
Designe-se por X o tempo de execução da tarefa pelo Alberto, em minutos.
Sabe-se que X n n (µ ; cr = 4).
- --- - - . . Como não se.sabe se o Alberto vai demorar, em média, mais ou menos que
1
' [ os 35 minutos padrão (do Sr. Silva), devem-se formular as hipóteses da seguinte
i forma:
1
Ho:µ=35
H8 : µ;, 35.
O que está em jogo é saber se o Alberto tem a mesma performance do Sr.
Silva (Ho) ou não (Ha ); e, neste caso, pode ser pior ou melhor.
Admita-se um nível de significância para o teste de a = 0,05.
A estatística a usar de acordo com a população X é
X - µo º -~~ n n (0, 1).
cr
rn
Para se estabelecer a região crítica, note-se que a rejeição de Ho se faz para
- - - -- --- --- -- - . -- --
valores diferentes de 35; está-se assim perante umá região critica bilateral.
Nestes casos, o nível de significância, o., é igualmente dividido pelas duas
abas da distribuição do teste, como se ilustra na figura seguinte.
ENSAIO DE HIPÓTESES
0,025
-1,960 o
0,025
1,960 X-µ z-
-CiTTrl
P[Z > 1,960] P[ Z < -1,960] = O~S
Então:
RC = ]-~; -1,960] U [1,960; +~[
RA = ]-1,960; +1,960[.
Em termos da variável X, viria, para a distribuição da hipótese nula,
4
Xc1 = 35 - 1,96 . S = 33,432
xc, = 35 + 1,96 4
-=36568 5 •
onde
RC = ] - ~ ; 33,432 ] U [ 36,568 ; + ~ [
e
RA = ] 33,432; 36,568 [ .
Comparando a informação da amostra com as regiões crítica e de aceitação,
existem condições para tomar uma decisão:
x = 34 , pelo que x E RA
ou
Z= 34 - 35 = -1,25, pelo que z E RA.
155
' 1 ~
:, '
ESTATÍSTICA APLICADA
----------vecisão:--------------------
Não se rejeita Ho , isto é, aceita-se a hipótese de que o jovem Alberto tem a
mesma performance que o Sr. Silva, demorando em média, 35 minutos a executar
a tarefa, tal como o velho trabalhador. O valor 34 obtido nas 25 observações não
é suficientemente inferior a 35 para possibilitar a rejeição de Ho.
b) Ao decidir não rejeitar Ho, existe a consciência de se poder estar a cometer
um erro. Qual a respectiva probabilidade, se for verdade que o Alberto
demora só 34 minutos em média? E se, pelo contrário, for verdade que ele
demora mais, que demora 39 minutos?
Trata-se de calcular P [ não rejeitar Ho 1 Ho é falsa ) isto é, calcular a proba-
bilidade do erro tipo li, p, para as médias alternativas 34 e 39.
e
p (µa= 34) = P[ não rejeitar H0 1 µ8 = 34) =
P[ 33,432 < X< 36,5681 µ8 = 34] =
p [ - 0,71 < z < 3,21 1 =
= 0,9993 - (1 - 0,7611) = 0,7604
P (µa = 39) P [não rejeitar H0 1 µ8 = 39] =
P [ 33,432 < X < 36,568 1 µa = 39 )
p [ - 6,96 < z < - 3,04 ) =
= (1 - 0,9988) - (1 - 1) = 0,0012.
É evidente que, se a sua verdadeira performance média for de 39 minutos, é
pouco provável que o Alberto ((gere)) uma amostra com média 34 minutos; essa
probabilidade é de 0,0012 que é, então, a probabilidade de não rejeitar indevida·
mente µ = 35 como sendo a sua petformance média.
Já no caso de o Alberto ter uma performance média de 34 minutos, o risco
de não o detectar e, pelo contrário, decidir queele tem um tempo médio de
execução de 35 minutos, é maior, é da ordem de o, 76.
~ ·-------
156
:i!
d
ENSAIO DE HIPÓTESES
-t------·-· §_rafiCafT1ente as duas situações podem ser representadas da . t f
segu1n e arma:
r.
··--·--···---···-
x"2=36,s6a
35
p (µ = 39) = 0,0012
39
e) Para correr menos riscos na valorização do Alberto h f
· , o seu c e e resolveu
registar os tempos de execução em 100 observações V ·1·
tempo méd" f . en rcou que o
ram? 10 con inuava a ser de 34 minutos. Será que os riscos diminuí-
Com esta dimensão da 1 · .. a . - amos ra, e necessano rever as regiões críticas e de
ce1taçao, expressas em termos da variável X. O problema virá·
-1,96 o 1,96 Z= X-µ
a/{()
----·-····---
xc, 35 x.,, x
157
ESTAT{STICA APUCADA
-~--~~~~-=:--,..,-::-10lll--=4
Xc, - 35 1,96. 10 3;i;2rn- ···
··---· -··---
1.
··];
!.1
: 1
'.J,,----
!1
1!
:1
1: '
''I 1
ti
1111
158
- - 35 + 1 96 . _..!.. = 35,784 Xc, - ' 10
RA = ] 34,216, 35,784 [ ·
- - ertence agora à região de rejeição, pelo que a
O valor da amostra x - 34 P médio seja de 35 minutos,
decisão é rejertar Ho. isto é, rejeitar que o tempo
devendo ser diferente, provavelmente menor.
O risco de estar a errar é dado por
p [ rejeitar Ho 1 Ho é verdadeira l =
= P[X< 34,~16 ou X> 35,7841µ = 35] =
P[X< 34,2161µ = 35] + P[X> 35,7841µ = 35] =
[
34,216 - 35 J + p[z > 35•7~ - 35 J =
=PZ< 4110 V10
= p [ z < - 1,96 ] + p [ z > 1,96] = 0,05.
d u s·1mples é óbvio que a p [erro tipo/] é o nível de significância No caso e no ,
a considerado. , . não leva a uma
Considere uma amostra de dimensão intermed1a, n = 49, que
alteração de decisão.
De facto, com n = 49
.J1111111i11!111_1111l,,9;::6--0;;t--,1.96 z
35
ENSAIO OE HIPÓTESES
4
·· · Xc1 ·= 35 - 1,96 . l = 33,88
4
xc, = 35 + 1,96 . 7 = 36,12
RA = ) 33,88; 36,12 [.
e o valor X = 34 pertence à RA, pelo que a decisão continuaria a ser, tal como
na primeira análise, a de não rejeitar a hipótese de que o jovem Alberto tem a
mesma perlormance do Sr. Silva.
e
Comparem-se agora os valores de p (µ8 = 34) e p (µ8 = 39) 1
Facilmente se calcula que, para n = 49,
p (34) = P [ 33,88 < X < 36, 12 1 µ = 34] =
= p [ - 0,21 < z < 3, 71 1 =
= 1 - (1 - 0,5832) = 0,5832
p (39) = P [ 33,88 < X< 36, 121 µ = 39] =
= p [ - 8,96 < z < - 5,04 l =
=O.
· o que evidencia uma diminuição dos riscos incorridos pelo chefe do Sr. Alberto
ao atribuir-lhe a mesma valorização que o Sr. Silva.
•
4.2. Função potência do ensaio
Retome-se o exemplo 2 - o ensaio para a procura média diária de pizzas,
com um nível de significância de 1 %. Esse ensaio tinha conduzido à não
rejeição de H0 : µ ,; 200.
Calculou-se o valor de ~ para quatro casos, tendo-se obtido os seguintes
resultados:
1
Recorde-se que, com n = 25, p (34) = 0,7604 e p (39) = 0,0012.
159
ESTAT(STICA APLICADA ENSAIO DE HIPóTESES
_______________ ,_Verdadeira_ --~-(íl)--1----~-------
média µ
_l'!_Q.._E!)(~rnR.IO em causa, viria
-+---
i
'
,,
160
205 0,90756
210 0,62778
215 0,25022
220 o 04710
Pode agora fazer-se um gráfico correspondente às diferentes situações e
completar a curva que se obtém
~ (µ)
" ~l 0,9 -------;-------
:<:::E o,a
·*- ~
... «S 0,7
o 1'.l
I~ §? 0,6
CD ;:
"O "(ij 0,5
~ g_
«S o 0,4
0,3
0,2
~i
:õ ã5 ~ m
e:<:::
o...i 0,1
--------:--------~--------:--------:--------0 +:::-=í~--i-~-+-___;i----+-""""~·
200 205 210 215 220 µ
Verd8.dàira ·média cófii"ã campanha-promocional
Pode ver-se que
lim f3 (µ8 ) = 0,99
µª~200
sendo 0,99 = 1 - a .
Ao calcular-se a probabilidade do complementar de f3
P [rejeitar H0 1 Ho falsa 1
obtém-se a probabilidade de tomar uma decisão correcta e assim é possível
medir a capacidade do teste (ensaio) para decidir acertadamente.
A função
n (µ,.) = 1 - f3 (µ8) = P (rejeitar Ho 1 µ E Ha 1
designa-se por função potência do ensaio e permite calcular a probabili-dade
de se rejeitar.l-lo- quando esiii é falsa, ousejã.-;-qoando o verdadeiro valor da -
média da população pertence à hipótese alternativa.
Verdadeira
média(µ) ~ (µ) n (µ)
205 0,90756 0,09244
210 0,62778 0,37222
215 0,25022 0,74978
220 0,04710 0,95290
Inversamente ao observado para f3, quanto mais perto do valor de ~ estiver
o valor de µ8 em estudo como verdadeira média, menos potente é o teste, menos
capacidade tem para distinguir os verdadeiros valores dos falsos. Quanto mais
afastados estiverem os valores, mais capaz é o teste de tomar decisões correctas.
Graficamente, obtém-se a seguinte representação onde se ilustram, em
particular, para µ8 = 21 O, os valores da potência do ensaio (n) e da probabili-
dade de erro tipo li (f3) .
n (µ)
" .e
'J:.º ~ 0,9
;g ~ o,a
:i, ~ ~"O 0,7
.g -~ 0,6
~~ ~ g_ 0,5
=o 0,4 :gj
.e (1) 0,3 e~ o...~ 0,2 -~-
- 0,1
.. ---------------------- .--·-- ------------.
1 - ~
o.j:.:.:.:=:::::::::...1--U.-i----___j___ ____
200 205 210 215 220 µ
Verdadeira média com a campanha promocional
1t (210) = 1 - f3 (210) = 1 - 0,62778 0,37222
-Também se pode verificar que lim n (µa) = 0,01 sendo 0,01 = a.
µª~200
161
1
1
''
1
. ' 1
1
" 1
' ' ',.1,,
':iill,1'
l; 1 1 Ili
ESTATÍSTICA APLICADA
162
lÇinclüSão-do-valor-de-a-justifica-uma-definição-de_funçãoJ:iotênçia como
a probabilidade de rejeitar Ho para todos os valores possíveis do parâmetro a
ser testado. Corresponde a uma decisão correcta, no caso de Ho ser falsa e
a uma incorrecta quando Ho é verdadeira. A definição da potência do ensaio
será então:
Pretende-se agora, para o exemplo do ensaio relativo à máquina de empaco-
tamento (com a = 0,05),
Ho:µ=60
Ha: µ < 60
definir a função potência adequada.
Pode verificar-se que, por exemplo,
Verdadeira
média(µ) p (µ) n (µ)
59,5 0,7939 0,2061
59 0,4933 0,5067
58 0,0462 0,9538
--~-- ·57-· ·-0,0QOL_. 0,9996
ENSAIO DE HIPÓTESES
·+---"'lo,,,g.~,.-a_reP!E)Se!'tação gráfica da função potência virá:
n(µ)
D.9
o.a
D.7
0,6
---·--· ~ ···---·
0,5 ·------~-----. .. l----····
0.4 ; i
D.3 j j
0.2 1 !
0,1 ! 1
o ---··-··!···-----:-·······-:--··--·
57585960 µ
•
Recorde-se o exemplo 3, relativo ao tempo médio de - .
. ----- da tai:,e,f'!,)JO~_d,oi~ _t~abalhadores, na fabricação de um nrode;:c~çaenºdodeasdhete'.m1na-
a testar: ~ • 1poteses
Ho:µ=35
Ha: µ"' 35 com a= 0,05.
Pretende-se, agora, definir a respectiva função potência:
Verdadeira
média(µ) P(µ) n (µ)
33 0,0618 0,9382
34 0,5832 0,4168
36 0,5832 0,4168
37 0,0618 0,9382
39
"º
-1
163
ESTATÍSTICA APLICADA
1 1
' 1
. 1
J~'---
' '
1 1
!I 1
164
---. (µ) ---
1 y--,..,--------------
0,9
º·ª
0,7
0,6
0,5
0.4 :
0,3 -----+-----f-----
0,2 \ 1
0,1 ----+-----~-----~----- '
32 33 34 35 36 37 3B 39
•
d . · 1t·1mos exemplos, constata-se que o tipo de D comparação dos ois u - - .
. a . < ou *) condiciona a forma da funçao potencia.
hipotese alternativa (>, RCUD (região
.d · ue para valores de µ>µo• ª
o gráfico seguinte evi encia q '· . tente Para valores de
. 1 d' .t ) conduz a um teste mais po · crítica urnlatera irei a . d ) tem idênticas vantagens.
RCUE (região crítica unilateral esquer a
µ < µo, ª .. do µ > µo e
. usar estas regiões criticas quan a
Tal confirma. o intere~se ::ndo não existe evidência acerca do valor alter-
µª < µo; respect1vament~~n~ .. .. * µ~ . dev~ -utiliz~r-s~- uma. RCB (região crítica
nativo de µ, usando po µª , - ·a do ensaio para valores de
bilateral) já que esta distribui igualmente a potenc1
, 2
µ>µo e de µ<µo ·
'
' \i \e.
'"' ''
'
'
'
'
'
'
'
'
'
'
' ' \ .i
' !
'
Q!
''" o· Q;'
,.
;
! "'
'º ; Q;
a. -----------~-_>\',..__
--- - -----"'
µ
L ma de Neyman-Pearson. (1) Estes resultados são demonstrados no e
(2) Cf. nota anterior.
Escolha da estatística
adequada ao ensaio
5. 1. Introdução
Nos pontos anteriores foi apresentada a metodologia sugerida para resolver
qualquer problema de ensaio de hipóteses sobre parâmetros de uma popula-
ção. Os exemplos trabalhados, se bem que não esgotem as alternativas,
contêm o essencial e validam a metodologia apresentada.
Propõe-se, agora, a apresentação das situações mais habituais e a aplica-
ção da metodologia referida. Conforme o tipo de população, o conhecimento
da respectiva variância e a dimensão da amostra, assim será utilizada a
estatística adequada e a correspondente distribuição amostral. A tabela apre-
·-·--·-sentada no fim deste-capítulo condensa os elementos chave desta análise.
Começa-se com ensaios relativos a uma amostra: pretende-se comparar a
estimativa nela obtida para a estatística com o valor do parâmetro indicado na
hipótese nula.
Num segundo momento, tratar-se-ão os ensaios relativos a duas amostras.
165
ESTATÍSTICA APLICADA
---5 . ..,,2~saios-de-hipóteses-com-uma_amostra~~-
5.2.1. Ensaios para a média µ do Universo
5.2.1.1. A população é normal e a variância
do universo é conhecida
Em certas situações, a população é normal (ou aproximadamente normal)
e conhece-se a sua variância, cr2. O parâmetro de interesse é a média µ da
população, em relação à qual foi formulado o ensaio.
Foi esta a situação encontrada nos exemplos até agora apresentados.
Dispensa-se a apresentação de outro caso e recorda-se apenas a estatística
a usar e a respectiva distribuição amostral:
válida para pequenas amostras (n ,,; 30) ou grandes amostras.
5.2. 1.2. A população é normal e a variância
do universo é desconhecida
166
Na situação anterior, era conhecida a variância do universo cr2, o que
cr
permitia calcular o desvio-padrão da distribuição do estimador X: cr :x = 1n.
Mas, normalmente, cr2 é desconhecida.
Existe, porém, a possibilidade de estimar cr, através da informação da
amostra:
L (X; - X)2
n - 1
(pequenas amostras)
ENSAIO DE HIPÓTESES
1\
cr
1\
(grandes amostras)
e, sabendo que " cr -cr x = Yn , estimar o desvio-padrão da estatística X.
a) Amostra pequena (n ,,; 30)
Nesta situação, a estatística a usar (X) tem a seguinte distribuição amostral
O peso das latas de conserva da marca PEIXEFRIO segue uma distribuição
normal, devendo ter, de acordo com as normas, um peso médio de 1 oo gramas.
O controle interno da qualidade retirou da produção, aleatoriamente, 9 latas e
registou os seguintes resultados (X; - peso da lata i, em gramas):
9
L x; = 820 gr.
í = 1
9
e "L (x; - x)2 = 81,12. gr".
i= 1
Será possível que esta amostra tenha provindo de uma população com média
100? Use o nível de significância de 0,05.
Sabe-se que:
• X - peso de uma lata, em gramas
• X n n(µ, cr)
Pretende-se ensaiar a hipótese de o peso médio das latas ser de 100 gramas;
em alternativa, não existe nenhuma direcção privilegiada de variação do peso.
Será, então:
Ho: µ= 100
Ha: µ" 100
167
ESTAT/STICA APLICADA
~----------o-t~ste-a-usarserá:
.1
:!
! : i
1
, . !
. ·····"·'
:.• .. l 1•1
168
X - µo
T = -S-,-1-=Jn- n tn-1
dado que se desconhece a e a amostra é pequena (n = 9).
Sendo o teste bilateral (Ha: µ ,; 100) e com um nível de significância
a = 0,05, a consulta da tabela da distribuição ta fornece a seguinte regra de
decisão:
RA = ] - 2,306; + 2,306 [
RC = ] - = ; - 2,306 ] U [ 2,306 ; + = [ .
Para calcular o valor do teste, com a amostra recolhida, é necessário deter-
minar
x = 8~0 = 91,111 e s' ="" 87812 = 3,3.
Virá, pois,
t = 91,111 - 100 = -8,081.
3,31"9
Como o valor do teste pertence à Região Crítica, a decisão é rejeitar H0 , isto
é, rejeitar a média de 100 gramas para a população que gerou esta amostra. Se
esta é de facto representativa, então-aempresà..produtora das latas PEIXEFRIO
deve proceder a uma correcção, já que as latas estão a pesar menos do que o devido.
•
b) Amostra grande (n > 30)
Se a população é normal, a variância é desconhecida, mas a amostra é
grande, então pode ser usada a distribuição amostral limite da t-Student utili-
zada na situação anterior.
O estimador para o desvio-padrão de X, com amostra grande, é
S!w = S' !WI,
ENSAIO DE HIPÔTESES
Considere o caso anterior (latas de conserva PEIXEFRIO), mas com a particu-
laridade de que recolheu uma amostra de 36 latas, tendo obtido os seguintes
resultados:
36 36
I, x; = 3420 gr. e I, (X; - x )2 = 649 gr2.
i=1 i= 1
A sua decisão sofre alterações?
Trata-se então de ensaiar, para a média (µ) da distribuição do peso das latas
produzidas por aquela fábrica, que se sabe ser
as seguintes hipóteses
Ho: µ = 100
Ha: µ;, 100.
X f\ n(µ, a),
Nas condições de uma grande amostra (com população normal e a desco-
nhecido), o teste a usar será
X - µ0 º
T= S!-.fn (l n(O, 1).
Sendo o teste bilateral e com a= 0,05, a consulta da tabela da normal stand-
ardizada permite-nos definir a regra de decisão:
RA = ]-1,96; +1,96[
RC = ] - = ; - 1,96 ] U [ 1,96; + = [ .
A amostra fornece a seguinte informação
Virá, então:
x=3420= 95 36 e s = ~ = 4,246.
95 - 100
t = 4,246 /{36 = - 7,065
valor que pertence à Região Crítica, pelo que a conclusão a retirar se mantém:
1-----·-··releita-se que as latas estejam a ser produzidas com um peso médio de 100
gramas, para aquele nível de significância.
•
169
ESTATÍSTICA APLICADA
5.2. 1.3. A população é desconheciaa
Quando se desconhece a distribuição da população, conhecido ou não o
seu desvio-padrão, só com uma amostra grande é possível construir um teste
com distribuição amostral conhecida. De facto, o recurso ao Teorema do Limite
Central permite deduzir a distribuição amostral do estimador a usar
X - µo o
n (0, 1) com o conhecido. T=
(! 1-rn n
X - >'o o
n (O, 1) com o desconhecido. T= S/WJ n
A exploração de uma nascente de água minero-medicinal tem revelado uma
quebra acentuada no débito por minuto da referida nascente. É proposto um novo
método, cuja implementação obrigará a um avultado investimento, mas que ga-
rantirá os desejados 800 litros por minuto, no mínimo.
O concessionário actual, de acordo com os proponentes do novo método,
recolhe informações junto de uma outra ·exploração, em tudo análoga à sua, e
onde o novo método já está em funcionamento. Em 100 períodos de um minuto,
aleatoriamente determinados, verificou-se um débito médio de 796 litros, apre·
sentando os valores registados um desvio-padrão de 20 litros.
Qual a decisão que aconselharia o concessionário a tomar, com 0,05 de nível
de significância?
A variável em questão, que se pode designar por X - débito por minuto da
nascente, em litros não tem distribuição conhecida, e não se conhece também o
desvio-padrão.
Quer-se, porém, efectuar um ensaio para a respectiva média µ;de acordo com
a apresentação da questão, será:
1-fo:µ?800
Ha: µ < 800.
------··- -·· ·- -Nas condições.em.causa,.só .. a.reçQ!.!J.a si!! u_ma grande amostra possibilita que
se encontre uma solução: o teste a usar será
X - µo º
T= S!..fn n n(O, 1).
170
ENSAIO DE Hf PÓTESES
S<mdQ 9 ensaio unilateral esquerdo e com a = 0,05, consultando a tabela da
normal reduzida, será
RC = ]-~; -1,645]
RA = ]- 1,645 ; + ~ [.
A partir da amostra, obtém-se x = 796 e s = 20 pelo que o valor do
teste virá
t- 796-800 -
- 20/ffiQ - -2,0
valor pertencente à Região Critica.
A decisão a tomar - rejeitar Ho- significa, então, que se aconselharia o
concessionário a não investir no novo método, com base na observação que
realizou.
•
5.2.2. Ensaio para a proporção
Quando a população tem distribuição de Bernoulli, a inferência àcerca do
_______ _seu parâmetro p (probabilidade de ocorrer um sucesso numa prova de Ber-
noulli) pode ser realizada através dum ensaio de hipóteses. A amostra ade-
quada fornece informação àcerca da proporção nela observada e deseja-se
compará-la com a verdadeira proporção da população.
Uma empresa de lavagem-a-seco manteve 28°/o do mercado nos últimos três
anos. Este ano, uma amostra de 49 cidades revelou que esta empresa só detinha
uma percentagem de 25,4o/o nas vendas do sector. Será que este resultado é
171
1
"'
1
1 i
,,
1
1
·'
1: 1
ESTATÍSTICA APLICADA
significativamente mais baixo que o anterior, para um nível de significância de
0,01? -------------·--·--
A característica em estudo - um utilizador, escolhido ao acaso, recorrer aos
serviços da empresa de lavagem a seco - tem distribuição de Bernoulli, de
parâmetro p a estimar.
As hipóteses em causa são
Ho: p = 0,28
Ha: p < 0,28.
Sendo o teste unilateral esquerdo, e dado a. = 0,01, o ponto crítico é
Zo,01 = - 2,326.
Então
RC = ] - =; - 2,326 ]
RA = ] - 2,326; + = [ .
O valor do teste, para a hipótese nula, será
t=---,=;;'º·~25~4~-~o~,2~8~=
-J 0,28 (1 - 0,28)
49
= - 0,405
valor que, pertencendo à Região de Aceitação, permite não rejeitar H0 e, como
tal, afirmar que o resultado.obtido.não.é significativamente mais baixo que o share
anterior. Como explicar a diferença? Pelos erros amostrais.
•
5.2.3. Ensaio para a variância
172
Um outro parâmetro que pode interessar estimar numa população normal
é a variância, e?. Neste caso, e recordando a distribuição amostral de s 2,
estimador não enviezado de e?, o teste vai ser realizado através da estatística
ENSAIO DE HIPÓTESES
Uma máquina está construída de forma a assegurar que a medida-padrão das
peças que produz tenha uma média igual a 4. Mas deseja-se também que a
variabilidade dessa medida não ultrapasse uma unidade de medida (controlo pelo
desvio-padrão).
No último controlo de qualidade, as 16 peças analisadas segundo a medida-
-padrão revelaram uma média de 4, mas uma variabilidade de 1,05 unidades de
medida.
Será a diferença na variabilidade significativa? A que nível de significância?
Trata-se de um ensaio para a variância. Admita-se que a distribuição da
medida-padrão das peças é aproximadamente normal, o que não é difícil de
aceitar.
Representando por X - medida padrão das peças, então:
As hipóteses em estudo são:
O teste a usar será:
·1----------~-- ----
X A n(µ; o)
Ho: cr2,; 1
Ha:cr2>1.
(n - 1) S '2 T = ...:...__-,:.____
"~
2
ri Xn-1.
Com n = 16 e admitindo um a.= 0,05, virá:
região de aceitação região crítica
25
sendo então RC = [ 25; + = [ e RA = [O; 25 [ .
T
173
ESTATÍSTICA APLICADA
----------0-valor-do-taste..e·-------------
2
t = (16 - 1) . (1,05) = 16 5375
1 '
que pertence à RA, pelo que não se rejeita H0, isto é, não há diferença significativa
entre a variabilidade observada na amostra e a desejada pelas normas de quali-
dade.
O nível de significância a partir do qual se poderá considerar que a variabili-
dade é significativamente superior a 1 obter-se-á fazendo
2 x15, 1 -a' ,; 16,5375.
Consultando a tabela da distribuição de Qui-Quadrado, constata-se que a'
estaria entre 0,5 e 0,25, valores muito elevados para admitir em condições nor-
mais (recorde-se que marca o limite superior da probabilidade do erro tipo 1 ) .
•
5.3. Ensaios de hipóteses com duas amostras
Até agora, trataram-se apenas problemas que envolviam dados relativos a
uma única amostra·a1eatória:·Outro tipo de-questão refere-se a situações em
que interessa saber se as estimativas obtidas em duas amostras aleatórias
diferem significativamente, isto é, se os parâmetros das populações de onde
as amostras foram extraídas diferem.
5.3. 1. Ensaio para a diferença de médias
Considere-se, em todas as situações a seguir estudadas, duas amostras
aleatórias retiradas das populações X1 e X2,
e
, (X21. X22 .... , X2n,l
·-------------·------ - ---------------
com dimensão n1 e n2 respectivamente e independentes.
As suas médias amostrais são, por ordem, X1 e X2.
174
ENSAIO OE HIPÓTESES
--s-----=~ensai~ de_ hipóteses que se pretende formular é relativo à diferença entre
· as duas medias das populações: µ1 - µ2.
O estimador de µ1 - µ2 será x1 - x2, · d' t 'b · cuia 1s n u1ção amostral foi já
estudada.
5.3.1.1. Populações normais e variâncias conhecidas
Repare-se que este resultado é válido para amostras grandes ou pequenas.
--':S::=,;_-
5.3.1.2. Qualquer população, variâncias desconhecidas
' mas amostras grandes
.. Quando se pretende aplicar a metodologia a populações com qualquer tipo
de d1stnbu1ção, só com grandes amostras é que é possível encontrar - pelo
.Teorema do L1m1te Central - a distribuição do estimador que é:
O desconhecimento de a 21 e 2 1 a 2 resa ve-se utilizando os seus estimado-
.s. assimptoticamente centrados, s 1 e s ~ .
175
ESTATÍSTICA APLICADA
176
Uma empresa de pesquisa de mercados está a estudar se há diferença entre
os salários dos trabalhadores indiferenciadas numa certa indústria em duas re-
giões do país (A e B ). Os resultados obtidos foram:
Região Amostra Média salarial Desvio-padrão
A nA = 100 XA=1000 SA= 26,7
B n8 =200 xa= 980 Sa= 30,4
Se se pretender limitar a 0,01 o risco de rejeitar incorrectamente a hipótese
de que as médias das populações em causa são iguais, que conclusão se poderá
extrair destes dados?
Designem-se por:
XA - salário de um trabalhador indiferenciado na região A (para a indústria
em causa)
Xa - salário de um trabalhador indiferenciado na região B (para a indústria
em causa)
Estas são as características em estudo das populações em causa; as suas
distribuições são desconhecidas,,bem .. como .as. variâncias.
Pretende-se ensaiar a hipótese de que as respectivas médias sejam iguais, o
que se pode traduzir pela nulidade da sua diferença:
A hipótese alternativa, não havendo nenhuma razão clara para indicar a
predominância de uma das regiões, será
Nas condições do problema, o nível de significância deste teste bilateral é 0,01
sendo o teste a usar
ENSAIO OE Hf PÓTESES
-l-----_p_e.10_9':'.<l·_~raficamente, se pode representar a situação do seguinte modo:
-2,576 o 2,576
-8,83 o 8,83
RC RA RC
s ~ = 712,89 nA = 100
2 Sa = 924,16 na= 200 '1 s~ + s~
RC = ]-~; -8,83] U [8,83; +~[
RA = ] - 8,83; 8,83 [
em termos da variável XA - X8 .
Comparando o valor da amostra
XA - Xa = 1000 - 980 = 20
nA na
z
XA-XB·
3,428
com_ AC ~ RA, conclui-se que pertence à Região Crítica, pelo que se deve rejeitar
Ho. isto e, as médias amostrais dos salários diferem significativamente entre as
regiões A e B e, por isso, as médias das populações diferem entre as regiões A
e B.
•
177
ESTATÍSTICA APUcADA
--s-:3:1;3:.-Amostras-Pf*luenas,-populações_o_ormai~
e variâncias desconhecidas mas iguais
li;
::,i
1.1
li il
178
Quando as amostras são pequenas e as variâncias desconhecidas, se as
populações forem normais é necessário encontrar uma estatística adequada
ao ensaio de µ1 - µ2.
O estimador será X1 - X2 cujo valor esperado é µ1 - µ2 e cujo desvio-
-padrão é s _ -
X1-X2
Admitindo a hipótese de que são duas amostras independentes de duas
populações com distribuição normal e cujas variâncias são iguais
(o~ = 0 ª = cr2), é possível estimar esta variância comum fazendo uma média
ponderada das duas variâncias amostrais (utilizandon1 - 1 e n2 - 1 com pon-
deração).
Assim será:
Quando n1 + n2 - 2 > 30, a distribuição pode ser considerada aproxima-
damente normal estandartizada.
Para estudar dois tipos de gasolina, toram recolhidos duas amostras aleatórias
de-1oc-arfõ"~fdcYmesmo modelo. Todos os carros da amostra 1 foram abastecidos
com gasolina A e todos os carros da amostra 2 foram abastecidos com gasolina
B. A distância média por litro percorrida por cada carro é a seguinte:
ENSAIO DE HIPÓTESES
GASOLINA A GASOLINA B
Garro Média Km/litro Carro Média Kmllitro
1 20 1 18
2 18 2 20
3 20 3 22
4 21 4 21
5 19 5 20
6 17 6 18
7 20 7 19
8 21 8 17
9 16 9 19
10 22 10 20
11 18 11 21
12 19 12 18
13 20 13 19
14 19 14 22
15 17 15 18
Com um nível de significância de 0,01, poder-se-á concluir que há uma
diferença significativa entre as duas méaias?
Trata-se de um teste para a igualdade das médias de duas populações, sendo:
X1 - número de quilómetros/litro percorridos com gasolina A
X2 - número de quilómetros/litro percorridos com gasolina a
--t--------- -
E[X1]=µ1 e E[X2]=µ2.
Estando perante amostras pequenas e nada sabendo sobre as distribuições
das popul~ções, é necessário admitir que elas seguem uma distribuição normal,
~u1as vananc1as, desconhecidas, se admitem iguais (poderia, antes, testar-se a
igualdade das variâncias, com o teste apresentado no ponto 5.3.3. e depois agir
em conformidade com o resultado).
Nesta situação, o teste a usar é o apresentado neste ponto e, para 0 aplicar,
é necessário conhecer X1, x2, s '1 e s 'ª :
x, = 17,933
X2 = 19,467
s'~ = 4,38
s'~ = 2,41
As hipóteses a testar são
Ho: µ, - µ2 = O
Ha: µ, - µ2 "' O.
179
1
.. ;:
.:,'i
l '\,
" 1
i
_,, ,.1l
,,1 ,1
''
1
1.
;j[
. ;.!;
;l:
··"' .... .::11
' 1'-' 1
i"\I :!·'
1''1'''1'.·'' 1,11 !! '.·'11'1' "·~J ...... : ' :,
lf''ili:':;·1
l"·'[l1·1·l1·
.
'. ·_·_'_1~1, :,,. '. li ªjliild '" 1 Hl·lli''i I 11•1.líi; .li
"'lli'-!'111'11'
"'l''.'.·1·_·_1·
·1· ·· I' 1 l· ~t l::1i,
·1:1r]:':i "'\' i:ild:,111,
IF."'.I'
i 111~!!! !!1111
ENSAIO DE HIPÓTESES
ESTATÍSTICA APLICADA
isto e, as meãias-das-cJuas·populações-são-iguais-(µ1~µ2 = Q) ou são diferentes. 1 2 me ias amostrais corres--:-+--'e'"'x""istência de diferença significativa entre X e x ( -d· ·
Trata-se de um teste bilateral em que a variável tem uma distribuição 128 sendo
o nível de signtlicância a = 0,01.
0,005 f,.
- 2,763 o 2,763
RC RA RC
Tem-se assim RC = ]- ~; -2,763] u [ 2,763; + ~ [
e RA = ]- 2,763; 2,763 [ _
O valor do teste é
t = (17,933 - 19,467) - o = - 2,28
~ 14 . 4,38 + 14 - 2,41 ~J__ J__
28 . 15 + 15
que pertence à Região de Aceitação definida.
T
A decisão a tomar CQn1éS\98nSa:íO--e--qüe riãO há diferença significativa entre
as duas médias amostrais e por isso não se rejeita que o número médio de
quilómetros percorridos com um litro de gasolina A seja igual ao número médio
de quilómetros percorridos com um litro de gasolina B .
•
5.3. 1.4. Amostras emparelhadas
180
Nos testes com duas amostras até agora apresentados, considerou-se
sempre que as amostras eram independentes - os valores observados numa
amostra eram independentes dos valores observados na outra.
- Muitas vezes; esta condição-não-se-verifica: as duas amostras podem ser
formadas por pares de observações feitas sobre os mesmos elementos. Neste
caso a hipótese a testar será a de igualdade de médias entre os dois pares
de observações, sendo incorrecto aplicar o teste t anterior para averiguar da
pondentes ao primeiro e segundo pares de observação, respectivamente) pois
as amostras não são independentes. '
As hipóteses a testar são:
Ho: µ1 µ2
Ha: µ1 * µ2.
. Por se tratarem de amostras não independentes, deverão ser calculadas as
diferenças de valores D = X1 - x2 . Se a hipótese nula for verdadeira, os
valores de D pertencem a uma população de me·d·ia zero e as hipóteses
anteriores podem ser transformadas nas seguintes:
Ho:µo=O
Ha: µo* O
. Um departament~ de pesquisa de uma empresa produtora de medicamentos
Hl~ltiii:,:,: · , realizou uma expenenc1a para verificar se um determinado produto aumenta
·· tempo de reacção dos utilizadores a diversos estímulos. De facto se d.
0
me t r , o me 1ca-
n o iver esse efeito, deve ser incluída essa observação na literatura que
acompanha o produto.
rea P~atal. seleccionou aleatoriamente 12 indivíduos e registou 0 tempo de
... cçao de cada um a um estímulo, antes e depois de tomar o medicamento. Os
-· · resultados foram os seguintes:
181
ESTATÍSTICA APLICADA
j
,,, ,,,,. --------
182
-tempo Ge reacçao- -rempcrde-reacçiio-
Individuo sem medicamento com medicamento
(em segundos) (em segundos)
1 0,75 0,84
2 0,82 0,78
3 1,04 1, 15
4 0,77 0,81
5 0,92 0,95
6 1, 11 1,08
7 0,69 0,82
8 0,84 0,96
9 0,91 0,95
10 0,98 0,83
11 0,83 0,91
12 0,75 0,81
Designem-se por X1 e X2 as características de todos os indivíduos
x, - tempo de reacção de uma pessoa antes de medicada
x2 - tempo de reacção de uma pessoa depois de medicada
Admitindo a normalidade da distribuição destas variáveis, podem designar-se
por
µ1 - tempo médio de reacção-dos doentesBntes de medicados
µ2 - tempo médio de reacção dos doentes depois de medicados.
As hipóteses a serem testadas são:
Ho: µ2 - µ, = O
Ha: µ2 - µ, > O
onde Ha evidencia que µ2 > µ1, isto é, o tempo médio de reacção aumenta com
a medicação, para o mesmo indivíduo.
Seria incorrecto aplicar o teste t anterior para averiguar da existência da
diferença significativa entre X1 e X2 (médias amostrais correspondentes a X1 e X,.
respectivamente), pois as amostras não são independentes: o tempo de reacção
de um indivíduo depois de medicado não é independente do tempo de reacção
antes de medicado.
Calculando as diler~~ç~s de valorÉÍs--[f,;, -X2- X1 pará cada indivíduo, isola-
-se o eleito da medicação nesse indivíduo:
ENSAIO DE H!PóTESES
Tempo de reacção Tempo de reacção Diferença
Individuo antes depois de tempos
x, X2 D=X2-X1
1 0,75 0,84 0,09
2 0,82 0,78 -0,04
3 1,04 1, 15 0,11
4 0,77 0,81 0,04
5 0,92 0,95 0,03
6 1, 11 1,08 -0,03
7 0,69 0,82 0,13
8 0,84 0,96 0,12
9 0,91 0,95 0,04
10 0,98 0,83 -0,15
11 0,83 0,91 0,08
12 0,75 0,81 0,06
Então, se Ho for verdadeira, os valores de D, que representam a diferença do
tempo de reacção, constituem uma população de média zero. O que se pretende
testar é se as diferenças d; apuradas na amostra podem pertencer a essa popu-
lação, isto é,
Ho: E(D) =O
Ha:E(D)>O ou
Ho:µo=O
Ha: µo> O
Sendo o teste unilateral direito e com a = 0,05 (por hipótese), as regiões de
decisão serão:
RA = ]-=; 1,796[
....a-----.... RC = [-1,796;+=[
o
RA
t,,
0,05
T
RC
183
ESTATÍSTICA APLICADA
Os valores da amostra são:
- Í,d; 048
d=--=-'-=004
n 12 '
"' - 2 ""'(d; - d) s,2 _____ _
d - n - 1
obtendo-se
0,0714 = 0,00649
11
t = 0,04 - o 1 72
0,08057 I f12 = ' .
que pertence à Região de Aceitação. A decisão será não rejeitar H0 , não podendo
assim concluir-se que a medicação faz aumentar o tempo de reacção aos estí-
mulos considerados.
•
5.3.2. Ensaio para a diferença de proporções
184
Quando se está perante duas amostras independentes, aleatoriamente
extraídas de duas populaçõ~~ C_c>fll_d~stribuição Bernoulli, usa-se a diferença
entre as médias amostrais (proporção de sucessos nas amostras) para testar
a diferença entre as verdadeiras proporções das populações.
A metodologia é em tudo análoga à que se apresentou para os testes para
a diferença entre médias, com amostras independentes.
Sabe-se que, para amostras grandes, a distribuição amostralde X1 - X2,
que é o estimador de P1 - P2 (como habitualmente, p1 designa o parâmetro
de uma distribuição de Bernoulli e P2 o da outra), é
Se bem que seja conhecido o valor da diferença (p1 - P2) sob H0, não se
___ conhece, .. porém,.o.desvio,padrão-de-(X1----X2 ), que é a expressão que figura
no denominador.
ENSAIO DE HIPÓTESES
-+---~Como_h;:ij:Jitualmente, o teste é feito para
Ho:P1-P2=0
0 que significa que p1 = P2 = p. Esta proporção é desconhecida, mas pode
ser estimada utilizando uma média ponderada das proporções observadas nas
amostras. Virá, então,
onde X1 e X2 são, respectivamente, a proporção de sucessos observados nas
amostras 1 e 2.
Substituindo na expressão anterior. virá
Foi efectuado um esti.Jdo em duas empresas do mesmo ramo de actividade
- empresa A e empresa B - , sobre a preferência dos trabalhadores por dois
tipos de aumentos salariais: um pacote de benefícios extra ou um determinado
aumento no salário base.
Dos 150 trabalhadores da empresa A, 75 preferiram um aumento no salário
base; dos 200 trabalhadores da empresa 8, 103 preferiram também esse aumento.
A questão que se coloca é saber se há diferença de uma empresa para a
outra na proporção de trabalhadores que preferem o acréscimo no salário base
(e não nos benefícios extra). Pretende-se reduzir a 1% a probabilidade de rejeitar
indevidamente a hipótese de que essas proporções sejam iguais.
Designe-se por
p1 - proporção de trabalhadores que, na empresa A, preferem o acréscimo
no salário base
---1----------P2 - idem, para a empresa B
X1 - média de amostra da empresa A
X2 - média de amostra da empresa B.
185
.1
1
ESTATÍSTICA APLICADA
As-hipótese-em.teste.são:... ___________________________ _
H0 :p1 -p,_=0
Ha : P1 - P2. * O.
A estatística a usar é
pelo que, com o: = 0,01,
o 2,576 z
-0,139 o 0,139
o desvio-padrão pode ser estimado como referido:
sendo
Xp =
S- _ = ,j 0,51 . 0,49 . ( l~O + 2~0 ) = 0,054 X1 -X2
150
75 103
150 + 200 . 200
150 + 200
75 + 103 = 0,050857 ~ 0,51.
350
os pontos críticos na distribUição de (X1 - X2) são os seguintes:
____ o--±...2,5I6_._0,P_54 -=._:!:_ Q,1_39.
ENSAIO DE HIPÔTESES
As regiões de decisão serão:
RC = ] - = ; - 2,576 ] U [ 2,576; + = [
RA = ] - 2,576; + 2,576 [ , em termos da variável Z
ou
RC = ]-=; -0,139] U [0,139; +=[
RA = ]-0,139; +0,139[, em termos da variável (X1 - X2)-
Para tomar a decisão, compara-se a informação da amostra com aquelas
regiões, obtendo-se:
(
75 103 )
150 - 200 - o
t = 0,054 ~ - 0,278, (em termos da variável Z)
e
- 75 103
X1 - X2 = 150 - 200 = - 0,015, (em termos da variável X1 - X2),
valores que pertencem à Região de Aceitação.
A decisão é não rejeitar H0 , isto é, não rejeitar que não há diferença entre a
proporção de trabalhadores que preferem o aumento sob a forma de acréscimo
no salário base, na empresa A e na empresa 8. A diferença observada (0,015 a
·- favor da empresa B) não é significativamente diferente de zero.
•
5.3.3. Ensaio para a comparação de duas variâncias
É possível construir um ensaio para comparar variâncias de duas popula-
ções normais das quais foram extraídas duas amostras independentes.
187
ESTATÍSTICA APLICADA
---------Um-caso-paiticulaLé-o_ensaio_para_a_jgualcjade de variâncias, que corres-
ponde a tomar
!
1 ,,
'1'!':
.'J
1,
simplificando-se o teste para:
Foram usados dois tipos de adubos - adubo A e adubo B - em dois campos
experimentais, em tudo equivalentes. A produção foi analisada, recolhendo-se 31
plantas sujeitas ao adubo A e 21 sujeitas ao adubo B. Os resultados foram os
seguintes em termos de uma variável identificada como «ROB>•:
Aduba A Adubo B
ROB médio XA=12,9 XB= 14,7
Desvio-padrão
da ROB SÁ= 2,1 sB= 1,a
Amostra nA= 31 1 nB=21
Será de admitir uma variância na variável «ROB» significativamente diferente
quando se usa o adubo A ou o adubo B? Considere u = 0,01.
As hipóteses em jogo, admitindo que a variável <cROB» se distribui normal-
mente e que as amostras são independentes , serão
o~
-= 1
oà
-·!'--·----
188
ENSAIO DE HIPÓTESES
A estatística a usar será:
t
0,005
0,355
RC
S'2 ( d l T=-A- ~I F S'à · ~ ~ ..\, rl cn,-1, n8-1i·
Com u = 0,01, sendo o teste bilateral, virá
RC = [ O ; 0,355] U [ 3, 12 ; + = [
RA = ] 0,355; 3,12 [
· U valor do teste· é
t 4,41 1
= 3,24 . = 1,361
RA
F'º 20
0,005
3,12
RC
que, pertencendo à Região de Aceitação, permite decidir não rejeitar Ho, isto é,
não se pode rejeitar a hipótese de que a variância de «ROB•· seja igual, quando
se aplica o adubo A ou o adubo B.
•
189
ESTATÍSTICA APLICADA
Parâmetros Tipo
a de
testar população
µ normal
µ normal
normal µ
ou qualquer
µ qualquer
µ,-µ2 normais
µ,-µ2 normais
normal µ,-µ2
ou qualquer
a2 normal
p Bernoulli
P1 -p, Bernoulli
·----··
ef,
normais
ef,
190
TABELA
----------~-----····---····--
Dimensão Conhece-se Distribuição da Teste
amostra o? amostrar
qualquer sim x-µo nn(0,1)
cr;rn
n:530 não x-µo n ln-1
s"/{{)
n>30 não x-µo nn(O, 1) s;vn
n>30 sim
x-µo o
r:1/,fi1 (ln(O, 1)
(X, - x,) - (µ, - µ,lo
quaisquer (cr1 e cr2)
,; ef, + <f, !\ n(O, 1) sim
n,
"'
(x1 - x,) - (µ1 - µ2)o
n ln1 +n2-2
n1:530
(cr1 ecr2)
.y_1_+_1_
não n,
"'
(p/n>30
/\ 172 s 30 ~ ef, ~ <f, aprox.
,,,j (n1 -1) s'\ +(n,-1) s! normal)
n,+~-2
n1 >30
(x1 - x,) - (µ, - µ,)o
(cr1 e cr2)
-V ii Sii nn(O, 1) /\ 172 > 30 não -+-n,
"'
qualquer (n-1) s'
2
n xfn-1) - ifo
X-Po
n>30 - ~ Po(1-Po) nnco, 1)
n
n1 >30 (x, - x,) - (p, - 1>2lo o
-
-vp,q, +p,q, n n (O, 1) /\ 172 > 30
n,
"'
---- -- - -
...
-- ---- ~ --.,2 ( <f, l
qualquer f'lF<n1-t,nz-t) - Si . ef,
ENSAIO DE HIPÓTESES
5.4. Ensaios de hipóteses para mais
de duas amostras
Para todos os ensaios de hipóteses anteriormente apresentados, as hipó-
teses testadas requeriam a recolha de uma ou, no máximo, duas amostras
aleatórias independentes ou não. Mas será possível utilizar os mesmos testes
quando o número de amostras (ou de grupos em estudo) for superior a dois?
Veja-se o exemplo seguinte.
Um hipermercado pretende saber qual dos seguintes locais de exposição
maximiza as vendas de cassetes vídeo:
a) logo a seguir à entrada;
b) junto dos televisores e videogravadores;
e) junto dos discos compactos (CD);
d) junto das caixas registadoras.
Durante quatro meses consecutivos colocou os expositores de cassetes vídeo
em cada um dos quatro locais referidos e pediu ao gerente que registasse as
.. ve.nda,s diárias do produto. Pretende-se saber se existe uma düerença significativa
entre o número médio de cassetes vendidas por dia em cada local de exposição
ou se, pelo contrário, as vendas médias diárias são idênticas, qualquer que seja
o local de exposição do produto.
•
Será possível, neste caso, utilizar o teste t para a diferença entre duas
médias ou, mais especificamente, aplicar 6 testes diferentes, um para cada par
de amostras? Para responder a esta questão basta relembrar o significado do
nível de significância de 0,05, isto é, admitia-se, no máximo, uma probabilidade
de 0,05 de rejeitar a hipótese nula quando ela é verdadeira. Ou dito de outra
forma, a probabilidade de tomar uma decisão correcta, isto é, de não rejeitar
Ho quando ela é verdadeira seria, no mínimo, de 0,95.
----- · · Admitindo-se, por simplificação, que os seis testes individuais eram inde-
pendentes, a probabilidade conjunta de se tomar uma decisão correcta seria
0,95 X Ü,95 X 0,95 X 0,95 X 0,95 X 0,95 = 0,735
191
ESTATÍSTICA APLICADA
_______ e_a_grobabilidade de errotipp I de Q,265, valor inaceitáv<3_1 porgue __ exagerada-
mente elevado. O próprio pressuposto de independência é de difícil aceitação
e, caso não se verifique, resulta no problema acrescido de impossibilidade de
controlar este tipo de erro.
A resposta à questão anterior só pode ser encontrada mediante a aplicação
de um novo ensaio de hipóteses, conhecido por análise de variância (ANOVA)
e que na sua forma mais simples (oneway ANOVA) constitui uma generalização
a mais de dois grupos do teste t para a igualdade de duas médias.
5.4. 1. Ensaio para a diferença de k médias -
- análise de variância simples
192
De um modo geral utiliza-se a análise de variância simples para testar se
determinado lactar independente (no exemplo anterior, o local de exposição
das cassetes de vídeo), quando aplicado de modo diferente a várias popula-
ções, tem um efeito significativo sobre determinada variável dependente (as
vendas), ou seja, se faz com que as médias populacionais da variável depen-
dente sejam diferentes para diferentes níveis do factor independente. Estes
níveis são muitas vezes apelidados de níveis de tratamento, terminologia deri-
vada das aplicações originais dãANOVA às- áreas da medicina e agricultura.
Considerem-se k amostras independentes de populações X1, X2, .. ., Xk
(ou de k grupos de uma mesma população):
amostra 1: (X11 , X21 ,
amostra 2: (X12 , X22 ,
sendo Xij o valor observado para o indivíduo i (i = 1, 2, . . . ni) pertencente
à amostra j U = 1, 2, .. ., k) e n1, íl2· . . . nk a dimensão de cada uma das
amostras, respectivamente. Admita-se ainda que as populações de onde se
.retiraram estas.amostras seguem.distribuições normais com variâncias desco-
nhecidas mas iguais, isto é
u = 1, 2, ... k).
ENSAIO DE HIPÓTESES
-.."f"---~~s hipóteses a testar são
Ho: µ, = ... = µk
. i:
'i
Ha: µ, * µi para algum par (r, j) com r * j
ou seja, pretende-se testar a hipótese nula de igualdade de médias dos k
grupos populacionais contra a alternativa da existência de pelo menos dois
grupos cujas médias sejam significativamente diferentes entre si. Para rejeitar
a hipótese nula basta, portanto, que apenas duas médias o sejam.
De referir que embora o método se apelide «análise de variância» as
hipóteses a testar respeitam às médias dos k grupos e não às variâncias. Estas
últimas são utilizadas mas para definir a estatística de teste. De facto, para se
encontrar esta estatística é necessário começar por decompor a variância total,
ou mais correctamente, a variação total ou soma total de quadrados, numa
soma de duas parcelas: a variação explicada pelo lactar independente e a
variação devida a erro, isto é, a parte da variação total não explicada pelo
lactar independente. Como resultado deste processo, a soma total dos quadra-
dos dos desvios dos valores observados em torno da média global,
k nj
SST= I I (Xij - X)2
i=1 i=1
.. pode-ser decomposta em duas partes aditivas e independentes: a soma de
quadrados devida aos erros, ou soma de quadrados dentro (within) dos grupos,
k nj
~ ~ - 2 SSW = k. k. (Xij - Xj)
i=1 i=1
e a soma de quadrados devida ao lactar independente ou soma de quadrados
entre (between) os grupos,
k
~ -2 SSB = k. ni (Xj - X)
i= 1
isto é,
SST = SSW + SSB
193
,j ,,,
ESTATÍSTICA APLICADA
194
ou
k n; k n;
- 2
I I (Xij - :Xi2 = I I (Xij - Xj) +
i= 1 i = 1 i = 1 i = 1
sendo k - número de grupos
n· - dimensão da amostra j (j = 1, 2, ... , k)
1
k
I
j= 1
Xij - observação para o indivíduo i do grupo i
Xi - média amostral do grupo i
:X - média global de todas as observações.
- 2
nj(Xj - X)
De modo semelhante, os graus de liberdade associados à soma de qua-
drados total (n-1) podem ser decompostos em duas parcelas: graus de
liberdade para a soma de quadrados dentro dos grupos, (n- k), e para a soma
de quadrados entre os grupos, (k- 1 ),
(n - 1) = (n - k) + (k - 1 ),
k
sendo n = 2, nj, a dimensão total da amostra.
i= 1
ENSAIO DE HIPÓTESES
"'-----Para determinado nível de significância a, a hipótese nula de igualdade de
médias entre os k grupos será rejeitada para valores da estatística do teste
iguais ou superiores ao quantil de probabilidade (1 - a) da distribuição
F(k- 1, n-k)• isto é, neste ensaio de hipóteses a região crítica é sempre
unilateral direita. De facto, só faz sentido rejeitar a hipótese de igualdade das
k médias populacionais para valores elevados da estatística de teste, valores
esses que ocorrem quando a variação entre os grupos (e devido ao lactar
independente) for relativamente elevada quando comparada com a variação
dentro dos grupos (ou devida a erros).
F(k-1.n-k)
T
região de aceitação região crítica
É usual apresentarem-se os resultados da aplicação da análise de variância
simples sob a forma do quadro seguinte:
Fontes Graus Somas Somas médias
de varia ·o de liberdade de uadrados de uadrados T
Entre os grupos (k - 1) SSB MSSB= SSBl(k-1) T= MSSB MSSW
Dentro dos grupos (n - k) SSW MSSW= SSWl(n-k)
TOTAL (n - 1) SST
De um estudo de mercado, cujo objectivo principal era detectar as diferenças
de comportamento dos leitores de três semanários (Expresso, Independente e
Semanário), retiraram-se os seguintes resultados relativos ao tempo de leitura
(em minutos) de cada leitor:
195
1
1
ESTATÍSTICA APLICADA
196
SEMANÁRJB------
OBSERVAÇÕES Expresso Independente Semanário
1 100 80 62
2 11 o 70 65
3 85 65 68
4 60 75 75
5 95 69 80
6 96 91 70
7 78
8 120
Pretende-se saber se, nas populações de onde se retiraram estas a_m~stras
(leitores do Expresso, do Independente e do Semanário), os t~mpos me~1os de
leitura de jornal são idênticos ou não. Admita-se que nas Ires pop~laçoes os
tempos de leitura seguem uma distribuição normal com igual d1spersao.
As hipóteses a testar são:
Ho : µ, = µ2 = µ3
Ha: µ,,; µ; para algum par (r, j) com r ct i
Para aplicação da análise de variância simples é.necessário proceder a alguns
cálculos preliminares.
8
Í, X;i
;=1 744 3
=-'--8- = -8- = 9
6
I. x,,
";_=_c1 __ - 450 - 75
X2 = 6 - 6 -
6
I. xt.J
,; ==-''---- - 420 - 70 X3=-6 -6-
•·
ENSAIO DE Hf PÓTESES
3
- - 2 SSB = Í, n;(X; - X)
j= ~
= (8 X (93 - 80,7)2 ] + [6 X (75 - 80,7)2 ] + [6 X (70 - 80,7)2 ]
= 2092,2
(100 - 93)2 + (110 - 93)2 + (85 - 93)2 +
+ (75 - 70)2 + (80 - 70)2 + (70 - 70)2
= 3118.
É agora possível construir o quadro das fontes de variação e calcular o valor
da estatística de teste.
Fontes Graus Somas Somas médias
T de variação de liberdade de quadrados de quadrados
Entre os grupos 2 2092,2 1046,1 5,7036
Dentro dos grupos 17 3118,0 183,4
TOTAL 19 5210,2
Para um nível de significância de 0,05, o valor da distribuição F2,17 é igual a
3,59. Logo, sendo 5,7036 > 3,59, é de rejeitar a hipótese nula de igualdade de
médias entre os três grupos, ou seja, pelo menos dois grupos de leitores dos
jornais têm médias de tempos de leitura diferentes. Pelos valores médios amos-
trais quase se poderia concluir que as diferenças significativas seriam entre os
que lêm o jornal Expresso (93 minutos) e os leitores dos outros jornais (75 e 70
minutos). Mas a resposta final a esta questão só poderá ser dada com a aplicação
de um outro tipo de ensaio que permita a comparação múltipla entre cada par de
médias.
•
197
1
l
i
i
i 1
ESTATÍSTICA APLICADA
5.4.2. Testes de comparação múltipla
O processo mais simples para responder à questão anterior - Quais as
médias significativamente diferentes entre si? - consiste em utilizar o teste t
de Student para a igualdade de cada par de médias.
Ho: µi = µi
Ha: µi * µi ·
Para além do inconveniente gerado pelo elevado número de testesa realizar
(~ ), acresce a dificuldade adicional de não se conhecer com exactidão o nível
de significância simultâneo devido à não independência entre os vários testes.
Estas são as principais razões para a definição de ensaios de hipóteses
simultâneos que permitem investigar onde se encontram as diferenças possí-
veis entre k médias populacionais, controlando simultaneamente o nível de
significância.
Muitos testes de comparação múltipla foram já desenvolvidos, destacando-
-se como mais conhecidos os seguintes:
- teste de comparação múltipla de Dunn;
- teste LSD (least significant difference) de Fisher;
- teste HSD (honestly significant difference) de Tukey;
- teste de Scheffé;
- teste de Newman-Keuls;
- teste de Duncan .
..... : ... :.:',:! Estes testes diferem no modo como analisam as diferenças de médias e
•1'1•1 1 i: 'il; ainda no método de controlo do nível de significância. Os mais utilizados são
ih'I o teste HSD de Tukey e o teste de Scheffé. As preferências pelo último
i·' '1'1 justificam-se por várias razões: a sua maior simplicidade de cálculo, o facto de
i'.: 'lil permitir a utilização de amostras com diferentes dimensões e ainda por ser um
hu't'.[ método robusto no respeitante aos pressupostos de normalidade e igualdade
!'''ii!, de variâncias das populações. Um teste estatístico diz-se robusto quando a
i( "1;1 sua validade não é alterada pela violação dos pressupostos que lhe estão
U'i'i1 1~------- ---su6jacentes~-Nõ-éntanto;·quando os-grupos-amostrais têm idêntica dimensão,
','-,' 1
1
1:1 o método HSD de Tukey é mais preciso pois gera intervalos de confiança com
"·'"''·' menor amplitude. Por sua vez o método de Scheffé tende a ser mais conser-
!' ij 11·· vativo, ou seja, nas mesmas condições, tem uma maior probabilidade de não
!\ 1, .: rejeitar a hipótese nula quando ela é verdadeira.
~!'" ;I tUliil1
~'!"li J!dH1
1,1;l:!1I 41•'ii:;li
11·q1 ~i ;;:;1111
198
ENSAIO DE HIPÓTESES
Sejam n1, n2, .. ., nk as dimensões das amostras retiradas de k popula-
ções normais com iguais variâncias, com
k
n = L, ni e seja S '2 a variância amostral total, calculada a partir das
j = 1
variâncias amostrais dos grupos S 'J :
k
S ,2 = n - k L (nj - 1) S 'J .
i= 1
199
,,.i
,,
, .. 1
1 :, ii
i 'I' i'i !
lt!'ll 1
ESTATÍSTICA APLICADA
200
O teste de Scheffé utiliza uma transformação da distribuição F de Snedecor
para medir o nível de significância das comparações múltiplas.
Seja o exemplo anterior acerca do tempo de leitura dos jornais semanários.
Sabendo já que existem diferenças significativas entre os três grupos de leitores,
pretende-se agora testar quais os grupos significativamente diferentes entre si.
Por se tratar de amostras de diferentes dimensões, o método a utilizar será o de
Scheffé que implica o cálculo prévio das variâncias amostrais e da variância total.
8
s'j = + L (X;1 - 93J2 351,14
i= 1
6
s'~ = + L (X~ - 75)2 = 88,40
i= 1
6
s ·~ = + L (X;3 - 70)2 = 43,60
i= 1
·~
,.,,
i·
ENSAIO DE HIPÓTESES
S 2 = 1~ [(7 X 351,14) + (5 X 88,40) + (5 X 43,60))
Para a.= 0,05, F(o,os) = 3,59
Ho: µ, = µ2
Ha: µp' µ2
= -V 2 X 3,59 X 183,41 X ( + + +)
19,598 > 18,
183,41.
logo, é de não rejeitar a hipótese de iguais tempos médios de leitura para os
leitores do Expresso e do Independente.
Ho: µ1 = µ3
Ha: µ, * µ3
lx1-x31=23
--J (k- 1) . F(1 _a). s .2 (-1- +-1-) = 19,598 < 23, logo rejeita-se H0 . n, no
Ho:µ2=µ3
Ha: µ2 * µ3
--J(k-1). F{1-a). s"(-1-+_!_-) = 20,951 > 5,
n2 n3
logo não se rejeita Ho.
Apesar de na análise de variância simples se ter rejeitado a hipótese de
igualdade de médias dos três grupos de leitores, só existem diferenças signifi-
cativas nos tempos médios de leitura entre os leitores do Expresso e os do
Semanário.
•
201
1
: ... li
' 1j
! I:
ESTAT{STICA APLICADA
202
O quadro seguinte apresenta os preços reais durante quatro anos consecuti-
vos de três marcas do produto ABI:
Marca
A
B
1992
2
2
1993
3
3
1994
2
3
1995
2
2
3
a) Poder-se-á afirmar que, ao longo do período considerado, as três marcas
apresentaram preços médios idênticos? Se a resposta for negativa, entre
que marcas se verificaram preços médios diferentes? (Utilize a = 0,05).
b) E relativamente ao preço médio do produto ABI por anos, poder-se-á
considerar terem existido alterações significativas de preço ao longo dos
anos?
Antes de responder às questões anteriores, proceder-se-ão a alguns cálculos
preliminares. Sejam
X: preço do produto (por marca)
Grupo 1 se a marca = A
Grupo 2 se a marca = B
Grupo 3 se a marca = I
e Y: preço do produto (por ano de venda)
Grupo 1 se ano = 1992
Grupo 2 se ano = 1993
Grupo 3 se ano = 1994
Grupo 4 se ano = 1995
Assim, para X
Grupo x,
1 ---x1- =-·1~2s- ·-
2 x2 = 2,25
3 X3 = 2,75
sf n;
--s-~-·= 0,25 n1 = 4
s~ = 0,25 n, = 4
d = 0,25 n, = 4
ENSAIO DE HIPÓTESES
s~ = 0,25
Sx = 0,5
e para Y
-
Grupo Y; 52
'
- s~ = 1 Y1 = 1,67 0,33
2 Y2 = 2,33 s~ = 1,33
3 y, = 2,0 sã = 1,00
4 y, = 2,33 s~ = 0,33
2
s y = 0,75
Sy = 0,865
a) Ir-se-á testar primeiro as hipóteses
Ho: µ, = µ2 = µ3
H8 : µ;# µi com i#j
n;
n, = 3
n, = 3
n, = 3
"'
- 3
.. A,dmitindo-se estar em presença de três populações normais com igual va-
nanc1~, o teste escolhido é o da análise de variância simples, cujos resultados se
sumarizam no quadro seguinte.
Fontes Graus Somas Somas médias
de variação de liberdade de quadrados de quadrados T
Entre os grupos 2 SSB=4,6667 MSSB = 2,3333 T= 9,3333
Dentro dos grupos 9 SSW=2,25 MSSW=0,25
TOTAL 11 SST=6,9167
Para a= 0,05, Fco,95) = 4,26 < 9,3333, logo é de rejeitar a hipótese nula de
iguais médias de preços para as três marcas em causa. Resta agora saber quais
-+------~ mar:as com preços médios diferentes. Por se tratar de amostras com iguais
dimensoes, o teste escolhido é o HSD de Tukey cujo critério de decisão diz para
rejeitar Ho : µ; = µi se 1 X; - Xj 1 2: Sr(1 - a) --./ 52'
2
-V J__ + J__ sendo
ni ni
Sr(1- a) o quanlil da probabilidade 1 - a para a distribuição da Studentized
203
! : ~
.,,,,.,,,,
ESTATÍSTICA APLICADA
Range com (k, n-k) graus de liberdade. Por se tratarem de amostras com igual
dimensão e variância, W tomará sempre o mesmo valor.
Para a = 0,05, Sr(1-«l = 3,95, Ho será rejeitada se
- - - 1 0,25 - 1 1 1 [X; - Xj [ 2' 3,95 . \1-2- . \/ 4 + 4 = 0,9875.
As decisões a tomar são:
- rejeitar H
0
: µ1 = µ,. uma vez que [ X1 - "X2 \ = 1,0 > 0,9875
- rejeitar Ho: µ1 = µ3 , pois \ x1 - x3 [ = 1,5 > 0,9875
- não rejeitar Ho: µ2 = µ3, pois [ x2 - x3 [ = 0,5 < 0,9875
isto é o preço médio da marca A é significativamente diferente (inferior) dos preços
médios das marcas B e /.
b} Pretende-se agora saber se existe diferenças significativas entre os preços
médios dos quatro anos consecutivos. Mais concretamente, as hipóteses
a testar são
b,)
Ho: µ1 = µ2
Ha: µ, " µ2
b,)
Ho:µ2=µ3
Ha: µ2" µ3
e a regra de decisão a utilizar será: rejeitar Ho : µ; == µj se
b:i)
Ho:µ3=µ4
H,:µ3,;µ.
- ' 0,75 • 1 _l_ + _l_
1 Yi - Yi 1 " Sn1 - «I · 'I 2 · 'I 3 3
com Sr(1_,,1=4,53 para a= 0,05.
b,) w = 2,265
\ y
1
- y
2
\ = 0,67 < 2,265 logo Ho: µ1 = µ2 não deve ser rejeitada.
b,) \ h - y
3
\ = 0,33 < 2,265 logo Ho : µ2 = µ3 não deve também ser rejeita-
da.
b:J) \ y
3
- y
4
\ = 0,33 < 2,Z65 - .isto-é~· làmbém Ho: µ3 = µ4 não deverá ser
rejeitada.
Não existem diferenças médias significativas entre os preços médios de cada
par de anos consecutivos. A conclusão da não existência de diferenças significa-
ENSAIO DE HIPÓTESES
ivas entre-os-preçosmédios dos diferentes anos teria sido mais rápida se
previamente tivesse sido aplicada a análise de variância simples. Com efeito, o
valor do teste (0,4074) teria permitido concluir de imediato sobre a igualdade de
médias de preços para os quatro anos considerados.
•
5.4.3. Ensaios para a diferença de k variâncias
Qualquer dos testes anteriormente apresentados para mais de dois grupos
tem como pressupostos que as k amostras são retiradas de populações nor·
malmente distribuídas com iguais variâncias. A não ser que se conheçam as
populações em estudo, também os pressupostos deverão ser testados. O
pressuposto da normalidade, por se tratar de um teste não-paramétrico, será
abordado no capítulo seguinte, sendo a seguir apresentados dois ensaios para
a igualdade de variância entre k grupos populacionais:
efz = o~
" dJ com i " j.
Seja S 'f a variância de uma amostra de dimensão ni, aleatoriamente
retirada da j-ésima população (j = 1, 2, ... , k ). A variância total será dado
por
k
L, (ni - 1) s'f
i= 1
n - k
205
'
" I"
1
]11
i1!:>
1 i!
ESTATÍSTICA APLICADA
206
Foram retiradas quatro amostras independentes de dimensões n1 = 31,
n2 = 15, n3 = 20, n4 = 42 de população normais, a partir das quais se obtiveram
os seguintes resultados:
s'r = 5,47, s'~ = 4,64, s'~ = 11,47, s'~ = 11,29.
Poder-se-á concluir que as populações de onde se retiraram estas amostras
têm igual variância?
Pretende-se testar as seguintes hipóteses:
Ho: cn=a~=~=<1.
H, : df * af com i * j
e para aplicação do teste de Bartlett é necessário calcular previamente a variância
total S' 2.
ENSAIO OE HIPÓTESES
8
,2 =. (30 X 5,47) + (14 X 4,64) + (19 X 11,47) + (41 X 11,29)
104
909,88
104 8,75.
e = 1 1 {( 1 1 1 1 ) 1 } + 3 (4 - 1) . 30 + 14 + 19 + 41 - 104 = 1 ·º2·
8 = 1 ~2 {104 X 2,16892 - 218,19994) = 7,22.
2 Como ni > 6, então B n x (3). Para a= 0,05, o valor da distribuição de
qui-quadrado com 3 graus de liberdade é 7,81 > 7,22, logo a decisão a tomar é
a de não rejeição de H0, ou seja, de igualdade de variâncias entre os quatro
grupos populacionais.
•
~y"'- - - , ___ ---:;::,,, -e"- - , ,~ .,-- ::: .,,,;,:~·:),~j} --- --"---~l~!t~i1il~lllii
'cira.dJ gr:f>Otx1 )11 gueio}i~~i~ídllQ'~t1enc~:i~:."'' .• ,;:: "'
. ... ·.·,•'.• '• .Ô.Ji,7~.lfq;,~ Xy.,;.j,::. ; ! -.:."' ..
.-é-f-/'-"
..
-+---·
Tal como a análise de variância simples, o teste de Levene pressupõe que
os grupos populacionais seguem distribuição normal.
207
'I 'i
"
ESTATÍSTICA APLICADA
No exemplo 19, alínea a), foi testada a igualdade de médias dos preços das
três marcas dos produtos ABI. Como pressupostos foi necessário admitir que
esses preços seguem distribuição normal e que as variâncias de preços eram
iguais para as três marcas em estudo. Pretende-se agora testar a validade deste
último pressuposto, ou seja,
/-li : ar = e{ = "~
utilizando o teste de Levene. Os valores encontrados para a variável D foram os
seguintes, sabendo-se que x1 = 1,25, x2 = 2,25 e x3 = 2,75 :
Marca 1992 1993 1994 1995
1 -0,25
-0,25 -0,25 0,75
2 -0,25 0,75 -0,25 -0,25
3 -0,75 0,25 0,25 0,25
As estatísticas descritivas para os três grupos passam agora a ser:
-Grupo Oi sf n;
1 ct, = 0,00 ;, = 0,25 4
2 d,, = Õ,00 ~ = 0,25 4
3 d:i = 0,00 ;, = 0,25 4
A aplicação da análise de variância simples permite encontrar os seguintes
resultados:
Fontes Graus Somas Somas médias
de vadação de liberdade de quadrados de quadrados T
Entre os grupos 2 0,00 0,00 0,00
Dentro dos grupos 9 2,25 0,25
TOTAL 11 2,25
Qualquer que seja o nível de significância a, nunca a hipótese nula de igual·
dade de variância dos três grup~s popÜiacionais será rejeitada, resultado que não
é de surpreender uma vez que as três amostras apresentam variâncias exacta-
mente iguais.
•
Exercícios propostos
1. Uma empresa farmacêutica está disposta a lançar no mercado um medica-
mento, se 90º/o dos pacientes tratados com esse novo medicamento ficarem
curados. Caso verifique que apenas 70°/o dos pacientes ficam curados, então não
lança o novo medicamento. Para tomar uma decisão, a empresa procedeu ao
tratamento com o novo medicamento de 50 doentes, tendo-se registado que 45
deles ficaram curados.
a) Qual deverá ser a decisão tomada pela farmacêutica?
b) Suponha que a empresa farmacêutica decidiu utilizar a seguinte regra de
decisão: Se pelo menos 40 dos 50 doentes tratados ficarem curados, então
lança o medicamento no mercado; Caso contrário não o lança.
Quais as probabilidades de erro associada àquela regra de decisão?
R: a) Lançar o medicamento; b) a = 0,0091; f3 = 0,0618.
2. O Ministério da Saúde afirma que, com os meios agora postos à disposição
dos Hospitais Civis, o número médio de dias de internamento é no máximo 15.
Estas declarações foram postas em causa por alguns gestores hospitalares
_.,__·······que decidiram proceder em conjunto à recolha de uma amostra de 225 doentes
onde se observou que o número médio de dias de internamento foi de 18.
Com base nestes dados, e supondo que a variável em estudo segue uma
distribuição Normal com desvio-padrão 15 dias:
a) Terão os gestores hospitalares razão? Justifique convenientemente a sua
resposta, utilizando o teste adequado, a 1 °lo de significância.
Na decisão que tomou, qual a probabilidade de estar a cometer um erro?
b) Com que probabilidade é dada razão aos gestores hospitalares, se o ver-
dadeiro número médio de dias de internamento for 17?
c) Como variaria aquela probabilidade se a hipótese alternativa fosse superior
ao valor especificado na alínea b)? E se o tamanho da amostra aumentas-
se?
R: a) Sim;,; 0,01. b) 0,3707; e) Aumentava; Aumentava.
·~.._~--. 3. No exame ·de estatística l>fectuado na 2' época do ano lectivo 94195, foram
avaliados 31 alunos. Considerando estes alunos como uma amostra represen-
tativa da população dos alunos matriculados na cadeira de Estatística e tendo em
conta que, para essa amostra, se obtiveram os seguintes resultados:
209
:
! 1:
ESTATÍSTICA APLICADA
210
31
L X;= 299
31
L, (X; - X)2 = 120.
i= 1 i= 1
a) Com base num ensaio de hipóteses, com a= 0,05, comente a afirmação:
"ªmédia dos resultados não difere significativamente de 10».
b) Se a média dos resultados de todos os alunos matriculados na cadeira for
na realidade de 11, qual a probabilidade de estar a tomar uma decisão
incorrecta?
e) Se aquela média for de 9,5 a probabilidade calculada anteriormente virá
menor ou maior? Justifique com o auxílio dum esquema gráfico.
R: a) Verdadeira; b) 0,1922; e) Maior.
4. Uma estação de rádio quer estimar o tempo médio que uma família dedica,
por dia, a ouvir essa rádio.
Foi recolhida uma amostra aleatória de 81 famílias, tendo sido calculados uma
média diária de audição de 2,4 horas e um desvio-padrão de 0,7 horas.
Suponha que a administração da rádio tinha colocado, como objectivo, uma
média de audiência diária de pelo menos 2,5 horas. Para um nível de significância
de 0,05, diga se se pode validar, com a amostra recolhida, o objectivo da admi·
nistração?
R: Sim.
5. Uma empresa produz e comercializa um conjunto de produtos de grande
consumo. Face aos dados previsionais sobre a conjuntura do sector, um técnico
de planeamento prevê que a média diária de vendas, para o presente ano, seja
pelo menos de 2000 u.m., e que a sua variabilidade não se altere, continuando
a registar~se uma variância de 1225 u.m.2. Tal ocorrência implicaria um novo
contrato com a empresa transportadora, que coloca os produtos nos locais de
venda, decorrente do acréscimo da procura. Ficou decidido que após os primeiros
60 dias se procederia à recolha e análise do volume de vendas desses dois
meses, com vista a accionar ou nãoos mecanismos necessários à negociação
de um novo contrato com a empresa transportadora.
a) Sabendo que o volume total de vendas no período de tempo referido foi de
119400 u.m., efectue um ensaio de hipóteses, com nível de significância de
. _ 0,01, que permita tomar uma decisão sobre a eventual necessidade de
neg-ocfaçã-6 de uni novo contrato com a empresa transportadora.
b) Admitindo que a verdadeira média diária é de 1980 u.m., qual a probabili-
dade de não rejeitar a hipótese do técnico de planeamento?
ENSAIO DE HIPÓTESES
e) Admitindo _que tudo o resto se mantém constante, o que sucederia ao valor
da probabilidade que encontrou na alínea anterior, se tivesse encontrado
uma amostra relativa a três meses (90 dias)?
Não efectue cálculos e acompanhe a explicação com um diagrama elucidativo.
R: a) Deve-se renegociar; b) 0,0179; e) Diminui.
6. A despesa diária em alimentação, de um agregado familiar pertencente a certa
classe de rendimentos, segue uma distribuição Normal com desvio-padrão i uai
a 25 u.m. Acredita-se que a despesa semanal méd. d .. g c1 ·
1
.
1ª e um agregado fam1har da
asse acima re enda é de 1500 u.m. sendo de 1490 h. 't .
·d
1
- d . ' a 1po ese alternativa. Tendo
º• e com base numa amostra de s1 o ixa o um n1vel de significância de 5º1<
tamanho n, obteve-se um erro de tipo li de O, 1 (arredondado por excesso)
Determine o tamanho da amostra. ·
R:n=54.
7: Determinada companhia. de seguros tomará a decisão de aumentar o seu
numero de an~anadores se JUigar a conjuntura como favorável.
Para esse fim a companhia pretendeu quantificar a proporção de prémios não
pago~ ~u pagos em atraso nos últimos 6 meses, tendo encontrado 7% nessa
cond1çoes em 1000 seleccionados ao acaso. s
·a) Se a companhia considerar a conjuntura como favorável se a referida
perc~ntage~ for no máximo de 5%, diga qual a decisão a tomar (aumentar
ou nao o numero de angariadores) para a= 0,05.
b) Calcule o valor da função potência para o valor alternativo P = 0,08.
R: a) Não aumentar; b) 0,9350.
8. Com o intuito de decidir sobre a compra de tempo de ante de TV de gra d d'. . na num programa
n e au ienc1a, certa empresa decidiu recolher uma amostra de 100
pessoas.
a) No inquérito efectuado, 75 pessoas declararam ver o programa assidua-
mente, 1 O de vez em quando e os restantes declararam nunca o ver Sup~nha que a empresa só comprará o referido tempo de antena ~e for
cred1vel a hip.ótese de que a percentagem de pessoas que vê assiduamente
0 programa e de, pelo menos, 80%.
·-·· -a1) Qual a decisão tomar (a = o,o5)?
a2) Com a decisão que tomou qual o tipo de erro que pode estar a cometer?
Qual a sua probabilidade se na realidade 75% das pessoas veêm assi-
duamente o programa de TV?
211
.. : .. ,
jc'
,i' Ú,I,
'li' (
:ti' 1°1'i! ..
ili'
11: 11
,J
11·1
l
,·1r •
:·11 •1
:'11! 1'
1
1'·1' I'
.U .. ,
;l,,11 i [,
if';''\1i
;[!'\
'il1l1'\1\
!
1
iL·'i.'.' .. ,
1!1hl ,1
ESTATÍSTfCA APLICADA
b) Com base nas hipóteses formuladas na alínea anterior, determine-para que
valores do nível de significância esta amostra levará à tomada de decisão
contrária.
R: ai) Compra; a2) Erro tipo li; 0,6406; b) a <: 0,1056.
9. Um fabricante de fitas magnéticas para computadores sabe que a resistência
à ruptura destas fitas magnéticas é uma v.a. normalmente distribuida com média
300 Kg e desvio-padrão 20 Kg.
Para ajuizar se uma nova técnica/processo de fabrico produz fitas em média
mais fracas que as do processo antigo, é usado o seguinte teste estatístico com
um nível de significância de 5% e um tamanho de amostra N = 100:
Ho : µo = 300 Kg
HA : µa = 295 Kg
e em que:
Se X S X e rejeita-se Ho
Se X > X e não se rejeita Ho
a) Calcule X e.
b) Use este teste, para com base numa amostra de tamanho 100, onde se
obteve uma média igual a 290 Kg, tomar a respectiva decisão.
R: a) 296,71 Kg; b) Rejeitar Ho.
10. Numa amostra de 100 cidadãos de certo aglomerado populacional, 38 reve-
laram tencionar votar no candidato presidencial A nas próximas eleições.
a) Ensaie a hipótese de a percentagem dos que tencionam votar nesse can-
didato ser de 40o/o contra a alternativa de ser inferior, utilizando um nível de
significância de 0,01.
b) Qual a probabilidade de ter tomado uma decisão errada, se de facto essa
percentagem for de 30%?
R: a) Não rejeitar p = 0,4; b) 0,6217.
,':i!ll1i1 11 ILEi •.. I IFf1ji.
1
1
1
' 11. Num estudo sobre as saídas profissionais dos recém-licenciados portugue-
[E:ill ·_:.111 ~. -------~ ses pretendia-se testar se existiam diferenças significativas entre os salários ~11:11 11 '. "midi6s-(€iiii-contós)'dos licenciados-em gestão, economia e engenharia. Para tal ji''l'il.
1
foram inquiridos 12 gestores, 10 economistas e 15 engenheiros sobre os seus
~i~ 1 .. !I: salários brutos, tendo-se construido o seguinte quadro:
~H~ 11 •I'
'
1
!\ 1. 1 l1~1.,11'11r
f\liir'
1
·
1
: i~!!\11'1,: 212
ENSAIO DE HIPÓTESES
r--~~,-~~--,--~~,--~~~-
-""'". ---- · - - .. - - - -- - - --- Fontes---
F
Graus-· -- --Somas-médias Somas
I"
'j
de variação
Entre os grupos
Dentro dos grupos
TOTAL
de quadrados
17200
13870
de liberdade de quadrados
:oran_1 ainda calculadas as variâncias amostrais dos salários de cada grupos
de licenciados:
Licenciatura 52
Gestão 410
Economia 325
'
Engenharia 380
a) Complete o quadro anterior e responda à questão levantada pelo estudo. (utilize
a= 0,05).
b} O que se poderá afirmar acerca do pressuposto da igualdade de variâncias
dos salários dos três grupos de licenciados?
-'f'-'----'-R~a) Rejeitar H0; b) Não rejeitar Ho .
'i
·1 : .. 1.2. Um empresa produtora de automóveis ligeiros pretende saber se existem
diferenças nos tempos médios de vida de quatro marcas de pneus (A, B, e, e D),
de modo a escolher o melhor fornecedor em termos de durabilidade. Para tal
escolheu alguns pneus de características idênticas das 4 marcas e testou-os em
automóveis comparáveis. Os resultados foram os seguintes (em milhares de Km):
Marca dos pneus
A B e D
31 24 30 24,5
25 26 30,5 27
28 27 29,5 26
30 25 28 23
32 30 31 21
27,5 32 22
28
213
,I
''I 1:
11
,:1
1:
J:i
·l•I
1:11
:'!
1
1.i
' 1:
t\I
:11
ESTATÍSTICA APLICADA
--------.8;)-IJtilize--um-nível-!le-signilicância-de-0,05_para..testar_s.e_E!.l'.dl\tem dif<lrenças
significativas nos tempos médios de vida de quatro marcas de pneus.
214
b) Quais as marcas significativamente diferentes entre si?
e) O que conclui acerca do pressuposto da igualdade de variâncias entre os
grupos_
R: a) Rejeitar H0; b) Grupos 1 e 3 diferem do grupo 4;
e) Verifica-se o pressuposto.
Capítulo IX
Testes
não-paramétricos
Introdução
Até agora, as ferramentas estatísticas apresentadas (testes de hipóteses,
intervalos de confiança) permitem extrapolar para uma população considera-
ções acerca de parâmetros importantes (médias, desvios-padrão ... ), desde
que sejam verificadas as condições de aplicabilidade dos métodos. Veja-se o
seguinte exemplo.
Num estudo sobre a população portuguesa tomou-se nota da altura e da idade
dos indivíduos inquiridos. Sabendo que a altura média de um indivíduo adulto era,
há 20 anos, de 1,6 m pretende-se saber se a estatura média dos portugueses
aumentou ou não.
Para responder a esta questão, como foi apresentado no capítulo anterior, é
necessário realizar um teste de hipóteses.
Sendo X - altura de um português adulto, em metros, µ a sua média e
______ considerando a amostra aleatória (X1• X2 •... , Xn ), teríamos
H0 , µ = 1,6 m
Ha: µ ;t 1,6 m.
Mas, para poder realizar o ensaio pretendido, algumas condições teriam deser verificadas.
O tipo da variável não constitui problema, já que altura é uma grandeza
intrinsecamente contínua 1. No entanto, se a amostra for de pequena dimensão, é
necessário que esta possa ser considerada como proveniente de uma população
com distribuição Normal, ou seja, X terá de ter distribuição Normal.
Duas questões se colocam para já:
Como verificar a normalidade de X?
O que fazer, se não for possível aumentar o tamanho da amostra e a popula-
ção não for Normal?
•
t
A não ser que, no inquérito realizado, esta fosse apresentada em forma de intervalos. Nesse caso
- a variável em questão teria de ser considerada como qualitativa ordinal.
D
217
ESTATÍSTICA APLICADA
uma_coisa_é_cecta:_s_e as cooQições de apl'lcabilidade de_ u,!Tl_cert~ teste não
--------f-o-rem verificadas, a validade das conclusões de tal forma ret1Tadas e posta em
.i
1
1
"''
" '
' 1
i1·•.l
li 1 ü
218
causa.
Por outro lado, muitas das variáveis estudadas no âmbito das Ciências
Sociais e de Gestâo não são quantitativas.
Uma cadeia de hipermercados pensa abrir uma nova loja nos arredores de
Coimbra. Para analisar a viabilidade deste projecto realizou um estudo de merca-
do. Entre outras coisas pretende saber quais os grupos sócio-econom1cos mais
insatisfeitos com a actual oferta de superfícies desse tipo na zona.
No inquérito construído incluiu-se um conjunto de questões que permitem
caracterizar o grupo sócio-económico do respondente (como por exemplo. ~er ou
não casa própria e em que zona, número de automóveis possuídos, escala~ de
rendimento em que se insere, profissão, ... )para além de perguntas que permitem
aferir da satisfação global dos serviços disponíveis e da potencial vontade para
frequentar grandes superfícies.
Questões:
. 1? 0 Sim 0 Não Estaria disposto a frequentar um novo espaço comercia .
A situa·ç~~ na zona, no que se refere à existência de hipermercados, é:
o
Muito má
o
Má
o
Razoável
Indique a sua idade __
Sexo OF OM
o o
Boa Muito boa
Assina;~ ~ quadríc~I~· que mais se adequa ao seu rendimento familiar mensal
o < 70 contos
o 70 - 120 contos
o 120 - 180 contos
- - --~--
o 180 - 300 contos
o > 300 contos
.
i
:··
; -'·
: íc
TESTES NÃO-PARAMÉTRICOS
A primeira questão indicada daria origem a uma variável qualitativa nominal1.
A segunda daria origem a uma variável qualitativa ordinal - aparentada com
as variáveis em escala de Likert referidas no capítulo 1.
A idade, tal como está recolhida, seria uma variável quantitativa, mas, por
outro lado, o rendimento familiar mensaJ, dado que foi previamente dividido em
intervalos, teria de ser considerada como uma variável qualitativa ordinal.
•
Que fazer então?
Reduzir o estudo estatístico ao âmbito meramente descritivo? Aplicar as
técnicas estudadas antes, mesmo que violando pressupostos fundamentais?
Não! A solução consiste em utilizar outras técnicas de análise, que se
convencionaram designar por métodos não-paramétricos.
O conceito de «método não-paramétrico» é, ainda hoje, sujeito a discussão
pelos teóricos da Estatística. Intuitivamente, e como o nome sugere, serão
métodos onde as entidades em estudo não são os parâmetros de uma popu-
lação .
Seguir-se-á a definição indicada por Conover2:
1 Como foi visto em capítulos anteriores seria até uma variável de Bernoulli, tomando o valor de 1
2
se o indivíduo estivesse disposto a frequentar novas superfícies comerciais e O no caso contrário.
CoNOVEA W.J. (1980), Practical Nonparametric Statistics, 2nd ed., J. Wiley, New York. Pág. 92.
219
1 ,,
.1 .•
ESTATiSTICA APLICADA
No capítulo que aqui se inicia abordar-se-á, em primeiro lugai,oschamados
testes de ajustamento (ou da bondade do ajustamento). Com estes pretende-se
saber se determinada amostra pode ou não ser proveniente de uma população
com distribuição teórica «pré-fixada». Analisar-se-ão, de seguida, as tabelas
de contingência. Genericamente, uma tabela de contingência resulta de uma
classificação, segundo dois 1 items diferentes, de um mesmo grupo de indiví-
duos2. Pretende-se, no fundo, estudar a relação entre os dois items, isto é as
duas variáveis, em jogo. Finalmente, abordar-se-á o problema da igualdade de
duas (ou mais) distribuições. Neste ponto encontram-se as chamadas alterna-
tivas não-paramétricas ao teste para a diferença de médias e à análise de
variância simples paramétrica.
1 Ou mais do que dois, resultando então uma «multi~tabe\a,,.
2 O que não significa pessoas, mas sim elementos da população em estudo - vd. Cap. 1.
Testes de ajustamento li
No exemplo 1 deste capítulo foi levantada uma questão: Como verificar a
Normalidade de uma certa variável aleatória X?
A resposta a esta questão, e a outras do mesmo tipo, é obtida procedendo
ª. um teste de ajustamento, chamado por vezes de teste da bondade d
aiustamento. o
Em traços gerais, o problema é o seguinte:
Suponha que se recolheu uma amostra de 1000 indivíduos o . f i · ·d , s quais oram
(nqu1n os ~c~rca ~as suas preferências em relação a diferentes misturas de cafés
.,.,..,_ __ d5 compos1çoes_ diferentes: A, 8, C, D, E). Admita ainda que cada composição
ti~:rente_t1nha sido escolhida por exactamente 200 consumidores. Se tal inquérito
t . sse sido de facto realizado, era «muito pouco natural>) que se tivessem obtido
ais resultados. Vamos supor que os resultados obtidos eram:
221
ESTATÍSTICA APLICADA
--------No_capítulo_que_aqui se inicia abordar-se-á, em primeiro lugar, os chamados
testes de ajustamento (ou da bondade do ajustamento). Com estes pretende-se
saber se determinada amostra pode ou não ser proveniente de uma população
com distribuição teórica «pré-fixada». Analisar-se-ão, de seguida, as tabelas
de contingência. Genericamente, uma tabela de contingência resulta de uma
classificação, segundo dois 1 items diferentes, de um mesmo grupo de indiví-
duos2. Pretende-se, no fundo, estudar a relação entre os dois items, isto é as
duas variáveis, em jogo. Finalmente, abordar-se-á o problema da igualdade de
duas (ou mais) distribuições. Neste ponto encontram-se as chamadas alterna-
tivas não-paramétricas ao teste para a diferença de médias e à análise de
variância simples paramétrica.
'
'i
.1 .....
1
!
!1i
·1' : 1
11:,i
.i,i:,
111!1
,1,
1 Ou mais do que dois, resultando então uma «multi~tabela».
2 o que não significa pessoas, mas sim elementos da população em estudo - vd. Cap. 1.
220
.i,
', !
Testes de ajustamento li
No exemplo 1 deste capítulo foi levantada uma questão: Como verificar a
Normalidade de uma certa variável aleatória X?
A resposta a esta questão, e a outras do mesmo tipo, é obtida procedendo
a um teste de ajustamento, chamado por vezes de teste da bondade do
ajustamento.
Em traços gerais, o problema é o seguinte:
Suponha que se recolheu uma amostra de 1000 indivíduos, os quais foram
inquiridos acerca das suas preferências em relação a diferentes misturas de cafés
(5 composições diferentes: A, B, C, D, E). Admita ainda que cada composição
diferente tinha sido escolhida por exactamente 200 consumidores. Se tal inquérito
tivesse sido de facto realizado, era «muito pouco natural)) que se tivessem obtido
tais resultados. Vamos supor que os resultados obtidos eram:
221
ESTATÍSTICA APLICADA
-------1---Nomero--- --~·--·-·-·-
Marca
A
B
e
D
E
TOTAL
de consumidores
190
210
180
205
215
1.000
Será que ainda é de assumir que, na população em estudo, _as co~posições
são igualmente preferidas? (ou seja, será que as diferenças obtidas sao estatis-
ticamente significativas?)
Suponha-se então que
X - marca preferida por um consumidor
x = 1, 2, 3, 4, 5, onde
x = 1 -consumidor prefere composição A
X= 5 s consumidor prefere composição E.
. . . _ .1 d. eta em 5 nontos então a sua função de Se X tiver d1stnbuiçao--urn orme.. iscr - .. -····"'--·· ..... ,
222
probabilidade será
1 (x) = + , para x = 1, 2, 3, 4 e 5.
As hipóteses a testar serão:
Ho: l(x) = +' para x = 1, 2, 3, 4 e 5
1 1 X = 1, 2, 3, 4, e 5 Ha: l(x) "'- S' para agum
ou, de um modo mais sintético
Ho: X n U(5)
Ha: X(/'\ U(S).
•
TESTES NÃO-PARAMÉTRICOS
Existem vários testes da bondade do ajustamento. Um dos mais conhecidos
e mais antigos é o teste de ajustamento do x2. devido a Pearson, no início do
século. Kolmogorov, em 1933, apresentou um outro teste que também será
abordado aqui, e que ficou conhecido pelo seu nome: Teste de ajustamento de
Kolmogorov-Smirnov1, abreviadamente K- S.
2. 1. Teste de ajustamento do Qui-Quadrado
Sendo (X1, X2, ... , Xn) uma amostra aleatória de uma certa população X,
considere-se que f (x) é a f.(d.)p. verdadeira, mas desconhecida, de X. Supo-
nha-se ainda que fo (x) é a f.(d.)p. de uma variável aleatória com distribuição
conhecida e completamente especificada.
Como na generalidade dos testes de ajustamento, as hipóteses a testar
são:
H0 : A f.(d.)p. de X é f0 (X)
Ha : X não tem essa distribuição.
A-ideia básica-do-teste do Qui-Quadrado é a· seguinte: construam-se e
classes A1, A2, ... , Ac, de valores assumidos por X, de forma a que estas
classes constituam uma partição desses valores. Tome-se a amostra
(X1, X2, ... , Xn) e calculem-se as frequências absolutas observadas o;, de
cada classe A; . Assim,
o; = número de elementos da amostra que pertencem a A; (frequências
observadas).
Considere-se a distribuição teórica definida em H0 e calcule-se a proba-
bilidade Pi de cada classe A; .
Pi = P [A; 1 Ho ].
1
Kolmogorov estudou o caso do ajustamento de uma amostra a uma dada população especificada,
-+---enquanto que Smimov estudou problemas envolvendo duas amostras: poderão duas amostras
ser provenientes de populações com a mesma distribuição? Em muitas obras o primeiro teste é
designado por Kolmogorov-Smirnov para uma amostra, enquanto que o segundo é-o por Kotmo-
gorov-Smimov para duas amostras. Noutras obras, o primeiro teste é designado apenas por Teste
de Kolmogorov, sendo o segundo por Teste de Smimov.
223
ESTATÍSTICA APLICADA
---------liss1m, o número-de-indivíduos-·da-amostra_que-<<deverialJl»_e-"tar em A;
seria e; = n Pi', onde n é a dimensão da amostra e
1
-··· 1
1
"I. ,,
i. .1il
'i 1]
·1; 11\
ti 11
,: '11 I.1i
•• 1 1 LJ~I ____ _
]i, \1
L.I' l 1
11 1
:iJ.,, I 1 •.• ·11
'-' 1 · ;,; ,. 1
p~: (1 '1
Hiil l liU.:u.1.
n·:11· 11Ll1:'.
11!ii:iili1.
224
e; = número de elementos da amostra pertencentes a Ai quando H0 é
verdadeira (frequências esperadas).
Se a hipótese nula for de facto verdadeira, a diferença entre cada valor
observado e o respectivo valor esperado, intuitivamente, «não deve ser muito
grande». Mas como medir estas diferenças? O que é ser «grande» ou ser
((pequeno>)?
Interessa que:
- as diferenças sejam consideradas de igual forma, quer sejam positivas,
quer negativas;
- as diferenças sejam ponderadas. De facto, não é o mesmo ter uma
diferença de 10 entre um valor observado e um esperado que valha, por
exemplo 15 ou um valor esperado que valha, por exemplo 150;
- a distribuição da estatística de teste utilizada seja conhecida, pelo menos
assimptoticamente.
Sabe-se que, se alguns dos ei forem muito pequenos, a aproximação ao
x2 não é muito apropriada. No entanto, ainda hoje persistem dúvidas entre os
estatísticos quanto ao que devemos considerar «alguns» e «muito pequenos».
Tomaremos como regra prática a assumida por muitos packages estatísticos:
Para queseja_possível.aplicaLª--ªJ2IC!!'.il1lilÇão ao x2 devem-se ter:
i) Não mais de 20% das classes com e; inferior a 5,
ii) Todas as classes com ei superior ou igual a 1.
'1:
TESTES NÃO-PARAMÉTRICOS
-l"----__:Ca:5o esta_ regra não esteja a ser respeitada poderemos proceder à agre-
gação de algumas classes contíguas 1.
Valores «pequenos» da estatística de teste irão indicar «grande» adesão
dos valores observados aos valores esperados, confirmando a hipótesese nula
especificada. Valores «grandes» da estatística de teste indicam «desajusta-
mento» dos dados à distribuição especificada na hipótese nula e, conse-
quentemente, levam à rejeição desta.
Sendo X(c-1); a, o quantil de probabilidade (1 - a) de um x2 com (e- 1)
graus de liberdade, tem-se a seguinte regra de decisão:
Rejeita-se Ho a um nível de significância a caso o valor da estatística de
teste seja superior a X(c-1); a, isto é, rejeita-se H0 se T > X(c- 1); a . Caso
contrário, não se rejeita H0.
1
Retome-se o exemplo apresentado no ponto anterior. Suponha-se que se
recolheu uma amostra de 1000 indivíduos, os quais foram inquiridos acerca das
suas preferências em relação a diferentes misturas de cafés (5 composições
diferentes: A, B, C, D, E) tendo-se obtido os seguintes resultados:
Número
Marca de consumidores
A 190
B 210
e 180
D 205
E 215
TOTAL 1000
Sendo X - marca preterida por um consumidor,
x = 1, 2, 3, 4, 5, onde
X = 1 consumidor prefere composição A
X=5 consumidor prefere composição E.
;eoric~ment~, e se se at~nder à definição dada para classe, as classes agregadas não têm que
er obngatoriamente contiguas. No entanto, este é o processo geralmente seguido.
225
ESTATÍSTICA APLICADA
----------.A&-hipóteses_a_testar_seJãP~: ____ _
1
'
i
'1
1
. ,,!
'-. •••• 1
1:
.,
'1
1
:' H
:!---i,il
,i, i
1'· i:l'I
i:· 'i"I
•.• '11 1
i 1'1
111,1·1
J.;J1ll'1
Ho: X (1 U(5)
Ha: X(/\ U(5).
Definam-se as classes A;= { i}, ; = 1, 2, 3, 4, 5. Estas classes constituem
uma partição dos valores assumidos por X. Tem-se
1 pj P[A1 1 Ho] = fo(1) = 5
1 p3 = P[A3 1 Ho] = fo(3) = 5
1
Ps = P [ A5 1 1-1-0 J = to (5) = 5 .
e portanto,
1 fJ2 = P[A2 1 Hol = fo(2) = 5
1
p: = p [A, 1 Ho] = fo (4) = 5
Marca O; Pi np/'=ei or - e; (oi- er)2/e;
A
B
e
D
E
Total
5
T= L.
i= 1
190
210
180
205
215
-- -- ---
1000
2 (o; - e;)
e;
1/5
1/5
1/5
1/5
1/5
1
2 (1 X(S-1)·
200 -10 0,5
200 10 0,5
200 -20 2
200 5 0,125
200 15 1,125
1000 4,25
o valor calculado para 0 teste é T = 4,25. O ponto crítico, ao nível de signifi-
- · o 05 de uma VA com distribuição do Qui-Quadrado com 4 graus de canc1a ex = , . .
liberdade é 9,49 (vd. tabelas). Assim,
T = 4,25 < 9,49 = X(4); o.os
e não se rejeita a hipótese nula, a este nível de significância.
t '.il.1 Não existe evidência estatística que não permita considerar a a~os~ra c~mo
Lli.1 _______ ----proveniente-de uma população-uniforme_discreta em 5pontos, ou_ se1a, msenndo
1;,111 f dt nto JL .JI no contexto, os consumidores não prefedrem uma mistura de ca e em e nme j[\ ·.I de outras: todas são igualmente prefen as.
•!<li. ' li
1!111
;,;,;]
'''li !j~'.i 1
ir''il'I ' '.'~i'i' 1 :
lli!i1:11:
226
TESTES NÃO-PARAMÊTRICOS
Uma das hipóteses postas acima é a de que fo (x) está completamente
especificada. Isto implica que se conheçam os parâmetros que a caracterizam.
Por exemplo, no caso da distribuição normal, é necessário conhecer a verda-
deira média e o verdadeiro desvio-padrão. Mas isto não acontece em muitos
casos.
e
Note-se que, de facto, não é o mesmo testar
Ho: X n N(5; 1)
Ha: X (1) N(5; 1)
Ho : X tem distribuição normal
Ha : X não tem essa distribuição.
Enquanto que, no primeiro caso, a rejeição da hipótese nula não implica
que X não tenha distribuição normal (pode ter, mas com outros parâmetros,
diferentes dos especificados), no segundo,a rejeição da hipótese nula implica
que a distribuição de X não pertence à família normal.
Podemos ainda utilizar o teste do Qui-quadrado neste último caso, mas a
distribuição assimptótica da estatística de teste sofrerá um ajustamento no
número de graus de liberdade.
Assim, tem-se:
227
ESTATÍSTICA APLICADA
A procura diária de um certo produto F foi, em 60 dias escolhidos ao acaso,
a seguinte:
Nº unidades
procuradas
o 2 3 4 5 6
7 8 9
Nº dias 2 4 8 13 14
9 5 3
Será de admitir que tal procura segue uma distribuição de Poisson?
Seja X - procura diária de um certo produto F.
Tem-se:
Ho : X tem distribuição Poisson
Ha: X não tem essa distribuição.
A função de probabilidade de uma V.A. com distribuição de Poisson é:
X == O, 1, 2, ...
Mas o A. não está especificado na hipótese nula!
Definindo A; = { i} para i = O, .. ., 9
9
e A10 = {10, 11, 12,. .} = /No - U A;,
i=O
as probabilidades p ; = P [ A; 1 Ho ] não podem ser calculadas exactamente; A -
terão de ser estimadas. Dado que um bom estimador para A. é A. = X, estimar-
A
-se-ão os p; substituindo A. por A. na função de probabilidade indicada.
Neste exemplo, assumir-se-á
A I,X;
A.=--=38 n '
e portanto tem-se
1 ROBALO, A., Estatística-Exercícios Volume f/, Cap. lll, ex. 52, Ed. Silabo, 1989.
;};
TESTES NÃO-PARAMÉTRICOS
Nº unidades Nº de dias
procuradas
º'
Pi {a) e1= n pj
o 2 0,0224 1,344
1 4 0,0850 5,100
2 8 0, 1615 9,690
3 13 0,2046 12,276
4 14 0,1944 11,664
5 9 0,1477 8,862
6 5 0,0936 5,616
7 3 0,0508 3,048
8 1 0,0241 1,446
9 1 0,0102 0,612
10 ou mais o 0,0057 0,342
(a) Ver tabela da Poisson com parâmetro 3,8.
clas~:;~ê~ef~o~:n~~~statar, a r~gra. definida não é aqui verificada: cinco das
total das classe~ e du.:s~era~a in~enor a 5, o que representa mais de 20% do
' m requenc1a esperada inferior a 1 Pode
as quatro últimas classes redifinindo A . -se agrupar
. ' 7 como englobando todos os casos de
procura igual ou superior a 7. Será então:
Nº unidades Nº de dias
procuradas
º'
Pi (a) . ei=npj O; - 81 (o;- ei)21e1
o 2 0,0224 1,344 0,666 0,3300
1 4 0,0850 5,100 -1,100 0,2373
2 8 0,1615 9,690 - 1,690 0,2947
3 13 0,2046 12,276 0,724 0,0427
4 14 0,1944 11,664 2,336 0,4678
5 9 O, 1477 8,862 0,138 0,0021
6 5 0,0936 5,616 - 0,616 0,0676
7 ou mais 5 O,ü908 5,448 - 0,448 0,0368
Totais 60 1,0000 60 o 1,4790
Tem-se assim:
- . número de classes, e == 8
- número de parâmetros estimados, k =
-T n X~-1-1) = X~i
- valor do teste, t = 1,4790.
229
1
1
1.
[.'
"
J.
. ,
! '~:
1
1
ESTATISTICA APLICADA
Como Xa; o,o
5
= 12,592 (ver tabela), não se rejeita a hipótese nÜTiia este
nível de significância. Podemos assim assumir que a procura do produto F segue
uma distribuição de Poisson.
•
Até ao momento, os exemplos dados dizem respeito a ajustamentos a
distribuições discretas. Caso a distribuição em estudo seja contínua, o processo
é idêntico, embora seja necessário, a priori, classificar os dados em classes .
Uma máquina corta peças de 100 cm de comprimento. Crê-se que os erros
cometidos por esta máquina sigam distribuição normal. Para testar esta hipótese
efectuou-se a medição de 595 peças que forneceram os seguintes resultados:
Nrl de erros
Erros (cm) (O;)
-6; -3 . -1(f
-3; -1 95
-1 ; o 200
o. 1 190
1 ; 3 90
3; 9 10
Para testar o ajustamento à distribuição normal é necessário estimar a média
e o desvio-padrão, o que será feito como usual. Obtém-se
:X= ocm
e
L xf F;
5 2
= -='--- - x2 = 2,353 cm 2 => s = 1,53393 cm.
n
onde F; representa a frequ·ê-rlCi8.8bS01trta Otiséi'Vada da i-ésima classe, sendo x;
o respectivo ponto médio.
1 Adaptado de ROBALO, A., Estatística. - Exercícios Volume li, Cap. 111, ex. 51, Ed. Sílaba, 1989.
TESTES NÃO-PARAMÉTRICOS
.. ···---··
· N9 de erros Extremos
Erros (cm) (O;) standartizados Pi ei = npi ( 01- ei)
2 le1
-6; -3 10 < -1,96 0,0250 14,875 1 ,5977
-3; -1 95 -1,96; -0,65 0,2328 138,516 13,6709
- 1 ; o 200 -0,65; o 0,2422 144,109 21,6707
o. 1 190 o 0,65 0,2422 144,109 14,6138
1 ; 3 90 0,65 1,96 0,2328 138,516 16,9930
3; 9 10 > 1,96 0,0250 14,875 1 ,5977
Teoricamente, sendo X uma V.A. com distribuição normal, pode assumir qual-
quer valor real. Assim, a primeira classe tem de incluir todos os valores de X
inferiores a - 3, embora só se tivessem observado valores entre - 6 e - 3.
Era possível constituir uma outra primeira classe, incluindo apenas os valores
de X inferiores a - 6, com frequência observada O. Note-se que, neste caso, a
frequência esperada seria também aproximadamente O, visto que, considerando
a média e o desvio-padrão estimados e consultando a tabela da normal-padrão,
P[X < -6] = P[Z < -3,9] ~O
levando à agregação de tal classe com a seguinte. O mesmo se passa em relação
ao outro extremo.
Tem-se assim e= 6, k = 2 e portanto
o 2 2
T () XiB-2-1) = X(3)·
Como X
3
,
0
,
05
= 7,815 (ver tabela) e o valor calculado para o teste é de
70,1498, rejeita-se a hipótese nula, a este nível de significância. A distribuição dos
erros cometidos pela máquina ao cortar peças de 100 cm não tem distribuição
normal.
•
_ D~vido à informação perdida quando se procede à agregação em classes,
nao e muito aconselhável a utilização deste teste para proceder ao ajustamento
de distribuições contínuas. Neste caso está mais indicado o teste de Kolmo-
gorov-Smirnov de ajustamento, que será abordado no ponto seguinte.
231
'
"'" "'"
i. ,,
,;: ':
ESTATÍSTICA APLICADA
2.2. Teste de ajustamento
de Kofmogorov-Smirnov
O teste de ajustamento do Qui-Ouadrado, abordado no ponto anterior, está
especialmente concebido para dados nominais. Quando os dados são ordinais,
a informação relativa à ordem é perdida. O volume da informação perdida é
ainda maior quando os dados são de natureza contínua, dado que é necessário
proceder à classificação dos dados. O teste de Kolmogorov para uma amostra
(designado abreviadamente por K - S de ajustamento) permite tomar em con-
sideração a ordem inerente aos dados, o que é por si só uma vantagem.
Embora não haja unanimidade neste aspecto, vários autores afirmam que o
teste K - S de ajustamento é provavelmente mais potente que o Oui-Quadrado,
em muitas das situações em que ambos são aplicáveis.
Para que possamos apresentar este teste é necessário definir, em primeiro
lugar, o que se entende por função distribuição empírica
1
.
1 A natureza dos dados tem de ser no mínimo ordinal.
TESTES NÃO-PARAMÉTRICOS
A função de distribuição da amostra será
r o
1
1 '
= j __I_
1 n
1 l 1
Xtn,; X< X;+1:n i = 1, ... , n - 1.
Note-se que, enquanto Sn (x) é uma função de x, Fn (x) (que deverá ser
tomada para um qualquer x E IR fixo) é uma variável aleatória função da
amostra aleatória, logo, uma estatística.
51
- Uma máquina embala pacotes de 500 gr de esparguete, e está calibrada para
nao co~eter erros de embalagem superiores a 1 O gr em mais de 95º/o dos casos.
o Retirou-~e ~ma amostra aleatória de 1 O pacotes de esparguete embalados
p r esta maquina, por forma a verificar o processo de embalagem Obt -
seguinte amostra: . eve se a
(507; 490; 497; 489,5; 501,5; 499; 502,5; 498,5; 510; 510,5).
A amostra ordenada será:
(489,5; 490; 497; 498,5; 499; 501,5; 502,5; 507; 510; 510,5).
A função distribuição empírica será
X Sn (x)
X< 489,5 o
489,5 $X< 490 0,1
490 $x< 497 0,2
497 ::;;x< 498,5 0,3
498,5 ::;;x< 499 0,4
499 $X< 501,5 0,5
501,5 $X< 502,5 0,6
502,5 ::;;x< 507 0,7
507 $X< 510 0,8
510 $X< 510,5 0,9
x> 510,5 1
•
233
11
1
\!:
'
' 1:
1
li:
~ 1 i
~:
11 j:
i~ ! '
,j
ESTATÍSTICAAPLICADA
234
S, (X)
1 .
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
490
...
...
495 500 505 510
X
•
TESTES NÃO.PARAMÉTRICOS
Em termos-práticos, sendo Sn (x) definida como anteriormente,
(x1, n, x2, n, ... , Xn, n) a amostra observada depois de ordenada e definindo
Sn (Xo: n) = O, tem-se que
dn max {IF(x;:nl- Sn(Xi-1:n)1; IF(Xi:nl - Sn(X;:n)I}.
i= ~ .... , n
Conhecendo a distribuição de Dn é possível então avaliar dn e decidir se
este é suficientemente pequeno para que não se rejeite a hipótese nula a um
dado nível de significância a.
A tabela disponível para este teste só é exacta caso a distribuição em teste
seja contínua 1. Se tal não acontecer, o teste torna-se conservativo, isto é, tende
a não rejeitar a hipótese nula. Os valores apresentados nesta tabela, e nas
condições referidas, são exactos para n :> 40 e aproximados para valores
superiores a 40.
1
Suponha-se que a máquina referida no exemplo anterior foi calibrada, na sua
revisão periódica, de forma a que o peso dos pacotes de esparguete fosse
Normalmente distribuído, com média 500 gr e desvio-padrão 5, 1 gr (verifique que
a condição imposta no enunciado anteriormente apresentado é respeitada). Pe-
rante a amostra obtida, será que podemos afirmar que estas normas estão a ser
respeitadas?
Seja X - peso real de um pacote de 500 gr de esparguete embalado pela
referida máquina. Tem-se:
Ho: X n N(500; 5,1)
Ha: X (1) N(500; 5,1).
Como
d10 = max ( 1F(X;:10) - 810 (X;-1: 10) 1; 1F(x;,10) - 810 (x;, 10) 1).
i=1, ... ,10
Existem métodos que permitem calcular o nível de significância crítico quando a distribuição em
teste é discreta. Para mais informações veja-se por exemplo CONOVER, Praclical Nonparamelric
Statistics, 2nd ed., J. Wiley, New York, 1980, págs. 350-353.
235
~!---~ES~1'e!!~.!.!TÍ~ST~ICA~A!!;P~Ll~CA~D~A~======:--------.. -.. --.-.---... -.. --.--.-. ---------
.1
1
i .1
1
' 1'.
,,, '
[.~ 1
'·
' !}
x, z, F(xk) Sn (Xk) F(xk) - 50 (Xk-1) F(x,)-Sn(Xk)
489,5 -2,06 0,0197 0,1 0,0197 -0,0803
490,0 -1,96 0,0250 0,2 -0,075 -0,175
497,0 -0,58 0,2810 0,3 0,081 - 0,019
498,5 -0,29 0,3859 0,4 0,0859 -0,0141
499,0 -0,2 0,4207 0,5 0,0207 -0,0793
501,5 0,29 0,6141 0,6 O, 1141 0,0141
502,5 0,49 0,6879 0,7 0,0879 -0,0121
507,0 1,37 0,9147 0,8 0,2147 0,1147
510,0 1,96 0,9750 0,9 0,175 0,075
510,5 2,06 0,9803 1,0 0,0803
logo d10 = 0,2147.
O valor tabelado para n = 10 e p = 0,95 (e< = 0,05) é 0,409. Como
0,2147 < 0,409, não se rejeita a hipótese nula a este nível de significância, ou
seja, não há evidência estatística de que a máquina não esteja a funcionar de
acordo com o especificado (ou seja, pode-se considerar que a distribuição dos
pesos dos pacotes de esparguete embalados por esta máquina segue distribuição
normal de média 500 gr e desvio-padrão 5, 1 gr).
•
O teste de Kolmogorov-Smirnov de ajustamento está desenhado partindo
1
.! do pressuposto que a distribuição indicada na hipótese nula está cornpleta-
M1·'
ViJ, ,
1
mente especificada.
1
r1'i, , '. 1 Caso tal não aconteça, ou seja caso as hipóteses em teste sejam, por
ri'! 1 exemplo ,;·~: ,,: ' H0: X tem distribuição normal
~:.· ': Ha: X não tem essa distribuição
::,:;·,, 1 Jjj_! onde não se pretende fixar a priori a média e a variância da normal a ajustar,
,,,,, ·~------ -torna-se_necessário_reccr1er_il_estir:ii_ªç·ã_o_d~s-~13_s parâmetros, o que torna o
::111 J'[; 1 teste conservativo (ou seja, tende a não rejeitar a hipótese nula quando ela é
,iffi;i falsa).
~~j,i,; i """ ~ . li;ii!f' No entanto, é prática corrente a utilização deste teste nesses moldes.
,,,,11,, '
·;11'ª li 1 h;l1·1 ;) u,,.
õiiili.i1I
'''''IJll
'1'·1l_l:_v_,· , ~Ü1!I '
,,~;;:.J '
III!!!!! '.' ..
236
1
TESTES NÃO-PARAMÉTRICOS
Note-se porém que Lilliefors estudou este problema e apresentou, em 1967,
tabelas modificadas para o caso do ajustamento à Normal sem parâmetros
especificados, tendo por base a mesma estatística de teste.
Este autor apresentou ainda, em 1969, tabelas modificadas para 0 ajusta-
mento de uma distribuição exponencial1.
szbre este a~sunto, consulte-se, por exemplo, CoNOVER (1980), Praticai Nonparametric Statistics
2 ed., J. Wiley, New York, 1980, págs. 357-363.
237
11
i
' ;o....;..)....,
,;i,' 1
cl'..1
ltt:,i ...
,;.11 .,
1!'·;
:'I' 1
11 ]'"1 "1 :ii~n ! ': : · d
liilllli.ll. ..
tl.IHlr': iil1!1,·111 1:
1
t, ,.,
t !.'~:1111
li Tabelas de contingência
3. 1. Teste do Qui-Quadrado de independência
238
No dia-a-dia frases como estas são frequentes:
- Homens e mulheres têm preferências diferentes, no que se refere a
programas de TV.
_ As apetências para a leitura diferem consoante o estrato social em que
o indivíduo se insere.
_ Independentemente da sua idade, o português gosta de fado.
Nestas afirmações está subjacente uma dupla classificação da população
em estudo:
- Na primeira classificam-se, por exemplo, os portugueses adultos e com
acesso à televisão, por um lado segundo o seu sexo, e por outro, segundo ~
tipo de programas preferidos (p. ex: informação; filmes; telenovelas; desporllvos,
concursos; outros).
_ Na segunda, cada indivíduo é classificado segund_o o estrato social e~
que se insere e também segundo um indicador «apetenc1a para a leitura '
previamente definido.
_ Na terceira, tem-se por um lado uma classificação «gosta _d~ fado»
versus «não gosta de lado», e por outro o posicionamento do md1v1duo no
escalão etário respectivo.
Em geral, este tipo de afirmações resultaram de inferências. ~obre um~
amostra da população em estudo, classificada segundo duas vanave1s quall
-!ativas.
TESTES NÂO·PARAMÉTR/COS
ii;
" ]!t'
Duzentas donas-de-casa foram inquiridas sobre a frequência com que vêem
televisão, e também sobre o tipo de detergente que preferencialmente compram:
A, Bou C.
A informação obtida resultou na seguinte tabela de contingência:
Frequêncía com Tipo de detergente
que vê TV Total em linha
A B e
Nunca 10 10 5 25
Ocasionalmente 25 40 9 74
Frequentemente 40 31 30 101
Total em coluna 75 81 44 200
Na amostra recolhida tem-se assim, por exemplo, que 31 donas de casa vêem
frequentemente televisão e usam o detergente B.
Outras informações decorrentes desta tabela:
- do total das 200 pessoas inquiridas, 25 nunca vêem TV, 74 vêem TV
ocasionalmente, enquanto que 101 o fazem frequentemente (totais em
linha).
- do total das 200 pessoas inquiridas, 75 usam o detergente A, 81 o deter-
gente B e 44 o C (totais em coluna).
- exemplo de percentagem em linha: das 25 donas de casa que nunca vêem
televisão, 20% (isto é 5 desse total) usam o detergente C.
- exemplo de percentagem em coluna: de todas as inquiridas que usam A
(75), aproximadamente 13,3% (isto é 1 O das 75) nunca vêem TV .
•
Suponha-se que se está perante uma amostra de dimensão n, classificada
.segundo duas variáveis qualitativas, uma com r categorias, e outra com c
categorias.
.-.---·· Note-se que estas variáveis podem ser o resultado da tabelação de uma
variável contínua como se pode ver no exemplo seguinte.
239
ESTATÍSTICA APLICADA
'----·---
:'i 1·
! '
' 1 ;.1
, , 1
' ' 1
1
'1
1
j[ 1
til '1
1::1'1, 1
.!1;·,,, 11 Ili~:''\ , ', ~:.1' 1 1,.',·I
'\!\\i., lli ..... J
~;q: .:11
~li},\_ ---
J'lf\'\,' $;.:.!.::;:.,
~.~'!'',
ilil.H.111
1
11 ~.!'11l .. 1li i:ii,1 .. i..I
ilml'1l ... 11 .. :.11 i~11}i:
111!\1
240
Tomem-se, por exemplo, as variáveis idade e rendiment~ _familiar m:nsal.
Podem-se então construir as variáveis qualitativas classe etana e escalao de
rendimento.
Uma divisão possível seria:
Classe etária
23
4
Escalão de rendimento
2
3
4
5
Menos de 25 anos
Entre 25 e 35 anos
Entre 35 e 60 anos
60 anos ou mais
Menos de 1500 contos/ano
Entre 1500 e 2499 contos/ano
Entre 2500 e 3499 contos/ano
Entre 3500 e 4999 contos/ano
5000 contos/ano ou mais
•
i;'
! !
:.;.,
TESTES NÃO·PARAMÉTRICOS
O objectivo desta dupla classificação é, na maioria dos casos, tentar inferir
sobre a existência ou inexistência de relação entre as variáveis (e consequen-
temente a elaboração de frases como as que abrem este capitulo).
1
No caso que tem vindo a ser analisado, suspeita-se que a frequência com que
a dona de casa vê televisão está relacionada com a marca de detergente que
consome.
As hipóteses a testar serão:
H0: A marca de detergente que a dona de casa consome é independente da
frequência com que vê televisão.
Ha: A marca de detergente que a dona de casa utiliza depende da frequência
com que vê televisão.
•
De forma análoga, seja Pi· a probabilidade de um indivíduo pertencer a Ai
(distribuição marginal da variável em linha) e P.j a probabilidade de um indivíduo
pertencer a Bi (distribuição marginal da variável em coluna).
1
Tem-se que:
- o número de indivíduos esperados na classe Ai da variável em linha
será Ei. = n Pi.
- o número esperado de indivíduos na classe Bj da variável em coluna
será E.j = n P.j
O que é o valor esperado de uma distribuição multinomial com probabilidades associadas pij.
241
ESTATÍSTICA APLICADA
Existindo independência entre as duas variáveis, então
Pij = Pi. P.j
As hipóteses colocadas anteriormente podem ser reescritas mais for-
malmente
Ho: Pij = Pi. P.i V i = 1, ... , r; j = 1, ... , e
Ha: Pii *Pi. P.j · para algum i = 1, ... , r e algúm j = 1, ... , e.
Analogamente, ao que foi descrito ,no teste do Qui-quadrado de ade-
rência, uma estatística de teste (sugerida porPearson, em 1904) será
. .· . - -. - . . ·: .-
r e
x2 = Li L,
i=1J=1
(Oij-•-"'--•• Eij )~
,-,·.E·
. _,,
·Dado_ que. não se conhecem -o~~erdadeirosv~lores cl~sprobabfüdades
!Tl"a.rginais erwolv!da~. estas terão que ser; e~tima,das, -() qu~. r~s~lta,r_á e~ ..
··-···-·-·· ;--·"·-~-----~----~:. ~:_~ ~ e~~-rj=j_~L.. '... :~10'0;; ~·! .5 }···
ÓÓncle, sob t/-0. Eii;.=inPi.·P.j .~e~Hni~d~~or··· ;;1· ~-}·~·; t• --~ 'fij?'.;:i:·~ª"" •. -···
Para que valores da estatística de teste será rejeitada a hipótese nula?
Sendo Ho verdadeira, a diferença entre cada frequência observada e a
respectiva frequência esperada não deve ser grande, quando comparada com
a grandeza desta última. Assim, valores pequenos da estatística de teste são
compatíveis com a hipótese nula, enquanto que valores grandes denotam
.
li
'· ~-.
;i:
TESTES NÃO-PARAMÉTRICOS
discrepâncias entre _alguns valores observados e os respectivos valores espe-
rados e, assim, a nao validade da hipótese nula.
A região crítica será pois, unilateral direita. Rejeitar-se-á Ho, para um nível
de significância a, se o valor observado do teste, X 2, for superior ou igual ao
quant1I de probabilidade a de uma variável aleatória com distribuição do Qui--
quadrado com (r-1) (c-1) graus de liberdade, ou seja
Rejeita-se H0 ao nível de significância a se
X 2 > X(r-1)(c-1);a
onde Plxfr-1)(c-1) < X(r-1)(c-1);al = 1 - a.
e
As hipóteses a testar, como já foi visto anteriormente, são:
Ho: a ma~ca _de detergente que a dona de casa consome é independente da
frequenc1a com que vê televisão;
Ha: a marca de detergente que a dona de casa utiliza depende da frequência
com que vê televisão.
Definindo
A1 - a dona de casa nunca vê TV
A2 - a dona de casa vê TV ocasiona/mente
A3 - a dona de casa vê TV frequentemente
B, - a dona de casa usa o detergente A
13,_ - a dona de casa usa o detergente B
BJ - a dona de casa usa o detergente e
tem-se
Pij = P[Ai (] Bj]
com Pi = P[AiJ e Pi= P[ Bj]
assim
. e,, "1. º·' 72 X 25
N 200 = 9,375
e,2 = 01. 0.2 81 X 25 N 200 1o,125
243
1
1
I'
.J
ESTATÍSTICA APLICADA
e assim sucessivamente, como se resume no quadro s.~guin~e~
TABELA DE FREQUÊNCIAS ESPERADAS
Frequência Tipo de detergente Total em linha
com que vê TV A B e
Nunca 9,375 10,125 5,5 25
Ocasionalmente 27,75 29,97 16,28 74
Frequentemente 37,875 40,905 22,22 101
Total em coluna 75 81 44 200
O valor do teste será então
x2 = (10 - 9,375)2 + (10 - 10,125)
2
+ ··-
2 (30 - 22,22) = 12 22
+ 22,22 ' 9,375 10,125
Dado que r = 3 e e = 3 tem-se que a estatística de teste tem (3 - 1)
(3 - 1) = 4 graus de liberdade.
A tabela da distribuição do Qui-quadrado indica que o quantil de probabilidade
0,05, para 4 graus de liberdade, é 9,49.
Assim, como x2 = 12,22 > 9,49, rejeita-se Ho ao nível de significância de
5%. o detergente que as donas de casa utilizam depende da frequência com que
vêem televisão.
•
Tal como no teste de aderência do Qui-quadrado, é necessário que se
verifiquem certas condições, de forma a que se possam aceitar os resultados
obtidos.
Embora não haja unanimidade entre diferentes autores, pode-se estabele-
cer, para que o teste do Qui-quadrado de independência seja aplicável, o
seguinte:
a) Não mais de 20% das células tenham frequência esperada estimada
inferior a 5 (isto é não mais de 20% dos eij sejam inferiores a 5);
b) Não exista qualquer célula com valor esperado inferior a 1 (ou seja,
eij ;:, 1 V i , V j ).
Se tal não se passar, poder-se-á proceder à fusão de algumas classes de
..._.,L, --------uma-ou das-duasvariáveis.-~porém-necessário_ter_em conta as alterações de
1
] contex1o provocadas por estas fusões (por exemplo, fundir as classes «vê T~
_ .J ocasionalmente» com «Vê TV trequentamf_entde" drefsultatee)m duas classes: «Ve
' ' TV» e «Não vê TV», o que tem um s1gn11ca o 1 eren .
i ii
il ·:
1
:i.il :i!ll'
]\\ "i
244
TESTES NÃO·PARAMÉTRfCOS
_ __,,__ ____ .Q teste anterior é conhecido por teste de Qui-Quadrado de Pearson para
se diferenciar de outros testes, também com distribuição do Qui-Quadrado, mas
baseados em diferentes métodos de estimação, como, por exemplo, o método
da razão de verosimilhanças.
.••.•.· ... o teste da ra~ã() de verb~i~ilhallÇas,"proppsto p6rwilks (1935) para
• testar a mesma hipótese nula de indêpéndência de cj~as variáveis, apre'
•·_' ~ue, sendo a hi~;,;&se•nu11lv~r~ad~ira,;tem distr1buiç~cr~ssimptótica do
•ffaui-Ouadrado êõi-n (i--'1 ){°d'.__'.f)~rãus êle libérc:laci0.'' · · · · ·· ···. • ··
Este teste leva à rejeição da hipótese nula quando, para um nível de
significância a, o valor de estatística de teste for igual ou superior ao quantil
de probabilidade a da distribuição do Qui-Quadrado com (r- 1) (c-1) graus
de liberdade, ou seja, quando
2 X ;:, X (r - 1 ) (e - 1 ) ; a ·
As condições de aplicabilidade do teste da razão de verosimilhanças são
idênticas às do teste de Pearson, sendo particularmente desaconselhada a sua
aplicação quando não se verificar a seguinte condição adicional: _!:!__ ;:, 5 .
rc
3.2. Medidas de associação
Ao estudar a relação entre duas variáveis qualitativas, o analista pode estar
interessado em analisar, para além da existência/inexistência da relação, a sua
intensidade.
Sendo a estatística do Qui-quadrado tanto maior quanto maior é o afasta-
mento da hipótese de independência, uma solução imediata seria utilizar o
valor do teste como medida de associação. No entanto, é necessário ter em
consideração que, não só não teria a desejável propriedade de variar entre O
e 1, como ainda que a sua magnitude depende em sentido directo do número
total de observações da amostra.
245
li
ESTATl'STICA APLICADA
246
seguinte forma:
C=.~ J~
n
Este coeficiente varia entre O e 1, sendo que valores b~ixos de C
indicam poucadependência entre as variáveis (O se as. vanave1s f?rem
independentes) enquanto que valores altos indicam maior dependenc1a
entre as variáveis.
O de Completa associação este coeficiente não No entanto, mesmo no cas •
assume 0 valor 1. O valor de C, sendo q = min (r, e), varia em
q - 1
q < 1.
Para obviar a este facto, Cramér (1946) sugeriu o seguinte coeficiente,
designado por Vde .CraméL poLalguns. autores.~ .
onde q = inin {r, e).
Este coeficiente pode assumir o valor 1, no caso.de associação per-
feita entre as variáveis.
No exemplo que tem sido seguido:
Ho: A marca de detergente que a dona de casa consome é independente da
frequência com que vê televisão ~ .
Ha: A marca de detergente que a dona de casa utiliza depende da frequenc1a
com que vê televisão.
TESTES NÃO-PARAMÊTRICOS
Obteve-se um valor para a estatística de teste de X 2 = 12,22.
Como r = e = 3 e n = 200, tem-se que
C=
12,22
200
12,22
+200
= 0,245
com
e
Cmax = './
3 - 1
3
V=
12,22
200
3 - 1
:::: 0,82
:::: 0,17.
Note-se que, embora se tenha concluído que a relação entre as variáveis é
significativa, ela é bastante fraca, sendo que o valor do coeficiente de contingência
é 0,24, num máximo de 0,82, e o V de Cramér é O, 17.
Estes baixos valores dos coeficientes são também consequência da dimensão
·-~·ª- amt?st~ª· O _mesmo valor de teste, para amostras de tamanho inferior, levaria
a coeficientes de maior valor.
•
É necessário ter em atenção que, sendo estes coeficientes calculados com
base na estatística do Qui-Quadrado de Pearson, só podem ser interpretados
caso sejam verificadas as condições de aplicabilidade do teste referidas ante-
riormente.
Refira-se ainda que, quando as variáveis em teste são de natureza ordinal,
podem-se calcular outras medidas de associação - como o Tau B e o Tau C
de Kendall - que tomam em consideração a ordem existente entre os valores
das variáveis. Sobre este assunto veja-se por exemplo EVERITT, 19801.
,
EVERIIT, 8. $., The Analysis of Contingency Tables, Monographs on Appfiecl Probability and
Statistics, Chapman & Hall, 1980 (reedição).
247
1
1
'.',.\
ii
I,
'ª
''I
1i1
w
íl
li
1
248
Testes à igualdade de duas
ou mais distribuições
O conjunto de testes que irão ser apresentados de seguida têm um deno-
minador comum. Em todos eles, genericamente, as hipóteses a testar são:
Ho: As diferentes amostras são provenientes de populações com a mesma
distribuição.
H8 : Pelo menos uma das amostras é proveniente de uma população com
distribuição diferente das restantes.
Não interessa, em geral, qual é a forma da distribuição de cada população
subjacente. O que interessa é testar se é a mesma para todas as amostras,
ou não.
Num certo inquérito sôbí8-aüfOITlóvêiS-,--peaiU:.-s-e ·à ·opinião dos indivíduos (na
escala de 1 - nada importante a 5 - muito importante) sobre um conjunto de
questões caracterizadoras de um veículo automóvel, entre as quais
- facilidade de condução
- design
- conforto
- potência do carro
- poder de arranque
- custo de manutenção,
tendo-se anotado também algumas características dos indivíduos como a idade,
o sexo, o rendimento familiar, etc.
As variáveis de opinião são em escala tipo Likert, donde, ordinais, e, neste
caso, assumindo um número relativamente pequeno de valores diferentes.
Algumas questões podem surgir no decurso da análise:
-----~~S€rcfq-ue h0"1€úis ·e-mü1héres·-daO a mesma·i'mportância ao poder de arran-
que de um carro? E ao design?>)
((A importância dada ao custo de manutenção será a mesma para indivíduos
em diferentes escalões de rendimento?n
I!.
TESTES NÃO-PARAMÉTRICOS
(•Gs-indivíduos- darão a mesma importância à facilidade de condução e à
potência do motor?))
No primeiro caso observa-se uma variável resposta (importância do poder de
arranque) em dois grupos (homens e mulheres). Está-se assim em presença de
duas amostras independentes da variável resposta.
No segundo caso, tendo sido feita a classificação dos rendimentos em k
escalões, está-se em presença de k amostras independentes da variável em
estudo ((custo de manutenção)).
No terceiro caso, as amostras em causa são emparelhadas: para cada indiví-
duo é considerado o par de respostas (importância da facilidade de condução;
importância da potência do motor).
•
Uma ideia imediata consistiria em comparar as respectivas médias popula-
cionais, usando o teste t-Student para amostras independentes no primeiro
caso, o mesmo teste, mas para amostras emparelhadas no terceiro, e a análise
de variância simples paramétrica no segundo. Mas estas técnicas têm pressu-
postos!
i) As variáveis devem ser contínuas (embora muitas vezes este pressuposto
seja ignorado);
ii) As variáveis devem ter distribuição normal em cada grupo.
Os testes não paramétricos que a seguir se apresentam permitem respon-
der às questões levantadas, e a outras semelhantes, servindo ainda como
alternativa aos testes paramétricos apontados, quando estes não são utilizá-
veis.
As estatísticas de vários destes testes baseiam-se, não nos valores das
observações, mas sim nos seus postos.
249
il
ESTATÍSTICA APLICADA
;,.~--------------------·----------· -- --
: :
ili
IH
! ; ~
!j
1
1(
!.:.,
1 II H 1.; .
.. )!);
" 1' i;i .:.
1
J.;.;:.; .. 1
., '1
Tratar-se-á, em primeiro lugar, do caso de amostras independentes:
- duas amostras independentes, com os testes de Mann-Whitney e o
Kolmogorov-Smirnov para duas amostras;
- mais de duas amostras independentes, com o teste de Kruskall-Wallis;
seguindo-se o caso de duas amostras emparelhadas, com o teste de
Wilcoxon.
4. 1. Testes à igualdade de distribuições
em duas amostras independentes
Como já foi referido, o caso prático mais usual de obtenção de duas
amostras independentes consiste na análise de uma variável resposta (por
exemplo, importância da facilidade de condução de um automóvel), dividida em
grupos segundo uma variável dicotómica de classificação (por exemplo, sexo).
Apresentar-se-ão dois testes: o teste de Mann-Whitney, e o de Kolmogorov-
Smirnov para duas amostras (designado apenas por teste de Smirnov por
alguns autores).
O primeiro baseia-se nos postos (cf. definição dada em 4.) dos valores
observados da variável em estudo, enquanto que o segundo tem como ponto de
partida a comparação das funções de distribuição empírica das duas amostras.
A importância do teste de Mann-Whitney advém do facto de ser geralmente
considerado como alternativa não-paramétrica ao teste t para a diferença de
médias 1.
4.1.1. Teste de Mann-Whitney
Considerem-se duas amostras independentes
x,, X2 , .. ., Xni de dimensão n1, retirada da população X
;1:.,,,1
l,i;..;;. _____ _ Y, Y2 .. ., Yn2 de dimensão n2 , retirada da população Y
---- - --~------
250
e suponha-se que n1 < n2 .
1 Embora seja necessário admitir hipóteses adicionais, CONOVEA, W.J. (1980). Practical Nonpara·
metric Statistics, 2nd ed., J, Wiley, New York.
; ..
TESTES NÃO·PARAMÉTRJCOS
As hipóteses a testar são:
H0: As duas amostras são provenientes de populações com a mesma
distribuição.
Ha: As duas amostras são provenientes de populações com distribuições
distintas.
Definindo F (x) como sendo a função distribuição da população X e G (x)
como sendo a função distribuição da população Y, estas hipóteses podem ser
reformuladas:
H0 : F(x) = G(x) \f x
Ha: 3 x: F (X) * G (X).
O modo como o teste é construído torna-o especialmente sensível às
diferenças nas medidas de localização, em particular às diferenças nas media-
nas das distribuições. Designe-se então por 81 a mediana da população X e
por 82 a mediana da população Y. Então, podem-se redefinir as hipótesesuma
vez mais:
Ho:81=82
Ha: e, * 82.
Pelo modo como foram colocad:i.s as hipóteses, o teste em causa é bilateral,
mas podem-se também postular hipóteses unilaterais:
H0 : 01 ;,, 02
Ha: 01 < 02
teste unilateral esquerdo, onde a hipótese alternativa é a de que os valores da
primeira população estão tendencialmente abaixo dos da segunda (e portanto
a mediana da primeira é inferior à da segunda)
ou Ho : 0, o> 82
Ha: 01 > 82
teste unilateral direito, onde a hipótese alternativa é a de que os valores da
primeira população estão tendencialmente acima da segunda (e portanto a
mediana daquela é superior à desta).
251
''
" i:
i.1:.1 ;1 i
ESTATÍSTICA APLICADA
252
Considerem-se as variáveis «importância do desígn do automóvel)) , «impor-
tância do poder de arranque do automóvel» e «sexo».
Poder-se-á pensar que, para as mulheres, o design de um carro é mais
importante do que para os homens, enquanto que, para estes, o poder de arran-
que é mais importante do que para aquelas.
Designando por X a importância que as mulheres dão ao design de um carro,
e por Y a importância que os homens dão a esse aspecto do veículo, a primeira
questão pode ser respondida procedendo ao teste que tem como hipóteses:
Ho: Mulheres e homens dão igual importância ao design de um carro
Ha: As mulheres dão mais importância que os homens ao design de um carro
ou seja
Ho: 81 82
Ha: 81 > 82.
A segunda questão pode ser respondida procedendo ao teste que tem com
hipóteses:
H0: Mulheres e homens dão igual importância ao poder de arranque de um
carro
H8 : As mulheres dão menos importância ao poder de arranque que os homens
ou seja, definindo coerentemente X e Y,
Ho:81=02
Ha: 81 < 82 .
•
A estatística de teste baseia-se nos postos das observações.
Tome-se a amostra conjunta, isto é, sem fazer diferenciação entre os dois
grupos, e ordenem-se os valores (mas sem perder o grupo de origem de cada
observação).
Caso não haja empates, a observação de valor mais baixo recebe o posto
1, a segunda mais baixa recebe o posto 2, e assim sucessivamente.
Caso existam empates, ou seja, observações com o mesmo valor, atribua-
-se às observações empatadas o posto médio dos postos que lhes corres-
ponderiam caso tais empates não existissem.
TESTES NÃO-PARAMÊTRICOS
Note-se que o valor mais pequeno que R1 pode assumir é n1 (n1 + l) 0 2
que corresponde ao caso em que as n1 observações da amostra 1 são as
. . , . rr1 (rr1 + 1 )
primeiras, e o mais elevado e 2 + n1 n2 , o que corresponde ao
caso em que as rr1 observações da primeira amostra são as últimas.
u, pode ser interpretado da seguinte forma:
u, é o número de vezes que um valor da primeira amostra precede um
elemento da segunda amostra 1.
Assim, quando se tem, por exemplo a ordenação conjunta ABBAB,
u, = 4 porque: o elemento de A com posto 1 precede os de B com postos 2,
3 e 5 (conta como 3 vezes); o elemento de A com o posto 4 precede apenas
o elemento de B com o posto 5 (conta como uma vez). Assim, o número de
vezes que um elemento da primeira amostra precede um elemento da segunda
é 3 + 1 = 4.
A distribuição exacta destas estatísticas obtém-se partindo do pressuposto
que, sob Ho, todas as ordenações são igualmente prováveis.
1
Embora seja necessário ter cuidado caso haja empate - neste caso, calcular u1 fazendo estas
contagens, pode levar a valores errados da estatística.
253
ESTATÍSTICA APLICADA
Para n1 = 2 e n2 = 3, são possíveis as seguintes ordenações conjuntas:
POSTO
1 2 3 4 5 R1 U1
A A B B B 3 6
A B A B B 4 5
A B B A B 5 4
A B B B A 6 3
B A A B B 5 4
B A B A B 6 3
B A B B A 7 2
B B A A B 7 2
B B A B A 8 1
B B B A A 9 o
onde A indica um elemento da primeira amostra e B um da segunda.
Note-se que o número total de casos é 1 O = ( ~ ) e assim a probabilidade de
ocorrência de cada caso é O, 1. Então, por exemplo,
P [ R1 = 3] = P [ U1 = 6 ) = O, 1
p [ R1 = 5] = P [ U1 = 4) = O, 1 + O, 1. ;= 0,2
porque quer ABBAB como BMBB levam a R1 = 5 e assim sucessivamente. A
função de probabilidade de R1 é, neste caso,
R, 3 4 5 6 7 8 9
t (r1 } 0,1 0,1 0,2 0,2 0,2 0,1 0,1
n1 (n+1) Note-se que l(r1 ) é sempre uma função simétrica em relação a 2
•
Embora não seja aqui demostrado, a função de probabilidade de R1 é
. . . _ n1 (n + 1)
•-------- sempre_s1metnca __ em re@çao a ... _2_~_,_or:iden = n1 + n2.
254
As duas estatísticas, R1 e U1, são equivalentes. Contudo iremos utilizar a
primeira, estando as tabelas da respectiva função distribuição, para diferentes
valores de n1 e n2, em anexo.
TESTES NÃO-PARAMÉTRICOS
Um produto pode ser exposto em dois locais distintos A e B, de um super-
mercado. Pretende-se saber se o local de exposição influencia as vendas, ou não.
Em vários dias o produto foi exposto no local A e noutros, no local 8. Observa-
ram-se as vendas em 4 dos dias de exposição em A e em 5 dos da exposição
em B. Os resultados obtidos foram os seguintes:
Grupo Quantidade vendida Posto
1 10 3
1 12 5
1 15 8
1 16 9
2 6 1
2 9 2
2 11 4
2 14 7
2 13 6
As hipóteses a testar são
H0: As vendas são idênticas quer o produto esteja exposto no local A, quer
no local B.
H8 : As vendas são diferentes, consoante o local onde o produto se encontra
exposto.
Tendo em conta que n1 = 4 e n, = 5 (n1 é a dimensão do menor grupo), o
valor da estatística de teste será
r1 = 3 + 5 + 8 + 9 = 25.
Tomando um a global de 0,05, e tendo em conta que o teste é bilateral, o
quantil de probabilidade 0,025 para estes valores de n1 e n,, q (0,025; 4;5), será
12, sendo q (0,975; 4; 5) = 281, pois o eixo de simetria é 4 x C9 + 1) = 20 .
2
Aregiãodeaceitaçãoé RA = ]12, 28[.
Assim.como 12 < 25 < 28, não se rejeita a hipótese nula, a este nível de
significância, isto é, as vendas são idênticas, quer o produto esteja exposto num
local, quer noutro.
•
1 Note-se que, sendo a distribuição discreta, um quantil de uma certa probabilidade pé o primeiro
valor da variável para o qual a respectiva função de distribuição ultrapassa p.
255
ESTATÍSTfCAAPLICADA
---------P<eva-se-(o-que...saLfara.da_ârnbito deste livro) g,~u"'e'---------····· ············-·-
n1 (n + 1)
'
1
'1 ,,
:1.1
:1·
1
,:1
'li
·.i_._1·1
,,
' !1
'I 1 i.I
11•
itl'
t\:.
µA,= 2
e
A distribuição normal pode ser utilizada como aproximação, preferencial-
mente se as dimensões dos grupos forem grandes:
n1 nz(n + 1)
12
A N(O, 1).
Se os grupos não forem especialmente grandes (5 :<: n1 :<: 20 e 1 O :<: n2 :<:
:<: 20 ou n1 = 3,4 e 12 :<: n2 :<: 20) ainda é possível fazer a aproximação à nor-
mal, aconselhando-se, nesse caso, correcção de continuidade
n1 (n + 1)
'1 ± 0,5 - 2
z = --;::========~
./n1 n2(n+1)
\J 12
[,'.. No caso de um teste bilateral, ou unilateral esquerdo, dever-se-á somar 0,5
fü para efeitos de comparação com o limite inferior da Região de Aceitação. No
i)iii caso de um teste bilateral ou de um unilateral direito, dever-se-á subtrair 0,5
I,;, para efeitos de comparação com o limite superior da Região de Aceitação.
'11 Como já foi referido anteriormente, caso existam empates, é atribuído às
!J:, observações empatadas o posto médio dos postos que lhes corresponderiam
l1J.i se tais empates não existissem. Se os empates forem apenas entre observa-
"''! ções do mesmo grupo, o valor do teste não será afectado. No caso de tais
Jlli!, empates envolverem elementos de grupos diferentes, o valor da estatística de
'''i[i•l-_______ t_e_s"""te-altera-se; o que, mesmo assim, não-·tem-influência-·sobre· a decisão a
[~1:, :11 tomar, se o número de observações empatadas for pequeno. H' 1 l,1] __ '. 1:1 ~~ ,1
'1'11'' J .li i.
:1:11:11
256
TESTES NÃO-PARAMÉTRICOS
Se o númerode observações empatadas for grande, envolver elementos
-·das-(:fuas-amostras, e se esteja em condições de utilizar a aproximação à
distribuição Normal, poder-se-á corrigir a variância de R1, da seguinte forma:
considere-se que g é o número de grupos de observações empatadas e, para
cada um desses grupos, j, ti é o número de observações empatadas. A
variância de R1, corrigida para empates, será então
g
- I
i= 1
Num estudo sobre a avaliação escolar, foram inquiridos 21 estudantes (1 O
homens e 11 mulheres) sobre a importância que atribuem à componente de
avaliação contínua, indicada numa escala de 1 a 1 O. Pretende-se saber se este
aspecto da avaliação é igualmente importante nos dois grupos.
Ho: Homens e mulheres atribuem igual importância à avaliação contínua.
Ha: Homens e mulheres não dão a mesma importância a este aspecto da
avaliação.
Os resultados obtidos foram os seguintes (amostra já ordenada pelo grau de
importância):
Sexo Resp. Posto Sexo Resp. Posto Sexo Resp. Posto Sexo Resp. Posto
M 1 1 F 6 9 M 7 12,5 F 10
M
F
F
M
M
2 2 F 6 9 M 8 14,5 F 10
3 3,5 F 6 9 M 8 14,5 F 10
3 3,5 F 6 9 M 9 17
4 5 F 6 9 M 9 17
5 6 F 7 12,5 M 9 17
nt = 10 (amostra menor)
Rt = 1 + 2 + 5 + 6 + 12,5 + 14,5 + 14,5 + 17 + 17 + 17 = 106,5
g - número de grupos de observações empatadas = 6
ti - número de observações empatadas em cada grupo i
t2 = 5 ts = te = 3.
20
20
20
257
ll
ii ,,
~
;li..
ESTATÍSTICA APLICADA
258
6 t;' - 'i 23 - 2 53 - 5 2
3
- 2
I, + + 12 12 12 12
j= 1
33 - 3 33 - 3
= 15,5.
n 3 - n
12
n (n - 1)
+ 12 +
21 3 - 21
-=--- = 770. 12
12
10 X 11
__:_,;;. __ = 0,2619.
21 X 20
"
2 = 0 2619 X (770 - 15,5) = 197,61.
R, '
10 X 22
106,5 ± 0,5 - 2
z = ---~===o=--~--
"Í 197,61
z=-0,213 v z=-0,285.
-3,5 ± 0,5
14,06
23 - 2
+ 12 +
A Região de aceitação, para um nível de significância global de 5%, conside-
rando o teste bilateral, é ] - 1,96; + 1,96 [.
Sendo negativo 0 valor do teste, e devido à correcção de continuidade, de~e-:e
comparar 0 maior valor obtido com o limite inferior da RA. Assim, d~ver-se-a nao
rejeitar a hipótese nula, ao nível de significância de 5%, o~ se1a. homens -e
mulheres não têm opinião diferente no que concerne a importanc1a da avahaçao
contínua.
As hipóteses poderiam ter sido postuladas de um modo unilateral: _
Ho: Homens e mulheres atribuem igual importância à avaliação continua.
Ha: Os homens dão menos importância que as mulheres à avaliação contínua,
ou seja, considerando que X representa a opinião dos homens (grupo de menor
dimensão) e que y representa a opinião das mulheres,
Ho: 0x = 0y
H8 : 0x < 0y.
Posto desta forma, está-se perante um teste unilateral esquerdo. O ponto
crítico, considerando um a de _Q,Q_!j,_é_(ver tabela da distribu_i9_ão Normal)_ - 1,645.
Assim, dever-se-á não rejeitar a hipótese nula a este nível de s1gn1f~canc1~, ~u
seja, deverá ser idêntica a importância dada por homens e mulheres a avaliaçao
contínua.
•
TESTES NÃO.PARAMÉTRICOS
4.1.2.-·Teste de Kolmogorov-Smirnov para duas amostras
Tal como no teste de Mann-Whitney, o objectivo do teste de Kolmogorov-
-Smirnov consiste em tentar descobrir se duas amostras podem ou não ser
consideradas como provenientes de populações com a mesma distribuição.
Semelhante ao teste K - S para uma amostra, o teste K - S para duas
amostras baseia-se também na noção de função de distribuição empírica (vd.
ponto 2.2 deste capítulo). Enquanto que no primeiro se analisavam as diferen-
ças entre a função distribuição empírica e a função distribuição teórica em
teste, no segundo o objecto de análise é constituído pelas diferenças entre as
funções de distribuição empírica das duas amostras.
Intuitivamente, caso as duas amostras sejam provenientes de populações
com a mesma distribuição, espera-se que os valores de uma e outra apareçam
indiferenciadamente, fazendo com que, em cada ponto, a diferença entre as
funções seja relativamente pequena.
O teste de Kolmogorov-Smirnov para duas amostras é aplicável desde que
a escala de medida seja pelo menos ordinal, embora o teste só seja exacto
caso as variáveis sejam de natureza contínua.
e
Considerem-se então duas amostras independentes
(X1, X2, .. ., Xn1 ) de dimensão n1, retirada da população X
(Y1, Y2, .. ., Yn2) de dimensão n2, retirada da população Y.
As hipóteses a testar são:
H0: As duas amostras são provenientes de populações com a mesma
distribuição.
Ha: As duas amostras são provenientes de populações com distribuições
diferentes.
Definindo como F (x) a função de distribuição de X e G (y) a função de
distribuição de Y, estas hipóteses podem ser colocadas de um modo mais
formal:
H0 : F(v) = G(v) V v
Ha: 3 v: F(v) * G(v).
259
ESTATÍSTICA APLICADA
ou
Este teste pode ainda ser utilizado de modo unilateral:
Ho: F(v) '.':: G(v)\f V
Ha : 3 V: F (V) > G (V)
H0 : F(v) 2' G(v)\fv
Ha: 3v:F(v) < G(v).
No primeiro caso unilateral, a hipótese alternativa exprime a noção intuitiva
de que os valores assumidos por X são tendencialmente inferiores aos assumi-
dos por Y (e por isso a função de distribuição de X cresce «mais lentamente»
que a de Y); no segundo caso unilateral a situação é a inversa: a hipótese
alternativa indica que, para alguns valores de x, F(x) é menor que G (y),
crescendo portanto mais rapidamente, indicando assim a tendência para X
assumir valores superiores a Y.
Sendo, tal como referenciado no ponto 2.2., (Xi: n1, X2: n1, ... , Xn1: n1) e
( Y1 : n2 , Y2 : n2 , ... , Y n2 : n2) as amostras após ordenação, é possível definir
as respectivas funções de distribuição amostrais, Fn, (x) e Gn, (y) que, após
concretização, darão origem às respectivas funções de distribuição empírica,
Sn, (x) e Sj,,(y).
A estatística de teste vai ser construida a partir destas funções de
distribuição amostrais:
T = sup IFn, (v) - Gn, (v) 1
V
no caso bilateral,
y+ = sup(Fn, (V) - Gn2(V))
V
no primeiro caso unilateral,
T- sup(Gn, (v) - Fn1(v))
V
no segundo caso unilateral,
~-----·-·-~ -~___,____~,,,,~- ____ ,,, --+-~'--' -~-~~----.-- ·-~--" -
donde, T = max (T , T-).
TESTES NÃO-PARAMÊTRICOS
A fábrica de mar~~rinas «Natura)• dispõe de duas máquinas de empacota-
mento, A e B, que ut1lrza para produzir pacotes de 250 gr. Embora as máquinas
se1am _da mesma marca e modelo, existem dúvidas quanto ao facto de estarem
a funcronar de modo idêntico.
« Foram rec~lhid.as, de m~do aleatório, duas amostras de pacotes de 250 gr de
Natur~)), a pnme~ra ~roven1ente da máquina A e com 9 elementos e a segunda,
provenrente da maquina B e de dimensão 1 o.
Os resultados obtidos foram os seguintes (após ordenação):
Origem Peso de cada pacote de margarina
Máq.A 245 247 247 249 249 249,5 250 251 251
Máq. B 246,5 248 248 248,5 250 250,5 252 252 252,5 254
Pretende-se saber se as máquinas estão ou não a funcionar de modo idêntico
Seja ·
1) X - peso em gramas de um pacote, dito de 250 gr, de «Natura» empaco-
tado na máquina A. '
Y - peso em gramas de um pacote, dito de 250 gr, de ((Natura)> empaco-
tado na máquina B. '
ii) F (X) - função de distribuição de X.
G (y) - função de distribuição de Y
iii) (X,, X2, ... , Xg) amostra aleatória de dimensão 9, retirada da população x
(Y,, Y2, ... , Y10) amostra aleatória de dimensão 10, retirada da população y
que, após ordenação, se transformam em (X1 . X . x J . 9, 2. 9, ... , 9: 9
e (Y1: 'º' Y,: 'º' ... , Y10: rn)
261
ESTATÍSTICA APLICADA
--------------~t~. -· e saller se-as·máquinas-se-oomportam.de.modo_ --·--~ Dado que o que es a em Jogo
1
'
'1
1.1
1
,l 262
idêntico, ou não, as hipóteses a testar serão:
Ho: F(v) = G(v) V v
H8 :3 v: F(v)* G(v).
Como visto, a estatística de teste será
T = sup IFg (V) - G,o (V) 1
V
e a sua concretização,
t= max1S9 (v) - s;o(v)I.
V
Consultando a tabela referente a este teste em anexo e assumindo um nível
de significância de 5o/o, obtém-se o ponto crítico
26
W0,95; 9; 10 = 45 = 0,58.
Assim, a regra de decisão será:
Rejeitar Ho se t ;e 0,58
Não rejeitar Ho se t < 0,58.
Calcule-se então o valor da estatística de teste
-
V Sg (V) Sfo (v) Sg (v) - Sfo (V)
245 0,11 o.o 0, 11
246,5 0, 11 0, 1 0,01
247 0,33 0,1 0,23
248 0,33 0,3 0,03
248,5 0,33 0,4 -0,07
249 0,56 0,4 0,16
249,5 0,67 0,4 0,27
250 0,78 0,5 0,28
250,5 0,78 0,6 0,18
251 1,00 0,6 0,40
252 1,00
.
· 0;0· -~ -·-- 0,20
252,5 1,00 0,9 0,10
254 1,00 1,0 o
,·
!j
Jl
J!
~;
.]!'
!-:.
"'''
'"
TESTES NÃO-PARAMÉTRICOS
Assim, o valor da estatística de teste é:
t = 0,4
e, portanto, a decisão consiste em não rejeitar a hipótese nula, ao nível de
significância considerado. Consequentemente, não deverão existir diferenças no
empacotamento, entre as duas máquinas.
•
Resta apenas acrescentar que, se as amostras forem grandes (valores não
tabelados de n1 e n2), pode-se utilizar a aproximação que a seguir se indica:
onde r depende do nível de significância assumido. Por exemplo, para um teste
bilateral, e com a= 0,05, o valor de r será 1,36 (vd. Tabela em anexo).
4.2. Teste à igualdade de distribuições
em mais de duas amostras independentes -
- o teste de Kruska/1-Wa/lis
Este teste é usualmente aceite como uma alternativa não-paramétrica à
Análise de variância simples.
Pretende-se verificar se k amostras aleatórias independentes podem ou não
ser consideradas como provenientes de populações com a mesma distribuição.
Assim, as hipóteses podem ser postuladas como:
Ho : As k populações partilham a mesma distribuição.
H8 : Pelo menos uma das populações tem distribuição diferente das res-
tantes, dando origem a valores tendencialmente superiores.
263
TESTES NÃO-PARAMÊTRfCOS
ESTATÍSTICA APLICADA iíi
IH
o modo como o teste é construído torna-o especialmente s.;ns-ív-elà~--·----ti,,___- iffiiffi~~~~~~~~~~hl~~kâlG~&li1i~~cJ~tl~'·B~f: ;··---·--~ ' ---
diferenças de medidas de localização, em especial às diferenças entre as
medianas das k populações. Assim, e em alternativa, as hipóteses são Iam-.
bém por vezes colocadas da seguinte forma:
264
Sendo ei a mediana da j-ésirna população,
Ho : 01 = 02 = = 8k
Ha : 3 i, j: 8; * 0i.
o teste de Kruskall-Wallis é uma generalização, para k > 2 amostras, do
teste de Mann-Whitney, anteriormente apresentado. Tal como este, a estatística
de teste baseia-se nos postos das observações (vd. ponto 4.1.1.) e como tal
a variável em estudo (nos diferentes grupos) terá de ser pelo menos de nível
ordinal.
Suponha-se então a existência de k populações X1, X2, .. , Xk, das quais
foram retiradas k amostras aleatórias:
(X11 , X12, ... , X101 ) da população X1
(X21. X22 ... ·, X2,,, )
(X1<1, X1<2 • ... , xk,, l
da população X2
da população xk
e ainda que existe independência, não só entre os elementos de cada amostra,
como também entre elementos de amostras distintas.
A atribuição de postos às diferentes observações é feita nos mesmos
moldes que no teste de Mann-Whitney:
Ordenem-se as k amostras conjuntamente. A observação de mais baixo
valor tomará o posto 1, a segunda o posto 2 e assim sucessivamente. Caso
existam empates, será atribuído o mesmo posto às observações empatadas.
Este é a média aritmética dos postos que lhes corresponderiam se tais empa-
tes não existissem.
No caso de apenas três grupos, em que o tamanho dos grupos não exceda
5 e não existam empates entre os grupos, os valores de diferentes quantis da
distribuição exacta do teste encontram-se na tabela em anexo. Nas outras
situações, utiliza-se como distribuição aproximada a Qui-quadrado com k- 1
graus de liberdade. Esta distribuição funciona bem, mesmo para amostras
pequenas, embora neste caso tenda a tornar o teste conservativo.
Tendo determinado o quantil apropriado, 11 - a, rejeitar-se-á Ho ao nível de
significância a se o valor calculado da estatística de teste a ele for superior,
isto é,
Rejeita-se H0 se T > 11 _" .
Num estudo efectuado por uma TV privada, uma das questões colocadas foi:
«Concorda que os filmes estrangeiros exibidos na televisão devam ser dobrados
em português?». As respostas foram codificadas de 1 (discordo totalmente) a 10
(concordo totalmente). Os respondentes foram também classificados segundo o
265
ESTATÍSTICA APLICADA
seu nível de escolaridade: 1 = mal sabe ler/escrever, 2 - escôlaridade-básica-e---
3 = escolaridade média ou superior.
Numa pré-amostra de 14 indivíduos, dos quais 4 com o nível de escolaridade
1, e 5 em cada um dos outros dois níveis, obtiveram-se os seguintes resultados:
Níveis de escolaridade
Nível 1 Nível 2 Nível 3
10 6 10
B B 5
9 6 7
10 10 4
1 2
Será possível afirmar que o desejo dos portugueses em terem filmes dobrados
varia com o nível de escolaridade que possuem?
Existem então três grupos de indivíduos, correspondentes aos três níveis de
escolaridade considerados. As hipóteses em teste podem ser:
Ho: As opiniões dos indivíduos sobre a dobragem dos filmes tem a mesma
distribuição qualquer que seja o seu nível de escolaridade.
Ha: Existe pelo menos um dos grupos onde a opinião dos indivíduos é mais
favorável à dobragem dos filmes do que nos restantes grupos.
A estatística de teste será, neste caso,
1 [ 3 R·2
T= S2 .L rt- -
1 = 1
n;
L R(Xq)2 -
j = 1
14 X 15
2
} 4 .
Assumindo-um-nível-de-signiiicância-a .. =--0,05,_e_cpmQ.JJ1 = 4
e "2 = n3 = 5, mas existindo empates entre os grupos, utiliza-se a distribuição
2
X(2J·
Assim, tem-se RC = [ 5,99; + = [ e RA = [O; 5,99 [ .
TESTES NA.O-PARAMÉTRICOS
:-:.1
'---------Calcule-se agora o valor do teste:
Grupo 1 Gru lf1 2 Grupo 3
Valor Posto Valor Posto Valor Posto
10 12,5 6 5,5 10 12,5
B B,5 B B,5 5 4
9 10 6 5,5 7 7
10 12,5 10 12,5 4 3
1 1 2 2
1 n; R; 4 43,5 5 33,0 5 28,5
s 2 = 17,04 t = 3,86.
Como t= 3,86 < 5,99, então t E RA, isto é, não se rejeita a hipótese nula.
Não há evidência estatística que permita concluir que a opinião dos indivíduos
sobre a dobragem de filmes seja influenciada pelo seu nível de instrução.
•
Suponha-se agora que o caso anterior (exemplo 16) correspondia a uma fase
preliminar do inquérito, e que, entretanto, mais respostas foram recolhidas. Adi-
cionando os novos casos aos anteriormente já obtidos, a amostra agora em
análise é (indica-se já o posto determinado para cada elemento) a seguinte:
Gru'o 1 Gru[){) 2 Grupo 3
Valor Posto Valor Posto Valor Posto
10 26 6 15,5 10 26
B 19 B 19 5 13
9 22 6 15,5 7 17
10 26 10 26 4 10,5
10 26 1 1,5 2 4,5
9 22 2 4,5 1 1,5
9 22 5 13 2 4,5
B 19 5 13 3 B
3 B 3 B
4 10,5 2 4,5
267
ESTATÍSTICA APLICADA
268
As hipóteses a testar são as mesmas, ou seja:
Ho: As opiniões dos indivíduos sobre a dobragem dos filmes tem a mesma
distribuição, qualquer que seja o seu nível de escolaridade;
Ha: Existe pelo menos um dos grupos onde a opinião dos indivíduos é mais
favorável à dobragem dos filmes do que nos restantes grupos.
A estatística de teste, neste caso, é
l 3 R2 1 . T = S2 _L ---/;: -1 = 1
n,
L_ R(Xij) 2 -
j = 1
Ter-se-á de utilizar agora a aproximação pela distribuição do Oui-quadrado.
Assim, o ponto critico será, para um a de 0,05,
x:f.ogs = 5,99
e RC = [ 5,99; + = l RA = [O; 5,99 [
Calcula-se facilmente
R2 = 126,5
donde t = 12,05.
Assim te AC e dever-se-á rejeitar H0 . Assim, a opinião dos indivíduos sobre
a dobragem ounão dos filmes estrangeiros é influenciada pelo seu nível de
escolaridade.
•
TESTES NÃO·PARAMÊTRICOS
Este· procedimento corresponde a efectuar ( ~) testes cujas hipóteses po-
dem ser postas, genericamente, para um certo par de grupos (i, j), i * j,
como:
H0 : A distribuição na população i é idêntica à distribuição na população j,
Ha : A distribuição na população i é diferente da distribuição na população j,
ou ainda, assumindo mais uma vez que Br é a mediana da população r,
H0 : 0i = 0i
Ha: 8; * 8i.
Para se conseguir um nível global de significância de a poder-se-á utilizar
a regra de decisão que a seguir se apresenta.
Continuando o exemplo anterior, viu-se que, naquele caso, a hipótese nula era
rejeitada, isto é, tinha-se chegado à conclusão que a opinião sobre a dobragem
dos filmes estrangeiros dependia do nível de escolaridade dos indivíduos. Para
tentar saber quais os grupos que diferem (e em que sentido) é necessário calcular
as diferenças J Ri/ ni - Rj I nji para todos os pares (i, i).
269
ESTAT{STICA APLICADA
,, r~;
,', -----------
~!
270
t (n- k; 1-a/2) = t (25; 0,975) = 2.o5 ;
como 5 2 = 66,76 e T = 12,05, as comparações possíveis são
Comparação IR;ln; - RJnil Valor crítico
1com2 10,1 6,18
1com3 13,0 6,18
2 com 3 2,9 5,82
Note-se que o ponto crítico, para cada comparação, depende da dimensão
das amostras em jogo. Assim, nos dois primeiros casos, uma das amostras tem
dimensão 8 e a outra 1 O, sendo o ponto crítico igual nos dois casos.
A um nível de significância global de 5% pode-se concluir que o grupo 1 difere
não só do 2 como também do 3, enquanto que os grupos 2 e 3 não diferem entre
si. Inserindo no contexto, os indivíduos com escolaridade mais baixa dão mais
importância à dobragem dos filmes para português do que os restantes (esse
grupo apresenta o maior score global). A diferença de scores globais entre os
indivíduos com escolaridade básica e os com escolaridade média ou superior não
pode ser considerada como estatisticamente significativa, assumindo-se assim
que têm posições semelhantes em reiação a este assunto.
•
Comparações entre duas
amostras emparelhadas
li
~
, Quando um mesmo indivíduo é exposto a duas situações diferentes, ou
<d' li sujeito a dois tratamentos sequenciais com o mesmo objectivo, ou quando
t1: indivíduos o mais possível idênticos são sujeitos a estímulos diferentes (por
,~· exemplo, estudo da influência do meio social através de gémeos), obtêm-se o
11:
que usualmente se designa por amostras emparelhadas. Vejam-se alguns
exemplos:
Caso 1: Pretende-se estudar o efeito de um debate eleitoral entre o partido
do governo e o maior partido da oposição na opinião política do eleitorado.
Para tal pediu-se a um grupo de indivíduos que expressassem a sua preferên-
cia entre os dois partidos, antes e depois do referido debate. A amostra assim
obtida é emparelhada: consiste em pares de preferências, um par para cada
indivíduo entrevistado.
Caso 2: Uma empresa de pratos pré-cozinhados costuma preparar o seu
"Bacalhau à Braz,, segundo uma receita que utiliza há já vários anos. Pensa
que se passar a adicionar menos sal, o seu prato passará a ser mais apreciado.
Para tal escolheu um painel de consumidores, aos quais entregou dois pratos,
um deles confeccionado com a receita tradicional, o outro com a nova, pedin-
do-lhes que ordenassem as suas preferências. Obteve assim uma amostra,
onde (1,2) significa que a pessoa preferiu o primeiro ao segundo, e (2, 1) o
inverso - este é ainda o caso de uma amostra emparelhada.
Caso 3: Pretende-se estudar o efeito no consumo de gasolina, de um novo
lubrificante para automóveis. Assim, tomaram-se um conjunto de veículos, com
os respectivos condutores, fazendo-os realizar um dado percurso duas vezes:
da primeira com o carro lubrificado tradicionalmente, da segunda com o novo
lubrificante. Mantendo-se o mesmo percurso e os mesmos automóveis com os
mesmos condutores, a única diferença reside no lubrificante - obtém-se uma
amostra emparelhada de consumos.
271
1
L
-'''!,
ESTATiSTJCA APLICADA
Em qualquer destes exemplos, não existe independência entre as duas
amostras obtidas, não se podendo assim recorrer aos testes já apresentados
para duas amostras independentes.
Consoante o tipo de variáveis em estudo e o objectivo que se pretende
atingir, o teste a aplicar varia. Neste ponto ir-se-ão abordar três testes comum-
mente aplicados neste contexto: o teste de McNemar (ou de mudança de
opinião) - que poderia ser aplicado ao primeiro caso - o teste do sinal,
enquadrável no segundo caso, e o teste de Wilcoxon, aplicável ao terceiro caso
apresentado.
5. 1. Teste de McNemar ou de mudança de opinião
272
Este teste é aplicável a situações em que é possível definir duas situações,
designadas por antes e depois, em que cada indivíduo é avaliado ou inquirido
em dois momentos temporais separados por um determinado acontecimento
e onde essa avaliação dos indivíduos é feita utilizando uma variável dicotómica.
É o caso já citado em que a preferência dos indivíduos entre o partido do
governo e o da oposição é avaliada antes e depois de um importante debate
eleitoral. É ainda o caso do estudo da acção de um medicamento, em que um
grupo de indivíduos é avaliado após a toma de placebo, e após a toma do
medicamento em estudo.
Assumindo que X representa a classificação de um indivíduo no primeiro
momento e Y a sua classificação no segundo momento, e que estas classifi-
cações são dicotómicas, podendo por isso ser codificadas em O e 1, cada par
de observações só pode ser (0,0), (O, 1 ), (1,0) e (1, 1 ), onde o 2º e 3º casos
correspondem a situações de «mudança de classificação», que são as que se
pretende analisar.
Pretende-se saber se o acontecimento que medeia os dois momentos de
avaliação influencia ou não o comportamento dos indivíduos. Se não influen-
ciar, espera-se que o número de indivíduos cuja classificação se altera num
sentido seja estatisticamente igual ao número de indivíduos cuja classificação
se altera· no outro sentido. Assim, as hipéJteses podem ser colocadas como:
Ho: P [X; = O, Y; = 1 ] = P [X; = 1; Y; = O], li i
Ha: P[X; =O, Y; = 1] * P[X; = 1; Y; =O], para algum i.
,.
'
T-·
TESTES NÃO·PARAMÉTR/COS
. A organização do teste passa pela construção de uma tabela de contingên-
cia 2. x 2 onde numa das marginais estão as classificações poss1ve1s no
pnme1ro momento de avaliação, e na outra, as classificações do segundo
momento:
~s Y=O y = 1
s
X=O A B
X = 1 e D
~nde, por e_xe':'.'plo, A representa o número de indivíduos na amostra que
tiveram aval1açao O antes e depois do acontecimento em análise (ou seja nos
dois momentos de avaliação).
Concretizando para os exemplos introduzidos:
- no pr_imeiro, A representa o número de indivíduos que, quer antes quer
depois do debate, preferem o partido do governo;
- no s~g.undo, se. o O representar que o doente não melhorou, e 1 o
contrario, A sera o número de doentes que não melhoraram nem após
a toma de placebo, nem após a toma do medicamento em estudo.
Os restantes valores, 8, C e D podem ser interpretados de modo similar.
273
ESTATÍSTICA APLICADA
--------cimsidere~se-n = BTe-e-ix-o-nivel-de-significância-(aproximado)-que ·se
deseja. A escolha do teste e a respectiva regra de decisão associada podem
ser resumidas do modo que se segue:
274
Se n ,; 20:
A estatística de teste a utilizar é T2 =. 8.
A distribuição desta estatística, sob H0, é a de uma binomial com
parâmetros n = 8 + C e p = 0,5.
Seja a1 o valor mais próximo de a/2 tal que P[T2 ,; I] = a1.
Rejeita-se Ho ao nível a' = 2a1 se T2 ,; t ou T2 2'. n - t.
Caso contrário, não se rejeita Ho ao nível a'.
Sen>20:
O teste a utilizaré T1 =
(8 - C) 2
8 + C
Pode-se utilizar a correcção de continuidade Ti = (18-Cl-1)
2
8+C
A distribuição desta estatística é aproximada à de Oui-quadrado
com 1 grau de liberdade. Sendo to quantil de probabilidade 1 - a
da distribuição referida, rejeita-se H0 ao nível a se T1 2'. t
(ou T{ ;,, t, se se utiliza a correcção de continuidade). Caso contrário,
não se rejeita H0 .
Retomando o exemplo que tem vindo a ser seguido, suponha-se que 55
indivíduos foram inquiridos no âmbito de um estudo encomendado por um jornal
diário de grande circulação, sobre as suas preferências entre o partido que está
no governo e o maior partido da oposição, antes e depois de um importante
debate televisivo entre os respectivos líderes.
TESTES NÃO-PARAMÉTRICOS
Os resultados encontram-se sumariados no quadro seguinte:
~ Prefere s
Governo Oposiçáo
Prefere Governo 20 12
Oposição 8 15
Apenas 12 + 8 = 20 indivíduos mudaram de opinião após o debate. Será
que se pode admitir que o número de mudanças
Governo ---t oposição
Oposição --> governo
são estatisticamente iguais, levando a concluir que o debate não alterou substan-
cialmente o quadro político?
As hipóteses em teste são:
Ho: P (governo --> oposição) = P (oposição--> governo)
Ha: P (governo --> oposição) o; P (oposição --> governo)
ou seja, definindo
X = O se o indivíduo prefere o partido que está no governo, antes do debate
X = 1 se o indivíduo prefere o partido da oposição, antes do debate
e de igual forma, Y = O e Y = 1, para as posições após o debate,
Ho:P(X; =O; Y; = 1) = P(X; = 1; Y; = O)Vi
Ha:P(X; =O; Y; = 1) o; P(X; = 1; Y; =O) para algum i
Dado que o número de mudanças de opinião, B + C, é 20, utilizar-se-á a
segunda estatística de teste, T2 = B que, sob H0 , segue distribuição binomial
com n = 20 e p = 0,5.
Suponha-se que o nível de significância desejado ronde os .5o/o.
Consultando a tabela da binomial em questão, verifica-se que
p [ b (20; 0,5) $ 5 1 = 0,0207
p [ b (20; 0,5) $ 6 1 = 0,0577
donde t = 5 porque é o valor que dá origem a probabilidade mais próxima de
0,025 = a/2. A decisão será não rejeitar Ho dado que T2 = 12 > 5 e
T2 = 12 < 15, isto é o debate televisivo não deverá ter influenciado a opinião
dos leitores.
275
l
'
~ i
:!
li
:1
ESTATÍSTICA APLICADA
276
O nível designiflcãi'iCiamal-será-então-2a1-=-2-x-O,OWZ = _Q,OAtL ___ _
Simultaneamente, um outro jornal, um semanário de grande tiragem, tinha
encomendado o mesmo estudo a uma outra empresa de estudos de mercado.
Esta tinha inquirido igualmente 55 indivíduos, mas as suas respostas tinham sido:
~ Prefere Antes
Governo Oposição
Prefere Governo 10 22
Oposição 10 13
O que concluiu esta outra empresa?
Neste caso, onde n = B + C = 22 + 1 O = 32, opta-se pela estatística
2
T1 11 X (1) •
As hipóteses a colocar são idênticas ao anteriormente apresentado:
Ho: P(X;= O;Y;= 1) = P(X;= 1; Y;= O) Vi
H
8
: P(X; =O; Y; = 1);, P(X; = 1; Y; =O) para algum i
e a estatística de teste é
(B - C) 2 0 2
r1 = 8 + e n xc1)
Assumindo um nível de significância de 5°/o, tem-se, após a consulta da tabela
do Qui-quadrado,
RC = [ 3,84; + ~ [ RA = [O; 3,84 [
O valor do teste é T1 = (22 - 10)2 /34 = 4,2 E RC.
Assim, esta outra empresa de estudos de mercado é conduzida à rejeição da
hipótese nula, ao nível de significância de 0,05, ou seja, chega à conclusão que
o debate televisivo influenciou a posição dos indivíduos perante os partidos consi-
derados. Como o número de mudanças governo ~ oposição é maior do que o
-·íiumerô-de· mudanças oposição---;--governo, e,-dado o resultado do teste, esta
diferença é significativa, então pode-se também concluir que o partido que está
no governo «perdeu terreno)) após o debate.
•
!
' i.
l'
!
'
TESTES NAO·PARAMÉTRICOS
5.2. Teste do sinal
O teste do sinal é o teste não-paramétrico mais antigo de que há conheci-
mento, tendo as suas origens no século XVIII.
Utiliza-se em situações em que se pretende testar se uma das variáveis de
um par (X, Y) tende ou não a ser superior à outra.
Em cada par (X;, Y;) é feita uma comparação, e o par é classificado como
«+» se X; é preferido a Y;
((-)) se X; é preterido a Y;
o se X; e Y; são indiferentes (caso de empate).
. Definindo ~(+)como a probabilidade de obter um par«+» e p H de modo
s1m1lar, as h1poteses deste teste podem ser postas como:
Ho: P(+) = P(-)
Ha: P(+);, P(-).
As hipóteses podem também ser postuladas de um modo unilateral. Assim,
se se pretender tomar como alternativa que X tende a ser preferido a Y, será:
Ho: P(+) 5 P(-)
Ha: P(+) > P(-).
s.e _se pretender tomar como alternativa que X tende a ser preterido a
as h1poteses serão: Y,
Ho: P(+) ;o: P(-)
H8 : P(+) < P(-).
277
ESTATÍSTICA APLICADA
Caso n seja superior a 20, pode-se utilizar a aproximação
binomial dada pela Normal. Dado que p = 0,5, tem-se que
n n
E[T] = 2 e Var[T] = 4
e consequentemente,
A N (0,1).
à distribuição
Assim, rejeitar-se-á Ho ao nível de significância o: se T, " z, -u/2 ou
T, s - z
1
_a ,z onde z
1
_a 12 é o quantil de probabilidade 1 - u/2 de uma
distribuição normal-padrão.
A adaptação ao caso unilateral dada é evidente:
- Se o teste for unilateral direito (Ha: P (+) > P (-)) então rejeita-se Ho se
T1~Z1-«;
- Se o teste for unilateral esquerdo (H8 : P (+) < P (-)) então rejeita-se
Ho seT, s z1-a·
Caso n seja inferior ou igual a 20, a construção da regra de decisão é como
a apresentada no teste de McNemar, caso o teste seja bilateral, e que a seguir
se descreve:
Seja u
0
nível de significância desejado. Consulte-se a tabela da binomial
com p = 0,5 e n, número de casos sem empates, e tome-se o valor w,,
tabelado, tal que P [T S w,] = a, = a/2.
O nível de significância real será 2a1 = a.
Rejeite-se Ho ao nível 2a1 se T s w1 ou T ;:, n - w,; caso contrário,
não se rejeite H0 .
Se o teste for unilateral direito (Ha: P (+) > P (-)), seja w, tal que
p [-T s--w
1
) = .u
1
=· a. O nível.de. sjgnilicância real é a, e rejeita-se Ho a esse
nível se T;:, n - w1.
Se o teste for unilateral esquerdo (Ha: P (+) < P (-)),determinando w, nas
mesmas condições, rejeita-se H0 caso T S w,.
,,,
TESTES NÃO-PARAMÉTRICOS
Uma empresa de pratos pré-cozinhados costuma preparar o seu «Bacalhau
à Braz» segundo uma receita que utiliza há já vários anos. Pensa que, se passar
a adicionar menos sal, o seu prato passará a ser mais apreciado. Para tal
escolheu um grupo de 30 agregados familiares, aleatoriamente determinados, aos
quais entregou dois pratos, um deles confeccionado com a receita tradicional, o
outro com a nova, pedindo-lhes que ordenassem as suas preferências.
Os resultados obtidos, já tratados, foram os seguintes:
Número de casos em que a receita original foi preferida 8
Número de casos em que a receita original foi preterida 15
Número de empates 7
As hipóteses a testar são:
Ha: Não existe diferença entre a preferência pela receita tradicional e a nova,
com menos saf,
Ha: A receita tradicional é considerada menos agradável que a nova, com
menos sal;
ou seja, Ho: P (+) ;, P (-)
Ha: P (+) < P (-).
Neste caso, n = 8 + 15 = 23 > 20.
O número de casos sem empates é superior a 20, pelo que se utiliza a
aproximação à Normal.
O teste é unilateral esquerdo e, tomando a = 0,05, tem-se - z1 _ ª = -1,645.
O valor da estatística de teste é
T - _!!_ 8 - 23
T,
2 2
{fJ {23 = -1,46.
2 2
Como -1,46 > - 1 ,645, não se rejeita Ho a este nivel de significância isto é
' '
neste contexto, não existe evidência estatística suficiente que permita afirmar que
a receita com menos sal agradou mais.
•
279
TESTES NÃO-PARAMÉTRICOS
ESTATÍSTICA APLICADA
---------Ili<'~';._º-- De seguida, e de um modo similar ao utilizado nos testes acima referidos
atribui-se a cada diferença o- um posto R, d d • 5.3. Teste de Wilcoxon
O teste abordado no ponto anterior (teste do sinal) leva à perda de bastante
informação se as variáveis em estudo, mesmo sendo apenas ordinais, assu-
mirem um leque variado de valores.
De facto, no teste do sinal são apenas contabilizados os casos em que uma
variável assume valores inferiores, iguais ou superiores à outra, não se toman-
do em consideração a intensidade dessas diferenças.
O teste de Wilcoxon, baseado na noção de posto, tal como os já abordados
testes de Mann-Whitney e de Kruskal-Wallis, permite incorporar a amplitude
das diferenças existentes entre as duas variáveis, X e Y, em estudo.
Suponha-se então a existência de uma amostra emparelhada de observa-
ções, (X;, Y; ), do par (X, Y),
(X1, Y1) (X2, Y2) (X3, Y3) ... (Xn1, Ynü
que constitui uma amostra aleatória bivariada e onde X e Y são, pelo menos
teoricamente, variáveis contínuas.
As hipóteses subjacentes ao teste de Wilcoxon podem ser postuladas da
seguinte forma 1:
Ho:E[X] = E[Y]
Ha: E[X] * E[Y]
caso os respectivos valores esperados existam, e visto supor-se de uma
amostra aleatória bivariada; se não, as hipóteses podem apenas ser postuladas
em termos das medianas de X e de Y.
Este teste pode assim ser encarado como uma alternativa não-paramétrica
ao teste t para a diferença de médias em amostras emparelhadas.
Para construir a estatística de teste respectiva é necessário passar, em
primeiro lugar, para a amostra de diferenças
D; = ( Y; - X;) i = 1, .. ., n1
e retirar da análise todos os pares com diferença nula, isto é, passar para a
·amostra deaiterença:s-(Of,--o:r,--;;:~-en)--onde--0;--*- O e onde n s n1, eviden-
temente.
1 As hipóteses podem também ser postuladas de modo unilateral.
i::
" 1:•
1 ; e acor o com o seu valor
absoluto: assim, .ªº par com 1 O; 1 mais baixo será atribuído o posto 1, ao
segund~ mais ~a1xo, o posto 2, e assim sucessivamente. Caso existam empa-
tes, sera atribu1do a cada observação empatada o posto médio dos que lhes
caberiam ~aso tais empates não existissem (vd., por exemplo o ponto 4 1
deste capitulo). ' · ·
Finalmente o posto co · 1 R b ' m sina ' ;. ase da construção da estatística de
teste, é obtido para cada par (X;. Y;) com D; * O da seguinte forma:
D·
."l; = W Rf.
Note-se que D;llD; 1 = 1 se a diferença (Y; - X;) for positiva, e será -1
se tal diferença for negativa.
Caso não existam empates é possível determinar a distribuição exacta da
-+---·estatística de teste T+ = L R; ' alternativa a T para este caso.
D;>O
281
ESTATÍSTICA APLICADA
282
filo entanto~optou=se-aqui-pela-aproximaçãe-sistemática-à-distribuição_Nor=---E-
mal (que é sempre válida caso haja empates ou o número de pares em análise
seja grande}. Tem-se assim que, sob Ho,
L R;
T- --r===-
- 'Í2, Rf
o
n N(0,1)
e a regra de decisão é a usual nestes casos, tomando em atenção se o teste
é bilateral ou unilateral.
Tome-se atenção ao modo como D; é construído: D; = Y; - X;.
Regra de decisão:
i) Teste bilateral
Ho: E(Y) = E(X)
Ha:E(Y) * E(X).
Seja a o nível de significância desejado e z1 _a 12 o quantil
de probabilidade 1 - a/2 de uma normal-padrão.
Rejeite-se Ho ao nível a se T > z1 _a 12 ou T < - Z1 _a 12 ·
ii) Teste unilateral direito
Ho: E(Y) ,; E(X)
Ha:E(Y) > E(X)
Seja a o nível de significância desejado e z1 _a o quantil
de probabilidade 1 - a de uma normal-padrão. Então:
Rejeite-se Ho ao nível de significância a se T > z1 _a·
ííi) Teste unilateral esquerdo
Ho:E(Y) ~ E(X)
Ha: E(Y) < E(X)
Seja a o nível de signilicância_de_sJ)jªdo_E)_?a o quantil de probabilidade
a de uma normal-padrão. Então:
Rejeite-se Ho ao nível de significância se T < Za .
TESTES NÃO-PARAMÉTRICOS
São distribuídos a cada um de 30 agregados familiares aleatoriamente esco-
lhidos duas embalagens de «Bacalhau à Braz>), uma fabricada segundo a receita
tradicional, e outra segundo a nova receita, com menos sal. Pediu-se que classi-
ficassem cada uma das respectivas receitas numa escala de o a 10 (os inquiridos
não tinham conhecimento das diferenças entre as embalagens). Os pares de
resultados (X;, Y;) obtidos foram os seguintes:
(8; 7) (9; 7) (5; 3,5) (4; 2,5)
(3; 7,5) (3,5; 7,5) (4; 9,5) (5; 10)
(7; 10) (7; 10) (7; 7) (5; 5)
(6; 1) (9; 5) (7; 6,5) (2; 6)
(6; 9,5) (6,5; 7,5) (7; 7,5) (7,5; 10)
(8; 8) (5; 5) (6,5; 6,5) (4; 4)
com Xi - classificação segundo a receita tradicional
Yi - classificação segundo a nova receita.
As hipóteses em teste são:
(10; 7,5)
(5,5; 9)
(4; 4)
(2,5; 5)
(7; 10)
(8; 8)
Ha: a classificação média do «Bacalhau à Braz» segundo a receita tradicional
é pelo menos igual à classificação média do prato com a nova receita;
Ha: a classificação média do «Bacalhau à Braz» da nova receita é melhor que
a da receita tradicional,
ou seja
Ho: E(Y),; E(X)
Ha: E(Y) > E(X).
A tabela que se segue inclui já, para além das classificações obtidas nos dois
pratos para cada uma das 30 famílias, a diferença de classificação obtida (O;) e
o respectivo posto com sinal.
283
ESTATÍSTICA APLICADA
Tradicional Nova
(X;) (Y;)
8 7
7 10
9 7
2 6
5 5
2,5 5
3 7,5
6 6
5 3,5
3,5 7,5
4 2,5
4 9,5
5 10
8 8
5,5 9
10 7,5
6 1
9 5
1 1
6 9,5
6,5 7,5
7 7,5
7 10
3 3
5 5
7 6,5
7,5 10
7,5 10
-·-··---·----- . 10 ... ·10
7 10
284
Dr= Yi- X;
-1
3
-2
4
o
2,5
4,5
o
-1,5
4
-1,5
5,5
5
o
4,5
-2,5
-5
-4
o
3,5
1
0,5
3
o
o
-0,5
2,5
2,5
- ---- -- -· ....
- 0---
3
R;
-3,5
13
-7
17
n.a.
9,5
19,5
n.a.
-5,5
17
-5,5
23
21,5
n.a.
19,5
-9,5
-21,5
-17
n.a.
15
3,5
1,5
13
n.a.
n.a.
-1,5
9,5
9,5
n.a.
13
TESTES NÃO-PARAMÉTRICOS
-70 + 203
~ 4183,5 = 2,06.
Sendo o teste unilateral e RCU direitos, rejeita·se a hipótese nula, com um
nível de significância de 0,05, se T > Zo,95 = 1,645.
Como T = 2,06 > 1,645, então rejeita·se H0 , ou seja, a nova receita deve
obter maior aceitação junto dos consumidores.
Note-se que a conclusão foi contrária à obtida com o teste do sinal: de facto,
a situação era igual, em termos do número de famílias que preferiam uma ou o
outra receita. Só que, dado que o teste de Wilcoxon engloba igualmente a ampli·
tude das diferenças, torna-se muito mais «rico)> em termos da informação consi-
derada (vd. exemplo 19).
•
285
Exercícios propostos
286
1. o recenseamento de 320 famílias com 5 filhos conduziu aos seguintes resul-
tados:
Rapazes 5 4 3 2 1 o
Familias 18 56 110 88 40 8
Verifique se estes resultados são compatíveis com a hipótese do número de
rapazes numa família de 5 filhos ser uma variável aleatória ~o~ ~ist~ibuição
binomial, admitindo a equiprobabilidade dos sexos, ao nível de s1grnficanc1a 0,01.
R:Sim.
2. uma empresa vende cilindros de gás comprimido em caixas de 20 cilindros.
Ocasionalmente, um cilindro pode ser defeituoso, isto é, ter pressão demasiado baixa.
o responsável pelo controlo de qualidade da empresa garante que o numero
de cilindros defeituosos por caixa é muito baixo e que a probabilidade de se
encontrar numa caixa um cilindro defeituoso é de 0,05.
Teste a afirmação do responsável (com a ~ 0,05), sabendo que foram esco-
lhidas de forma aleatória 1 oo caixas cujos resultados foram os seguintes:
Nº de cilindros o 1 2 3 4 5 6 ou+
defeituosos por caixa
N11 de caixas 39 34 20 4 1 2 o
observadas
R: O responsável deve ter razão.3. A loja .. vende Muito» tem verificado nos últimos anos que 35º/o dos seus
clientes pagam as suas compras com cheque, 48º/o com cartão de crédito ~
apenas 17o/o fazem pagamentos em dinheiro. Uma amostra de 200 vendas reali-
zadas na semana anterior ao Natal revelou os seguintes resultados:
Cheque Cartão Dinheiro
Nº de vendas 47 116 37
será que o tipo de pagamento qu-e os-élieiites da «Vende Muito" utilizam na
época natalícia é concordante com a informação que a loja tem?
R: o tipo de pagamento na época natalícia deve ser distinto do habitual.
TESTES NÃO-PARAMÉTRICOS
,;:
·;,
---t!"'----4.---Uma--empresa fornece-ampolas de vidro a diversas empresas farmacêuticas,
em caixas de 100 ampolas cada.
'·"··
As empresas clientes têm-se queixado ultimamente da deficiente qualidade
das referidas ampolas e têm vindo a devolver caixas em que detectam pelo menos
uma ampola defeituosa.
O responsável pelo controlo de qualidade julga não haver razões para proce-
dimento: assegura que é baixa a percentagem de ampolas defeituosas e que o
número de ampolas defeituosas por caixa segue uma distribuição aproximada de
Poisson com média !.. = 0, 1.
Sabendo que foi obtida uma amostra de 200 caixas que forneceu os resulta-
dos:
Nº de ampolas defeituosas o 1 2 3 4 5 ou mais
Nº de caixas 80 75 35 8 1 1
a) O que concluiria em face da hipótese avançada pelo responsável da quali-
dade? Utilize um nível de significância de 0,05.
b) Explique claramente, a escolha da(s) aba(s) do teste que utilizou.
R: a) O responsável pelo controlo de qualidade deve ter razão.
5. Num estudo de mercado sobre a audiência dos jornais semanais foram inqui-
ridos 1000 leitores de ambos os sexos sobre o semanário que compram preferen-
cialmente, tendo-se encontrado os seguintes resultados:
~ Se Expresso Semanário Independente
Feminino 150 50 150
Masculino 350 200 100
a) Será de admitir que a preferência pelos vários semanários é influenciada
pelo sexo dos leitores? (Admita um nível de significância de 5%).
b) Explique, clara e sucintamente, a escolha da(s) aba(s) do teste que efec-
tuou.
R: a) Sim.
6. O responsável por uma cadeia de supermercados de uma empresa do ramo
alimentar deseja lançar uma nova embalagem para um dos seus produtos pere-
cíveis, sendo expectável que o tempo de conservação (em dias) venha a ser
superior.
Para tal decidiu testar o protótipo da nova embalagem, recolhendo duas
amostras de 6 elementos cada, tendo obtido os seguintes resultados:
287
ESTATÍSTICA APLICADA
288
.
Tipo de embalagem Dias de conservação
Nova embalagem 10 7 5 9 9 10
Embalagem actua/ 8 6 3 4 6 3
Qual a decisão que a empresa deve tomar? (utilize um nível de significância
de 1%)
R: A empresa deverá optar pela nova embalagem.
7. O responsável por uma cadeia de franchising pretende avaliar a performance
de três dos seus franchisados.
Para tal, recolheu o volume de vendas em contos e em seis dias aleatoria-
mente seleccionados, tendo obtido os seguintes resultados:
Loja 1 15 10 16 13 10 15
Loja 2 10 12 11 10 9 13
Loja 3 7 7 8 7 10 6
O que poderá o responsável concluir, ao nível de significância de 5°/o?
R: As lojas não têm performances idênticas, su·speitando-se ainda que a loja
3 é a que apresenta a performance mais fraca.
8. Um laboratório farmacêutico pretende testar um novo medicamento que se
pensa vir a atenuar os sintomas de privação alcoólica, nomeadamente os tremo-
res, em doentes com intenções de desintoxicação.
O novo medicamento toi aplicado a 25 alcoólicos, tendo-se avaliado os sinto-
mas destes doentes em dois momentos distintos: antes e após o período de
medicação. Os resultados obtidos foram os seguintes:
~s Com Sem
s tremores tremores
Com tremores 5 17
Sem tremores o 3
....
Que poderá concluir ao nível de significância de 5%?
R: O novo medicamento influencia a existência de tremores (diminui).
Apêndice
Tabelas de distribuição
OISTR/BUICÃO BINOMIAL
DISTRIBUIÇÃO BINOMIAL
,,
.. VALORES DA FUNÇÃO DE PROBABILIDADE
"' •.
...
íi
K
B
p
\\, n X 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5
·:!
'!
~: o 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000 1 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000 ,.
!i 2 o 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
• 1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
l 2
0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0, 1225 0,1600 0,2025 0,2500
r 3 o 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
!;<' 1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 l),3750 I'
jl!i 2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750 3 0,0001 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
•1•
1!1 4 o 0,8145 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
li! .. 1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
l" ' ! ~ 2 0,0135 0,0486 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750
~:i 3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 o, 1115 0,1536 0,2005 0,2500 n::_
"
4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625
~~ 0,3277 0,2373 0,1681 O, 1160 o,on0 0,0503 0,0312 E·· 5 o o,n38 0,5905 0,4437
t 1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3601 0,3124 0,2592 0,2059 0,1563
., 2 0,0214 0,0729 0,1382 0,2046 0,2637 0,3087 0,3364 0,3456 0,3369 0,3125
~ 3 0,0011 0,0081 0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
• 4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0283 0,0488 0,0768 0,1128 0,1563 i'.
F 5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0312
~;:·: 6 o 0,7351 0,5314 0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
i!'"'
. ·1 ·0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
iii: 2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
m 3 0,0021 0,0146 0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125 i1:I 4 0,0001 0,0012 0,0055 0,0154 0,0330 0,0595 0,0951 0,1382 0,1861 0,2344
~H
!Li 5 0,0000 0,0001 0,0004 0,0015 0,0044 0,0102 0,0205 0,0369 0,0609 0,0938 ~-;
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156 ~
~\
~- 7 o 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
'
1 0,2573 0,3720 0,3960 0,3670 0,3115 0,2471 0,1848 0,1306 0,0872 0,0547
.;,... 2 0,0406 0,1240 0,2097 0,2753 0,3115 0,3177 0,2985 0,2613 0,2140 0,1641
3 0,0036 0,0230 0,0617 0,1147 0,1730 0,2269 0,2679 0,2903 0,2918 0,2734
4 0,0002 0,0026 0,0109 0,0287 o,o5n 0,0972 0,1442 0,1935 0,2388 0,2734
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 o,on4 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078
a o 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 o,19n 0,1373 0,0896 0,0548 0,0313
2 0,0515 0,1488 0,2376 0,2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094
3 0,0054 0,0331 0,0839 0,1468 0,2076 0,2541 0,2786 0,2787 0,2568 0,2188
4 0,0004 0,0046 0,0185 0,0459 0,0865 0,1361 0,1875 0,2322 0,2627 0,2734
5 0,0000 0,0004 0,0026 0,0092 0,0231 0,0467 0,0808 0,1239 0,1719 0,2188
·-----------~~-· --
--·-·------·--------- -- - --
---- ;;-.' 6 0,0000 0,0000 0,0002 0,0011 0,0038 0,0100 0,0217 0,0413 0,0703 o, 1094
' 7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0033 0,0079 0,0164 0,0313
a 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039
291
'' ! 1
.. !
ESTAJiSTJCAAPLICADA
TI X 0,05
9 o 0,6302
0,2985
0,0629
0,0077
0,0006
1
2
3
4
5
6
7
a
9
0,0000
0,0000
0,0000
0,0000
0,0000
10 o 0,5987
0,31510,0746
0,0105
0,0010
11
12
1
2
3
4
5
6
7
8
9
0,0001
0,0000
0,0000
0,0000
0,0000
10 0,0000
o 0,5688
1 0,3293
2 0,0867
3 0,0137
4 0,0014
5 0,0001
6 0,0000
7 0,0000
8 0,0000
9 0,0000
10 0,0000
11 0,0000
o 0,5404
1 0,3413
2 0,0988
3 0,0173
4 0,0021
i
1· 1 5 0,0002
1
6 0,0000
..• 1 7 0,0000
HiL', ~ g:=
11 0,0000
0,1
0,3874
0,3874
0,1722
0,0446
0,0074
0,0008
0,0001
0,0000
0,0000
0,0000
0,3487
0,3874
0,1937
0,0574
0,0112
0,0015
0,0001
0,0000
0,0000
0,0000
0,0000
0,3138
0,3835
0,2131
0,0710
0,0158
0,0025
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,2824
0,3766
0,2301
0,0852
0,0213
0,0038
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000 ti 10 0,0000 , _____ 1_2_ ---- o 0000 - -~000<?-
0,2542 mt'I
l:
íll
1
; 1,
13
292
o 0,5133
1 0,3512
2 0,1109
3 0,0214
4 0,0028
0,3672
0,2448
0,0997
0,0277
0,15
0,2316
0,3679
0,2597
0,1069
0,0283
0,0050
0,0006
0,0000
0,0000
0,0000
0,1969
0,3474
0,2759
0,1298
0,0401
0,0085
0,0012
0,0001
0,0000
0,0000
0,0000
0,1673
0,3248
0,2866
0,1517
0,0536
0,0132
0,0023
0,0003
0,0000
0,0000
0,0000
0,0000
0,1422
0,3012
0,2924
0,1720
0,0683
0,0193
0,0040
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000
0,1209
0,2774
0,2937
0,1900
0,0838
0,2
0,1342
0,3020
0,3020
0,1762
0,0661
0,0165
0,0028
0,0003
0,0000
0,0000
0,1074
0,2684
0,3020
0,2013
0,0881
0,0264
0,0055
0,0008
0,0001
0,0000
0,0000
0,0859
0,2362
0,2953
0,2215
0,1107
0,0388
0,0097
0,0017
0,0002
0,0000
0,0000
0,0000
0,0687
0,2062
0,2835
0,2362
0,1329
0,0532
0,0155
0,0033
0,0005
0,0001
0,0000
0,0000
0,0000
0,0550
0,1787
0,2680
0,2457
0,1535
0,25
0,0751
0,2253
0,3003
0,2336
0,1168
0,0389
0,0087
0,0012
0,0001
0,0000
0,0563
0,1877
0,2816
0,2503
0,1460
0,0584
0,0162
0,0031
0,0004
0,0000
0,0000
0,0422
0,1549
0,2581
0,2581
0,1721
0,0803
0,0268
0,0064
0,0011
0,0001
0,0000
0,0000
0,0317
O, 1267
0,2323
0,2581
O, 1936
0,1032
0,0401
0,0115
0,0024
0,0004
0,0000
0,0000
0,0000
0,0238
0,1029
0,2059
0,2517
0,2097
0,3
0,0404
0,1556
0,2668
0,2668
0,1715
0,0735
0,0210
0,0039
0,0004
0,0000
0,0282
0,1211
0,2335
0,2668
0,2001
0,1029
0,0368
0,0090
0,0014
0,0001
0,0000
0,0198
0,0932
0,1998
0,2568
0,2201
0,1321
0,0566
0,0173
0,0037
0,0005
0,0000
0,0000
0,0138
0,0712
0,1678
0,2397
0,2311
0,1585
0,0792
0,0291
0,0078
0,0015
0,0002
0,0000
0,0000
0,009?
0,0540
0,1388
0,2181
0,2337
0,35
0,0207
0,1004
0,2162
0,2716
0,2194
0,1181
0,0424
0,0098
0,0013
0,0001
0,0135
0,0725
0,1757
0,2522
0,2377
0,1536
0,0689
0,0212
0,0043
0,0005
0,0000
0,0088
0,0518
0,1395
0,2254
0,2428
0,1830
0,0985
0,0379
0,0102
0,0018
0,0002
0,0000
0,0057
0,0368
0,1088
0,1954
0,2367
0,2039
0,1281
0,0591
0,0199
0,0048
0,0008
0,0001
0,0000
0,0037
0,0259
0,0836
0,1651
0,2222
0,4
0,0101
0,0605
0,1612
0,2508
0,2508
0,1672
0,0743
0,0212
0,0035
0,0003
0,0060
0,0403
0,1209
0,2150
0,2508
0,2007
0,1115
0,0425
0,0106
0,0016
0,0001
0,0036
0,0266
0,0887
0,1774
0,2365
0,2207
0,1471
0,0701
0,0234
0,0052
0,0007
0,0000
0,0022
0,0174
0,0639
0,1419
0,2128
0,2270
0,1766
0,1009
0,0420
0,0125
0,0025
0,0003
0,0000
0,0013
0,0113
0,0453
0,1107
0,1845
0,45
0,0046
0,0339
0,1110
0,2119
0,2600
0,2128
0,1160
0,0407
0,0083
0,0008
0,0025
0,0207
0,0763
O, 1665
0,2384
0,2340
0,1596
0,0746
0,0229
0,0042
0,0003
0,0014
0,0125
0,0513
0,1259
0,2060
0,2360
0,1931
0,1128
0,0462
0,0126
0,0021
0,0002
0,0008
0,0075
0,0339
0,0923
0,1700
0,2225
0,2124
0,1489
0,0762
0,0277
0,0068
0,0010
0,0001
0,0004
0,0045
0,0220
0,0660
O, 1350
0,5
0,0020
0,0176
0,0703
0,1641
0,2461
0,2461
0,1641
0,0703
0,0176
0,0020
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010
0,0005
0,0054
0,0269
0,0806
O, 1611
0,2256
0,2256
O, 1611
0,0806
0,0269
0,0054
0,0005
0,0002
0,0029
0,0161
0,0537
O, 1208
0,1934
0,2256
0,1934
O, 1208
0,0537
0,0161
0,0029
0,0002
0,0001
0,0016
0,0095
0,0349
0,0873
TI X
5
6
7
8
9
10
11
12
13
14 o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 o
1
2
3
4
5
6
7
8
9
0,05
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4877
0,3593
0,1229
0,0259
0,0037
0,0004
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4633
0,3658
0,1348
0,0307
0,0049
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4401
0,3706
0,1463
0,0359
0,0061
0,0008
0,0001
0,0000
0,0000
0,0000
0,1
0,0055
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2288
0,3559
0,2570
0,1142
0,0349
0,0078
0,0013
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2059
0,3432
0,2669
0,1285
0,0428
0,0105
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1853
0,3294
0,2745
0,1423
0,0514
0,0137
0,0028
0,0004
0,0001
0,0000
0,15
0,0266
0,0063
0,0011
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,1028
0,2539
0,2912
0,2056
0,0998
0,0352
0,0093
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0874
0,2312
0,2856
0,2184
0, 1156
0,0449
0,0132
0,0030
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0743
0,2097
0,2775
0,2285
0,1311
0,0555
0,0180
0,0045
0,0009
0,0001
0,2
0,0691
0,0230
0,0058
0,0011
0,0001
0,0000
0,0000
0,0000
0,0000
0,0440
0,1539
0,2501
0,2501
0,1720
0,0860
0,0322
0,0092
0,0020
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0352
0,1319
0,2309
0,2501
0,1876
0,1032
0,0430
0,0138
0,0035
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0281
0,1126
0,2111
0,2463
0,2001
0,1201
0,0550
0,0197
0,0055
0,0012
0,25
0,1258
0,0559
0,0186
0,0047
0,0009
0,0001
0,0000
0,0000
0,0000
0,0178
0,0832
0,1802
0,2402
0,2202
0,1468
0,0734
0,0280
0,0082
0,0018
0,0003
0,0000
0,0000
0,0000
0,0000
0,0134
0,0668
0,1559
0,2252
0,2252
0,1651
0,0917
0,0393
0,0131
0,0034
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0100
0,0535
0,1336
0,2079
0,2252
0,1802
0,1101
0,0524
0,0197
0,0058
0,3
0,1803
0,1030
0,0442
0,0142
0,0034
0,0006
0,0001
0,0000
0,0000
0,0068
0,0407
0,1134
O, 1943
0,2290
0,1963
0,1262
0,0618
0,0232
0,0066
0,0014
0,0002
0,0000
0,0000
0,0000
0,0047
0,0305
0,0916
o, 1700
0,2186
0,2061
0,1472
0,0811
0,0348
0,0116
0,0030
0,0006
0,0001
0,0000
0,0000
0,00000,0033
0,0228
0,0732
0,1465
0,2040
0,2099
0,1649
0,1010
0,0487
0,0185
0,35
0,2154
0,1546
0,0833
0,0336
0,0101
0,0022
0,0003
0,0000
0,0000
0,0024
0,0181
0,0634
0,1366
0,2022
0,2178
0,1759
0,1082
0,0510
0,0183
0,0049
0,0010
0,0001
0,0000
0,0000
0,0016
0,0126
0,0476
0,1110
0,1792
0,2123
0,1906
0,1319
0,0710
0,0298
0,0096
0,0024
0,0004
0,0001
0,0000
0,0000
0,0010
0,0087
0,0353
0,0888
0,1553
0,2008
0,1982
0,1524
0,0923
0,0442
DJSTRIBUICÃO BINOMIAL
0,4
0,2214
0,1968
0,1312
0,0656
0,0243
0,0065
0,0012
0,0001
0,0000
0,0008
0,0073
0,0317
0,0845
0,1549
0,2066
0,2066
0,1574
0,0918
0,0408
0,0136
0,0033
0,0005
0,0001
0,0000
0,0005
0,0047
0,0219
0,0634
0,1268
0,1859
0,2066
0,1771
0,1181
0,0612
0,0245
0,0074
0,0016
0,0003
0,0000
0,0000
0,0003
0,0030
0,0150
0,0468
0,1014
0,1623
0,1983
0,1889
0,1417
0,0840
0,45
0,1989
0,2169
0,1775
0,1089
0,0495
0,0162
0,0036
0,0005
0,0000
0,0002
0,0027
0,0141
0,0462
0,1040
0,1701
0,2088
0, 1952
O, 1398
0,0762
0,0312
0,0093
0,0019
0,0002
0,0000
0,0001
0,0016
0,0090
0,0318
0,0780
0,1404
0,1914
0,2013
0,1647
0,1048
0,0515
0,0191
0,0052
0,0010
0,0001
0,0000
0,0001
0,0009
0,0056
0,0215
0,0572
0,1123
0,1684
0,1969
0,1812
0,1318
0,5
0,1571
0,2095
0,2095
0,1571
0,0873
0,0349
0,0095
0,0016
0,0001
0,0001
0,0009
0,0056
0,0222
0,0611
0,1222
0,1833
0,2095
0,1833
0,1222
0,0611
0,0222
0,0056
0,0009
0,0001
0,0000
0,0005
0,0032
0,0139
0,0417
0,0916
0,1527
0,1964
0,1964
0,1527
0,0916
0,0417
0,0139
0,0032
0,0005
0,0000
0,0000
0,0002
0,0018
0,0085
0,0278
0,0667
0,1222
0,1746
0,1964
0,1746
293
ESTATÍSTICA APLICADA
n X
9 o
1
2
3
4
5
6
7
8
9
10 o
1
2
3
4
5
6
7
8
9
10
11 o
1
2
3
4
5
6
7
8
9
10
11
12 o
1
2
3
4
5
6
7
8
9
10
11
12
p
0,6302
0,2985
0,0629
0,0077
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,5987
0,3151
0,0746
0,0105
0,0010
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,5688
0,3293
0,0867
0,0137
0,0014
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,5404
0,3413
0,0988
0,0173
0,0021
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
13 o 0,5133
----1- - · o;35l2-··
2 0,1109
3 0,0214
4 0,0028
292
0,3874
0,3874
0,1722
0,0446
0,0074
0,0008
0,0001
0,0000
0,0000
0,0000
0,3487
0,3874
0,1937
0,0574
0,0112
0,0015
0,0001
0,0000
0,0000
0,0000
0,0000
0,3138
0,3835
0,2131
0,0710
0,0158
0,0025
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,2824
0,3766
0,2301
0,0852
0,0213
0,0038
0,0005
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2542
0,3672-
0,2448
0,0997
o,02n
0,2316
0,3679
0,2597
0,1069
0,0283
0,0050
0,0006
0,0000
0,0000
0,0000
0,1969
0,3474
0,2759
0,1298
0,0401
0,0085
0,0012
0,0001
0,0000
0,0000
0,0000
0,1673
0,3248
0,2866
0,1517
0,0536
0,0132
0,00?3
0,0003
0,0000
0,0000
0,0000
0,0000
0,1422
0,3012
0,2924
0,1720
0,0683
0,0193
0,0040
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000
0,1209
0,2774-"-
0,2937
0,1900
0,0838
0,1342
0,3020
0,3020
0,1762
0,0661
0,0165
0,0028
0,0003
0,0000
0,0000
0,1074
0,2684
0,3020
0,2013
0,0881
0,0264
0,0055
0,0008
0,0001
0,0000
0,0000
0,0859
0,2362
0,2953
0,2215
0, 1107
0,0388
0,0097
0,0017
0,0002
0,0000
0,0000
0,0000
0,0687
0,2062
0,2835
0,2362
O, 1329
0,0532
0,0155
0,0033
0,0005
0,0001
0,0000
0,0000
0,0000
0,0550
0,1787
0,2680
0,2457
0,1535
0,0751
0,2253
0,3003
0,2336
0,1168
0,0389
0,0087
0,0012
0,0001
0,0000
0,0563
o,18n
0,2816
0,2503
0, 1460
0,0584
0,0162
0,0031
0,0004
0,0000
0,0000
0,0422
O, 1549
0,2581
0,2581
0,1721
0,0803
0,0268
0,0084
0,0011
0,0001
0,0000
0,0000
0,0317
0, 1267
0,2323
0,2581
0,1936
0,1032
0,0401
0,0115
0,0024
0,0004
0,0000
0,0000
0,0000
0,0238
o,io2s
0,2059
0,2517
0,2097
0,0404
0,1556
0,2668
0,2668
0,1715
0,0735
0,0210
0,0039
0,0004
0,0000
0,0282
0,1211
0,2335
0,2668
0,2001
0,1029
0,0368
0,0090
0,0014
0,0001
0,0000
0,0198
0,0932
0,1998
0,2568
0,2201
0,1321
_0,0566
0,0173
0,0037
0,0005
0,0000
0,0000
0,0138
0,0712
0,1678
0,2397
0,2311
0,1585
0,0792
0,0291
0,0078
0,0015
0,0002
0,0000
0,0000
0,009'!
0,0540
0,1388
0,2181
0,2337
0,0207
0,1004
0,2162
0,2716
0,2194
o, 1181
0,0424
0,0098
0,0013
0,0001
0,0135
0,0725
0,1757
0,2522
0,2377
0, 1536
0,0689
0,0212
0,0043
0,0005
0,0000
0,0088
0,0518
0,1395
0,2254
0,2428
0,1830
_0,0985
0,0379
0,0102
0,0018
0,0002
0,0000
0,0057
0,0368
0,1088
O, 1954
0,2367
0,2039
0,1281
0,0591
0,0199
0,0048
0,0008
0,0001
0,0000
0,0037
0:0259
0,0836
0,1651
0,2222
0,0101
0,0605
0,1612
0,2508
0,2508
0,1672
0,0743
0,0212
0,0035
0,0003
0,0060
0,0403
0,1209
0,2150
0,2508
0,2007
0,1115
0,0425
0,0106
0,0016
0,0001
0,00'36
0,0266
0,0887
0,1774
0,2365
0,2207
.0.1471
0,0701
0,0234
0,0052
0,0007
0,0000
0,0022
0,0174
0,0639
0,1419
0,2128
0,2270
0,1766
0,1009
0,0420
0,0125
0,0025
0,0003
0,0000
0,0013
0,0113
0,0453
0,1107
0,1845
0,45
0,0046
0,0339
0,1110
0,2119
0,2600
0,2128
0,1160
0,0407
0,0083
0,0008
0,0025
0,0207
0,0763
0,1665
0,2384
0,2340
0,1596
0,0746
0,0229
0,0042
0,0003
0,0014
0,0125
0,0513
0,1259
0,2060
0,2360
0,1931
0,1128
0,0462
0,0126
0,0021
0,0002
0,0008
0,0075
0,0339
0,0923
0,1700
0,2225
0,2124
0,1489
0,0762
0,0277
0,0068
0,0010
0,0001
0,0004
0,0045
0,0220
0,0660
0,1350
0,5
0,0020
0,0176
0,0703
0,1641
0,2461
0,2461
0,1641
0,0703
0,0176
0,0020
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010
0,0005
0,0054
0,0269
0,0806
0,1611
0,2256
0,2256
0,1611
0,0806
0,0269
0,0054
0,0005
0,0002
0,0029
0,0161
0,0537
0,1208
0,1934
0,2256
0,1934
0,1208
0,0537
0,0161
0,0029
0,0002
0,0001
0,0016
0,0095
0,0349
0,0873
fP
'
'
p
-n---x-- -- 0;05 -
14
15
16
5
6
7
8
9
10
11
12
13
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
o
1
2
3
4
5
6
7
8
9
0,0003
0.0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4877
0,3593
0,1229
0,0259
0,0037
0,0004
0,0000
0.0000
0,0000
0.0000
0.0000
0.0000
0,0000
0,0000
0,0000
0,4633
0,3658
0,1348
0,0307
- 0,0049
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4401
0,3706
0,1463
0,0359
0,0061
0,0008
0,0001
0,0000
0,0000
0,0000
0,0055
0,0008
0,0001
0,0000
0,0000
0,00000,0000
0,0000
0,0000
0,2288
0,3559
0,2570
0,1142
0,0349
0,0078
0,0013
0.0002
0,0000
0,0000
0.0000
0,0000
0,0000
0,0000
0.0000
0,2059
0,3432
0,2669
o, 1285
0,0428
0,0105
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
o, 1853
0,3294
0,2745
0,1423
0,0514
0,0137
0,0028
0,0004
0,0001
0,0000
0,15
0,0266
0,0063
0,0011
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,1028
0,2539
0,2912
0,2056
0,0998
0,0352
0,0093
0,0019
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0874
0,2312
0,2856
0,2184
0,1156
0,0449
0,0132
0,0030
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0743
0,2097
o.2n5
0,2285
0,1311
0,0555
0,0180
0,0045
0,0009
0,0001
0,2
0,0691
0,0230
0,0058
0,0011
0.0001
0,0000
0,0000
0.0000
0,0000
0,0440
0,1539
0,2501
0,2501
0,1720
0,0860
0,0322
0,0092
0,0020
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0352
0,1319
0,2309
0,2501
0, 1876
0,1032
0,0430
0,0138
0,0035
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0281
0,1126
0,2111
0,2463
0,2001
0,1201
0,0550
0,0197
0,0055
0,0012
0,25
0,1258
0,0559
0,0186
0,0047
0,0009
0,0001
0.0000
0.0000
0,0000
0,0178
0,0832
0,1802
0,2402
0,2202
0,1468
0,0734
0,0280
0,0082
0,0018
0,0003
0,0000
0,0000
0,0000
0,0000
0,0134
0,0668
0,1559
0,2252
0,2252
0,1651
0,0917
0,0393
0,0131
0,0034
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0100
0,0535
0,1336
0,2079
0,2252
0,1802
0,1101
0,0524
0,0197
0,0058
0,3
0,1803
0,1030
0,0442
0,0142
0,0034
0,0006
0.0001
0,0000
0,0000
0,0068
0,0407
0,1134
0,1943
0,2290
0,1963
0,1262
0,0618
0,0232
0,0066
0,0014
0,0002
º·ºººº 0,0000
0,0000
0,0047
0,0305
0,0916
0,1700
0,2186
0,2061
O, 1472
0,0811
0,0348
0,0116
0,0030
0,0006
0,0001
0,0000
0,0000
0,0000
0,0033
0,0228
0,0732
0,1465
0,2040
0,2099
0,1649
0,1010
0,0487
0,0185
0,35
0,2154
0,1546
0,0833
0,0336
0,0101
0,0022
0,0003
0,0000
0.0000
0,0024
0,0181
0,0634
0,1366
0,2022
0,2178
0,1759
0,1082
0,0510
0,0183
0,0049
0,0010
0,0001
0,0000
0.0000
0,0016
0,0126
0,0476
0,1110
0,1792
0,2123
0,1906
0,1319
0,0710
0,0298
0,0096
0,0024
0,0004
0,0001
0,0000
0,0000
0,0010
0,0087
0,0353
0,0888
0,1553
0,2008
O, 1982
0,1524
0,0923
0,0442
DISTRIBU/CÃO BINOMIAL
0,4
0,2214
0,1968
0,1312
0,0656
0,0243
0,0065
0,0012
0,0001
0,0000
0,0008
0,0073
0,0317
0,0845
0,1549
0,2066
0,2066
0,1574
0,0918
0,0408
0,0136
0,0033
0,0005
0,0001
0,0000
0,0005
0,0047
0,0219
0,0634
0,1268
0,1859
0,2066
0,1771
0,1181
0,0612
0,0245
0,0074
0,0016
0,0003
0,0000
0,0000
0,0003
0,0030
0,0150
0,0468
0,1014
0,1623
0, 1983
O, 1889
0,1417
0,0840
0,45
0, 1989
0,2169
O, 1775
0,1089
0,0495
0,0162
0,0036
0,0005
0,0000
0,0002
0,0027
0,0141
0,0462
0,1040
0,1701
0,2088
O, 1952
0,1398
0,0762
0,0312
0,0093
0,0019
0,0002
0,0000
0,0001
0,0016
0,0090
0,0318
0,0780
0,1404
0,1914
0,2013
0,1647
0,1048
0,0515
0,0191
0,0052
0,0010
0,0001
º·ºººº
0,0001
0,0009
0,0056
0,0215
0,0572
0,1123
0,1684
0,1969
0,1812
O, 1318
0,5
0,1571
0,2095
0,2095
0,1571
0,0873
0,0349
0,0095
0,0016
0,0001
0,0001
0,0009
0,0056
0,0222
0,0611
O, 1222
0,1833
0,2095
0,1833
0,1222
0,0611
0,0222
0,0056
0,0009
0,0001
0,0000
0,0005
0,0032
0,0139
0,0417
0,0916
0,1527
0,1964
O, 1964
0,1527
0,0916
0,0417
0,0139
0,0032
0,0005
0,0000
0,0000
0,0002
0,0018
0,0085
0,0278
0,0667
. 0,1222
0,1746
0,1964
0,1746
293
ESTATÍSTICA APLICADA
n
17
X
10
11
12
13
14
15
16
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
p
18 o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
0,05
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,4181
0,3741
0,1575
0,0415
0,0076
0,0010
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,3972
0,3763
0,1683
0,0473
0,0093
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0, 1668
0,3150
0,2800
0,1556
0,0605
0,0175
0,0039
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1501
0,3002
0,2835
0,1680
0,0700
0,0218
0,0052
0,0010
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,15
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0631
O, 1893
0,2673
0,2359
0,1457
0,0668
0,0236
0,0065
0,0014
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0536
0,1704
0,2556
0,2406
0,1592
0,0787
0,0301
0,0091
0,0022
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
º·ºººº
0,2
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0225
0,0957
0,1914
0,2393
0,2093
0,1361
0,0680
0,0267
0,0084
0,0021
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0180
0,0811
O, 1723
0,2297
0,2153
0,1507
0,0816
0,0350
0,0120
0,0033
0,0008
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,25
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0075
0,0426
0,1136
0,1893
0,2209
0,1914
0,1276
0,0668
0,0279
0,0093
0,0025
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0056
0,0338
0,0958
0,1704
0,2130
0,1988
0,1436
0,0820
0,0376
0,0139
0,0042
0,0010
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
º·ºººº
0,3
0,0056
0,0013
0,0002
0,0000
0,0000
0,0000
0,0000
0,0023
0,0169
0,0581
0,1245
0,1868
0,2081
0, 1784
0,1201
0,0644
0,0276
0,0095
0,0026
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000
0,0016
0,0126
0,0458
0,1046
0,1681
0,2017
0,1873
0,1376
0,0811
0,0386
0,0149
0,0046
0,0012
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,35
0,0167
0,0049
0,0011
0,0002
0,0000
0,0000
0,0000
0,0007
0,0060
0,0260
0,0701
O, 1320
0,1849
O, 1991
0,1685
0,1134
0,0611
0,0263
0,0090
0,0024
0,0005
0,0001
0,0000
0,0000
0,0000
0,0004
0,0042
0,0190
0,0547
0,1104
0,1664
0,1941
0,1792
O, 1327
0,0794
0,0385
0,0151
0,0047
0,0012
0,0002
0,0000
0,0000
0,0000
0,0000
....
0.4
0,0392
0,0142
0,0040
0,0008
0,0001
0,0000
0,0000
0,0002
0,0019
0,0102
0,0341
0,0796
0,1379
0,1839
0,1927
0,1606
0,1070
0,0571
0,0242
0,0081
0,0021
0,0004
0,0001
0,0000
0,0000
0,0001
0,0012
0,0069
0,0246
0,0614
0,1146
0,1655
0,1892
0,1734
0,1284
0,0771
0,0374
0,0145
0,0045
0,0011
0,0002
0,0000
0,0000
0,0000
0,45
0,0755
0,0337
0,0115
0,0029
0,00050,0001
0,0000
0,0000
0,0005
0,0035
0,0144
0,0411
0,0875
0,1432
0,1841
0, 1883
0,1540
0,1008
0,0525
0,0215
0,0068
0,0016
0,0003
0,0000
0,0000
0,0000
0,0003
0,0022
0,0095
0,0291
0,0666
0,1181
O, 1657
0,1864
0,1694
0,1248
0,0742
0,0354
0,0134
0,0039
0,0009
0,0001
0,0000
0,0000
0,5
O, 1222
0,0667
0,0278
0,0085
0,0018
0,0002
0,0000
0,0000
0,0001
0,0010
0,0052
0,0182
0,0472
0,0944
0,1484
0,1855
0,1855
0,1484
0,0944
0,0472
0,0182
0,0052
0,0010
0,0001
0,0000
0,0000
0,0001
0,0006
0,0031
0,0117
0,0327
0,0708
0,1214
0,1669
O, 1855
0,1669
0,1214
0,0708
0,0327
0,0117
0,0031
0,0006
0,0001
0,0000
' -- -1.9_0_ o.~?14.
0,3774
0,1787
0,0533
0,0112
0,1351
0)"852
0,2852
0,1796
0,0798
0,0456
0,1529
0,2428
0,2428
0,1714
0,0144
0,0685
0,1540
0,2182
0,2182
0,0042
0,0268
0,0803
0,1517
0,2023
0,0011
0,0093
0,0358
0,0869
0, 1491
0,0003
- 0,0029
0,0138
0,0422
0,0909
0,0001
0,0008
0,0046
0,0175
0,0467
0,0000
0,0002
0,0013
0,0062
0,0203
0,0000
0,0000
0,0003
0,0018
0,0074
294
1
2
3
4
··~-·
1
1
1
'
1
TI X
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20 o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0,05
0,0018
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,3585
0,3774
0,1887
0,0596
0,0133
0,0022
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1
0,0266
0,0069
0,0014
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,1216
0,2702
0,2852
0,1901
0,0898
0,0319
0,0089
0,0020
0,0094
o,oo4,l1
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,15
0,0907
0,0374
0,0122
0,0032
0,0007
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0388
O, 1368
0,2293
0,2428
0,1821
0,1028
0,0454
0,0160
0,0046
0,0011
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,2
0,1636
0,0955
0,0443
0,0166
0,0051
0,0013
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0115
0,0576
0,1369
0,2054
0,2182
0,1746
0,1091
0,0545
0,0222
0,0074
0,0020
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,25
0,2023
0,1574
0,0974
0,0487
0,0198
0,0066
0,0018
0,0004
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0032
0,0211
0,0669
0,1339
0,1897
0,2023
0,1686
0,1124
0,0609
0,0271
0,0099
0,0030
0,0008
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,3
0,1916
0,1916
O, 1525
0,0981
0,0514
0,0220
0,0077
0,0022
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0008
0,0068
0,0278
0,0716
0,1304
0,1789
0,1916
0,1643
0,1144
0,0654
0,0308
0,0120
0,0039
0,0010
0,0002
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,35
0,1468
0,1844
0,1844
0,1489
0,0980
0,0528
0,0233
0,0083
0,0024
0,0006
0,0001
0,0000
0,0000
0,0000
0,0000
0,0002
0,0020
0,0100
0,0323
0,0738
0,1272
o, 1712
0,1844
0,1614
0,1158
0,0686
0,0336
0,0136
0,0045
0,0012
0,0003
0,0000
0,0000
0,0000
0,0000
0,0000
DISTR/BUICÃO BINOMIAL
0,4
0,0933
0,1451
0,1797
0,1797
0,1464
0,0976
0,0532
0,0237
0,0085
0,0024
0,0005
0,0001
0,0000
0,0000
0,0000
0,0000
0,0005
0,0031
0,0123
0,0350
0,0746
0,1244
0,1659
0,1797
0,1597
0,1171
0,0710
0,0355
0,0146
0,0049
0,0013
0,0003
0,0000
0,0000
0,0000
0,0000
0,45
0,0497
0,0949
0,1443
0,1771
0,1771
0,1449
1 0,0970
0,0529
0,0233
0,0082
0,0022
0,0005
0,0001
0,0000
0,0000
0,0000
0,0001
0,0008
0,0040
0,0139
0,0365
0,0746
0,1221
0,1623
0,1771
0,1593
0,1185
0,0727
0,0366
0,0150
0,0049
0,0013
0,0002
0,0000
0,0000
0,0000
0,5
0,0222
0,0518
0,0961
0,1442
0,1762
0,1762
O, 1442
0,0961
0,0518
0,0222
0,0074
0,0018
0,0003
0,0000
0,0000
0,0000
0,0000
0,0002
0,0011
0,0046
0,0148
0,0370
0,0739
0,1201
0,1602
0,1762
0,1602
0,1201
0,0739
0,0370
0,0148
0,0046
0,0011
0,0002
0,0000
0,0000
295
...
ESTATÍSTICA APLICADA
'
o
1
2
3
4
5
6
7
X
o
1
2
3
4
5
6
7
8
9
'
o
1
2
3
4
5
6
7
8
9
10
11
! l 1 12
,! 1
0,1
0,9048
0,0905
0,0045
0,0002
0,0000
0,0000
0,0000
0,0000
1,1
0,3329
0,3662
0,2014
0,0738
0,0203
0,0045
0,0008
0,0001
0,0000
0,0000
2, 1
0,1225
0,2572
0,2700
0,1890
0,0992
0,0417
0,0146
0,0044
0,0011
0,0003
0,0001
0,0000
0,0000
m ______ _
1!11
L
l: 1 1
i
íll 296
0,2
0,8187
0,1637
0,0164
o,cxn 1
0,0001
0,0000
0,0000
0,0000
1,2
0,3012
0,3614
0,2169
0,0867
0,0260
0,0062
0,0012
0,0002
0,0000
0,0000
2,2
0,1108
0,2438
0,2681
0,1966
0,1082
0,0476
0,0174
0,0055
0,0015
0,0004
0,0001
0,0000
º·ºººº
_DISIRIBUJQÃO DE PQISSON ..
VALORES DA FUNÇÃO DE PROBABILIDADE
0,3
0,7408
0,2222
0,0333
0,0033
0,0003
0,0000
0,0000
0,0000
1,3
0,2725
0,3543
0,2303
0,0998
0,0324
0,0084
0,0018
0,0003
0,0001
0,0000
2,3
0,1003
0,2306
0,2652
0,2033
0,1169
0,0538
0,0206
0,0068
0,0019
0,0005
0,0001
0,0000
0,0000
0,4
0,6703
0,2681
0,0536
0,0072
0,0007
0,0001
0,0000
0,0000
1,4
0,2466
0,3452
0,2417
0,1128
0,0395
0,0111
0,0026
0,0005
0,0001
0,0000
2,4
0,0907
o,21n
0,2613
0,2090
0,1254
0,0602
0,0241
0,0083
0,0025
0,0007
0,0002
0,0000
0,0000
0,5
0,6065
0,3033
0,0758
0,0126
0,0016
0,0002
0,0000
0,0000
1,5
0,2231
0,3347
0,2510
O, 1255
0,0471
0,0141
0,0035
0,0008
0,0001
0,0000
2,5
0,0821
0,2052
0,2565
0,2138
0,1336
0,0668
0,0278
0,0099
0,0031
0,0009
0,0002
0,0000
0,0000
0,6
0,5488
0,3293
0,0988
0,0198
0,0030
0,0004
0,0000
0,0000
1,6
0,2019
0,3230
0,2584
0,1378
0,0551
0,0176
0,0047
0,0011
0,0002
0,0000
2,6
0,0743
0,1931
0,2510
0,2176
0,1414
0,0735
0,0319
0,0118
0,0038
0,0011
0,0003
0,0001
º·ºººº
0,7
0,4966
0,3476
0,1217
0,0284
0,0050
0,0007
0,0001
0,0000
1,7
0,1827
0,3106
0,2640
0,1496
0,0636
0,0216
0,0061
0,0015
0,0003
0,0001
2,7
0,0672
0,1815
0,2450
0,2205
0,1488
0,0804
0,0362
0,0139
0,0047
0,0014
0,0004
0,0001
0,0000
0,8
0,4493
0,3595
0,1438
0,0383
0,0077
0,0012
0,0002
0,0000
1,8
0,1653
0,2975
0,2678
O, 1607
0,0723
0,0260
0,0078
0,0020
0,0005
0,0001
2,8
0,0608
0,1703
0,2384
0,2225
0, 1557
0,0872
0,0407
0,0163
0,0057
0,0018
0,0005
0,0001
0,0000
0,9
0,4066
0,3659
0,1647
0,0494
0,0111
0,0020
0,0003
0,0000
1,9
0,1496
0,28420,2700
0,1710
0,0812
0,0309
0,0098
0,0027
0,0006
0,0001
2,9
0,0550
O, 1596
0,2314
0,2237
O, 1622
0,0940
0,0455
0,0188
0,0068
0,0022
0,0006
0,0002
0,0000
1,0
0,3679
0,3679
0,1839
0,0613
0,0153
0,0031
0,0005
0,0001
2,0
0,1353
0,2707
0,2707
0,1804
0,0902
0,0361
0,0120
0,0034
0,0009
0,0002
3,0
0,0498
O, 1494
0,2240
0,2240
0,1680
0,1008
0,0504
0,0216
0,0081
0,0027
0,0008
0,0002
0,0001
X
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
X
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
3,1
0,0450
O, 1397
0,2165
0,2237
0,1733
0,1075
0,0555
0,0246
0,0095
0,0033
0,0010
0,0003
0,0001
0,0000
0,0000
4,1
0,0166
0,0679
0,1393
0,1904
0,1951
0,1600
0,1093
0,0640
0,0328
0,0150
0,0061
0,0023
0,0008
0,0002
0,0001
0,0000
5, 1
0,0061
0,0311
0,0793
0,1348
0,1719
0,1753
0,1490
0,1086
0,0692
0,0392
0,0200
0,0093
0,0039
0,0015
0,0006
0,0002
0,0001
0,0000
3,2
0,0408
O, 1304
0,2087
0,2226
0,1781
o, 1140
0,0608
0,0278
0,0111
0,0040
0,0013
0,0004
0,0001
0,0000
0,0000
4,2
0,0150
0,0630
0,1323
0,1852
0,1944
0,1633
0,1143
0,0686
0,0360
0,0168
0,0071
0,0027
0,0009
0,0003
0,0001
0,0000
5,2
0,0055
0,0287
0,0746
O, 1293
0,1681
0,1748
0,1515
0,1125
0,0731
0,0423
0,0220
0,0104
0,0045
0,0018
0,0007
0,0002
0,0001
0,0000
3,3
0,0369
0,1217
0,2000
0,2209
0,1823
0,1203
0,0662
0,0312
0,0129
0,0047
0,0016
0,0005
0,0001
0,0000
0,0000
4,3
0,0136
0,0583
0,1254
0,1798
0,1933
0,1662
0,1191
0,0732
0,0393
0,0188
0,0081
0,0032
0,0011
0,0004
0,0001
0,0000
5,3
0,0050
0,0265
0,0701
0,1239
0,1641
0,1740
0,1537
0,1163
0,0771
0,0454
0,0241
0,0116
0,0051
0,0021
0,0008
0,0003
0,0001
0,0000
3,4
0,0334
0,1135
0,1929
0,2186
0,1858
0,1264
0,0716
0,0348
0,0148
0,0056
0,0019
0,0006
0,0002
0,0000
0,0000
4,4
0,0123
0,0540
O, 1188
O, 1743
0,1917
0,1687
0,1237
o.on0
0,0428
0,0209
0,0092
0,0037
0,0013
0,0005
0,0001
0,0000
5,4
0,0045
0,0244
0,0659
0,1185
O, 1600
0,1728
0,1555
0,1200
0,0810
0,0486
0,0262
0,0129
0,0058
0,0024
0,0009
0,0003
0,0001
0,0000
3,5
0,0302
o, 1057
0,1850
0,2158
0,1888
0,1322
0,0771
0,0385
0,0169
0,0066
0,0023
0,0007
0,0002
0,0001
0,0000
4,5
0,0111
0,0500
O, 1125
0,1687
O, 1898
0,1708
0,1281
0,0824
0,0463
0,0232
0,0104
0,0043
0,0016
0,0006
0,0002
0,0001
5,5
0,0041
0,0225
0,0618
O, 1133
O, 1558
O, 1714
O, 1571
0,1234
0,0849
0,0519
0,0285
0,0143
0,0065
0,0028
0,0011
0,0004
0,0001
0,0000
3,6
0,0273
0,0984
o.1n1
0,2125
0,1912
0,1377
0,0826
0,0425
0,0191
0,0076
0,0028
0,0009
0,0003
0,0001
0,0000
4,6
0,0101
0,0462
0,1063
0,1631
0,1875
0,1725
0,1323
0,0869
0,0500
0,0255
0,0118
0,0049
0,0019
0,0007
0,0002
0,0001
5,6
0,0037
0,0207
0,0580
0,1082
0,1515
0,1697
0,1584
0,1267
0,0887
0,0552
0,0309
0,0157
0,0073
0,0032
0,0013
0,0005
0,0002
0,0001
3,7
0,0247
0,0915
0,1692
0,2087
0,1931
0, 1429
0,0881
0,0466
0,0215
0,0089
0,0033
0,0011
0,0003
0,0001
0,0000
4,7
0,0091
0,0427
0,1005
0,1574
O, 1849
0,1738
0,1362
0,0914
0,0537
0,0281
0,0132
0,0056
0,0022
0,0008
0,0003
0,0001
5,7
0,0033
0,0191
0,0544
0,1033
0,1472
0,1678
0,1594
0,1298
0,0925
0,0586
0,0334
0,0173
0,0082
0,0036
0,0015
0,0006
0,0002
0,0001
DfSTRIBUICÃO DE POISSON
3,8
0,0224
0,0850
0,1615
0,2046
0,1944
0,14n
0,0936
0,0508
0,0241
0,0102
0,0039
0,0013
0,0004
0,0001
0,0000
4,8
0,0082
0,0395
0,0948
0,1517
0,1820
0,1747
0,1398
0,0959
0,0575
0,0307
0,0147
0,0064
0,0026
0,0009
0,0003
0,0001
5,8
0,0030
0,0176
0,0509
0,0985
0,1428
0,1656
0,1601
O, 1326
0,0962
0,0620
0,0359
0,0190
0,0092
0,0041
0,0017
0,0007
0,0002
0,0001
3,9
0,0202
0,0789
0,1539
0,2001
0,1951
0,1522
0,0989
0,0551
0,0269
0,0116
0,0045
0,0016
0,0005
0,0002
0,0000
4,9
0,0074
0,0365
0,0894
0,1460
0,1789
0,1753
0,1432
0,1002
0,0614
0,0334
0,0164
0,0073
0,0030
0,0011
0,0004
0,0001
5,9
0,0027
0,0162
0,0477
0,0938
0,1383
0,1632
0,1605
0,1353
0,0998
0,0654
0,0386
0,0207
0,0102
0,0046
0,0019
0,0008
0,0003
0,0001
4,0
0,0183
0,0733
O, 1465
0,1954
0,1954
0,1563
0,1042
0,0595
0,0298
0,0132
0,0053
0,0019
0,0006
0,0002
0,0001
5,0
0,0067
0,0337
0,0842
0,1404
0,1755
0,1755
0,1462
0, 1044
0,0653
0,0363
0,0181
0,0082
0,0034
0,0013
0,0005
0,0002
6,0
0,0025
0,0149
0,0446
0,0892
0,1339
0,1606
O, 1606
O, 1377
O, 1033
0,0688
0,0413
0,0225
0,0113
0,0052
0,0022
0,0009
0,0003
0,0001
297
ESTATÍSTICA APLICADA
À -··::o•~';;!;==--='6~,1!===!!6,~2==="6'ô,3'==='6~_,40;. ===ª'=5===-=6=',6'==="'6=7===6~,a"'==~6~,"9==~7",9""···
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
X
À
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
298
0,0022 0,0020 0,0018 0,0017 0,0015 0,0014 0,0012 0,0011 0,0010 0,0009
0,0137 0,0126 0,0116 0,0106 0,0098 0,0090 0,0082 0,0076 0,0070 0,0064
0,0417 0,0390 0,0364 0,0340 0,0318 0,0296 0,0276 0,0258 0,0240 0,0223
0,0848 0,0806 0,0765 0,0726 0,0688 0,0652 0,0617 0,0584 0,0552 0,0521
O, 1294 O, 1249 O, 1205 O, 1162 O, 1118 O, 1076 O, 1034 0,0992 0,0952 0,0912
0,1579 o,1549 0,1519 0,1487 o,1454 0,1420 0,1385 o,1349 0,1314 o,12n
0,1605 0,1601 0,1595 0,1586 0,1575 0,1562 0,1546 0,1529 0,1511 0,1490
0,1399 0,1418 0,1435 0,1450 0,1462 0,1472 0,1480 0,1486 0,1489 0,1490
0,1066 0,1099 0,1130 0,1160 0,1188 0,1215 0,1240 0,1263 0,1284 0,1304
0,0723 0,0757 0,0791 0,0825 0,0858 0,0891 0,0923 0,0954 0,0985 0,1014
0,0441 0,0469 0,0498 0,0528 0,0558 0,0588 0,0618 0,0649 0,0679 0,0710
o,0244 0,0205 0,0205 0,0307 0,0330 o,0353 o,o3n 0,0401 o,0426 o,0452
0,0124 0,0137 0,0150 0,0164 0,0179 0,0194 0,0210 0,0227 0,0245 0,0263
0,0058 0,0065 0,0073 0,0081 0,0089 0,0099 0,0108 0,0119 0,0130 0,0142
0,0025 0,0029 0,0033 0,0037 0,0041 0,0046 0,0052 0,0058 0,0064 0,0071
0,0010 0,0012 0,0014 0,0016 0,0018 0,0020 0,0023 0,0026 0,0029 0,0033
0,0004 0,0005 0,0005 0,0006 0,0007 0,0008 0,0010 0,0011 0,0013 0,0014
0,0001 0,0002 0,0002 0,0002 0,0003 0,0003 0,0004 0,0004 0,0005 0,0006
0,0000 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002 0,0002 0,0002
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0001
7,1
0,0008
0,0059
0,0208
0,0492
0,0874
0,1241
0,1468
0,1489
0,1321
0,1042
0,0740
0,0478
0,0283
0,0154
0,0078
0,0037
0,0016
0,0007
0,0003
0,0001
0,0000
0,0000
7,2
0,0007
0,0054
0,0194
0,0464
0,0836
0,1204
0,1445
o, 1486
0,1337
0,1070
0,0770
0,0504
0,0303
0,0168
0,0086
0,0041
0,0019
0,0008
0,0003
0,0001
0,0000
0,0000
7,3
0,0007
0,0049
0,0180
0,0438
0,0799
0,1167
0,1420
0,1481
0,13510,1096
0,0800
0,0531
0,0323
0,0181
0,0095
0,0046
0,0021
0,0009
0,0004
0,0001
0,0001
0,0000
7,4
0,0006
0,0045
0,0167
0,0413
0,0764
0,1130
0,1394
0,1474
0,1363
0,1121
0,0829
0,0558
0,0344
0,0196
0,0104
0,0051
0,0024
0,0010
0,0004
0,0002
0,0001
0,0000
7,5
0,0006
0,0041
0,0156
0,0389
0,0729
O, 1094
O, 1367
O, 1465
O, 1373
0,1144
0,0858
0,0585
0,0366
0,0211
0,0113
0,0057
0,0026
0,0012
0,0005
0,0002
0,0001
0,0000
7,6
0,0005
0,0038
0,0145
0,0366
0,0696
0,1057
0,1339
0,1454
0,1381
0,1167
0,0887
0,0613
0,0388
0,0227
0,0123
0,0062
0,0030
0,0013
0,0006
0,0002
0,0001
0,0000
7,7
0,0005
0,0035
0,0134
0,0345
0,0663
o.102r
0,1311
0,1442
0,1388
0,1187
0,0914
0,0640
0,0411
0,0243
0,0134
0,0069
0,0033
0,0015
0,0006
0,0003
0,0001
0,0000
7,B
0,0004
0,0032
0,0125
0,0324
0,0632
0,0986
0,1282
0,1428
0,1392
0,1207
0,0941
0,0667
0,0434
0,0260
0,0145
0,0075
0,0037
0,0017
0,0007
0,0003
0,0001
0,0000
7,9
0,0004
0,0029
0,0116
0,0305
0,0602
0,0951
0,1252
0,1413
0,1395
0,1224
0,0967
0,0695
0,0457
0,0278
0,0157
0,0083
0,0041
0,0019
0,0008
0,0003
0,0001
0,0001
8,0
0,0003
0,0027
0,0107
0,0286
0,0573
0,0916
0,1221
0,1396
0,1396
0,1241
0,0993
0,0722
0,0481
0,0296
0,0169
0,0090
0,0045
0,0021
0,0009
0,0004
0,0002
0,0001
'"1;
\!".
..
À
X-
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
X
À
o
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
8,1~
0,0003
0,0025
0,0100
0,0269
0,0544
0,0882
0,1191
0,1378
0,1395
0,1256
0,1017
0,0749
0,0505
0,0315
0,0182
0,0098
0,0050
0,0024
0,0011
0,0005
0,0002
0,0001
0,0000
9, 1
0,0001
0,0010
0,0046
0,0140
0,0319
0,0581
0,0881
0,1145
0,1302
0,1317
0,1198
0,0991
0,0752
0,0526
0,0342
0,0208
0,0118
0,0063
0,0032
0,0015
0,0007
0,0003
0,0001
0,0000
0,0000
8,2_
0,0003
0,0023
0,0092
0,0252
0,0517
0,0849
0,1160
0,1358
0,1392
0,1269
0,1040
0,0776
0,0530
0,0334
0,0196
0,0107
0,0055
0,0026
0,0012
0,0005
0,0002
0,0001
0,0000
9,2
0,0001
0,0009
0,0043
0,0131
0,0302
0,0555
0,0851
0,1118
0,1286
0,1315
0,1210
0,1012
0,0776
0,0549
0,0361
0,0221
0,0127
0,0069
0,0035
0,0017
0,0008
0,0003
0,0001
0,0001
0,0000
8,3
0,0002
0,0021
0,0086
0,0237
0,0491
0,0816
O, 1128
0,1338
0,1388
0,1280
0,1063
0,0802
0,0555
0,0354
0,0210
0,0116
0,0060
0,0029
0,0014
0,0006
0,0002
0,0001
0,0000
9,3
0,0001
0,0009
0,0040
0,0123
0,0285
0,0530
0,0822
O, 1091
o, 1269
O, 1311
0,1219
0,1031
0,0799
0,0572
0,0380
0,0235
0,0137
0,0075
0,0039
0,0019
0,0009
0,0004
0,0002
0,0001
0,0000
8,4
0,0002
0,0019
0,0079
0,0222
0,0466
0,0784
0,1097
0,1317
0,1382
0,1290
0,1084
0,0828
0,0579
0,0374
0,0225
0,0126
0,0066
0,0033
0,0015
0,0007
0,0003
0,0001
0,0000
9,4
0,0001
0,0008
0,0037
0,0115
0,0269
0,0506
0,0793
0,1064
0,1251
0,1306
0,1228
0,1049
0,0822
0,0594
0,0399
0,0250
0,0147
0,0081
0,0042
0,0021
0,0010
0,0004
0,0002
0,0001
0,0000
8,5
0,0002
0,0017
0,0074
0,0208
0,0443
0,0752
0,1066
0,1294
0,1375
0,1299
0,1104
0,0853
0,0604
0,0395
0,0240
0,0136
0,0072
0,0036
0,0017
0,0008
0,0003
0,0001
0,0001
9,5
0,0001
0,0007
0,0034
0,0107
0,0254
0,0483
0,0764
0,1037
0,1232
0,1300
0,1235
0,1067
0,0844
0,0617
0,0419
0,0265
0,0157
0,0088
0,0046
0,0023
0,0011
0,0005
0,0002
0,0001
0,0000
8,6
0,0002
0,0016
0,0068
0,0195
0,0420
0,0722
0,1034
0,1271
0,1366
0,1306
0,1123
0,0878
0,0629
0,0416
0,0256
0,0147
0,0079
0,0040
0,0019
0,0009
0,0004
0,0002
0,0001
9,6
0,0001
0,0007
0,0031
0,0100
0,0240
0,0460
0,0736
0,1010
0,1212
0,1293
0,1241
0,1083
0,0866
0,0640
0,0439
0,0281
0,0168
0,0095
0,0051
0,0026
0,0012
0,0006
0,0002
0,0001
º·ºººº
8,7
0,0002
0,0014
0,0063
0,0183
0,0398
0,0692
0,1003
0,1247
O, 1356
0,1311
0,1140
0,0902
0,0654
0,0438
0,0272
0,0158
0,0086
0,0044
0,0021
0,0010
0,0004
0,0002
0,0001
9,7
0,0001
0,0006
0,0029
0,0093
0,0226
0,0439
0,0709
0,0982
0,1191
0,1284
0,1245
0,1098
0,0888
0,0662
0,0459
0,0297
0,0180
0,0103
0,0055
0,0028
0,0014
0,0006
0,0003
0,0001
0,0000
OISTRIBUICÃO DE PO/SSON
8,8
0,0002
0,0013
0,0058
0,0171
0,0377
0,0663
0,0972
0,1222
0,1344
0,1315
0,1157
0,0925
0,0679
0,0459
0,0289
0,0169
0,0093
0,0048
0,0024
0,0011
0,0005
0,0002
0,0001
9,8
0,0001
0,0005
0,0027
0,0087
0,0213
0,0418
0,0682
0,0955
0,1170
0,1274
0,1249
0,1112
0,0908
0,0685
0,0479
0,0313
0,0192
0,0111
0,0060
0,0031
0,0015
0,0007
0,0003
0,0001
0,0001
8,9
0,0001
0,0012
0,0054
0,0160
0,0357
0,0635
0,0941
0,1197
0,1332
0,1317
0,1172
0,0948
0,0703
0,0481
0,0306
0,0182
0,0101
0,0053
0,0026
0,0012
0,0005
0,0002
0,0001
9,9
0,0001
0,0005
0,0025
0,0081
0,0201
0,0398
0,0656
0,0928
0,1148
0,1263
0,1250
0,1125
0,0928
0,0707
0,0500
0,0330
0,0204
0,0119
0,0065
0,0034
0,0017
0,0008
0,0004
0,0002
0,0001
9,0
0,0001
0,0011
0,0050
0,0150
0,0337
0,0607
0,0911
0,1171
0,1318
0,1318
0,1186
0,0970
0,0728
0,0504
0,0324
0,0194
0,0109
0,0058
0,0029
0,0014
0,0006
0,0003
0,0001
10,0
0,0000
0,0005
0,0023
0,0076
0,0189
0,0378
0,0631
0,0901
0,1126
0,1251
0,1251
0,1137
0,0948
0,0729
0,0521
0,0347
0,0217
0,0128
0,0071
0,0037
0,0019
0,0009
0,0004
0,0002
0,0001
299
.... ,
DfSTR/BUICÃO DE POISSON
ESTATISTJCA APLICADA
-~~~-,--·---=-=;-~=.1====-·--10-··.2-.-==--,-o-,3=:_~---_-1_0_·.4-··-~~~~-lb_;_s===----1-0_; __ -:-10=~=------... ~1~0.~0---1~0~.9~.-.-.--~1~1,:;-o ··~---~!'"-~
X 0000 0 0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 ~·
11;1 - 11,2 - 11,3 11,4 11,5 11,6 11,7 11,8 11,9 12,0
~ g:~ g:~ g:ooo3 0:0003 0,0003 g·:! g·~~~ g·:; g:~~ g:~; ;:
2 0,0021 0,0019 0,0018 0,0016 0,0015 '0049 0'0045 0'0043 0,0040 0,0037 11
3 0,0071 0,0066 O 0061 0,0057 0,0053 O, ' ' 16 0,0109 0,0102 ff
4 0,0110 o,0168 0:0150 º·º
148 ::~::: ::::~: ::::: :~::so 0,0237 0 ,0224 !;
5 0,0360 0,0342 0,0325 0,0309 0,0513 0,0491 0,0470 0,0450 0,0430 0,0411 l
6 0,0606 0,0581 0,0558 0,0535 0,0769 0,0743 0,0718 0,0694 0,0669 0,0646 ~'.
7 0,0874 0,0847 0,0821 0,0795 0,0985 0,0961 0,0936 0,0912 0,0888 ;:;
8 0,1103 0,1080 0,1057 º·1º33 º·
1009 2 0,1124 0,1105 0,1085 ;::
9 o,1238 o,1224 o,1209 o,1194 o.1111 o.1160 o,114 o:·
0,1230 0,1222 0,1214 0,1204 0,1194 lt
10 0,1250 0,1249 0,1246 g:~~j! g:~~: 0,1185 0,1189 0,1192 0,1193 0,1194 ~i·
11 0,1148 0,1158 0,1166 0,1032 0,1047 0,1060 0,1072 0,1084 0,1094 :!;
12 o.0966 º·º984 0.1001 o.1017 º·ºª34 º·ºª53 o.0872 0,0891 º·º9º9 º·º926 m:
13 0,0151 g:g~~ g:g~: g::b! 0•0625 0 ,0646 0,0661 0,0601 0.0100 0,0120 ri::
14 0,0542 0,0457 0,0476 0,0495 0,0514 0,0534 1;·
15 0,0365 0,0383