Buscar

Apostila_Estatistica_2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 90 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 90 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 90 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
 
 
 
 
 
 
 
 
Apostila Básica 
de Estatística 2 
Silvio Alves de Souza 
 
 
 2
ÍNDICE 
 
 
Introdução................................................................................................................... 3 
Software R .................................................................................................................. 4 
Software SPSS ........................................................................................................... 5 
Distribuição normal de probabilidade ......................................................................... 6 
Testes de Hipótese paramêtrico ................................................................................11 
Testes Não-Paramétrico ............................................................................................25 
Distribuição Amostral .................................................................................................31 
Regressão Múltipla ....................................................................................................52 
Experimentos Multinomiais ........................................................................................65 
Tabela de Contingência .............................................................................................71 
Introdução a Séries Temporais ..................................................................................78 
Bibliografia .................................................................................................................87 
Anexo 1 .....................................................................................................................88 
 3
 
Introdução 
 
 Esta apostila é uma tentativa de compor parte do conteúdo da disciplina 
Estatística 2 do CEFET – MG. Esta disciplina é ministrada no curso de 
Administração. 
 Seu conteúdo é de acordo com o plano de ensino do curso citados acima. Na 
verdade é um material complementar para os alunos. Ele não os isenta da 
necessidade de consultar outras bibliografias. 
 A disciplina de Estatística é abordada com o auxílio de vários softwares para 
tratamento de dados, entre eles o R e o SPSS. 
 Os exemplos e exercícios foram montados com o objetivo de contextualizar o 
conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos 
para que o aluno possa perceber a utilização da Estatística em cada área do 
conhecimento. 
 
 
 
 4
Software R 
 
 O software R é um software livre utilizado para análise de dados, cálculo e 
construão de gráficos. 
 Sua construção foi feita utilizando vários colaboradores. 
 Para sua utilização é necessário conhecimento de sua linguagem própria, ou 
seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas 
utilizando seus comandos e outras são necessárias a construção de algoritmos. 
 O R tem um help que os ajuda na execução das tarefas. 
 No decorrer do curso iremos utilizá-lo para análise de vários dados e para a 
construção de alguns gráficos específicos. Os comandos necessários bem como a 
utilização do software serão apresentados no decorrer das aulas. 
 A utilização deste software é uma tentativa de demonstrar como utilizar a 
tecnologia computacional na análise de dados. 
No anexo 2 encontra-se alguns comandos úteis. 
 
 5
Software SPSS 
 
 O software SPSS é um software não-livre utilizado para análise Estatística em 
geral. 
 Por não ser um software livre muitas pessoas preferem a utilização do 
software R. No entanto ele é muito utilizado no meio empresarial. 
 Ao contrário do R o SPSS é bem simples de utilizar. Neste caso não é 
necessário conhecimento dos comandos. 
 O SPSS tem um help que os ajuda na execução das tarefas. 
 No decorrer do curso iremos utilizá-lo para análise de vários dados e para a 
construção de alguns gráficos específicos. 
 A utilização deste software também é uma tentativa de demonstrar como 
utilizar a tecnologia computacional na análise de dados. 
 
 
 
 
 6
 
Distribuição normal de probabilidade 
 
Uma variável aleatória X tem distribuição normal se seu histograma tem a 
forma de um sino. 
 
 
 
 
 
 
 
 
 
 
Definição 
Dados os parâmetros µ e 0>σ reais, a função densidade de probabilidade 
da normal é dada por: 
2)(
2
1
.
2.
1
)( σ
µ
πσ
−
−
=
x
exf
 
Onde µ=)(XE e σ=)(XVar . 
 
Podemos perceber que o cálculo de probabilidade usando a distribuição 
normal é muito difícil devido ao tipo de função. Uma forma de contornarmos este 
problema é utilizar a distribuição normal padronizada. 
A distribuição normal padronizada tem este nome pois sua média é 0 e a 
variância é um. Com isso os cálculos ficam muito mais práticos pois podemos utilizar 
as tabelas de probabilidade normal padronizada. 
Uma conseqüência importante do fato de uma distribuição Normal ser 
completamente caracterizada por sua média e desvio-padrão é que a área sob a 
curva entre um ponto qualquer e a média é função somente do número de desvios-
padrões que o ponto está distante da média. 
Vendas de auto peças
6000,0
5500,0
5000,0
4500,0
4000,0
3500,0
3000,0
2500,0
2000,0
1500,0
1000,0
500,0
0,0
200
100
0
Std. Dev = 994,59 
Mean = 2516,6
N = 1488,00
 7
Como existem uma infinidade de distribuições normais (uma para cada média 
e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso, 
espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a 
contar da média. 
Para padronizar um conjunto de dados que tem distribuição normal é só 
aplicar a fórmula 
σ
µ−
=
X
z 
 
Utilização da tabela da normal padronizada 
 A tabela nos dá a área sobre o gráfico, ou seja, a probabilidade. 
 Mais a frente veremos que o desvio-padrão é alterado quando vamos 
padronizar a média de um conjunto de dados. Este resultado é encontrado em um 
teorema denominado “Teorema Central do Limite”. 
 
Propriedades da distribuição normal 
 
1) a curva é simétrica em torno da média; 
2) ( ) 0xflim
x
=
∞→
 
3) a área total sob a curva é igual a 1; 
 
área=1
área=0,5 área=0,5
 
 
 8
Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercado é 
uma característica de qualidade importante. 
Sabe-se que essa resistência segue um modelo Normal com média 40 psi e 
desvio padrão 2 psi. 
Se a especificação estabelece que a resistência deve ser maior que 35 psi, 
qual a probabilidade que uma sacola produzida com este material satisfaça a 
especificação? 
{ } { }35XP135XP ≤−=≥ 
{ } { }5,2
2
4035
35 −≤=





 −
≤=≤ zPzPXP
 
Pela tabela da normal padronizada temos probabilidade de 0,0062. 
Logo a resposta é 1-0,0062 = 99,38%. 
 
 
 
Comparação entre média e variância 
 
A
C
B
x
f(x)
 
 
 9
a) da distribuição A para B muda a tendência central, mas a variabilidade é 
constante; 
b) da distribuição A para C muda a variabilidade, mas a tendência central é 
constante; 
c) da distribuição B para C muda a tendência central e a variabilidade. 
 
 
 
Exercícios 
1) Utilizando a tabela da distribuição normal padronizada calcule: 
a) ( )42,0zP < 
b) ( )75,0zP < 
c) ( )30,0zP −< 
d) ( )56,0zP > 
e) ( )72,0z25,0P << 
f) ( )20,0z25,0P <<− 
g) o valor de z tal que ( ) 90,0zZzP =<<− . 
 
2) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha 
distribuição normal com média 2,5 e desvio-padrão 0,6. Selecionando, 
aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar 
absorção de água entre 2% e 3,5%? 
 10 
3) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os 
pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g. 
Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar 
a) entre 200 e 250g; 
b) mais de 230g; 
c) menos que 150g. 
 
4) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e 
desvio-padrão 4. Calcule: 
( )8X2P <≤11 
Testes de Hipótese paramêtrico 
 
Teste de Hipótese 
 
Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de 
uma população. 
Podemos estar interessados em saber informações sobre a média, a 
proporção ou a variância. 
 
Componentes de um teste de hipótese 
 
1) Hipótese nula - 0H : é uma afirmação sobre o valor de um parâmetro 
populacional. Deve conter o sinal de igualdade e deve escrever-se como ≥≤= ,, . 
2) Hipótese alternativa - 1H : é a afirmação que deve ser verdadeira se a hipótese 
nula for falsa. Não deve conter o sinal de igualdade. 
 
Exemplos: 
a) Testar a afirmação de que a média populacional é 75. 
Solução: Neste caso temos 75:0 =µH e 75:1 ≠µH . 
 
b) Testar a afirmação de que a média é no máximo 2,50. 
Solução: Neste caso temos 50,2:0 ≤µH e 50,2:1 >µH . 
 
3) Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira. 
 
 
 
0H verdadeira 0H falsa 
Rejeita 0H Erro tipo I Acerto 
Não rejeita 0H Acerto Erro tipo II 
 
 
4) Nível de significância - α : A probabilidade do erro tipo I ocorrer. 
 12 
5) Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa. 
6) A probabilidade de ocorrer o erro tipo II é β . 
7) Estatística de teste: É uma estatística amostral baseado nos dados amostrais. 
8) Região crítica: É o conjunto de todos os valores da estatística de teste que 
levam à rejeição da hipótese nula. 
9) Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores 
da estatística de teste que não levam à rejeição da hipótese nula. 
 
Conclusões no teste de hipótese 
 
Em um teste de hipótese concluímos por: 
• rejeitar a hipótese nula ou 
• não rejeitar a hipótese nula. 
 
 
 
 
Tipos de teste 
 
• Bilateral (sinal de 1H : ≠ ): a região crítica está situada nas duas regiões. 
Neste caso cada área tem valor 
2
α
. 
 
 
 13 
 
 
• Unilateral esquerdo (sinal de 1H : <): a região crítica está situada na parte 
esquerda. Neste caso ( ) α=ItipoErroP . 
 
 
 
• Unilateral direito (sinal de 1H : >): a região crítica está situada na parte direita. 
( ) α=ItipoErroP . 
 
 
 14 
Teste de uma afirmação sobre uma média: grandes amostras 
 
 Considere uma amostra razoavelmente grande ( 30≥n ) para valer o teorema 
central do limite, ou que os dados provenham de uma distribuição aproximadamente 
normal. Para testarmos alguma informação com respeito à média populacional 
utilizamos a estatística de teste dada por: 
 
Estatística de teste 
 
n
x
z x
σ
µ−
= 
Os valores críticos são encontrados na Tabela A – 2 
 
Obs.: Caso σ seja desconhecido podemos substituí-lo por s . 
 
Notação 
x : média amostral; 
x
µ : média populacional. 
σ : desvio-padrão populacional; 
n : tamanho da amostra; 
 
 
Exemplo: 
 O tempo médio entre falhas de um rádio da Telektronic Companhy para 
aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de 
rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um 
tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao 
nível de significância de 0,05, teste a afirmação de que o tempo médio, após as 
modificações, é menor que 420 horas . 
 
Solução: 
a) As hipóteses são: 



<
≥
420:
420:
1
0
µ
µ
H
H
 
 15 
b) O teste é unilateral esquerdo, pois o sinal de 1H é <. 
c) O nível de significância é 05,0=α ; 
d) Os valores críticos são 645,1=αz ; Logo temos: 
 
e) Os dados amostrais são: 385=x e 24=s ; 
f) Como n=35 ( 30≥n ), a estatística de teste é dada por: 
 
63,8
35
24
420385
−=
−
=
−
=
n
x
z x
σ
µ
 
 
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então 
rejeitamos 0H . 
Exercícios 
 
1) O gerente de uma empresa de transporte suspeita da afirmação de um 
vendedor de pneus de que o seu produto tem uma vida média de, ao menos, 
28 000 milhas. Para verificar a afirmação, a firma instala 40 desses pneus em 
seus caminhões, obtendo uma vida média de 27 563 milhas, com desvio-
padrão de 1 348 milhas. Qual a conclusão do gerente, se a probabilidade de 
um erro tipo I deve ser 0.01? 
 
2) A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas. 
Por similaridade com outros processos de fabricação, supomos o desvio-
padrão igual a 120 horas. Utilizando um nível de significância de 2 %, teste a 
afirmação de que a duração média de todas as lâmpadas dessa marca é igual 
a 1600 horas. 
 16 
Teste de uma afirmação sobre uma média: pequenas amostras 
 
Considere uma amostra pequena ( 30<n ). Suponha que: 
a) os dados provenham de uma distribuição normal 
b) o desvio-padrão populacional σ é desconhecido. 
Para testarmos alguma informação com respeito à média populacional 
utilizamos a estatística de teste dada por: 
 
Estatística de teste 
 
n
s
x
t x
µ−
= 
Os valores críticos são encontrados na Tabela A – 3 
O número de Graus de liberdade = n – 1 
 
Obs.: Caso a variância populacional σ seja conhecida então devemos utilizar a 
distribuição normal, independentemente do tamanho da amostra. 
n
x
z x
σ
µ−
= 
Exemplo: 
 Os sete valores relacionados a seguir são cargas axiais (em libras) da 
primeira amostra de sete latas de alumínio de 12oz. A carga axial de uma lata é o 
peso máximo que seus lados podem suportar, e deve ser superior a 165 libras, 
porque esta é a pressão máxima aplicada quando se fixa a tampa no lugar. Ao nível 
de significância de 0,01, teste a afirmação do engenheiro supervisor de que esta 
amostra provém de uma população com média superior a 165 libras. 
 
270 273 258 204 254 228 282 
 
 
Solução: 
 17 
a) As hipóteses são: 



>
≤
165:
165:
1
0
µ
µ
H
H
 
b) O teste é unilateral direito, pois o sinal de 1H é >; 
c) O nível de significância é 01,0=α ; 
d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é 143,3=αt ; 
Logo temos: 
 
 
 
e) Os dados amostrais são: 7,252=x e 6,27=s ; 
 
Como n = 7 ( 30<n ), a estatística de teste é dada por: 
 
407,8
7
6,27
1657,252
=
−
=
−
=
n
s
x
t x
µ
 
 
f) Conclusão: Como a estatística de teste está na dentro da região crítica, então 
rejeitamos 0H . 
Exercícios 
 
1) Admitindo que a pressão sanguínea arterial em homens siga o modelo 
Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo 
os seguintes resultados: 
 
82 - 84 - 78 - 85 - 69 - 80 - 75 
 
 18 
 Utilizando um nível de significância de 0,02 , teste a afirmação de a média da 
 pressão sanguínea é de 82. 
2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve 
as seguintes medidas em metros: 
 
4,51 5,38 4,84 5,33 4,74 4,99 5,15 5,52 5,82 5,45 
4,68 4,74 5,53 5,40 4,72 4,97 5,24 4,94 4,75 5,50 
4,81 5,25 4,86 4,93 4,95 
 
Pode-se afirmar, com com nível de significância de 5%, que tais barras foram 
sacadas de um lote cujo comprimento médio é de 5,00 metros? 
 
Teste de uma afirmação sobre variância ou desvio-padrão 
 
Ao testar uma hipótese sobre o desvio-padrão σ ou a variância 2σ de uma 
população, admitimos que os valores da população sejam distribuídos normalmente. 
 
Notação 
 
n = tamanho da amostra 
2s = variância amostral 
2σ = variância populacional 
 
Para testar uma informação sobre desvio-padrão σ ou a variância 2σ a 
estatística de teste é dada por: 
 
Estatística de teste 
( )
2
2
2 1
σ
χ
sn ⋅−
= 
Os valores críticos são encontrados na Tabela A – 4 
O número de Graus de liberdade = n – 1 
 
 
 19 
 
 
Exemplo: 
 O tempo para transmitir 10 MB em determinada rede de computadores varia 
segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos. 
Depois de algumas mudanças na rede, acredita-se numa redução no tempo de 
transmissão de dados, Além de uma possível mudança na variabilidade. Foram 
realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletadosos tempos de transmissão, em segundos: 
 
6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,3 6,6 6,3 
 
Resolva: 
a) Existe evidência suficiente de que as mudanças na rede de computadores 
alteraram a variabilidade no tempo de transmissão de dados? Ao nível de 
0,05. 
b) Existe evidência suficiente de que as mudanças na rede de computadores 
alteraram o tempo médio de transmissão de dados? Ao nível de 0,05 
 
Solução da letra a: 
 
a) As hipóteses são: 




≠
=
3,1:
3,1:
2
2
0
1
σ
σ
H
H
 
b) O teste é bilateral direito, pois o sinal de 1H é ≠ ; 
c) O nível de significância é 05,0=α ; 
 20 
d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são 
700,22 =χ e 023,192 =χ ; Logo temos: 
 
 
 
 
e) Os dados amostrais indicam: 261,02 =s ; 
f) a estatística de teste é dada por: 
 
807,1
3,1
261,0)110(2 =
⋅−
=χ 
 
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então 
rejeitamos 
0H . 
 
Exercícios 
 
1) A cofap alega que a variância da vida média de seus amortecedores é de nove 
meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida 
média das referidas peças. A 5% de significância, isso lhe permite refutar a alegação 
da Cofap? 
 
2) Um laboratório fez oito determinações da quantidade de impurezas em porções 
de certo composto. Os valores eram (em mg): 
 
12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7 
 21 
 
 Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05. 
 
3) Uma máquina de enchimento automático é usada para encher garrafas com 
detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância 
amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do 
volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção 
inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em 
demasia. 
Há evidência nos dados da amostra que sugira que o fabricante tenha um problema 
com garrafas cheias com falta e excesso de detergente? Use nível de significância 
de 5%. 
 
Observação: 
Quando vamos trabalhar com graus de liberdade cujos valores críticos não são 
tabelados podemos aproxima-los utilizando a fórmula a seguir 
 
( )22 12
2
1
−+= kzχ 
onde 
k é o número de graus de liberdade 
z é o valor crítico, encontrado na tabela normal padronizada. 
Exemplo: 
1) Suponha que queiramos fazer o teste 




<
≥
21,1:
21,1:
2
2
0
1
σ
σ
H
H
 
com 05,0=α e 120=n teremos: 
a) 119=k 
b) 645,1−=z 
c) ( ) ( ) 529,9411192645,1
2
1
12
2
1 222 =−×+−=−+= kzχ 
 
 
 22 
TESTE DE HIPÓTESE PARA PROPORÇÃO 
 
 O teste para proporção é aplicado em situações nas quais queremos verificar 
se a proporção de algum atributo na população pode ser igual a certo valor 0p . 
SUPOSIÇÕES: 
1) São verificadas as condições para um experimento binomial. Isto é, temos um 
número fixo de provas independentes com probabilidade constante, e cada 
prova comporta dois resultados, que designamos “sucesso” e “falha”. 
 
2) As condições 5≥np e 5≥nq são ambas verificadas, de modo que a 
distribuição binomial das proporções amostrais pode ser aproximada por uma 
distribuição normal com np=µ e npq=σ . Esta suposição é necessária 
devido ao fato de termos uma boa aproximação da estatística de teste, que 
neste caso é normal. 
 
NOTAÇÃO: 
n : número de provas; 
p : proporção populacional (usada na hipótese nula); 
n
x
p =ˆ : proporção amostral; 
pq −=1 
 
 
 A estatística de teste é dada por: 
ESTATÍSTICA DE TESTE: 
n
pq
pp
z
−
=
ˆ
 
 Os valores críticos são obtidos na tabela A – 2 (distribuição normal 
padronizada). 
 
 23 
Exemplos: 
1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua 
linha de produção para análise da qualidade. As peças da amostra são 
classificadas como defeituosas ou não, sendo que a política da empresa 
exige que o processo produtivo seja revisto se houver evidência de mais de 
1,5% de peças defeituosas. Na última amostra, foram encontradas nove 
peças defeituosas. Usando nível de significância de 1%, o processo precisa 
ser revisto? 
Solução: 
h) As hipóteses são: 



>
≤
015,0:
015,0:
1
0
pH
pH
 
i) O teste é unilateral direito, pois o sinal de 1H é > . 
j) O nível de significância é 01,0=α ; 
k) O valor crítico é 33,2=αz ; Logo temos: 
 
 
 
l) Os dados amostrais são: 018,0
500
9
ˆ ==p 
m) Critérios para a aproximação normal: 
 
5,7015,0500 =⋅=⋅ pn e 
5,492985,0500)015,01(500 =⋅=−⋅=⋅ qn 
 
n) Estatística de teste é dada por: 
 
 24 
552,0
005436,0
003,0
500
985,0015,0
015,0018,0ˆ
==
⋅
−
=
−
=
n
pq
pp
z 
 
o) Conclusão: Como a estatística de teste está fora da região crítica, então não 
rejeitamos 0H . 
 
2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em 
821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões 
resultaram em hospitalização do motorista. Ao nível de significância de 0,01, 
teste a afirmação de que a taxa de hospitalização nos casos de air-bag é 
inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados 
com cintos automáticos de segurança. 
3) O controle estatístico de certo processo de fabricação de determinada 
lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito. 
Para verificar a validade desta afirmação, foi coletada uma amostra de 150 
lâmpadas das quais 138 estavam sem defeito. 
Com 1% de significância, há evidência de que o processo está de acordo com 
o esperado? 
 
 25 
Testes Não-Paramétrico 
 
 
 Os testes não-paramétricos são utilizados quando não temos 
informação sobre a distribuição da população. 
 
Vantagens- Menos suposições são necessárias. Em muitos casos, apenas 
dados nominais (categóricos) ou ordinais (ranks) são necessários, ao invés de 
numéricos (intervalares). 
 
Desvantagens- Freqüentemente preferimos ter um modelo bem definido 
com parâmetros importantes tais como média e variância incluídas para melhor 
interpretação. 
 
São vários os tipos de testes não-paramétricos: 
 
� Teste dos sinais; 
� Teste de postos com sinais de Wilcoxon para duas amostras 
dependentes; 
� Teste da soma de postos de Wilcoxon para duas amostras 
independentes; 
� Teste de kruskal-Wallis; 
� Correlação por postos; 
� Teste de repetições para aleatoriedade; 
� Teste do qui-quadrado; 
� Teste do qui-quadrado para independência ou associação; 
� Teste de Mann-Whitney; 
� Teste da mediana; 
 
 
Não se refere à distribuição da estatística de teste, mas ao fato de que os 
métodos podem ser aplicados a amostras de populações de qualquer distribuição. 
Esta deve ser especificada apenas em termos gerais (ser continua, simétrica, 
 26 
idêntica) sem precisar pertencer a alguma família (como normal, uniforme, 
exponencial, etc). 
 
QUANDO PRECISAMOS DOS MÉTODOS NÃO PARAMÉTRICOS? 
 
Mesmo se o teste paramétrico não depende crucialmente da suposição de 
que a amostra vem de uma distribuição particular, se há alguma dúvida quanto a 
isso o teste não paramétrico, depende de suposições mais fracas, é preferível. 
Métodos não paramétricos são usualmente os únicos disponíveis para dados que 
simplesmente especificam ordem ou contagem em várias categorias. 
 
Teste de Correlação por postos 
 
Referência: TRIOLA, Mario F. Introdução à estatística. 
 
 O teste de correlação por postos pode ser utilizado para verificar se existe 
alguma associação entre duas variáveis. 
 A taxa de eficiência do teste é de 91%. 
 
Notação: 
 
sr : coeficiente de correlação por postos para dados amostrais emparelhados; 
sρ : coeficiente de correlação por postos para todos os dados populacionais 
emparelhados; 
n : número de pares de dados; 
d : diferença entre postos para as duas observações dentro de um par. 
 
 
 O índice s é utilizado em homenagem a Charles Spearman (1863- 1945). 
 Ao testar se há ou não correlação, testamos as seguintes hipóteses: 
 



≠
=
0:
0:
1
0
s
s
H
H
ρ
ρ
 
 27 
 
 
Estatística de teste 
 
 A estatística de teste, para o caso em que não há empate entre os postos, é 
dada por: 
 
)1(
6
1
2
2
−
−=
∑
nn
d
rs 
onde cada valor de d é uma diferença entre os postos para um par de dados 
amostrais. 
 
 Caso haja empate entre os postos então a estatística de teste é dada por: 
 
∑ ∑∑ ∑
∑ ∑ ∑
−−
−
=
2222
)(.)(
))((
yynxxn
yxxyn
rs 
onde x = posto de X e y = posto de Y. 
Valores críticos: 
 
Se 30≤n , consulte tabela A – 9. 
Se 30>n , use a fórmula 
1−
±
=
n
z
rs 
onde o valor de z corresponde ao nível de significância 
 
 
 28 
Exemplos 
 
1) A tabela a seguir apresenta 9 dados do volume desgastado do aço e da 
viscosidade do óleo. 
 
Volume desgastado 
Y (10-4 mm3) 
Viscosidade 
X 
240 1,6 
181 9,4 
193 15,5 
155 20 
172 22 
110 35,5 
113 43 
75 40,5 
94 33 
 
Há correlação entre as duas variáveis? Use 05,0=α . 
Solução: 
Passo 1: As hipóteses são 



≠
=
0:
0:
1
0
s
s
H
H
ρ
ρ
 
Passo 2: Nível de significância é 05,0=α 
Passo 3: Utilizaremos estatística não-paramétrica pois não temos informação sobre 
a população original. 
Passo 4: Estatística de teste: 
 
Volume desgastado 
Y (10-4 mm3) 
Viscosidade 
X Posto Y Posto X 
d 2d 
240 1,6 9 1 8 64 
181 9,4 7 2 5 25 
193 15,5 8 3 5 25 
155 20 5 4 1 1 
172 22 6 5 1 1 
110 35,5 3 7 4 16 
113 43 4 9 5 25 
75 40,5 1 8 7 49 
94 33 2 6 4 16 
 
Assim temos ∑ = 2222d 
 29 
85,0
85,11
720
1332
1
)181(9
)222(6
1
)1(
6
1
2
2
−=
−=
−=
−
−=
−
−=
∑
nn
d
rs
 
 
Passo 5: valores críticos: 
 
Pela tabela A-9, os valores críticos são 683,0± . 
Como 85,0−=sr está dentro da região crítica então rejeitamos 0H . Logo existe 
correlação. 
 
0
50
100
150
200
250
300
0 10 20 30 40 50
 
 
 30 
2) Os valores a seguir são referentes às vendas de tubos de aço carbono de certa indústria 
no período especificado. 
 
X = Ano Y = Venda 
80 58 
81 85 
82 123 
83 81 
84 57 
85 118 
86 174 
87 147 
88 190 
89 205 
90 255 
91 223 
92 216 
93 297 
94 184 
95 224 
96 318 
 
Existe correlação entre as variáveis? 
 
 
 31 
Distribuição Amostral 
 
 
 Retirado dos livros: Estatística aplicada á Administração, Stevenson e 
Introdução á Estatística, Triola. 
 
 Uma distribuição amostral é uma distribuição de probabilidade que nos 
mostra como é a variação da estatística amostral ocasionada por variações na 
amostragem aleatória. 
 
Uma estatística amostral é qualquer função baseada nos dados amostrais 
de uma amostra aleatória. 
Uma estimativa é um valor específico, ou um intervalo de valores, numérico 
de uma estatística amostral. 
Um estimador é uma estatística amostral utilizada para obter uma 
aproximação de um parâmetro populacional. 
Exemplo: 
1) Estimador da média populacional µ : ∑
=
=
n
i
ix
n
x
1
1
. 
2) Estimador da variância populacional 2σ : 
























−
−
=
∑
∑ =
=
n
x
x
n
s
n
i
i
n
i
i
2
1
1
22
1
1
. 
Propriedade do estimador: 
 
Um estimador θ̂ é dito não tendencioso para o parâmetro populacional θ , se 
( ) θθ =ˆE 
Se o estimador θ̂ for tendencioso, então a tendenciosidade é dada por 
( ) θθ −ˆE 
 
onde ( ) ∑ ==
i
ixXxPXE )( . 
 
 
 32 
Para verificar se um estimador é ou não tendencioso deveremos calcular a 
esperança. Para o cálculo desta esperança algumas propriedades são 
fundamentais: 
 
E1) Se cX = , então ( ) cXE = ; 
Prova: X é uma variável aleatória discreta. Então ( ) cccXPcXE ==== 1.)(. . 
 
E2) Se baXY += é uma variável aleatória, então ( ) bXaEYE += )( . 
 
Quando estamos interessados em avaliar qual o melhor estimador entre 
vários, utilizamos o erro quadrático médio – EQM. A seguir temos a definição do 
EQM 
 
O erro quadrático médio de um estimador θ̂ do parâmetro θ é dado por 
( ) ( )2ˆˆ θθθ −= EEQM 
Ou 
( ) ( ) ( )2ˆˆ idadetendenciosVarEQM += θθ 
 
Algumas propriedades da variância: 
 
V1) Se cX = , então 0)( =XVar ; 
 
V2) )()( XVarbXVar =+ 
 
V3) )()( 2 XVarabaXVar =+ 
 
V4) )()()( 22 YVarbXVarabYaXVar +=+ 
 
Exemplo:(Montgomery) Seja 721 ,,, XXX K uma amostra aleatória de uma 
população com média µ e variância 2σ . Considere os seguintes estimadores: 
 33 
7
721
1
XXX +++
=
K
θ 
2
2 461
2
XXX +−
=θ 
Resolva: 
a) Verifique se os estimadores são não-tendenciosos. 
b) Qual é o melhor estimador? 
 
Solução: 
a) A esperança do primeiro estimador é 
µ
µµµ
θ
=
+++
=
+++
=





 +++
=
7
7
)()()(
7
)(
721
721
1
K
K
K
XEXEXE
XXX
EE
 
A esperança do segundo estimador é 
( )
µ
µµµ
θ
=
+−
=
+−
=





 +−
=
2
2
2
)()()(2
2
2
461
461
2
XEXEXE
XXX
EE
 
Verificamos que os dois estimadores não são tendenciosos. 
b) Variância do estimador 1 
2
222
2
721
721
1
7
1
49
7
)()()(
7
)(
σ
σσσ
θ
=
+++
=
+++
=





 +++
=
K
K
K
XVarXVarXVar
XXX
VarVar
 
Variância do estimador 2 
 34 
( )
( )
2
222
461
461
461
2
4
6
4
4
4
)()()(4
2
4
1
2
2
σ
σσσ
θ
=
++
=
++
=
+−=





 +−
=
XVarXVarXVar
XXXVar
XXX
VarVar
 
O melhor estimador é aquele que tem menor EQM. Como a tendenciosidade é nula 
para ambos estimadores, então 
( ) ( ) ( )
( )
2
1
2
11
7
1
ˆ
ˆˆ
σ
θ
θθ
=
=
+=
Var
idadetendenciosVarEQM
 
e 
( ) ( ) ( )
( )
2
2
2
22
4
6
ˆ
ˆˆ
σ
θ
θθ
=
=
+=
Var
idadetendenciosVarEQM
 
 Como ( ) ( )21 ˆˆ θθ EQMEQM < , então o melhor estimador é o primeiro. 
 
 Para entendermos como é o comportamento da amostra considere o exemplo 
a seguir. 
Exemplo: considere uma população formada pelos elementos 
 
1 4 2 3 
 
Percebemos que a média populacional é de 2,5. 
Vamos então analisar a distribuição amostral. Para isso suponha todas as 
amostras de tamanho 2 sem reposição. Temos 62,4 =C amostras representadas no 
quadro a seguir 
 
 35 
Amostras Média 
1 e 4 2,5 
1 e 2 1,5 
1 e 3 2 
4 e 2 3 
4 e 3 3,5 
2 e 3 2,5 
 
Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro 
valor da média populacional. As outras 4 amostras não encontramos a verdadeira 
média, no entanto servem como uma aproximação. 
Poderíamos, por exemplo, tomar amostras de tamanho 3 sem reposição. 
Neste caso teremos 43,4 =C amostras representadas no quadro a seguir 
 
Amostras Média 
1, 4 e 2 
3
7
 
1, 4 e 3 
3
8
 
1, 2 e 3 
3
6
 
4, 2 e 3 
3
9
 
Neste caso percebemos que nenhuma amostra tem média igual à média 
populacional. 
 
Tipos de estimativa 
 
Uma estimativa pontual é um valor único usado para aproximar um 
parâmetro populacional. 
 
Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de 
valores que tem probabilidade de conter o verdadeiro valor do parâmetro 
populacional. 
 36 
 
O grau de confiança é a probabilidade α−1 de o intervalo de confiança 
conter o verdadeiro valor do parâmetro populacional. 
 
Um valor crítico é o número na fronteira que separa os valores das 
estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance 
de ocorrer. 
 
Quando utilizamos dados amostrais para estimar um parâmetro populacional 
podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima 
provável (com probabilidade α−1 ) entre o valor amostral e o verdadeiro valor 
populacional. A margem de erro E é chamada também de erro máximo da 
estimativa. 
 
Para entendermos o erro, tomemos o exemplo anterior com amostras de 
tamanho 2: 
Amostras Média Erro 
1 e 4 2,5 0 
1 e 2 1,5 1 
1 e 3 2 0,5 
4 e 2 3 0,5 
4 e 3 3,5 1,5 
2 e 3 2,5 0 
 
 Neste caso o erro máximo foi de 1,5. 
 
 
 37 
O quadro a seguir nos mostra como calcular os erros, o intervalo de confiança 
e o tamanho da amostra para uma população infinita. 
 
Parâmetro Cálculo do 
erro 
Intervalo de confiançaTamanho de 
amostra 
Média 
(Grandes 
amostras) 
n
zE
σ
α ⋅=
2
 ExEx +<<− µ 
2
2







 ⋅
=
E
z
n
σα
 
Média 
(Pequenas 
amostras) 
n
s
tE ⋅=
2
α 
ExEx +<<− µ 2
2







 ⋅
=
E
st
n
α
 
Proporção 
n
qp
zE
ˆˆ
2
⋅= α 
EppEp +<<− ˆˆ 
2
2
2
ˆˆ
E
qpz
n




=
α
 ou 
2
2
2
25,0
E
z
n




=
α
 
Variância ( ) ( )
2
2
2
2
2 11
LR
snsn
χ
σ
χ
−
<<
−
 
 
Tabelado 
 
 38 
Quando trabalhamos com populações finitas e a amostragem constitui mais 
de 5% da população devemos aplicar o fator de correção. Assim teremos: 
 
Parâmetro Cálculo do erro Intervalo de 
confiança 
Tamanho de amostra 
Média 
(Grandes 
amostras) 
12 −
−
⋅=
N
nN
n
zE
σ
α 
ExEx +<<− µ 
)1(222
2
22
2
−+
=
NEz
Nz
n
σ
σ
α
α
 
Média 
(Pequenas 
amostras) 
12 −
−
⋅=
N
nN
n
s
tE α 
ExEx +<<− µ 
)1(222
2
22
2
−+
=
NEst
Nst
n
α
α
 
Proporção 
1
ˆˆ
2 −
−
⋅=
N
nN
n
qp
zE α 
EppEp +<<− ˆˆ 
)1(222
2
22
2
−+
=
NEz
Nz
n
σ
σ
α
α
 
 
Exercícios: (Triola) 
 
1) Para as temperatura do corpo humano temos 106=n , Fx º20,98= e 
Fs º62,0= . Para um nível de significância de 5% determine: 
a) a margem de erro E ; 
b) O intervalo de confiança para µ . 
 
2) Um economista deseja estimar a renda média para o primeiro ano de 
trabalho de um bacharel por uma faculdade, que teve a feliz idéia de fazer 
um curso de estatística. Quantos valores de renda devem ser tomados, se o 
economista deseja ter 95% de confiança em que a média amostral esteja a 
$500 da verdadeira média populacional? Suponha que saibamos, por um 
estudo prévio, que, para tais rendas, 6250$=σ . 
 39 
3) Deseja-se estimar o preço médio de venda de um livro-texto para uma 
faculdade. Quantos exemplares devemos selecionar, para termos 95% de 
confiança de que a média amostral esteja a menos de $2 da verdadeira 
média populacional? (Suponha que os preços variam entre $10 a $90. Use 
4/amplitude=σ ) 
 
4) Os pesquisadores de opinião são atormentados por uma diversidade de 
fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a 
1068 americanos, 673 informaram ter secretária eletrônica (com base em 
dados da International Mass Retail Association, relatado em USA Today). 
Com esses resultados amostrais, determine: 
 
a) A estimativa pontual da proporção populacional de todos os americanos 
que têm secretária eletrônica; 
b) A estimativa intervalar de 95% da proporção populacional de todos os 
americanos que têm secretária eletrônica. 
5) Selecionados aleatoriamente e pesquisados 500 universitários, verificou-se 
que 135 deles têm computadores pessoais (com base em dados da America 
Passage Media Corporation). 
a) Determine a estimativa pontual da verdadeira proporção de todos os 
universitários que têm computador pessoal; 
b) Determine um intervalo de 99% de confiança para a verdadeira proporção 
de todos os universitários que têm computador pessoal. 
6) Um estudo de saúde envolve 1000 mortes selecionadas aleatóriamente, 
dentre as quais 331 causadas por doenças cardíacas (com base em dados 
do Center for Disease Control). 
a) Com os dados mostrais, construa um intervalo de confiança de 99% para 
a proporção de todas as mortes causadas por doenças cardíacas; 
b) Utilizando os dados amostrais como estudo piloto, determine o tamanho 
de amostra necessário para estimar a proporção de todas as mortes 
causadas por doenças cardíacas. Admita um nível de confiança de 98%, 
em que o erro da estimativa não supere 0.01. 
 40 
7) No caso de estimativa da proporção quando temos uma população 
relativamente pequena, de tamanho N, e a amostragem é sem reposição, 
modificamos o erro para 
1
ˆˆ
2 −
−
⋅=
N
nN
n
qp
zE α 
Mostre que o o tamanho da amostra pode ser encontrada por 
( ) 2
2
2
2
2
1ˆˆ
ˆˆ
ENzqp
zqpN
n
−+







=
α
α
 
8) Uma amostra consiste de 75 aparelhos de televisão adquiridos há vários 
anos. Os tempos de substituição desses aparelhos têm médiia de 8.2 anos e 
desvio-padrão de 1.1 anos ( com base em dados de “Getting Things Fixed,” 
Consumer Reports). Construa um intervalo de confiança de 90% para o 
desvio-padrão dos tempos de substituição de todos os aparelhos de TV 
daquela época. 
9) Um artigo de jornal inclui um gráfico mostrando que certos dados amostrais 
são distribuídos normalmente. 
a) Inadvertidamente, omitiu-se o grau de confiança quando foi dado o 
intervalo de confiança de 944.35581.7 2 << σ . Determine o grau de 
confiança sendo 8.3;2.45;20 === sxn . 
b) Dá-se o seguinte intervalo de confiança: 8.451.19 << σ . Determine o 
seguinte valor do desvio-padrão, que foi omitido. Use 95% de confiança. 
 
10) (Montgomery) Suponha que 1θ̂ e 2θ̂ sejam dois estimadores do parâmetro 
θ . Sabemos que ( ) θθ =1ˆE , ( )
2
ˆ
2
θ
θ =E , ( ) 10ˆ1 =θVar e ( ) 4ˆ2 =θVar . Qual o 
melhor estimador? 
11) (Montgomery) 
a) Mostre que ( )∑
=
−=
n
i
i XX
n
s
1
22 1 é um estimador tendencioso para 2σ . 
b) Qual é a tendenciosidade? 
 41 
c) O que acontece com a tendência a medida que o tamanho da amostra 
aumenta? 
 
Teorema Central do Limite 
 
Se nXXX ,,, 21 L for uma amostra aleatória de tamanho n, retirada de uma 
população (finita ou infinita), com média µ e variância 2σ , e se X for a média 
amostral, então a forma limite da distribuição de 
 
n
X
Z
σ
µ−
= 
quando n tende ao infinito, é a distribuição normal padrão. 
 
 
Ou: 
 
Teorema Central do Limite 
 
Se extrairmos todas as amostras aleatórias possíveis, de tamanho n, de uma 
população com média µ e variância 2σ , a média das médias se denota por 
x
µ ; 
assim, 
 
µµ =
x
 
Por sua vez, o desvio-padrão das médias amostrais se denota por 
x
σ ; então, 
 
n
x
σ
σ = 
 
 42 
OBS.: (Triola) 
1) O teorema central do limite se aplica quando estamos em face de uma 
distribuição de médias amostrais. Utilizamos o teorema quando o tamanho da 
amostra é maior do que 30 ou quando a população original tem distribuição normal. 
 
2) No caso de amostragem sem reposição, quando o tamanho n da amostra é 
superior a 5% do tamanho N da população finita (isto é, Nn 05,0> ), ajustamos o 
desvio-padrão da média amostral 
x
σ multiplicando o pelo fator de correção para 
população finita: 
1−
−
N
nN
 
 
3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a 
distribuição amostral. A distribuição binomial foi utilizada como parâmetro de 
referência. A probabilidade de sucesso foi mantida constante e variou-se o tamanho 
da amostra. Percebemos que à medida que o tamanho da amostra cresce a 
distribuição amostral das proporções tende a uma distribuição normal. Percebe-se 
também que a variabilidade decresce. Observamos que a média da distribuição 
amostral é sempre igual a proporção. 
 43 
 
 
 44 
4) (Stevenson) A próxima figura nos dá uma idéia do comportamento da 
distribuição amostral considerando a distribuição da população. 
 
 
 
 45 
Exemplo: Voltando ao exemplo da população formada pelos elementos 
 
1 4 2 3 
 
e considerando todas as amostras possíveis de tamanho 2 
 
Amostras Média 
1 e 4 2,5 
1 e 2 1,5 
1 e 3 2 
4 e 2 3 
4 e 3 3,5 
2 e 3 2,5 
 
podemos observar que: 
a) Se calcularmos a média das médias (média entre os elementos) 
2,5 1,5 2 3 3,5 2,5 
 
encontramos 5,2=
x
µ que corresponde à média populacional µ . Assim temos, de 
acordo com o teorema, que µµ =
x
. 
b) Calculando a variância das médias, dados do item (a), encontramos 
2
2
=
x
σ . 
Considerando os dados populacionais (1,4,2,3) encontramos 
3
15
=σ . 
Como o tamanho da amostra é 2=n e o tamanho da população é 4=N , 
verificamos que Nn 05.0> . Assim devemos aplicar o fator de correção, 
encontrando 
1−
−
=
N
nN
n
x
σ
σ . De fato: 
 
 46 
σ
σ
σ
=
=
=
=
=
=
−
−
=
−
−
=
3
5
9
53
333
315
33
15
3
2
2
315
14
24
2
3
15
1N
nN
n
x
 
 
 47 
Exercícios: 
1) (Triola) Na engenharia humana e no projeto de produtos, freqüentemente é 
importante considerar os pesos das pessoas, de modo que não haja sobrecarga em 
aviões ou elevadores, as cadeiras não quebrem, e não ocorram outros 
acontecimentos perigosos ou embaraçosos. Dado que a população de homens tem 
pesos distribuídos normalmente com média de 173 lb e desvio-padrão de 30 lb (com 
base em dados do National Health Survey dos EUA), determine a probabilidade de 
que: 
 
a) Um homem escolhido aleatoriamente pese mais de 180 lb; 
b) Em 36 homens escolhidos aleatoriamente, o peso médio seja superior a 180 
lb. 
c) Refaça a letra (b) supondo a população de homens igual a 500=N . 
 
2) Uma companhia eletrônica fabrica resistores que têm uma resistência média de 
100 ohms e um desvio-padrão de 10 0hms. A distribuição de resistências é normal. 
Encontre a probabilidade de uma amostra aleatória de 25 resistores ter uma 
resistência média menor que 95 ohms. 
 
3) Uma população consiste nos valores 2, 3, 6, 8, 11, 18. 
 
a) Determine µ e σ ; 
b) Relacione todas as amostras de tamanho 2=n que podem ser obtidas sem 
reposição; 
c) Determine a população de todos os valores de x achando a média de cada 
amostra da parte (b); 
d) Ache a média 
x
µ e o desvio-padrão 
x
σ ; 
e) Verifique que 
 
µµ =
x
 e 
1−
−
=
N
nN
n
x
σ
σ 
 
 48 
4) O calor liberado, em calorias por grama, de uma mistura de cimento tem 
distribuição aproximadamente normal. A média deve ser 100 e o desvio-padrão é 2. 
Desejamos testar 
 
100:
100:
1
0
≠
=
µ
µ
H
H
 
 
com uma amostra de tamanho 9 espécimes. 
 
Suponha que a região de aceitação é definida como 5,1015,98 ≤≤ X . Encontre a 
probabilidade do erro tipo 1 ocorrer. 
 
5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria 
tem uma vida média de 50 meses. Sabe-se que o desvio-padrão correspondente é 
de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas 
amostras acusará vida média no intervalo de 1 mês em torno de 50 meses, 
admitindo ser 50 meses a verdadeira vida média das baterias? 
 
 49 
Estimador de Máxima Verossimilhança 
 
Um dos melhores métodos de obter um estimador de um parâmetro é o método da 
máxima verossimilhança. Essa técnica foi desenvolvida nos anos de 1920 pelo 
famoso estatístico britânico Sir R. A. Fisher. Como o nome implica, o estimador será 
o valor do parâmetro que maximiza a função verossimilhança. 
 
Suponha que X seja uma variável aleatória com distribuição de probabilidade 
( )θ,xf , em que θ é um único parâmetro desconhecido. Sejam nxxx ,,, 21 K os 
valores observados na amostra aleatória de tamanho n . Então, a função 
verossimilhança da amostra é 
 
( ) ( ) ( ) ( )θθθθ ,,, 21 nxfxfxfL ⋅⋅⋅= L 
 
O estimador de máxima verossimilhança é aquele que maximiza a função de 
verossimilhança. 
 
Passos para se encontrar o estimador de máxima verossimilhança: 
 
1) Encontrar a função de verossimilhança )(θL ; 
2) Calcular )(ln)( θθ Ll = ; 
3) Calcular )(θ
θ
l
d
d
; 
4) Igualar 0)( =θ
θ
l
d
d
 e resolver em relação ao parâmetro escolhido. 
 
Obs.: A função de verossimilhança da amostra ( )θL é apenas a probabilidade 
 
( )nn xXxXP == ,,11 K 
 
 50 
Exemplo: 
 
Seja X normalmente distribuída, com média µ desconhecida e variância 2σ 
conhecida. Qual o estimador de máxima verossimilhança para a média µ 
considerando uma amostra de tamanho n ? 
 
Sugestão: Utilize ( )
( )
2
2
2
2
1
, σ
µ
πσ
µ
−
−
=
x
exf 
 
Exercícios de estimadores 
1) Seja X exponencialmente distribuída com parâmetro λ . A função de máxima 
verossimilhança de uma amostra aleatória de tamanho n, nxxx ,,, 21 K é ? 
Considere a função exponencial como xe λλ − 
2) Refaça o exercício da distribuição normal considerando µ conhecido e 
encontre o estimador para a variância 2σ . 
3) Seja X uma variável aleatória, com a seguinte distribuição de probabilidade 
( ) ( )


 ≤≤+
=
contrariocaso
xx
xf
,0
10,1
,
θθ
θ 
 A função de máxima verossimilhança para o estimador θ , considerando uma 
amostra aleatória de tamanho n, nxxx ,,, 21 K é ? 
 
Exercícios de revisão 
 
1) Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o 
débito médio anual nesses cartões, para contas individuais, é de $1592, com 
desvio-padrão de $997. Construa o intervalo de 94% de confiança para o 
débito médio anual em cartões de crédito para a população de todas as 
contas. 
 51 
2) 470430 << µ é um intervalo de 95% de confiança para as vidas (em minutos) 
de pilhas Kodak AA. Suponha que este resultado se baseie em uma amostra 
de tamanho 100. 
a) Construa o intervalo de 99% de confiança; 
b) Qual é o valor da média amostral? 
c) Qual é o valor do desvio-padrão amostral? 
d) Se se obtém com os mesmos dados o intervalo de confiança 
468432 << µ , qual é o grau de confiança? 
3) Construa um intervalo de 98% de confiança para a renda média de todos os 
empregados de tempo integral que têm grau de bacharel. Uma amostra de 25 
desses empregados revelou que a distribuição das rendas é 
aproximadamente normal, com média $39.271 e desvio-padrão de $18.933. 
4) Uma pesquisa de mercado para a Ford Motor Company revela que uma 
amostra de 1220 residências selecionadas aleatoriamente inclui 1054 que 
possuem um veículo. Com base nesses resultados, construa um intervalo de 
98% de confiança para a porcentagem de todas as residências que possuem 
um veículo. 
5) Os valores relacionados são tempos de espera (em minutos) de clientes no 
Jefferson Bank, onde os clientes entram em uma fila única que é atendida por 
três guichês. Construa um intervalo de 95% de confiança para o desvio-
padrão populacional. 
 
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 
 
 
 52 
Regressão Múltipla 
 
Este material foi retirado do livro: Estatística Aplicada e Probabilidade para 
Engenheiros. Douglas C. Montgomery & George C. Runger. 
 
1. Definição: 
 
 Uma equação de regressão linear múltipla expressa um relacionamento entre 
uma variável dependente ou de resposta, iy , e as variáveis independentes ou 
regressoras ( )ikii xxx ,,, 21 K . 
 
 O modelo de regressão linear múltiplo com k variáveis é definido por: 
 
iikkiii xxxy εββββ +++++= L22110 
i
k
j
ijji xy εββ ++= ∑
=1
0 
Onde ni ,,2,1 K= e kn > 
Notação: 
 
n : tamanho da amostra; 
k : número de variáveis independentes; 
y : valor predito da variável dependente; 
ikii xxx ,,, 21 K : variáveis independentes; 
kββββ ,,,, 210 K : coeficientes de regressão; 
ε : erro. 
 
 O parâmetro jβ representa a variação esperada na resposta y por unidade 
de variação unitária em jx quando todos os outros regressores restantes ( )jixi ≠ 
forem mantidos constantes. 
 
Exemplo: 
 53 
a) 21 01253,074427,226379,2ˆ xxy ++= ; 
 
2. Estimação de Mínimos Quadrados dos Parâmetros 
 
O método dos mínimos quadrados pode ser usado para estimar os 
coeficientes de regressão no modelo de regressão múltipla. 
 O objetivo é minimizar a função 
 
∑ ∑
∑
= =
=








−−=
=
n
i
k
j
ijji
n
i
i
xy
L
1
2
1
0
1
2
ββ
ε
 
 Queremos minimizar a função L com relação a kββββ ,,,, 210 K . As 
estimativas de mínimos quadrados têm de satisfazer 
 
0ˆˆ2
1 1
00ˆ,,ˆ,ˆ,ˆ
0
210
=







−−−=
∂
∂
∑ ∑
= =
n
i
k
j
iji xy
L
k
ββ
β ββββ K (1) 
e 
 
kjxxy
L
ij
n
i
k
j
iji
j
k
,,2,1,0ˆˆ2
1 1
00ˆ,,ˆ,ˆ,ˆ 210
K
K
==








−−−=
∂
∂
∑ ∑
= =
ββ
β ββββ (2)
 
 
 Simplificando as equações (1) e (2), obtemos as equações normais de 
mínimos quadrados: 
 
 54 
∑
=
=∑
=
++∑
=
+∑
=
+
∑
=
=∑
=
++∑
=
+∑
=
+
∑
=
=∑
=
++∑
=
+∑
=
+
∑
∑
=
=
n
i
iyx
n
i
xk
n
i
ixx
n
i
xxx
n
i
iyx
n
i
ikxxk
n
i
ixx
n
i
xx
n
i
iy
n
i
ikxk
n
i
ix
n
i
ixn
ikikikiik
n
i
ikiiii
n
i
i
11
ˆ
1
22
ˆ
1
1
ˆ
0
ˆ
11
ˆ
1
22
ˆ
1
1
ˆ
0
ˆ
11
ˆ
1
22
ˆ
1
11
ˆ
0
ˆ
2
1
1
111
2
1
1
1
ββββ
ββββ
ββββ
K
MMMMM
K
K
 
 
 
 Note que há 1+= kp equações normais, uma para cada um dos coeficientes 
desconhecidos da regressão. A solução para as equações normais serão os 
estimadores de mínimos quadrados. 
 
Exemplo 1: Os dados referem-se a resistência à tração de um fio colado, em um 
processo de fabricação de semicondutores, do comprimento do fio e da altura da 
garra. 
Número da 
observação 
Resistência à 
tração 
y 
Comprimento 
do fio 
1x 
Altura da garra 
2x 
1 9,95 2 50 
2 24,45 8 110 
3 31,75 11 120 
4 35 10 550 
5 25,02 8 295 
6 16,86 4 200 
7 14,38 2 375 
8 9,60 2 52 
9 24,35 9 100 
10 27,50 8 300 
11 17,08 4 412 
12 37 11 400 
13 41,95 12 500 
 55 
14 11,66 2 360 
15 21,65 4 205 
16 17,89 4 400 
17 69 20 600 
18 10,30 1 585 
19 34,93 10 540 
20 46,59 15 250 
21 44,88 15 290 
22 54,12 16 510 
23 56,63 17 590 
24 22,13 6 100 
25 21,15 5 400 
 
 Ajustaremos o modelo 
 
iii xxy εβββ +++= 22110 
 
 De acordo com a tabela temos: 
 
71,816.274;47,008.8;177.77
848.531.3;396.2;294.8
206;82,725;25
25
1
2
25
1
1
25
1
21
25
1
2
2
25
1
2
1
25
1
2
25
1
1
25
1
===
===
===
∑∑∑
∑∑∑
∑∑
===
===
==
i
ii
i
ii
i
ii
i
i
i
i
i
i
i
i
i
i
yxyxxx
xxx
xyn
 
 
 Para o modelo a ser ajustado as equações normais são: 
∑
=
=∑
=
+∑
=
+
∑
=
=∑
=
+∑
=
+
∑
=
=∑
=
+∑
=
+
∑
∑
=
=
n
i
iyx
n
i
x
n
i
xxx
n
i
iyx
n
i
ixx
n
i
xx
n
i
iy
n
i
ix
n
i
ixn
iiii
n
i
i
iii
n
i
i
11
2
ˆ
1
1
ˆ
0
ˆ
11
22
ˆ
1
1
ˆ
0
ˆ
11
22
ˆ
1
11
ˆ
0
ˆ
2
2
221
1
2
11
2
1
1
1
βββ
βββ
βββ
 
 56 
 
Substituindo as somas temos: 
 
71,816.2742
ˆ848.531.31
ˆ177.770
ˆ294.8
47,008.82
ˆ177.771
ˆ396.20
ˆ206
82,7252
ˆ294.81
ˆ2060
ˆ25
=++
=++
=++
βββ
βββ
βββ
 
 
A solução encontrada é: 
 
21 01253,07442,226379,2ˆ xxy ++= 
3. Abordagem matricial para a regressão linear múltipla 
 
O modelo de regressão é um sistema de n equações, que pode ser expresso 
na notação matricial 
 
εβ += Xy
 
onde 
 












=












=












=












=
nknknn
k
k
n xxx
xxx
xxx
X
y
y
y
y
ε
ε
ε
ε
β
β
β
β
MM
K
MMMM
K
K
M
2
1
1
0
21
22221
11211
2
1
;;
1
1
1
; 
 
As equações normais do modelo são: 
 
yXXX
'' ˆ =β
 
'X representa a transposta da matriz X . 
A estimativa de mínimos quadrados é: 
 
( ) yXXX '1'ˆ −=β
 
 
 57 
4. Estimativa da variância 
 
A estimativa da variância é obtida através do estimador não-tendencioso 
 
pn
SQ
pn
E
n
i
i
−
=
−
=
∑
=1
2
2ˆ
ε
σ
 
onde 
 
( ) εεε 'ˆ
1 1
22 ==−=∑ ∑
= =
n
i
n
i
iiiE yySQ 
 
 No denominador temos 
pn −
 que é denominado graus de liberdade do erro 
ou do resíduo. 
 
5. Testes de hipóteses para a regressão linear múltipla 
 
5.1. Teste para a significância da regressão 
 
O teste para a significância da regressão é um teste para determinar se existe 
uma relação linear entre as variáveis de resposta e as regressoras. 
As hipóteses são: 
 



≠
====
jummínimonoparaH
H
j
k
0:
0:
1
210
β
βββ K
 
 A estatística de teste é dada por: 
 
( )
E
R
E
R
MQ
MQ
pn
SQ
k
SQ
F =
−
=0 
 
onde 
 58 
 
























−−








−=
∑∑
==
n
y
yX
n
y
yySQ
n
i
i
n
i
i
E
2
1
2
1
''ˆ' β 
n
y
yXSQ
n
i
i
E
2
1
''ˆ








−=
∑
=β 
 Podemos também usar o 
2R
e o 
2R
 ajustado como uma estatística global 
para avaliar o ajuste do modelo. Assim temos: 
 
( )
( )1
12
−
−
−=
n
SQ
pn
SQ
R
T
E
ajustado 
 
5.2. Testes para os coeficientes individuais de regressão e subconjuntos de 
coeficientes 
 
As hipóteses para testar se um coeficiente individual de regressão, como jβ , 
é igual a um dado valor 0jβ é: 
 




≠
=
01
00
:
:
jj
jj
H
H
ββ
ββ
 
 A estatística de teste é dada por: 
 
jj
jj
C
T
2
0
0
ˆ
σ
ββ −
= 
 
 
 
 59 
6. Intervalos de confiança para a regressão linear múltipla 
 
Um intervalo de confiança de ( )%1100 α− para o coeficiente de regressão 
kjj ,,2,1,0, K=β no modelo de regressão linear múltipla é dado por: 
 
jjpnjjjjpnj CtCt
2
,2
2
,2 ˆ
ˆˆˆ σββσβ αα −− +≤≤− 
 
7. Previsão de novas observações 
 
Um intervalo de previsão de ( )%1100 α− para uma futura observação é dado 
por: 
 
( )( ) ( )( )01'02,20001'02,20 '1ˆˆ'1ˆˆ xXXxtyYxXXxty pnpn −−−− ++≤≤+− σσ αα 
 
8. Uso computacional 
 
Podemos utilizar vários softwares para fazer a regressão múltipla: R, SPSS, 
Excel, Minitab, etc. 
A seguir apresentamos os resultados do exemplo 1, inicial, usando o Excel: 
 
 
RESUMO DOS RESULTADOS 
 
Estatística de regressão 
R múltiplo 0,990523843 
R-Quadrado 0,981137483 
R-quadrado ajustado 0,979422709 
Erro padrão 2,288046833 
Observações 25 
 
Análise: 
� R-quadrado ajustado dá o grau de relacionamento linear múltiplo, 0,979422709. 
Ele leva em consideração o tamanho da amostra e o número de variáveis. 
 60 
� Observações apresenta o tamanho da amostra, 25. 
 
 61 
 
ANOVA 
 gl SQ MQ F F de significação 
Regressão 2 5990,771221 2995,386 572,1671503 1,07546E-19 
Resíduo 22 115,1734828 5,235158 
Total 24 6105,944704 
Análise: 
� A estimativa da variância é dada por 
pn
SQ
pn
E
n
i
i
−
=
−
=
∑
=1
2
2ˆ
ε
σ
 
Na tabela acima esta estimativa é dada por MQ do resíduo, 5,235158. Ele 
corresponde a soma dos quadrados, SQ, do resíduo dividido pelo grau de liberdade, 
gl, do resíduo. 
� No F de significação temos o teste de hipótese para verificar se o modelo 
linear múltiplo é bem ajustado. Neste caso basta que seu valor seja menor 
que o nível de significância. 
 
 Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores 
Interseção 2,263791434 1,060066238 2,135519 0,04409945 0,065348623 4,462234246 
Variável X 1 2,744269643 0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225 
Variável X 2 0,012527811 0,002798419 4,476746 0,000188266 0,006724246 0,018331377 
 
Análise: 
� Na tabela acima temos vários resultados e testes. Entre eles temos os valores 
dos coeficientes da interseção, 2,263791434 , da variável X1, 2,744269643, e da 
variável X2, 0,012527811. 
� Também testamos se cada coeficiente é significativo, ou seja, se ele será ou 
não acrescentado ao modelo. Neste caso é só observar na coluna do valor-P. 
Caso este valor seja menor que o nível de significância então o coeficiente é 
significativo, isto é, é utilizado no modelo. 
 Valor-P para Interseção: 0,04409945 
 Valor-P para variável X1: 3,90691E-19 
 Valor-P para variável X2: 0,000188266 
� Temos também o intervalo de confiança para cada coeficiente. Neste caso é 
só observar seus limites inferiores, na coluna 95% inferiores, e limites 
 62 
superiores, na coluna 95% superiores. Estes valor de 95% é definido na hora 
de construção do modelo, podendo variar. 
 
Intervalo de confiança para a interseção: [ 0,065348623, 4,462234246] 
Intervalo de confiança para a variável X1: [2,550313062, 2,938226225] 
Intervalo de confiança para a variável X2: [0,006724246, 0,018331377] 
 
RESULTADOS DE RESÍDUOS 
Observação Y previsto Resíduos 
1 8,37872129 1,57127871 
2 25,59600783 -1,146007833 
3 33,95409488 -2,204094876 
4 36,59678413 -1,596784129 
5 27,91365294 -2,893652939 
6 15,74643228 1,113567716 
7 12,45025999 1,92974001 
8 8,403776913 1,196223087 
9 28,21499936 -3,864999362 
10 27,976292 -0,476291996 
11 18,4023283 -1,322328298 
12 37,46188206 -0,461882064 
13 41,45893285 0,491067154 
14 12,26234282 -0,60234282 
15 15,80907134 5,840928659 
16 18,25199456 -0,361994562 
17 64,66587113 4,334128869 
18 12,33683074 -2,036830738 
19 36,47150602 -1,541506015 
20 46,55978893 0,03021107121 47,06090138 -2,180901385 
22 52,56128953 1,558710467 
23 56,30778409 0,322215913 
24 19,98219043 2,147809568 
25 20,9962642 0,153735795 
 
Análise: 
� Na tabela acima temos os resíduos do modelo, yy ˆ−=ε . 
 
 63 
Exemplo: 
 
1) A energia elétrica consumida mensalmente por uma indústria química está 
relacionada à temperatura média ambiente ( )1x , ao número de dias no mês 
( )2x , à pureza média do produto ( )3x e às toneladas do produto produzido 
( )4x . Os dados históricos do ano passado estão disponíveis e são 
apresentados na tabela a seguir: 
 
y 
1x 2x 3x 4x 
240 25 24 91 100 
236 31 21 90 95 
270 45 24 88 110 
274 60 25 87 88 
301 65 25 91 94 
316 72 26 94 99 
300 80 25 87 97 
296 84 25 86 96 
267 75 24 88 110 
276 60 25 91 105 
288 50 25 90 100 
261 38 23 89 98 
 
Faça: 
 
a) Encontre a reta de regressão; 
b) Calcule a estimativa da variância; 
c) Teste a significância da regressão; 
d) Teste os coeficientes; 
e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da 
regressão; 
 
 64 
2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relação 
com 1x a viscosidade do óleo e 2x carga. Os dados são o seguinte: 
 
y 
1x 2x 
293 1,6 851 
230 15,5 816 
172 22 1058 
91 43 1201 
113 33 1357 
125 40 1115 
 
Faça: 
 
a) Encontre a reta de regressão; 
b) Calcule a estimativa da variância; 
c) Teste a significância da regressão; 
d) Teste os coeficientes; 
e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da 
regressão; 
 
 
 
 
 65 
Experimentos Multinomiais 
 
Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à 
Estatística. Autor: M. F. Triola. 
Neste tópico usaremos a distribuição qui-quadrado, 2χ , como estatística de teste. 
 
Propriedades: 
1. Ao contrário das distribuições normal e t de Student, a distribuição qui-
quadrado não é simétrica; 
2. Os valores da distribuição qui-quadrado podem ser 0, zero, ou positivos, mas 
nunca negativos; 
3. Há uma distribuição qui-quadrado diferente para cada número de graus de 
liberdade, 1−= nGL . 
Definição: 
 
Um experimento multinomial é um experimento que verifica as seguintes 
condições: 
1. O número de provas é fixo; 
2. As provas são independentes; 
3. Todos os resultados de cada prova devem ser classificados em 
exatamente uma dentre várias categorias; 
4. As probabilidades para as diferentes categorias permanecem 
constantes (as mesmas) em cada prova. 
 
 66 
A seguir apresentaremos um teste de aderência. Ele é utilizado para testar a 
afirmação de que, em um experimento multinomial, as freqüências observadas nas 
diferentes categorias se ajustam a determinada distribuição. 
Exemplos: 
1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons, 
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. 
2) É comum a crença de que ocorre um maior número de acidentes fatais com 
automóveis em determinados dias da semana, como sexta-feira ou sábado. 
3) O gerente de determinado supermercado deve decidir a quantidade de cada 
sabor de sorvete que deve estocar a fim de atender à demanda dos 
consumidores, sem que haja perda de sabores menos procurados. 
Definição: 
 
Utiliza-se um teste de aderência para testar a hipótese de que uma 
distribuição de freqüências observadas se ajusta (ou adere) a determinada 
distribuição teórica. 
 
 
Notação: 
 
O : representa a freqüência observada de um resultado; 
 
E : representa a freqüência esperada de um resultado; 
 
k : representa o número de categorias, ou resultados, diferentes; 
 
n : representa o número total de provas. 
 
Em situação típica podemos encontrar a freqüência esperada, E, multiplicando a 
probabilidade p de uma categoria pelo número de provas diferentes: 
npE = 
Suposições: 
 67 
Segue as suposições válidas ao testarmos a proporção populacional alegada para 
cada uma das k categorias ( em um experimento multinomial) 
1) Os dados constituem uma amostra aleatória; 
2) Os dados amostrais consistem em categorias de freqüências para as k 
categorias diferentes; 
3) Para cada uma das k categorias, a freqüência esperada é, no mínimo, 5. 
(Não há qualquer exigência de que cada freqüência observada seja no 
mínimo igual a 5.) 
Estatística de teste de Aderência 
 
( )
∑
−
=
E
EO
2
2χ 
Valores Críticos: 
 
1. Na tabela A – 4 encontram-se os valores críticos, tomando-se 1−k 
graus de liberdade; 
2. Os testes de hipótese de aderência são sempre unilaterais à direita. 
 
 
 68 
 
Exemplo: 
1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons, 
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. A seguir 
apresentamos os dados amostrais. 
Tabela: Frequência dos confeitos M&M 
 Marron Amarelo Vermelho Laranja Verde Azul 
Frequência 
Observada 
33 26 21 8 7 5 
 
Teste a afirmação de que a distribuição de cores é a afirmada acima. Use nível de 
significância 5%. 
Solução: 
 Marron Amarelo Vermelho Laranja Verde Azul 
Frequência 
Observada 
33 26 21 8 7 5 
Frequência 
esperada 
30 20 20 10 10 10 
 
Temos que: 
Para os confeitos marron: 3030,0100 =⋅== npE 
Analogamente construímos as freqüências esperadas. 
O teste a ser feito é: 
alegadovalordodiferenteéacimaproporçõesdasumamenospeloH
p
p
p
p
p
pH
azul
verde
laranja
vermelho
amarelo
marron
:
10,0
10,0
10,0
20,0
20,0
30,0:
1
0
=
=
=
=
=
=
 
 
Cálculo da estatística de teste: 
 69 
 
Frequência 
observada 
Frequência 
esperada 
EO − ( )2EO − ( )
E
EO
2−
 
Marron 33 30 3 9 0,3000 
Amarelo 26 20 6 36 1,8000 
Vermelho 21 20 1 1 0,0500 
Laranja 8 10 -2 4 0,4000 
Verde 7 10 -3 9 0,9000 
Azul 5 10 -5 25 2,5000 
 
Assim 
( )
9500,5
2
2 =
−
=∑
E
EO
χ 
O valor crítico é 11,071. 
Como a estatística de teste < valor crítico, 5,9500<11,071, então não rejeitamos 0H . 
Exercícios: 
1) Fez-se um estudo de 147 acidentes industriais que exigiram tratamento 
médico. Desses acidentes, 31 ocorreram na segunda-feira, 42 na terça-feira, 
18 na quarta-feira, 25 na quinta-feira e 31 na sexta-feira. 
Teste a afirmação de que os acidentes ocorrem com a mesma proporção nos 
cinco dias da semana. 
2) O gerente do Supermercado Gleason deve decidir a quantidade de cada 
sabor de sorvete que deve estocar a fim de atender à demanda dos 
consumidores, sem que haja perda de sabores menos procurados. O 
fornecedor de sorvete afirma que, entre os sabores mais populares, os 
clientes têm as seguintes preferências: 62% preferem baunilha, 18% preferem 
chocolate, 12% preferem napolitano e 8% preferem baunilha com calda. 
Uma amostra de 200 clientes acusou os resultados a seguir. Teste se o 
fornecedor identificou corretamente as preferências dos consumidores. Use 
nível de significância de 5%. 
 
Sabor Baunilha Chocolate Napolitano Baunilha em calda 
Clientes 120 40 18 22 
 
 70 
3) Com nível de significância de 0,05 e os dados de acidentes industriais do 
exercício 1, teste a afirmação de um técnico de segurança de que os 
acidentes se distribuem pelos dias úteis como se segue: 30% na segunda-
feira, 15% na terça, 15% na quarta, 20% na quinta e 20% na sexta. 
 
 
 
 71 
Tabela de Contingência 
 
Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à 
Estatística. Autor: M. F. Triola. 
Definição: 
 
Uma tabela de contingência (ou tabela de freqüência de dupla entrada) é uma 
tabela em que as freqüências correspondem a duas variáveis. (Uma variável 
categoriza as linhas, a outra categoriza as colunas) 
 
As tabelas de contingências são de grande importância pois são utilizadas para 
analisar resultados de pesquisas. 
Usaremos um teste, chamado teste de independência, usado para determinar se 
uma variável linha de uma tabela de contingência é independente de sua variável 
coluna. 
 
Definição: 
 
Utiliza-se um teste de independênciapara testar a hipótese nula de que a 
variável linha e a variável coluna em uma tabela de contingência não estão 
relacionadas, isto é, são independentes. 
 
Obs.: No contexto deste material a palavra contingência se refere a dependência, 
mas trata-se apenas de uma dependência estatística, e não pode ser usada para 
estabelecer uma ligação direta de causa e efeito entre as duas variáveis. 
Hipóteses em um teste de independência 



sdependentesãoiáveisasH
tesindependensãoiáveisasH
var:
var:
1
0 
 72 
 
Suposições: 
4) Os dados constituem uma amostra aleatória; 
5) Para cada célula na tabela de contingência, a freqüência esperada é, no 
mínimo, 5. (Não há qualquer exigência de que cada freqüência observada 
seja no mínimo igual a 5.) 
Estatística de teste 
 
( )
∑
−
=
E
EO
2
2χ 
Valores Críticos: 
 
3. Na tabela A – 4 encontram-se os valores críticos, tomando-se graus de 
liberdade 
( )( )11 −−= crgl 
onde: 
 
r: número de linhas 
c: número de colunas. 
 
4. Os testes de hipótese de independência com tabelas de contingência 
envolvem apenas regiões críticas unilaterais à direita. 
 
 
Freqüência esperada para uma tabela de contingência 
( )( )
geraltotal
colunastotallinhastotal
E = 
 
 73 
 
Exemplo: 
2) (Livro Estatística Aplicada à Gestão Empresarial – Adriano L. Bruni) Os dados 
a seguir referem-se ao cruzamento entre as variáveis: possui habilitação e 
sexo, de 53 funcionários de um escritório de contabilidade. 
Tabela: Sexo versus Habilitação 
 
Habilitado 
Sim Não Total 
Feminino 9 12 21 
Masculino 25 7 32 
Total 34 19 53 
 
Teste se as variáveis são independentes. Use nível de significância 5%. 
Solução: 
O teste a ser feito é: 



sdependentesãoiáveisasH
tesindependensãoiáveisasH
var:
var:
1
0
 
Cálculo das freqüências esperadas. 
 
Habilitado 
Sim Não 
Feminino 47,13
53
3421
=
⋅
 53,7
53
1921
=
⋅
 
Masculino 53,20
53
3432
=
⋅
 47,11
53
1932
=
⋅
 
 
 74 
 
Cálculo da estatística de teste: 
 
Habilitado 
Sim Não 
Feminino 
( )
483,1
47,13
47,139 2
=
−
 
( )
654,2
53,7
53,712 2
=
−
 
Masculino 
( )
973,0
53,20
53,2025 2
=
−
 
( )
742,1
47,11
47,117 2
=
−
 
 
Assim 
( )
852,6742,1973,0654,2483,1
2
2 =+++=
−
=∑
E
EO
χ 
Graus de liberdade: ( )( ) ( )( ) 1121211 =−−=−−= crgl 
Valor crítico: 841,32 =χ 
Como a estatística de teste > valor crítico, 6,852 > 3,841, então não rejeitamos 0H . 
Logo as variáveis são independentes. 
Exercícios: 
1) A tabela a seguir apresenta os resultados de 1580 dados amostrais entre a 
causa de morte e condição da pessoa. 
 
Causa da Morte 
Ferimento 
acidental 
Doença 
Homicídio 
Ou Suicídio 
Em zona de combate 115 56 29 
Fora da zona de combate 175 94 31 
 
2) (Triola) Fez-se uma pesquisa para determinar se há restrições, quanto ao 
sexo, na confiança que o povo deposita na polícia. Os resultados amostrais 
constam da tabela a seguir. Com nível de 0,05 de significância, teste a 
afirmação de que não há tal restrição. 
 
Confiança na polícia 
Muita Alguma Muito pouca ou 
 75 
nenhuma 
Homens 115 56 29 
Mulheres 175 94 31 
Fonte: Ministério da Justiça dos EUA e da Gallup Organization 
3) (Triola) A tabela a seguir relaciona resultados de uma pesquisa obtidos de 
uma amostra aleatória de vítimas de diferentes crimes. Com nível de 0,05 de 
significância, teste a afirmação de que o tipo de crime é independente do fato 
de o criminoso ser um estranho. 
 
Tipo de crime 
Homicídio Roubo Assalto 
Criminoso era um estranho 12 379 727 
Criminoso era conhecido ou 
parente 
39 106 642 
 
 76 
 
Resíduos Padronizados 
Definição 
Os resíduos (diferenças entre freqüência observada e esperada) numa forma 
padronizada, ou seja, expressos em unidades de desvios-padrão é dado por 
 






−





−⋅
−
=
TG
TL
TG
TC
E
EO
Zres
11
 
onde: 
O: freqüência observada; 
E: freqüência esperada; 
TC: total de colunas; 
TL: total de linhas; 
TG: total geral. 
 
Os resíduos padronizados representam valores de relação biunívoca com 
probabilidades de ocorrência, valores maiores que 1,96 ou menores que -1,96 têm 
pequenas chances de ocorrência, e podem assim instruir pontos de corte para um 
nível de significância de excesso ou falta de ocorrências, respectivamente. 
Exemplo: Voltando ao exemplo 1, temos: 
Tabela: Sexo versus Habilitação 
 
Habilitado 
Sim Não Total 
Feminino 9 12 21 
Masculino 25 7 32 
Total 34 19 53 
 
 
A freqüência esperada é dada por: 
 
Habilitado 
Sim Não 
Feminino 47,13 53,7 
 77 
Masculino 53,20 47,11 
 
Os resíduos é dado por: 






−





−⋅
−
=
TG
TL
TG
TC
E
EO
Zres
11
 
 
Habilitado 
Sim Não 
Feminino 
62,2
53
21
1
53
34
147,13
47,139
−=






−





−
− 62,2
53
21
1
53
19
153,7
53,712
=






−





−
− 
Masculino 
62,2
53
32
1
53
34
153,20
53,2025
=






−





−
−
 62,2
53
32
1
53
19
147,11
47,117
−=






−





−
−
 
 
Análises: 
1) Verificamos inicialmente que o módulo da diferença entre as freqüências 
observadas e esperadas são iguais para todas as células. Neste caso não 
podemos dizer qual das células mais influenciou para o resultado da 
estatística de teste; 
2) Analisando os resíduos vemos também que eles são, em módulos, iguais. 
Considerando um nível de significância de 5%, onde o valor crítico seria 
±1,96, percebemos que ambos os resíduos são superiores a este valor. Isto 
indica que todos os resultados são igualmente pouco prováveis. Sendo assim 
elas são significantes. Neste caso não há nenhuma freqüência que causasse 
maior impacto, todas tiveram o mesmo impacto. 
3) Não podemos dizer o que valor 25, na tabela de contingência, indicasse que o 
número de homens habilitados seria de maior impacto. 
 
 
 78 
Introdução a Séries Temporais 
 
Definição 
 
Uma série temporal consiste em um conjunto de observações de 
variáveis quantitativas coletadas ao longo do tempo. 
 
Exemplos: 
1) Vendas mensais de uma fábrica de sorvete; 
2) Preço semanal de gasolina; 
3) Evolução do preço diário de uma ação ao longo do tempo; 
4) Temperatura diária em uma cidade. 
As séries temporais podem englobar dados diários, semanais, mensais, etc. Neste 
caso a ordem dos dados é fundamental. 
Os modelos de análise de séries temporais geralmente preocupam-se em estimar o 
comportamento futuro de uma série, com base em seus dados passados. 
Genericamente, os modelos de previsão empregados em séries temporais podem 
ser apresentados da seguinte forma: 
( )K,,,ˆ 211 −−+ = tttt YYYfY 
 
Componentes de séries temporais 
a) Tendência: descreve um movimento suave, a longo prazo, dos dados, para 
cima ou para baixo. 
b) Variações cíclicas: correspondem a um certo grau de regularidade a longo 
prazo (1 ano, dez anos, 50 anos) no comportamento das séries temporais. 
Exemplo: aumento das vendas de bandeira do Brasil em função da copa do 
mundo de futebol. 
c) Variações sazonais: representam regularidades de variações na série em 
períodos curtos de tempo (semanas, dias, quinzenas, meses, etc), geralmente 
dentro de um ano. Exemplo: vendas de ovos de páscoa nos meses de março 
e abril. 
 79 
d) Variações irregulares ou aleatórias: correspondem a ruídos na série temporal 
em decorrência de fatores variados. Como são aleatórios não são previstos 
no modelo. 
Exemplos: 
 
Uma série é dita estacionária se ela for convergente. Ela flutua em torno de um 
ponto. 
Uma série é dita não-estacionária se ela for divergente. Neste caso ela tem raiz 
unitária. Uma opção para tornar a série estacionária é aplicar o operador diferença. 
 80 
 
Exemplo: 
1) Dados fictícios 
Quadrimestre Periodo Y 
1998 1 6,7 
1998 2 4,4 
1998 3 5,8 
1998 4 6,2 
1999 1 2,1 
1999 2 0,1 
1999 3 0,8 
1999 4 1,5 
2000 1 6 
2000 2 3,9 
2000 3 4,9 
2000 4 4,7 
2001 1 12,9 
2001 2 10,9 
20013 11,4 
2001 4 11,9 
2002 1 8,3 
2002 2 5,4 
2002 3 6,4 
2002 4 6,8 
2003 1 11,6 
2003 2 9,7 
2003 3 10,6 
2003 4 11,2 
2004 1 19,3 
2004 2 16,2 
2004 3 17,6 
2004 4 18,3 
2005 1 13,8 
2005 2 11,5 
2005 3 12,2 
2005 4 12,6 
 
 81 
 
2) Para ilustrar dados envolvendo sazonalidade considere a venda de 
sorvete: 
Ano Quadrimestre 
1 
Quadrimestre 
2 
Quadrimestre 
3 
Total 
1998 170 250 180 600 
1999 174 245 186 605 
2000 168 262 168 598 
2001 182 260 160 602 
2002 154 240 210 604 
Total 848 1257 904 3009 
 
 
1) Para ilustrar dados envolvendo sazonalidade com médias móveis considere a 
demanda de calçados 
 82 
Quadrimestre Demanda 
2000:1 11 
2000:2 12 
2000:3 13 
2001:1 19 
2001:2 18 
2001:3 19 
2002:1 26 
2002:2 24 
2002:3 25 
 
 
Modelos: 
1) Médias móveis simples 
Os modelos de médias móveis simples sugerem que a estimativa do valor futuro 
1
ˆ
+tY pode ser feita com base em uma média aritmética simples de k valores 
passados. Assim, 
k
YYYY
Y kttttt
121
1
ˆ +−−−
+
++++
=
K
 
2) Médias móveis ponderados 
No modelo de médias móveis ponderadas deve-se atribuir um peso para cada ano 
analisado. Assim, 
1231211
ˆ
+−−−+ ++++= ktktttt YwYwYwYwY K 
Onde 
iw : pesos 
 83 
Geralmente, dados mais recentes recebem maior ponderação. 
3) Alisamento exponencial 
A previsão feita para o período posterior 1ˆ +tY deve ser igual à previsão feita para o 
período anterior tŶ , acrescido de um ajuste ( )[ ]tt YY ˆ−α , função do erro da previsão 
efetuada para o período anterior. O valor de α deve estar compreendido entre 0 e 1. 
Algebricamente temos: 
( )tttt YYYY ˆˆˆ 1 −+=+ α 
Expandindo a expressão anterior encontramos: 
( ) ( ) ( ) nt
n
tttt YYYYY −−−+ −++−+−+= ααααααα 111
ˆ
2
2
11 K 
Para poder aplicar o modelo, assume-se que, no primeiro ano, o valor estimado é o 
próprio valor realizado. 
4) Tendência com modelo de regressão 
Neste modelo utiliza-se a regressão linear simples onde 
bxay += 
onde 
( ) ( )( )
( ) ( )22 ∑∑
∑∑∑
−
−
=
xxn
yxxyn
b 
n
xby
a
∑∑ −
= 
 
Análise da qualidade da previsão 
1) Desvio médio absoluto: representa a soma dos desvios absolutos, 
representados pelo módulo da diferença ou diferença absoluta entre a 
demanda real e a prevista. 
∑
=
−
=
n
i
ii
n
YY
DMA
1
ˆ
 
2) Erro quadrático médio: representa a soma dos desvios ao quadrado, 
representados pela diferença entre a demanda real e a prevista. 
( )
∑
=
−
=
n
i
ii
n
YY
EQM
1
2ˆ
 
Exemplo: 
 84 
1) Considere o histórico de vendas a seguir 
Mês Vendas 
Jan 92 
Fev 83 
Mar 66 
Abr 74 
Mai 75 
Jun 84 
Jul 84 
Ago 81 
Set 75 
Out 63 
Nov 91 
Dez 84 
 
Calcule, utilizando a média móvel dos últimos 3 meses. 
 
a) a previsão para o mês de janeiro seguinte 
b) Desvio médio absoluto 
c) Erro quadrático médio 
Solução: 
a) Considerando a média dos 3 anteriores meses temos 
33,79ˆ
3
849163ˆ
3
ˆ
=
++
=
++
=
janeiro
janeiro
deznovout
janeiro
Y
Y
YYY
Y
 
b) Completando a tabela com as previsões temos: 
Mês Vendas 
Y 
Previsão 
Ŷ 
YY ˆ−
 
( )2ŶY − 
Jan 92 
Fev 83 
Mar 66 
Abr 74 80,33 6,33 40,0689 
Mai 75 74,33 0,67 0,4489 
Jun 84 71,67 12,33 152,0289 
Jul 84 77,67 6,33 40,0689 
Ago 81 81 0 0 
Set 75 83 8 64 
Out 63 80 17 289 
Nov 91 73 18 324 
Dez 84 76,33 7,67 58,8289 
Logo 
 85 
481,8
9
33,76
ˆ
1
==
−
=∑
=
n
i
ii
n
YY
DMA
 
c) O erro quadrático médio será 
( )
605,107
9
4445,968ˆ
1
2
==
−
=∑
=
n
i
ii
n
YY
EQM
 
2) Refaça o exemplo anterior utilizando a média móvel ponderada com pesos 
0.3, 0.4 e 0.5 para o terceiro, segundo e primeiro mês anterior, 
respectivamente. 
3) A previsão antiga da demanda do composto RK era de 100 unidades. A última 
demanda real foi de 85 unidades. Qual é a previsão exponencialmente 
nivelada para o próximo período? Alfa tem valor 0,2. 
4) Considere os dados amostrais: 
Semana Demanda 
1 150 
2 159 
3 160 
4 167 
5 173 
6 175 
7 185 
8 188 
 
Utilizando o alisamento exponencial faça as previsões para cada semana e para a 
semana 9, sendo: 
a) Alfa de 0,2 
b) Alfa de 0,3 
c) Calcule o desvio médio de cada item anterior, (a) e (b) 
d) Com base no desvio médio, qual a melhor previsão? 
 
 86 
5) O consumo de um componente das Fábricas Tronic os últimos 10 meses foi 
igual a: 750, 680, 740, 710, 690, 640, 670, 720, 700 e 660. Calcular, com 
base em análise de regressão, a previsão de consumo para o 11º mês. 
 87 
Bibliografia 
 
1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatística Básica. 2ª edição. 
São Paulo: Atlas, 1985. 
 
2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatística aplicada e 
probabilidade para engenheiros. Rio de Janeiro: LTC, 2009. 
 
3. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Thomson Learning, 
2006. 
 
4. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 2ª edição. São 
Paulo: Atlas, 2008. 
 
5. TRIOLA, Mário F., Introdução à Estatística. Rio de Janeiro. Editora LTC. 7.ª 
edição, 2008. 
 
 88 
Anexo 1 
 
 
 Comandos Software R 
 
 #======================================================= 
 Gerar amostras aleatórias 
 #======================================================= 
 
 criar vetor de amostras x 
 
 sort(x)# ordena os valores de x. 
 
 sample(x,5,T)# gera 5 amostras do vetor x com reposição 
 
 sample(x,5)# gera 5 amostras do vetor x sem reposição 
 
 #======================================================= 
 # Mudar diretório 
 #======================================================= 
 Arquivo 
 
 Mudar diretorio 
 
 Nome da pasta 
 #======================================================= 
 # Leitura e Preliminares dos Dados 
 #======================================================= 
 
 Leitura dos dados 
 
 gasolina <- scan(file="gasolina.txt") 
 
 frango <- scan(file="frango.txt") 
 
 alcatra <- scan(file="alcatra.txt") 
 
 dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra 
 
 attach(dados)# apresenta os nomes das variáveis 
 
 names(dados)# apresenta os nomes das variáveis 
 
 dim(dados) # dimensão dos dados 
 
 dados[1:15]# apresenta os 15 primeiros resultados 
 
 
 
 89 
 #========================================================== 
 # Estatísticas Descritivas 
 #========================================================== 
 
 summary(gasolina) 
 
 summary(frango) 
 
 mean(gasolina) 
 
 median(gasolina) 
 
 quantile(gasolina) # retorna os quartis 
 
 var(gasolina)# variância 
 
 cov(frango,alcatra) #Covariância 
 
 cor(frango,alcatra)#correlação 
 
#============================================================== 
# Tabela 
#=============================================================== 
 
 table(frango)# apresenta tabela distribuição frequencia simples. 
 
 
#============================================================== 
# Graficos 
#=============================================================== 
 
 boxplot(gasolina,ylab="Preços da Gasolina") 
 
 boxplot(frango,alcatra,ylab="Preços",xlab="frango X alcatra") 
 
 hist(frango) 
 
 plot(alcatra) 
 
 pairs(cbind(frango,alcatra)) # faz o gráfico de dispersão x1 versus x2 e vice 
versa 
 
 t<-ts(frango) # transforma um conjunto de dados frango em uma série 
temporal 
 
 plot(t)# faz o gráfico da série temporal 
 
 par(mfrow=c(2,1))#divide

Continue navegando