Buscar

2 Apostila Estatística Aplicada

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 121 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 121 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 121 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Estatística Aplicada 
 
 
Prof. Guintar Luciano Baugis 
 Bacharelado em Química 
Química Industrial 
 
 
 2 
 Conteúdo 
 
 
 
1. Introdução ........................................................................................................................... 3 
1.1. Quimiometria ................................................................................................................... 3 
1.2. Noções de Amostragem ................................................................................................... 5 
 
2. Estatística Descritiva .......................................................................................................... 7 
2.1. Precisão e Exatidão .......................................................................................................... 7 
2.2. Medidas de Posição e Dispersão ..................................................................................... 8 
2.3. Distribuição de freqüência ............................................................................................. 13 
2.4. Função de distribuições de probabilidade ..................................................................... 19 
 
3. Estatística Indutiva ........................................................................................................... 25 
3.1. Estimação por intervalo de confiança ............................................................................ 25 
3.2. Tamanho das amostras................................................................................................... 35 
3.3. Rejeição de valores dispersos ........................................................................................ 37 
3.4. Testes de Hipótese ......................................................................................................... 46 
 
4. Análise de Variância ......................................................................................................... 61 
 
5. Regressão e Correlação Linear ......................................................................................... 70 
 
6. Planejamento de Experimentos ........................................................................................ 76 
6.1. Planejamento de Experimentos Fatorial ........................................................................ 77 
6.2. Planejamento Fatorial Fracionário............................................................................... 103 
 
Apêndices ........................................................................................................................... 111 
 
 
 
 
 
 3 
 Introdução 1 
 
 
1.1. Estatística Aplicada 
 
 Estatística é um conjunto de métodos e processos quantitativos que serve para 
estudar e medir os fenômenos coletivos. Esta ciência se preocupa com a organização, 
descrição, análise e interpretação de dados experimentais. Ela é aplicada ao estudo de 
variáveis aleatórias e, principalmente, quando tais variações têm grande efeito sobre o 
fenômeno estudado. 
 
 A Estatística pode ser dividida em duas partes (Figura 1.1): 
 
 Descritiva: que se preocupa com a organização e descrição dos dados 
experimentais; 
 
 Indutiva: que cuida da análise e interpretação, permitindo a realização de inferências 
e projeção de populações. 
 
 
 
Figura 1.1. Divisões da Estatística e suas atribuições. 
 
 
 Quimiometria é uma disciplina voltada à aplicação de métodos estatísticos e 
matemáticos no planejamento e otimização de procedimentos e na obtenção de informações 
químicas nas análises de resultados relevantes. É reconhecida atualmente como um ramo da 
química analítica. O emprego dos computadores em laboratório impulsionou o 
desenvolvimento da quimiometria 
 
 
 
 
Dados Análise 
Conhecimento e 
informação 
Descritiva Indutiva 
 
 4 
 Alguns campos de aplicação da quimiometria: 
 
 Otimização de experimentos 
 Curvas de calibração 
 Modelagem de fenômenos 
 Detecção e resolução 
 Comparação de métodos 
 Redes neurais 
 Procura bibliográfica 
 
 O método estatístico aplicado na avaliação de um processo se divide em quatro 
fases basicamente: 
 
- Coleta de dados: pode ser efetuada de dois modos; 
 Direto: todo o universo dos dados é utilizado para análise; 
 Indireto: somente uma parte do universo é utilizada para análise – a amostra; 
 
 Em um determinado processo estatístico esta importante etapa deve atender os 
seguintes requisitos: 
 
 Definir claramente os objetivos; 
 Definir a técnica a ser utilizada; 
 Comprometer o coletor com o processo; 
 Planejar a coleta; 
 Definir os pontos mais adequados; 
 Treinar o coletor; 
 Utilizar instrumentos adequados. 
 
- Apuração dos dados: após a coleta dos dados efetua-se a tabulação de acordo com 
critérios pré-estabelecidos. Por exemplo: faixa de concentração, método utilizado, etc. 
 
- A apresentação dos dados: os dados podem ser apresentados em tabelas (ou quadros) e 
em gráficos. 
 
- Análise e interpretação: baseados na análise dos dados deverão ser tomadas medidas para 
resolução de problemas observados ou melhoria dos processos. 
 
 O emprego da quimiometria e de ferramentas estatísticas tem colaborado com o 
químico nas suas diversas áreas de atuação, levando-lhe a melhor interpretação de dados 
experimentais obtidos e a grande economia de tempo e materiais. 
 
 
 
 
 
 
 
 5 
 Dois conceitos fundamentais devem ser considerados em quimiometria: 
 
 Nenhuma operação matemática melhora a medida do processo! 
 O domínio e o conhecimento acerca do problema ainda são imprescindíveis. 
 
 Note o problema descrito na Figura 1.2. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 1.2. (D. Harris, QAQ, ed. LTC). 
 
 
1.2. Noções de Amostragem 
 
 População ou universo estatístico: é um conjunto da totalidade dos elementos 
objeto da nossa análise. Pode ser finita ou infinita; 
 
 Amostra é uma parte significativa da população, selecionada com critérios 
científicos, que nos permite tirar conclusões a respeito da população. 
 
 O esquema na Figura 1.3 associa o conceito de população e amostra com a 
estatística descritiva e indutiva. 
 
 É preciso garantir que a amostra usada seja obtida por processos adequados para 
seja representativa da população. Isso significa que, em maior ou menor grau, no processo 
de amostragem a amostra deve possuir as mesmas características básicas da população. 
 
 
 
 
 
 6 
 
 
 
 
 
 
 
 
 
 
Figura 1.3. Relações entre as divisões da estatística, amostra e população. 
 
 
 De acordo com o interesse ou propósito do trabalho a ser conduzido, a amostragem 
de uma determinada população pode ser assim classificada: 
 
- Amostragem casual simples - Todos os elementos da população têm igual probabilidade 
de pertencer à amostra; 
 
- Amostragem sistemática - Quando os elementos da população se apresentam ordenados e 
a retirada da amostra é feita em espaço e tempo definidos; 
 
- Amostragem por meio de conglomerados - Quando a população apresenta uma subdivisão 
em pequenos grupos, chamados conglomerados, é possível se realizar uma amostragem 
casual destes subconjuntos; 
 
- Amostragem estratificada - Muitas vezes a população se divide em sub-populações ou 
estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente 
um comportamento substancialmente diverso. A amostragem estratificada consiste em 
especificar os estratos e a porção da amostra retirada em cada um dele. 
 
 
 
 
 
 
 
 
 
 
 
 
Amostra 
Amostra 
População existente 
População futura 
Estatística 
Indutiva 
Estatística 
Descritiva 
 
 7 
Estatística Descritiva 2 
 
 
2.1. Precisão e Exatidão 
 
 Erros ou desvios são conseqüências naturais do processo de medida de uma 
determinada grandeza.Os erros podem ter como origem as seguintes fontes: 
 
- Erro de julgamento: oriundo de uma medida subjetiva. 
- Erro de leitura: oriundo de leituras errôneas. 
- Erro de instrumento: oriundo de defeitos ou da precisão limitada de instrumento. 
- Erro de fontes externas: devido a fatores que influem diretamente na medida. 
- Erro de representação: devido às medidas não poderem ser representadas numa escala 
correta. 
 
 Os erros descritos acima nos levam a uma classificação genérica de dois tipos de 
erros, a saber: 
 
 Erro Sistemático: apresenta tendência e relaciona-se com a média. Ex: utilizar uma 
balança não calibrada para pesagem. Para eliminá-lo necessitamos descobrir a fonte 
e caso não seja possível devemos utilizar tabelas ou fórmulas para sua correção. 
 
- É unidirecional 
- Tem causa assinalável 
- Está associada à exatidão 
 
 Erro Aleatório: não apresenta tendência e relaciona-se com o desvio padrão. Ex: 
leituras sucessivas em um equipamento com diferentes valores. Não são passíveis 
de eliminação, porém podem ser tratados estatisticamente. 
 
- É bidirecional 
- Não tem causa assinalável 
- Está associado à precisão 
 
 Exatidão: É a concordância entre uma medida e valor verdadeiro ou mais provável 
da grandeza. É também referida como acurácia. 
 
 Precisão: É a concordância entre uma série de medidas da mesma grandeza. 
Expressa a reprodutibilidade da medida. 
 
 Os conceitos relacionados à Exatidão e Precisão estão demonstrados na Figura 2.1. 
 
 8 
 
 
Figura 2.1. Relações apresentadas por Exatidão e Precisão. 
 
 O grau de exatidão e precisão na tomada de uma determinada medida é determinado 
por um conjunto de propriedades estatísticas que relacionam posição e dispersão a um valor 
da população 
 
2.2. Medidas de Posição e Dispersão 
 
 Medidas podem ser tomadas em função da amostra ou da população. A notação 
destas medidas encontra-se na Tabela 2.1: 
 
Tabela 2.1. Notações de principais estatísticas para população e amostra. 
 População Amostra 
No de elementos N n 
Média  x 
Variância 2 S2 
Desvio padrão  S 
 
Precisão – Erros Aleatórios 
Exatidão – Erros Sistemáticos 
 
 9 
 As medidas de posição servem para localizar a distribuição de freqüência sobre o 
eixo da variável em questão. Três tipos importantes de medidas de posição: média, mediana 
e moda. 
 
 Média aritmética: sendo xi (i = 1,2,3, ..., n,), definimos com média aritmética ou 
simplesmente média: 
 
N
x
n
i
i
 1 ou 
n
x
x
n
i
i
 1 
 
 
 Média Ponderada: consiste na média dos valores ordenados por classes 
considerando o peso de cada classe no conjunto. 
 
N
fx
n
i
ii
 1
.

 ou n
fx
x
n
i
ii
 1
.
 
 
 
 Mediana ( x~ ): A mediana é o valor médio ou a média aritmética dos dois valores 
centrais de um conjunto de números, ordenados em ordem de grandeza, isto é, em 
um rol. 
 
 Moda ( x̂ ): é o valor que ocorre com maior freqüência, isto é, é o valor mais 
comum. A moda pode não existir e, mesmo que exista, pode não ser única. Uma 
distribuição que tem apenas uma única moda é denominada unimodal. 
 
Exemplo 
 
Encontrar média, mediana e moda do seguinte conjunto: 
 
11 12 14 15 15 16 16 18 
 
6,14
8
1816161515141211


x 
 
mediana = 15
2
1515
)º5:º4( 

x 
 
moda = 15 e 16 (universo bimodal) 
 
 
 
 
 10 
 As medidas de dispersão complementam as informações das medidas de posição, 
indicando o grau de variação existente num conjunto de dados. As principais medidas de 
dispersão são: amplitude, variância, desvio padrão e o coeficiente de variabilidade. 
 
 Amplitude: É a diferença entre o maior e o menor valor da série de dados. 
 
mínmáx xxR  
 
 Variância: Por definição é a média dos quadrados dos valores em relação à média. 
Podemos definí-la como: 
 
N
x
n
i
i


 1
2
2
)( 
 ou 
1
)(
1
2
2





n
xx
S
n
i
i
 
 
N
N
x
x
n
i
n
i
i
i










 1
2
12
2 ou 
1
1
2
12
2













n
n
x
x
S
n
i
n
i
i
i
 
 
 
 As variações das outras fórmulas ocorrem das formas análogas às variações acima. 
As propriedades matemáticas da variância: 
 
- Multiplicando-se todos os valores de um conjunto por uma constante, a variância do 
conjunto fica multiplicada pelo quadrado dessa constante; 
 
- Somando-se ou subtraindo–se uma constante a todos os valores de um conjunto, a 
variância não se altera. 
 
 Desvio Padrão: É definido como sendo a raiz quadrada da variância. Sua vantagem 
em relação à variância é que se encontra na mesma unidade dos dados amostrais. 
 
2SS  
 
 Às vezes, o desvio padrão e a variância correspondentes a amostra são definidos 
com n, em lugar de n-1 nos denominadores das expressões. Isso representa uma estimativa 
melhor do desvio padrão da população da qual a amostra faz parte. Para grandes valores de 
N (certamente N>30) não há, praticamente, diferença entre as definições. 
 
 
 
 
 
 
 11 
Exemplo 
 
Conjunto de dados apresentados na determinação de Pb (mg/L) de 4 laboratórios: 
 
48,4 50,2 50,8 51,0 
 
1,50x mg/L 
 
 xxi  
2)( xxi  
48,4 – 50,1 = -1,7 2,89 
50,2 – 50,1 = 0,1 0,01 
50,8 – 50,1 = 0,7 0,49 
51,0 – 50,1 = 0,9 0,81 
Σ 0 4,2 
 
4,1
14
2,42 

S (mg/L)2 
 
2,14,1 S mg/L 
 
 
 Coeficiente de variação: É definido como o quociente percentual entre o desvio 
padrão e a média. Sua vantagem é caracterizar a dispersão dos dados em termos 
relativos a seu valor médio. 
 
100
x
S
CV 
 
Exemplo 
 
Um químico, desejando avaliar um novo método para determinação de cobre, conduziu 
uma investigação preliminar usando uma solução de concentração conhecida. Esta solução 
de 60 mg/L de cobre foi analisada 6 vezes, tomando para cada determinação alíquotas de 10 
mL. Encontrar a média, mediana, moda, amplitude, variância, desvio-padrão e o coeficiente 
de variação dos resultados encontrados. 
 
 58,2 61,0 56,6 53,8 56,9 58,3 
 
 
5,57
6
3,589,568,536,560,612,58


x mg/L 
 
6,57)2,58:9,56(  xmd mg/L 
 
 
 12 
2,78,530,61 R mg/L 
 
65,5
)16(
)5,573,58(...)5,570,61()5,572,58( 2222 


S (mg/L)2 
38,265,5 S mg/L 
 
%1,4100
5,57
38,2
CV 
 
conjunto amodal (sem moda) 
 
Exemplo 
 
Foram realizadas análises de cloretos em meio aquoso por 4 técnicos em uma mesma 
amostra padrão de 10,0 mg/L, encontrando-se os seguintes resultados: 
 
 técnico A 9,0 9,0 9,2 9,1 9,3 
 técnico B 9,9 9,9 10,3 10,3 10,3 
 técnico C 8,0 9,0 9,5 8,5 9,8 
 técnico D 9,0 10,5 11,0 9,5 10,0 
 
Em relação aos resultados encontrados, classifique-os quanto à precisão e exatidão, e diga 
qual o tipo de erro (sistemático ou aleatório) há em cada um dos casos. 
 
Para estimarmos a exatidão vamos considerar a estatística x , e para a precisão o 
coeficiente de variação. 
 
 x S CV (%) classe erro 
técnico A 9,1 0,13 1,4 inexato e preciso sistemático 
técnico B 10,1 0,22 2,2 exato e preciso aleatório 
técnico C 9,0 0,73 8,1 inexato e impreciso sistemático aleatório 
técnico D 10,0 0,79 7,9 exato e impreciso aleatório 
 
Exercício 2.1 
 
Três amostras foram enviadas ao laboratório para análise. O técnico realizou 5 
determinações em cada uma delas, e encontrou os seguintes resultados : 
 
A : 6,1 6,3 6,2 6,5 5,9 
B: 36,5 37,3 36,9 38,4 35,4 
C: 241,5 244,7 237,5 252,9 242,9 
 
 
 
 13 
a) Calcule a média, a amplitude, o desvio-padrão e o coeficiente de variação para cada 
amostra; 
b) Comente o uso do desvio-padrão, amplitude e coeficiente de variação como unidade de 
precisão de um método analítico. 
 
Resposta: b) O coeficiente de variação é a melhor propriedade para estimar a dispersão. 
 
Problemas 
 
2.1. Calcule a amplitude, a variância, o desvio-padrão e o coeficiente de variação em cada 
caso:a) 12 6 7 3 15 10 18 5 
b) 9 3 8 8 9 8 9 18 
c) 75 75 76 77 76 75 76 77 75 76 75 
 
2.2. Uma amostra artificial, padronizada, de soro de sangue humano contém 50,0 gramas de 
albumina por litro. Cinco laboratórios (A-E), realizaram seis determinações da 
concentração de albumina, com os seguintes resultados: 
 
A 50,5 49,6 50,1 49,9 49,1 50,2 
B 47,8 51,6 50,1 48,1 51,9 49,9 
C 51,5 50,8 51,8 51,1 50,7 51,3 
D 43,0 51,0 45,1 48,5 45,8 49,2 
E 50,2 49,6 50,0 49,8 50,6 47,0 
 
Comente sobre a precisão e exatidão de cada laboratório. 
 
 
2.3. Distribuição de freqüência 
 
 É uma séria estatística específica, onde os dados encontram-se dispostos em classes 
ou categorias juntamente com as freqüências correspondentes. Pode ser dividida em dois 
tipos: 
 
 Distribuição Simples: Assume valores inteiros (pontuais) normalmente oriundos de 
contagem. Ex.: números de técnicos que participam de um plano de correlação 
laboratorial (dados discretos). 
 
 Distribuição acumulada: Assume valores contínuos, normalmente oriundos de 
medidas. Ex.: resultados de análises de enxofre realizadas em amostras de gasolina. 
 
 
 
 
 
 
 14 
Exemplo de uma distribuição contínua: temperaturas observadas em determinado processo: 
 
 22 46 9 40 57 22 22 13 50 42 
 35 2 15 41 34 52 32 75 69 44 
 26 42 60 56 30 3 17 79 45 37 
 0 12 62 50 45 41 59 11 66 39 
 43 33 70 50 47 20 36 40 67 29 
 
 
 A distribuição de freqüência será expressa na seguinte ordem: 
 
 
 Temperaturas nº observações 
 
 0 ⊢ 10 4 
 10 ⊢ 20 5 
 20 ⊢ 30 6 
 30 ⊢ 40 8 
 40 ⊢ 50 12 
 50 ⊢ 60 7 
 60 ⊢ 70 5 
 70 ⊢ 80 3 
 
 
 Para discutir os dados dispostos na tabela de distribuição devemos notar algumas 
definições: 
 
 Dados Brutos: São os dados não organizados. 
 
 Rol: Arranjo de dados em ordem decrescente. 
 
 Classe (i): Número de cada classe (inferior e superior). No exemplo é igual a 8. 
 
 Limite de classe: São os extremos de cada classe (inferior e superior). No exemplo a 
terceira classe tem limite inferior igual a 20 e limite superior igual a 30. 
 
 Intervalo de classe ou amplitude: É a diferença entre o limite superior e o limite 
inferior de cada classe. No exemplo é 10. 
 
 Amplitude total: É a diferença entre a maior e a menor observação. No exemplo a 
amplitude total é 79. 
 
 
 15 
 Ponto médio de classe (xi): É a média aritmética entre o limite superior e inferior de 
cada classe. No exemplo, xi da quinta classe é 45. 
 
 Número de classes: Pode ser encontrado pela regra de Sturges: 
 
K = 1 + 3,3 logN (N = número de elementos) 
 
Também pode ser encontrado por outras fórmulas, como regra de Kelly e etc. No entanto, é 
utilizado um número conveniente. No exemplo optamos por 8 classes. 
 
 Freqüência absoluta simples (fi): Número de observações em cada classe. 
 
 Freqüência relativa simples (fir): É o quociente entre a frequência absoluta simples 
da classe (fi) e o número total de observações (N). 
 
 Freqüência absoluta acumulada (Fi): Corresponde a soma das freqüências de 
determinada classe com todas as anteriores. 
 
 Freqüência relativa acumulada (Fir): Corresponde à soma das freqüências 
relativas simples (fir) de determinada classe com todas as anteriores. 
 
 
Exemplo 
 
Os valores abaixo se referem a uma série de resultados analíticos de determinado produto, 
já ordenados de forma crescente. 
 
95 96 96 97 97 97 97 98 98 98 98 98 
98 99 99 99 99 99 99 99 99 99 99 99 
99 100 100 100 100 100 100 100 100 100 100 100 
100 100 100 100 100 100 100 101 101 101 101 101 
101 101 101 101 101 101 102 102 102 102 102 102 
102 103 103 103 103 104 104 105 
 
Em relação aos dados acima, organize uma tabela de distribuição de freqüência por 
intervalos e responda as seguintes questões: 
 
a) % de resultados iguais ou superiores a 99; 
b) % de resultados entre 98 (inclusive) e 102 (exclusive); 
c) Número de resultados menores que 103. 
 
 
 
 16 
Temperatura (ºC) xi fi fir Fi Fir 
95 ⊢ 96 95,5 1 0,015 1 0,015 
96 ⊢ 97 96,5 2 0,029 3 0,044 
97 ⊢ 98 97,5 4 0,059 7 0,103 
98 ⊢ 99 98,5 6 0,088 13 0,191 
99 ⊢ 100 99,5 12 0,176 25 0,368 
100 ⊢ 101 100,5 18 0,265 43 0,632 
101 ⊢ 102 101,5 11 0,162 54 0,794 
102 ⊢ 103 102,5 7 0,103 61 0,897 
103 ⊢ 104 103,5 4 0,059 65 0,956 
104 ⊢ 105 104,5 2 0,029 67 0,985 
105 ⊢ 106 105,5 1 0,015 68 1,000 
 
a) % resultados ≥ 99 (freqüência acumulada relativa até quarta classe): 1-0,191 = 0,809 
(80,9 %) . 
b) % resultados ≥ 98, < 102 (soma das freqüências relativa entre quarta e sétima classe): 
0,088 + 0,176 + 0,265 + 0,162 = 0,691 (69,1 %) . 
c) resultados < 103 (freqüência acumulada até a oitava classe): 61 
 
Exercício 2.2 
Em um determinado processo foram observadas as seguintes medidas de temperatura, com 
um termômetro: 
 
Data ºC Data ºC Data ºC Data ºC Data ºC 
1/11 22 1/12 35 31/12 26 30/1 0 1/3 43 
4/11 46 4/12 2 3/1 42 2/2 12 4/3 33 
7/11 9 7/12 15 6/1 60 5/2 62 7/3 70 
10/11 40 10/12 41 9/1 56 8/2 50 10/3 50 
13/11 57 13/12 34 12/1 30 11/2 45 13/3 47 
16/11 22 16/12 52 15/1 3 14/2 41 16/3 20 
19/11 22 19/12 32 18/1 17 17/2 59 19/3 36 
22/11 13 22/12 75 21/1 79 20/2 11 22/3 40 
25/11 50 25/12 69 24/1 45 23/2 66 25/3 67 
28/11 42 28/12 44 27/1 37 26/2 39 28/3 29 
 
Determine: 
a) % de observações ≥ 70 ºC. 
b) número de observações ≥ 70 ºC. 
c) número de observações < 60 ºC e ≥ 20 ºC. 
d) % de observações < 40 ºC. 
 
 
 
 17 
Histogramas 
 
 São representações gráficas em forma de colunas justapostas, onde a base colocada 
no eixo das abscissas corresponde aos intervalos das classes, e a altura é dada pela 
freqüência absoluta das classes. O processo de obtenção do histograma é análogo ao 
utilizado para obtenção da distribuição de freqüência. A Figura 2.2 apresenta as 
classificações de histogramas que podem ser obtidas. A Figura 2.3 demonstra o histograma 
construído a partir de dados do Exercício 2.2 de classificação assimétrica. 
 
 
Tipo Geral
0
2
4
6
8
10
12
14
16
Tipo Pente
0
2
4
6
8
10
12
14
16
18
 
Tipo Platô
0
2
4
6
8
10
12
14
 
Tipo Assimétrico
0
2
4
6
8
10
12
14
16
18
 
Figura 2.2. Classificação de histogramas conforme formato da distribuição dos dados. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 18 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 2.3. Histograma dos dados do Exercício 2.2. 
 
 
Exercício 2.3 
Construa o histograma referente ao exemplo da página 15. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0
2
4
6
8
10
12
14
 0├ 10 10├ 20 20├ 30 30├ 40 40├ 50 50├ 60 60├ 70 70├ 80
fi
 
 19 
2.4. Função de distribuições de probabilidade 
 
 Vamos considerar o seguinte exemplo: determinado lote de produtos fabricados 
com especificação A e B, respectivamente, foram classificados em uma escala própria de 
cor, de 1 a 2, conforme a seguinte tabela: 
 
 Escala cor 
Especificação 1 2 Total 
A 503 120 623 
B 250 5 255 
Total 753 125 878 
 
 Em um processo de escolha aleatória, qual a probabilidade de sorteamos: 
 
a) Produto com especificação A 
 
 
b) Produto com cor 2 
 
 
c) Produto com especificação B e cor 1 
 
 
d) Produto com especificação A ou cor 1 
 
 
 
 Quando conhecemos a distribuição dos dados sob determinados critérios podemos 
estabelecer facilmente a probabilidade de encontrarmos um resultado aleatório dentro de 
um intervalo. Exemplos clássicos deste conceito são (Figura 2.4): a) a função de onda, que 
determina a probabilidade de encontrarmos um elétron em determinado espaço orbital; e b) 
a distribuição de Maxwell referente à velocidade das partículas do gás ideal em função da 
temperatura (P.W. Atkins, Princípiosde Química, Bookman, 2001). 
 
 
 
 
 
 20 
 
 
Figura 2.4. Exemplos de distribuição de probabilidade aplicados à química. 
 
 
 A distribuição de probabilidade é determinada pela curva de densidade. No caso do 
histograma do Exemplo da página 15, podemos delimitar a curva de densidade da 
distribuição de probabilidade dos dados, conforme Figura 2.5. 
 
ºC
fi
0
2
4
6
8
10
12
14
16
18
20
94 95 96 97 98 99 100 101 102 103 104 105 106
 
 
Figura 2.5. Curva de densidade de probabilidade conforme exemplo pg 15. 
 
 
 21 
 Quando não conhecemos a distribuição dos dados, podemos admitir sob critérios 
rigorosos que a população pode seguir um padrão de distribuição determinado. 
 
 
Distribuição Normal 
 
 Um dos mais importantes exemplos de uma distribuição continua de probabilidade é 
a distribuição normal, ou a distribuição de Gauss, apresentada na Figura 2.6. A função de 
distribuição normal é definida pela equação: 
 
2
2
2
)(
2
1






x
eY 
 
 
 
 
Figura 2.6. Representação gráfica da distribuição normal. 
 
 
 A distribuição normal é a distribuição mais comumente utilizada quando se estuda 
variáveis. Podemos assim descrever as características de uma distribuição normal: 
 
 Apresenta simetria ao redor da média; 
 
 Tem um ponto de máximo para x =  ; 
 
 É duplamente assintótica; 
 
 Tem dois pontos de inflexão; 
 
 A área sob é igual à unidade. 
 
 A probabilidade sob a curva de densidade da distribuição normal tem valores 
definidos em termos de  conforme apresentado no Figura 2.7. 
 
 
 
 22 
 
 
Figura 2.7. Relação de probabilidade da distribuição normal em função de . 
 
 
 Como exemplo, vamos ilustrar a aplicação de cálculo pela probabilidade normal no 
caso de uma análise química de cobre por método eletrogravimétrico, supondo que o 
resultado esperado para o teor de cobre seja de 20 % e que a determinação analítica resultou 
em média x = 20 e desvio padrão  = 0,5. 
 
P (19 ≤ μ ≤ 21) = 
P (18,5 ≤ μ ≤ 21,5) = 
P (19 ≤ μ ≤ 21,5) = 
 
 
Distribuição Normal Reduzida 
 
 Para facilitar o cálculo de áreas de probabilidades, converte-se a escala dos eixos de 
x (variável aleatória) para escala de unidades de desvio padrão. Assim, temos que: 
 

)( 

x
z 
 
onde o valor z representa o quanto um determinado valor dista da média em termos de 
desvio-padrão. 
99,7 % 
95,4 % 
68,3 % 
 - 
- 2 2 
3 - 3 
 
 23 
 
 A tabela disposta no Apêndice deve ser empregada para determinar a probabilidade 
de um resultado ocorrer em uma distribuição normal 
 
 
Exemplo 
 
Um certo material foi analisado em laboratório. A média das determinações foi de 3,40 e o 
desvio padrão de 0,14. A especificação deste material fornecida pelo produtor é de 
3,36  0,05. Qual a probabilidade de encontrar valores fora de especificação? 
 
μ = 3,40 
 = 0,14 
 
Limites da especificação: x1 = 3,36 – 0,05 = 3,31 
 x2 = 3,36 + 0,05 = 3,41 
 
 
642,0
14,0
)40,331,3(
1 

z 
071,0
14,0
)40,341,3(
2 

z 
 
P (x < 3,31) = P (z < -0,642) = 0,5 - 0,2389 = 0,261 
P (x > 3,41) = P (z > 0,071) = 0,5 - 0,0279 = 0,472 
 
P (3,31 < x < 3,41) = 0,733 ou 73,3 % 
 
 
Exercício 2.4 
 
A média obtida pelo laboratório para o teor de Fe no minério de ferro amostrado é de 
12,5 % e o desvio padrão 1,2 %. A especificação do cliente é de 12,6  1,5 %. 
 
a) Qual a probabilidade dos resultados obtidos encontrarem-se dentro desta especificação? 
b) Qual a probabilidade de encontrar valores maiores que 11,1 %. 
 
 
 
 
 
 
 
 
 
 
 
 24 
Problemas 
 
2.3. Para X : N (20,4), ou seja, dada uma distribuição com μ = 20 e  2= 4, encontrar os 
valores reduzidos correspondentes a: 
x1 = 14 x2 = 16 x3 = 18 x4 = 20 
x5 = 22 x6 = 24 x7 = 26 
 
2.4. Seja X : N (100,25), calcule: 
a) P (100  x  106) 
b) P (89  x  107) 
c) P (112  x  116) 
d) P (x  108) 
e) P (x  95) 
 
2.5. Os resultados das análises de óleo em água das amostras de um efluente final 
apresentam valores de média 1,60 ppm e desvio-padrão 0,30 ppm. Supondo que os 
resultados estejam normalmente distribuídos, encontre a probabilidade de uma amostra de 
efluente final se apresentar: 
a) Entre 1,50 e 1,80 ppm. 
b) Mais de 1,75 ppm. 
c) Menos de 1,48 ppm. 
d) Qual deve ser valor mínimo para escolhermos os 10 % dos resultados que apresentaram 
valores mais altos. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 25 
 Estatística Indutiva 3 
 
 
 O objetivo da estatística indutiva é tirar conclusões sobre as populações com base 
nos resultados observados nas amostras extraídas dessas populações. Os problemas de 
estatística indutiva se concentram em dois grupos: 
 
- Estimação de Parâmetros por Intervalos de Confiança 
- Avaliação por Testes de Hipóteses 
 
 
Estimação dos parâmetros da população 
 
 Através de uma amostra representativa da população, procura-se estimar os 
parâmetros da população (média, mediana, moda, amplitude, desvio padrão, variância, 
coeficiente de correlação, etc.). A estimação amostral pode ser por ponto ou por intervalo 
de confiança. 
 
 A estimação pontual é a estimativa do parâmetro através de um único valor 
resultante de observações sobre os valores da amostra. Em estatística, entende-se por 
população o conjunto de elementos que tem em comum determinada característica. Todo 
subconjunto de elementos retirado dessa população é uma amostra. As medidas obtidas 
com base na população são chamadas parâmetros, indicados por letras gregas. Assim, por 
exemplo, a média de uma população é indicada por μ, e o desvio padrão por . 
 
 As medidas obtidas com base em amostras são denominadas estatísticas, que são 
obtidas a partir de amostras como estimativas dos parâmetros. Na estimação de parâmetros 
por ponto, x serve para estimar μ, assim como S serve para estimar . 
 
 
3.1. Estimação por intervalo de confiança 
 
 Estimar o parâmetro por intervalo consiste na determinação de valores obtidos de 
observações da amostra no qual se espera que o mesmo contenha o valor do parâmetro. O 
intervalo estabelecido com uma determinada probabilidade é conhecido como intervalo de 
confiança. O nível ou grau de confiança, designado por 1-, é a probabilidade citada. 
Assim,  será a probabilidade de erro na estimação por intervalo. 
 
 
 
 
 26 
 Admitiremos simetria na probabilidade que os intervalos de confiança contenham os 
valores dos parâmetros estimados e, dessa forma, a probabilidade de que o parâmetro fique 
fora do intervalo, à direita e à esquerda do mesmo, será igual a /2. 
 
 O intervalo de confiança pode ser determinado para uma série de condições. Vamos 
considerar estas condições específicas como casos de estudo. 
 
Caso 1. Intervalo de Confiança para μ com  conhecido. 
 
 O intervalo de confiança será expresso como 0ex  , sendo os limites do intervalo 
de confiança simétrico 0ex  e 0ex  . O problema resume-se em determinar o 0e , 
fixando-se a probabilidade de erro na estimação, e fazendo uso do conceito da distribuição 
normal padronizada. 
 
 Admitindo-se: 
 
μ = média da população 
x = média da amostra 
x = valor da variável estudada 
 = desvio padrão da população 
n = tamanho da amostra 
0e = semi-amplitude do intervalo de confiança 
e 



x
z 0ex   
 
Em se tratando do estudo de amostras, o desvio padrão em z passa a ser indicado por 
n/ . 
 
Substituindo as respectivas simbologias, temos que: 
 
n
e
z

 

)( 0 
 
n
ze

0 
 
Portanto, a expressão do intervalo de confiança, 0ex  , resultará em: 
 
n
zx

 
 
e a interpretação desse intervalo será indicada por: 
 
 27 
 










 1
n
zx
n
zxP 
 
o valor de z é obtido na tabela da área sob a curva normal . 
 
Exemplo 
 
Consideremos uma amostra de 49 elementos extraída de uma populaçãocom distribuição 
normal, com média amostral x = 25 e  = 1. Estabelecer um intervalo de 95 % de 
probabilidade com confiança para a média dessa população. 
 
Através da tabela da curva normal: 
 
z = z2,5% = 1,96 (valor obtido para 1- = 1-0,05 = 0,95). 
 
28,0
49
1
.96,10 e 
 
o intervalo de confiança será dado por: 
 
28,000,250  ex 
 
com indicação dada por: 
 
P (24,72 ≤ μ ≤ 25,28) = 0,95. 
 
 
Exercício 3.1. 
O teste da concentração de K no sangue não é totalmente preciso. Além disso, a 
concentração pode variar significativamente de um dia para outro. Suponha que medidas 
repetidas tomadas em dias diferentes do mesmo paciente variem normalmente, com 
 = 0,2. 
a) 1 amostra retirada de um determinado paciente apresentou resultado x = 3,4. Dê o 
intervalo com 90 % de confiança para seu nível médio de K; 
b) Suponha agora que 3 amostras fossem tomadas e fornecessem média x =3,4. Qual seria 
agora o intervalo com 90 % de confiança para a média? 
 
 
 
 
 
 
 
 
 
 28 
Exercício 3.2. 
Uma fábrica produz pilhas com  = 1 h em termos de vida-útil. Em uma amostra de 36 
pilhas, a média de vida-útil foi de 7,5 h. Supondo que a distribuição tenha comportamento 
normal, estimar o intervalo que contém μ com 95 % de confiança. 
 
 
 
 
Caso 2. Intervalo de Confiança para μ com  desconhecido. 
 
 Quando os parâmetros da população são desconhecidos, podemos, com base em 
uma amostra, obter a média da amostra, o desvio padrão e o erro padrão da média. A 
probabilidade neste caso deve ser considerada conforme a distribuição t de Student que é 
adequada para amostras com menor número de elementos, em geral < 30. 
 
 A curva de densidade da distribuição t de Student se assemelha com a curva normal 
à medida que n tende a valores maiores, conforme demonstrado na Figura 3.1. 
 
 
 
z 
 
Figura 3.1. Comparação entre a distribuição t e a normal em função do tamanho da 
amostra. 
 
 
 A probabilidade sob a curva densidade da estatística t pode ser encontrada por meio 
de dados tabelados (Apêndice). 
 
 
 
 
 
 29 
Exemplo 
 
Procurar o valor de t para uma amostra de 10 elementos com um nível de confiança de 
95 %. 
 
Exercício 3.4 
Encontrar os valores de t na tabela bilateral para : 
a) n = 20 95 % de confiança t = 
b) n = 30 95 % de confiança t = 
c) n = 10 99 % de confiança t = 
d) n = 5 90 % de confiança t = 
 
Exercício 3.5 
Qual o número de amostras para: 
a) 95 % de confiança t = 2,145 n = 
b) 99 % de confiança t = 2,704 n = 
c) 90 % de confiança t = 1,746 n = 
 
Exercício 3.6 
Qual o nível de confiança para : 
a) t = 1,325 n = 21 confiança = 
b) t = 2,878 gl = 18 confiança = 
 
 
 
 Usando a distribuição de t de Student podemos estabelecer um intervalo de 
confiança para a média, calculando os limites xtSx  , onde nSSx  . Assim a expressão 
para o intervalo de confiança para μ para com  desconhecido fica: 
 
nStx n 2/,1 
 
onde t é obtido por meio de tabela com n-1 graus de liberdade. A interpretação para o 
intervalo de confiança é dada por: 
 
  





  1.. 2/,12/,1
n
S
tx
n
S
txP nn 
 
 
Exemplo 
 
Uma amostra de 10 elementos com média x = 16 e desvio padrão S = 2 é extraída de uma 
população de distribuição normal. Construir um intervalo de confiança de 90 % para a 
média dessa população. 
 
Da tabela de distribuição t temos: 
 
 30 
 
tn-1= t9,90% = 1,833 
 
eo = 1,833 . 
10
2
 = 1,159 
 
o intervalo de confiança será: 
 
159,100,160  ex 
 
com indicação: 
 
P(14,841 ≤ μ ≤ 17,159) = 0,90 
 
 
Exercício 3.7 
Temos uma amostra de minério para análise de ferro. Obtivemos os seguintes resultados: 
 
12,5 11,8 13,2 12,7 12,0 12,0 
 
Construir um intervalo para a média, considerando 90 % de confiança. 
 
 
 
 
Exercício 3.8 
Construir o intervalo de confiança (95 %) para a concentração de enxofre em amostra de 
carvão mineral. Os resultados obtidos em laboratório foram: 
 
3,22 3,45 3,33 3,40 3,60 
 
 
 
Problemas 
 
3.1. A especificação de um produto garante o teor de cálcio igual a 1,5 %. Foram feitas 12 
determinações de cálcio em um lote, sendo a média dos valores obtidos igual a 1,7 % e o 
desvio padrão igual a 0,22 %. Verificar se o lote é aceito quando se aceita um risco de 5 % 
de erro (95% de confiança). 
 
 
 
 
 
 
 
 
 31 
3.2. Quatro técnicos analisaram uma solução de amônia de concentração de 20,1%, 
encontrando-se os seguintes resultados. 
 
Técnico Determinações x S 
A 20,2 19,9 20,1 20,4 20,2 20,4 20,2 0,190 
B 19,9 20,2 19,5 20,4 20,6 19,4 20,0 0,486 
C 20,6 20,5 20,7 20,6 20,8 21,0 20,7 0,179 
D 20,1 19,9 20,2 19,9 21,1 20,0 20,2 0,456 
 
Baseado nos dados acima, verifique com um nível de significância de 5 % se algum técnico 
apresenta um erro sistemático. 
 
 
 
Caso 3. Intervalo de confiança para a variância populacional. 
 
 A estimação do parâmetro variância pode ser realizada através de intervalos, de 
forma análoga à determinação de μ. Para tal, devemos empregar a distribuição 2 (qui 
quadrado). 
 
 A distribuição 2 estabelece a dependência da variância com o número de graus de 
liberdade conforme apresentado na Figura 3.2: 
 
 
Figura 3.2. Função de distribuição
2 de acordo com o número de graus de liberdade. 
 
 
 
 
 
 
 32 
 Seja: 
1
)(
1
2
2





n
xx
S
n
i
i
 
 
2
2
2
1
2 1
1
1
S
n
n
nxxn
i
i











 


 
 
2
2
2 )1(


Sn 
 
 
O intervalo de confiança para a variância populacional é definido por: 
 
P







 



2
1,
2
2
2
2
,
2
2 )1()1(



 


SnSn
= 1- 
 
Para o desvio padrão, o intervalo é definido por: 
 
P







 



2
1,
2
2
2
,
2
2 )1()1(



 


SnSn
= 1- 
 
Onde os valores de 
2
,
2 
 e 
2
1,
2 
  podem ser encontrados em Tabela (Apêndice). 
 
Exemplo 
 
Uma amostra de 11 elementos extraída de uma população com distribuição normal 
forneceu S2 = 7,08. Construir o intervalo com 90 % de confiança para 2 da população. 
 
2
,
2 
 = %5,10
2 =18,307 
 
2
1,
2 
  = %95,10
2 =3,94 
 
limites do intervalo: LI = 87,3
307,18
08,710


 
 
 LS = 0,18
94,3
08,710


 
 
P(3,87  2  18,0) = 0,90 
P(1,97    4,24) = 0,90 
 
 33 
 
Exercício 3.9 
A vazão de um determinado produto em um processo contínuo é medida por um 
instrumento. São feitas as seguintes leituras em um intervalo definido de tempo. 
 
 3,20 3,18 3,22 3,57 3,61 3,72 
 
com 90 % de confiança, estabeleça a variação máxima que poderá ser alcançada por este 
sistema. 
 
 
 
 
Caso 4. Intervalo de confiança para a proporção populacional 
 
 Uma variável é uma função que confere um número real a cada resultado no espaço 
amostral de um experimento aleatório. As variáveis podem ser classificadas de duas 
formas: 
 
 Variáveis discretas – possuem uma faixa finita e contável. Exemplo: número de 
lotes fabricados, número de analisadores em linha, número de certificados emitidos 
no mês, etc.. 
 
 Variáveis contínuas – possuem um intervalo de números reais para a sua faixa. 
Exemplo: temperatura, massa, tempo, concentração, etc.. 
 
 O tratamento estatístico dado às variáveis discretas refere-se à proporção dos 
eventos contáveis que ocorrem em uma determinada população. Baseados na distribuição 
binomial, podemos estabelecer o intervalo de confiança para uma determinada proporção 
populacional. 
 
Seja: 
n = número de elementos da amostra; 
f = freqüência observada do evento; 
p = proporção populacional (parâmetro); 
p’= estimador do parâmetro (amostral); 
 
n
f
p ' 
Quando np ≥ 5 e n(1-p) ≥ 5 
n
pp )'1('2  
 
se 
n
ze

0 
 
 
 34 
para a proporção populacional: 
n
pp
ze
)'1('
0

 
 
O intervalo de confiançapara p pode ser definido por: 
 
P







 



n
pp
zpp
n
pp
zp
)'1('
'
)'1('
' =1- 
 
Exemplo 
 
Retirada uma amostra de 1000 peças da produção de uma máquina, verificou-se que 35 
eram defeituosas. Qual o IC ao nível de 95 % para a produção de defeitos da máquina? 
 
n = 1000 
 
f = 35 
 
035,0
1000
35
' p 
 
z 95 % = 1,96 
 
0114,0
1000
)035,01(035,0
96,10 

e 
 
P(0,035-0,0114 ≤ p  0,035+0,0114) = 1- 
 
P(0,0236 ≤ p ≤ 0,0464) = 0,95 
 
 
Exercício 3.10 
Em uma pesquisa com os 150 alunos do último ano de graduação de uma faculdade, 57 
afirmaram que farão pós-graduação. Sendo a população de alunos formandos de 2000 em 
todas as faculdades da região, calcule o número mínimo de alunos que com 95 % de certeza 
farão pós-graduação. 
 
 
 
 
 
 
 
 
 
 
 35 
3.2. Tamanho das amostras 
 
 A amplitude do intervalo de confiança é inversamente proporcional ao nível de 
confiança, isto é, quanto maior o intervalo menor será a precisão na estimação. A 
determinação do tamanho de amostras necessárias para casos de estimação da média fica: 
 
 Com  conhecido na estimação da média populacional 
 
2
0







e
z
n

 
 
 
 Com  desconhecido na estimação da média populacional 
 
2
0
)2/,1(








e
St
n
n 
 
 
 Nesta situação, dependemos de uma amostra piloto n’ para podermos considerar o 
valor de 2/,1 nt na expressão acima para o cálculo de n. Enquanto o valor de n obtido for 
maior que o valor de n’ utilizada como amostra piloto, devemos escolher novo n’ e 
conseqüentemente teremos a tabela t de Student o valor correspondente com n’-1 graus de 
liberdade. Repetimos este procedimento até se obter n < n’. 
 
 Para a proporção populacional 
 
)'1('
2
0
pp
e
z
n 







 
 
 
Exemplo 
 
O supervisor dos analistas do laboratório setorial deseja estimar o valor médio para a 
determinação de selênio em amostras de ração animal, para checar se o método que ele está 
utilizando atende ao erro de 0,2 mg/L, com 90 % de confiança. Baseado em dados do 
laboratório central, a estimativa para o desvio padrão do teor esperado é de  = 0,50 mg/L. 
Qual o número mínimo de determinações que ele precisa efetuar? 
 
Para 90 % de confiança (1- ): z = 1,65. 
 
17
2,0
50,065,1
2





 
n 
 
 
 36 
 
Exemplo 
 
Para verificar se determinado material está fora de especificação, ou seja, maior que 
0,05 mg/L de Pb, o supervisor encaminhou ao analista 7 amostras, obtendo os seguintes 
resultados. 
 
0,052 0,048 0,050 0,055 0,054 0,043 0,060 
 
Ao nível de 10 % de significância, este número de amostras é suficiente para se afirmar que 
a amostra está fora de especificação? Considerar que não há mais informações a respeito do 
problema. 
 
x = 0,05171 
 
S = 0,005438 
 
n’ = 7 > t 6;0,90 = 1 ,943 
 
00171,005,005171,00  xe 
 
38
00171,0
005438,0943,1
2





 
n 
 
como n > n’ (38>7), devemos fazer novas determinações e procedermos aos cálculos para a 
nova média x e a nova estimativa para desvio padrão, utilizando a estatística “t” 
correspondente, ao nível de 5 %, e obtermos o novo número n; e assim por diante, até 
chegarmos em n menor ou igual a n’ . O n final vai nos indicar o número mínimo de 
amostras necessário para dizermos sobre a concordância a respeito da especificação. 
 
Exemplo 
 
Qual o tamanho da amostra suficiente para estimar a proporção de produtos com defeitos 
fornecidos por uma máquina, com precisão de 0,02 e 90 % de confiança, sabendo que 
seguramente esta proporção não é superior a 0,20. 
 
1089)2,01(2,0
02,0
65,1
2






n 
 
 
 
 
 
 
 
 
 37 
3.3. Rejeição de valores dispersos 
 
 Antes de se efetuar a avaliação e interpretação de uma série de resultados, é 
necessário verificar a existência de valores que eventualmente possam ser considerados 
como dispersos, ou seja, valores que muito provavelmente não pertençam ao mesmo 
conjunto de resultados (população). 
 
 Em geral, são feitas considerações dentro do critério de rejeição de valores : 
 
 Se proporção de valores dispersos < 10 %, estes devem ser rejeitados e o restante 
do conjunto pode ser tratado normalmente; 
 
 Se 10% < proporção de valores dispersos < 15%, o responsável pela avaliação dos 
resultados deve usar o bem senso acerca da preservação do conjunto de dados para 
estudo; 
 
 Se proporção de valores dispersos > 15 %, a amostra deve ser totalmente rejeitada. 
 
 Existem métodos de verificar se um ou mais valores podem ser considerados 
dispersos. Vamos aqui nos concentrar no estudo dos procedimentos mais comumente 
empregados e recomendados. 
 
 
Teste de Cochran 
 
 Este teste é utilizado quando se deseja comparar variâncias, ou seja, verificar se a 
variância dos resultados obtidos por um laboratório é excessiva em relação aos demais 
laboratórios. É um teste unilateral, isto é, só verifica o maior valor. 
 
 Para um conjunto de p laboratórios, com desvios padrão Si (i=1,2,...,p), todos 
computados com o mesmo número de repetições n, o teste de Cochran é dado por: 
 



p
i
i
máx
c
S
S
C
1
2
2
 
onde: 
S2 = estimativa da variância 
S2 máx = maior valor encontrado como estimativa da variância, no conjunto 
p = número de laboratórios 
 
Os valores críticos para o teste de Cochran são tabelados (Apênice). 
 
Se Cc < Ct 5 %  Valor aceito 
Se Ct 1 % < Cc < Ct 5 %  Valor suspeito 
Se Cc > Ct 1 %  Valor disperso 
 
 38 
 
Exemplo 
 
Aplicar o Teste de Cochran no conjunto de dados abaixo para encontrar valores dispersos. 
 
Laboratório n S S2 
1 3 0,005 0,000025 
2 3 0,010 0,000100 
3 3 0,021 0,000441 
4 3 0,010 0,000100 
5 3 0,019 0,000361 
6 3 0,006 0,000036 
7 3 0,012 0,000144 
8 3 0,025 0,000625 
 
 
Calcular a soma das variâncias 
001832,02  iS 
 
Relacionar a maior variância encontrada, com a soma. 
 
341,0
001832,0
000625,0
1
2
2



p
i
i
máx
c
S
S
C 
 
Comparar o valor calculado Cc, com o valor tabelado (Ct 1 % e Ct 5 %) 
 
Na tabela, para p = 8 e n = 3, temos: 
 
Ct 5 % = 0,516 
Ct 1 % = 0,615 
 
Conclusão: Como Cc < Ct 5 %, então o valor da maior variância, Laboratório 8, é aceita. 
 
 
Teste de Grubbs 
 
 O teste é primeiramente realizado verificando a existência de um valor disperso em 
cada extremidade do conjunto. Se nesta primeira análise, um dos dois valores for 
considerado disperso, ele é rejeitado, retirado do conjunto e novo teste, verificando a 
existência de um valor disperso em cada extremidade do conjunto, é realizado e assim 
sucessivamente. Caso contrário, se nesta primeira análise, ambos os valores forem aceitos 
como não dispersos, o teste é então realizado verificando-se a existência de dois valores 
dispersos em cada extremidade do conjunto. Se nesta segunda análise os dois resultados de 
uma das extremidades forem considerados como dispersos, eles devem ser rejeitados, 
 
 39 
retirados do conjunto e novo teste verificando a existência de dois valores dispersos em 
cada extremidade do conjunto é realizado e assim sucessivamente. 
 
 Os valores críticos para o teste de Grubbs são tabelados (Apêndice). 
 
Teste de Grubbs para 1 valor disperso: dado um conjunto de resultados gi, para i=1, 2, ..., 
p, dispostos em ordem crescente, então para determinar se um determinado valor é um 
disperso, usando o teste de Grubbs, devemos calcular as seguintes estatísticas: 
 
para testar o maior valor, utilizar 
 
S
gg
G
p
p
)( 
 
 
para testar o menor valor, utilizar 
 
S
gg
G
)( 1
1

 
 
 
Os valores críticos para o teste de Grubbs são tabelados. 
 
Se Gc < Gt 5 %  Valor aceito 
Se Gt 1 % > Gc > Gt 5 %  Valor suspeito 
Se Gc > Gt 1 %  Valor disperso 
 
 
Teste de Grubbs para 2 valores dispersos: dado um conjunto de resultados gi, para 
i=1,2,...,p,dispostos em ordem crescente, então para determinar se dois (maiores ou 
menores) valores são considerados como dispersos, devemos calcular as seguintes 
estatísticas: 
Para testar se dois maiores valores podem ser considerados como dispersos, calcular a 
relação entre as diferenças quadráticas (G): 
 
2
0
2
,1
,1
S
S
G
pp
pp

  
onde: 



p
i
i ggS
1
22
0 )( - é a diferença quadrática no conjunto com todos os valores 



 
2
1
2
,1
2
,1 )(
p
i
ppipp ggS - é a diferença quadrática no conjunto sem os dois maiores valores 






2
1
,1
)2(
p
i
i
pp
p
g
g - é a média do conjunto, sem os dois maiores valores 
 
 40 
 
Alternativamente, para os dois menores valores 
 
2
0
2
2,1
2,1
S
S
G  



p
i
i ggS
1
22
0 )( - é a diferença quadrática no conjunto com todos os valores 



p
i
i ggS
3
2
2,1
2
2,1 )( - é a diferença quadrática no conjunto, sem os dois menores valores 

 

p
i
i
p
g
g
3
2,1
)2(
- é a média do conjunto, sem os dois menores valores 
 
 
Se Gc > Gt 5 %  Valor aceito 
Se Gt 1 % < Gc < Gt 5 %  Valor suspeito 
Se Gc < Gt 1 %  Valor disperso 
 
Exemplo 
 
Verificar se há dados dispersos no conjunto abaixo: 
 
Laboratório n x 
1 3 0,708 
2 3 0,680 
3 3 0,667 
4 3 0,660 
5 3 0,690 
6 3 0,733 
7 3 0,703 
8 3 0,677 
 
Ordenando dados de forma crescente: 
 
g(1) g(2) g(3) g(4) g(5) g(6) g(p-1) g(p) 
0,660 0,667 0,677 0,680 0,690 0,703 0,708 0,733 
 
Verificar dados tabelados para os níveis de significância dados. 
Valores tabelados Gt 1% ou Gt 5%. 
Para 8 laboratórios, testando um valor, temos: Gt 5% = 2,126 e Gt 1% = 2,274. 
 
Selecionar o menor e o maior valor. 
Verificar se 0,660 é disperso. 
Verificar se 0,733 é disperso. 
 
 
 41 
Calcular a média e o desvio padrão do conjunto de dados 
68975,0
p
g
g i 
 
024022,0
1
)(
1
2






p
gg
S
p
i
i
 
 
Calcular a estatística. 
Para o menor valor: 
 
238,1
0240,0
)660,068975,0(
1 

G 
 
Conclusão: como o valor calculado é menor do que os valores tabelados, tanto a 1 % como 
a 5 %, ele não é considerado nem disperso, nem suspeito, respectivamente. 
 
Para o maior valor: 
 
800,1
0240,0
)68975,0733,0(


pG 
 
Conclusão: como o valor calculado é menor do que os valores tabelados, tanto a 1 % como 
a 5 %, ele não é considerado nem disperso, nem suspeito, respectivamente. 
 
Obs. Tanto o menor valor como o maior valor foram aceitos, seguimos com o teste de 
Grubbs, agora com dois valores em cada extremidade. 
 
Para 8 laboratórios, testando um valor, temos: Gt 5% = 0,110 e Gt 1% = 0,056. 
 
Selecionar os dois menores valores e os dois maiores valores. 
Verificar se 0,660 e 0,667 são dispersos. 
Verificar se 0,708 e 0,733 são dispersos. 
 
Calcular a média do conjunto de dados, sem os dois menores valores a serem testados. 
 
Portanto, sem os dois menores valores teremos: 
 
6985,0
)2(3
2,1 



p
i
i
p
g
g 
 
Calcular a soma das diferenças quadráticas, dos dois conjuntos, ou seja, um conjunto com 
todos os valores e o outro conjunto sem os dois valores a serem testados. 
 
 
 42 
Conjunto com todos os valores 
 



p
i
i ggS
1
22
0 00404,0)( 
 
Laboratório 
ig )( gg i  
2)( ggi  
4 0,66 -0,02975 0,0008851 
3 0,667 -0,02275 0,0005176 
8 0,677 -0,01275 0,0001626 
2 0,68 -0,00975 0,0000951 
5 0,69 0,00025 0,0000001 
7 0,703 0,01325 0,0001756 
1 0,708 0,01825 0,0003331 
6 0,733 0,04325 0,0018706 
  0,00404 
 
conjunto sem os dois valores 
 



p
i
i ggS
3
2
2,1
2
2,1 002178,0)( 
 
Laboratório 
ig )( 2,1gg i  
2
2,1 )( ggi  
4 0,66 
3 0,667 
8 0,677 -0,0215 0,0004622 
2 0,68 -0,0185 0,0003422 
5 0,69 -0,0085 0,0000723 
7 0,703 0,0045 0,0000202 
1 0,708 0,0095 0,0000902 
6 0,733 0,0345 0,0011903 
  0,002178 
 
Calcular o valor de Grubbs 
 
539,0
00404,0
00218,0
2
0
2
2,1
2,1 
S
S
G 
 
Conclusão: como o valor calculado é maior do que os valores tabelados a 1 % e 5 %, os 
dois valores testados não são nem dispersos, nem suspeitos. 
 
Calcular a média do conjunto de dados, sem os dois valores maiores a serem testados. 
 
Portanto, sem os dois maiores valores teremos: 
 
 
 43 
6795,0
)2(
2
1
,1 





p
i
i
pp
p
g
g 
 
Calcular a soma das diferenças quadráticas, dos dois conjuntos, ou seja, um conjunto com 
todos os valores e o outro conjunto sem os dois valores a serem testados. 
 
Conjunto com todos os valores: 



p
i
i ggS
1
22
0 00404,0)( 
 
Conjunto sem os dois valores: 
 
001206,0)(
2
1
2
,1
2
,1 



p
i
ppipp ggS 
Laboratório 
ig )( ,1 ppi gg  
2
,1 )( ppi gg  
4 0,66 -0,0195 0,0003802 
3 0,667 -0,0125 0,0001562 
8 0,677 -0,0025 0,0000062 
2 0,68 0,0005 0,0000003 
5 0,69 0,0105 0,0001102 
7 0,703 0,0235 0,0005522 
1 0,708 
6 0,733 
  0,001206 
 
Calcular o valor de Grubbs 
 
299,0
00404,0
00121,0
2
0
2
,1
,1 


S
S
G
pp
pp
 
 
Conclusão: Como o valor calculado é maior do que os valores tabelados a 1 % e 5 %, os 
dois valores testados não são nem dispersos, nem suspeitos. 
 
Exercício 3.11 
 
Verificar se há valores dispersos para os dados dispostos abaixo 
 
1,6 4,0 4,2 4,2 4,2 4,4 4,4 4,4 4,6 4,6 6,0 8,0 
 
 
 
 
 
 
 
 44 
Problemas 
 
3.3. Medições de pH em uma solução tampão forneceram os seguintes resultados: 
 
 5,12 5,20 5,15 5,17 5,16 5,19 5,15. 
 
Calcule os limites de confiança 95 % e 99 % para o valor verdadeiro de pH. 
 
 
3.4. A cronometragem de certa operação forneceu os seguintes valores para diversas 
determinações (em segundos): 
 
108 119 110 102 115 121 109 105 111 
112 113 108 120 114 113 109 117 112 
 
 Construa o intervalo de confiança com 90 e 99 % para o tempo médio e a variância do 
conjunto. 
 
3.5. Um universo é unimodal. Uma amostra de 120 elementos tirada deste universo 
forneceu as seguintes estimativas para a sua média e desvio-padrão, respectivamente: 
x = 30,1 e s = 3,5 
É possível estimar com 95% de confiança, um limite mínimo para a média real do 
universo? Em caso afirmativo, calcule o limite. 
 
3.6. Em um determinado lote produzido foi tomada uma amostra de 400 peças na qual 15 
apresentaram-se abaixo dos requisitos de qualidade extra estabelecida pela própria 
empresa. Para cerca de 4000 amostras distribuídas, qual o número mínimo de peças que 
apresentarão a mesma condição com 95% de confiança? 
 
3.7. Uma amostra extraída de uma população normal forneceu os seguintes valores: 
 
3,0 3,2 3,4 2,8 3,1 2,9 3,0 3,2 
Construa: 
 - IC de 95 % para a variância da população 
 - IC de 99 % para a variância da população 
 - IC de 95 % para a média da população 
 - IC de 99 % para a média da população 
 - Se a variância da população é 0,01, como ficarão o IC de 95 % e 99 % para 
 a média? 
 
3.8. Em 2004, o reator esteve parado com problemas em 5 dias. Para 2003, qual o número 
de dias esperado, com 90 % de confiança, em que haverá perda de produção diária no 
mesmo equipamento? 
 
 
 
 
 45 
3.9. Foram feitas 20 medidas do tempo real gasto para a precipitação de um sal, em 
segundos, numa dada experiência: 
 
13 15 12 14 17 15 16 15 14 16 
17 14 16 15 15 13 14 15 16 15 
 
Esses dados são suficientes para estimar o tempo médio gasto na precipitação com precisão 
de meio segundo e 95 % de confiança? Em caso negativo, qual o tamanho da amostra 
necessária? 
 
3.10. Uma amostra de 10 peças forneceu os seguintes valores de certa dimensão (em mm): 
80,1 80,0 80,1 79,8 80,0 80,3 79,7 80,0 80,2 80,4 
Deseja-se estimar a dimensão média com erro máximo de 5/100 mm e 98 % de confiança, 
bem como a proporção de peças com dimensão acima de 80 mm, comprecisão de 90 % de 
confiança. Dimensione a amostra total que se deverá tomar. (resolva com auxílio do Excel). 
 
3.11. Deseja-se estimar a resistência média de certo tipo de peças com precisão de 2 kgf e 
95 % de confiança. Desconhecendo-se a variabilidade da resistência, romperam-se 5 peças, 
obtendo-se para elas os seguintes valores para as suas resistências (em kg): 50, 58, 52, 49, 
55. Com base nos resultados obtidos, determinou-se que deveriam ser testadas mais 14 
peças, a fim de se conseguir o resultado desejado. Qual a sua opinião a respeito da 
conclusão? 
 
3.12. Quantas amostras serão necessárias para estimar o desvio com α = 5% e α = 1%, de 
um determinado técnico ao realizar uma análise, sabendo que é admitido um erro de = 1% 
( = 0,179) 
 
3.13. Verificar se existe algum valor discrepante nos resultados de análises de 4 técnicos 
conforme dados abaixo : 
 
técnico A 6 determinações s2 = 0,036 
técnico B 6 determinações s2 = 0,236 
técnico C 6 determinações s2 = 0,032 
técnico D 6 determinações s2 = 0,015 
 
3.14. Usando o teste de Grubbs, verificar se existe algum resultado discrepante nas 
determinações a seguir: 
 
 i: 20,1 19,9 20,2 19,9 20,1 20,0 
 ii: 49,4 49,8 50,8 49,3 51,3 50,0 50,8 51,8 
 
 
 
 
 
 
 
 46 
3.4. Testes de Hipótese 
 
 O objetivo dos testes de hipótese é comparar um valor suposto de um parâmetro de 
população com um valor encontrado numa amostra aleatória. Ao contrário do que ocorria 
nos problemas de estimação, vamos agora supor que exista uma hipótese, a qual será 
considerada válida até prova em contrário, acerca de um dado parâmetro da população. 
Essa hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada. 
 
 Representaremos por H0 a hipótese existente, a ser testada, a qual chamaremos de 
hipótese nula. Consideraremos H1 a hipótese alternativa e estaremos decidindo sobre a 
afirmação dada por H0 através de testes sobre a hipótese alternativa H1 .O teste irá levar à 
aceitação ou rejeição da hipótese H0 , o que corresponde respectivamente à negação ou 
afirmação de H1. Enfim, enunciaremos o resultado final sempre em termos da hipótese H0, 
ou seja, aceitar ou rejeitar H0. Os erros que estão os sujeitos a cometer são: 
 
 Rejeitar uma hipótese quando deveria ser aceita (erro tipo I) 
 
 Aceitar uma hipótese quando deveria ser rejeitada (erro tipo II) 
 
 O nível de significância do teste é a máxima probabilidade com que estaríamos 
incorrendo num risco de erro tipo I, geralmente denotada por . Assim, sendo H0 
verdadeira, aceitaremos H0 com probabilidade (1-) e rejeitaremos H0 com probabilidade  
(erro tipo I), e sendo H0 falsa, aceitaremos H0 com probabilidade  e rejeitaremos H0 com 
probabilidade (1-) (erro tipo II). 
 
 Os testes de hipóteses podem ser unilaterais e bilaterais, conhecidos também como 
monocaudais e bicaudais, respectivamente, ou seja, correspondendo ao nosso interesse em 
verificar se os desvios do valor real ao parâmetro estão unicamente para mais ou 
unicamente para menos, ou para mais e para menos, em relação ao valor testado. 
 
 
Procedimento para o teste de hipótese 
 
 Definir o problema em estudo: 
 - caracterizar os objetivos. 
 - definir os parâmetros populacionais envolvidos. 
 
 Formular as hipóteses que traduzam os objetivos: 
 - H0 é sempre neutra. 
 - H1 é sempre a negativa de H0 . 
 - H0 e H1 são definidas pelos parâmetros populacionais envolvidos no problema. 
 
 Definir o nível de significância ( ) do teste. 
 
 Definir o tamanho da amostra (n). 
 
 
 47 
 Obter dados amostrais (informações) através da amostra considerada. 
 
 Determinar a região crítica (região de rejeição de H0) 
 - a região crítica é definida pela H1 
 - pela distribuição de probabilidade envolvida e nível de significância () do 
 teste 
 - a região crítica é sempre limitada por um valor crítico. 
 
 Tomar a decisão: 
 - Rejeitar H0 se o valor de encontra na região crítica. 
 - Não rejeitar H0 se o valor não se encontra na região crítica. 
 
 Os testes de Hipótese básicos envolvem 1 ou 2 populações e podem ser testes de 
média ou variância. 
 
 
Testes para 1 amostra 
 
 Caso 1. Para μ com  conhecido: 
 
Hipóteses Rejeita-se H0 se: 
H0: μ = μ0 
zc < -zt() H1: μ < μ0 
 
H0: μ = μ0 zc > zt() 
H1: μ > μ0 
 
H0: μ = μ0 |zc| > zt(/2) 
H1: μ ≠ μ0 
 
 
Exemplo 
 
A distribuição dos valores obtidos para a determinação de P numa produção de fertilizante 
fosfatado segue uma distribuição normal. No laboratório químico, o técnico analisou 4 
amostras da produção do dia, e o resultado forneceu média de 5 % de P. Sabendo que o 
desvio padrão do processo de fabricação é de 0,2 %, podemos dizer, ao nível de 5 % de 
significância, que o valor médio de P produzido é menor que 5,2 % ? 
 
H0: μ = 5,2 % 
H1: μ < 5,2 % 
 
O problema é testar se zc < - zt; se houver confirmação, rejeita-se a hipótese nula. 
 
 
 48 
2
4
2,0
2,55


cz 
 
zt = z0,05 = 1,645 
 
Conclusão: Como zc < -zt, rejeita-se a hipótese nula H0. Portanto, podemos afirmar que ao 
nível de 5% de significância, o valor médio de P, naquele dia, é menor que 5,2 %. 
 
 
Exercício 3.11 
A especificação de um certo material é estabelecida em 3,36  0,04 mg/L. Considerar 
 = 0,04. O Técnico analisou uma amostra deste material e encontrou o valor médio para 3 
repetições de 3,29. Pode-se aceitar o material como especificado com 5 % de significância? 
 
Resposta: |zc| = 1,3; zt = 1,96. Aceita-se H0. 
 
 
 Caso 2. Para μ com  desconhecido: 
 
Hipóteses Rejeita-se H0 se: 
H0: μ = μ0 
tc < -tt(n-1,) H1: μ < μ0 
 
H0: μ = μ0 tc > t t(n-1,) 
H1: μ > μ0 
 
H0: μ = μ0 |tc| > t t(n-1,/2) 
H1: μ ≠ μ0 
 
 
Exemplo 
 
A determinação de Ti em uma amostra de mineral forneceu os seguintes resultados: 
 
3,22 3,45 3,33 3,40 3,60 
 
Considerando que o valor acordado é de 3,50 , posso concluir com 1 % de significância que 
o material apresenta teor de Ti adequado? 
 
H0: μ = 3,5 
H1: μ ≠ 3,5 
 
x = 3,4 
 
 49 
S = 0,14 
tt = t4;0,005 = 4,604 
 
n
S
x
tc

 
 
6,1
5
14,0
5,34,3


ct 
 
Conclusão: Como tc < tt, aceita-se H0. O teor de Ti é igual ao especificado ao nível de 1 % 
de significância. 
 
 
Testes para 2 amostras 
 
 A teoria dos testes de hipóteses aplica-se a casos em que temos duas amostras, em 
princípio, provenientes de populações diferentes. Comparam-se parâmetros equivalentes 
das populações envolvidas, testando hipóteses referentes ao valor real da diferença entre as 
duas médias populacionais. 
 
 
 Caso 1. Dados emparelhados 
 
 A situação é caracterizada quando os dados de duas amostras estão relacionados 
dois a dois segundo, algum critério pré-estabelecido. Como exemplo, podemos citar a 
comparação de resultados analíticos obtidos com dois métodos analíticos diferentes na 
determinação de um elemento. 
 
 Se os dados das duas amostras estão emparelhados, tem sentido calcularmos as 
diferenças d correspondentes a cada par de valores, resumindo-se os dados a uma única 
amostra de n diferenças. 
 
 Por outro lado, testar a hipótese de que a diferença entre as médias de duas 
populações emparelhadas seja igual a um certo valor μd equivale a testar a hipótese de que a 
média de todas as diferenças (referentes às populações) seja igual a μd. Ou seja, vamos 
testar simplesmente a hipótese, 
 
H0: μd = 0 (caso bilateral) 
H1: μd ≠ 0 
 
ou 
 
H0: μd = 0 (caso unilateral) 
H1: μd > 0 
 
 50 
 
ou 
 
H0: μd = 0 (caso unilateral) 
H1: μd < 0 
 
 Através da comparação do t de Student experimental com o valor crítico obtido em 
função do nível de significância () estabelecido para o teste com n-1 graus de liberdade. 
 
A estatística t é calculada conforme equação: 
 
n
S
dd
t
d
0
 
 
d é a média da amostra das diferenças; 
0d éo valor testado da média das diferenças nas populações, em geral, igual a 0; 
Sd é o desvio padrão das diferenças; 
 
A decisão de aceitar ou rejeitar a hipótese nula H0 segue o critério estabelecido, ao nível de 
 % de significância e n-1 graus de liberdade: 
 
Hipóteses Rejeita-se H0 se: 
H0: μd = 0 
tc < -tt(n-1,) H1: μd < 0 
 
H0: μd = 0 tc > t t(n-1,) H1: μd > 0 
 
H0: μd = 0 |tc| > t t(n-1,/2) H1: μd ≠ 0 
 
Exemplo 
 
Deseja-se comparar se as médias obtidas para 5 amostras, utilizando 2 diferentes métodos 
analíticos para determinação de Sn podem ser consideradas iguais, ao nível de 5 % de 
significância? 
 
Os resultados analíticos são: 
 
 
 
 
 
 
 
 51 
 
Método A Método B A - B (d) 
33,0 33,0 0 
50,4 50,0 0,4 
11,9 11,3 0,6 
1,24 1,36 -0,12 
1,69 1,75 -0,06 
 d = 0,164 
 Sd = 0,3176 
 
o teste de hipótese pode ser resumido desta forma: 
 
H0 : as médias são iguais (μd = 0) 
H1 : as médias não são iguais (μd ≠ 0) 
 
Para resolver este problema, devemos calcular a estatística t e compará-la com o valor 
tabelado a 5 % de significância. 
 
155,1
5
3176,0
164,0
ct 
 
tt = tn-1;/2 = t 4; 0,025 = 2,776 
 
Conclusão: Como tc < tt, aceita-se H0. Podemos afirmar que não existe diferença 
significativa entre os dois métodos empregados. 
 
 
 Caso 2. Dados não emparelhados 
 
O caso de dados não emparelhados será subdividido em 3 situações: 
 
 quando os desvios padrão das populações são conhecidos; 
 
 quando os desvios padrão das populações são desconhecidos mas supostos iguais; 
 
 quando os desvios padrão das populações são desconhecidos e não podem ser 
supostos iguais. 
 
 
Dados não emparelhados com desvios padrão das populações conhecidas: 
 
Com 1 e 2 das populações conhecidas, utilizamo-nos de 
 
 
 52 
2
2
2
1
2
1
21
nn
xx
zc



 
 
A decisão do teste será conforme o critério indicado a seguir: 
 
Hipóteses Rejeita-se H0 se: 
H0: μ1 - μ2 = 0 
zc < -zt() H1: μ1 - μ2 < 0 
 
H0: μ1 - μ2 = 0 zc > zt() 
H1: μ1 - μ2 > 0 
 
H0: μ1 - μ2 = 0 |zc| > zt(/2) 
H1: μ1 - μ2 ≠ 0 
 
 
Exemplo 
 
O controle do teor de impurezas de Cd em soluções extratoras na fabricação de um produto 
tem revelado que os resultados seguem uma distribuição normal com desvio padrão de 
0,05 mg/L. Em dois turnos consecutivos de trabalho foram recolhidas amostras de 10 e 15 
peças, respectivamente, com teores médios de 0,40 mg/L e 0,45 mg/L de Cd. Qual a 
conclusão, ao nível de 5 % e 1 % de significância, de que o processo de fabricação ficou 
fora de controle? 
 
H0 : μ1 – μ2 = 0 
H1 : μ1 – μ2 ≠ 0 
 
1 = 2 
 
448,2
000417,0
05,0
15
05,0
10
05,0
45,040,0
22





cz 
 
z0,025 = 1,960 
 
z0,005 = 2,578 
 
Conclusão: ao nível de 5 %, pode-se afirmar que o processo ficou fora de controle; porém, 
ao nível de 1 % , aceita-se a hipótese nula. 
 
 
 
 53 
 
Dados não emparelhados com desvios padrão das populações desconhecidos, mas 
supostos iguais: 
 
 
Para este caso, aplica-se a seguinte expressão: 
 
21
21
11
nn
S
xx
t
p
c


 
 
onde o estimador combinado Sp (pooled stimator) é definido por: 
 
2
)1()1(
21
2
22
2
11



nn
SnSn
S p 
 
 
A decisão do teste será conforme o critério indicado abaixo: 
 
Hipóteses Rejeita-se H0 se: 
H0: μ1 - μ2 = 0 
tc < -tt(n1+n2-2,) H1: μ1 - μ2 < 0 
 
H0: μ1 - μ2 = 0 tc > tt(n1+n2-2,) 
H1: μ1 - μ2 > 0 
 
H0: μ1 - μ2 = 0 |tc| > tt(n1+n2-2, /2) 
H1: μ1 - μ2 ≠ 0 
 
 
 
Exemplo 
 
Dois fornecedores de reagentes químicos para a determinação de P pelo método 
colorimétrico foram testados por nosso laboratório. Foram analisadas 7 amostras de 2 lotes 
diferentes. Ao nível de 5 % de significância, pode-se afirmar que os resultados obtidos com 
os reagentes químicos do fornecedor A são mais baixos que os obtidos com reagentes do 
fornecedor B? Não se conhecem os parâmetros desta distribuição. 
 
 
 
 
 
 
 
 54 
 
Fornecedor A Fornecedor B 
0,0149 0,0158 
0,0160 0,0158 
0,0156 0,0155 
0,0170 0,0170 
0,0150 0,0160 
0,0250 0,0240 
0,0147 0,0153 
x = 0,016886 x = 0,017057 
S = 0,003664 S = 0,003109 
 
 
H0 : μ1 – μ2 = 0 
H1 : μ1 – μ2 < 0 
 
0033979,0
277
003109,0)17(003664,0)17( 22



pS 
 
09415,0
7
1
7
1
0033979,0
017057,0016886,0



ct 
 
tn1+n2-2; = t12;0,05 = 1,782 
 
tc > - tt 
 
Conclusão: Aceita-se a hipótese nula, ou seja, posso aceitar que os resultados obtidos com 
os reagentes de ambos os fornecedores são iguais ao nível de 5 % de significância. 
 
 
Dados não emparelhados com desvios padrão das populações desconhecidos e nem 
supostos iguais: 
 
Hipóteses Rejeita-se H0 se: 
H0: μ1 - μ2 = 0 
tc < -tt(ν,) H1: μ1 - μ2 < 0 
 
H0: μ1 - μ2 = 0 tc > tt(ν,) 
H1: μ1 - μ2 > 0 
 
H0: μ1 - μ2 = 0 |tc| > tt(ν,/2) 
H1: μ1 - μ2 ≠ 0 
 
 
 55 
Os valores críticos de t para ν graus de liberdade são obtidos da tabela, cujo cálculo é dado 
por: 
 
2
2
2
1
2
1
21
n
S
n
S
xx
tc


 
 
 
2
11 2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1






























n
n
S
n
n
S
n
S
n
S
 
 
 
Exemplo 
 
Deseja-se verificar se o nível de Pb em efluente industrial de determinada unidade de 
tratamento é diferente no inverno e no verão. Testar a nível de 10% de significância para: 
 
a) Concentrações iguais em ambas estações; 
b) Concentração maior no inverno; 
 
 
Verão Inverno 
13,01 12,99 
13,00 13,06 
12,95 12,98 
12,97 13,14 
13,01 13,14 
12,93 
12,94 
12,96 
12,97 
12,94 
x = 12,968 x = 13,062 
S = 0,02974 S = 0,0776 
n = 10 n = 5 
Questão a 
 
H0 : μ1 – μ2 = 0 
H1 : μ1 – μ2 ≠ 0 
 
 
 56 
613,2
5
0776,0
10
02974,0
062,13968,12
22



ct 
 
59,42
15
5
0776,0
110
10
02974,0
5
0776,0
10
02974,0
2
2
2
2
2
22























 
 
t 5;0,10 = 2,015 
 
Conclusão: como |tc| > tt, rejeita-se H0 e não podemos afirmar que os níveis de Pb em 
estações diferentes são iguais. 
 
 
 
 
 Caso 3. Comparação de variâncias 
 
 Duas variâncias populacionais podem ser comparadas estatisticamente. Para tal, a 
relação entre as duas variâncias deve ser comparada por meio da distribuição F. Assim 
como a distribuição 2 , a distribuição F é assimétrica e depende do número de graus de 
liberdade entre o numerador e o denominador conforme apresentado na Figura 3.2. 
 
 
 
Figura 3.2. Função de distribuição F de acordo com o número de graus de liberdade das 
populações . 
 
O cálculo da estatística F é dado por: 
 
 57 
 
2
2
2
1
2,1
S
S
F  
sendo que 22
2
1 SS  
 
 Os critérios para aceitação ou rejeição da hipótese nula seguem abaixo, utilizando as 
tabelas de F-Snedecor, com n1-1 e n2-1 graus de liberdade. (Apêndice): 
 
Hipóteses Rejeita-se H0 se: 
H0: 1=2 
Fc < Fn1-1,n2-1(1-) H1: 1 <2 
 
H0: 1 =2 Fc > Fn1-1,n2-1() 
H1: 1 >2 
 
H0: 1=2 Fc > Fn1-1,n2-1(/2) 
H1: 1 ≠ 2 
 
 
Exemplo 
 
De duas populações de distribuições normais foram extraídas amostras de 5 e 10 elementos 
que forneceram variâncias iguais a 3,5 e 8 respectivamente, Ao nível de 1 % de 
significância podemos concluir que as populações têm diferentes graus de dispersão? 
 
H0: 1 =2 
H1: 1 ≠ 2 
 
286,2
5,3
8
cF 
 
Ft = F 9;4;0,005 = 21,14 
 
Conclusão: Como Fc < Ft, não rejeitamos a hipótese nula e podemos dizer que as 
populações não têm diferentes graus de dispersão. 
 
Exercício 3.12 
Supomos que a distribuição populacional de resultados para uma solução de amônia tem 
como média 20,0 % de NH3 e desvio padrão 0,171, para o laboratório. Queremos avaliar a 
precisão de um analista recém admitido, nesta determinação, através dos dez resultados 
para a solução padrão de 20,0 % de NH3 por ele obtido: 
 
20,5 19,9 20,1 20,3 19,9 19,7 20,2 19,6 19,7 20,158 
 
Pode-se admitir que a precisão obtida pelo analista é igual à precisão do laboratório ao 
nível de 5 % de significância? 
 
 
 
 
Problemas. 
 
3.15. Dois catalisadores podem ser usados em um processo químico por batelada. Doze 
bateladas foram preparadas usando o catalisador 1, resultando em um rendimento médio de 
86 e um desvio padrão da amostra igual a 3. Quinze bateladas foram preparadas 
empregando o catalisador 2 , resultando um rendimento médio de 89, com um desvio 
padrão de 2. Considere que as medidas dos rendimentos sejam distribuídas 
aproximadamente de forma normal, com o mesmo desvio padrão. Há evidência que 
confirme a afirmação que o catalisador 2 produz um rendimento maior que o catalisador 1? 
Use =0,01. 
 
3.16. O diâmetro de bastões de aço, fabricados em 2 máquinas extrusoras diferentes está 
sendo investigado. Duas amostras aleatórias de tamanho n1 = 15 e n2 = 17 são selecionadas 
e as médias e as variâncias das amostras são x 1 = 8,73, S
2 = 0,35, e x 2 = 8,68, S
2 = 0,40, 
respectivamente. Suponha que 1 = 2 e que os dados sejam retirados de uma população 
normal. Há evidência que confirme a afirmação que as duas máquinas produzem bastões de 
diferentes diâmetros? Use =0,05 para chegar a esta conclusão. 
 
3.17. Os pontos de fusão de duas ligas usadas na formulação de solda foram investigados 
através da fusão de 21 amostras de cada material. A média e o desvio padrão para a amostra 
1 foram x 1 = 420 ºF e S1 = 4 ºF, enquanto que para a liga 2 foram x 2 = 426 ºF e S2 = 3 ºF. 
Os dados amostrais confirmam a afirmação de que ambas as ligas tem o mesmo ponto de 
fusão? Use  = 0,05 e considere que ambas as populações sejam normalmente distribuídas 
e tem o mesmo . 
 
3.18. Dois diferentes testes analíticos podem ser usados para determinar o nível de 
impurezas em uma liga de aço. Oito espécimes são testados usando ambos os 
procedimentos, sendo os resultados demonstrados na tabela a seguir. Há evidência 
suficiente para concluir que ambos os testes fornecem o mesmo nível médio de impureza? 
Use =0,01. 
 
 
 
 
 
 
 
 
 
 
 59 
Espécime Teste 1 Teste 2 
1 1,2 1,4 
2 1,3 1,7 
3 1,5 1,5 
4 1,4 1,3 
5 1,7 2,0 
6 1,8 2,1 
7 1,4 1,7 
8 1,3 1,6 
 
 
3.19. Um cientista de computação está investigando a utilidade de duas diferentes 
linguagens de programação na melhoria das tarefas computacionais. Doze programadores 
experientes, familiarizados com ambas as linguagens, codificaram uma função padrão nas 
duas linguagens. O tempo em minutos foi registrado, sendo os dados mostrados a seguir: 
 
Programador Linguagem 1 Linguagem 2 
1 17 18 
2 16 14 
3 21 19 
4 14 11 
5 18 23 
6 24 21 
7 16 10 
8 14 13 
9 21 19 
10 23 24 
11 13 15 
12 18 20 
 
Ao nível de =0,05, há alguma indicação que uma linguagem de programação seja 
preferível? 
 
3.20. Está sendo investigada a temperatura em que ocorre uma deflexão, devida à carga, em 
dois diferentes tubos de plástico. Duas amostras aleatórias foram testadas e as temperaturas 
(em ºF) observadas em que ocorre a deflexão são reportadas a seguir: 
 
 Tipo 1 Tipo 2 
206 193 192 177 176 198 
188 207 210 197 185 188 
205 185 194 206 200 189 
187 189 178 201 197 203 
194 213 205 180 192 192 
 
Os dados confirmam a afirmação de que a temperatura em que ocorre a deflexão , devido à 
carga, no tipo 2 excede àquela do tipo 1? Use =0,05. 
 
 60 
 
3.21. Duas companhias químicas podem fornecer uma matéria-prima, cuja concentração de 
um determinado elemento é importante. A concentração média para ambos os fornecedores 
é a mesma, porém, suspeitamos que a variabilidade na concentração pode diferir entre as 
duas companhias. O desvio padrão da concentração de uma amostra aleatória de n1 = 10 
bateladas produzidas pela companhia é S1 = 4,7 g/L, enquanto para a companhia 2, uma 
amostra aleatória de n2 = 16 bateladas resulta em S2 = 5,8 g/L. Há evidência suficiente para 
concluir que a as variâncias das duas populações difiram? Use =0,05. 
 
3.22. Considere os dados apresentados no Problema 3.18. Os dados da amostra confirmam 
a afirmação que ambas as ligas tem a mesma variância de ponto de fusão? Use =0,05 para 
tirar a conclusão. 
 
 
3.23. Com o intuito de controlar a homogeneidade da produção de certas partes no tempo, 
amostras semanais são retiradas da produção corrente. Uma primeira amostra de dez 
elementos, forneceu x 1 = 284,55 e S1 = 0,320, ao passo que uma segunda amostra forneceu 
os seguintes valores: 
 
284,6 283,9 284,8 285,2 284,3 283,7 284,0 
 
Ao nível de 5% de significância, podemos afirmar que a homogeneidade da produção tenha 
variado no decorrer das duas semanas investigadas? 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 61 
 Análise de Variância 4 
 
 
 
Análise da variância é a técnica utilizada para isolar e estimar as variâncias que contribuem 
para a variação total de um experimento, possibilitando identificar as fontes relevantes e 
estabelecer meios para estimar seus efeitos. 
 
 
Com único fator de classificação 
 
Objetivo: comparar os efeitos de “a” tratamentos (ou níveis de um fator) alocados 
aleatoriamente às unidades experimentais (experimento completamente aleatorizado). 
 
Exemplos: 
 
 Comparar os resultados analíticos obtidos por “a” técnicos; 
 Comparar os resultados analíticos obtidos em “a” aparelhos. 
 
Matriz de observações para n replicatas de um experimento: 
 
tratamento observações total 
1 Y 11 Y 12 Y 13 ... Y 1n Y 1. 
2 Y 21 Y 22 Y 23 ... Y 2n Y 2. 
3 Y 31 Y 32 Y 33 ... Y 3n Y 3. 
. . . 
. . . 
a Y a1 Y a2 Y a3 ... Y an Y a. 
total Y .. 
 
Onde: Yij = qualquer valor das observações 
 Y i.= total das observações do tratamento “i” 
 n = número de replicatas de cada tratamento 
 N = n . a =número total de observações 
 
 
Procedimento para o teste 
 
Partição da variação total nas componentes: 
 Efeito do fator 
 
 62 
 Erro aleatório 
 
Soma de quadrados (corrigida) total ou variação total: 
 
2
..)( YYSQT ij
i j
 
 
Desenvolvendo este somatório teremos: 
 
2
.
2
...
2
..
2
..
)()(
)..()(
iij
i ji
i
iiij
i j
ij
i j
YYYYn
YYYYYYSQT






 
 
SOMA DOS QUADRADOS TOTAIS (SQT) = 
SOMA DO QUADRADO DOS FATORES (SQF) + SOMA DO QUADRADO DOS ERROS (SQE) 
 
SQF = variação entre os diversos tratamentos (between) 
SQE = variação dentro dos tratamentos devido ao erro (within) 
 
 Quadrado médio e número de graus de liberdade (gl) 
 
Para o fator: QMF = SQF/ (a – 1); gl = (a-1) 
Para o erro: QME = SQE/ (N –a); gl = (N-a) 
 
Valores esperados dos quadrados médios: 
 
- E (QME) = 2 (QME estima variância) 
 
-E (QMF) = 







ia
n 2
1
2
1
 
 
Onde τi representa a diferença entre a média total e a média de cada grupo (


a
i 1
2
1 0 ). 
 
Caso a razão QMF/ QME seja um valor elevado, indica que 1  0. Assim comparamos sob 
as condições do modela a estatística: 
 
QME
QMF
Fo  
 
A distribuição F possui (a – 1) graus de liberdade (gl) no numerador e (N-a) graus de 
liberdade no denominador. 
 
 
 
 63 
Caso aNao FF  ,1, , a hipótese da igualdade dos efeitos deve ser rejeitada para o nível de 
significância . 
 
 
Fonte de 
variação 
Graus de 
liberdade 
Soma dos 
quadrados 
Quadrados 
médios 
Fo 
Fator a-1 SQF QMF QMF/QME 
Erro N-a SQE QME 
Total N-1 SQT 
 
Fórmulas para cálculo: 
N
Y
YYYSQT
i j
ijij
i j
2
..22
.. )(   
N
Y
Y
n
YYnSQF
i
i
i
i
2
..2
....
1
)(   
 
SQFSQTSQE  
 
 
Exemplo 
 
Foram efetuadas 3 determinações do ponto de fulgor em óleo combustível pesado com 
quatro termômetros diferentes . Testar a um nível de significância de 5 % se existe 
diferença de termômetros. 
 
Termômetro A: 174,0 173,0 173,5 
Termômetro B: 173,0 173,0 172,0 
Termômetro C: 171,5 171,0

Outros materiais