01 Aula1

•

FACCAT

0

Anderson Torres

23/11/2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 180 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 180 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 180 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Engenharia Química

4.032 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Conceitos Básicos de
Estatística
IQ350-Planejamento de
Experimentos
Erros
• Qualquer medida será sempre afetada por
erros, que podem ser de diversos tipos.

• Exemplo: realização de experimentos para
determinar a concentração de ácido acético
numa amostra de vinagre. O objetivo é
verificar se o vinagre está de acordo com o
estabelecido pela legislação (4% de ácido
acético, no mínimo).

• Que tipo de experimento fazemos?
• Procedimento tradicional: titulação ácido-
base.

• Solução ácida + indicador  adicionamos base

• O ácido é consumido e com uma gota a mais de
base, a solução muda de cor  determina-se o
ponto de equivalência.

• Dependendo da força relativa entre ácidos e
bases, o final da reação (ponto de equivalência)
ocorre em um pH diferente.

• Diferentes indicadores apresentam viragem em
diferentes faixas de pH  escolhemos o
indicador cuja faixa de viragem inclua o ponto de
equivalência.

• Situação 1: o químico se distrai e não
acrescenta o indicador (fenolftaleína).

• O que acontece?

• A viragem não vai ocorrer nunca, não
importa quanta base seja adicionada na
titulação erro grosseiro A estatística não
se ocupa desses erros.

• Porque não precisamos nos preocupar com
erros grosseiros?
• Situação 2: acabou o estoque de
fenolftaleína e o químico usa como indicador
vermelho de metila.

• A faixa de viragem do vermelho de metila
está em pH abaixo de 7 o ponto final da
titulação vai ocorrer antes que todo o ácido
acético tenha sido neutralizado o vinagre
parecerá ter uma concentração inferior à
verdadeira.

• Se várias amostras forem tituladas da mesma
maneira, em todas elas o valor encontrado
para a concentração de ácido acético será
inferior ao valor real, por causa da viragem
prematura.

• Com que tipo de erro estamos lidando?
• Erro sistemático!

• Erros sistemáticos: afetam o resultado
sempre na mesma direção, seja para mais,
seja para menos.

• Que outras fontes de erro sistemático pode
haver em um experimento?

 O padrão primário pode estar adulterado;

 a balança pode estar descalibrada;

 a pipeta pode ter sido aferida
erroneamente;

 quem está titulando pode olhar o menisco
de um ângulo incorreto, etc.

• Cada um destes fatores exercerá
individualmente sua influência sobre o
resultado final, fazendo-o tender para uma
certa direção.

• Situação 3: Após eliminar todos os erros
sistemáticos e evitando erros grosseiros o
químico titula duas amostras retiradas do
mesmo lote de vinagre.

• Como tudo no processo agora está sob
controle, podemos esperar que as duas
titulações produzam o mesmo resultado? Por
quê?

• Não! Os resultados são parecidos, mas não
idênticos. Alguma fonte de erro (pequena)
continua afetando os resultados erros
aleatórios.

• Mesmo que o procedimento experimental
seja rigorosamente obedecido e todas as
operações sejam feitas com todo o cuidado,
sempre existirão flutuações imprevisíveis:

 uma pequena variação no ângulo da leitura
da bureta,

uma gotinha que fica na pipeta,

uma tonalidade diferente na viragem, etc.
• Não conseguimos controlar todas as
variações não podemos saber em que
direção o resultado será alterado.

• Atuando em conjunto, estas perturbações
provocarão erros que parecem devidos ao
acaso, e por isso são chamados de aleatórios.

• Para investigar esses erros, o químico resolve
então fazer várias titulações em outras
amostras retiradas do mesmo lote.
• Os resultados obtidos em 20 titulações são:

•O que podemos notar nestes dados?
• Examinando os resultados, percebemos que:

Os valores obtidos flutuam, mas tendem a
concentrar-se em torno de um certo valor
intermediário.

A flutuação em torno do ponto central
ocorre aparentemente ao acaso.

Parece que a amostra está mesmo fora da
especificação, já que a maioria dos valores
determinados está abaixo de 4%.

• Situações como esta ocorrem nas mais
variadas determinações experimentais  é
impossível controlar rigidamente todos os
fatores envolvidos num experimento, por mais
simples que seja

• Qualquer determinação experimental é
afetada, em maior ou menor grau, por erros
aleatórios.

• Se queremos chegar a conclusões sensatas,
esses erros precisam ser levados em conta! É
por isso, entre outros motivos, que precisamos
da estatística.
Populações, amostras e distribuições

• O primeiro passo para se tratar
estatisticamente os erros aleatórios é admitir
alguma hipótese sobre sua distribuição.

• Qual a distribuição que se assume para os
erros aleatórios com mais frequência?

• O mais comum, quando se tratam de
medições, é supor que a distribuição dos
erros é gaussiana ou, como também é
chamada, normal.

• Nesta aula vamos discutir em termos práticos
essa hipótese e suas importantes
conseqüências, partindo do seguinte
problema:

• Quantos grãos tem um quilo de feijão?

• Como vocês fariam a estimativa do nº de
caroços em um quilo de feijão?
• Solução 1: contamos todos os caroços, um
por um. Esta solução será descartada porque
estamos interessados numa abordagem
estatística da questão.

• Solução 2: descobrimos primeiro quanto pesa
um caroço, e em seguida dividimos 1000 g
por este valor. O resultado da divisão dará o
número de caroços contidos em um quilo.

• Vocês conseguem ver algum problema com a
solução 2?
• Procedendo com a pesagem:

Caroço 1 (retirado ao acaso): 0.1188 g
Caroço 2 (retirado ao acaso): 0.2673 g

• Respostas associadas às pesagens:

Caroço 1: 1000/0.1188 = 8418 caroços
Caroço 2: 1000/0.2673 = 3741 caroços

• Qual destes valores é a resposta que
procuramos?

Nenhum dos dois. Como o peso varia de um
caroço para outro, não devemos usar pesos
individuais e sim o peso médio do conjunto
de todos os caroços.

• Como obter o peso médio?

• Basta dividir o peso total do pacote de feijão
(1 kg) pelo número de caroços que ele
contém. Infelizmente isso nos traz de volta à
pergunta inicial.

• Se todos os caroços fossem idênticos, o peso
médio seria igual ao peso de um caroço
qualquer. Era só pesar um deles e a questão
estaria resolvida. O problema é que o peso
varia de caroço para caroço de maneira
imprevisível.

• Apesar de não sabermos prever qual será o
peso de um caroço extraído ao acaso,
podemos estabelecer alguns limites, por
exemplo:

o peso não pode ser inferior a zero

o peso deve ser muito menos do que um
quilo

o peso não deve flutuar muito, é só olhar
para o saco de feijão para ver que a maioria
dos caroços têm mais ou menos o mesmo
tamanho.

• Estamos numa situação parecida com a da titulação. Os valores individuais flutuam, mas
flutuam em torno de um certo valor central.

• O conjunto de todos os valores possíveis
numa dada situação é o que se chama em
estatística de população.

• O alvo de qualquer investigação
experimental é sempre uma população.
Nosso objetivo ao coletar e analisar os dados
é chegar a conclusões sobre ela.

• É importante definir claramente qual a
população de que estamos falando. Muitas
vezes nem isto está suficientemente claro
para o pesquisador, que corre o risco de
estender suas conclusões a sistemas mais
amplos do que o realmente estudado no
experimento.

• Qual é a populaçãono caso que estamos
estudando?

• Na nossa abordagem, a população é o
conjunto de pesos individuais dos caroços do
pacote de feijão.

• A resposta se refere ao pacote, mesmo que
os caroços não sejam investigados um por
um.

• A menos que alguma hipótese a mais seja
introduzida (como, por exemplo, que o
pacote é representativo de toda uma
colheita), se refere a esse pacote em
particular, e só a ele.

• Voltando ao problema dos caroços de feijão:

Vamos tentar fazer uma estimativa do peso
médio dos caroços no pacote, calculada a
partir de apenas alguns deles, isto é, a partir
de uma amostra da população.

• Este é um problema equivalente ao de
determinar qual a concentração de vinagre
“real”, ou seja, qual a média que seria obtida
se fizéssemos infinitas titulações, a partir de
uma amostra de 20 titulações.

• Se a amostra for representativa, a média
amostral deverá ser uma boa aproximação
da média populacional e poderemos usá-la
para concluir alguma coisa sobre a
população.

• Para que uma amostra seja uma
representação realista, não tendenciosa, da
população completa, é necessário que seus
elementos sejam escolhidos de forma
rigorosamente aleatória.

• Como escolhemos caroços de feijão de um
pacote aleatoriamente?

• No caso dos feijões é necessário que a chance
de um caroço ser pesado seja a mesma para
todos eles.

• Por isso, depois de pesado, o caroço escolhido
deve ser recolocado no pacote e misturado aos
outros, para que volte a ter uma chance igual
de ser escolhido.

• De outra forma a população se modifica à
medida que os caroços são retirados e a
amostra não representa de forma fidedigna a
população original.
Como descrever as características
da amostra

• A tabela mostra os pesos individuais de 140
caroços retirados aleatoriamente de um
pacote contendo um quilo de feijão preto.

•É fácil analisar
uma tabela de
dados deste
tipo?

•Que forma de
análise seria
mais fácil?
• Examinando com atenção esses dados
podemos confirmar nossas expectativas de
uma flutuação mais ou menos restrita:

Maior valor observado:0.3043 g
Menor valor observado: 0.1188 g
A maioria dos caroços parece ter um peso
ao redor de 0.20 g.
• Fica mais fácil interpretar os dados se os
organizarmos de alguma forma. Podemos
dividir a faixa total dos pesos em intervalos e
contar os caroços situados dentro de cada
intervalo.

• Escolhemos uma faixa que acomode todos os
valores da tabela: 0.10-0.32 g

• Dividimos a faixa em intervalos de largura
pré-fixada e colocamos cada peso medido no
intervalo apropriado.

• Se escolhemos a largura dos intervalos igual a
0.02 g, obtemos os resultados que aparecem
na tabela a seguir.

• Ainda, se dividimos o número de caroços em
um certo intervalo pelo número total de
caroços pesados obtemos a freqüência
relativa correspondente a esse intervalo.

• No intervalo 0.26 -0.28 g, por exemplo,
foram observados sete caroços, de um total
de 140:
freqüência relativa = 7/140 = 0.050

• Isso significa que 5% dos pesos medidos
ficaram entre 0.26 e 0.28 g.

• É preferível analisar a distribuição dos pesos
dos caroços em termos de freqüências,
porque as distribuições estatísticas teóricas
são distribuições de freqüência.

• Conhecendo as freqüências  determinamos
probabilidades de que certos valores de
interesse venham a ser observados 
podemos testar hipóteses sobre a população.

• Qualquer conjunto de dados fica mais fácil de
analisar se for representado graficamente.

• Gráfico tradicional para uma distribuição de
freqüências: histograma

cada intervalo é representado por um
retângulo, cuja base coincide com a largura
do intervalo e cuja área é idêntica (ou
proporcional) à sua freqüência.

• Como a soma de todas as freqüências tem de
ser igual a um, a área total do histograma
também é igual a um (se a área de cada
retângulo for igual à freqüência do intervalo
correspondente)

• Vamos mostrar o histograma das freqüências
da tabela. Para facilitar a comparação com os
dados na tabela, a altura de cada retângulo
(e não sua área) foi feita igual à freqüência
do intervalo. Isso não altera o aspecto geral
do histograma, já que as bases dos
retângulos são todas iguais.

•Que características podemos notar neste
histograma?
• As vantagens da representação gráfica são
evidentes.

• A concentração dos pesos dos caroços em
torno do valor 0.20 g é percebida
imediatamente, assim como o
escasseamento progressivo dos dados à
medida que nos afastamos desse valor, em
ambas as direções.

• Também podemos notar uma simetria na
distribuição: a parte que fica mais à direita da
região central é mais ou menos a imagem
especular da parte que fica à esquerda. Essa
característica seria muito difícil de perceber
olhando somente para a tabela.

• As características básicas de um histograma
são:

a localização do conjunto de observações
numa certa região do eixo horizontal;
sua dispersão, ou espalhamento, ao longo
dessa região.

• Quais as grandezas estatísticas que
representam estas características?

• Estas características podem ser
representadas numericamente, de forma
abreviada, por várias grandezas estatísticas.
As mais usadas nas ciências físicas (valores
contínuos) são a média aritmética e o desvio
padrão.
• Média aritmética = soma de todos os valores,
dividida pelo número total de elementos do
conjunto. Este é o conceito de média que
usaremos e daqui em diante empregaremos
somente o termo média.

• Se usarmos o símbolo x para representar o
peso de um caroço, a forma usual de
representar a média é , e esta é calculada
por:
g 2024.0)1606.0........2673.01188.0(
140
1
x 
x

• Com este valor podemos estimar que o quilo
de feijão contenha:

1000 g/0.2024 g = 4940 caroços.

• Vocês acham que este valor está correto?

• Essa estimativa, no entanto, foi obtida a
partir da observação de apenas 140 caroços,
isto é, menos de 3% do total, supondo que
haja mesmo cerca de 5000 caroços no
pacote.

• Por isso, não deve corresponder ao valor
exato. Trata-se apenas de uma média
amostral e não da média populacional.
Veremos adiante como fazer para estimar
sua incerteza.

• Para obter uma medida do espalhamento das
observações em torno da média, que é o
desvio padrão, primeiro calculamos a
diferença, ou desvio, de cada valor individual
em relação à média amostral:

xxd ii 

• Em seguida somamos os quadrados de todos
os desvios e dividimos o total por N-1. O
resultado dessas operações é a variância do
conjunto de operações:

• Note que a variância é uma espécie de média
dos quadrados dos desvios, só que o
denominador não é o número total de
observações, N, e sim N-1  graus de
liberdade.
 
2N
1i
i
N
1i
2
i
2 xx
1N
1
d
1N
1
s)x(V 







• Observações originais (obtidas por
amostragem aleatória)  independentes:
mesmo conhecendo os pesos dos 139
primeiros caroços, não dá para prever o peso
do caroço 140.

• Usando a linguagem da estatística, dizemos
que esse conjunto tem 140 graus de
liberdade.

• Vejamos o que acontece quando somamos os
valores dos desvios (de i=1 até N):Mas

E logo

O somatório dos desvios é igual a zero!

Logo, se conhecemos 139 desvios, o que falta está
automaticamente determinado  temos 139 graus
de liberdade!

  xNxxxxxd
i
i
ii
i
i i
ii   
x
N
1
x
N
1i
i


0xxd
i
i
i
i
i
i  
• Na nossa amostra, onde 0.2024 g, a
variância é:

• Enquanto a média tem a mesma unidade que
as observações originais, a unidade de
variância é o quadrado da unidade de
partida.
x
2g 00132.0
2
2024.01606.0........
2
2024.01188.0
139
12s 




























• Para que as medidas de dispersão e de posição tenham a mesma unidade,
costumamos substituir a variância pela sua
raiz quadrada, que é chamada de desvio
padrão. No nosso exemplo o desvio padrão
é:

• O desvio padrão é geralmente usado para
definir intervalos em torno da média.

g 0363.0)g 00132.0(s 2 
Em nossa amostra de 140 caroços:

• Os limites do intervalo definido por um
desvio padrão em torno da média são
0.20240.0363g, ou de 0.1661 g a 0.2387 g.

• A região compreendida entre estes dois
valores corresponde a 66.6% da área total do
histograma, o que significa que nela caem
2/3 de todos os valores observados.

• A região definida por dois desvios padrão
tem como limites 0.1298 g e 0.2750 g e
contém 96.8% da área total.

• Dentro destas suposições, que discutiremos
adiante, estes intervalos amostrais podem
ser utilizados para testar hipóteses a respeito
da população.

• Os valores de e s foram obtidos a partir dos
140 pesos individuais e portanto
representam a amostra: são estimativas
amostrais.

• Os valores que nos interessam são os
parâmetros populacionais. Queremos saber
quantos caroços existem em todo o quilo de
feijão e não em uma amostra.
x
• Os estatísticos costumam empregar símbolos
latinos para representar valores amostrais,
reservando o alfabeto grego para os
parâmetros populacionais.

• Seguindo esta convenção, vamos
representar a média e o desvio padrão
populacionais como  e .

• O que podemos inferir a respeito destes
valores, dispondo apenas dos valores
amostrais e s? x

A distribuição normal
• Suponha que os 140 caroços sejam tratados
como uma mini-população.

• Já vimos que 5% destes elementos pesam
entre 0.26 g e 0.28 g, ou seja, a probabilidade
de um caroço retirado ao acaso pesar entre
0.26 e 0.28 g é de 5%.

• Temos condições de fazer esta afirmação
porque conhecemos a distribuição exata das
freqüências dos pesos nessa pequena
população.

• Poderíamos fazer o mesmo com um caroço
retirado ao acaso do pacote de um quilo, ou
seja, da própria população original, se
conhecêssemos exatamente a distribuição
populacional e não somente a amostral.

• Para isso, infelizmente, precisaríamos pesar
todos os caroços do pacote.

• Existe alguma forma de fazermos isso sem
precisar pesar todos os caroços do pacote?

• Precisaríamos ter um modelo que fosse
adequado para a distribuição dos pesos de
todos os caroços do pacote.

• Neste caso, não precisaríamos mais pesar
cada caroço para fazer inferências sobre a
população. Poderíamos tirar conclusões do
próprio modelo.

• Claro que para isso, o modelo escolhido deve
ser válido.

• O procedimento que devemos seguir será
sempre o mesmo:

Postular um modelo para representar os
dados extraídos da população na qual
estamos interessados;

Verificar se essa representação é
satisfatória;

Nesse caso, tirar as conclusões
apropriadas; caso contrário, trocar de
modelo e tentar novamente.

• Um dos modelos estatísticos mais
importantes é a distribuição normal (ou
gaussiana) proposta por Karl Gauss para
calcular probabilidades de ocorrências de
erros em medições.

• Tantos são os conjuntos de dados que podem
ser bem representados pela distribuição
normal, que ela passou a ser considerada o
comportamento natural de qualquer tipo de
erro experimental, daí o adjetivo normal.

• Se alguma vez se constatasse que a
distribuição de erros não seguia uma
gaussiana, a culpa era jogada na coleta de
dados.

• Depois ficou claro que existem muitas
situações experimentais em que a
distribuição normal de fato não é válida, mas
ela permanece sendo um dos modelos
fundamentais da estatística.

• Muitos dos resultados que apresentaremos
daqui em diante só são rigorosamente
válidos quando os dados obedecem à
distribuição normal.

• Na prática, isto não é uma restrição muito
séria, porque quase todos os testes que
veremos continuam eficientes na presença de
desvios moderados da normalidade.
Como calcular probabilidades
de ocorrência
• Uma distribuição estatística é uma função
que descreve o comportamento de uma
variável aleatória.

• Uma variável aleatória é uma grandeza que
pode assumir qualquer valor dentro do
conjunto de valores possíveis para o sistema
a que ele se refere.

• Cada valor destes tem uma certa
probabilidade de ocorrência, governada por
uma determinada distribuição de
probabilidades.

• Se tivermos como descobrir ou estimar qual
é essa distribuição, poderemos calcular a
probabilidade de ocorrência de qualquer
valor de interesse.

• A distribuição normal é uma distribuição
contínua.

• Qual a diferença entre variável contínua e
discreta? Exemplos?

• Em uma distribuição contínua a variável pode
assumir qualquer valor dentro de um
intervalo previamente definido.

• Para uma variável normalmente distribuída,
o intervalo é (-, +), o que significa que ela
pode assumir, pelo menos em princípio,
qualquer valor real.

• Uma distribuição contínua da variável x é
definida pela sua densidade de probabilidade
f(x), que é uma expressão matemática
contendo um certo número de parâmetros.

• Na distribuição normal os parâmetros são,
por definição, apenas dois: a média e a
variância populacionais ( e 2)

• Para indicar que uma variável aleatória x se
distribui normalmente, com média  e
variância 2, empregaremos a notação x ≈
N(,2), onde o sinal ≈ pode ser lido como
“distribui-se de acordo com”.

• Se x tiver média zero e variância igual a um,
por exemplo, escreveremos x ≈ N(0,1). Neste
caso, diremos também que x segue a
distribuição normal padrão (ou padronizada).

• Distribuição normal:

onde f(x) é a densidade de probabilidade da
variável aleatória x,  é a média
populacional e 2 é a variância populacional.

 
dxe
2
1
dx )x(f
2
2
2
x




• A figura a seguir mostra a famosa curva em
forma de sino que é o gráfico de densidade
de probabilidade de uma distribuição normal
padrão (=0 e 2 =1):
dxe
2
1
)x(f 2
x2



•Quais as características desta figura?

•São parecidas com a do histograma dos caroços?

• A curva é perfeitamente simétrica em torno
do ponto central, que é a média  (no caso
igual a zero).

• O valor da densidade é máximo sobre a
média e cai rapidamente quando nos
afastamos dela, em ambas direções.

• Sãocaracterísticas parecidas com as que
vimos no histograma dos 140 caroços

•O que acontece com a densidade de
probabilidade a 3 desvios padrão de distância
da média?

• A três desvios padrão de distância da média,
a densidade de probabilidade praticamente
reduz-se a zero.

• Para obter probabilidades correspondentes a
intervalos finitos, que são os únicos com
sentido físico, temos que integrar a
densidade de probabilidade entre os limites
apropriados.
• A integral é a área sob a curva f(x) entre estes
limites, o que equivale a dizer que a figura
também é um histograma.

• Como a variável aleatória agora é contínua,
as probabilidades passam a ser calculadas
por integrais e não mais por somatórios.

    
b
a
dx )x(fbxaPbxaP

• A maior parte da área sob uma gaussiana está
contida no intervalo definido por um desvio
padrão em torno da média, e praticamente toda
ela está situada entre -3 e +3.

• Para obter os valores numéricos
correspondentes, integramos, entre os
limites apropriados, a expressão de f(x):

• ou seja, 68.26%

• ou seja, 99.73%
  


 dx )x(fxP
  





 6826.0dxe
2
1
xP 2
x2
  9973.0dx )x(f3x3P
3
3
 


• Calculando integrais semelhantes, podemos
obter as probabilidades correspondentes a
quaisquer limites de interesse.

• Na prática, felizmente, não precisamos
calcular integral nenhuma, porque podemos
consultar os valores destas integrais em
tabelas. Na Tabela A.1 (livro Bruns, página
392) são dados os valores das integrais para
vários intervalos de uma variável z ≈ N(0,1).

• Apesar de corresponderem à distribuição
padrão, com média zero e variância 1, estes
valores podem ser usados para fazermos
inferências a respeito de qualquer
distribuição normal.

• Para explicar como se utiliza a tabela A.1,
precisamos introduzir o conceito de
padronização.

• Padronizar uma variável aleatória x de média
 e variância 2 é construir a partir dela uma
nova variável aleatória z, cujos valores são
obtidos subtraindo-se de cada valor de x a
média populacional e dividindo-se o
resultado pelo desvio padrão:

x = variável aleatória com distribuição N(,2)
z = variável aleatória com distribuição N(0,1)




x
z
• Exemplo: vamos admitir que o peso de um
caroço de feijão se distribua normalmente,
com =0.2024 g e =0.0363 g.

• Com isso estamos fazendo duas suposições
questionáveis:
Que os pesos seguem uma distribuição
normal
Que os parâmetros populacionais são
iguais aos valores que calculamos para a
amostra
• Na verdade estamos tentando descrever os
dados experimentais com nosso primeiro
modelo. Chegará a hora de nos
perguntarmos se ele é adequado. Por
enquanto vamos admitir que sim.

• O peso padronizado será:

• onde x é o peso de um caroço.

• Como o numerador e o denominador têm a
mesma unidade, z é adimensional.

g 0363.0
g 2024.0x
z


• O valor numérico de z representa o
afastamento do valor de x em relação à
média populacional , medido em desvios
padrão.

• Exemplo: reescrevendo a equação
como x = +z e fazendo z = -2 temos:
x = -2  o valor de x está dois desvios
padrão abaixo da média.




x
z

• No nosso exemplo, o peso do caroço
correspondente a z = -2 seria:

x = 0.2024 g – 2 x 0.0363 g = 0.1298 g.

• Substituindo x por z na expressão geral da
distribuição normal:

• Fazendo x = +z e dx =  dz.
 
dxe
2
1
dx )x(f
2
2
2
x




 
dz e
2
1
dx )x(f
2
2
2
z


 

dz e
2
1
dz )z(f 2
z2


• A padronização transforma a variável original
x, que se distribuía de acordo com N(,2),
numa nova variável z, que segue a
distribuição padrão, zN(0,1).

dz e 2
1
dz )z(f 2
z2


•A variável z não depende de  e 2. Qual a
vantagem disso?

• Como essa transformação não depende dos
valores numéricos de  e , sempre
poderemos usar a distribuição normal padrão
para discutir o comportamento de uma
distribuição normal qualquer.

Como usar as caudas da
distribuição normal padrão
• A Tabela A.1 contém, para valores de z que
vão de 0.00 a 3.99, o que se chama de área
da cauda (à direita) da distribuição normal
padrão.

• A primeira coluna dá o valor de z até a
primeira casa decimal, enquanto a linha
superior da tabela dá a segunda casa.

Como usar as caudas da
distribuição normal padrão

• Para saber a área da cauda correspondente a
um certo valor de z temos que procurar na
tabela o valor localizado na interseção da
linha e da coluna apropriadas.

• Qual o valor da área da cauda à direita de
z=0.63?

•O que significa este valor em termos de probabilidade?

• A probabilidade de um valor retirado ao
acaso de uma população com distribuição
normal padrão ser maior que z=0.63 é de
26.43%.

• A distribuição normal padrão é simétrica em
torno da média (zero).

• Qual a probabilidade de um valor retirado ao
acaso de uma população com distribuição
normal padrão ser menor do que z=-0.63?

• Também é de 26.43%.

• E então, qual a probabilidade de um valor
retirado ao acaso de uma população que
segue a distribuição normal padrão estar no
intervalo:
-0.63<z<0.63 ??

• A probabilidade é 100%-2*26.43%=47.14%

• O valor correspondente a z = 1.96, por
exemplo, está na interseção da linha
referente a z = 1.9 com a coluna encabeçada
por 0.06.

• Este valor, 0.0250, é a fração da área total da
curva que está localizada à direita de z=1.96.

• Como a curva é simétrica em torno da média,
uma área idêntica está situada à esquerda de
z=-1.96 na outra metade da gaussiana.

• A soma destas duas caudas, a da direita e a
da esquerda, dá 5% da área total. Daí
concluímos que os 95% restantes estão entre
-1.96 e 1.96.

• Se extrairmos aleatoriamente um valor de z,
há uma chance em cada vinte (5%) de que
esse valor fique acima de 1.96 ou abaixo de
-1.96.

• Como usar o Statistica para calcular o valor
de z:

• Se queremos determinar qual o valor de z
para 95% de confiança, ou seja, qual o valor
de z tal que 95% de todos os valores
observados estejam entre –z e +z

• Para 99% de confiança:

• z= 2.58
• Aceitando o modelo normal como uma
representação adequada da distribuição
populacional dos pesos dos caroços,
podemos usar a tabela A.1, juntamente com
os valores dos parâmetros amostrais, para
responder a questões sobre a probabilidade
de ocorrência de valores de interesse.

• Exemplo: Qual a probabilidade de um caroço
retirado ao acaso pesar entre 0.18 g e 0.25 g?
• Em primeiro lugar, precisamos padronizar os
valores dos pesos:

• Com isso a pergunta não se refere mais aos
pesos e sim a z. O que queremos saber agora
é:
“qual a probabilidade de um valor cair no
intervalo [-0.62,1.31]?”
62.0
g 0363.0
g 2024.0g 18.0
z1 


31.1
g 0363.0
g 2024.0g 25.0
z2 


• Essaprobabilidade corresponde à área
situada entre os limites indicados pela seta
na figura

• Ela é a área total, que é um, menos as áreas
das duas caudas, a que fica acima de 1.31 e a
que fica abaixo de -0.62.

• A da direita podemos ler diretamente na
Tabela A.1, procurando o valor
correspondente a z=1.31, que é 0.0951.

• A área da cauda da esquerda não pode ser
tirada diretamente da tabela, que não
contém valores negativos. No entanto, pela
simetria da curva, a área que fica abaixo de -
0.62 tem de ser igual à que está localizada
acima de 0.62.

• Encontramos o valor de 0.2676.

• Como usar o Statistica para encontrar estes
valores?

• Para z=-0.62:

• Para z=1.31:

• Temos então que a probabilidade desejada é:
(1.0-0.0951-0.2676)=0.6373.

• A resposta à nossa pergunta inicial, portanto,
é que 63.73% dos caroços (cerca de dois
terços) devem pesar de 0.18 g a 0.25 g.

• Não devemos nos esquecer, porém, de que
essa resposta se baseia na validade de nossas
duas suposições: a de que a distribuição dos
pesos dos caroços é normal e a de que os
parâmetros populacionais são iguais aos
valores amostrais.

• O histograma dos pesos de 140 caroços tem
uma aparência bastante simétrica.

• À primeira vista, não dá pra perceber nele
nada que realmente contradiga a hipótese de
que a amostra tenha vindo de uma
população normal.

• Uma maneira de testar quantitativamente se
essa hipótese é adequada é comparar as
freqüências observadas com as freqüências
previstas pela teoria.

• Usando os valores amostrais =0.024 g e
s=0.0363 g para determinar os limites dos
intervalos , e
, verificamos que eles
correspondem, respectivamente a 66.6%,
96.8% e 100% da área total do histograma
amostral.
• Para uma variável aleatória realmente normal,
os intervalos populacionais correspondentes
contêm 68.3%, 95.4% e 99.7% de todas as
observações.

x
 sx,sx   s2x,s2x 
 s3x,s3x 

• Estes valores estão em ótima concordância
com os valores amostrais, a pior diferença
não chega a 2%.
Porque a distribuição normal é tão
importante?
• Não precisamos nos preocupar com a
ausência de um teste rigoroso (neste curso)
para verificar se a distribuição é normal: as
técnicas estatísticas que apresentaremos são
robustas em relação a desvios da
normalidade.

Porque a distribuição normal é tão
importante?

• Mesmo que a população de interesse não se
distribua normalmente, as técnicas podem
ser usadas, porque continuam
aproximadamente válidas.

• Esta robustez vem, em última análise, do
teorema do limite central, um dos teoremas
fundamentais da estatística.

“Se a flutuação total numa certa variável for
o resultado da soma das flutuações de
muitas variáveis independentes e de
importância mais ou menos igual, a sua
distribuição tenderá para a normalidade, não
importa qual seja a natureza das
distribuições das variáveis individuais.”

• Muitas vezes o erro final de um valor obtido
experimentalmente vem da agregação de
vários erros individuais mais ou menos
independentes, sem que nenhum deles seja
dominante.

• Na titulação, por exemplo, lembramos:
erro da leitura na bureta
erro causado por uma gota que fica na
pipeta
erro devido a uma tonalidade diferente no
ponto final, etc.

• Com os caroços de feijão é mais ou menos a
mesma coisa, o peso de cada um depende:
do grau de desidratação
da ação das pragas
da própria carga genética do feijão, etc.

• A priori não temos motivos para imaginar que
esses erros- tanto nos feijões quanto na
titulação- sigam distribuições normais, mas
também não devemos supor que eles
dependem uns dos outros, ou que um deles
seja muito mais importante do que os demais.

• O teorema do limite central nos diz então que
o erro final se distribuirá de forma
aproximadamente normal, e tanto mais normal
quanto mais numerosas forem as fontes de
erros individuais.

Amostragem aleatória em
populações normais
• Vamos supor a partir de agora que as
amostras que estamos considerando sejam
extraídas de populações normais.

• Como já vimos, esta é uma hipótese
perfeitamente aceitável em muitas situações
de interesse prático.

• Consideremos agora amostras de N elementos,
extraídas aleatoriamente de uma população normal
de média  e variância 2. Podemos mostrar que:

As médias amostrais também se distribuem
normalmente, com a mesma média , mas com
variância igual a 2/N (quanto maior o tamanho
da amostra, menor a variância), onde  e 2 são
a média e a variância populacional da
distribuição das observações individuais.

• A partir desta conclusão podemos obter intervalos
de confiança.

Distribuição dos
pesos individuais
de 140 caroços de
feijão: desvio
padrão .

Distribuição dos
pesos médios de
140 amostras de 10
caroços de feijão:
desvio padrão
10/

• Para ver como se faz, vamos usar um
amostra de 10 caroços retirados do kg de
feijão. Suponhamos que os pesos destes
caroços sejam os dez primeiros valores da
tabela do slide 33.

• Para esta amostra temos que = 0.1887 g e
s=0.0423 g.

• Como, a partir destes valores, podemos tirar
conclusões sobre a média populacional?
x

• Como a média se distribui normalmente, ao
subtrair a média populacional  e dividir o
resultado pelo desvio padrão, / , teremos
uma variável normal padronizada:

• Já vimos que para um intervalo de confiança
de 95% o valor de z é 1.96. Isso significa que
há 95 chances em 100 de que -1.96< z <1.96,
ou de que:
N



x
z)1,0(Nz
N/
x



Lembrando:
96.1
N/
x
96.1 




• Isolando a média populacional:

• Para se definir os limites deste intervalo,
precisamos do valor do desvio padrão
populacional. Vamos admitir mais uma vez
que o valor do desvio padrão calculado para
os 140 caroços é uma aproximação aceitável.

96.1
N/
x
96.1 



N/96.1xN/96.1x 

• Assim:

/ =0.0363/ =0.0155 g.

• Lembrando que na nossa amostra =0.1887 g

• A partir desta expressão podemos dizer, com
95% de confiança, que o quilo de feijão deve
ter de 4735 a 6017 caroços.
N 10
x
g 0.2112g 0.1662
ou
g 0115.096.11887.0g 0115.096.11887.0


N/96.1xN/96.1x 
• Lembrando que a partir do peso de dois
caroços (o primeiro e segundo valores da
tabela), nossa estimativa ia de 5226 a 20964,
vemos que o novo intervalo é bem menor.

•Obtivemos agora 4735 a 6017 caroços

• Podemos torná-lo ainda mais preciso se
usarmos uma amostra mais numerosa.

• Intervalo de confiança para a média
populacional a partir da distribuição normal:

N/zxN/zx 

• Até agora ao determinar intervalos de
confiança tivemos que supor que o valor do
desvio padrão populacional era conhecido,
mas só conhecíamos o valor amostral.

• Vamos agora nos livrar desta restrição e
obter intervalos de confiança sem precisar
recorrer a valores populacionais.
N/zxN/zx 

• Em 1908 Gosset, um químico que usava opseudônimo de Student para assinar seus
trabalhos, publicou a dedução da curva
representando a distribuição de frequências
de uma grandeza z dada por

• Hoje em dia prefere-se incluir o fator e
falar da distribuição da variável

exceto por s (amostral) e  (populacional).
s
x 
N
N/s
x 

• Esta expressão é idêntica a

exceto por s (amostral) e  (populacional).
N/s
x 
)1,0(Nz
N/
x



• Por causa desta mudança, a variável não
segue mais a distribuição normal
padronizada, e sim a que Student deduziu, e
que é rigorosamente válida para amostras
aleatórias retiradas de uma população
normal.

• Com ela podemos comparar os desvios
com um desvio padrão obtido da própria
amostra, s/ , dispensando o valor
populacional .
N
 x
N/
• A nova variável aleatória definida por
Student é representada pelo símbolo tN-1 e
sua distribuição é chamada de distribuição t
ou distribuição de Student.

• O índice N-1 lembra que a forma da
distribuição varia com o tamanho da
amostra.

1Nt
N/s
x



• Na verdade são várias distribuições
diferentes, cada uma delas correspondendo a
um certo número de graus de liberdade na
determinação do valor de s.
1Nt
N/s
x



• É importante ressaltar que o número de graus
de liberdade na distribuição de Student se
refere à obtenção do desvio padrão e não ao
cálculo da média.

• Como veremos adiante, pode acontecer da
média e o desvio padrão serem obtidos a partir
de diferentes conjuntos de observações.

• O valor de N em tN-1 não será então
necessariamente o mesmo valor de N usado
para calcular a média, e cuja raiz quadrada
aparece no denominador da equação
1Nt
N/s
x


• A Tabela A.2 (página 393, livro do Bruns)
contém os valores de t para algumas áreas da
cauda a direita na distribuição de Student.

• As áreas aparecem na parte superior da
tabela.

• Na primeira coluna está o número de graus
de liberdade, , com que o desvio padrão s é
estimado.

• A distribuição t também é simétrica em torno
da média zero, como a distribuição normal
padrão, de modo que só precisamos de um
lado da curva.

• Qual o valor de t para 95% de confiança no
caso da amostra de 10 caroços de feijão?
• Na amostra de dez caroços  = N - 1 = 9, os
valores apropriados encontram-se na nona
linha.

• Para descobrir, por exemplo, o valor de t que
corresponde a um nível de 95% de confiança
lemos o valor que se encontra na interseção
da nona linha com a coluna correspondente a
0.025 de área de cauda. Obtemos assim
t=2.262.

• Na distribuição normal, para o mesmo nível
de confiança, usamos z=1.96. Qual das duas
distribuições é mais estreita? (t=2.262) Isso
faz sentido?
• A distribuição t é mais espalhada, ou seja, os
intervalos de confiança obtidos a partir dela
são mais largos.

• Isto faz sentido, porque ao usar o valor de s
para estimar  estamos cometendo um erro,
que evidentemente será maior quanto
menor for a amostra.

• Para uma amostra de apenas dois elementos,
por exemplo, o valor de t sobe para 12.706,
no mesmo nível de confiança.

• Esse resultado quer dizer que, para os
mesmos 95% de confiança, com uma amostra
tão pequena, vamos obter um intervalo bem
maior do que no caso da amostra de 10
caroços.

• Olhe para a tabela A2 e explique porque vale
a pena fazer o esforço de se fazer uma
amostra de 3 elementos em termos de
confiança, em relação à amostra de 2
elementos.

N/s txN/s tx 1N1N  

• Quanto maior for a amostra, mais estreito
será o intervalo.

• No limite, com um número infinito de graus
de liberdade, a distribuição t termina
reduzindo-se a distribuição normal padrão.

• Com a distribuição de Student, portanto,
podemos calcular um novo intervalo de
confiança usando apenas os valores
amostrais.

• Como usar o Statistica para calcular o valor
de t?

• Para =9 e 95% de confiança:

• Intervalo de confiança para a média
populacional a partir da distribuição de
Student:

• No nosso exemplo toda a informação vem de
uma única amostra, e portanto o valor de N
dentro da raiz quadrada é o mesmo que
aparece em tN-1.

• Para 95% de confiança e uma amostra de 10
elementos:

N/s txN/s tx 1N1N  
10/s 262.2x10/s 262.2x 
• Substituindo os valores para os dez caroços,
=0.1887 g e s=0.0423 g, chegamos ao
intervalo:

0.1584 g<  <0.2190 g

• E, logo, a:

4566-6313 caroços / kg

x

4566-6313 caroços / kg

• Como já esperávamos, a incerteza cresceu
em relação à estimativa anterior (4735 a
6017 caroços), que era baseada no desvio
padrão populacional (embora aproximado
pelo desvio padrão da amostra de 140
caroços).

• Com o aumento do número de graus de
liberdade, os valores de tN-1 convergem, a
princípio rapidamente e depois mais devagar,
para os valores da distribuição normal
padrão. À medida que a amostra cresce,
portanto, a diferença entre as duas
distribuições vai perdendo a importância.

• Na prática, só se costuma usar a distribuição
t quando o número de graus de liberdade na
estimativa do desvio padrão é inferior a 30.

Como determinar o tamanho da
amostra

• Como detectar uma variação de certa
magnitude no valor da média ou estimar o
valor de um parâmetro com um certo grau de
precisão?

• No exemplo da titulação do vinagre, digamos
que nosso objetivo seja obter uma estimativa
de concentração com precisão de 0.1%.
Quantas titulações repetidas devemos fazer?

• Os intervalos do teste t são dados por:

• Para estimar a concentração média dentro de
0.1%, precisaremos de um número N de
titulações tal que
N
s
tx 
% 1.0
N
s
t 
ou 2
%1.0
st
N 




 
 
N/s txN/s tx 1N1N  

• Aqui temos um problema. O valor de s deve
ser calculado a partir da amostra, e no
entanto não sabemos nem quantas titulações
devem ser feitas.

• Na prática, felizmente, esse problema não é
tão grave quanto parece, porque as medições
já realizadas ao longo do tempo fornecem um
valor “histórico” para s.

• Os resultados obtidos em 20 titulações foram:

• No nosso exemplo, podemos usar o desvio
padrão de todas as titulações feitas, que é
s=0.1509%, e escrever:
2
19
%1.0
% 1509.0t
N 




 


• Como o desvio padrão foi calculado a partir
de 20 observações, o valor de t é o
correspondente a 19 graus de liberdade, não
importa qual venha a ser o valor de N. Isto
contribui para reduzir ainda mais a largura do
intervalo.

• Calculando t19 (95% de confiança):

• Substituindo t19 = 2.093 (95% de confiança),
temos finalmente:

• Para obter a precisão desejada, portanto,
precisamos fazer pelo menos 10 titulações.

98.9
%1.0
% 1509.0t
N
2
19 




 


• Quando temos uma estimativa de desvio
padrão obtida a partir de uma série histórica
de extensão razoável, a diferença entre a
distribuição t e a distribuição normal deixa de
ter importância.

• Esta éa situação mais comum em
laboratórios de análise, onde todos os dias os
mesmos procedimentos são realizados,
repetidas vezes.

• Para estimar o tamanho da amostra, nesses
casos, podemos usar a expressão:
2
L
z
N 




 

L : precisão desejada,  : desvio
padrão, z : ponto da distribuição
normal padrão