Buscar

Cap_01

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Introdução
Os avanços na ciência e engenharia ocorrem em grande parte por meio de coleta e análise 
de dados. A análise adequada de dados é desafiadora, porque os dados científicos estão 
sujeitos a variações aleatórias. Ou seja, quando medições científicas são repetidas, elas se 
revelam um pouco diferentes a cada vez. Isso evidencia um problema: como podemos tirar 
conclusões a partir dos resultados de um experimento quando esses resultados se revelam 
diferentes? Para discutir esta questão, é essencial um conhecimento sobre estatística. Os 
métodos de estatística permitem aos cientistas e engenheiros projetar experimentos válidos 
e tirar conclusões seguras a partir dos dados produzidos.
A ênfase deste livro está nas aplicações para cientistas e engenheiros, mas vale a 
pena mencionar que a análise e interpretação desempenham um papel cada vez maior em 
todos os aspectos da vida moderna. Para melhor ou pior, enormes quantidades de dados 
são coletados sobre nossas opiniões e estilos de vida, para fins que vão desde a cria-
ção de campanhas de marketing mais eficazes ao desenvolvimento das políticas sociais 
destinadas a melhorar o nosso modo de vida. Quase todo dia, são publicados artigos de 
jornais que se propõem a explicar tendências sociais ou econômicas através da análise 
de dados. Portanto, é necessário um conhecimento básico de estatística não apenas para 
ser um cientista ou engenheiro eficaz, mas também para ser uma pessoa bem informada 
na sociedade.
A ideia básica
A ideia básica por trás de todos os métodos de estatística da análise de dados é infe-
rir sobre uma população estudando uma amostra relativamente pequena dela. Como 
ilustração, considere uma máquina que faz esferas de aço para rolamentos usados em 
sistemas de embreagem. A especificação para o diâmetro das esferas é 0,65 ± 0,03 cm. 
Durante a última hora, a máquina fez 2.000 esferas. O engenheiro que faz o controle de 
Capítulo 1
Medidas sobre 
dados univariados
Navidi_01.indd 1Navidi_01.indd 1 27/01/12 16:2727/01/12 16:27
2 Capítulo 1 Medidas sobre dados univariados
qualidade deseja saber quantas destas esferas, aproximadamente, estão de acordo com a 
especificação. Ele não tem tempo para medir todas elas. Assim, ele extrai uma amostra 
aleatória de 80 esferas, mede o diâmetro delas e constata que 72 (90%) estão de acordo 
com a especificação. Agora, é pouco provável que a amostra de 80 esferas represente 
perfeitamente a população de 2.000. É provável que a proporção de esferas boas na po-
pulação seja um pouco diferente da proporção de 90% da amostra. O que o engenheiro 
precisa saber é apenas o provável valor dessa diferença. Por exemplo, é plausível que a 
percentagem da população fosse tão alta quanto 95 ou 98%? Ou ainda tão baixa quanto 
85 ou 80%?
A seguir temos algumas questões específicas que o engenheiro talvez precise res-
ponder com base nos dados da amostra:
 1. O engenheiro precisa calcular uma estimativa aproximada do tamanho provável da 
diferença entre as proporções da amostra e da população. Qual é o valor da diferença 
típica para esse tipo de amostra?
 2. O engenheiro de controle de qualidade precisa registrar em um livro de registros a 
percentagem de esferas aceitáveis fabricadas na última hora. Ao observar que 90% 
das amostras de esferas estão dentro da especificação, ele indica a percentagem de 
esferas aceitáveis na população como um intervalo na forma de 90% ± x%, em que 
x é um número calculado para fornecer uma certeza razoável de que a percentagem 
real da população está no intervalo. Como x deve ser calculado?
 3. O engenheiro deseja estar razoavelmente certo de que a percentagem de esferas den-
tro da especificação é de pelo menos 85%; caso contrário, ele paralisará o processo 
para uma recalibração. Como ele pode estar certo de que pelo menos 85% das 1.000 
esferas estão dentro da especificação?
Grande parte deste livro é dedicada a abordar questões como essas. A primeira delas 
requer o cálculo de um desvio padrão, que discutiremos no Capítulo 3. A segunda ques-
tão requer a construção de um intervalo de confiança, que estudaremos no Capítulo 5. A 
terceira solicita um teste de hipótese, que aprenderemos no Capítulo 6.
Os capítulos restantes deste livro abordam outros tópicos importantes. Por exem-
plo, o engenheiro em nosso exemplo pode querer saber qual a quantidade de car-
bono nas esferas de aço está relacionada à sua resistência à compressão. Problemas 
como este podem ser resolvidos com métodos de correlação e regressão, abordados 
nos Capítulos 2 e 8. Pode ser importante também determinar como ajustar o processo 
de fabricação no que diz respeito a diversos fatores para otimizar os resultados da 
produção. Isso requer um projeto de experimentos fatoriais, que são discutidos no 
Capítulo 9. Finalmente, o engenheiro precisará desenvolver um plano para monitorar a 
qualidade do produto fabricado. O Capítulo 10 trata do tópico de controle estatístico 
da qualidade, no qual métodos estatísticos são usados para manter a qualidade em um 
ambiente industrial.
Os tópicos listados aqui dizem respeito a métodos que tiram conclusões a partir de 
dados. Esses métodos constituem o campo da estatística inferencial. Antes de discutirmos 
esses tópicos, temos que aprender mais sobre os métodos de coleta de dados e sintetizar 
claramente a informação básica que eles contêm. Esses são os tópicos de amostragem e 
estatística descritiva, abordados no restante deste capítulo.
Navidi_01.indd 2Navidi_01.indd 2 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 3
1.1 Amostragem
Conforme mencionado, os métodos estatísticos são baseados na ideia de analisar uma 
amostra obtida de uma população. Para que essa ideia funcione, a amostra tem que ser 
escolhida de forma apropriada. Por exemplo, digamos que quiséssemos estudar a altura 
dos estudantes da escola medindo uma amostra de 100 estudantes. Como poderíamos 
escolher os 100 estudantes? Alguns métodos são obviamente ruins. Por exemplo, es-
colher os estudantes a partir das listas dos times de basquete, sem dúvida, resultará em 
uma amostra que não representa a distribuição da altura da população de estudantes. 
Você pode pensar que seria razoável usar alguma amostra obtida convenientemente, por 
exemplo, todos os estudantes que vivem em um determinado dormitório ou todos os 
estudantes matriculados em engenharia estatística. Afinal, não há razão para pensar que 
a altura destes estudantes tenda a diferir da altura dos estudantes em geral. Entretanto, 
amostras como essas não são ideais porque podem ser enganosas em formas não espe-
radas. Os melhores métodos de amostragem envolvem amostragem aleatória. Existem 
muitos métodos de amostragem aleatória, dos quais o mais básico é a amostragem 
aleatória simples.
Amostras aleatórias simples
Para entender a natureza de uma amostra aleatória simples pense em uma loteria. Ima-
gine que 10.000 recibos de apostas de loteria foram vendidos e que 5 deles foram sor-
teados. Qual é a forma mais justa de escolher os ganhadores? A forma mais justa é 
colocar os 10.000 tíquetes em uma urna, misturá-los completamente e, em seguida, 
retirar os tíquetes um de cada vez. O mais importante é que cada coleção de 5 recibos 
de apostas que pode ser formada a partir dos 10.000 é igualmente provável que com-
ponha o grupo de 5 sorteados. Esta é a ideia que forma a base para a definição de uma 
amostra aleatória simples.
Resumo
 ■ Uma população é uma coleção inteira de objetos ou resultados sobre os quais a 
informação é obtida.
 ■ Uma amostra é um subconjunto de uma população que contém os objetos ou 
resultados que são realmente observados.
 ■ Uma amostra aleatória simples de tamanho n é uma amostra escolhida por um 
método no qual cada coleção de n itens da população é igualmente provável de 
compor a amostra, da mesma forma como em uma loteria.
Visto que uma amostra aleatória simples é análoga a uma loteria, ela pode ser 
frequentemente obtida pelo mesmo método usado em muitas loterias:com um compu-
tador que gera números aleatórios. Suponha que existem N itens em uma população. 
Atribui-se para cada item da população um inteiro entre 1 e N. Em seguida, gera-se 
uma lista aleatória de inteiros entre 1 e N e escolhem-se os itens da população corres-
pondente para compor a amostra aleatória simples.
Navidi_01.indd 3Navidi_01.indd 3 27/01/12 16:2727/01/12 16:27
4 Capítulo 1 Medidas sobre dados univariados
Exemplo 1.1
Uma concessionária pretende realizar uma pesquisa para medir o nível de satisfação dos 
seus clientes em uma determinada cidade. Existem 10.000 clientes na cidade e os fun-
cionários querem obter uma amostra de tamanho 200 para entrevistar por telefone. Eles 
obtêm uma lista de 10.000 clientes e os numera de 1 a 10.000. Eles usam um computador 
para gerar 200 números aleatórios entre 1 e 10.000 e ligam para os clientes que corres-
pondem aos números obtidos. Esta é uma amostra aleatória simples?
Solução
Sim. Note que o processo é análogo ao de uma loteria no qual cada cliente tem um recibo 
e são sorteados 200 recibos.
Exemplo 1.2
Um engenheiro de controle de qualidade deseja inspecionar microcircuitos eletrônicos 
para obter a informação da proporção de itens defeituosos. Ele decide obter uma amostra 
de 100 circuitos a partir da produção de um dia. A cada hora, durante 5 horas, ele pega os 
20 últimos circuitos produzidos e os testa. Esta é uma amostra aleatória simples?
Solução
Não. Cada subconjunto de 100 circuitos não é igualmente provável que componha a 
amostra. Para construir uma amostra aleatória simples, o engenheiro precisaria atribuir 
um número a cada circuito produzido durante o dia e, em seguida, gerar números aleató-
rios para determinar quais circuitos comporão a amostra.
Amostras de conveniência
Em alguns casos é difícil, ou impossível, obter uma amostra de forma verdadeiramente 
aleatória. Nestes casos, o melhor a fazer é amostrar os itens usando um método conve-
niente. Por exemplo, imagine que um engenheiro civil acaba de receber um carregamento 
de 1.000 blocos de concreto, cada um pesando aproximadamente 50 libras (22,7 kg). Os 
blocos foram entregues em uma grande pilha. O engenheiro deseja investigar a resistên-
cia à pressão dos blocos medindo o esforço em uma amostra de 10 blocos. Para obter 
uma amostra aleatória simples seria necessário remover os blocos do centro e da parte de 
baixo da pilha, o que poderia ser bastante difícil. Por isso, o engenheiro pode construir 
uma amostra simplesmente retirando 10 blocos do topo da pilha. Uma amostra como essa 
é denominada amostra de conveniência.
Definição
Uma amostra de conveniência é aquela que não pode ser obtida por um método 
aleatório bem definido.
Navidi_01.indd 4Navidi_01.indd 4 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 5
O grande problema com amostras de conveniência é que elas podem diferir sistema-
ticamente da população de alguma forma. Por isso, as amostras de conveniência devem 
apenas ser usadas em situações em que não for viável extrair uma amostra aleatória. 
Quando for necessário obter uma amostra de conveniência, é importante pensar com 
cuidado nas formas em que a amostra pode diferir sistematicamente da população. Se for 
razoável acreditar que não existe uma diferença sistemática importante, então pode ser 
aceitável considerar a amostra de conveniência como se ela fosse uma amostra aleatória 
simples. Com relação aos blocos de concreto, se o engenheiro está confiante de que os 
blocos no topo da pilha não diferem sistematicamente de forma importante do restante 
dos blocos, então ele pode tratar a amostra de conveniência como uma amostra aleatória 
simples. Entretanto, se for possível que os blocos em diferentes partes da pilha possam 
ter sido feitos a partir de diferentes lotes de mistura ou possam ter diferentes tempos ou 
temperaturas de cura, uma amostra de conveniência pode produzir resultados enganosos.
Algumas pessoas acham que uma amostra aleatória simples garante refletir perfeita-
mente a sua população. Isso não é verdade. Amostras aleatórias simples sempre diferem 
de sua população de alguma forma e, ocasionalmente, elas podem ser substancialmente 
diferentes. Duas amostras diferentes da mesma população diferem uma da outra também. 
Esse fenômeno é conhecido como variação amostral. A variação amostral é uma das ra-
zões em que experimentos científicos produzem resultados um pouco diferentes quando 
repetidos, mesmo quando as condições parecem ser idênticas. Por exemplo, suponha que 
um inspetor de qualidade extrai uma amostra aleatória simples de 40 parafusos de um 
grande carregamento, mede o comprimento de cada um e verifica que 32 deles, ou 80%, 
atendem à especificação de comprimento. Outro inspetor extrai uma amostra diferente 
de 40 parafusos e verifica que 36 deles, ou 90%, atendem à especificação. Por acaso, o 
segundo inspetor teve mais parafusos bons em sua amostra. É provável que nenhuma 
amostra reflita a população perfeitamente. A proporção de parafusos bons na população 
é provavelmente próxima de 80% ou 90%, mas é provável que ela não seja exatamente 
igual a um destes valores.
Visto que as amostras aleatórias simples não refletem suas populações perfeitamen-
te, por que é importante que a amostragem seja feita aleatoriamente? O benefício de uma 
amostragem aleatória simples é que não existe um mecanismo sistemático que tende a 
tornar a amostra não representativa. As diferenças entre a amostra e sua população são 
originárias inteiramente de variações aleatórias. Visto que a teoria matemática da varia-
ção aleatória é bem entendida, podemos usar modelos matemáticos para estudar a relação 
entre amostras aleatórias simples e suas populações. Para uma amostra não escolhida de 
forma aleatória, geralmente não há teoria disponível para descrever os mecanismos que 
fazem com que a amostra seja diferente de sua população. Portanto, amostras não aleató-
rias geralmente são difíceis de serem analisadas de forma confiável.
Populações tangíveis e conceituais
As populações discutidas até este momento consistiam de objetos físicos: os clientes de 
uma concessionária, os blocos de concreto em uma pilha, os parafusos em um carrega-
mento. Essas populações são denominadas populações tangíveis. Tais populações são 
sempre finitas. Após a amostragem de um item, o tamanho da população diminui em uma 
unidade. Em princípio, em alguns casos podemos retornar o item amostrado para a popu-
lação, com uma chance de amostrá-lo novamente, mas isso raramente é feito na prática.
Navidi_01.indd 5Navidi_01.indd 5 27/01/12 16:2727/01/12 16:27
6 Capítulo 1 Medidas sobre dados univariados
Os dados em engenharia são frequentemente produzidos por meio de medidas reali-
zadas no decorrer do experimento científico, em vez de uma amostragem a partir de uma 
população tangível. Considere um exemplo simples em que um engenheiro mede o compri-
mento de uma haste cinco vezes sendo tão cuidadoso quanto possível para tomar as medidas 
sob condições idênticas. Não importa o quão cuidadosas sejam as medidas realizadas, elas 
serão um pouco diferentes uma da outra por causa da variação no processo de medição que 
não pode ser controlado ou previsto. Por sua vez, é frequentemente apropriado considerar 
dados como estes como sendo amostras aleatórias simples de uma população. A população, 
nestes casos, consiste de todos os valores que podem ser possivelmente observados. Essa 
população é denominada população conceitual, visto que não consiste de objetos reais.
Definição
Uma amostra aleatória simples pode consistir em valores obtidos a partir de um pro-
cesso sob condições experimentais idênticas. Neste caso, a amostra é proveniente 
de uma população que consiste de todos os valores que podem ser possivelmente 
observados. Essa população é denominada população conceitual.
O Exemplo 1.3 envolve uma população conceitual.
Exemplo 1.3
Um geólogo pesa uma rocha várias vezes em uma balança de precisão. Em cada pesagem 
a balança fornece umvalor ligeiramente diferente. Sob que condições esses valores po-
dem ser considerados amostras aleatórias simples? Qual é a população?
Solução
Se as características físicas da balança permanecerem as mesmas para cada pesagem, de 
modo que as medidas sejam feitas em condições idênticas, então as leituras podem ser 
consideradas como sendo uma amostra aleatória simples. A população é conceitual. Ela 
consiste de todas as leituras que a balança poderia, em princípio, produzir.
Determinando se uma amostra é aleatória simples
Vimos no Exemplo 1.3 que são as características físicas do processo de medição que 
determinam se os dados constituem uma amostra aleatória simples. Em geral, quando 
decidimos se um conjunto de dados pode ser considerado uma amostra aleatória simples, 
é necessário entender o processo que gerou os dados. Algumas vezes os métodos esta-
tísticos podem ajudar, especialmente quando a amostra for grande, mas o conhecimento 
sobre o mecanismo de geração dos dados é mais importante.
Exemplo 1.4
Um novo processo químico, que produz um determinado produto químico, foi idealizado 
para ter um rendimento de produção maior do que o processo anterior. Para estudar o 
rendimento desse novo processo, o executamos 50 vezes e registramos os 50 resultados. 
Navidi_01.indd 6Navidi_01.indd 6 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 7
Sob que condições esse procedimento pode ser razoavelmente considerado uma amostra 
aleatória simples? Descreva algumas condições sob as quais esse processo não pode ser 
tratado apropriadamente como uma amostra aleatória simples.
Solução
Para responder a isso, primeiro temos que especificar a população. A população é con-
ceitual e consiste no conjunto de toda a produção resultante desse processo tantas vezes 
quanto ele for executado. O que fizemos é amostrar os 50 primeiros resultados de pro-
dução. Podemos considerar a amostra como aleatória simples se, e somente se, estamos 
seguros de que os 50 primeiros resultados de produção foram gerados sob condições 
idênticas e que eles não sejam, de alguma forma, sistematicamente diferentes de resulta-
dos posteriores.
Entretanto, seja cauteloso. Existem muitas condições sob as quais os 50 resultados 
de produção poderiam não se enquadrar em uma amostra aleatória simples. Por exemplo, 
algumas vezes ocorrem com processos químicos situações em que uma produção maior 
é seguida de uma produção menor e vice-versa. Algumas vezes a produção tende a au-
mentar ao longo do tempo, à medida que os engenheiros de processo aprendem com a 
experiência como executar o processo mais eficientemente. Nesses casos, as produções 
não são geradas sob condições idênticas e não poderiam constituir uma amostra aleatória 
simples.
O Exemplo 1.4 mostra mais uma vez que um bom conhecimento da natureza do pro-
cesso sob consideração é importante ao decidir se os dados podem ser considerados uma 
amostra aleatória simples. Algumas vezes os métodos estatísticos podem ser usados para 
mostrar que um determinado conjunto de dados não é uma amostra aleatória simples. Por 
exemplo, algumas vezes as condições experimentais mudam gradualmente ao longo do 
tempo. Um método simples, porém efetivo, para detectar essa condição é traçar o gráfico 
das observações na ordem em que elas são realizadas. Uma amostra aleatória simples não 
deve mostrar nenhum padrão ou tendência.
100 20
Número de medições
30 40 50
(a)
100 20
Número de medições
30 40 50
(b)
100 20
Número de medições
30 40 50
(c)
Figura 1.1 Três gráficos dos valores observados versus a ordem na qual eles são obtidos. (a) Os valores 
mostram um padrão definido ao longo do tempo. Esta não é uma amostra aleatória simples. (b) Os valores 
mostram uma tendência ao longo do tempo. Esta não é uma amostra aleatória simples. (c) Os valores não 
mostram um padrão ou uma tendência. Estes dados podem ser considerados apropriadamente uma amostra 
aleatória simples.
Navidi_01.indd 7Navidi_01.indd 7 27/01/12 16:2727/01/12 16:27
8 Capítulo 1 Medidas sobre dados univariados
A Figura 1.1 apresenta os gráficos de três amostras na ordem em que elas foram 
obtidas. O gráfico na Figura 1.1a mostra um padrão de oscilação. O gráfico na Figura 
1.1b mostra uma tendência de aumento. O gráfico na Figura 1.1c não apresenta qualquer 
padrão ou tendência óbvia. Pode ser apropriado tratar estes dados como uma amostra 
aleatória simples. Entretanto, antes de tomar essa decisão, ainda é importante pensar 
sobre o processo que produziu os dados, visto que pode haver a preocupação de que não 
apareça no gráfico.
Independência
Diz-se que os itens em uma amostra são independentes se os valores de alguns deles 
não ajudam a prever os valores de outros. Com uma população finita (tangível), os itens 
em uma amostra aleatória simples não são estritamente independentes, porque à medida 
que cada item é obtido, a população muda. Essa mudança pode ser substancial quando a 
população for pequena. Entretanto, quando a população for muito grande, essa variação é 
desprezível, e os itens podem ser tratados como se fossem independentes.
Para ilustrar essa ideia, imagine que obtemos uma amostra aleatória simples de 2 
itens da população
0 0 1 1
Para a primeira extração, os números 0 e 1 são igualmente prováveis. Mas o valor do 
segundo item é claramente influenciado pelo primeiro; se o primeiro for 0, é mais pro-
vável que o segundo seja 1 e vice-versa. Portanto, os itens amostrados são dependentes. 
Agora considere que extraímos uma amostra de tamanho 2 desta população:
0 ’sUm milhão de 1 ’sUm milhão de
Novamente, na primeira extração os números 0 e 1 são igualmente prováveis. Mas 
diferentemente do exemplo anterior, os dois valores restantes são também quase igual-
mente prováveis na segunda extração, não importando o valor na primeira extração. No 
caso das grandes populações, os itens amostrados são, para todos os fins práticos, inde-
pendentes.
É razoável se perguntar como uma grande população deve estar em ordem de modo 
que os itens em uma amostra aleatória simples possam ser tratados como independen-
tes. A regra geral é que, quando se amostra uma população finita, os itens podem ser 
tratados como independentes enquanto a amostra for constituída de 5% ou menos da 
população.
Curiosamente, é possível fazer a população se comportar como se fosse infinita-
mente grande, repondo cada item após ser amostrado. Esse método é denominado amos-
tragem com reposição. Com esse método, a população é exatamente a mesma em cada 
extração, e os itens amostrados são verdadeiramente independentes.
Com uma população conceitual, precisamos que os itens da amostra sejam produzi-
dos sob condições experimentais idênticas. Então, em especial, nenhum valor de amostra 
pode influenciar as condições sob as quais os outros serão produzidos. Portanto, os itens 
em uma amostra aleatória simples de uma população conceitual podem ser tratados como 
Navidi_01.indd 8Navidi_01.indd 8 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 9
independentes. Podemos pensar em uma população conceitual como sendo infinita ou, 
de forma equivalente, que os itens são amostrados com reposição.
Resumo
 ■ Os itens em uma amostra são independentes se o conhecimento dos valores de 
alguns deles não ajudam a prever os valores de outros.
 ■ Os itens em uma amostra aleatória simples podem ser tratados como indepen-
dentes em muitas situações encontradas na prática. A exceção ocorre quando a 
população é finita e a amostra constitui uma fração substancial (mais do que 5%) 
da população.
Outros métodos de amostragem
Além da amostragem aleatória simples, existem outros métodos de amostragem que são 
úteis em várias situações. Na amostragem ponderada, para alguns itens são dadas chan-
ces maiores de serem selecionados do que outros, como uma loteria em que algumas pes-
soas têm mais recibos de apostas que outras. Na amostragem aleatória estratificada, a 
população é dividida em subpopulações, denominadas estratos, e uma amostra aleatóriasimples é extraída de cada estrato. Em amostragem por grupos, os itens são extraídos 
da população em grupos, ou conglomerados. A amostragem por grupos é útil quando a 
população é muito grande e extensa para que uma amostragem aleatória simples seja 
viável. Por exemplo, muitas agências governamentais nos Estados Unidos usam amos-
tragem por grupos para amostrar a população americana para medir fatores sociológicos 
como renda e desemprego. Uma boa fonte de informação sobre métodos de amostragem 
é Cochran (1977).
A amostragem aleatória simples não é o único método válido de amostragem. Mas 
ele é o mais fundamental e dedicaremos mais a nossa atenção a este método. Deste mo-
mento em diante, a menos que seja especificado, os termos “amostra” e “amostra aleató-
ria” devem ser entendidos como “amostra aleatória simples”.
Tipos de dados
Quando um valor numérico designa o quanto é associado a cada item em uma amostra, 
o conjunto de valores resultante é denominado numérico ou quantitativo. Em alguns 
casos, os itens da amostra são colocados em categorias, e os nomes das categorias são 
associados aos itens da amostra. Então os dados são categóricos ou qualitativos. Algu-
mas vezes os dados quantitativos ou categóricos são obtidos no mesmo experimento. Por 
exemplo, em um ensaio de carga das conexões soldadas entre colunas e vigas, os dados 
podem ser coletados no torque aplicado na falha e na localização da falha (solda ou viga). 
O torque é uma variável quantitativa, e a localização é uma variável categórica.
Experimentos controlados e estudos observacionais
Muitos experimentos científicos são idealizados para determinar o efeito da variação de 
um ou mais fatores nos valores de uma resposta. Por exemplo, suponha que um engenhei-
ro químico deseja determinar como a concentração de reagente e catalisador afetam a 
produção de um processo. O engenheiro pode executar o processo várias vezes, mudando 
Navidi_01.indd 9Navidi_01.indd 9 27/01/12 16:2727/01/12 16:27
10 Capítulo 1 Medidas sobre dados univariados
a concentração a cada vez e comparando o produto resultante. Esse tipo de experimento 
é chamado de experimento controlado, porque os valores dos fatores, neste caso a con-
centração de reagente e catalisador, estão sob o controle do pesquisador. Quando ideali-
zado e conduzido adequadamente, os experimentos controlados podem produzir infor-
mações confiáveis sobre relações de causa e efeito entre fatores e resposta. No exemplo 
de produção que acabamos de mencionar, um experimento bem conduzido permitiria ao 
experimentador concluir que as diferenças na produção foram provocadas pelas diferen-
ças na concentração de reagente e catalisador.
Existem muitas situações nas quais os cientistas não podem controlar os níveis dos 
fatores. Por exemplo, muitos estudos foram destinados a determinar os efeitos da fumaça 
de cigarro sobre o risco de câncer de pulmão. Nesses estudos, as taxas de câncer entre 
fumantes são comparadas com as taxas entre não fumantes. Os pesquisadores não podem 
controlar quem fuma e quem não fuma; as pessoas não são obrigadas a fumar para tornar 
o trabalho do estatístico mais fácil. Esse tipo de estudo é denominado estudo observa-
cional, porque o pesquisador simplesmente observa os níveis do fator como eles são, 
sem ter qualquer controle sobre eles. Os estudos observacionais não são tão bons quanto 
os experimentos controlados para a obtenção de conclusões confiáveis independente de 
causa e efeito. No caso de fumante e câncer de pulmão, por exemplo, as pessoas que es-
colhem fumar podem não ser uma quantidade representativa da população como um todo 
e podem ser mais propensas a obter câncer por outras razões. Por esse motivo, embora 
saibamos há muito tempo que os fumantes têm taxas mais altas de câncer de pulmão do 
que não fumantes, foram muitos anos de estudos observacionais feitos com cuidado antes 
que os cientistas pudessem ter certeza de que fumar era realmente a causa da taxa mais 
elevada de câncer.
 1. Cada um dos seguintes processos envolve 
amostragem de uma população. Defina a popu-
lação e informe se ela é tangível ou conceitual.
 a. Um carregamento de parafusos é recebido 
de um fornecedor. Para verificar se o car-
regamento é aceitável no que diz respeito 
à resistência de cisalhamento, um enge-
nheiro retira do contêiner 10 parafusos, 
um a um, para teste.
 b. A resistência de um determinado resistor 
é medida cinco vezes com o mesmo ohmí-
metro.
 c. Um estudante de pós-graduação com es-
pecialização em ciências ambientais é 
parte de uma equipe de estudo que avalia 
o risco para a saúde humana de um deter-
minado contaminante presente na água da 
torneira em sua cidade. Parte do processo 
de avaliação envolve estimar a quantidade 
de tempo que as pessoas que moram na 
cidade estão em contato com água da tor-
neira. O aluno recruta moradores da cida-
de para registros diários durante um mês, 
detalhando a quantidade de tempo por dia 
que estiveram em contato com água da 
torneira.
 d. Oito soldas foram feitas com o mesmo pro-
cesso, e o esforço em cada uma é medido.
 e. Um engenheiro de controle de qualidade 
precisa estimar a percentagem dos itens 
manufaturados em um determinado dia 
que apresentam defeito. Às 14:30 ele 
amostra os últimos 100 itens produzidos.
 2. Se você deseja estimar a média das alturas de 
todos os estudantes de uma universidade, qual 
das seguintes estratégias de amostragem seria 
a melhor? Por quê? Note que nenhum dos mé-
todos é amostragem aleatória simples verda-
deira.
Exercícios da Seção 1.1
Navidi_01.indd 10Navidi_01.indd 10 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 11
 i. Medir as alturas de 50 estudantes encon-
trados em um ginásio durante o torneio 
interno de basquete.
 ii. Medir as alturas de todos nas engenharias.
 iii. Medir as alturas dos estudantes selecio-
nados a partir do primeiro nome em cada 
página da lista telefônica do campus.
 3. Verdadeiro ou falso:
 a. Uma amostra aleatória simples garante 
refletir exatamente a população da qual é 
extraída.
 b. Uma amostra aleatória simples é livre 
de qualquer tendência sistemática que a 
torna diferente da população da qual é 
extraída.
 4. Um engenheiro de controle de qualidade 
extrai uma amostra aleatória simples de 50 
anéis de um lote de vários milhares. Ele mede 
a espessura de cada um e constata que 45 de-
les, ou 90%, atendem a um determinada espe-
cificação. Qual das seguintes afirmações está 
correta?
 i. A proporção de anéis que atende à espe-
cificação em todo o lote é provavelmente 
igual a 90%.
 ii. A proporção de anéis que atende à espe-
cificação em todo o lote é provavelmente 
próxima de 90%, mas não igual.
 5. Um determinado processo de manufatura de 
circuitos integrados está em operação por 
um período de tempo, e sabe-se que 12% dos 
circuitos apresentam defeito. Um novo pro-
cesso no qual se espera reduzir a proporção 
de defeitos está em teste. Em uma amostra 
aleatória simples de 100 circuitos produzi-
dos nesse novo processo, 12 estavam com 
defeito.
 a. Um dos engenheiros sugere que o teste 
prova que o novo processo não é melhor 
que o anterior, visto que a proporção de 
defeitos na amostra é a mesma. Essa con-
clusão se justifica? Explique.
 b. Considere que ocorreram apenas 11 cir-
cuitos com defeito na amostra de 100. Isso 
provaria que o novo processo é melhor? 
Explique.
 c. Que resultado representa uma forte evi-
dência de o novo processo ser melhor: 
ao encontrar 11 circuitos com defeito na 
amostra, ou ao encontrar 2?
 6. Consulte o Exercício 5. Verdadeiro ou falso:
 a. Se a proporção de defeitos na amostra for 
menor que 12%, é razoável concluir que o 
novo processo é melhor.
 b. Se a proporção de defeitos na amostra 
for apenas um pouco menor que 12%, a 
diferença poderia ter origem inteiramen-
te na variação da amostragem, e não é 
razoável concluir que o novo processo é 
melhor.
 c. Se a proporção de defeitos na amostra é 
muito menor do que 12%, é muito pouco 
provávelque a diferença é decorrente da 
variação na amostragem, então é razoável 
concluir que o novo processo é melhor.
 7. Para determinar se uma amostra deve ser trata-
da como uma amostra aleatória simples, o que 
é mais importante: um bom conhecimento de 
estatística ou um bom conhecimento do pro-
cesso que produziu os dados?
1.2 Medidas estatísticas
Geralmente uma amostra é uma longa lista de números. Para ajudar a destacar as carac-
terísticas importantes de uma amostra, vamos calcular as medidas estatísticas. As duas 
medidas estatísticas mais comuns são a média amostral e o desvio padrão amostral. A 
média fornece uma indicação do centro dos dados, e o desvio padrão fornece uma indica-
ção do quão dispersos são os dados.
Navidi_01.indd 11Navidi_01.indd 11 27/01/12 16:2727/01/12 16:27
12 Capítulo 1 Medidas sobre dados univariados
Média amostral
A média amostral também é denominada “média aritmética”, ou simplesmente de “mé-
dia”. Ela é a soma dos números da amostra dividida pela quantidade deles.
Definição
Seja X1, ..., Xn uma amostra. A média amostral é
 
(1.1)
É costume usar uma letra com uma barra sobre ela (por exemplo, X
_
) para indicar 
uma média amostral. Note também que a média amostral tem a mesma unidade que os 
valores da amostra X1, ..., Xn.
Exemplo 1.5
Uma amostra aleatória simples de cinco homens escolhidos a partir de uma grande popu-
lação de homens é constituída, e as alturas deles são medidas. As cinco alturas (em cm) 
são 166,4, 183,6, 173,5, 170,3 e 179,5. Determine a média amostral.
Solução
Usamos a Equação (1.1). A média amostral é
Desvio padrão
Veja a seguir duas listas de números: 28, 29, 30, 31, 32 e 10, 20, 30, 40, 50. As duas 
listas têm a mesma média, 30. Mas a segunda lista tem uma dispersão maior do que a 
primeira. O desvio padrão é um parâmetro estatístico que mede o grau de dispersão 
da amostra.
Seja a amostra X1, ..., Xn. A ideia por trás do desvio padrão é que, quando o desvio 
for grande, os valores da amostra tendem a estar distantes da média, mas, quando a dis-
persão é pequena, os valores tendem a ser próximos da média. Assim, o primeiro passo 
no cálculo do desvio padrão é calcular as diferenças (também denominadas desvios) 
entre cada valor da amostra e a média amostral. Os desvios são (X1 − X
_
), ..., (Xn − X
_
). 
Agora, alguns desses desvios são positivos e outros são negativos. Desvios negativos 
grandes são apenas indicativos da dispersão, assim como desvios positivos grandes. 
Para tornar todos os desvios positivos, os elevamos ao quadrado, obtendo os desvios 
quadráticos (X1 − X
_
)2, ..., (Xn − X
_
)2. A partir dos desvios quadráticos, podemos cal-
cular a medida da dispersão denominada variância amostral. A variância amostral é a 
Navidi_01.indd 12Navidi_01.indd 12 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 13
média dos desvios quadráticos, exceto que dividimos por n − 1 em vez de n. É costume 
designar a variância amostral por s2.
Definição
Seja a amostra X1, ..., Xn. A variância amostral dela é
 
 (1.2)
Uma fórmula equivalente, que pode ser facilmente calculada, é
 
 (1.3)
Embora a variância amostral seja um parâmetro importante, ela tem uma desvanta-
gem significativa como uma medida de dispersão. Sua unidade não é a mesma dos valo-
res da amostra; ela é uma unidade quadrática. Para obter uma medida da dispersão cuja 
unidade seja a mesma dos valores da amostra, simplesmente extraímos a raiz quadrada 
da variância. Esse parâmetro é conhecido como desvio padrão amostral. Normalmente 
indicamos o desvio padrão amostral pela letra s (a raiz quadrada de s2).
Definição
Seja a amostra X1, ..., Xn. O desvio padrão amostral dela é
 
 (1.4)
Uma fórmula equivalente, que pode ser facilmente calculada, é
 
 (1.5)
O desvio padrão amostral é a raiz quadrada da variância amostral.
É natural se perguntar por que a soma dos desvios quadráticos é dividida por n − 1 
em vez de n. A finalidade no cálculo do desvio padrão amostral é estimar a quantidade 
da dispersão na população a partir da qual a amostra foi extraída. Portanto, idealmente 
calcularíamos os desvios a partir da média amostral. Entretanto, a média da população é, 
em geral, desconhecida, de modo que a média amostral é usada no seu lugar. É um fato 
matemático que os desvios em torno da média amostral tendem a ser um pouco menores 
do que os desvios em torno da média da população e que a divisão por n − 1 em vez de n 
fornece exatamente a correção correta.
Navidi_01.indd 13Navidi_01.indd 13 27/01/12 16:2727/01/12 16:27
14 Capítulo 1 Medidas sobre dados univariados
Exemplo 1.6
Determine a variância amostral e o desvio padrão amostral para os dados das alturas no 
Exemplo 1.5.
Solução
Calculamos primeiro a variância amostral usando a Equação (1.2). A média amostral é 
X– = 174,66 (veja o Exemplo 1.5). Portanto, a variância amostral é
Alternativamente, podemos usar a Equação (1.3):
O desvio padrão amostral é a raiz quadrada da variância amostral:
O que aconteceria com a média, variância e desvio padrão amostrais se as alturas no 
Exemplo 1.5 fossem medidas em polegadas em vez de centímetros? Indiquemos as alturas 
em centímetros por X1, X2, X3, X4, X5 e as alturas em polegadas por Y1, Y2, Y3, Y4, Y5. A rela-
ção entre Xi e Yi é dada por Yi = 0,3937Xi. Se voltarmos ao Exemplo 1.5, convertermos para 
polegadas e calcularmos a média amostral, veremos que as médias amostrais em polegadas 
e centímetros estão relacionadas pela equação Y = 0,3937X. Portanto, se multiplicarmos 
cada item da amostra por uma constante, a média amostral é multiplicada pela mesma 
constante. Quanto à variância amostral, veremos que os desvios estão relacionados pela 
equação (Yi − Y) = 0,3937(Xi − X). Segue que s2Y = 0,39372s2X e que sY = 0,3937sX.
E se cada homem da amostra estivesse sobre uma plataforma de 2 centímetros? En-
tão cada altura na amostra seria aumentada de 2 cm, e a média amostral seria aumentada 
de 2 cm também. Em geral, se uma constante for acrescentada a cada item da amostra, a 
média amostral aumenta (ou diminui) pela mesma constante. Entretanto, os desvios não 
mudam, de modo que a variância amostral e o desvio padrão não são afetados.
Resumo
 ■ Se X1, ..., Xn for uma amostra e Yi = a + bXi, em que a e b são constantes, então 
Y = a + bX.
 ■ Se X1, ..., Xn for uma amostra e Yi = a + bXi, em que a e b são constantes, então 
s2Y = b2s2X e sY = |b|sX.
Valores atípicos
Algumas vezes uma amostra contém alguns pontos que são muito maiores ou menores 
do que os demais. Esses pontos são denominados valores atípicos. Veja um exemplo na 
Figura 1.2. Alguns valores atípicos resultam de dados errôneos; por exemplo, um erro na 
Navidi_01.indd 14Navidi_01.indd 14 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 15
posição da vírgula decimal pode resultar em um valor que é uma ordem de magnitude di-
ferente das demais. Valores atípicos devem ser sempre analisados, e qualquer valor atípico 
que for identificado como resultado de um erro deve ser corrigido ou apagado. Nem todos 
os valores atípicos são erros. Algumas vezes uma população pode conter alguns valores 
que são muito diferentes dos demais, e os valores atípicos na amostra refletem esse fato.
Valor atípico
Figura 1.2 Um conjunto de dados que contém um valor atípico.
Valores atípicos são um problema real para analistas de dados. Por esse motivo, 
quando as pessoas veem valores atípicos em seus dados, procuram, algumas vezes, 
tentar encontrar um motivo, ou uma desculpa, para excluí-los. Entretanto, um valor 
atípico não deve ser excluído, a menos que estejamos realmente certos de que se trata 
de um erro. Se uma população realmente contém valores atípicos, mas eles são exclu-
ídos da amostra, a amostra não representará a população corretamente.
Mediana amostral
A mediana, assim como a média, é uma medida de centro. Para calcular a mediana de 
uma amostra, ordene os dados do menor para o maior. A mediana amostral é o número 
do centro. Se o tamanhoda amostra for um número par, é costume determinar a mediana 
como sendo a média dos dois valores centrais.
Definição
Se n números são ordenados do menor para o maior:
 ■ Se n for ímpar, a mediana da amostra é o número na posição .
 ■ Se n for par, a mediana amostral é a média dos números nas posições e .
Exemplo 1.7
Determine a mediana amostral para os dados das alturas no Exemplo 1.5.
Solução
As cinco alturas, organizadas em ordem crescente, são 166,4, 170,3, 173,5, 179,5, 183,6. 
A mediana amostral é o número central, que é 173,5.
Frequentemente a mediana é usada como uma medida de centro para amostras que 
contêm valores atípicos. Para ver porquê, considere que uma amostra consiste dos valo-
res 1, 2, 3, 4 e 20. A média é 6 e a mediana é 3. É razoável pensar que a mediana é mais 
representativa da amostra do que a média. Veja a Figura 1.3.
Navidi_01.indd 15Navidi_01.indd 15 27/01/12 16:2727/01/12 16:27
16 Capítulo 1 Medidas sobre dados univariados
Mediana Média
Figura 1.3 Quando uma amostra contém valores atípicos, a mediana pode ser uma medida mais 
representativa da amostra do que a média.
Quartis
A mediana divide a amostra ao meio. Os quartis a dividem tanto quanto possível em 
quartos. Uma amostra tem três quartis. Existem algumas formas diferentes de calcu-
lar quartis, e todas elas chegam aproximadamente ao mesmo resultado. O método mais 
simples de cálculo manual é o seguinte. Seja n o tamanho de uma amostra. Ordene os 
valores da amostra do menor para o maior. Para determinar o primeiro quartil, calcule o 
valor de 0,25(n + 1). Se este valor for inteiro, então o valor da amostra nesta posição é o 
primeiro quartil. Caso contrário, determine a média dos valores amostrados em cada lado 
deste valor. O terceiro quartil é calculado da mesma forma, exceto que o valor 0,75(n + 
1) é o utilizado. O segundo quartil usa o valor 0,5(n + 1). O segundo quartil é idêntico à 
mediana. Notamos que alguns pacotes de softwares usam métodos um pouco diferentes 
para o cálculo de quartis, de modo que os resultados podem não ser exatamente iguais 
aos obtidos pelos métodos descritos aqui.
Exemplo 1.8
No artigo em inglês “Evaluation of Low-Temperature Properties of HMA Mixtures” 
(Avaliação das Propriedades em Baixa temperatura de Misturas de Asfalto Quente) (P. 
Sebaaly, A. Lake e J. Epps, Journal of Transportation Engineering, 2002:578−583), 
os seguintes valores de fratura por estresse (em megapascal) foram medidos para uma 
amostra de 24 misturas de asfalto quente (HMA – Hot-Mixed Asphalt).
Determine o primeiro e terceiro quartis.
Solução
O tamanho da amostra é n = 24. Para determinar o primeiro quartil, calcule (0,25)(25) = 
6,25. Portanto, o primeiro quartil é determinado pela média entre o 6º e o 7º dados, quan-
do a amostra é organizada em ordem crescente. Isso resulta em (105 + 126)/2 = 115,5. 
Para determinar o terceiro quartil, calcule (0,75)(25) = 18,75. Calculamos a média entre 
o 18º e o 19º dados para obter (242 + 245)/2 = 243,5.
Percentis
O percentil de ordem p de uma amostra, para um número p entre 0 e 100, divide a amos-
tra de modo que o mais próximo possível p% dos valores da amostra são menores do que 
Navidi_01.indd 16Navidi_01.indd 16 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 17
o percentil de ordem p e (100 – p)% são maiores. Existem muitas formas de calcular per-
centis, e todas elas produzem resultados similares. Descrevemos aqui um método análo-
go ao método descrito para o cálculo de quartis. Ordene os valores da amostra do menor 
para o maior e, em seguida, calcule (p/100)(n + 1), em que n é o tamanho da amostra. 
Se este valor for inteiro, o valor da amostra nesta posição é o percentil de ordem p. Caso 
contrário, calcule a média dos dois valores da amostra de cada lado. Note que o primeiro 
quartil é o percentil de ordem 25, a mediana é o percentil de ordem 50, e o terceiro quartil 
é o percentil de ordem 75. Alguns pacotes de software usam métodos ligeiramente dife-
rentes para calcular percentis, de modo que os seus resultados podem ser ligeiramente 
diferentes dos obtidos por este método.
Os percentis são usados frequentemente para interpretar notas em testes padroniza-
dos. Por exemplo, se um estudante for informado de que sua nota no exame de vestibular 
foi o percentil de ordem 64, isso significa que 64% dos estudantes que prestaram o vesti-
bular tiveram notas inferiores.
Exemplo 1.9
Determine o percentil de ordem 65 dos dados do asfalto no Exemplo 1.8.
Solução
O tamanho da amostra é n = 24. Para determinar o percentil de ordem 65, calcule (0,65)
(25) = 16,25. Portanto, o percentil de ordem 65 é determinado calculando a média entre 
os dados de ordem 16 e 17 quando a amostra é organizada em ordem crescente. Isso re-
sulta em (236 + 240)/2 = 238.
Na prática, as medidas estatísticas que discutimos são frequentemente calculadas 
em um computador usando um pacote de software de estatística. As medidas estatísticas 
são algumas vezes denominados estatística descritiva, porque elas descrevem os dados. 
Apresentamos um exemplo de medidas estatísticas do pacote de software MINITAB. Em 
seguida, apresentaremos como essas medidas estatísticas podem ser usadas para desco-
brir algumas características importantes dos dados.
Para uma tese de Ph.D. que investiga fatores que afetam as emissões dos veículos a 
diesel, J. Yanowitz da Colorado School of Mines obteve dados de emissões de material 
particulado (PM – particulate matter) para uma amostra de 138 veículos que circulou em 
altitude baixa (próximo ao nível do mar) e para uma amostra de 62 veículos que circulou 
em altitude alta (aproximadamente uma milha, 1600 m, acima do nível do mar). Todos os 
veículos foram fabricados entre 1991 e 1996. As amostras continham aproximadamente 
proporções iguais de veículos com altas e baixas quilometragens. Os dados, na unidade 
de gramas de partículas por galão de combustível consumido, são apresentados nas Ta-
belas 1.1 e 1.2. Em altitude alta, a pressão barométrica é baixa, de modo que a relação 
efetiva ar/combustível também é baixa. Por esse motivo, as emissões de materiais parti-
culados podem ser maiores em altitudes maiores. Gostaríamos de comparar as amostras 
para determinar se os dados dão suporte a essa suposição. É difícil fazer isto simplesmen-
te examinando os dados brutos nas tabelas. O cálculo das medidas estatísticas torna o 
trabalho mais fácil. A Figura 1.4 (página 18) apresenta medidas estatísticas para as duas 
amostras, conforme calculado pelo software MINITAB.
Navidi_01.indd 17Navidi_01.indd 17 27/01/12 16:2727/01/12 16:27
18 Capítulo 1 Medidas sobre dados univariados
Na Figura 1.4, a quantidade indicada por “N” é o tamanho da amostra. Em seguida 
vem a média amostral (Mean). A próxima medida (SE Mean) é o erro padrão da média. 
O erro padrão da média é igual ao desvio padrão dividido pela raiz quadrada do tama-
nho da amostra. Esse valor não é muito usado como uma estatística descritiva, embora 
seja importante para aplicações como a construção de intervalos de confiança e testes 
de hipóteses, que abordaremos nos Capítulos 5, 6 e 7. Depois do erro padrão da média, 
temos o desvio padrão (StDev). Finalmente, a segunda linha da saída fornece o mínimo 
(Minimum), a mediana (Median) e o máximo (Maximum), bem como o primeiro e tercei-
ro quartis (Q1 e Q3). Notamos que os valores dos quartis produzidos pelo pacote de soft-
ware difere ligeiramente dos valores calculados pelo método que descrevemos. Isso não 
é uma surpresa, visto que existem várias formas de calcular esses valores. As diferenças 
não são grandes o suficiente para ter qualquer importância prática.
Tabela 1.2 Emissões de material particulado (PM) (em g/gal) para 62 veículos que circularam em 
altitude alta
7,59 6,28 6,07 5,23 5,54 3,46 2,44 3,01 13,63 13,02 23,38 9,24 3,22
2,06 4,04 17,11 12,26 19,91 8,50 7,81 7,18 6,95 18,64 7,10 6,04 5,66
8,86 4,40 3,57 4,35 3,84 2,37 3,81 5,32 5,84 2,89 4,68 1,85 9,14
8,67 9,52 2,68 10,14 9,207,31 2,09 6,32 6,53 6,32 2,01 5,91 5,60
5,61 1,50 6,46 5,29 5,64 2,07 1,11 3,32 1,83 7,56
Descriptive Statistics: LowAltitude, HiAltitude
Variable N Mean SE Mean StDev
LoAltitude 138 3.715 0.218 2.558
HiAltitude 62 6.596 0.574 4.519
Variable Minimum Q1 Median Q3 Maximum
LoAltitude 0.250 1.468 3.180 5.300 11.230
HiAltitude 1.110 3.425 5.750 7.983 23.380
Figura 1.4 Saída do software MINITAB que apresenta a estatística descritiva para os dados de 
material particulado apresentados nas Tabelas 1.1 e 1.2.
Tabela 1.1 Emissões de material particulado (PM) (em g/gal) para 138 veículos que circularam em 
altitude baixa
1,50 0,87 1,12 1,25 3,46 1,11 1,12 0,88 1,29 0,94 0,64 1,31 2,49
1,48 1,06 1,11 2,15 0,86 1,81 1,47 1,24 1,63 2,14 6,64 4,04 2,48
2,98 7,39 2,66 11,00 4,57 4,38 0,87 1,10 1,11 0,61 1,46 0,97 0,90
1,40 1,37 1,81 1,14 1,63 3,67 0,55 2,67 2,63 3,03 1,23 1,04 1,63
3,12 2,37 2,12 2,68 1,17 3,34 3,79 1,28 2,10 6,55 1,18 3,06 0,48
0,25 0,53 3,36 3,47 2,74 1,88 5,94 4,24 3,52 3,59 3,10 3,33 4,58
6,73 7,82 4,59 5,12 5,67 4,07 4,01 2,72 3,24 5,79 3,59 3,48 2,96
5,30 3,93 3,52 2,96 3,12 1,07 5,30 5,16 7,74 5,41 3,40 4,97 11,23
9,30 6,50 4,62 5,45 4,93 6,05 5,82 10,19 3,62 2,67 2,75 8,92 9,93
6,96 5,78 9,14 10,63 8,23 6,83 5,60 5,41 6,70 5,93 4,51 9,04 7,71
7,21 4,67 4,49 4,63 2,80 2,16 2,97 3,90
Navidi_01.indd 18Navidi_01.indd 18 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 19
As medidas estatísticas dizem muito sobre as diferenças nas emissões de material 
particulado entre os veículos que circularam em altitudes baixa e alta. Primeiro, note 
que a média é de fato maior para os veículos que circularam em altitude alta em relação 
aos que circularam em altitude baixa (6,596 versus 3,715), que suporta a hipótese de que 
as emissões tendem a ser maiores em altitudes altas. Agora note que o valor máximo 
para os veículos que circularam em altitude alta (23,38) é muito maior do que o máximo 
para os veículos que circularam em altitude baixa (11,23). Isso mostra que existe um 
ou mais veículos que circularam em altitude alta cujas emissões são muito maiores do 
que a maior emissão entre os veículos que circularam em altitude baixa. A diferença nas 
emissões médias poderia ser totalmente referente a esses veículos? Para responder isso, 
compare as medianas e o primeiro e terceiro quartis. Essas medidas estatísticas não são 
muito afetadas para um pequeno número de valores grandes, mas todos eles são visi-
velmente maiores para os veículos que circularam em altitude alta. Portanto, podemos 
concluir que os veículos que circularam em altitude alta não só contêm alguns emissores 
muito altos, também têm emissões mais altas do que os veículos que circularam em 
altitude baixa em geral. Finalmente, note que o desvio padrão é maior para os veículos 
que circularam em altitude alta, o que indica que os valores para estes veículos têm uma 
dispersão maior do que para os veículos que circularam em altitude baixa. Pelo menos 
parte dessa diferença na dispersão deve ser devido a um ou mais veículos que circularam 
em altitude alta com emissões muito altas.
Exercícios da Seção 1.2
 1. Um fornecedor converte os pesos dos pacotes 
que envia de libras para quilogramas (1 kg ≈ 
2,2 lb).
 a. Como isso afeta o peso médio dos pacotes?
 b. Como isso afeta o desvio padrão dos pesos?
 2. Consulte o Exercício 1. O fornecedor começa 
a usar embalagens mais pesadas, o que aumen-
ta o peso de cada pacote em 50 g.
 a. Como isso afeta o peso médio dos pacotes?
 b. Como isso afeta o desvio padrão dos pesos?
 3. Verdadeiro ou falso: para qualquer lista de nú-
meros, metade deles estarão abaixo da média.
 4. A média amostral é sempre o valor mais fre-
quente? Em caso afirmativo, explique por quê. 
Caso contrário, dê um exemplo.
 5. A média amostral é sempre igual a um dos va-
lores da amostra? Em caso afirmativo, expli-
que por quê. Caso contrário, dê um exemplo.
 6. A mediana amostral é sempre um dos valores 
da amostra? Em caso afirmativo, explique por 
quê. Caso contrário, dê um exemplo.
 7. Determine o tamanho de uma amostra para a 
qual a mediana sempre será igual a um dos va-
lores da amostra.
 8. Para uma lista de números positivos, é possí-
vel que o desvio padrão seja maior do que a 
média? Em caso afirmativo, dê um exemplo. 
Caso contrário, explique por que não.
 9. É possível que o desvio padrão de uma lista de 
números seja igual a zero? Em caso afirmati-
vo, dê um exemplo. Caso contrário, explique 
por que não.
 10. Para uma amostra de 100 mulheres adultas é 
perguntado a cada uma quantos filhos tem. Os 
resultados foram os seguintes:
Crianças 0 1 2 3 4 5
Número de 
mulheres
27 22 30 12 7 2
 a. Determine a média amostral do número 
de crianças.
 b. Determine o desvio padrão amostral do 
número de crianças.
Navidi_01.indd 19Navidi_01.indd 19 27/01/12 16:2727/01/12 16:27
20 Capítulo 1 Medidas sobre dados univariados
 c. Determine a mediana amostral do número 
de crianças.
 d. Qual é o primeiro quartil do número de 
crianças?
 e. Qual é a proporção de mulheres que têm 
mais que o número médio de crianças?
 f. Para qual proporção de mulheres o nú-
mero de crianças seria um desvio padrão 
maior do que a média?
 g. Para qual proporção de mulheres o núme-
ro de crianças estaria dentro do valor de 
um desvio padrão da média?
 11. Em uma amostra de 20 homens, a altura média 
foi de 178 cm. Em uma amostra de 30 mulhe-
res, a altura média foi de 164 cm. Qual é a al-
tura média dos dois grupos juntos?
 12. Em um estudo de percepção visual foi pedido 
a cinco pessoas que estimassem visualmente o 
comprimento de uma linha e, em seguida, que 
a medissem com uma régua. Os resultados, em 
cm, foram:
Visualmente: 8,0; 9,0; 7,5; 9,5; 8,5
Com uma régua: 8,1; 8,2; 8,1; 8,1; 8,3
 a. Calcule a média para cada método.
 b. Calcule a mediana para cada método.
 c. Calcule o desvio padrão das medições 
para cada método.
 d. Para qual método o desvio padrão é 
maior? Por que se deve esperar que esse 
método tenha o maior desvio padrão?
 e. Para outras coisas iguais, é melhor para o 
método de medição que o desvio padrão 
seja menor ou maior? Ou não importa? 
Explique.
 13. Consulte o Exercício 12.
 a. Se as medidas feitas por um dos métodos 
forem convertidas em polegadas (1 pole-
gada = 2,54 cm), como isso afeta a mé-
dia? E a mediana? E o desvio padrão?
 b. Se cada pessoa medisse novamente a li-
nha usando uma régua com indicações em 
polegadas, o efeito na média, na mediana 
e no desvio padrão seria o mesmo que em 
(a)? Explique.
 14. Existem 10 funcionários em uma determinada 
divisão de uma companhia. Os salários deles 
têm uma média anual de R$ 70.000,00, uma 
mediana de R$ 50.000,00 e um desvio padrão 
de R$ 60.000,00. O maior número na lista é 
R$ 100.000,00. Por um erro de digitação, esse 
número é alterado para R$ 1.000.000,00.
 a. Qual é o valor da média após a alteração?
 b. Qual é o valor da mediana após a altera-
ção?
 c. Qual é o valor do desvio padrão após a al-
teração?
 15. Quartis dividem uma amostra em quatro par-
tes quase iguais. Em geral, uma amostra de 
tamanho n pode ser dividida em k partes qua-
se iguais usando como pontos de divisão (i/k)
(n + 1) para i = 1, ..., k − 1. Considere a se-
guinte amostra ordenada:
2 18 23 41 44 46 49 61
62 74 76 79 82 89 92 95
 a. Tertis dividem uma amostra em três. De-
termine os tertis dessa amostra.
 b. Quintis dividem uma amostra em cinco. 
Determine os quintis dessa amostra.
 16. Em cada um dos seguintes conjuntos de dados, 
informe se o valor atípico parece que se deve 
a um erro ou se ele poderia concebivelmente 
estar correto.
 a. Uma rocha é pesada cinco vezes. As leituras 
em gramas são: 48,5; 47,2; 4,91; 49,5; 46,3.
 b. Um sociólogo escolhe cinco famílias 
em uma determinada cidade e registra 
os rendimentos anuais delas. Os rendi-
mentos são R$ 34.000,00; R$ 57.000,00; 
R$ 13.000,00; R$ 1.200.000,00; R$ 
62.000,00.
Navidi_01.indd 20Navidi_01.indd 20 27/01/12 16:2727/01/12 16:27
1.3 Representaçõesgráficas 21
1.3 Representações gráficas
Gráficos ramo-e-folhas
Além das medidas numéricas como a média, a mediana e o desvio padrão, as repre-
sentações gráficas podem ser usadas para ajudar a visualizar uma lista de números. 
Começaremos discutindo uma representação gráfica simples conhecida como gráfico 
ramo-e-folhas.
Como um exemplo, os dados na Tabela 1.3 se referem a um estudo da atividade 
biológica de uma determinada droga antifúngica. Essa droga foi aplicada na pele de 48 
indivíduos. Após três horas, mediu-se a quantidade de droga, em ng/cm2, que permane-
ceu na superfície. A lista foi classificada em ordem numérica.
Tabela 1.3 Quantidade de droga na pele
3 4 4 7 7 8 9 9 12 12
15 16 16 17 17 18 20 20 21 21
22 22 22 23 24 25 26 26 26 26
27 33 34 34 35 36 36 37 38 40
40 41 41 51 53 55 55 74
A Figura 1.5 apresenta um gráfico ramo-e-folhas dos dados na Tabela 1.3. Cada 
item na amostra é dividido em duas partes: um ramo, que consiste em um ou dois dígitos 
à esquerda, e a folha, que consiste no próximo dígito. Na Figura 1.5, o ramo consiste 
nas dezenas e a folha, nas unidades. Cada linha do gráfico ramo-e-folhas contém todos 
os itens da amostra com um determinado ramo. Esse gráfico é uma forma compacta de 
representar os dados. Ele também fornece alguma indicação de sua forma. Para estes 
dados, podemos ver que existem números iguais de indivíduos nos intervalos 0−9, 10−19 
e 30−39 e uma quantidade maior de indivíduos no intervalo 20−29. Além disso, o maior 
valor (74) parece ser um valor atípico.
Stem Leaf
0 34477899
1 22566778
2 001122234566667
3 34456678
4 0011
5 1355
6
7 4
Figura 1.5 Gráfico ramo-e-folhas para os dados da Tabela 1.3.
Quando existe uma grande quantidade de itens da amostra no mesmo ramo, ge-
ralmente é necessário atribuir mais de uma linha para o ramo. Como um exemplo, a 
Figura 1.6 mostra um gráfico ramo-e-folhas gerado por um computador com o software 
MINITAB, para os dados de materiais particulados da Tabela 1.2 na Seção 1.2. A colu-
Navidi_01.indd 21Navidi_01.indd 21 27/01/12 16:2727/01/12 16:27
22 Capítulo 1 Medidas sobre dados univariados
na central consiste em 0s, 1s e 2s e contém os ramos, que são as dezenas. À direita dos 
ramos estão as folhas, que consistem nas unidades para cada um dos itens da amostra. 
Como muitos números são menores do que 10, o ramo 0 tem que ser atribuído a várias 
linhas (neste caso, cinco). Especificamente, a primeira linha contém os itens da amostra 
cujos dígitos são 0 ou 1, a próxima linha contém os itens cujos dígitos são 2 ou 3 e assim 
por diante. Por questão de consistência, a todos os ramos são atribuídas várias linhas da 
mesma forma, ainda que tenham suficientemente poucos valores para os ramos 1 e 2 que 
caberiam em menos linhas.
A saída na Figura 1.6 contém uma coluna de frequência acumulada à esquerda do 
gráfico ramo-e-folhas. A parte superior desta coluna fornece o número de itens na linha e 
acima dela, e a parte inferior da coluna fornece o número de itens na linha e abaixo dela. 
Junto à linha que contém a mediana está o número de itens desta linha, mostrado entre 
parênteses.
Stem-and-leaf of HiAltitude N � 62
Leaf Unit � 1.0
4 0 1111
19 0 222222223333333
(14) 0 44445555555555
29 0 66666666777777
15 0 8889999
8 1 0
7 1 233
4 1
4 1 7
3 1 89
1 2
1 2 3
Figura 1.6 Gráfico ramo-e-folhas dos dados de material particulado da Tabela 1.2, na página 
18, conforme gerado pelo MINITAB.
Uma boa característica dos gráficos ramo-e-folhas é que eles mostram todos os va-
lores da amostra. Pode-se reconstruir a amostra completamente a partir do gráfico ra-
mo-e-folhas, com uma importante exceção: a ordem na qual os itens foram amostrados 
não pode ser determinada.
Gráficos de pontos
Um gráfico de pontos é um gráfico que pode ser usado para gerar uma impressão apro-
ximada da forma da amostra. Ele é útil quando o tamanho da amostra não é tão grande e 
quando a amostra contém alguns valores repetidos. A Figura 1.7 (página 23) mostra um 
gráfico de pontos para os dados da Tabela 1.3. Para cada valor na amostra, é feita uma 
coluna vertical de pontos, com o número de pontos na coluna igual ao número de vezes 
que o valor aparece na amostra. O gráfico de pontos fornece uma boa indicação de onde 
os valores da amostra estão concentrados e onde os espaços vazios estão. Por exemplo, é 
fácil ver na Figura 1.7 que a amostra não contém nenhum valor entre 42 e 50. Além disso, 
o valor atípico é facilmente visto como o ponto mais à direita no gráfico.
Navidi_01.indd 22Navidi_01.indd 22 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 23
0 10 20 30 40 50 60 8070
Figura 1.7 Gráfico de pontos para os dados da Tabela 1.3.
Os gráficos ramo-e-folhas e de pontos são bons métodos para examinar informal-
mente uma amostra e podem ser feitos facilmente com lápis e papel. Entretanto, eles 
raramente são usados em apresentações formais. Os gráficos mais usados em apresenta-
ções formais incluem o histograma e o gráfico de caixa, que discutiremos agora.
Histogramas
Um histograma é um gráfico que fornece uma ideia da “forma” de uma amostra, in-
dicando regiões onde os pontos da amostra se concentram e as regiões onde eles são 
esparsos. Vamos construir um histograma para as emissões de material particulado dos 
62 veículos que circularam em altitude alta, conforme apresentado na Tabela 1.2 (Seção 
1.2). Os valores da amostra variam de 1,11 (baixo) a 23,38 (alto) em unidade de gramas 
de emissões por galão de combustível. O primeiro passo é construir uma tabela de fre-
quência, mostrada na Tabela 1.4.
Tabela 1.4 Tabela de frequência para as emissões de material particulado 
dos 62 veículos que circularam em altitude alta
Intervalo 
de classe (g/gal) Frequência Frequência relativa
1 ≤ x < 3 12 0,1935
3 ≤ x < 5 11 0,1774
5 ≤ x < 7 18 0,2903
7 ≤ x < 9 9 0,1452
9 ≤ x < 11 5 0,0806
11 ≤ x < 13 1 0,0161
13 ≤ x < 15 2 0,0323
15 ≤ x < 17 0 0,0000
17 ≤ x < 19 2 0,0323
19 ≤ x < 21 1 0,0161
21 ≤ x < 23 0 0,0000
23 ≤ x < 25 1 0,0161
Os intervalos na coluna da esquerda são denominados intervalos de classe. Eles di-
videm a amostra em grupos. Para os histogramas que vamos considerar, os intervalos de 
classe terão a mesma largura. Na Tabela 1.4, todas as classes têm largura 2. Não há uma 
regra rigorosa e rápida sobre como decidir quantos intervalos de classe usar. Em geral, é 
bom ter um número maior de intervalos do que um número pequeno, mas também é bom 
ter números grandes de pontos da amostra nos intervalos. Encontrar o equilíbrio correto 
é uma questão de julgamento e de tentativa e erro. Quando o número de observações n 
for muito grande (algumas centenas ou mais), alguns têm sugerido que o ponto de partida 
razoável para o número de classes pode ser log2n ou 2n
1/3. Quando o número de observa-
ções for menor, geralmente é necessário um número de classes maior do que este.
Navidi_01.indd 23Navidi_01.indd 23 27/01/12 16:2727/01/12 16:27
24 Capítulo 1 Medidas sobre dados univariados
A coluna denominada “Frequência” na Tabela 1.4 mostra o número de pontos de 
dados dentro de cada um dos intervalos de classe. A coluna denominada “Frequência 
relativa” mostra as frequências divididas pelo número total de pontos de dados, que neste 
caso é 62. A frequência relativa de um intervalo de classe é a proporção dos pontos de 
dados que estão no intervalo. Note que, como cada ponto de dado está exatamente em 
um intervalo de classe, as frequências relativas devem somar 1 (permitindo erro de arre-
dondamento).
A Figura 1.8 apresenta um histograma para a Tabela 1.4. A unidade no eixo horizon-
tal é a unidade dos dados, que neste caso é gramas por galão. Cada intervalo de classe é 
representado por um retângulo. As alturas dos retângulos podem se iguais às frequências 
ou às frequências relativas. Visto que esses valores são proporcionais, a forma do histo-
grama será a mesma em cada um desses casos. Para o histograma na Figura 1.8, as alturas 
dos retângulos são as frequências relativas.
1 3 5 7 9 1113 15 17 19 21 23 25
Emissões (g/gal)
0
0,10
0,20
0,30
Fr
eq
uê
nc
ia
s 
re
la
tiv
as
Figura 1.8 Histograma para os dados na Tabela 1.4. Neste histograma as alturas dos retângulos 
são as frequências relativas. As frequências e as frequências relativas são proporcionais entre si, de 
modo que seria igualmente apropriado usar as frequências como as alturas dos retângulos.
Resumo
Para construir um histograma:
 ■ Determine o número de classes a usar e construa intervalos de classe de larguras 
iguais.
 ■ Calcule a frequência e a frequência relativa de cada classe.
 ■ Desenhe um retângulo para cada classe. As alturas dos retângulos podem ser 
iguais às frequências ou às frequências relativas.
Simetria e assimetria
Um histograma é perfeitamente simétrico se sua metade direita for uma imagem da sua 
metade esquerda. Os histogramas que não são simétricos são denominados assimétricos. 
Na prática, nenhuma amostra tem um histograma simetricamente perfeito; quase todos 
Navidi_01.indd 24Navidi_01.indd 24 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 25
apresentam algum grau de assimetria. Em um histograma assimétrico, um lado, ou cauda, 
é mais longo do que o outro. Diz-se que um histograma com uma cauda longa para a di-
reita é assimétrico para a direita, ou positivamente assimétrico. Um histograma com 
uma cauda longa para a esquerda é assimétrico para a esquerda, ou negativamente 
assimétrico. Quando houver um método matemático formal para medir a assimetria de 
um histograma, ele será raramente usado; o que as pessoas fazem é julgar informalmente 
o grau de assimetria observando o histograma. A Figura 1.9 mostra alguns histogramas 
de amostras hipotéticas. Note que para um histograma que é assimétrico para a direita 
(Figura 1.9c), a média é maior do que a mediana. O motivo para isso é que a média está 
próxima do centro de massa do histograma, ou seja, ela está próxima do ponto em que o 
histograma estaria em equilíbrio se fosse apoiado neste ponto. Para um histograma assi-
métrico para a direita, mais da metade dos dados estarão à esquerda do centro de massa. 
De modo similar, a média é menor do que a mediana para um histograma que é assimé-
trico para a esquerda (Figura 1.9a). O histograma para os dados de material particulado 
(Figura 1.8) é assimétrico para a direita. A média amostral é 6,596, que é maior do que a 
mediana amostral, 5,75.
Histrogramas unimodal e bimodal
Usamos o termo “moda” para nos referirmos ao valor que ocorre mais frequentemente 
em uma amostra. Esse termo também é usado em relação aos histogramas e outras curvas 
para se referir a um pico ou máximo local. Um histograma é unimodal se ele tem apenas 
um pico, ou moda, e bimodal se ele tem duas modas claramente distintas. Em princípio, 
um histograma pode ter mais de duas modas, mas isso não acontece frequentemente na 
prática. Os histogramas na Figura 1.9 são todos unimodais. A Figura 1.10 mostra um 
histograma bimodal para um amostra hipotética.
Em alguns casos, um histograma bimodal indica que a amostra pode ser dividida 
em duas subamostras que diferem entre si de alguma forma cientificamente importante. 
Cada amostra corresponde a uma das modas. Como exemplo, os dados na Tabela 1.5 
dizem respeito ao gêiser Old Faithful no Yellowstone National Park. Este gêiser alterna 
períodos de erupção, que tipicamente são de 1,5 a 4 minutos, com períodos de dormên-
cia, que são consideravelmente maiores. A Tabela 1.5 mostra as durações, em minutos, 
de 60 períodos de dormência. Juntamente com os períodos de dormência, a duração da 
erupção que imediatamente antecede o período de dormência é classificada como curta 
(menor que 3 minutos) ou longa (maior que 3 minutos).
(a () b () c)
Média Mediana Média Mediana MédiaMediana
Figura 1.9 (a) Um histograma assimétrico para a esquerda. A média é menor do que a mediana. (b) Um 
histograma quase simétrico. A média e a mediana são aproximadamente iguais. (c) Um histograma assimé-
trico para a direita. A média é maior do que a mediana.
Navidi_01.indd 25Navidi_01.indd 25 27/01/12 16:2727/01/12 16:27
26 Capítulo 1 Medidas sobre dados univariados
Figura 1.10 Um histograma bimodal.
Tabela 1.5 Durações dos períodos de dormência (em minutos) e das erupções anteriores do 
gêiser Old Faithful
Dormência Erupção Dormência Erupção Dormência Erupção Dormência Erupção
76 Longa 90 Longa 45 Curta 84 Longa
80 Longa 42 Curta 88 Longa 70 Longa
84 Longa 91 Longa 51 Curta 79 Longa
50 Curta 51 Curta 80 Longa 60 Longa
93 Longa 79 Longa 49 Curta 86 Longa
55 Curta 53 Curta 82 Longa 71 Longa
76 Longa 82 Longa 75 Longa 67 Curta
58 Curta 51 Curta 73 Longa 81 Longa
74 Longa 76 Longa 67 Longa 76 Longa
75 Longa 82 Longa 68 Longa 83 Longa
80 Longa 84 Longa 86 Longa 76 Longa
56 Curta 53 Curta 72 Longa 55 Curta
80 Longa 86 Longa 75 Longa 73 Longa
69 Longa 51 Curta 75 Longa 56 Curta
57 Longa 85 Longa 66 Curta 83 Longa
(a)
Fr
eq
uê
nc
ia
Duração (minutos)
15
12
9
6
3
0
40 45 50 55 60 65 70 75 80 85 90 95
(b)
Fr
eq
uê
nc
ia
Duração (minutos)
15
12
9
6
3
0
40 45 50 55 60 65 70 75 80 85 90 95
(c)
Fr
eq
uê
nc
ia
Duração (minutos)
15
12
9
6
3
0
40 45 50 55 60 65 70 75 80 85 90 95
Figura 1.11 (a) Histograma para os 60 períodos de duração da Tabela 1.5. Este histograma é bimodal. 
(b) Histograma para os períodos de duração da Tabela 1.5 seguidos de erupções curtas. (c) Histograma para 
os períodos de duração da Tabela 1.5 seguidos de erupções longas. Os histogramas para os períodos de du-
ração seguidos de erupções curtas e longas são unimodais, mas as modas são em pontos distintos. Quando 
as duas amostras são combinadas, o histograma é bimodal.
Navidi_01.indd 26Navidi_01.indd 26 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 27
A Figura 1.11a mostra um histograma para os 60 períodos de duração. As Figuras 
1.11b e 1.11c mostram histogramas para os períodos seguidos de erupções curtas e longas, 
respectivamente. O histograma para todas as durações é claramente bimodal. Os histogra-
mas para os períodos de duração seguidos de erupções curtas ou longas são unimodais, e 
suas modas foram as duas modas do histograma para todas as amostras.
Gráficos de caixa
Um gráfico de caixa apresenta a mediana, o primeiro e terceiro quartis e quaisquer va-
lores atípicos que são representados em uma amostra. Os gráficos de caixa são fáceis de 
serem entendidos, mas exige o conhecimento da terminologia que os acompanha. A am-
plitude interquartil (IQR) é a diferença entre o terceiro e o primeiro quartil. Note que, 
como 75% dos dados são menores do que o terceiro quartil e 25% dos dados são menores 
do que o primeiro quartil, segue-se que 50%, ou metade, dos dados está entre o primeiro 
e terceiro quartis. Portanto, a amplitude interquartil é a distância necessária para cobrir a 
metade central dos dados.
Definimos os valores atípicos como pontos com valores geralmente grandes ou pe-
quenos. Se a IQR representa a amplitude interquartil, então para desenhar gráficos de cai-
xa, qualquer ponto que for mais do que 1,5 IQR acima do terceiro quartil ou mais do que 
1,5 IQR abaixo do primeiro quartil, é considerado valor atípico. Alguns autores definem 
um ponto que for mais do que 3 IQR a partir do primeiro ou terceiro quartis como um 
valor atípico extremo. Essas definições de valores atípicos são apenas convenções para 
o desenho de gráficos de caixa e não precisam ser usadas em outras situações.
A Figura 1.12 mostra um gráfico de caixa para alguns dados hipotéticos. O gráfico 
consiste em uma caixa cujo lado de baixo é o primeiro quartil e cujo lado de cima é o 
terceiro quartil. A linha horizontal é desenhada na mediana. Os “valores atípicos” são 
plotados individualmente e indicados por cruzes na figura. As linhas verticais que se 
estendem a partir dos lados inferior e superior da caixa são denominadas “bigodes” 
(whiskers). Os “bigodes” terminam no ponto de dados mais extremo que não seja valor 
atípico.
Terceiro quartil
MedianaPrimeiro quartil
Ponto de dado de maior valor dentro
de 1,5 IQR do terceiro quartil
Ponto de dado de menor valor
dentro de 1,5 IQR do primeiro quartil
Valores atípicos
Figura 1.12 Anatomia de um gráfico de caixa.
Navidi_01.indd 27Navidi_01.indd 27 27/01/12 16:2727/01/12 16:27
28 Capítulo 1 Medidas sobre dados univariados
À parte de qualquer valor atípico, um gráfico de caixa pode ser visto como tendo 
quatro partes: as duas partes da caixa separadas pela linha mediana e os dois “bigodes”. 
Novamente, à parte dos valores atípicos, cada uma das quatro partes representa um quar-
to dos dados. Portanto, o gráfico de caixa indica o quanto um intervalo se estende em 
cada quarto dos dados e, desta forma, ele pode ser usado para determinar as regiões nas 
quais os valores da amostra são mais densos e as regiões nas quais eles são mais esparsos.
Passos na construção de um gráfico de caixa
 ■ Calcule a mediana e o primeiro e terceiro quartis da amostra. Indique esses va-
lores com linhas horizontais. Desenhe linhas verticais para completar a caixa.
 ■ Determine o maior valor da amostra que não esteja mais do que 1,5 IQR acima 
do terceiro quartil e o menor valor da amostra que não esteja mais do que 1,5 
IQR abaixo do primeiro quartil. Estenda linhas verticais (“bigodes”) a partir das 
linhas dos quartis para esses pontos.
 ■ Os pontos mais do que 1,5 IQR acima do terceiro quartil, ou mais do que 1,5 IQR 
abaixo do primeiro quartil são indicados como valores atípicos. Plote cada valor 
atípico individualmente.
A Figura 1.13 mostra um gráfico de caixa para os dados do gêiser apresentados na 
Tabela 1.5. Primeiro note que não existem valores atípicos nestes dados. Comparando as 
quatro partes do gráfico de caixa, podemos dizer que os valores da amostra são compara-
tivamente densos entre a mediana e o terceiro quartil e mais esparsos entre a mediana e o 
primeiro quartil. O “bigode” inferior é um pouco maior do que o superior, indicando que 
os dados têm uma cauda inferior ligeiramente mais longa do que a superior. Visto que a 
distância entre a mediana e o primeiro quartil é maior do que a distância entre a mediana 
e o terceiro quartil e visto que o quarto inferior dos dados produz um “bigode” maior do 
que o quarto superior, este gráfico de caixa sugere que os dados são assimétricos para a 
esquerda.
100
90
80
70
60
50
40
D
ur
aç
ão
 (
m
in
ut
os
)
Figura 1.13 Gráfico de caixa para os dados da Tabela 1.5 dos períodos de dormência do gêiser 
Old Faithful.
Navidi_01.indd 28Navidi_01.indd 28 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 29
Um histograma para estes dados foi apresentado na Figura 1.11a. O histograma 
mostra uma impressão mais geral da dispersão dos dados. Um detalhe importante é que o 
histograma indica que os dados são bimodais, o que um gráfico de caixa não pode fazer.
Gráficos de caixa comparativos
Uma característica útil dos gráficos de caixa é que muitos deles podem ser colocados 
lado a lado permitindo uma comparação visual fácil das características de várias amos-
tras. As Tabelas 1.1 e 1.2 (na Seção 1.2) mostram emissões de material particulado para 
veículos que circulam em altitudes alta e baixa. A Figura 1.14 mostra uma comparação 
lado a lado de gráficos de caixa para essas duas amostras.
Os gráficos de caixa comparativos na Figura 1.14 mostram que os veículos que cir-
cularam em altitude baixa tiveram emissões menores. Além disso, existem vários valores 
atípicos entre os dados dos veículos que circularam em altitude alta (há também um valor 
para altitude baixa que mal se qualifica como um valor atípico). Concluímos que em 
altitude alta os veículos têm, em geral, emissões um pouco mais elevadas e que alguns 
veículos têm emissões muito maiores. A caixa para os veículos que circularam em altitu-
de alta é um pouco mais alta, e o “bigode” inferior, um pouco mais longo em relação aos 
veículos que circularam em altitude baixa. Concluímos que, além dos valores atípicos, a 
dispersão nos valores é ligeiramente maior para os veículos que circularam em altitude 
alta e muito maior quando os valores atípicos são considerados.
Na Figura 1.4 (na Seção 1.2), comparamos os valores de algumas estatísticas des-
critivas para estas duas amostras e obtivemos algumas conclusões similares a essas. A 
natureza visual dos gráficos de caixa comparativos na Figura 1.14 tornam a comparação 
das características das amostras muito mais fácil.
Mencionamos que é importante controlar os valores atípicos para determinar se eles 
são provenientes de erros, caso no qual podem ser apagados. Na identificação de valores 
atípicos, os gráficos de caixa podem ser úteis nesse sentido. O exemplo a seguir fornece 
uma ilustração.
25
20
15
10
5
0
E
m
is
sõ
es
 (
g/
ga
l)
Altitude baixa Altitude alta
Figura 1.14 Gráficos de caixa comparativos para emissões de material particulado por veículos 
que circularam em altitude baixa versus altitude alta.
Navidi_01.indd 29Navidi_01.indd 29 27/01/12 16:2727/01/12 16:27
30 Capítulo 1 Medidas sobre dados univariados
O artigo em inglês “Virgin Versus Recycled Wafers for Furnace Qualification: Is the 
Expense Justified?” (Pastilhas Novas versus Recicladas para a Qualificação do Forno: A 
Despesa é Justificada?) (V. Czitrom and J. Reece, Statistical Case Studies for Industrial Pro-
cess Improvement, ASA and SIAM, 1997:87−104) descreve um processo para o cultivo de 
uma fina camada de dióxido de silício sobre pastilhas que são usadas na fabricação de semi-
condutores. A Tabela 1.6 mostra a espessura de medições, em angstroms (Å), da camada de 
dióxido para 24 pastilhas. Foram feitas nove medidas em cada pastilha. As pastilhas foram 
produzidas em dois processos de execução separados com 12 pastilhas em cada processo.
Tabela 1.6 Espessuras da camada de óxido em pastilhas de silício
Pastilhas Espessuras (Å)
Processo 1 1 90,0 92,2 94,9 92,7 91,6 88,2 92,0 98,2 96,0
2 91,8 94,5 93,9 77,3 92,0 89,9 87,9 92,8 93,3
3 90,3 91,1 93,3 93,5 87,2 88,1 90,1 91,9 94,5
4 92,6 90,3 92,8 91,6 92,7 91,7 89,3 95,5 93,6
5 91,1 89,8 91,5 91,5 90,6 93,1 88,9 92,5 92,4
6 76,1 90,2 96,8 84,6 93,3 95,7 90,9 100,3 95,2
7 92,4 91,7 91,6 91,1 88,0 92,4 88,7 92,9 92,6
8 91,3 90,1 95,4 89,6 90,7 95,8 91,7 97,9 95,7
9 96,7 93,7 93,9 87,9 90,4 92,0 90,5 95,2 94,3
10 92,0 94,6 93,7 94,0 89,3 90,1 91,3 92,7 94,5
11 94,1 91,5 95,3 92,8 93,4 92,2 89,4 94,5 95,4
12 91,7 97,4 95,1 96,7 77,5 91,4 90,5 95,2 93,1
Processo 2 1 93,0 89,9 93,6 89,0 93,6 90,9 89,8 92,4 93,0
2 91,4 90,6 92,2 91,9 92,4 87,6 88,9 90,9 92,8
3 91,9 91,8 92,8 96,4 93,8 86,5 92,7 90,9 92,8
4 90,6 91,3 94,9 88,3 87,9 92,2 90,7 91,3 93,6
5 93,1 91,8 94,6 88,9 90,0 97,9 92,1 91,6 98,4
6 90,8 91,5 91,5 91,5 94,0 91,0 92,1 91,8 94,0
7 88,0 91,8 90,5 90,4 90,3 91,5 89,4 93,2 93,9
8 88,3 96,0 92,8 93,7 89,6 89,6 90,2 95,3 93,0
9 94,2 92,2 95,8 92,5 91,0 91,4 92,8 93,6 91,0
10 101,5 103,1 103,2 103,5 96,1 102,5 102,0 106,7 105,4
11 92,8 90,8 92,2 91,7 89,0 88,5 87,5 93,8 91,4
12 92,1 93,4 94,0 94,7 90,8 92,1 91,2 92,3 91,1
As 12 pastilhas em cada processo eram de vários tipos diferentes e foram proces-
sadas em vários locais diferentes do forno. A finalidade na obtenção dos dados era de-
terminar se a espessura da camada de óxido foi afetada pelo tipo de pastilha ou a loca-
lização no forno. Portanto, este foi um experimento fatorial, com o tipo de pastilha e a 
localização no forno como os fatores e a espessura da camada de óxido como o resultado. 
Desejava-se que o experimento não produzisse nenhuma diferença sistemática na espes-
sura entre um processo e o outro. O primeiro passo na análise foi construir um gráfico de 
caixa para os dados em cada processo para ajudar a determinar se essa condição era de 
fato cumprida e se qualquer uma das observações deveria ser apagada. Os resultados são 
apresentados na Figura 1.15.
O gráfico de caixa mostra que existem vários valores atípicos em cada processo. 
Note que além desses valores atípicos, não há diferenças

Continue navegando