Cap_01

Cawe Rafael

26/09/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 30 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Mecânica Geral

41.659 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Introdução
Os avanços na ciência e engenharia ocorrem em grande parte por meio de coleta e análise
de dados. A análise adequada de dados é desafiadora, porque os dados científicos estão
sujeitos a variações aleatórias. Ou seja, quando medições científicas são repetidas, elas se
revelam um pouco diferentes a cada vez. Isso evidencia um problema: como podemos tirar
conclusões a partir dos resultados de um experimento quando esses resultados se revelam
diferentes? Para discutir esta questão, é essencial um conhecimento sobre estatística. Os
métodos de estatística permitem aos cientistas e engenheiros projetar experimentos válidos
e tirar conclusões seguras a partir dos dados produzidos.
A ênfase deste livro está nas aplicações para cientistas e engenheiros, mas vale a
pena mencionar que a análise e interpretação desempenham um papel cada vez maior em
todos os aspectos da vida moderna. Para melhor ou pior, enormes quantidades de dados
são coletados sobre nossas opiniões e estilos de vida, para fins que vão desde a cria-
ção de campanhas de marketing mais eficazes ao desenvolvimento das políticas sociais
destinadas a melhorar o nosso modo de vida. Quase todo dia, são publicados artigos de
jornais que se propõem a explicar tendências sociais ou econômicas através da análise
de dados. Portanto, é necessário um conhecimento básico de estatística não apenas para
ser um cientista ou engenheiro eficaz, mas também para ser uma pessoa bem informada
na sociedade.
A ideia básica
A ideia básica por trás de todos os métodos de estatística da análise de dados é infe-
rir sobre uma população estudando uma amostra relativamente pequena dela. Como
ilustração, considere uma máquina que faz esferas de aço para rolamentos usados em
sistemas de embreagem. A especificação para o diâmetro das esferas é 0,65 ± 0,03 cm.
Durante a última hora, a máquina fez 2.000 esferas. O engenheiro que faz o controle de
Capítulo 1
Medidas sobre
dados univariados
Navidi_01.indd 1Navidi_01.indd 1 27/01/12 16:2727/01/12 16:27
2 Capítulo 1 Medidas sobre dados univariados
qualidade deseja saber quantas destas esferas, aproximadamente, estão de acordo com a
especificação. Ele não tem tempo para medir todas elas. Assim, ele extrai uma amostra
aleatória de 80 esferas, mede o diâmetro delas e constata que 72 (90%) estão de acordo
com a especificação. Agora, é pouco provável que a amostra de 80 esferas represente
perfeitamente a população de 2.000. É provável que a proporção de esferas boas na po-
pulação seja um pouco diferente da proporção de 90% da amostra. O que o engenheiro
precisa saber é apenas o provável valor dessa diferença. Por exemplo, é plausível que a
percentagem da população fosse tão alta quanto 95 ou 98%? Ou ainda tão baixa quanto
85 ou 80%?
A seguir temos algumas questões específicas que o engenheiro talvez precise res-
ponder com base nos dados da amostra:
1. O engenheiro precisa calcular uma estimativa aproximada do tamanho provável da
diferença entre as proporções da amostra e da população. Qual é o valor da diferença
típica para esse tipo de amostra?
2. O engenheiro de controle de qualidade precisa registrar em um livro de registros a
percentagem de esferas aceitáveis fabricadas na última hora. Ao observar que 90%
das amostras de esferas estão dentro da especificação, ele indica a percentagem de
esferas aceitáveis na população como um intervalo na forma de 90% ± x%, em que
x é um número calculado para fornecer uma certeza razoável de que a percentagem
real da população está no intervalo. Como x deve ser calculado?
3. O engenheiro deseja estar razoavelmente certo de que a percentagem de esferas den-
tro da especificação é de pelo menos 85%; caso contrário, ele paralisará o processo
para uma recalibração. Como ele pode estar certo de que pelo menos 85% das 1.000
esferas estão dentro da especificação?
Grande parte deste livro é dedicada a abordar questões como essas. A primeira delas
requer o cálculo de um desvio padrão, que discutiremos no Capítulo 3. A segunda ques-
tão requer a construção de um intervalo de confiança, que estudaremos no Capítulo 5. A
terceira solicita um teste de hipótese, que aprenderemos no Capítulo 6.
Os capítulos restantes deste livro abordam outros tópicos importantes. Por exem-
plo, o engenheiro em nosso exemplo pode querer saber qual a quantidade de car-
bono nas esferas de aço está relacionada à sua resistência à compressão. Problemas
como este podem ser resolvidos com métodos de correlação e regressão, abordados
nos Capítulos 2 e 8. Pode ser importante também determinar como ajustar o processo
de fabricação no que diz respeito a diversos fatores para otimizar os resultados da
produção. Isso requer um projeto de experimentos fatoriais, que são discutidos no
Capítulo 9. Finalmente, o engenheiro precisará desenvolver um plano para monitorar a
qualidade do produto fabricado. O Capítulo 10 trata do tópico de controle estatístico
da qualidade, no qual métodos estatísticos são usados para manter a qualidade em um
ambiente industrial.
Os tópicos listados aqui dizem respeito a métodos que tiram conclusões a partir de
dados. Esses métodos constituem o campo da estatística inferencial. Antes de discutirmos
esses tópicos, temos que aprender mais sobre os métodos de coleta de dados e sintetizar
claramente a informação básica que eles contêm. Esses são os tópicos de amostragem e
estatística descritiva, abordados no restante deste capítulo.
Navidi_01.indd 2Navidi_01.indd 2 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 3
1.1 Amostragem
Conforme mencionado, os métodos estatísticos são baseados na ideia de analisar uma
amostra obtida de uma população. Para que essa ideia funcione, a amostra tem que ser
escolhida de forma apropriada. Por exemplo, digamos que quiséssemos estudar a altura
dos estudantes da escola medindo uma amostra de 100 estudantes. Como poderíamos
escolher os 100 estudantes? Alguns métodos são obviamente ruins. Por exemplo, es-
colher os estudantes a partir das listas dos times de basquete, sem dúvida, resultará em
uma amostra que não representa a distribuição da altura da população de estudantes.
Você pode pensar que seria razoável usar alguma amostra obtida convenientemente, por
exemplo, todos os estudantes que vivem em um determinado dormitório ou todos os
estudantes matriculados em engenharia estatística. Afinal, não há razão para pensar que
a altura destes estudantes tenda a diferir da altura dos estudantes em geral. Entretanto,
amostras como essas não são ideais porque podem ser enganosas em formas não espe-
radas. Os melhores métodos de amostragem envolvem amostragem aleatória. Existem
muitos métodos de amostragem aleatória, dos quais o mais básico é a amostragem
aleatória simples.
Amostras aleatórias simples
Para entender a natureza de uma amostra aleatória simples pense em uma loteria. Ima-
gine que 10.000 recibos de apostas de loteria foram vendidos e que 5 deles foram sor-
teados. Qual é a forma mais justa de escolher os ganhadores? A forma mais justa é
colocar os 10.000 tíquetes em uma urna, misturá-los completamente e, em seguida,
retirar os tíquetes um de cada vez. O mais importante é que cada coleção de 5 recibos
de apostas que pode ser formada a partir dos 10.000 é igualmente provável que com-
ponha o grupo de 5 sorteados. Esta é a ideia que forma a base para a definição de uma
amostra aleatória simples.
Resumo
■ Uma população é uma coleção inteira de objetos ou resultados sobre os quais a
informação é obtida.
■ Uma amostra é um subconjunto de uma população que contém os objetos ou
resultados que são realmente observados.
■ Uma amostra aleatória simples de tamanho n é uma amostra escolhida por um
método no qual cada coleção de n itens da população é igualmente provável de
compor a amostra, da mesma forma como em uma loteria.
Visto que uma amostra aleatória simples é análoga a uma loteria, ela pode ser
frequentemente obtida pelo mesmo método usado em muitas loterias:com um compu-
tador que gera números aleatórios. Suponha que existem N itens em uma população.
Atribui-se para cada item da população um inteiro entre 1 e N. Em seguida, gera-se
uma lista aleatória de inteiros entre 1 e N e escolhem-se os itens da população corres-
pondente para compor a amostra aleatória simples.
Navidi_01.indd 3Navidi_01.indd 3 27/01/12 16:2727/01/12 16:27
4 Capítulo 1 Medidas sobre dados univariados
Exemplo 1.1
Uma concessionária pretende realizar uma pesquisa para medir o nível de satisfação dos
seus clientes em uma determinada cidade. Existem 10.000 clientes na cidade e os fun-
cionários querem obter uma amostra de tamanho 200 para entrevistar por telefone. Eles
obtêm uma lista de 10.000 clientes e os numera de 1 a 10.000. Eles usam um computador
para gerar 200 números aleatórios entre 1 e 10.000 e ligam para os clientes que corres-
pondem aos números obtidos. Esta é uma amostra aleatória simples?
Solução
Sim. Note que o processo é análogo ao de uma loteria no qual cada cliente tem um recibo
e são sorteados 200 recibos.
Exemplo 1.2
Um engenheiro de controle de qualidade deseja inspecionar microcircuitos eletrônicos
para obter a informação da proporção de itens defeituosos. Ele decide obter uma amostra
de 100 circuitos a partir da produção de um dia. A cada hora, durante 5 horas, ele pega os
20 últimos circuitos produzidos e os testa. Esta é uma amostra aleatória simples?
Solução
Não. Cada subconjunto de 100 circuitos não é igualmente provável que componha a
amostra. Para construir uma amostra aleatória simples, o engenheiro precisaria atribuir
um número a cada circuito produzido durante o dia e, em seguida, gerar números aleató-
rios para determinar quais circuitos comporão a amostra.
Amostras de conveniência
Em alguns casos é difícil, ou impossível, obter uma amostra de forma verdadeiramente
aleatória. Nestes casos, o melhor a fazer é amostrar os itens usando um método conve-
niente. Por exemplo, imagine que um engenheiro civil acaba de receber um carregamento
de 1.000 blocos de concreto, cada um pesando aproximadamente 50 libras (22,7 kg). Os
blocos foram entregues em uma grande pilha. O engenheiro deseja investigar a resistên-
cia à pressão dos blocos medindo o esforço em uma amostra de 10 blocos. Para obter
uma amostra aleatória simples seria necessário remover os blocos do centro e da parte de
baixo da pilha, o que poderia ser bastante difícil. Por isso, o engenheiro pode construir
uma amostra simplesmente retirando 10 blocos do topo da pilha. Uma amostra como essa
é denominada amostra de conveniência.
Definição
Uma amostra de conveniência é aquela que não pode ser obtida por um método
aleatório bem definido.
Navidi_01.indd 4Navidi_01.indd 4 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 5
O grande problema com amostras de conveniência é que elas podem diferir sistema-
ticamente da população de alguma forma. Por isso, as amostras de conveniência devem
apenas ser usadas em situações em que não for viável extrair uma amostra aleatória.
Quando for necessário obter uma amostra de conveniência, é importante pensar com
cuidado nas formas em que a amostra pode diferir sistematicamente da população. Se for
razoável acreditar que não existe uma diferença sistemática importante, então pode ser
aceitável considerar a amostra de conveniência como se ela fosse uma amostra aleatória
simples. Com relação aos blocos de concreto, se o engenheiro está confiante de que os
blocos no topo da pilha não diferem sistematicamente de forma importante do restante
dos blocos, então ele pode tratar a amostra de conveniência como uma amostra aleatória
simples. Entretanto, se for possível que os blocos em diferentes partes da pilha possam
ter sido feitos a partir de diferentes lotes de mistura ou possam ter diferentes tempos ou
temperaturas de cura, uma amostra de conveniência pode produzir resultados enganosos.
Algumas pessoas acham que uma amostra aleatória simples garante refletir perfeita-
mente a sua população. Isso não é verdade. Amostras aleatórias simples sempre diferem
de sua população de alguma forma e, ocasionalmente, elas podem ser substancialmente
diferentes. Duas amostras diferentes da mesma população diferem uma da outra também.
Esse fenômeno é conhecido como variação amostral. A variação amostral é uma das ra-
zões em que experimentos científicos produzem resultados um pouco diferentes quando
repetidos, mesmo quando as condições parecem ser idênticas. Por exemplo, suponha que
um inspetor de qualidade extrai uma amostra aleatória simples de 40 parafusos de um
grande carregamento, mede o comprimento de cada um e verifica que 32 deles, ou 80%,
atendem à especificação de comprimento. Outro inspetor extrai uma amostra diferente
de 40 parafusos e verifica que 36 deles, ou 90%, atendem à especificação. Por acaso, o
segundo inspetor teve mais parafusos bons em sua amostra. É provável que nenhuma
amostra reflita a população perfeitamente. A proporção de parafusos bons na população
é provavelmente próxima de 80% ou 90%, mas é provável que ela não seja exatamente
igual a um destes valores.
Visto que as amostras aleatórias simples não refletem suas populações perfeitamen-
te, por que é importante que a amostragem seja feita aleatoriamente? O benefício de uma
amostragem aleatória simples é que não existe um mecanismo sistemático que tende a
tornar a amostra não representativa. As diferenças entre a amostra e sua população são
originárias inteiramente de variações aleatórias. Visto que a teoria matemática da varia-
ção aleatória é bem entendida, podemos usar modelos matemáticos para estudar a relação
entre amostras aleatórias simples e suas populações. Para uma amostra não escolhida de
forma aleatória, geralmente não há teoria disponível para descrever os mecanismos que
fazem com que a amostra seja diferente de sua população. Portanto, amostras não aleató-
rias geralmente são difíceis de serem analisadas de forma confiável.
Populações tangíveis e conceituais
As populações discutidas até este momento consistiam de objetos físicos: os clientes de
uma concessionária, os blocos de concreto em uma pilha, os parafusos em um carrega-
mento. Essas populações são denominadas populações tangíveis. Tais populações são
sempre finitas. Após a amostragem de um item, o tamanho da população diminui em uma
unidade. Em princípio, em alguns casos podemos retornar o item amostrado para a popu-
lação, com uma chance de amostrá-lo novamente, mas isso raramente é feito na prática.
Navidi_01.indd 5Navidi_01.indd 5 27/01/12 16:2727/01/12 16:27
6 Capítulo 1 Medidas sobre dados univariados
Os dados em engenharia são frequentemente produzidos por meio de medidas reali-
zadas no decorrer do experimento científico, em vez de uma amostragem a partir de uma
população tangível. Considere um exemplo simples em que um engenheiro mede o compri-
mento de uma haste cinco vezes sendo tão cuidadoso quanto possível para tomar as medidas
sob condições idênticas. Não importa o quão cuidadosas sejam as medidas realizadas, elas
serão um pouco diferentes uma da outra por causa da variação no processo de medição que
não pode ser controlado ou previsto. Por sua vez, é frequentemente apropriado considerar
dados como estes como sendo amostras aleatórias simples de uma população. A população,
nestes casos, consiste de todos os valores que podem ser possivelmente observados. Essa
população é denominada população conceitual, visto que não consiste de objetos reais.
Definição
Uma amostra aleatória simples pode consistir em valores obtidos a partir de um pro-
cesso sob condições experimentais idênticas. Neste caso, a amostra é proveniente
de uma população que consiste de todos os valores que podem ser possivelmente
observados. Essa população é denominada população conceitual.
O Exemplo 1.3 envolve uma população conceitual.
Exemplo 1.3
Um geólogo pesa uma rocha várias vezes em uma balança de precisão. Em cada pesagem
a balança fornece umvalor ligeiramente diferente. Sob que condições esses valores po-
dem ser considerados amostras aleatórias simples? Qual é a população?
Solução
Se as características físicas da balança permanecerem as mesmas para cada pesagem, de
modo que as medidas sejam feitas em condições idênticas, então as leituras podem ser
consideradas como sendo uma amostra aleatória simples. A população é conceitual. Ela
consiste de todas as leituras que a balança poderia, em princípio, produzir.
Determinando se uma amostra é aleatória simples
Vimos no Exemplo 1.3 que são as características físicas do processo de medição que
determinam se os dados constituem uma amostra aleatória simples. Em geral, quando
decidimos se um conjunto de dados pode ser considerado uma amostra aleatória simples,
é necessário entender o processo que gerou os dados. Algumas vezes os métodos esta-
tísticos podem ajudar, especialmente quando a amostra for grande, mas o conhecimento
sobre o mecanismo de geração dos dados é mais importante.
Exemplo 1.4
Um novo processo químico, que produz um determinado produto químico, foi idealizado
para ter um rendimento de produção maior do que o processo anterior. Para estudar o
rendimento desse novo processo, o executamos 50 vezes e registramos os 50 resultados.
Navidi_01.indd 6Navidi_01.indd 6 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 7
Sob que condições esse procedimento pode ser razoavelmente considerado uma amostra
aleatória simples? Descreva algumas condições sob as quais esse processo não pode ser
tratado apropriadamente como uma amostra aleatória simples.
Solução
Para responder a isso, primeiro temos que especificar a população. A população é con-
ceitual e consiste no conjunto de toda a produção resultante desse processo tantas vezes
quanto ele for executado. O que fizemos é amostrar os 50 primeiros resultados de pro-
dução. Podemos considerar a amostra como aleatória simples se, e somente se, estamos
seguros de que os 50 primeiros resultados de produção foram gerados sob condições
idênticas e que eles não sejam, de alguma forma, sistematicamente diferentes de resulta-
dos posteriores.
Entretanto, seja cauteloso. Existem muitas condições sob as quais os 50 resultados
de produção poderiam não se enquadrar em uma amostra aleatória simples. Por exemplo,
algumas vezes ocorrem com processos químicos situações em que uma produção maior
é seguida de uma produção menor e vice-versa. Algumas vezes a produção tende a au-
mentar ao longo do tempo, à medida que os engenheiros de processo aprendem com a
experiência como executar o processo mais eficientemente. Nesses casos, as produções
não são geradas sob condições idênticas e não poderiam constituir uma amostra aleatória
simples.
O Exemplo 1.4 mostra mais uma vez que um bom conhecimento da natureza do pro-
cesso sob consideração é importante ao decidir se os dados podem ser considerados uma
amostra aleatória simples. Algumas vezes os métodos estatísticos podem ser usados para
mostrar que um determinado conjunto de dados não é uma amostra aleatória simples. Por
exemplo, algumas vezes as condições experimentais mudam gradualmente ao longo do
tempo. Um método simples, porém efetivo, para detectar essa condição é traçar o gráfico
das observações na ordem em que elas são realizadas. Uma amostra aleatória simples não
deve mostrar nenhum padrão ou tendência.
100 20
Número de medições
30 40 50
(a)
100 20
Número de medições
30 40 50
(b)
100 20
Número de medições
30 40 50
(c)
Figura 1.1 Três gráficos dos valores observados versus a ordem na qual eles são obtidos. (a) Os valores
mostram um padrão definido ao longo do tempo. Esta não é uma amostra aleatória simples. (b) Os valores
mostram uma tendência ao longo do tempo. Esta não é uma amostra aleatória simples. (c) Os valores não
mostram um padrão ou uma tendência. Estes dados podem ser considerados apropriadamente uma amostra
aleatória simples.
Navidi_01.indd 7Navidi_01.indd 7 27/01/12 16:2727/01/12 16:27
8 Capítulo 1 Medidas sobre dados univariados
A Figura 1.1 apresenta os gráficos de três amostras na ordem em que elas foram
obtidas. O gráfico na Figura 1.1a mostra um padrão de oscilação. O gráfico na Figura
1.1b mostra uma tendência de aumento. O gráfico na Figura 1.1c não apresenta qualquer
padrão ou tendência óbvia. Pode ser apropriado tratar estes dados como uma amostra
aleatória simples. Entretanto, antes de tomar essa decisão, ainda é importante pensar
sobre o processo que produziu os dados, visto que pode haver a preocupação de que não
apareça no gráfico.
Independência
Diz-se que os itens em uma amostra são independentes se os valores de alguns deles
não ajudam a prever os valores de outros. Com uma população finita (tangível), os itens
em uma amostra aleatória simples não são estritamente independentes, porque à medida
que cada item é obtido, a população muda. Essa mudança pode ser substancial quando a
população for pequena. Entretanto, quando a população for muito grande, essa variação é
desprezível, e os itens podem ser tratados como se fossem independentes.
Para ilustrar essa ideia, imagine que obtemos uma amostra aleatória simples de 2
itens da população
0 0 1 1
Para a primeira extração, os números 0 e 1 são igualmente prováveis. Mas o valor do
segundo item é claramente influenciado pelo primeiro; se o primeiro for 0, é mais pro-
vável que o segundo seja 1 e vice-versa. Portanto, os itens amostrados são dependentes.
Agora considere que extraímos uma amostra de tamanho 2 desta população:
0 ’sUm milhão de 1 ’sUm milhão de
Novamente, na primeira extração os números 0 e 1 são igualmente prováveis. Mas
diferentemente do exemplo anterior, os dois valores restantes são também quase igual-
mente prováveis na segunda extração, não importando o valor na primeira extração. No
caso das grandes populações, os itens amostrados são, para todos os fins práticos, inde-
pendentes.
É razoável se perguntar como uma grande população deve estar em ordem de modo
que os itens em uma amostra aleatória simples possam ser tratados como independen-
tes. A regra geral é que, quando se amostra uma população finita, os itens podem ser
tratados como independentes enquanto a amostra for constituída de 5% ou menos da
população.
Curiosamente, é possível fazer a população se comportar como se fosse infinita-
mente grande, repondo cada item após ser amostrado. Esse método é denominado amos-
tragem com reposição. Com esse método, a população é exatamente a mesma em cada
extração, e os itens amostrados são verdadeiramente independentes.
Com uma população conceitual, precisamos que os itens da amostra sejam produzi-
dos sob condições experimentais idênticas. Então, em especial, nenhum valor de amostra
pode influenciar as condições sob as quais os outros serão produzidos. Portanto, os itens
em uma amostra aleatória simples de uma população conceitual podem ser tratados como
Navidi_01.indd 8Navidi_01.indd 8 27/01/12 16:2727/01/12 16:27
1.1 Amostragem 9
independentes. Podemos pensar em uma população conceitual como sendo infinita ou,
de forma equivalente, que os itens são amostrados com reposição.
Resumo
■ Os itens em uma amostra são independentes se o conhecimento dos valores de
alguns deles não ajudam a prever os valores de outros.
■ Os itens em uma amostra aleatória simples podem ser tratados como indepen-
dentes em muitas situações encontradas na prática. A exceção ocorre quando a
população é finita e a amostra constitui uma fração substancial (mais do que 5%)
da população.
Outros métodos de amostragem
Além da amostragem aleatória simples, existem outros métodos de amostragem que são
úteis em várias situações. Na amostragem ponderada, para alguns itens são dadas chan-
ces maiores de serem selecionados do que outros, como uma loteria em que algumas pes-
soas têm mais recibos de apostas que outras. Na amostragem aleatória estratificada, a
população é dividida em subpopulações, denominadas estratos, e uma amostra aleatóriasimples é extraída de cada estrato. Em amostragem por grupos, os itens são extraídos
da população em grupos, ou conglomerados. A amostragem por grupos é útil quando a
população é muito grande e extensa para que uma amostragem aleatória simples seja
viável. Por exemplo, muitas agências governamentais nos Estados Unidos usam amos-
tragem por grupos para amostrar a população americana para medir fatores sociológicos
como renda e desemprego. Uma boa fonte de informação sobre métodos de amostragem
é Cochran (1977).
A amostragem aleatória simples não é o único método válido de amostragem. Mas
ele é o mais fundamental e dedicaremos mais a nossa atenção a este método. Deste mo-
mento em diante, a menos que seja especificado, os termos “amostra” e “amostra aleató-
ria” devem ser entendidos como “amostra aleatória simples”.
Tipos de dados
Quando um valor numérico designa o quanto é associado a cada item em uma amostra,
o conjunto de valores resultante é denominado numérico ou quantitativo. Em alguns
casos, os itens da amostra são colocados em categorias, e os nomes das categorias são
associados aos itens da amostra. Então os dados são categóricos ou qualitativos. Algu-
mas vezes os dados quantitativos ou categóricos são obtidos no mesmo experimento. Por
exemplo, em um ensaio de carga das conexões soldadas entre colunas e vigas, os dados
podem ser coletados no torque aplicado na falha e na localização da falha (solda ou viga).
O torque é uma variável quantitativa, e a localização é uma variável categórica.
Experimentos controlados e estudos observacionais
Muitos experimentos científicos são idealizados para determinar o efeito da variação de
um ou mais fatores nos valores de uma resposta. Por exemplo, suponha que um engenhei-
ro químico deseja determinar como a concentração de reagente e catalisador afetam a
produção de um processo. O engenheiro pode executar o processo várias vezes, mudando
Navidi_01.indd 9Navidi_01.indd 9 27/01/12 16:2727/01/12 16:27
10 Capítulo 1 Medidas sobre dados univariados
a concentração a cada vez e comparando o produto resultante. Esse tipo de experimento
é chamado de experimento controlado, porque os valores dos fatores, neste caso a con-
centração de reagente e catalisador, estão sob o controle do pesquisador. Quando ideali-
zado e conduzido adequadamente, os experimentos controlados podem produzir infor-
mações confiáveis sobre relações de causa e efeito entre fatores e resposta. No exemplo
de produção que acabamos de mencionar, um experimento bem conduzido permitiria ao
experimentador concluir que as diferenças na produção foram provocadas pelas diferen-
ças na concentração de reagente e catalisador.
Existem muitas situações nas quais os cientistas não podem controlar os níveis dos
fatores. Por exemplo, muitos estudos foram destinados a determinar os efeitos da fumaça
de cigarro sobre o risco de câncer de pulmão. Nesses estudos, as taxas de câncer entre
fumantes são comparadas com as taxas entre não fumantes. Os pesquisadores não podem
controlar quem fuma e quem não fuma; as pessoas não são obrigadas a fumar para tornar
o trabalho do estatístico mais fácil. Esse tipo de estudo é denominado estudo observa-
cional, porque o pesquisador simplesmente observa os níveis do fator como eles são,
sem ter qualquer controle sobre eles. Os estudos observacionais não são tão bons quanto
os experimentos controlados para a obtenção de conclusões confiáveis independente de
causa e efeito. No caso de fumante e câncer de pulmão, por exemplo, as pessoas que es-
colhem fumar podem não ser uma quantidade representativa da população como um todo
e podem ser mais propensas a obter câncer por outras razões. Por esse motivo, embora
saibamos há muito tempo que os fumantes têm taxas mais altas de câncer de pulmão do
que não fumantes, foram muitos anos de estudos observacionais feitos com cuidado antes
que os cientistas pudessem ter certeza de que fumar era realmente a causa da taxa mais
elevada de câncer.
1. Cada um dos seguintes processos envolve
amostragem de uma população. Defina a popu-
lação e informe se ela é tangível ou conceitual.
a. Um carregamento de parafusos é recebido
de um fornecedor. Para verificar se o car-
regamento é aceitável no que diz respeito
à resistência de cisalhamento, um enge-
nheiro retira do contêiner 10 parafusos,
um a um, para teste.
b. A resistência de um determinado resistor
é medida cinco vezes com o mesmo ohmí-
metro.
c. Um estudante de pós-graduação com es-
pecialização em ciências ambientais é
parte de uma equipe de estudo que avalia
o risco para a saúde humana de um deter-
minado contaminante presente na água da
torneira em sua cidade. Parte do processo
de avaliação envolve estimar a quantidade
de tempo que as pessoas que moram na
cidade estão em contato com água da tor-
neira. O aluno recruta moradores da cida-
de para registros diários durante um mês,
detalhando a quantidade de tempo por dia
que estiveram em contato com água da
torneira.
d. Oito soldas foram feitas com o mesmo pro-
cesso, e o esforço em cada uma é medido.
e. Um engenheiro de controle de qualidade
precisa estimar a percentagem dos itens
manufaturados em um determinado dia
que apresentam defeito. Às 14:30 ele
amostra os últimos 100 itens produzidos.
2. Se você deseja estimar a média das alturas de
todos os estudantes de uma universidade, qual
das seguintes estratégias de amostragem seria
a melhor? Por quê? Note que nenhum dos mé-
todos é amostragem aleatória simples verda-
deira.
Exercícios da Seção 1.1
Navidi_01.indd 10Navidi_01.indd 10 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 11
i. Medir as alturas de 50 estudantes encon-
trados em um ginásio durante o torneio
interno de basquete.
ii. Medir as alturas de todos nas engenharias.
iii. Medir as alturas dos estudantes selecio-
nados a partir do primeiro nome em cada
página da lista telefônica do campus.
3. Verdadeiro ou falso:
a. Uma amostra aleatória simples garante
refletir exatamente a população da qual é
extraída.
b. Uma amostra aleatória simples é livre
de qualquer tendência sistemática que a
torna diferente da população da qual é
extraída.
4. Um engenheiro de controle de qualidade
extrai uma amostra aleatória simples de 50
anéis de um lote de vários milhares. Ele mede
a espessura de cada um e constata que 45 de-
les, ou 90%, atendem a um determinada espe-
cificação. Qual das seguintes afirmações está
correta?
i. A proporção de anéis que atende à espe-
cificação em todo o lote é provavelmente
igual a 90%.
ii. A proporção de anéis que atende à espe-
cificação em todo o lote é provavelmente
próxima de 90%, mas não igual.
5. Um determinado processo de manufatura de
circuitos integrados está em operação por
um período de tempo, e sabe-se que 12% dos
circuitos apresentam defeito. Um novo pro-
cesso no qual se espera reduzir a proporção
de defeitos está em teste. Em uma amostra
aleatória simples de 100 circuitos produzi-
dos nesse novo processo, 12 estavam com
defeito.
a. Um dos engenheiros sugere que o teste
prova que o novo processo não é melhor
que o anterior, visto que a proporção de
defeitos na amostra é a mesma. Essa con-
clusão se justifica? Explique.
b. Considere que ocorreram apenas 11 cir-
cuitos com defeito na amostra de 100. Isso
provaria que o novo processo é melhor?
Explique.
c. Que resultado representa uma forte evi-
dência de o novo processo ser melhor:
ao encontrar 11 circuitos com defeito na
amostra, ou ao encontrar 2?
6. Consulte o Exercício 5. Verdadeiro ou falso:
a. Se a proporção de defeitos na amostra for
menor que 12%, é razoável concluir que o
novo processo é melhor.
b. Se a proporção de defeitos na amostra
for apenas um pouco menor que 12%, a
diferença poderia ter origem inteiramen-
te na variação da amostragem, e não é
razoável concluir que o novo processo é
melhor.
c. Se a proporção de defeitos na amostra é
muito menor do que 12%, é muito pouco
provávelque a diferença é decorrente da
variação na amostragem, então é razoável
concluir que o novo processo é melhor.
7. Para determinar se uma amostra deve ser trata-
da como uma amostra aleatória simples, o que
é mais importante: um bom conhecimento de
estatística ou um bom conhecimento do pro-
cesso que produziu os dados?
1.2 Medidas estatísticas
Geralmente uma amostra é uma longa lista de números. Para ajudar a destacar as carac-
terísticas importantes de uma amostra, vamos calcular as medidas estatísticas. As duas
medidas estatísticas mais comuns são a média amostral e o desvio padrão amostral. A
média fornece uma indicação do centro dos dados, e o desvio padrão fornece uma indica-
ção do quão dispersos são os dados.
Navidi_01.indd 11Navidi_01.indd 11 27/01/12 16:2727/01/12 16:27
12 Capítulo 1 Medidas sobre dados univariados
Média amostral
A média amostral também é denominada “média aritmética”, ou simplesmente de “mé-
dia”. Ela é a soma dos números da amostra dividida pela quantidade deles.
Definição
Seja X1, ..., Xn uma amostra. A média amostral é

(1.1)
É costume usar uma letra com uma barra sobre ela (por exemplo, X
_
) para indicar
uma média amostral. Note também que a média amostral tem a mesma unidade que os
valores da amostra X1, ..., Xn.
Exemplo 1.5
Uma amostra aleatória simples de cinco homens escolhidos a partir de uma grande popu-
lação de homens é constituída, e as alturas deles são medidas. As cinco alturas (em cm)
são 166,4, 183,6, 173,5, 170,3 e 179,5. Determine a média amostral.
Solução
Usamos a Equação (1.1). A média amostral é
Desvio padrão
Veja a seguir duas listas de números: 28, 29, 30, 31, 32 e 10, 20, 30, 40, 50. As duas
listas têm a mesma média, 30. Mas a segunda lista tem uma dispersão maior do que a
primeira. O desvio padrão é um parâmetro estatístico que mede o grau de dispersão
da amostra.
Seja a amostra X1, ..., Xn. A ideia por trás do desvio padrão é que, quando o desvio
for grande, os valores da amostra tendem a estar distantes da média, mas, quando a dis-
persão é pequena, os valores tendem a ser próximos da média. Assim, o primeiro passo
no cálculo do desvio padrão é calcular as diferenças (também denominadas desvios)
entre cada valor da amostra e a média amostral. Os desvios são (X1 − X
_
), ..., (Xn − X
_
).
Agora, alguns desses desvios são positivos e outros são negativos. Desvios negativos
grandes são apenas indicativos da dispersão, assim como desvios positivos grandes.
Para tornar todos os desvios positivos, os elevamos ao quadrado, obtendo os desvios
quadráticos (X1 − X
_
)2, ..., (Xn − X
_
)2. A partir dos desvios quadráticos, podemos cal-
cular a medida da dispersão denominada variância amostral. A variância amostral é a
Navidi_01.indd 12Navidi_01.indd 12 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 13
média dos desvios quadráticos, exceto que dividimos por n − 1 em vez de n. É costume
designar a variância amostral por s2.
Definição
Seja a amostra X1, ..., Xn. A variância amostral dela é

(1.2)
Uma fórmula equivalente, que pode ser facilmente calculada, é

(1.3)
Embora a variância amostral seja um parâmetro importante, ela tem uma desvanta-
gem significativa como uma medida de dispersão. Sua unidade não é a mesma dos valo-
res da amostra; ela é uma unidade quadrática. Para obter uma medida da dispersão cuja
unidade seja a mesma dos valores da amostra, simplesmente extraímos a raiz quadrada
da variância. Esse parâmetro é conhecido como desvio padrão amostral. Normalmente
indicamos o desvio padrão amostral pela letra s (a raiz quadrada de s2).
Definição
Seja a amostra X1, ..., Xn. O desvio padrão amostral dela é

(1.4)
Uma fórmula equivalente, que pode ser facilmente calculada, é

(1.5)
O desvio padrão amostral é a raiz quadrada da variância amostral.
É natural se perguntar por que a soma dos desvios quadráticos é dividida por n − 1
em vez de n. A finalidade no cálculo do desvio padrão amostral é estimar a quantidade
da dispersão na população a partir da qual a amostra foi extraída. Portanto, idealmente
calcularíamos os desvios a partir da média amostral. Entretanto, a média da população é,
em geral, desconhecida, de modo que a média amostral é usada no seu lugar. É um fato
matemático que os desvios em torno da média amostral tendem a ser um pouco menores
do que os desvios em torno da média da população e que a divisão por n − 1 em vez de n
fornece exatamente a correção correta.
Navidi_01.indd 13Navidi_01.indd 13 27/01/12 16:2727/01/12 16:27
14 Capítulo 1 Medidas sobre dados univariados
Exemplo 1.6
Determine a variância amostral e o desvio padrão amostral para os dados das alturas no
Exemplo 1.5.
Solução
Calculamos primeiro a variância amostral usando a Equação (1.2). A média amostral é
X– = 174,66 (veja o Exemplo 1.5). Portanto, a variância amostral é
Alternativamente, podemos usar a Equação (1.3):
O desvio padrão amostral é a raiz quadrada da variância amostral:
O que aconteceria com a média, variância e desvio padrão amostrais se as alturas no
Exemplo 1.5 fossem medidas em polegadas em vez de centímetros? Indiquemos as alturas
em centímetros por X1, X2, X3, X4, X5 e as alturas em polegadas por Y1, Y2, Y3, Y4, Y5. A rela-
ção entre Xi e Yi é dada por Yi = 0,3937Xi. Se voltarmos ao Exemplo 1.5, convertermos para
polegadas e calcularmos a média amostral, veremos que as médias amostrais em polegadas
e centímetros estão relacionadas pela equação Y = 0,3937X. Portanto, se multiplicarmos
cada item da amostra por uma constante, a média amostral é multiplicada pela mesma
constante. Quanto à variância amostral, veremos que os desvios estão relacionados pela
equação (Yi − Y) = 0,3937(Xi − X). Segue que s2Y = 0,39372s2X e que sY = 0,3937sX.
E se cada homem da amostra estivesse sobre uma plataforma de 2 centímetros? En-
tão cada altura na amostra seria aumentada de 2 cm, e a média amostral seria aumentada
de 2 cm também. Em geral, se uma constante for acrescentada a cada item da amostra, a
média amostral aumenta (ou diminui) pela mesma constante. Entretanto, os desvios não
mudam, de modo que a variância amostral e o desvio padrão não são afetados.
Resumo
■ Se X1, ..., Xn for uma amostra e Yi = a + bXi, em que a e b são constantes, então
Y = a + bX.
■ Se X1, ..., Xn for uma amostra e Yi = a + bXi, em que a e b são constantes, então
s2Y = b2s2X e sY = |b|sX.
Valores atípicos
Algumas vezes uma amostra contém alguns pontos que são muito maiores ou menores
do que os demais. Esses pontos são denominados valores atípicos. Veja um exemplo na
Figura 1.2. Alguns valores atípicos resultam de dados errôneos; por exemplo, um erro na
Navidi_01.indd 14Navidi_01.indd 14 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 15
posição da vírgula decimal pode resultar em um valor que é uma ordem de magnitude di-
ferente das demais. Valores atípicos devem ser sempre analisados, e qualquer valor atípico
que for identificado como resultado de um erro deve ser corrigido ou apagado. Nem todos
os valores atípicos são erros. Algumas vezes uma população pode conter alguns valores
que são muito diferentes dos demais, e os valores atípicos na amostra refletem esse fato.
Valor atípico
Figura 1.2 Um conjunto de dados que contém um valor atípico.
Valores atípicos são um problema real para analistas de dados. Por esse motivo,
quando as pessoas veem valores atípicos em seus dados, procuram, algumas vezes,
tentar encontrar um motivo, ou uma desculpa, para excluí-los. Entretanto, um valor
atípico não deve ser excluído, a menos que estejamos realmente certos de que se trata
de um erro. Se uma população realmente contém valores atípicos, mas eles são exclu-
ídos da amostra, a amostra não representará a população corretamente.
Mediana amostral
A mediana, assim como a média, é uma medida de centro. Para calcular a mediana de
uma amostra, ordene os dados do menor para o maior. A mediana amostral é o número
do centro. Se o tamanhoda amostra for um número par, é costume determinar a mediana
como sendo a média dos dois valores centrais.
Definição
Se n números são ordenados do menor para o maior:
■ Se n for ímpar, a mediana da amostra é o número na posição .
■ Se n for par, a mediana amostral é a média dos números nas posições e .
Exemplo 1.7
Determine a mediana amostral para os dados das alturas no Exemplo 1.5.
Solução
As cinco alturas, organizadas em ordem crescente, são 166,4, 170,3, 173,5, 179,5, 183,6.
A mediana amostral é o número central, que é 173,5.
Frequentemente a mediana é usada como uma medida de centro para amostras que
contêm valores atípicos. Para ver porquê, considere que uma amostra consiste dos valo-
res 1, 2, 3, 4 e 20. A média é 6 e a mediana é 3. É razoável pensar que a mediana é mais
representativa da amostra do que a média. Veja a Figura 1.3.
Navidi_01.indd 15Navidi_01.indd 15 27/01/12 16:2727/01/12 16:27
16 Capítulo 1 Medidas sobre dados univariados
Mediana Média
Figura 1.3 Quando uma amostra contém valores atípicos, a mediana pode ser uma medida mais
representativa da amostra do que a média.
Quartis
A mediana divide a amostra ao meio. Os quartis a dividem tanto quanto possível em
quartos. Uma amostra tem três quartis. Existem algumas formas diferentes de calcu-
lar quartis, e todas elas chegam aproximadamente ao mesmo resultado. O método mais
simples de cálculo manual é o seguinte. Seja n o tamanho de uma amostra. Ordene os
valores da amostra do menor para o maior. Para determinar o primeiro quartil, calcule o
valor de 0,25(n + 1). Se este valor for inteiro, então o valor da amostra nesta posição é o
primeiro quartil. Caso contrário, determine a média dos valores amostrados em cada lado
deste valor. O terceiro quartil é calculado da mesma forma, exceto que o valor 0,75(n +
1) é o utilizado. O segundo quartil usa o valor 0,5(n + 1). O segundo quartil é idêntico à
mediana. Notamos que alguns pacotes de softwares usam métodos um pouco diferentes
para o cálculo de quartis, de modo que os resultados podem não ser exatamente iguais
aos obtidos pelos métodos descritos aqui.
Exemplo 1.8
No artigo em inglês “Evaluation of Low-Temperature Properties of HMA Mixtures”
(Avaliação das Propriedades em Baixa temperatura de Misturas de Asfalto Quente) (P.
Sebaaly, A. Lake e J. Epps, Journal of Transportation Engineering, 2002:578−583),
os seguintes valores de fratura por estresse (em megapascal) foram medidos para uma
amostra de 24 misturas de asfalto quente (HMA – Hot-Mixed Asphalt).
Determine o primeiro e terceiro quartis.
Solução
O tamanho da amostra é n = 24. Para determinar o primeiro quartil, calcule (0,25)(25) =
6,25. Portanto, o primeiro quartil é determinado pela média entre o 6º e o 7º dados, quan-
do a amostra é organizada em ordem crescente. Isso resulta em (105 + 126)/2 = 115,5.
Para determinar o terceiro quartil, calcule (0,75)(25) = 18,75. Calculamos a média entre
o 18º e o 19º dados para obter (242 + 245)/2 = 243,5.
Percentis
O percentil de ordem p de uma amostra, para um número p entre 0 e 100, divide a amos-
tra de modo que o mais próximo possível p% dos valores da amostra são menores do que
Navidi_01.indd 16Navidi_01.indd 16 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 17
o percentil de ordem p e (100 – p)% são maiores. Existem muitas formas de calcular per-
centis, e todas elas produzem resultados similares. Descrevemos aqui um método análo-
go ao método descrito para o cálculo de quartis. Ordene os valores da amostra do menor
para o maior e, em seguida, calcule (p/100)(n + 1), em que n é o tamanho da amostra.
Se este valor for inteiro, o valor da amostra nesta posição é o percentil de ordem p. Caso
contrário, calcule a média dos dois valores da amostra de cada lado. Note que o primeiro
quartil é o percentil de ordem 25, a mediana é o percentil de ordem 50, e o terceiro quartil
é o percentil de ordem 75. Alguns pacotes de software usam métodos ligeiramente dife-
rentes para calcular percentis, de modo que os seus resultados podem ser ligeiramente
diferentes dos obtidos por este método.
Os percentis são usados frequentemente para interpretar notas em testes padroniza-
dos. Por exemplo, se um estudante for informado de que sua nota no exame de vestibular
foi o percentil de ordem 64, isso significa que 64% dos estudantes que prestaram o vesti-
bular tiveram notas inferiores.
Exemplo 1.9
Determine o percentil de ordem 65 dos dados do asfalto no Exemplo 1.8.
Solução
O tamanho da amostra é n = 24. Para determinar o percentil de ordem 65, calcule (0,65)
(25) = 16,25. Portanto, o percentil de ordem 65 é determinado calculando a média entre
os dados de ordem 16 e 17 quando a amostra é organizada em ordem crescente. Isso re-
sulta em (236 + 240)/2 = 238.
Na prática, as medidas estatísticas que discutimos são frequentemente calculadas
em um computador usando um pacote de software de estatística. As medidas estatísticas
são algumas vezes denominados estatística descritiva, porque elas descrevem os dados.
Apresentamos um exemplo de medidas estatísticas do pacote de software MINITAB. Em
seguida, apresentaremos como essas medidas estatísticas podem ser usadas para desco-
brir algumas características importantes dos dados.
Para uma tese de Ph.D. que investiga fatores que afetam as emissões dos veículos a
diesel, J. Yanowitz da Colorado School of Mines obteve dados de emissões de material
particulado (PM – particulate matter) para uma amostra de 138 veículos que circulou em
altitude baixa (próximo ao nível do mar) e para uma amostra de 62 veículos que circulou
em altitude alta (aproximadamente uma milha, 1600 m, acima do nível do mar). Todos os
veículos foram fabricados entre 1991 e 1996. As amostras continham aproximadamente
proporções iguais de veículos com altas e baixas quilometragens. Os dados, na unidade
de gramas de partículas por galão de combustível consumido, são apresentados nas Ta-
belas 1.1 e 1.2. Em altitude alta, a pressão barométrica é baixa, de modo que a relação
efetiva ar/combustível também é baixa. Por esse motivo, as emissões de materiais parti-
culados podem ser maiores em altitudes maiores. Gostaríamos de comparar as amostras
para determinar se os dados dão suporte a essa suposição. É difícil fazer isto simplesmen-
te examinando os dados brutos nas tabelas. O cálculo das medidas estatísticas torna o
trabalho mais fácil. A Figura 1.4 (página 18) apresenta medidas estatísticas para as duas
amostras, conforme calculado pelo software MINITAB.
Navidi_01.indd 17Navidi_01.indd 17 27/01/12 16:2727/01/12 16:27
18 Capítulo 1 Medidas sobre dados univariados
Na Figura 1.4, a quantidade indicada por “N” é o tamanho da amostra. Em seguida
vem a média amostral (Mean). A próxima medida (SE Mean) é o erro padrão da média.
O erro padrão da média é igual ao desvio padrão dividido pela raiz quadrada do tama-
nho da amostra. Esse valor não é muito usado como uma estatística descritiva, embora
seja importante para aplicações como a construção de intervalos de confiança e testes
de hipóteses, que abordaremos nos Capítulos 5, 6 e 7. Depois do erro padrão da média,
temos o desvio padrão (StDev). Finalmente, a segunda linha da saída fornece o mínimo
(Minimum), a mediana (Median) e o máximo (Maximum), bem como o primeiro e tercei-
ro quartis (Q1 e Q3). Notamos que os valores dos quartis produzidos pelo pacote de soft-
ware difere ligeiramente dos valores calculados pelo método que descrevemos. Isso não
é uma surpresa, visto que existem várias formas de calcular esses valores. As diferenças
não são grandes o suficiente para ter qualquer importância prática.
Tabela 1.2 Emissões de material particulado (PM) (em g/gal) para 62 veículos que circularam em
altitude alta
7,59 6,28 6,07 5,23 5,54 3,46 2,44 3,01 13,63 13,02 23,38 9,24 3,22
2,06 4,04 17,11 12,26 19,91 8,50 7,81 7,18 6,95 18,64 7,10 6,04 5,66
8,86 4,40 3,57 4,35 3,84 2,37 3,81 5,32 5,84 2,89 4,68 1,85 9,14
8,67 9,52 2,68 10,14 9,207,31 2,09 6,32 6,53 6,32 2,01 5,91 5,60
5,61 1,50 6,46 5,29 5,64 2,07 1,11 3,32 1,83 7,56
Descriptive Statistics: LowAltitude, HiAltitude
Variable N Mean SE Mean StDev
LoAltitude 138 3.715 0.218 2.558
HiAltitude 62 6.596 0.574 4.519
Variable Minimum Q1 Median Q3 Maximum
LoAltitude 0.250 1.468 3.180 5.300 11.230
HiAltitude 1.110 3.425 5.750 7.983 23.380
Figura 1.4 Saída do software MINITAB que apresenta a estatística descritiva para os dados de
material particulado apresentados nas Tabelas 1.1 e 1.2.
Tabela 1.1 Emissões de material particulado (PM) (em g/gal) para 138 veículos que circularam em
altitude baixa
1,50 0,87 1,12 1,25 3,46 1,11 1,12 0,88 1,29 0,94 0,64 1,31 2,49
1,48 1,06 1,11 2,15 0,86 1,81 1,47 1,24 1,63 2,14 6,64 4,04 2,48
2,98 7,39 2,66 11,00 4,57 4,38 0,87 1,10 1,11 0,61 1,46 0,97 0,90
1,40 1,37 1,81 1,14 1,63 3,67 0,55 2,67 2,63 3,03 1,23 1,04 1,63
3,12 2,37 2,12 2,68 1,17 3,34 3,79 1,28 2,10 6,55 1,18 3,06 0,48
0,25 0,53 3,36 3,47 2,74 1,88 5,94 4,24 3,52 3,59 3,10 3,33 4,58
6,73 7,82 4,59 5,12 5,67 4,07 4,01 2,72 3,24 5,79 3,59 3,48 2,96
5,30 3,93 3,52 2,96 3,12 1,07 5,30 5,16 7,74 5,41 3,40 4,97 11,23
9,30 6,50 4,62 5,45 4,93 6,05 5,82 10,19 3,62 2,67 2,75 8,92 9,93
6,96 5,78 9,14 10,63 8,23 6,83 5,60 5,41 6,70 5,93 4,51 9,04 7,71
7,21 4,67 4,49 4,63 2,80 2,16 2,97 3,90
Navidi_01.indd 18Navidi_01.indd 18 27/01/12 16:2727/01/12 16:27
1.2 Medidas estatísticas 19
As medidas estatísticas dizem muito sobre as diferenças nas emissões de material
particulado entre os veículos que circularam em altitudes baixa e alta. Primeiro, note
que a média é de fato maior para os veículos que circularam em altitude alta em relação
aos que circularam em altitude baixa (6,596 versus 3,715), que suporta a hipótese de que
as emissões tendem a ser maiores em altitudes altas. Agora note que o valor máximo
para os veículos que circularam em altitude alta (23,38) é muito maior do que o máximo
para os veículos que circularam em altitude baixa (11,23). Isso mostra que existe um
ou mais veículos que circularam em altitude alta cujas emissões são muito maiores do
que a maior emissão entre os veículos que circularam em altitude baixa. A diferença nas
emissões médias poderia ser totalmente referente a esses veículos? Para responder isso,
compare as medianas e o primeiro e terceiro quartis. Essas medidas estatísticas não são
muito afetadas para um pequeno número de valores grandes, mas todos eles são visi-
velmente maiores para os veículos que circularam em altitude alta. Portanto, podemos
concluir que os veículos que circularam em altitude alta não só contêm alguns emissores
muito altos, também têm emissões mais altas do que os veículos que circularam em
altitude baixa em geral. Finalmente, note que o desvio padrão é maior para os veículos
que circularam em altitude alta, o que indica que os valores para estes veículos têm uma
dispersão maior do que para os veículos que circularam em altitude baixa. Pelo menos
parte dessa diferença na dispersão deve ser devido a um ou mais veículos que circularam
em altitude alta com emissões muito altas.
Exercícios da Seção 1.2
1. Um fornecedor converte os pesos dos pacotes
que envia de libras para quilogramas (1 kg ≈
2,2 lb).
a. Como isso afeta o peso médio dos pacotes?
b. Como isso afeta o desvio padrão dos pesos?
2. Consulte o Exercício 1. O fornecedor começa
a usar embalagens mais pesadas, o que aumen-
ta o peso de cada pacote em 50 g.
a. Como isso afeta o peso médio dos pacotes?
b. Como isso afeta o desvio padrão dos pesos?
3. Verdadeiro ou falso: para qualquer lista de nú-
meros, metade deles estarão abaixo da média.
4. A média amostral é sempre o valor mais fre-
quente? Em caso afirmativo, explique por quê.
Caso contrário, dê um exemplo.
5. A média amostral é sempre igual a um dos va-
lores da amostra? Em caso afirmativo, expli-
que por quê. Caso contrário, dê um exemplo.
6. A mediana amostral é sempre um dos valores
da amostra? Em caso afirmativo, explique por
quê. Caso contrário, dê um exemplo.
7. Determine o tamanho de uma amostra para a
qual a mediana sempre será igual a um dos va-
lores da amostra.
8. Para uma lista de números positivos, é possí-
vel que o desvio padrão seja maior do que a
média? Em caso afirmativo, dê um exemplo.
Caso contrário, explique por que não.
9. É possível que o desvio padrão de uma lista de
números seja igual a zero? Em caso afirmati-
vo, dê um exemplo. Caso contrário, explique
por que não.
10. Para uma amostra de 100 mulheres adultas é
perguntado a cada uma quantos filhos tem. Os
resultados foram os seguintes:
Crianças 0 1 2 3 4 5
Número de
mulheres
27 22 30 12 7 2
a. Determine a média amostral do número
de crianças.
b. Determine o desvio padrão amostral do
número de crianças.
Navidi_01.indd 19Navidi_01.indd 19 27/01/12 16:2727/01/12 16:27
20 Capítulo 1 Medidas sobre dados univariados
c. Determine a mediana amostral do número
de crianças.
d. Qual é o primeiro quartil do número de
crianças?
e. Qual é a proporção de mulheres que têm
mais que o número médio de crianças?
f. Para qual proporção de mulheres o nú-
mero de crianças seria um desvio padrão
maior do que a média?
g. Para qual proporção de mulheres o núme-
ro de crianças estaria dentro do valor de
um desvio padrão da média?
11. Em uma amostra de 20 homens, a altura média
foi de 178 cm. Em uma amostra de 30 mulhe-
res, a altura média foi de 164 cm. Qual é a al-
tura média dos dois grupos juntos?
12. Em um estudo de percepção visual foi pedido
a cinco pessoas que estimassem visualmente o
comprimento de uma linha e, em seguida, que
a medissem com uma régua. Os resultados, em
cm, foram:
Visualmente: 8,0; 9,0; 7,5; 9,5; 8,5
Com uma régua: 8,1; 8,2; 8,1; 8,1; 8,3
a. Calcule a média para cada método.
b. Calcule a mediana para cada método.
c. Calcule o desvio padrão das medições
para cada método.
d. Para qual método o desvio padrão é
maior? Por que se deve esperar que esse
método tenha o maior desvio padrão?
e. Para outras coisas iguais, é melhor para o
método de medição que o desvio padrão
seja menor ou maior? Ou não importa?
Explique.
13. Consulte o Exercício 12.
a. Se as medidas feitas por um dos métodos
forem convertidas em polegadas (1 pole-
gada = 2,54 cm), como isso afeta a mé-
dia? E a mediana? E o desvio padrão?
b. Se cada pessoa medisse novamente a li-
nha usando uma régua com indicações em
polegadas, o efeito na média, na mediana
e no desvio padrão seria o mesmo que em
(a)? Explique.
14. Existem 10 funcionários em uma determinada
divisão de uma companhia. Os salários deles
têm uma média anual de R$ 70.000,00, uma
mediana de R$ 50.000,00 e um desvio padrão
de R$ 60.000,00. O maior número na lista é
R$ 100.000,00. Por um erro de digitação, esse
número é alterado para R$ 1.000.000,00.
a. Qual é o valor da média após a alteração?
b. Qual é o valor da mediana após a altera-
ção?
c. Qual é o valor do desvio padrão após a al-
teração?
15. Quartis dividem uma amostra em quatro par-
tes quase iguais. Em geral, uma amostra de
tamanho n pode ser dividida em k partes qua-
se iguais usando como pontos de divisão (i/k)
(n + 1) para i = 1, ..., k − 1. Considere a se-
guinte amostra ordenada:
2 18 23 41 44 46 49 61
62 74 76 79 82 89 92 95
a. Tertis dividem uma amostra em três. De-
termine os tertis dessa amostra.
b. Quintis dividem uma amostra em cinco.
Determine os quintis dessa amostra.
16. Em cada um dos seguintes conjuntos de dados,
informe se o valor atípico parece que se deve
a um erro ou se ele poderia concebivelmente
estar correto.
a. Uma rocha é pesada cinco vezes. As leituras
em gramas são: 48,5; 47,2; 4,91; 49,5; 46,3.
b. Um sociólogo escolhe cinco famílias
em uma determinada cidade e registra
os rendimentos anuais delas. Os rendi-
mentos são R$ 34.000,00; R$ 57.000,00;
R$ 13.000,00; R$ 1.200.000,00; R$
62.000,00.
Navidi_01.indd 20Navidi_01.indd 20 27/01/12 16:2727/01/12 16:27
1.3 Representaçõesgráficas 21
1.3 Representações gráficas
Gráficos ramo-e-folhas
Além das medidas numéricas como a média, a mediana e o desvio padrão, as repre-
sentações gráficas podem ser usadas para ajudar a visualizar uma lista de números.
Começaremos discutindo uma representação gráfica simples conhecida como gráfico
ramo-e-folhas.
Como um exemplo, os dados na Tabela 1.3 se referem a um estudo da atividade
biológica de uma determinada droga antifúngica. Essa droga foi aplicada na pele de 48
indivíduos. Após três horas, mediu-se a quantidade de droga, em ng/cm2, que permane-
ceu na superfície. A lista foi classificada em ordem numérica.
Tabela 1.3 Quantidade de droga na pele
3 4 4 7 7 8 9 9 12 12
15 16 16 17 17 18 20 20 21 21
22 22 22 23 24 25 26 26 26 26
27 33 34 34 35 36 36 37 38 40
40 41 41 51 53 55 55 74
A Figura 1.5 apresenta um gráfico ramo-e-folhas dos dados na Tabela 1.3. Cada
item na amostra é dividido em duas partes: um ramo, que consiste em um ou dois dígitos
à esquerda, e a folha, que consiste no próximo dígito. Na Figura 1.5, o ramo consiste
nas dezenas e a folha, nas unidades. Cada linha do gráfico ramo-e-folhas contém todos
os itens da amostra com um determinado ramo. Esse gráfico é uma forma compacta de
representar os dados. Ele também fornece alguma indicação de sua forma. Para estes
dados, podemos ver que existem números iguais de indivíduos nos intervalos 0−9, 10−19
e 30−39 e uma quantidade maior de indivíduos no intervalo 20−29. Além disso, o maior
valor (74) parece ser um valor atípico.
Stem Leaf
0 34477899
1 22566778
2 001122234566667
3 34456678
4 0011
5 1355
6
7 4
Figura 1.5 Gráfico ramo-e-folhas para os dados da Tabela 1.3.
Quando existe uma grande quantidade de itens da amostra no mesmo ramo, ge-
ralmente é necessário atribuir mais de uma linha para o ramo. Como um exemplo, a
Figura 1.6 mostra um gráfico ramo-e-folhas gerado por um computador com o software
MINITAB, para os dados de materiais particulados da Tabela 1.2 na Seção 1.2. A colu-
Navidi_01.indd 21Navidi_01.indd 21 27/01/12 16:2727/01/12 16:27
22 Capítulo 1 Medidas sobre dados univariados
na central consiste em 0s, 1s e 2s e contém os ramos, que são as dezenas. À direita dos
ramos estão as folhas, que consistem nas unidades para cada um dos itens da amostra.
Como muitos números são menores do que 10, o ramo 0 tem que ser atribuído a várias
linhas (neste caso, cinco). Especificamente, a primeira linha contém os itens da amostra
cujos dígitos são 0 ou 1, a próxima linha contém os itens cujos dígitos são 2 ou 3 e assim
por diante. Por questão de consistência, a todos os ramos são atribuídas várias linhas da
mesma forma, ainda que tenham suficientemente poucos valores para os ramos 1 e 2 que
caberiam em menos linhas.
A saída na Figura 1.6 contém uma coluna de frequência acumulada à esquerda do
gráfico ramo-e-folhas. A parte superior desta coluna fornece o número de itens na linha e
acima dela, e a parte inferior da coluna fornece o número de itens na linha e abaixo dela.
Junto à linha que contém a mediana está o número de itens desta linha, mostrado entre
parênteses.
Stem-and-leaf of HiAltitude N � 62
Leaf Unit � 1.0
4 0 1111
19 0 222222223333333
(14) 0 44445555555555
29 0 66666666777777
15 0 8889999
8 1 0
7 1 233
4 1
4 1 7
3 1 89
1 2
1 2 3
Figura 1.6 Gráfico ramo-e-folhas dos dados de material particulado da Tabela 1.2, na página
18, conforme gerado pelo MINITAB.
Uma boa característica dos gráficos ramo-e-folhas é que eles mostram todos os va-
lores da amostra. Pode-se reconstruir a amostra completamente a partir do gráfico ra-
mo-e-folhas, com uma importante exceção: a ordem na qual os itens foram amostrados
não pode ser determinada.
Gráficos de pontos
Um gráfico de pontos é um gráfico que pode ser usado para gerar uma impressão apro-
ximada da forma da amostra. Ele é útil quando o tamanho da amostra não é tão grande e
quando a amostra contém alguns valores repetidos. A Figura 1.7 (página 23) mostra um
gráfico de pontos para os dados da Tabela 1.3. Para cada valor na amostra, é feita uma
coluna vertical de pontos, com o número de pontos na coluna igual ao número de vezes
que o valor aparece na amostra. O gráfico de pontos fornece uma boa indicação de onde
os valores da amostra estão concentrados e onde os espaços vazios estão. Por exemplo, é
fácil ver na Figura 1.7 que a amostra não contém nenhum valor entre 42 e 50. Além disso,
o valor atípico é facilmente visto como o ponto mais à direita no gráfico.
Navidi_01.indd 22Navidi_01.indd 22 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 23
0 10 20 30 40 50 60 8070
Figura 1.7 Gráfico de pontos para os dados da Tabela 1.3.
Os gráficos ramo-e-folhas e de pontos são bons métodos para examinar informal-
mente uma amostra e podem ser feitos facilmente com lápis e papel. Entretanto, eles
raramente são usados em apresentações formais. Os gráficos mais usados em apresenta-
ções formais incluem o histograma e o gráfico de caixa, que discutiremos agora.
Histogramas
Um histograma é um gráfico que fornece uma ideia da “forma” de uma amostra, in-
dicando regiões onde os pontos da amostra se concentram e as regiões onde eles são
esparsos. Vamos construir um histograma para as emissões de material particulado dos
62 veículos que circularam em altitude alta, conforme apresentado na Tabela 1.2 (Seção
1.2). Os valores da amostra variam de 1,11 (baixo) a 23,38 (alto) em unidade de gramas
de emissões por galão de combustível. O primeiro passo é construir uma tabela de fre-
quência, mostrada na Tabela 1.4.
Tabela 1.4 Tabela de frequência para as emissões de material particulado
dos 62 veículos que circularam em altitude alta
Intervalo
de classe (g/gal) Frequência Frequência relativa
1 ≤ x < 3 12 0,1935
3 ≤ x < 5 11 0,1774
5 ≤ x < 7 18 0,2903
7 ≤ x < 9 9 0,1452
9 ≤ x < 11 5 0,0806
11 ≤ x < 13 1 0,0161
13 ≤ x < 15 2 0,0323
15 ≤ x < 17 0 0,0000
17 ≤ x < 19 2 0,0323
19 ≤ x < 21 1 0,0161
21 ≤ x < 23 0 0,0000
23 ≤ x < 25 1 0,0161
Os intervalos na coluna da esquerda são denominados intervalos de classe. Eles di-
videm a amostra em grupos. Para os histogramas que vamos considerar, os intervalos de
classe terão a mesma largura. Na Tabela 1.4, todas as classes têm largura 2. Não há uma
regra rigorosa e rápida sobre como decidir quantos intervalos de classe usar. Em geral, é
bom ter um número maior de intervalos do que um número pequeno, mas também é bom
ter números grandes de pontos da amostra nos intervalos. Encontrar o equilíbrio correto
é uma questão de julgamento e de tentativa e erro. Quando o número de observações n
for muito grande (algumas centenas ou mais), alguns têm sugerido que o ponto de partida
razoável para o número de classes pode ser log2n ou 2n
1/3. Quando o número de observa-
ções for menor, geralmente é necessário um número de classes maior do que este.
Navidi_01.indd 23Navidi_01.indd 23 27/01/12 16:2727/01/12 16:27
24 Capítulo 1 Medidas sobre dados univariados
A coluna denominada “Frequência” na Tabela 1.4 mostra o número de pontos de
dados dentro de cada um dos intervalos de classe. A coluna denominada “Frequência
relativa” mostra as frequências divididas pelo número total de pontos de dados, que neste
caso é 62. A frequência relativa de um intervalo de classe é a proporção dos pontos de
dados que estão no intervalo. Note que, como cada ponto de dado está exatamente em
um intervalo de classe, as frequências relativas devem somar 1 (permitindo erro de arre-
dondamento).
A Figura 1.8 apresenta um histograma para a Tabela 1.4. A unidade no eixo horizon-
tal é a unidade dos dados, que neste caso é gramas por galão. Cada intervalo de classe é
representado por um retângulo. As alturas dos retângulos podem se iguais às frequências
ou às frequências relativas. Visto que esses valores são proporcionais, a forma do histo-
grama será a mesma em cada um desses casos. Para o histograma na Figura 1.8, as alturas
dos retângulos são as frequências relativas.
1 3 5 7 9 1113 15 17 19 21 23 25
Emissões (g/gal)
0
0,10
0,20
0,30
Fr
eq
uê
nc
ia
s
re
la
tiv
as
Figura 1.8 Histograma para os dados na Tabela 1.4. Neste histograma as alturas dos retângulos
são as frequências relativas. As frequências e as frequências relativas são proporcionais entre si, de
modo que seria igualmente apropriado usar as frequências como as alturas dos retângulos.
Resumo
Para construir um histograma:
■ Determine o número de classes a usar e construa intervalos de classe de larguras
iguais.
■ Calcule a frequência e a frequência relativa de cada classe.
■ Desenhe um retângulo para cada classe. As alturas dos retângulos podem ser
iguais às frequências ou às frequências relativas.
Simetria e assimetria
Um histograma é perfeitamente simétrico se sua metade direita for uma imagem da sua
metade esquerda. Os histogramas que não são simétricos são denominados assimétricos.
Na prática, nenhuma amostra tem um histograma simetricamente perfeito; quase todos
Navidi_01.indd 24Navidi_01.indd 24 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 25
apresentam algum grau de assimetria. Em um histograma assimétrico, um lado, ou cauda,
é mais longo do que o outro. Diz-se que um histograma com uma cauda longa para a di-
reita é assimétrico para a direita, ou positivamente assimétrico. Um histograma com
uma cauda longa para a esquerda é assimétrico para a esquerda, ou negativamente
assimétrico. Quando houver um método matemático formal para medir a assimetria de
um histograma, ele será raramente usado; o que as pessoas fazem é julgar informalmente
o grau de assimetria observando o histograma. A Figura 1.9 mostra alguns histogramas
de amostras hipotéticas. Note que para um histograma que é assimétrico para a direita
(Figura 1.9c), a média é maior do que a mediana. O motivo para isso é que a média está
próxima do centro de massa do histograma, ou seja, ela está próxima do ponto em que o
histograma estaria em equilíbrio se fosse apoiado neste ponto. Para um histograma assi-
métrico para a direita, mais da metade dos dados estarão à esquerda do centro de massa.
De modo similar, a média é menor do que a mediana para um histograma que é assimé-
trico para a esquerda (Figura 1.9a). O histograma para os dados de material particulado
(Figura 1.8) é assimétrico para a direita. A média amostral é 6,596, que é maior do que a
mediana amostral, 5,75.
Histrogramas unimodal e bimodal
Usamos o termo “moda” para nos referirmos ao valor que ocorre mais frequentemente
em uma amostra. Esse termo também é usado em relação aos histogramas e outras curvas
para se referir a um pico ou máximo local. Um histograma é unimodal se ele tem apenas
um pico, ou moda, e bimodal se ele tem duas modas claramente distintas. Em princípio,
um histograma pode ter mais de duas modas, mas isso não acontece frequentemente na
prática. Os histogramas na Figura 1.9 são todos unimodais. A Figura 1.10 mostra um
histograma bimodal para um amostra hipotética.
Em alguns casos, um histograma bimodal indica que a amostra pode ser dividida
em duas subamostras que diferem entre si de alguma forma cientificamente importante.
Cada amostra corresponde a uma das modas. Como exemplo, os dados na Tabela 1.5
dizem respeito ao gêiser Old Faithful no Yellowstone National Park. Este gêiser alterna
períodos de erupção, que tipicamente são de 1,5 a 4 minutos, com períodos de dormên-
cia, que são consideravelmente maiores. A Tabela 1.5 mostra as durações, em minutos,
de 60 períodos de dormência. Juntamente com os períodos de dormência, a duração da
erupção que imediatamente antecede o período de dormência é classificada como curta
(menor que 3 minutos) ou longa (maior que 3 minutos).
(a () b () c)
Média Mediana Média Mediana MédiaMediana
Figura 1.9 (a) Um histograma assimétrico para a esquerda. A média é menor do que a mediana. (b) Um
histograma quase simétrico. A média e a mediana são aproximadamente iguais. (c) Um histograma assimé-
trico para a direita. A média é maior do que a mediana.
Navidi_01.indd 25Navidi_01.indd 25 27/01/12 16:2727/01/12 16:27
26 Capítulo 1 Medidas sobre dados univariados
Figura 1.10 Um histograma bimodal.
Tabela 1.5 Durações dos períodos de dormência (em minutos) e das erupções anteriores do
gêiser Old Faithful
Dormência Erupção Dormência Erupção Dormência Erupção Dormência Erupção
76 Longa 90 Longa 45 Curta 84 Longa
80 Longa 42 Curta 88 Longa 70 Longa
84 Longa 91 Longa 51 Curta 79 Longa
50 Curta 51 Curta 80 Longa 60 Longa
93 Longa 79 Longa 49 Curta 86 Longa
55 Curta 53 Curta 82 Longa 71 Longa
76 Longa 82 Longa 75 Longa 67 Curta
58 Curta 51 Curta 73 Longa 81 Longa
74 Longa 76 Longa 67 Longa 76 Longa
75 Longa 82 Longa 68 Longa 83 Longa
80 Longa 84 Longa 86 Longa 76 Longa
56 Curta 53 Curta 72 Longa 55 Curta
80 Longa 86 Longa 75 Longa 73 Longa
69 Longa 51 Curta 75 Longa 56 Curta
57 Longa 85 Longa 66 Curta 83 Longa
(a)
Fr
eq
uê
nc
ia
Duração (minutos)
15
12
9
6
3
0
40 45 50 55 60 65 70 75 80 85 90 95
(b)
Fr
eq
uê
nc
ia
Duração (minutos)
15
12
9
6
3
0
40 45 50 55 60 65 70 75 80 85 90 95
(c)
Fr
eq
uê
nc
ia
Duração (minutos)
15
12
9
6
3
0
40 45 50 55 60 65 70 75 80 85 90 95
Figura 1.11 (a) Histograma para os 60 períodos de duração da Tabela 1.5. Este histograma é bimodal.
(b) Histograma para os períodos de duração da Tabela 1.5 seguidos de erupções curtas. (c) Histograma para
os períodos de duração da Tabela 1.5 seguidos de erupções longas. Os histogramas para os períodos de du-
ração seguidos de erupções curtas e longas são unimodais, mas as modas são em pontos distintos. Quando
as duas amostras são combinadas, o histograma é bimodal.
Navidi_01.indd 26Navidi_01.indd 26 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 27
A Figura 1.11a mostra um histograma para os 60 períodos de duração. As Figuras
1.11b e 1.11c mostram histogramas para os períodos seguidos de erupções curtas e longas,
respectivamente. O histograma para todas as durações é claramente bimodal. Os histogra-
mas para os períodos de duração seguidos de erupções curtas ou longas são unimodais, e
suas modas foram as duas modas do histograma para todas as amostras.
Gráficos de caixa
Um gráfico de caixa apresenta a mediana, o primeiro e terceiro quartis e quaisquer va-
lores atípicos que são representados em uma amostra. Os gráficos de caixa são fáceis de
serem entendidos, mas exige o conhecimento da terminologia que os acompanha. A am-
plitude interquartil (IQR) é a diferença entre o terceiro e o primeiro quartil. Note que,
como 75% dos dados são menores do que o terceiro quartil e 25% dos dados são menores
do que o primeiro quartil, segue-se que 50%, ou metade, dos dados está entre o primeiro
e terceiro quartis. Portanto, a amplitude interquartil é a distância necessária para cobrir a
metade central dos dados.
Definimos os valores atípicos como pontos com valores geralmente grandes ou pe-
quenos. Se a IQR representa a amplitude interquartil, então para desenhar gráficos de cai-
xa, qualquer ponto que for mais do que 1,5 IQR acima do terceiro quartil ou mais do que
1,5 IQR abaixo do primeiro quartil, é considerado valor atípico. Alguns autores definem
um ponto que for mais do que 3 IQR a partir do primeiro ou terceiro quartis como um
valor atípico extremo. Essas definições de valores atípicos são apenas convenções para
o desenho de gráficos de caixa e não precisam ser usadas em outras situações.
A Figura 1.12 mostra um gráfico de caixa para alguns dados hipotéticos. O gráfico
consiste em uma caixa cujo lado de baixo é o primeiro quartil e cujo lado de cima é o
terceiro quartil. A linha horizontal é desenhada na mediana. Os “valores atípicos” são
plotados individualmente e indicados por cruzes na figura. As linhas verticais que se
estendem a partir dos lados inferior e superior da caixa são denominadas “bigodes”
(whiskers). Os “bigodes” terminam no ponto de dados mais extremo que não seja valor
atípico.
Terceiro quartil
MedianaPrimeiro quartil
Ponto de dado de maior valor dentro
de 1,5 IQR do terceiro quartil
Ponto de dado de menor valor
dentro de 1,5 IQR do primeiro quartil
Valores atípicos
Figura 1.12 Anatomia de um gráfico de caixa.
Navidi_01.indd 27Navidi_01.indd 27 27/01/12 16:2727/01/12 16:27
28 Capítulo 1 Medidas sobre dados univariados
À parte de qualquer valor atípico, um gráfico de caixa pode ser visto como tendo
quatro partes: as duas partes da caixa separadas pela linha mediana e os dois “bigodes”.
Novamente, à parte dos valores atípicos, cada uma das quatro partes representa um quar-
to dos dados. Portanto, o gráfico de caixa indica o quanto um intervalo se estende em
cada quarto dos dados e, desta forma, ele pode ser usado para determinar as regiões nas
quais os valores da amostra são mais densos e as regiões nas quais eles são mais esparsos.
Passos na construção de um gráfico de caixa
■ Calcule a mediana e o primeiro e terceiro quartis da amostra. Indique esses va-
lores com linhas horizontais. Desenhe linhas verticais para completar a caixa.
■ Determine o maior valor da amostra que não esteja mais do que 1,5 IQR acima
do terceiro quartil e o menor valor da amostra que não esteja mais do que 1,5
IQR abaixo do primeiro quartil. Estenda linhas verticais (“bigodes”) a partir das
linhas dos quartis para esses pontos.
■ Os pontos mais do que 1,5 IQR acima do terceiro quartil, ou mais do que 1,5 IQR
abaixo do primeiro quartil são indicados como valores atípicos. Plote cada valor
atípico individualmente.
A Figura 1.13 mostra um gráfico de caixa para os dados do gêiser apresentados na
Tabela 1.5. Primeiro note que não existem valores atípicos nestes dados. Comparando as
quatro partes do gráfico de caixa, podemos dizer que os valores da amostra são compara-
tivamente densos entre a mediana e o terceiro quartil e mais esparsos entre a mediana e o
primeiro quartil. O “bigode” inferior é um pouco maior do que o superior, indicando que
os dados têm uma cauda inferior ligeiramente mais longa do que a superior. Visto que a
distância entre a mediana e o primeiro quartil é maior do que a distância entre a mediana
e o terceiro quartil e visto que o quarto inferior dos dados produz um “bigode” maior do
que o quarto superior, este gráfico de caixa sugere que os dados são assimétricos para a
esquerda.
100
90
80
70
60
50
40
D
ur
aç
ão
(
m
in
ut
os
)
Figura 1.13 Gráfico de caixa para os dados da Tabela 1.5 dos períodos de dormência do gêiser
Old Faithful.
Navidi_01.indd 28Navidi_01.indd 28 27/01/12 16:2727/01/12 16:27
1.3 Representações gráficas 29
Um histograma para estes dados foi apresentado na Figura 1.11a. O histograma
mostra uma impressão mais geral da dispersão dos dados. Um detalhe importante é que o
histograma indica que os dados são bimodais, o que um gráfico de caixa não pode fazer.
Gráficos de caixa comparativos
Uma característica útil dos gráficos de caixa é que muitos deles podem ser colocados
lado a lado permitindo uma comparação visual fácil das características de várias amos-
tras. As Tabelas 1.1 e 1.2 (na Seção 1.2) mostram emissões de material particulado para
veículos que circulam em altitudes alta e baixa. A Figura 1.14 mostra uma comparação
lado a lado de gráficos de caixa para essas duas amostras.
Os gráficos de caixa comparativos na Figura 1.14 mostram que os veículos que cir-
cularam em altitude baixa tiveram emissões menores. Além disso, existem vários valores
atípicos entre os dados dos veículos que circularam em altitude alta (há também um valor
para altitude baixa que mal se qualifica como um valor atípico). Concluímos que em
altitude alta os veículos têm, em geral, emissões um pouco mais elevadas e que alguns
veículos têm emissões muito maiores. A caixa para os veículos que circularam em altitu-
de alta é um pouco mais alta, e o “bigode” inferior, um pouco mais longo em relação aos
veículos que circularam em altitude baixa. Concluímos que, além dos valores atípicos, a
dispersão nos valores é ligeiramente maior para os veículos que circularam em altitude
alta e muito maior quando os valores atípicos são considerados.
Na Figura 1.4 (na Seção 1.2), comparamos os valores de algumas estatísticas des-
critivas para estas duas amostras e obtivemos algumas conclusões similares a essas. A
natureza visual dos gráficos de caixa comparativos na Figura 1.14 tornam a comparação
das características das amostras muito mais fácil.
Mencionamos que é importante controlar os valores atípicos para determinar se eles
são provenientes de erros, caso no qual podem ser apagados. Na identificação de valores
atípicos, os gráficos de caixa podem ser úteis nesse sentido. O exemplo a seguir fornece
uma ilustração.
25
20
15
10
5
0
E
m
is
sõ
es
(
g/
ga
l)
Altitude baixa Altitude alta
Figura 1.14 Gráficos de caixa comparativos para emissões de material particulado por veículos
que circularam em altitude baixa versus altitude alta.
Navidi_01.indd 29Navidi_01.indd 29 27/01/12 16:2727/01/12 16:27
30 Capítulo 1 Medidas sobre dados univariados
O artigo em inglês “Virgin Versus Recycled Wafers for Furnace Qualification: Is the
Expense Justified?” (Pastilhas Novas versus Recicladas para a Qualificação do Forno: A
Despesa é Justificada?) (V. Czitrom and J. Reece, Statistical Case Studies for Industrial Pro-
cess Improvement, ASA and SIAM, 1997:87−104) descreve um processo para o cultivo de
uma fina camada de dióxido de silício sobre pastilhas que são usadas na fabricação de semi-
condutores. A Tabela 1.6 mostra a espessura de medições, em angstroms (Å), da camada de
dióxido para 24 pastilhas. Foram feitas nove medidas em cada pastilha. As pastilhas foram
produzidas em dois processos de execução separados com 12 pastilhas em cada processo.
Tabela 1.6 Espessuras da camada de óxido em pastilhas de silício
Pastilhas Espessuras (Å)
Processo 1 1 90,0 92,2 94,9 92,7 91,6 88,2 92,0 98,2 96,0
2 91,8 94,5 93,9 77,3 92,0 89,9 87,9 92,8 93,3
3 90,3 91,1 93,3 93,5 87,2 88,1 90,1 91,9 94,5
4 92,6 90,3 92,8 91,6 92,7 91,7 89,3 95,5 93,6
5 91,1 89,8 91,5 91,5 90,6 93,1 88,9 92,5 92,4
6 76,1 90,2 96,8 84,6 93,3 95,7 90,9 100,3 95,2
7 92,4 91,7 91,6 91,1 88,0 92,4 88,7 92,9 92,6
8 91,3 90,1 95,4 89,6 90,7 95,8 91,7 97,9 95,7
9 96,7 93,7 93,9 87,9 90,4 92,0 90,5 95,2 94,3
10 92,0 94,6 93,7 94,0 89,3 90,1 91,3 92,7 94,5
11 94,1 91,5 95,3 92,8 93,4 92,2 89,4 94,5 95,4
12 91,7 97,4 95,1 96,7 77,5 91,4 90,5 95,2 93,1
Processo 2 1 93,0 89,9 93,6 89,0 93,6 90,9 89,8 92,4 93,0
2 91,4 90,6 92,2 91,9 92,4 87,6 88,9 90,9 92,8
3 91,9 91,8 92,8 96,4 93,8 86,5 92,7 90,9 92,8
4 90,6 91,3 94,9 88,3 87,9 92,2 90,7 91,3 93,6
5 93,1 91,8 94,6 88,9 90,0 97,9 92,1 91,6 98,4
6 90,8 91,5 91,5 91,5 94,0 91,0 92,1 91,8 94,0
7 88,0 91,8 90,5 90,4 90,3 91,5 89,4 93,2 93,9
8 88,3 96,0 92,8 93,7 89,6 89,6 90,2 95,3 93,0
9 94,2 92,2 95,8 92,5 91,0 91,4 92,8 93,6 91,0
10 101,5 103,1 103,2 103,5 96,1 102,5 102,0 106,7 105,4
11 92,8 90,8 92,2 91,7 89,0 88,5 87,5 93,8 91,4
12 92,1 93,4 94,0 94,7 90,8 92,1 91,2 92,3 91,1
As 12 pastilhas em cada processo eram de vários tipos diferentes e foram proces-
sadas em vários locais diferentes do forno. A finalidade na obtenção dos dados era de-
terminar se a espessura da camada de óxido foi afetada pelo tipo de pastilha ou a loca-
lização no forno. Portanto, este foi um experimento fatorial, com o tipo de pastilha e a
localização no forno como os fatores e a espessura da camada de óxido como o resultado.
Desejava-se que o experimento não produzisse nenhuma diferença sistemática na espes-
sura entre um processo e o outro. O primeiro passo na análise foi construir um gráfico de
caixa para os dados em cada processo para ajudar a determinar se essa condição era de
fato cumprida e se qualquer uma das observações deveria ser apagada. Os resultados são
apresentados na Figura 1.15.
O gráfico de caixa mostra que existem vários valores atípicos em cada processo.
Note que além desses valores atípicos, não há diferenças