Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introdução Os avanços na ciência e engenharia ocorrem em grande parte por meio de coleta e análise de dados. A análise adequada de dados é desafiadora, porque os dados científicos estão sujeitos a variações aleatórias. Ou seja, quando medições científicas são repetidas, elas se revelam um pouco diferentes a cada vez. Isso evidencia um problema: como podemos tirar conclusões a partir dos resultados de um experimento quando esses resultados se revelam diferentes? Para discutir esta questão, é essencial um conhecimento sobre estatística. Os métodos de estatística permitem aos cientistas e engenheiros projetar experimentos válidos e tirar conclusões seguras a partir dos dados produzidos. A ênfase deste livro está nas aplicações para cientistas e engenheiros, mas vale a pena mencionar que a análise e interpretação desempenham um papel cada vez maior em todos os aspectos da vida moderna. Para melhor ou pior, enormes quantidades de dados são coletados sobre nossas opiniões e estilos de vida, para fins que vão desde a cria- ção de campanhas de marketing mais eficazes ao desenvolvimento das políticas sociais destinadas a melhorar o nosso modo de vida. Quase todo dia, são publicados artigos de jornais que se propõem a explicar tendências sociais ou econômicas através da análise de dados. Portanto, é necessário um conhecimento básico de estatística não apenas para ser um cientista ou engenheiro eficaz, mas também para ser uma pessoa bem informada na sociedade. A ideia básica A ideia básica por trás de todos os métodos de estatística da análise de dados é infe- rir sobre uma população estudando uma amostra relativamente pequena dela. Como ilustração, considere uma máquina que faz esferas de aço para rolamentos usados em sistemas de embreagem. A especificação para o diâmetro das esferas é 0,65 ± 0,03 cm. Durante a última hora, a máquina fez 2.000 esferas. O engenheiro que faz o controle de Capítulo 1 Medidas sobre dados univariados Navidi_01.indd 1Navidi_01.indd 1 27/01/12 16:2727/01/12 16:27 2 Capítulo 1 Medidas sobre dados univariados qualidade deseja saber quantas destas esferas, aproximadamente, estão de acordo com a especificação. Ele não tem tempo para medir todas elas. Assim, ele extrai uma amostra aleatória de 80 esferas, mede o diâmetro delas e constata que 72 (90%) estão de acordo com a especificação. Agora, é pouco provável que a amostra de 80 esferas represente perfeitamente a população de 2.000. É provável que a proporção de esferas boas na po- pulação seja um pouco diferente da proporção de 90% da amostra. O que o engenheiro precisa saber é apenas o provável valor dessa diferença. Por exemplo, é plausível que a percentagem da população fosse tão alta quanto 95 ou 98%? Ou ainda tão baixa quanto 85 ou 80%? A seguir temos algumas questões específicas que o engenheiro talvez precise res- ponder com base nos dados da amostra: 1. O engenheiro precisa calcular uma estimativa aproximada do tamanho provável da diferença entre as proporções da amostra e da população. Qual é o valor da diferença típica para esse tipo de amostra? 2. O engenheiro de controle de qualidade precisa registrar em um livro de registros a percentagem de esferas aceitáveis fabricadas na última hora. Ao observar que 90% das amostras de esferas estão dentro da especificação, ele indica a percentagem de esferas aceitáveis na população como um intervalo na forma de 90% ± x%, em que x é um número calculado para fornecer uma certeza razoável de que a percentagem real da população está no intervalo. Como x deve ser calculado? 3. O engenheiro deseja estar razoavelmente certo de que a percentagem de esferas den- tro da especificação é de pelo menos 85%; caso contrário, ele paralisará o processo para uma recalibração. Como ele pode estar certo de que pelo menos 85% das 1.000 esferas estão dentro da especificação? Grande parte deste livro é dedicada a abordar questões como essas. A primeira delas requer o cálculo de um desvio padrão, que discutiremos no Capítulo 3. A segunda ques- tão requer a construção de um intervalo de confiança, que estudaremos no Capítulo 5. A terceira solicita um teste de hipótese, que aprenderemos no Capítulo 6. Os capítulos restantes deste livro abordam outros tópicos importantes. Por exem- plo, o engenheiro em nosso exemplo pode querer saber qual a quantidade de car- bono nas esferas de aço está relacionada à sua resistência à compressão. Problemas como este podem ser resolvidos com métodos de correlação e regressão, abordados nos Capítulos 2 e 8. Pode ser importante também determinar como ajustar o processo de fabricação no que diz respeito a diversos fatores para otimizar os resultados da produção. Isso requer um projeto de experimentos fatoriais, que são discutidos no Capítulo 9. Finalmente, o engenheiro precisará desenvolver um plano para monitorar a qualidade do produto fabricado. O Capítulo 10 trata do tópico de controle estatístico da qualidade, no qual métodos estatísticos são usados para manter a qualidade em um ambiente industrial. Os tópicos listados aqui dizem respeito a métodos que tiram conclusões a partir de dados. Esses métodos constituem o campo da estatística inferencial. Antes de discutirmos esses tópicos, temos que aprender mais sobre os métodos de coleta de dados e sintetizar claramente a informação básica que eles contêm. Esses são os tópicos de amostragem e estatística descritiva, abordados no restante deste capítulo. Navidi_01.indd 2Navidi_01.indd 2 27/01/12 16:2727/01/12 16:27 1.1 Amostragem 3 1.1 Amostragem Conforme mencionado, os métodos estatísticos são baseados na ideia de analisar uma amostra obtida de uma população. Para que essa ideia funcione, a amostra tem que ser escolhida de forma apropriada. Por exemplo, digamos que quiséssemos estudar a altura dos estudantes da escola medindo uma amostra de 100 estudantes. Como poderíamos escolher os 100 estudantes? Alguns métodos são obviamente ruins. Por exemplo, es- colher os estudantes a partir das listas dos times de basquete, sem dúvida, resultará em uma amostra que não representa a distribuição da altura da população de estudantes. Você pode pensar que seria razoável usar alguma amostra obtida convenientemente, por exemplo, todos os estudantes que vivem em um determinado dormitório ou todos os estudantes matriculados em engenharia estatística. Afinal, não há razão para pensar que a altura destes estudantes tenda a diferir da altura dos estudantes em geral. Entretanto, amostras como essas não são ideais porque podem ser enganosas em formas não espe- radas. Os melhores métodos de amostragem envolvem amostragem aleatória. Existem muitos métodos de amostragem aleatória, dos quais o mais básico é a amostragem aleatória simples. Amostras aleatórias simples Para entender a natureza de uma amostra aleatória simples pense em uma loteria. Ima- gine que 10.000 recibos de apostas de loteria foram vendidos e que 5 deles foram sor- teados. Qual é a forma mais justa de escolher os ganhadores? A forma mais justa é colocar os 10.000 tíquetes em uma urna, misturá-los completamente e, em seguida, retirar os tíquetes um de cada vez. O mais importante é que cada coleção de 5 recibos de apostas que pode ser formada a partir dos 10.000 é igualmente provável que com- ponha o grupo de 5 sorteados. Esta é a ideia que forma a base para a definição de uma amostra aleatória simples. Resumo ■ Uma população é uma coleção inteira de objetos ou resultados sobre os quais a informação é obtida. ■ Uma amostra é um subconjunto de uma população que contém os objetos ou resultados que são realmente observados. ■ Uma amostra aleatória simples de tamanho n é uma amostra escolhida por um método no qual cada coleção de n itens da população é igualmente provável de compor a amostra, da mesma forma como em uma loteria. Visto que uma amostra aleatória simples é análoga a uma loteria, ela pode ser frequentemente obtida pelo mesmo método usado em muitas loterias:com um compu- tador que gera números aleatórios. Suponha que existem N itens em uma população. Atribui-se para cada item da população um inteiro entre 1 e N. Em seguida, gera-se uma lista aleatória de inteiros entre 1 e N e escolhem-se os itens da população corres- pondente para compor a amostra aleatória simples. Navidi_01.indd 3Navidi_01.indd 3 27/01/12 16:2727/01/12 16:27 4 Capítulo 1 Medidas sobre dados univariados Exemplo 1.1 Uma concessionária pretende realizar uma pesquisa para medir o nível de satisfação dos seus clientes em uma determinada cidade. Existem 10.000 clientes na cidade e os fun- cionários querem obter uma amostra de tamanho 200 para entrevistar por telefone. Eles obtêm uma lista de 10.000 clientes e os numera de 1 a 10.000. Eles usam um computador para gerar 200 números aleatórios entre 1 e 10.000 e ligam para os clientes que corres- pondem aos números obtidos. Esta é uma amostra aleatória simples? Solução Sim. Note que o processo é análogo ao de uma loteria no qual cada cliente tem um recibo e são sorteados 200 recibos. Exemplo 1.2 Um engenheiro de controle de qualidade deseja inspecionar microcircuitos eletrônicos para obter a informação da proporção de itens defeituosos. Ele decide obter uma amostra de 100 circuitos a partir da produção de um dia. A cada hora, durante 5 horas, ele pega os 20 últimos circuitos produzidos e os testa. Esta é uma amostra aleatória simples? Solução Não. Cada subconjunto de 100 circuitos não é igualmente provável que componha a amostra. Para construir uma amostra aleatória simples, o engenheiro precisaria atribuir um número a cada circuito produzido durante o dia e, em seguida, gerar números aleató- rios para determinar quais circuitos comporão a amostra. Amostras de conveniência Em alguns casos é difícil, ou impossível, obter uma amostra de forma verdadeiramente aleatória. Nestes casos, o melhor a fazer é amostrar os itens usando um método conve- niente. Por exemplo, imagine que um engenheiro civil acaba de receber um carregamento de 1.000 blocos de concreto, cada um pesando aproximadamente 50 libras (22,7 kg). Os blocos foram entregues em uma grande pilha. O engenheiro deseja investigar a resistên- cia à pressão dos blocos medindo o esforço em uma amostra de 10 blocos. Para obter uma amostra aleatória simples seria necessário remover os blocos do centro e da parte de baixo da pilha, o que poderia ser bastante difícil. Por isso, o engenheiro pode construir uma amostra simplesmente retirando 10 blocos do topo da pilha. Uma amostra como essa é denominada amostra de conveniência. Definição Uma amostra de conveniência é aquela que não pode ser obtida por um método aleatório bem definido. Navidi_01.indd 4Navidi_01.indd 4 27/01/12 16:2727/01/12 16:27 1.1 Amostragem 5 O grande problema com amostras de conveniência é que elas podem diferir sistema- ticamente da população de alguma forma. Por isso, as amostras de conveniência devem apenas ser usadas em situações em que não for viável extrair uma amostra aleatória. Quando for necessário obter uma amostra de conveniência, é importante pensar com cuidado nas formas em que a amostra pode diferir sistematicamente da população. Se for razoável acreditar que não existe uma diferença sistemática importante, então pode ser aceitável considerar a amostra de conveniência como se ela fosse uma amostra aleatória simples. Com relação aos blocos de concreto, se o engenheiro está confiante de que os blocos no topo da pilha não diferem sistematicamente de forma importante do restante dos blocos, então ele pode tratar a amostra de conveniência como uma amostra aleatória simples. Entretanto, se for possível que os blocos em diferentes partes da pilha possam ter sido feitos a partir de diferentes lotes de mistura ou possam ter diferentes tempos ou temperaturas de cura, uma amostra de conveniência pode produzir resultados enganosos. Algumas pessoas acham que uma amostra aleatória simples garante refletir perfeita- mente a sua população. Isso não é verdade. Amostras aleatórias simples sempre diferem de sua população de alguma forma e, ocasionalmente, elas podem ser substancialmente diferentes. Duas amostras diferentes da mesma população diferem uma da outra também. Esse fenômeno é conhecido como variação amostral. A variação amostral é uma das ra- zões em que experimentos científicos produzem resultados um pouco diferentes quando repetidos, mesmo quando as condições parecem ser idênticas. Por exemplo, suponha que um inspetor de qualidade extrai uma amostra aleatória simples de 40 parafusos de um grande carregamento, mede o comprimento de cada um e verifica que 32 deles, ou 80%, atendem à especificação de comprimento. Outro inspetor extrai uma amostra diferente de 40 parafusos e verifica que 36 deles, ou 90%, atendem à especificação. Por acaso, o segundo inspetor teve mais parafusos bons em sua amostra. É provável que nenhuma amostra reflita a população perfeitamente. A proporção de parafusos bons na população é provavelmente próxima de 80% ou 90%, mas é provável que ela não seja exatamente igual a um destes valores. Visto que as amostras aleatórias simples não refletem suas populações perfeitamen- te, por que é importante que a amostragem seja feita aleatoriamente? O benefício de uma amostragem aleatória simples é que não existe um mecanismo sistemático que tende a tornar a amostra não representativa. As diferenças entre a amostra e sua população são originárias inteiramente de variações aleatórias. Visto que a teoria matemática da varia- ção aleatória é bem entendida, podemos usar modelos matemáticos para estudar a relação entre amostras aleatórias simples e suas populações. Para uma amostra não escolhida de forma aleatória, geralmente não há teoria disponível para descrever os mecanismos que fazem com que a amostra seja diferente de sua população. Portanto, amostras não aleató- rias geralmente são difíceis de serem analisadas de forma confiável. Populações tangíveis e conceituais As populações discutidas até este momento consistiam de objetos físicos: os clientes de uma concessionária, os blocos de concreto em uma pilha, os parafusos em um carrega- mento. Essas populações são denominadas populações tangíveis. Tais populações são sempre finitas. Após a amostragem de um item, o tamanho da população diminui em uma unidade. Em princípio, em alguns casos podemos retornar o item amostrado para a popu- lação, com uma chance de amostrá-lo novamente, mas isso raramente é feito na prática. Navidi_01.indd 5Navidi_01.indd 5 27/01/12 16:2727/01/12 16:27 6 Capítulo 1 Medidas sobre dados univariados Os dados em engenharia são frequentemente produzidos por meio de medidas reali- zadas no decorrer do experimento científico, em vez de uma amostragem a partir de uma população tangível. Considere um exemplo simples em que um engenheiro mede o compri- mento de uma haste cinco vezes sendo tão cuidadoso quanto possível para tomar as medidas sob condições idênticas. Não importa o quão cuidadosas sejam as medidas realizadas, elas serão um pouco diferentes uma da outra por causa da variação no processo de medição que não pode ser controlado ou previsto. Por sua vez, é frequentemente apropriado considerar dados como estes como sendo amostras aleatórias simples de uma população. A população, nestes casos, consiste de todos os valores que podem ser possivelmente observados. Essa população é denominada população conceitual, visto que não consiste de objetos reais. Definição Uma amostra aleatória simples pode consistir em valores obtidos a partir de um pro- cesso sob condições experimentais idênticas. Neste caso, a amostra é proveniente de uma população que consiste de todos os valores que podem ser possivelmente observados. Essa população é denominada população conceitual. O Exemplo 1.3 envolve uma população conceitual. Exemplo 1.3 Um geólogo pesa uma rocha várias vezes em uma balança de precisão. Em cada pesagem a balança fornece umvalor ligeiramente diferente. Sob que condições esses valores po- dem ser considerados amostras aleatórias simples? Qual é a população? Solução Se as características físicas da balança permanecerem as mesmas para cada pesagem, de modo que as medidas sejam feitas em condições idênticas, então as leituras podem ser consideradas como sendo uma amostra aleatória simples. A população é conceitual. Ela consiste de todas as leituras que a balança poderia, em princípio, produzir. Determinando se uma amostra é aleatória simples Vimos no Exemplo 1.3 que são as características físicas do processo de medição que determinam se os dados constituem uma amostra aleatória simples. Em geral, quando decidimos se um conjunto de dados pode ser considerado uma amostra aleatória simples, é necessário entender o processo que gerou os dados. Algumas vezes os métodos esta- tísticos podem ajudar, especialmente quando a amostra for grande, mas o conhecimento sobre o mecanismo de geração dos dados é mais importante. Exemplo 1.4 Um novo processo químico, que produz um determinado produto químico, foi idealizado para ter um rendimento de produção maior do que o processo anterior. Para estudar o rendimento desse novo processo, o executamos 50 vezes e registramos os 50 resultados. Navidi_01.indd 6Navidi_01.indd 6 27/01/12 16:2727/01/12 16:27 1.1 Amostragem 7 Sob que condições esse procedimento pode ser razoavelmente considerado uma amostra aleatória simples? Descreva algumas condições sob as quais esse processo não pode ser tratado apropriadamente como uma amostra aleatória simples. Solução Para responder a isso, primeiro temos que especificar a população. A população é con- ceitual e consiste no conjunto de toda a produção resultante desse processo tantas vezes quanto ele for executado. O que fizemos é amostrar os 50 primeiros resultados de pro- dução. Podemos considerar a amostra como aleatória simples se, e somente se, estamos seguros de que os 50 primeiros resultados de produção foram gerados sob condições idênticas e que eles não sejam, de alguma forma, sistematicamente diferentes de resulta- dos posteriores. Entretanto, seja cauteloso. Existem muitas condições sob as quais os 50 resultados de produção poderiam não se enquadrar em uma amostra aleatória simples. Por exemplo, algumas vezes ocorrem com processos químicos situações em que uma produção maior é seguida de uma produção menor e vice-versa. Algumas vezes a produção tende a au- mentar ao longo do tempo, à medida que os engenheiros de processo aprendem com a experiência como executar o processo mais eficientemente. Nesses casos, as produções não são geradas sob condições idênticas e não poderiam constituir uma amostra aleatória simples. O Exemplo 1.4 mostra mais uma vez que um bom conhecimento da natureza do pro- cesso sob consideração é importante ao decidir se os dados podem ser considerados uma amostra aleatória simples. Algumas vezes os métodos estatísticos podem ser usados para mostrar que um determinado conjunto de dados não é uma amostra aleatória simples. Por exemplo, algumas vezes as condições experimentais mudam gradualmente ao longo do tempo. Um método simples, porém efetivo, para detectar essa condição é traçar o gráfico das observações na ordem em que elas são realizadas. Uma amostra aleatória simples não deve mostrar nenhum padrão ou tendência. 100 20 Número de medições 30 40 50 (a) 100 20 Número de medições 30 40 50 (b) 100 20 Número de medições 30 40 50 (c) Figura 1.1 Três gráficos dos valores observados versus a ordem na qual eles são obtidos. (a) Os valores mostram um padrão definido ao longo do tempo. Esta não é uma amostra aleatória simples. (b) Os valores mostram uma tendência ao longo do tempo. Esta não é uma amostra aleatória simples. (c) Os valores não mostram um padrão ou uma tendência. Estes dados podem ser considerados apropriadamente uma amostra aleatória simples. Navidi_01.indd 7Navidi_01.indd 7 27/01/12 16:2727/01/12 16:27 8 Capítulo 1 Medidas sobre dados univariados A Figura 1.1 apresenta os gráficos de três amostras na ordem em que elas foram obtidas. O gráfico na Figura 1.1a mostra um padrão de oscilação. O gráfico na Figura 1.1b mostra uma tendência de aumento. O gráfico na Figura 1.1c não apresenta qualquer padrão ou tendência óbvia. Pode ser apropriado tratar estes dados como uma amostra aleatória simples. Entretanto, antes de tomar essa decisão, ainda é importante pensar sobre o processo que produziu os dados, visto que pode haver a preocupação de que não apareça no gráfico. Independência Diz-se que os itens em uma amostra são independentes se os valores de alguns deles não ajudam a prever os valores de outros. Com uma população finita (tangível), os itens em uma amostra aleatória simples não são estritamente independentes, porque à medida que cada item é obtido, a população muda. Essa mudança pode ser substancial quando a população for pequena. Entretanto, quando a população for muito grande, essa variação é desprezível, e os itens podem ser tratados como se fossem independentes. Para ilustrar essa ideia, imagine que obtemos uma amostra aleatória simples de 2 itens da população 0 0 1 1 Para a primeira extração, os números 0 e 1 são igualmente prováveis. Mas o valor do segundo item é claramente influenciado pelo primeiro; se o primeiro for 0, é mais pro- vável que o segundo seja 1 e vice-versa. Portanto, os itens amostrados são dependentes. Agora considere que extraímos uma amostra de tamanho 2 desta população: 0 ’sUm milhão de 1 ’sUm milhão de Novamente, na primeira extração os números 0 e 1 são igualmente prováveis. Mas diferentemente do exemplo anterior, os dois valores restantes são também quase igual- mente prováveis na segunda extração, não importando o valor na primeira extração. No caso das grandes populações, os itens amostrados são, para todos os fins práticos, inde- pendentes. É razoável se perguntar como uma grande população deve estar em ordem de modo que os itens em uma amostra aleatória simples possam ser tratados como independen- tes. A regra geral é que, quando se amostra uma população finita, os itens podem ser tratados como independentes enquanto a amostra for constituída de 5% ou menos da população. Curiosamente, é possível fazer a população se comportar como se fosse infinita- mente grande, repondo cada item após ser amostrado. Esse método é denominado amos- tragem com reposição. Com esse método, a população é exatamente a mesma em cada extração, e os itens amostrados são verdadeiramente independentes. Com uma população conceitual, precisamos que os itens da amostra sejam produzi- dos sob condições experimentais idênticas. Então, em especial, nenhum valor de amostra pode influenciar as condições sob as quais os outros serão produzidos. Portanto, os itens em uma amostra aleatória simples de uma população conceitual podem ser tratados como Navidi_01.indd 8Navidi_01.indd 8 27/01/12 16:2727/01/12 16:27 1.1 Amostragem 9 independentes. Podemos pensar em uma população conceitual como sendo infinita ou, de forma equivalente, que os itens são amostrados com reposição. Resumo ■ Os itens em uma amostra são independentes se o conhecimento dos valores de alguns deles não ajudam a prever os valores de outros. ■ Os itens em uma amostra aleatória simples podem ser tratados como indepen- dentes em muitas situações encontradas na prática. A exceção ocorre quando a população é finita e a amostra constitui uma fração substancial (mais do que 5%) da população. Outros métodos de amostragem Além da amostragem aleatória simples, existem outros métodos de amostragem que são úteis em várias situações. Na amostragem ponderada, para alguns itens são dadas chan- ces maiores de serem selecionados do que outros, como uma loteria em que algumas pes- soas têm mais recibos de apostas que outras. Na amostragem aleatória estratificada, a população é dividida em subpopulações, denominadas estratos, e uma amostra aleatóriasimples é extraída de cada estrato. Em amostragem por grupos, os itens são extraídos da população em grupos, ou conglomerados. A amostragem por grupos é útil quando a população é muito grande e extensa para que uma amostragem aleatória simples seja viável. Por exemplo, muitas agências governamentais nos Estados Unidos usam amos- tragem por grupos para amostrar a população americana para medir fatores sociológicos como renda e desemprego. Uma boa fonte de informação sobre métodos de amostragem é Cochran (1977). A amostragem aleatória simples não é o único método válido de amostragem. Mas ele é o mais fundamental e dedicaremos mais a nossa atenção a este método. Deste mo- mento em diante, a menos que seja especificado, os termos “amostra” e “amostra aleató- ria” devem ser entendidos como “amostra aleatória simples”. Tipos de dados Quando um valor numérico designa o quanto é associado a cada item em uma amostra, o conjunto de valores resultante é denominado numérico ou quantitativo. Em alguns casos, os itens da amostra são colocados em categorias, e os nomes das categorias são associados aos itens da amostra. Então os dados são categóricos ou qualitativos. Algu- mas vezes os dados quantitativos ou categóricos são obtidos no mesmo experimento. Por exemplo, em um ensaio de carga das conexões soldadas entre colunas e vigas, os dados podem ser coletados no torque aplicado na falha e na localização da falha (solda ou viga). O torque é uma variável quantitativa, e a localização é uma variável categórica. Experimentos controlados e estudos observacionais Muitos experimentos científicos são idealizados para determinar o efeito da variação de um ou mais fatores nos valores de uma resposta. Por exemplo, suponha que um engenhei- ro químico deseja determinar como a concentração de reagente e catalisador afetam a produção de um processo. O engenheiro pode executar o processo várias vezes, mudando Navidi_01.indd 9Navidi_01.indd 9 27/01/12 16:2727/01/12 16:27 10 Capítulo 1 Medidas sobre dados univariados a concentração a cada vez e comparando o produto resultante. Esse tipo de experimento é chamado de experimento controlado, porque os valores dos fatores, neste caso a con- centração de reagente e catalisador, estão sob o controle do pesquisador. Quando ideali- zado e conduzido adequadamente, os experimentos controlados podem produzir infor- mações confiáveis sobre relações de causa e efeito entre fatores e resposta. No exemplo de produção que acabamos de mencionar, um experimento bem conduzido permitiria ao experimentador concluir que as diferenças na produção foram provocadas pelas diferen- ças na concentração de reagente e catalisador. Existem muitas situações nas quais os cientistas não podem controlar os níveis dos fatores. Por exemplo, muitos estudos foram destinados a determinar os efeitos da fumaça de cigarro sobre o risco de câncer de pulmão. Nesses estudos, as taxas de câncer entre fumantes são comparadas com as taxas entre não fumantes. Os pesquisadores não podem controlar quem fuma e quem não fuma; as pessoas não são obrigadas a fumar para tornar o trabalho do estatístico mais fácil. Esse tipo de estudo é denominado estudo observa- cional, porque o pesquisador simplesmente observa os níveis do fator como eles são, sem ter qualquer controle sobre eles. Os estudos observacionais não são tão bons quanto os experimentos controlados para a obtenção de conclusões confiáveis independente de causa e efeito. No caso de fumante e câncer de pulmão, por exemplo, as pessoas que es- colhem fumar podem não ser uma quantidade representativa da população como um todo e podem ser mais propensas a obter câncer por outras razões. Por esse motivo, embora saibamos há muito tempo que os fumantes têm taxas mais altas de câncer de pulmão do que não fumantes, foram muitos anos de estudos observacionais feitos com cuidado antes que os cientistas pudessem ter certeza de que fumar era realmente a causa da taxa mais elevada de câncer. 1. Cada um dos seguintes processos envolve amostragem de uma população. Defina a popu- lação e informe se ela é tangível ou conceitual. a. Um carregamento de parafusos é recebido de um fornecedor. Para verificar se o car- regamento é aceitável no que diz respeito à resistência de cisalhamento, um enge- nheiro retira do contêiner 10 parafusos, um a um, para teste. b. A resistência de um determinado resistor é medida cinco vezes com o mesmo ohmí- metro. c. Um estudante de pós-graduação com es- pecialização em ciências ambientais é parte de uma equipe de estudo que avalia o risco para a saúde humana de um deter- minado contaminante presente na água da torneira em sua cidade. Parte do processo de avaliação envolve estimar a quantidade de tempo que as pessoas que moram na cidade estão em contato com água da tor- neira. O aluno recruta moradores da cida- de para registros diários durante um mês, detalhando a quantidade de tempo por dia que estiveram em contato com água da torneira. d. Oito soldas foram feitas com o mesmo pro- cesso, e o esforço em cada uma é medido. e. Um engenheiro de controle de qualidade precisa estimar a percentagem dos itens manufaturados em um determinado dia que apresentam defeito. Às 14:30 ele amostra os últimos 100 itens produzidos. 2. Se você deseja estimar a média das alturas de todos os estudantes de uma universidade, qual das seguintes estratégias de amostragem seria a melhor? Por quê? Note que nenhum dos mé- todos é amostragem aleatória simples verda- deira. Exercícios da Seção 1.1 Navidi_01.indd 10Navidi_01.indd 10 27/01/12 16:2727/01/12 16:27 1.2 Medidas estatísticas 11 i. Medir as alturas de 50 estudantes encon- trados em um ginásio durante o torneio interno de basquete. ii. Medir as alturas de todos nas engenharias. iii. Medir as alturas dos estudantes selecio- nados a partir do primeiro nome em cada página da lista telefônica do campus. 3. Verdadeiro ou falso: a. Uma amostra aleatória simples garante refletir exatamente a população da qual é extraída. b. Uma amostra aleatória simples é livre de qualquer tendência sistemática que a torna diferente da população da qual é extraída. 4. Um engenheiro de controle de qualidade extrai uma amostra aleatória simples de 50 anéis de um lote de vários milhares. Ele mede a espessura de cada um e constata que 45 de- les, ou 90%, atendem a um determinada espe- cificação. Qual das seguintes afirmações está correta? i. A proporção de anéis que atende à espe- cificação em todo o lote é provavelmente igual a 90%. ii. A proporção de anéis que atende à espe- cificação em todo o lote é provavelmente próxima de 90%, mas não igual. 5. Um determinado processo de manufatura de circuitos integrados está em operação por um período de tempo, e sabe-se que 12% dos circuitos apresentam defeito. Um novo pro- cesso no qual se espera reduzir a proporção de defeitos está em teste. Em uma amostra aleatória simples de 100 circuitos produzi- dos nesse novo processo, 12 estavam com defeito. a. Um dos engenheiros sugere que o teste prova que o novo processo não é melhor que o anterior, visto que a proporção de defeitos na amostra é a mesma. Essa con- clusão se justifica? Explique. b. Considere que ocorreram apenas 11 cir- cuitos com defeito na amostra de 100. Isso provaria que o novo processo é melhor? Explique. c. Que resultado representa uma forte evi- dência de o novo processo ser melhor: ao encontrar 11 circuitos com defeito na amostra, ou ao encontrar 2? 6. Consulte o Exercício 5. Verdadeiro ou falso: a. Se a proporção de defeitos na amostra for menor que 12%, é razoável concluir que o novo processo é melhor. b. Se a proporção de defeitos na amostra for apenas um pouco menor que 12%, a diferença poderia ter origem inteiramen- te na variação da amostragem, e não é razoável concluir que o novo processo é melhor. c. Se a proporção de defeitos na amostra é muito menor do que 12%, é muito pouco provávelque a diferença é decorrente da variação na amostragem, então é razoável concluir que o novo processo é melhor. 7. Para determinar se uma amostra deve ser trata- da como uma amostra aleatória simples, o que é mais importante: um bom conhecimento de estatística ou um bom conhecimento do pro- cesso que produziu os dados? 1.2 Medidas estatísticas Geralmente uma amostra é uma longa lista de números. Para ajudar a destacar as carac- terísticas importantes de uma amostra, vamos calcular as medidas estatísticas. As duas medidas estatísticas mais comuns são a média amostral e o desvio padrão amostral. A média fornece uma indicação do centro dos dados, e o desvio padrão fornece uma indica- ção do quão dispersos são os dados. Navidi_01.indd 11Navidi_01.indd 11 27/01/12 16:2727/01/12 16:27 12 Capítulo 1 Medidas sobre dados univariados Média amostral A média amostral também é denominada “média aritmética”, ou simplesmente de “mé- dia”. Ela é a soma dos números da amostra dividida pela quantidade deles. Definição Seja X1, ..., Xn uma amostra. A média amostral é (1.1) É costume usar uma letra com uma barra sobre ela (por exemplo, X _ ) para indicar uma média amostral. Note também que a média amostral tem a mesma unidade que os valores da amostra X1, ..., Xn. Exemplo 1.5 Uma amostra aleatória simples de cinco homens escolhidos a partir de uma grande popu- lação de homens é constituída, e as alturas deles são medidas. As cinco alturas (em cm) são 166,4, 183,6, 173,5, 170,3 e 179,5. Determine a média amostral. Solução Usamos a Equação (1.1). A média amostral é Desvio padrão Veja a seguir duas listas de números: 28, 29, 30, 31, 32 e 10, 20, 30, 40, 50. As duas listas têm a mesma média, 30. Mas a segunda lista tem uma dispersão maior do que a primeira. O desvio padrão é um parâmetro estatístico que mede o grau de dispersão da amostra. Seja a amostra X1, ..., Xn. A ideia por trás do desvio padrão é que, quando o desvio for grande, os valores da amostra tendem a estar distantes da média, mas, quando a dis- persão é pequena, os valores tendem a ser próximos da média. Assim, o primeiro passo no cálculo do desvio padrão é calcular as diferenças (também denominadas desvios) entre cada valor da amostra e a média amostral. Os desvios são (X1 − X _ ), ..., (Xn − X _ ). Agora, alguns desses desvios são positivos e outros são negativos. Desvios negativos grandes são apenas indicativos da dispersão, assim como desvios positivos grandes. Para tornar todos os desvios positivos, os elevamos ao quadrado, obtendo os desvios quadráticos (X1 − X _ )2, ..., (Xn − X _ )2. A partir dos desvios quadráticos, podemos cal- cular a medida da dispersão denominada variância amostral. A variância amostral é a Navidi_01.indd 12Navidi_01.indd 12 27/01/12 16:2727/01/12 16:27 1.2 Medidas estatísticas 13 média dos desvios quadráticos, exceto que dividimos por n − 1 em vez de n. É costume designar a variância amostral por s2. Definição Seja a amostra X1, ..., Xn. A variância amostral dela é (1.2) Uma fórmula equivalente, que pode ser facilmente calculada, é (1.3) Embora a variância amostral seja um parâmetro importante, ela tem uma desvanta- gem significativa como uma medida de dispersão. Sua unidade não é a mesma dos valo- res da amostra; ela é uma unidade quadrática. Para obter uma medida da dispersão cuja unidade seja a mesma dos valores da amostra, simplesmente extraímos a raiz quadrada da variância. Esse parâmetro é conhecido como desvio padrão amostral. Normalmente indicamos o desvio padrão amostral pela letra s (a raiz quadrada de s2). Definição Seja a amostra X1, ..., Xn. O desvio padrão amostral dela é (1.4) Uma fórmula equivalente, que pode ser facilmente calculada, é (1.5) O desvio padrão amostral é a raiz quadrada da variância amostral. É natural se perguntar por que a soma dos desvios quadráticos é dividida por n − 1 em vez de n. A finalidade no cálculo do desvio padrão amostral é estimar a quantidade da dispersão na população a partir da qual a amostra foi extraída. Portanto, idealmente calcularíamos os desvios a partir da média amostral. Entretanto, a média da população é, em geral, desconhecida, de modo que a média amostral é usada no seu lugar. É um fato matemático que os desvios em torno da média amostral tendem a ser um pouco menores do que os desvios em torno da média da população e que a divisão por n − 1 em vez de n fornece exatamente a correção correta. Navidi_01.indd 13Navidi_01.indd 13 27/01/12 16:2727/01/12 16:27 14 Capítulo 1 Medidas sobre dados univariados Exemplo 1.6 Determine a variância amostral e o desvio padrão amostral para os dados das alturas no Exemplo 1.5. Solução Calculamos primeiro a variância amostral usando a Equação (1.2). A média amostral é X– = 174,66 (veja o Exemplo 1.5). Portanto, a variância amostral é Alternativamente, podemos usar a Equação (1.3): O desvio padrão amostral é a raiz quadrada da variância amostral: O que aconteceria com a média, variância e desvio padrão amostrais se as alturas no Exemplo 1.5 fossem medidas em polegadas em vez de centímetros? Indiquemos as alturas em centímetros por X1, X2, X3, X4, X5 e as alturas em polegadas por Y1, Y2, Y3, Y4, Y5. A rela- ção entre Xi e Yi é dada por Yi = 0,3937Xi. Se voltarmos ao Exemplo 1.5, convertermos para polegadas e calcularmos a média amostral, veremos que as médias amostrais em polegadas e centímetros estão relacionadas pela equação Y = 0,3937X. Portanto, se multiplicarmos cada item da amostra por uma constante, a média amostral é multiplicada pela mesma constante. Quanto à variância amostral, veremos que os desvios estão relacionados pela equação (Yi − Y) = 0,3937(Xi − X). Segue que s2Y = 0,39372s2X e que sY = 0,3937sX. E se cada homem da amostra estivesse sobre uma plataforma de 2 centímetros? En- tão cada altura na amostra seria aumentada de 2 cm, e a média amostral seria aumentada de 2 cm também. Em geral, se uma constante for acrescentada a cada item da amostra, a média amostral aumenta (ou diminui) pela mesma constante. Entretanto, os desvios não mudam, de modo que a variância amostral e o desvio padrão não são afetados. Resumo ■ Se X1, ..., Xn for uma amostra e Yi = a + bXi, em que a e b são constantes, então Y = a + bX. ■ Se X1, ..., Xn for uma amostra e Yi = a + bXi, em que a e b são constantes, então s2Y = b2s2X e sY = |b|sX. Valores atípicos Algumas vezes uma amostra contém alguns pontos que são muito maiores ou menores do que os demais. Esses pontos são denominados valores atípicos. Veja um exemplo na Figura 1.2. Alguns valores atípicos resultam de dados errôneos; por exemplo, um erro na Navidi_01.indd 14Navidi_01.indd 14 27/01/12 16:2727/01/12 16:27 1.2 Medidas estatísticas 15 posição da vírgula decimal pode resultar em um valor que é uma ordem de magnitude di- ferente das demais. Valores atípicos devem ser sempre analisados, e qualquer valor atípico que for identificado como resultado de um erro deve ser corrigido ou apagado. Nem todos os valores atípicos são erros. Algumas vezes uma população pode conter alguns valores que são muito diferentes dos demais, e os valores atípicos na amostra refletem esse fato. Valor atípico Figura 1.2 Um conjunto de dados que contém um valor atípico. Valores atípicos são um problema real para analistas de dados. Por esse motivo, quando as pessoas veem valores atípicos em seus dados, procuram, algumas vezes, tentar encontrar um motivo, ou uma desculpa, para excluí-los. Entretanto, um valor atípico não deve ser excluído, a menos que estejamos realmente certos de que se trata de um erro. Se uma população realmente contém valores atípicos, mas eles são exclu- ídos da amostra, a amostra não representará a população corretamente. Mediana amostral A mediana, assim como a média, é uma medida de centro. Para calcular a mediana de uma amostra, ordene os dados do menor para o maior. A mediana amostral é o número do centro. Se o tamanhoda amostra for um número par, é costume determinar a mediana como sendo a média dos dois valores centrais. Definição Se n números são ordenados do menor para o maior: ■ Se n for ímpar, a mediana da amostra é o número na posição . ■ Se n for par, a mediana amostral é a média dos números nas posições e . Exemplo 1.7 Determine a mediana amostral para os dados das alturas no Exemplo 1.5. Solução As cinco alturas, organizadas em ordem crescente, são 166,4, 170,3, 173,5, 179,5, 183,6. A mediana amostral é o número central, que é 173,5. Frequentemente a mediana é usada como uma medida de centro para amostras que contêm valores atípicos. Para ver porquê, considere que uma amostra consiste dos valo- res 1, 2, 3, 4 e 20. A média é 6 e a mediana é 3. É razoável pensar que a mediana é mais representativa da amostra do que a média. Veja a Figura 1.3. Navidi_01.indd 15Navidi_01.indd 15 27/01/12 16:2727/01/12 16:27 16 Capítulo 1 Medidas sobre dados univariados Mediana Média Figura 1.3 Quando uma amostra contém valores atípicos, a mediana pode ser uma medida mais representativa da amostra do que a média. Quartis A mediana divide a amostra ao meio. Os quartis a dividem tanto quanto possível em quartos. Uma amostra tem três quartis. Existem algumas formas diferentes de calcu- lar quartis, e todas elas chegam aproximadamente ao mesmo resultado. O método mais simples de cálculo manual é o seguinte. Seja n o tamanho de uma amostra. Ordene os valores da amostra do menor para o maior. Para determinar o primeiro quartil, calcule o valor de 0,25(n + 1). Se este valor for inteiro, então o valor da amostra nesta posição é o primeiro quartil. Caso contrário, determine a média dos valores amostrados em cada lado deste valor. O terceiro quartil é calculado da mesma forma, exceto que o valor 0,75(n + 1) é o utilizado. O segundo quartil usa o valor 0,5(n + 1). O segundo quartil é idêntico à mediana. Notamos que alguns pacotes de softwares usam métodos um pouco diferentes para o cálculo de quartis, de modo que os resultados podem não ser exatamente iguais aos obtidos pelos métodos descritos aqui. Exemplo 1.8 No artigo em inglês “Evaluation of Low-Temperature Properties of HMA Mixtures” (Avaliação das Propriedades em Baixa temperatura de Misturas de Asfalto Quente) (P. Sebaaly, A. Lake e J. Epps, Journal of Transportation Engineering, 2002:578−583), os seguintes valores de fratura por estresse (em megapascal) foram medidos para uma amostra de 24 misturas de asfalto quente (HMA – Hot-Mixed Asphalt). Determine o primeiro e terceiro quartis. Solução O tamanho da amostra é n = 24. Para determinar o primeiro quartil, calcule (0,25)(25) = 6,25. Portanto, o primeiro quartil é determinado pela média entre o 6º e o 7º dados, quan- do a amostra é organizada em ordem crescente. Isso resulta em (105 + 126)/2 = 115,5. Para determinar o terceiro quartil, calcule (0,75)(25) = 18,75. Calculamos a média entre o 18º e o 19º dados para obter (242 + 245)/2 = 243,5. Percentis O percentil de ordem p de uma amostra, para um número p entre 0 e 100, divide a amos- tra de modo que o mais próximo possível p% dos valores da amostra são menores do que Navidi_01.indd 16Navidi_01.indd 16 27/01/12 16:2727/01/12 16:27 1.2 Medidas estatísticas 17 o percentil de ordem p e (100 – p)% são maiores. Existem muitas formas de calcular per- centis, e todas elas produzem resultados similares. Descrevemos aqui um método análo- go ao método descrito para o cálculo de quartis. Ordene os valores da amostra do menor para o maior e, em seguida, calcule (p/100)(n + 1), em que n é o tamanho da amostra. Se este valor for inteiro, o valor da amostra nesta posição é o percentil de ordem p. Caso contrário, calcule a média dos dois valores da amostra de cada lado. Note que o primeiro quartil é o percentil de ordem 25, a mediana é o percentil de ordem 50, e o terceiro quartil é o percentil de ordem 75. Alguns pacotes de software usam métodos ligeiramente dife- rentes para calcular percentis, de modo que os seus resultados podem ser ligeiramente diferentes dos obtidos por este método. Os percentis são usados frequentemente para interpretar notas em testes padroniza- dos. Por exemplo, se um estudante for informado de que sua nota no exame de vestibular foi o percentil de ordem 64, isso significa que 64% dos estudantes que prestaram o vesti- bular tiveram notas inferiores. Exemplo 1.9 Determine o percentil de ordem 65 dos dados do asfalto no Exemplo 1.8. Solução O tamanho da amostra é n = 24. Para determinar o percentil de ordem 65, calcule (0,65) (25) = 16,25. Portanto, o percentil de ordem 65 é determinado calculando a média entre os dados de ordem 16 e 17 quando a amostra é organizada em ordem crescente. Isso re- sulta em (236 + 240)/2 = 238. Na prática, as medidas estatísticas que discutimos são frequentemente calculadas em um computador usando um pacote de software de estatística. As medidas estatísticas são algumas vezes denominados estatística descritiva, porque elas descrevem os dados. Apresentamos um exemplo de medidas estatísticas do pacote de software MINITAB. Em seguida, apresentaremos como essas medidas estatísticas podem ser usadas para desco- brir algumas características importantes dos dados. Para uma tese de Ph.D. que investiga fatores que afetam as emissões dos veículos a diesel, J. Yanowitz da Colorado School of Mines obteve dados de emissões de material particulado (PM – particulate matter) para uma amostra de 138 veículos que circulou em altitude baixa (próximo ao nível do mar) e para uma amostra de 62 veículos que circulou em altitude alta (aproximadamente uma milha, 1600 m, acima do nível do mar). Todos os veículos foram fabricados entre 1991 e 1996. As amostras continham aproximadamente proporções iguais de veículos com altas e baixas quilometragens. Os dados, na unidade de gramas de partículas por galão de combustível consumido, são apresentados nas Ta- belas 1.1 e 1.2. Em altitude alta, a pressão barométrica é baixa, de modo que a relação efetiva ar/combustível também é baixa. Por esse motivo, as emissões de materiais parti- culados podem ser maiores em altitudes maiores. Gostaríamos de comparar as amostras para determinar se os dados dão suporte a essa suposição. É difícil fazer isto simplesmen- te examinando os dados brutos nas tabelas. O cálculo das medidas estatísticas torna o trabalho mais fácil. A Figura 1.4 (página 18) apresenta medidas estatísticas para as duas amostras, conforme calculado pelo software MINITAB. Navidi_01.indd 17Navidi_01.indd 17 27/01/12 16:2727/01/12 16:27 18 Capítulo 1 Medidas sobre dados univariados Na Figura 1.4, a quantidade indicada por “N” é o tamanho da amostra. Em seguida vem a média amostral (Mean). A próxima medida (SE Mean) é o erro padrão da média. O erro padrão da média é igual ao desvio padrão dividido pela raiz quadrada do tama- nho da amostra. Esse valor não é muito usado como uma estatística descritiva, embora seja importante para aplicações como a construção de intervalos de confiança e testes de hipóteses, que abordaremos nos Capítulos 5, 6 e 7. Depois do erro padrão da média, temos o desvio padrão (StDev). Finalmente, a segunda linha da saída fornece o mínimo (Minimum), a mediana (Median) e o máximo (Maximum), bem como o primeiro e tercei- ro quartis (Q1 e Q3). Notamos que os valores dos quartis produzidos pelo pacote de soft- ware difere ligeiramente dos valores calculados pelo método que descrevemos. Isso não é uma surpresa, visto que existem várias formas de calcular esses valores. As diferenças não são grandes o suficiente para ter qualquer importância prática. Tabela 1.2 Emissões de material particulado (PM) (em g/gal) para 62 veículos que circularam em altitude alta 7,59 6,28 6,07 5,23 5,54 3,46 2,44 3,01 13,63 13,02 23,38 9,24 3,22 2,06 4,04 17,11 12,26 19,91 8,50 7,81 7,18 6,95 18,64 7,10 6,04 5,66 8,86 4,40 3,57 4,35 3,84 2,37 3,81 5,32 5,84 2,89 4,68 1,85 9,14 8,67 9,52 2,68 10,14 9,207,31 2,09 6,32 6,53 6,32 2,01 5,91 5,60 5,61 1,50 6,46 5,29 5,64 2,07 1,11 3,32 1,83 7,56 Descriptive Statistics: LowAltitude, HiAltitude Variable N Mean SE Mean StDev LoAltitude 138 3.715 0.218 2.558 HiAltitude 62 6.596 0.574 4.519 Variable Minimum Q1 Median Q3 Maximum LoAltitude 0.250 1.468 3.180 5.300 11.230 HiAltitude 1.110 3.425 5.750 7.983 23.380 Figura 1.4 Saída do software MINITAB que apresenta a estatística descritiva para os dados de material particulado apresentados nas Tabelas 1.1 e 1.2. Tabela 1.1 Emissões de material particulado (PM) (em g/gal) para 138 veículos que circularam em altitude baixa 1,50 0,87 1,12 1,25 3,46 1,11 1,12 0,88 1,29 0,94 0,64 1,31 2,49 1,48 1,06 1,11 2,15 0,86 1,81 1,47 1,24 1,63 2,14 6,64 4,04 2,48 2,98 7,39 2,66 11,00 4,57 4,38 0,87 1,10 1,11 0,61 1,46 0,97 0,90 1,40 1,37 1,81 1,14 1,63 3,67 0,55 2,67 2,63 3,03 1,23 1,04 1,63 3,12 2,37 2,12 2,68 1,17 3,34 3,79 1,28 2,10 6,55 1,18 3,06 0,48 0,25 0,53 3,36 3,47 2,74 1,88 5,94 4,24 3,52 3,59 3,10 3,33 4,58 6,73 7,82 4,59 5,12 5,67 4,07 4,01 2,72 3,24 5,79 3,59 3,48 2,96 5,30 3,93 3,52 2,96 3,12 1,07 5,30 5,16 7,74 5,41 3,40 4,97 11,23 9,30 6,50 4,62 5,45 4,93 6,05 5,82 10,19 3,62 2,67 2,75 8,92 9,93 6,96 5,78 9,14 10,63 8,23 6,83 5,60 5,41 6,70 5,93 4,51 9,04 7,71 7,21 4,67 4,49 4,63 2,80 2,16 2,97 3,90 Navidi_01.indd 18Navidi_01.indd 18 27/01/12 16:2727/01/12 16:27 1.2 Medidas estatísticas 19 As medidas estatísticas dizem muito sobre as diferenças nas emissões de material particulado entre os veículos que circularam em altitudes baixa e alta. Primeiro, note que a média é de fato maior para os veículos que circularam em altitude alta em relação aos que circularam em altitude baixa (6,596 versus 3,715), que suporta a hipótese de que as emissões tendem a ser maiores em altitudes altas. Agora note que o valor máximo para os veículos que circularam em altitude alta (23,38) é muito maior do que o máximo para os veículos que circularam em altitude baixa (11,23). Isso mostra que existe um ou mais veículos que circularam em altitude alta cujas emissões são muito maiores do que a maior emissão entre os veículos que circularam em altitude baixa. A diferença nas emissões médias poderia ser totalmente referente a esses veículos? Para responder isso, compare as medianas e o primeiro e terceiro quartis. Essas medidas estatísticas não são muito afetadas para um pequeno número de valores grandes, mas todos eles são visi- velmente maiores para os veículos que circularam em altitude alta. Portanto, podemos concluir que os veículos que circularam em altitude alta não só contêm alguns emissores muito altos, também têm emissões mais altas do que os veículos que circularam em altitude baixa em geral. Finalmente, note que o desvio padrão é maior para os veículos que circularam em altitude alta, o que indica que os valores para estes veículos têm uma dispersão maior do que para os veículos que circularam em altitude baixa. Pelo menos parte dessa diferença na dispersão deve ser devido a um ou mais veículos que circularam em altitude alta com emissões muito altas. Exercícios da Seção 1.2 1. Um fornecedor converte os pesos dos pacotes que envia de libras para quilogramas (1 kg ≈ 2,2 lb). a. Como isso afeta o peso médio dos pacotes? b. Como isso afeta o desvio padrão dos pesos? 2. Consulte o Exercício 1. O fornecedor começa a usar embalagens mais pesadas, o que aumen- ta o peso de cada pacote em 50 g. a. Como isso afeta o peso médio dos pacotes? b. Como isso afeta o desvio padrão dos pesos? 3. Verdadeiro ou falso: para qualquer lista de nú- meros, metade deles estarão abaixo da média. 4. A média amostral é sempre o valor mais fre- quente? Em caso afirmativo, explique por quê. Caso contrário, dê um exemplo. 5. A média amostral é sempre igual a um dos va- lores da amostra? Em caso afirmativo, expli- que por quê. Caso contrário, dê um exemplo. 6. A mediana amostral é sempre um dos valores da amostra? Em caso afirmativo, explique por quê. Caso contrário, dê um exemplo. 7. Determine o tamanho de uma amostra para a qual a mediana sempre será igual a um dos va- lores da amostra. 8. Para uma lista de números positivos, é possí- vel que o desvio padrão seja maior do que a média? Em caso afirmativo, dê um exemplo. Caso contrário, explique por que não. 9. É possível que o desvio padrão de uma lista de números seja igual a zero? Em caso afirmati- vo, dê um exemplo. Caso contrário, explique por que não. 10. Para uma amostra de 100 mulheres adultas é perguntado a cada uma quantos filhos tem. Os resultados foram os seguintes: Crianças 0 1 2 3 4 5 Número de mulheres 27 22 30 12 7 2 a. Determine a média amostral do número de crianças. b. Determine o desvio padrão amostral do número de crianças. Navidi_01.indd 19Navidi_01.indd 19 27/01/12 16:2727/01/12 16:27 20 Capítulo 1 Medidas sobre dados univariados c. Determine a mediana amostral do número de crianças. d. Qual é o primeiro quartil do número de crianças? e. Qual é a proporção de mulheres que têm mais que o número médio de crianças? f. Para qual proporção de mulheres o nú- mero de crianças seria um desvio padrão maior do que a média? g. Para qual proporção de mulheres o núme- ro de crianças estaria dentro do valor de um desvio padrão da média? 11. Em uma amostra de 20 homens, a altura média foi de 178 cm. Em uma amostra de 30 mulhe- res, a altura média foi de 164 cm. Qual é a al- tura média dos dois grupos juntos? 12. Em um estudo de percepção visual foi pedido a cinco pessoas que estimassem visualmente o comprimento de uma linha e, em seguida, que a medissem com uma régua. Os resultados, em cm, foram: Visualmente: 8,0; 9,0; 7,5; 9,5; 8,5 Com uma régua: 8,1; 8,2; 8,1; 8,1; 8,3 a. Calcule a média para cada método. b. Calcule a mediana para cada método. c. Calcule o desvio padrão das medições para cada método. d. Para qual método o desvio padrão é maior? Por que se deve esperar que esse método tenha o maior desvio padrão? e. Para outras coisas iguais, é melhor para o método de medição que o desvio padrão seja menor ou maior? Ou não importa? Explique. 13. Consulte o Exercício 12. a. Se as medidas feitas por um dos métodos forem convertidas em polegadas (1 pole- gada = 2,54 cm), como isso afeta a mé- dia? E a mediana? E o desvio padrão? b. Se cada pessoa medisse novamente a li- nha usando uma régua com indicações em polegadas, o efeito na média, na mediana e no desvio padrão seria o mesmo que em (a)? Explique. 14. Existem 10 funcionários em uma determinada divisão de uma companhia. Os salários deles têm uma média anual de R$ 70.000,00, uma mediana de R$ 50.000,00 e um desvio padrão de R$ 60.000,00. O maior número na lista é R$ 100.000,00. Por um erro de digitação, esse número é alterado para R$ 1.000.000,00. a. Qual é o valor da média após a alteração? b. Qual é o valor da mediana após a altera- ção? c. Qual é o valor do desvio padrão após a al- teração? 15. Quartis dividem uma amostra em quatro par- tes quase iguais. Em geral, uma amostra de tamanho n pode ser dividida em k partes qua- se iguais usando como pontos de divisão (i/k) (n + 1) para i = 1, ..., k − 1. Considere a se- guinte amostra ordenada: 2 18 23 41 44 46 49 61 62 74 76 79 82 89 92 95 a. Tertis dividem uma amostra em três. De- termine os tertis dessa amostra. b. Quintis dividem uma amostra em cinco. Determine os quintis dessa amostra. 16. Em cada um dos seguintes conjuntos de dados, informe se o valor atípico parece que se deve a um erro ou se ele poderia concebivelmente estar correto. a. Uma rocha é pesada cinco vezes. As leituras em gramas são: 48,5; 47,2; 4,91; 49,5; 46,3. b. Um sociólogo escolhe cinco famílias em uma determinada cidade e registra os rendimentos anuais delas. Os rendi- mentos são R$ 34.000,00; R$ 57.000,00; R$ 13.000,00; R$ 1.200.000,00; R$ 62.000,00. Navidi_01.indd 20Navidi_01.indd 20 27/01/12 16:2727/01/12 16:27 1.3 Representaçõesgráficas 21 1.3 Representações gráficas Gráficos ramo-e-folhas Além das medidas numéricas como a média, a mediana e o desvio padrão, as repre- sentações gráficas podem ser usadas para ajudar a visualizar uma lista de números. Começaremos discutindo uma representação gráfica simples conhecida como gráfico ramo-e-folhas. Como um exemplo, os dados na Tabela 1.3 se referem a um estudo da atividade biológica de uma determinada droga antifúngica. Essa droga foi aplicada na pele de 48 indivíduos. Após três horas, mediu-se a quantidade de droga, em ng/cm2, que permane- ceu na superfície. A lista foi classificada em ordem numérica. Tabela 1.3 Quantidade de droga na pele 3 4 4 7 7 8 9 9 12 12 15 16 16 17 17 18 20 20 21 21 22 22 22 23 24 25 26 26 26 26 27 33 34 34 35 36 36 37 38 40 40 41 41 51 53 55 55 74 A Figura 1.5 apresenta um gráfico ramo-e-folhas dos dados na Tabela 1.3. Cada item na amostra é dividido em duas partes: um ramo, que consiste em um ou dois dígitos à esquerda, e a folha, que consiste no próximo dígito. Na Figura 1.5, o ramo consiste nas dezenas e a folha, nas unidades. Cada linha do gráfico ramo-e-folhas contém todos os itens da amostra com um determinado ramo. Esse gráfico é uma forma compacta de representar os dados. Ele também fornece alguma indicação de sua forma. Para estes dados, podemos ver que existem números iguais de indivíduos nos intervalos 0−9, 10−19 e 30−39 e uma quantidade maior de indivíduos no intervalo 20−29. Além disso, o maior valor (74) parece ser um valor atípico. Stem Leaf 0 34477899 1 22566778 2 001122234566667 3 34456678 4 0011 5 1355 6 7 4 Figura 1.5 Gráfico ramo-e-folhas para os dados da Tabela 1.3. Quando existe uma grande quantidade de itens da amostra no mesmo ramo, ge- ralmente é necessário atribuir mais de uma linha para o ramo. Como um exemplo, a Figura 1.6 mostra um gráfico ramo-e-folhas gerado por um computador com o software MINITAB, para os dados de materiais particulados da Tabela 1.2 na Seção 1.2. A colu- Navidi_01.indd 21Navidi_01.indd 21 27/01/12 16:2727/01/12 16:27 22 Capítulo 1 Medidas sobre dados univariados na central consiste em 0s, 1s e 2s e contém os ramos, que são as dezenas. À direita dos ramos estão as folhas, que consistem nas unidades para cada um dos itens da amostra. Como muitos números são menores do que 10, o ramo 0 tem que ser atribuído a várias linhas (neste caso, cinco). Especificamente, a primeira linha contém os itens da amostra cujos dígitos são 0 ou 1, a próxima linha contém os itens cujos dígitos são 2 ou 3 e assim por diante. Por questão de consistência, a todos os ramos são atribuídas várias linhas da mesma forma, ainda que tenham suficientemente poucos valores para os ramos 1 e 2 que caberiam em menos linhas. A saída na Figura 1.6 contém uma coluna de frequência acumulada à esquerda do gráfico ramo-e-folhas. A parte superior desta coluna fornece o número de itens na linha e acima dela, e a parte inferior da coluna fornece o número de itens na linha e abaixo dela. Junto à linha que contém a mediana está o número de itens desta linha, mostrado entre parênteses. Stem-and-leaf of HiAltitude N � 62 Leaf Unit � 1.0 4 0 1111 19 0 222222223333333 (14) 0 44445555555555 29 0 66666666777777 15 0 8889999 8 1 0 7 1 233 4 1 4 1 7 3 1 89 1 2 1 2 3 Figura 1.6 Gráfico ramo-e-folhas dos dados de material particulado da Tabela 1.2, na página 18, conforme gerado pelo MINITAB. Uma boa característica dos gráficos ramo-e-folhas é que eles mostram todos os va- lores da amostra. Pode-se reconstruir a amostra completamente a partir do gráfico ra- mo-e-folhas, com uma importante exceção: a ordem na qual os itens foram amostrados não pode ser determinada. Gráficos de pontos Um gráfico de pontos é um gráfico que pode ser usado para gerar uma impressão apro- ximada da forma da amostra. Ele é útil quando o tamanho da amostra não é tão grande e quando a amostra contém alguns valores repetidos. A Figura 1.7 (página 23) mostra um gráfico de pontos para os dados da Tabela 1.3. Para cada valor na amostra, é feita uma coluna vertical de pontos, com o número de pontos na coluna igual ao número de vezes que o valor aparece na amostra. O gráfico de pontos fornece uma boa indicação de onde os valores da amostra estão concentrados e onde os espaços vazios estão. Por exemplo, é fácil ver na Figura 1.7 que a amostra não contém nenhum valor entre 42 e 50. Além disso, o valor atípico é facilmente visto como o ponto mais à direita no gráfico. Navidi_01.indd 22Navidi_01.indd 22 27/01/12 16:2727/01/12 16:27 1.3 Representações gráficas 23 0 10 20 30 40 50 60 8070 Figura 1.7 Gráfico de pontos para os dados da Tabela 1.3. Os gráficos ramo-e-folhas e de pontos são bons métodos para examinar informal- mente uma amostra e podem ser feitos facilmente com lápis e papel. Entretanto, eles raramente são usados em apresentações formais. Os gráficos mais usados em apresenta- ções formais incluem o histograma e o gráfico de caixa, que discutiremos agora. Histogramas Um histograma é um gráfico que fornece uma ideia da “forma” de uma amostra, in- dicando regiões onde os pontos da amostra se concentram e as regiões onde eles são esparsos. Vamos construir um histograma para as emissões de material particulado dos 62 veículos que circularam em altitude alta, conforme apresentado na Tabela 1.2 (Seção 1.2). Os valores da amostra variam de 1,11 (baixo) a 23,38 (alto) em unidade de gramas de emissões por galão de combustível. O primeiro passo é construir uma tabela de fre- quência, mostrada na Tabela 1.4. Tabela 1.4 Tabela de frequência para as emissões de material particulado dos 62 veículos que circularam em altitude alta Intervalo de classe (g/gal) Frequência Frequência relativa 1 ≤ x < 3 12 0,1935 3 ≤ x < 5 11 0,1774 5 ≤ x < 7 18 0,2903 7 ≤ x < 9 9 0,1452 9 ≤ x < 11 5 0,0806 11 ≤ x < 13 1 0,0161 13 ≤ x < 15 2 0,0323 15 ≤ x < 17 0 0,0000 17 ≤ x < 19 2 0,0323 19 ≤ x < 21 1 0,0161 21 ≤ x < 23 0 0,0000 23 ≤ x < 25 1 0,0161 Os intervalos na coluna da esquerda são denominados intervalos de classe. Eles di- videm a amostra em grupos. Para os histogramas que vamos considerar, os intervalos de classe terão a mesma largura. Na Tabela 1.4, todas as classes têm largura 2. Não há uma regra rigorosa e rápida sobre como decidir quantos intervalos de classe usar. Em geral, é bom ter um número maior de intervalos do que um número pequeno, mas também é bom ter números grandes de pontos da amostra nos intervalos. Encontrar o equilíbrio correto é uma questão de julgamento e de tentativa e erro. Quando o número de observações n for muito grande (algumas centenas ou mais), alguns têm sugerido que o ponto de partida razoável para o número de classes pode ser log2n ou 2n 1/3. Quando o número de observa- ções for menor, geralmente é necessário um número de classes maior do que este. Navidi_01.indd 23Navidi_01.indd 23 27/01/12 16:2727/01/12 16:27 24 Capítulo 1 Medidas sobre dados univariados A coluna denominada “Frequência” na Tabela 1.4 mostra o número de pontos de dados dentro de cada um dos intervalos de classe. A coluna denominada “Frequência relativa” mostra as frequências divididas pelo número total de pontos de dados, que neste caso é 62. A frequência relativa de um intervalo de classe é a proporção dos pontos de dados que estão no intervalo. Note que, como cada ponto de dado está exatamente em um intervalo de classe, as frequências relativas devem somar 1 (permitindo erro de arre- dondamento). A Figura 1.8 apresenta um histograma para a Tabela 1.4. A unidade no eixo horizon- tal é a unidade dos dados, que neste caso é gramas por galão. Cada intervalo de classe é representado por um retângulo. As alturas dos retângulos podem se iguais às frequências ou às frequências relativas. Visto que esses valores são proporcionais, a forma do histo- grama será a mesma em cada um desses casos. Para o histograma na Figura 1.8, as alturas dos retângulos são as frequências relativas. 1 3 5 7 9 1113 15 17 19 21 23 25 Emissões (g/gal) 0 0,10 0,20 0,30 Fr eq uê nc ia s re la tiv as Figura 1.8 Histograma para os dados na Tabela 1.4. Neste histograma as alturas dos retângulos são as frequências relativas. As frequências e as frequências relativas são proporcionais entre si, de modo que seria igualmente apropriado usar as frequências como as alturas dos retângulos. Resumo Para construir um histograma: ■ Determine o número de classes a usar e construa intervalos de classe de larguras iguais. ■ Calcule a frequência e a frequência relativa de cada classe. ■ Desenhe um retângulo para cada classe. As alturas dos retângulos podem ser iguais às frequências ou às frequências relativas. Simetria e assimetria Um histograma é perfeitamente simétrico se sua metade direita for uma imagem da sua metade esquerda. Os histogramas que não são simétricos são denominados assimétricos. Na prática, nenhuma amostra tem um histograma simetricamente perfeito; quase todos Navidi_01.indd 24Navidi_01.indd 24 27/01/12 16:2727/01/12 16:27 1.3 Representações gráficas 25 apresentam algum grau de assimetria. Em um histograma assimétrico, um lado, ou cauda, é mais longo do que o outro. Diz-se que um histograma com uma cauda longa para a di- reita é assimétrico para a direita, ou positivamente assimétrico. Um histograma com uma cauda longa para a esquerda é assimétrico para a esquerda, ou negativamente assimétrico. Quando houver um método matemático formal para medir a assimetria de um histograma, ele será raramente usado; o que as pessoas fazem é julgar informalmente o grau de assimetria observando o histograma. A Figura 1.9 mostra alguns histogramas de amostras hipotéticas. Note que para um histograma que é assimétrico para a direita (Figura 1.9c), a média é maior do que a mediana. O motivo para isso é que a média está próxima do centro de massa do histograma, ou seja, ela está próxima do ponto em que o histograma estaria em equilíbrio se fosse apoiado neste ponto. Para um histograma assi- métrico para a direita, mais da metade dos dados estarão à esquerda do centro de massa. De modo similar, a média é menor do que a mediana para um histograma que é assimé- trico para a esquerda (Figura 1.9a). O histograma para os dados de material particulado (Figura 1.8) é assimétrico para a direita. A média amostral é 6,596, que é maior do que a mediana amostral, 5,75. Histrogramas unimodal e bimodal Usamos o termo “moda” para nos referirmos ao valor que ocorre mais frequentemente em uma amostra. Esse termo também é usado em relação aos histogramas e outras curvas para se referir a um pico ou máximo local. Um histograma é unimodal se ele tem apenas um pico, ou moda, e bimodal se ele tem duas modas claramente distintas. Em princípio, um histograma pode ter mais de duas modas, mas isso não acontece frequentemente na prática. Os histogramas na Figura 1.9 são todos unimodais. A Figura 1.10 mostra um histograma bimodal para um amostra hipotética. Em alguns casos, um histograma bimodal indica que a amostra pode ser dividida em duas subamostras que diferem entre si de alguma forma cientificamente importante. Cada amostra corresponde a uma das modas. Como exemplo, os dados na Tabela 1.5 dizem respeito ao gêiser Old Faithful no Yellowstone National Park. Este gêiser alterna períodos de erupção, que tipicamente são de 1,5 a 4 minutos, com períodos de dormên- cia, que são consideravelmente maiores. A Tabela 1.5 mostra as durações, em minutos, de 60 períodos de dormência. Juntamente com os períodos de dormência, a duração da erupção que imediatamente antecede o período de dormência é classificada como curta (menor que 3 minutos) ou longa (maior que 3 minutos). (a () b () c) Média Mediana Média Mediana MédiaMediana Figura 1.9 (a) Um histograma assimétrico para a esquerda. A média é menor do que a mediana. (b) Um histograma quase simétrico. A média e a mediana são aproximadamente iguais. (c) Um histograma assimé- trico para a direita. A média é maior do que a mediana. Navidi_01.indd 25Navidi_01.indd 25 27/01/12 16:2727/01/12 16:27 26 Capítulo 1 Medidas sobre dados univariados Figura 1.10 Um histograma bimodal. Tabela 1.5 Durações dos períodos de dormência (em minutos) e das erupções anteriores do gêiser Old Faithful Dormência Erupção Dormência Erupção Dormência Erupção Dormência Erupção 76 Longa 90 Longa 45 Curta 84 Longa 80 Longa 42 Curta 88 Longa 70 Longa 84 Longa 91 Longa 51 Curta 79 Longa 50 Curta 51 Curta 80 Longa 60 Longa 93 Longa 79 Longa 49 Curta 86 Longa 55 Curta 53 Curta 82 Longa 71 Longa 76 Longa 82 Longa 75 Longa 67 Curta 58 Curta 51 Curta 73 Longa 81 Longa 74 Longa 76 Longa 67 Longa 76 Longa 75 Longa 82 Longa 68 Longa 83 Longa 80 Longa 84 Longa 86 Longa 76 Longa 56 Curta 53 Curta 72 Longa 55 Curta 80 Longa 86 Longa 75 Longa 73 Longa 69 Longa 51 Curta 75 Longa 56 Curta 57 Longa 85 Longa 66 Curta 83 Longa (a) Fr eq uê nc ia Duração (minutos) 15 12 9 6 3 0 40 45 50 55 60 65 70 75 80 85 90 95 (b) Fr eq uê nc ia Duração (minutos) 15 12 9 6 3 0 40 45 50 55 60 65 70 75 80 85 90 95 (c) Fr eq uê nc ia Duração (minutos) 15 12 9 6 3 0 40 45 50 55 60 65 70 75 80 85 90 95 Figura 1.11 (a) Histograma para os 60 períodos de duração da Tabela 1.5. Este histograma é bimodal. (b) Histograma para os períodos de duração da Tabela 1.5 seguidos de erupções curtas. (c) Histograma para os períodos de duração da Tabela 1.5 seguidos de erupções longas. Os histogramas para os períodos de du- ração seguidos de erupções curtas e longas são unimodais, mas as modas são em pontos distintos. Quando as duas amostras são combinadas, o histograma é bimodal. Navidi_01.indd 26Navidi_01.indd 26 27/01/12 16:2727/01/12 16:27 1.3 Representações gráficas 27 A Figura 1.11a mostra um histograma para os 60 períodos de duração. As Figuras 1.11b e 1.11c mostram histogramas para os períodos seguidos de erupções curtas e longas, respectivamente. O histograma para todas as durações é claramente bimodal. Os histogra- mas para os períodos de duração seguidos de erupções curtas ou longas são unimodais, e suas modas foram as duas modas do histograma para todas as amostras. Gráficos de caixa Um gráfico de caixa apresenta a mediana, o primeiro e terceiro quartis e quaisquer va- lores atípicos que são representados em uma amostra. Os gráficos de caixa são fáceis de serem entendidos, mas exige o conhecimento da terminologia que os acompanha. A am- plitude interquartil (IQR) é a diferença entre o terceiro e o primeiro quartil. Note que, como 75% dos dados são menores do que o terceiro quartil e 25% dos dados são menores do que o primeiro quartil, segue-se que 50%, ou metade, dos dados está entre o primeiro e terceiro quartis. Portanto, a amplitude interquartil é a distância necessária para cobrir a metade central dos dados. Definimos os valores atípicos como pontos com valores geralmente grandes ou pe- quenos. Se a IQR representa a amplitude interquartil, então para desenhar gráficos de cai- xa, qualquer ponto que for mais do que 1,5 IQR acima do terceiro quartil ou mais do que 1,5 IQR abaixo do primeiro quartil, é considerado valor atípico. Alguns autores definem um ponto que for mais do que 3 IQR a partir do primeiro ou terceiro quartis como um valor atípico extremo. Essas definições de valores atípicos são apenas convenções para o desenho de gráficos de caixa e não precisam ser usadas em outras situações. A Figura 1.12 mostra um gráfico de caixa para alguns dados hipotéticos. O gráfico consiste em uma caixa cujo lado de baixo é o primeiro quartil e cujo lado de cima é o terceiro quartil. A linha horizontal é desenhada na mediana. Os “valores atípicos” são plotados individualmente e indicados por cruzes na figura. As linhas verticais que se estendem a partir dos lados inferior e superior da caixa são denominadas “bigodes” (whiskers). Os “bigodes” terminam no ponto de dados mais extremo que não seja valor atípico. Terceiro quartil MedianaPrimeiro quartil Ponto de dado de maior valor dentro de 1,5 IQR do terceiro quartil Ponto de dado de menor valor dentro de 1,5 IQR do primeiro quartil Valores atípicos Figura 1.12 Anatomia de um gráfico de caixa. Navidi_01.indd 27Navidi_01.indd 27 27/01/12 16:2727/01/12 16:27 28 Capítulo 1 Medidas sobre dados univariados À parte de qualquer valor atípico, um gráfico de caixa pode ser visto como tendo quatro partes: as duas partes da caixa separadas pela linha mediana e os dois “bigodes”. Novamente, à parte dos valores atípicos, cada uma das quatro partes representa um quar- to dos dados. Portanto, o gráfico de caixa indica o quanto um intervalo se estende em cada quarto dos dados e, desta forma, ele pode ser usado para determinar as regiões nas quais os valores da amostra são mais densos e as regiões nas quais eles são mais esparsos. Passos na construção de um gráfico de caixa ■ Calcule a mediana e o primeiro e terceiro quartis da amostra. Indique esses va- lores com linhas horizontais. Desenhe linhas verticais para completar a caixa. ■ Determine o maior valor da amostra que não esteja mais do que 1,5 IQR acima do terceiro quartil e o menor valor da amostra que não esteja mais do que 1,5 IQR abaixo do primeiro quartil. Estenda linhas verticais (“bigodes”) a partir das linhas dos quartis para esses pontos. ■ Os pontos mais do que 1,5 IQR acima do terceiro quartil, ou mais do que 1,5 IQR abaixo do primeiro quartil são indicados como valores atípicos. Plote cada valor atípico individualmente. A Figura 1.13 mostra um gráfico de caixa para os dados do gêiser apresentados na Tabela 1.5. Primeiro note que não existem valores atípicos nestes dados. Comparando as quatro partes do gráfico de caixa, podemos dizer que os valores da amostra são compara- tivamente densos entre a mediana e o terceiro quartil e mais esparsos entre a mediana e o primeiro quartil. O “bigode” inferior é um pouco maior do que o superior, indicando que os dados têm uma cauda inferior ligeiramente mais longa do que a superior. Visto que a distância entre a mediana e o primeiro quartil é maior do que a distância entre a mediana e o terceiro quartil e visto que o quarto inferior dos dados produz um “bigode” maior do que o quarto superior, este gráfico de caixa sugere que os dados são assimétricos para a esquerda. 100 90 80 70 60 50 40 D ur aç ão ( m in ut os ) Figura 1.13 Gráfico de caixa para os dados da Tabela 1.5 dos períodos de dormência do gêiser Old Faithful. Navidi_01.indd 28Navidi_01.indd 28 27/01/12 16:2727/01/12 16:27 1.3 Representações gráficas 29 Um histograma para estes dados foi apresentado na Figura 1.11a. O histograma mostra uma impressão mais geral da dispersão dos dados. Um detalhe importante é que o histograma indica que os dados são bimodais, o que um gráfico de caixa não pode fazer. Gráficos de caixa comparativos Uma característica útil dos gráficos de caixa é que muitos deles podem ser colocados lado a lado permitindo uma comparação visual fácil das características de várias amos- tras. As Tabelas 1.1 e 1.2 (na Seção 1.2) mostram emissões de material particulado para veículos que circulam em altitudes alta e baixa. A Figura 1.14 mostra uma comparação lado a lado de gráficos de caixa para essas duas amostras. Os gráficos de caixa comparativos na Figura 1.14 mostram que os veículos que cir- cularam em altitude baixa tiveram emissões menores. Além disso, existem vários valores atípicos entre os dados dos veículos que circularam em altitude alta (há também um valor para altitude baixa que mal se qualifica como um valor atípico). Concluímos que em altitude alta os veículos têm, em geral, emissões um pouco mais elevadas e que alguns veículos têm emissões muito maiores. A caixa para os veículos que circularam em altitu- de alta é um pouco mais alta, e o “bigode” inferior, um pouco mais longo em relação aos veículos que circularam em altitude baixa. Concluímos que, além dos valores atípicos, a dispersão nos valores é ligeiramente maior para os veículos que circularam em altitude alta e muito maior quando os valores atípicos são considerados. Na Figura 1.4 (na Seção 1.2), comparamos os valores de algumas estatísticas des- critivas para estas duas amostras e obtivemos algumas conclusões similares a essas. A natureza visual dos gráficos de caixa comparativos na Figura 1.14 tornam a comparação das características das amostras muito mais fácil. Mencionamos que é importante controlar os valores atípicos para determinar se eles são provenientes de erros, caso no qual podem ser apagados. Na identificação de valores atípicos, os gráficos de caixa podem ser úteis nesse sentido. O exemplo a seguir fornece uma ilustração. 25 20 15 10 5 0 E m is sõ es ( g/ ga l) Altitude baixa Altitude alta Figura 1.14 Gráficos de caixa comparativos para emissões de material particulado por veículos que circularam em altitude baixa versus altitude alta. Navidi_01.indd 29Navidi_01.indd 29 27/01/12 16:2727/01/12 16:27 30 Capítulo 1 Medidas sobre dados univariados O artigo em inglês “Virgin Versus Recycled Wafers for Furnace Qualification: Is the Expense Justified?” (Pastilhas Novas versus Recicladas para a Qualificação do Forno: A Despesa é Justificada?) (V. Czitrom and J. Reece, Statistical Case Studies for Industrial Pro- cess Improvement, ASA and SIAM, 1997:87−104) descreve um processo para o cultivo de uma fina camada de dióxido de silício sobre pastilhas que são usadas na fabricação de semi- condutores. A Tabela 1.6 mostra a espessura de medições, em angstroms (Å), da camada de dióxido para 24 pastilhas. Foram feitas nove medidas em cada pastilha. As pastilhas foram produzidas em dois processos de execução separados com 12 pastilhas em cada processo. Tabela 1.6 Espessuras da camada de óxido em pastilhas de silício Pastilhas Espessuras (Å) Processo 1 1 90,0 92,2 94,9 92,7 91,6 88,2 92,0 98,2 96,0 2 91,8 94,5 93,9 77,3 92,0 89,9 87,9 92,8 93,3 3 90,3 91,1 93,3 93,5 87,2 88,1 90,1 91,9 94,5 4 92,6 90,3 92,8 91,6 92,7 91,7 89,3 95,5 93,6 5 91,1 89,8 91,5 91,5 90,6 93,1 88,9 92,5 92,4 6 76,1 90,2 96,8 84,6 93,3 95,7 90,9 100,3 95,2 7 92,4 91,7 91,6 91,1 88,0 92,4 88,7 92,9 92,6 8 91,3 90,1 95,4 89,6 90,7 95,8 91,7 97,9 95,7 9 96,7 93,7 93,9 87,9 90,4 92,0 90,5 95,2 94,3 10 92,0 94,6 93,7 94,0 89,3 90,1 91,3 92,7 94,5 11 94,1 91,5 95,3 92,8 93,4 92,2 89,4 94,5 95,4 12 91,7 97,4 95,1 96,7 77,5 91,4 90,5 95,2 93,1 Processo 2 1 93,0 89,9 93,6 89,0 93,6 90,9 89,8 92,4 93,0 2 91,4 90,6 92,2 91,9 92,4 87,6 88,9 90,9 92,8 3 91,9 91,8 92,8 96,4 93,8 86,5 92,7 90,9 92,8 4 90,6 91,3 94,9 88,3 87,9 92,2 90,7 91,3 93,6 5 93,1 91,8 94,6 88,9 90,0 97,9 92,1 91,6 98,4 6 90,8 91,5 91,5 91,5 94,0 91,0 92,1 91,8 94,0 7 88,0 91,8 90,5 90,4 90,3 91,5 89,4 93,2 93,9 8 88,3 96,0 92,8 93,7 89,6 89,6 90,2 95,3 93,0 9 94,2 92,2 95,8 92,5 91,0 91,4 92,8 93,6 91,0 10 101,5 103,1 103,2 103,5 96,1 102,5 102,0 106,7 105,4 11 92,8 90,8 92,2 91,7 89,0 88,5 87,5 93,8 91,4 12 92,1 93,4 94,0 94,7 90,8 92,1 91,2 92,3 91,1 As 12 pastilhas em cada processo eram de vários tipos diferentes e foram proces- sadas em vários locais diferentes do forno. A finalidade na obtenção dos dados era de- terminar se a espessura da camada de óxido foi afetada pelo tipo de pastilha ou a loca- lização no forno. Portanto, este foi um experimento fatorial, com o tipo de pastilha e a localização no forno como os fatores e a espessura da camada de óxido como o resultado. Desejava-se que o experimento não produzisse nenhuma diferença sistemática na espes- sura entre um processo e o outro. O primeiro passo na análise foi construir um gráfico de caixa para os dados em cada processo para ajudar a determinar se essa condição era de fato cumprida e se qualquer uma das observações deveria ser apagada. Os resultados são apresentados na Figura 1.15. O gráfico de caixa mostra que existem vários valores atípicos em cada processo. Note que além desses valores atípicos, não há diferenças
Compartilhar