Baixe o app para aproveitar ainda mais
Prévia do material em texto
Problema do Capitulo Que podemos concluir desta pesquisa? O programa de televisão A5C-Nightline realizou uma pesquisa em que solicitava a opinião dos espectadores sobre a permanência, ou não, da sede das Nações Unidas nos EUA. Para responder, os espectadores deviam pagar 50 centavos (americanos) para fazer uma chamada telefônica. Dos 180.000 que responderam, 67% disseram que a sede da ONU devia sair dos EUA. Com base nesses resultados amostrais, que podemos concluir sol2re a opinião da população americana, sobre a permanência ou não da sede da ONU nos EUA? 1-1 Aspectos Gerais Começamos nosso estudo de estatística observando que a pala- vra tem dois significados básicos. No primeiro sentido, o termo é usado em relação a números específicos obtidos de dados, con- forme ilustrado nos exemplos seguintes: Em uma pesquisa, feita pela Bruskin-Goldring ResearCh junto a 1.012 pessoas, a quem foi formulada pergunta sobre como utilizar um bolo de frutas, 13% responderam que deveria servir para calço de porta. Entre as pessoas com quem se fez um teste sobre o uso de drogas para admissão em novo emprego, 3,8% reagiram positivamente [de. acordo com a American Management Association (Associação Americana de Gerenciamento)]. O escore máximo de rebatidas de beisebol registrado até agora é de 0,442, obtido por James O'Neil em 1887. A segunda acepção se refere à estatística como método de análise. O Estado da Estatística A palavra estatística provém do latim status, que significa estada. A primitiva utilização da estatística envolvia compilações de dados e gráficos que descreviam vários aspectos de um estado ou ¡país. Em 1662, John Graunt publicou informes estatísticos sobre nascimentos e mortes. O trabalho de Graunt foi secundado por estudos de mortalidade e taxas de morbidade, tamanho de populações, rendas e taxas de desemprego. As famílias, os governos e as empresas se apóiam largamente em dados estatísticos. Assim é que as taxas de desemprego, de inflação, os índices do consumidor, as taxas de natalidade e mortalidade são calculadas cuidadosamente a intervalos regulares, e seus resultados são utilizados por empresários para tomarem decisões que afetam a futura contratação de empregados, níveis de produção e expansão para novos mercados. DEFINIÇÃO A estatística é uma coleção de métodos para planejar ex- perimentos, obter dados e organizá-los, resumi-los, analisá- los, interpretá-los e deles extrair conclusões. A estatística abrange muito mais do que o simples traçado de gráficos e o cálculo de médias. Neste livro veremos como tirar conclusões gerais e significativas que vão além dos dados origi- nai§. Em estatística, utilizamos extensamente os termos popula- ção e amostra. Esses termos, que passamos a definir, estão no próprio cerne da estatística. • DEFINIÇÕES Uma população é uma coleção completa de todos os ele- mentos (valores, pessoas, medidas etc.) a serem estudados. Um censo é uma coleção de dados relativos a todos os ele- mentos de uma população. Uma amostra é uma subcoleção de elementos extraídos de uma população. Por exemplo, uma pesquisa Nielsen típica de televisão utiliza uma amostra de 4000 lares e, com base nos resultados, formula con- clusões acerca da população de todos os 97.855.392 lares nos EUA. Estreitamente relacionados com os conceitos de população e amostra estão os conceitos de parâmetro e estatística. As defi- nições seguintes são de fácil memorização. DEFINIÇÕES Um parâmetro é uma medida numérica que descreve uma característica de uma população. Uma estatística é uma medida numérica que descreve uma característica de uma amostra. Consideremos um exemplo. Em uma pesquisa, feita pela Bruslcin- Goldring Research com 1015 pessoas escolhidas aleatoriamen- te, 269 (ou 26,5%) possuíam computador. Como a cifra de 26,5% se baseia em uma amostra, e não em toda a população, trata-se de uma estatística (e não um parâmetro). Já se uma pesquisa fei- ta entre os 50 governadores estaduais dos EUA mostra que 42 Introdução à Estatística 3 (ou 84%) possuem computador, a cifra de 84% é um parâmetro porque se baseia em toda a população de governadores. Um aspecto importante da estatística é sua aplicabilidade óbvia a situações reais e relevantes; em todo este livro encontra- remos ampla diversidade dessas aplicações. 1-2 A Natureza dos Dados Alguns conjuntos de dados (como alturas) consistem em núme- ros, enquanto outros são não-numéricos (como sexo). Aplicam- se as expressões dados quantitativos e dados qualitativos para distinguir esses dois tipos. DEFINIÇÕES Os dados quantitativos consistem em números que repre- sentam contagens ou medidas. Os dados qualitativos (ou dados categóricos, ou atribu- tos) podem ser separados em diferentes categorias que se distinguem por alguma característica não-numérica. O Conjunto de Dados 4 do Apêndice B registra as quantida- des de alcatrão em diferentes marcas de cigarros; esses valores representam dados quantitativos, mas as diversas marcas cons- tituem dados qualitativos. Podemos ainda descrever os dados quantitativos distinguin- do entre os tipos discreto e continuo. DEFINIÇÕES Os dados discretos resultam de um conjunto finito de valores possíveis, ou de um conjunto enumerável desses valores. (Ou seja, o número de valores possíveis é 0, ou 1, ou 2 etc.) Os dados contínuos (numéricos) resultam de um núme- ro infinito de valores possíveis que podem ser associados a pontos em uma escala contínua de tal maneira que não haja lacunas ou interrupções. Quando os dados representam contagens, são discretos; quan- do representam mensurações, são contínuos. O número de ovos que as galinhas põem constitui dados discretos, porque representa uma contagem; já a quantidade de leite que as vacas produzem constitui dados contínuos, porque representa mensurações que podem tomar qualquer valor em um intervalo contínuo. Outra maneira comum de classificar dados consiste em utilizar quatro níveis de mensuração: nominal, ordinal, intervalar e razão. DEFINIÇÃO O nível nominal de mensuração é caracterizado por da- dos que consistem apenas em nomes, rótulos ou categori- as. Os dados não podem ser dispostos segundo um esque- ma ordenado (como de baixo para cima). Se associamos o termo nominal a "nome somente", o signifi- cado é fácil de memorizar. Um exemplo de dado nominal é o partido político a que cada senador dos EUA pertence. I EXEMPLO Seguem outros exemplos de dados amostrais ao nível nominal de mensuração. 1. Respostas do tipo "sim", "não" ou "indeciso". 2. O sexo dos estudantes em uma turma de estatística. Como as categorias carecem de qualquer significado ordinal ou numérico, os dados precedentes não podem ser utilizados em 'cálculos. Assim é que não podemos tirar a "média" de 20 mu- lheres e 15 homens. Cuidado: Por vezes atribuem-se números a categorias (mormente quando os dados são computadorizados), mas tais números não têm qualquer significado para efeito de cálculo, e a média calculada com base neles em geral não tem sentido. Poderíamos citar o fato de que a Gallup Organization computou dados de uma pesquisa em que se atribui o "valor" O aos democratas, 1 aos republicanos e 2 aos independentes. Mes- mo estando diante de rótulos numéricos, os dados permanecem no nível nominal e não podemos fazer cálculos com eles. DEFINIÇÃO O nível ordinal de mensuração envolve dados que po- dem ser dispostos ern alguma ordem, mas as diferenças entre os valores dos dados não podem ser determinadas, ou não têm sentido. EXEMPLO Dão-se a seguir exemplos de dados ao nível ordinal de mensuração. Um editor classifica alguns originais como "excelentes", alguns como "bons" e alguns como "maus". (Não podemos determinar uma diferença quantitativa entre "bom" e "mau".) Um comitê de preparação olímpica classifica Gail em 3.°, Diana em 7.° e Kim em 10.°. (Podemos determinar a dife- rença entre os 3.° e 7.° lugares mas a diferença de 4 nãotem qualquer significado.) Esse nível ordinal dá informações sobre comparações relati- vas, mas os graus de diferença não servem para cálculos. Os dados em nível ordinal não devem, pois, ser utilizados em cálculos. Censo do Ano 2000 O censo nacional (dos EUA) do ano 2000 será mais rápido, menos dispendioso e mais preciso do que o censo de 1990. Ao contrário do censo de 1990, o Censo de 2000 utilizará métodos de amostragem para obter resultados mais precisos. Em 1990, os agenciadores voltaram até seis vezes às 35 milhões de casas que não remeteram os formulários preenchidos; mas, em 2000, essas casas omissas serão submetidas a uma amostragem. Espera-se que a amostragem produza resultados mais precisos do que as tentativas de atingir cada casa individualmente. O censo de 2000 custará cerca de $4 bilhões, o que significa $1 milhão menos do que o custo da repetição dos mesmos métodos de 1990. O censo de 2000 será mais eficiente — embora o censo de 1990 não tenha sido tão ineficiente como sugeriu o colunista Dave Barry: "O Departamento do Censo expede 100 milhões de formulários, 87 milhões dos quais chegam a um único destino em Albany." 4 ESTATÍSTICA DEFINIÇÃO O nível intervalar de mensuração é análogo ao nível ordinal, com a propriedade adicional de que podemos de- terminar diferenças significativas entre os dados. Todavia, não existe um ponto de partida zero inerente, ou natural (onde não haja qualquer quantidade presente). As temperaturas de 98,2°F e 98,6°F são exemplos de dados nesse nível intervalar de mensuração. Os valores se apresentam ordena- dos, e podemos determinar diferenças entre eles (em geral chama- das distância entre os dois valores). Todavia, não há ponto de par- tida natural. O valor 0°F pode parecer um ponto de partida, mas é inteiramente arbitrário, e não representa "ausência de calor". É um erro dizermos que 50°F é duas vezes mais quente do que 25°F. (Na escala Kelvin, as marcações de temperatura estão ao nível de razão de mensuração; essa escala tem um zero absoluto.) EXEMPLO Seguem exemplos de dados ao nível intervalar de mensuração. Os anos 1000,2000, 1776 e 1944. (O tempo não começou no ano zero e, assim, O é arbitrário, e não um ponto de partida zero natural.) As temperaturas anuais médias (em graus Celsius) das capitais dos 50 estados americanos. Medida da Desobediência Corno coletar dados sobre algo que não se apresente mensurável, como o nível de desobediência do povo? O psicólogo Stanley Milgram planejou o seguinte experimento: Um pesquisador determinou que um voluntário acionasse um painel de controle que dava choques elétricos crescentemente dolorosos em uma terceira pessoa. Na realidade, não eram dados choques e a terceira pessoa era um ator. O voluntário começou com 15 volts e foi orientado a aumentar os choques de 15 em 15 volts. O nível de desobediência era o ponto em que a pessoa se recusava a aumentar a voltagem. Surpreendentemente, dois terços dos voluntários obedeceram às ordens mesmo que o ator gritasse e simulasse um ataque cardíaco. DEFINIÇÃO O nível de razão de mensuração é o nível de intervalo modificado de modo a incluir o ponto de partida zero ine- rente (onde zero significa nenhuma quantidade presente). Para valores nesse nível, tanto as diferenças como as ra- zões têm significado. EXEMPLO Dão-se a seguir exemplos de dados ao nível de ra- zão de mensuração. Pesos de artigos de material plástico descartados pelas re- sidências (0 lb indica que nenhum plástico foi descartado, e 10 lb representam duas vezes 5 lb). Duração (em minutos) de filmes. Distâncias (em milhas) percorridas por carros em um tes- te de consumo de combustível. Os valores de cada um desses conjuntos de dados podem ser dispostos em ordem, suas diferenças podem ser calculadas, e existe um ponto de partida zero inerente. Este nível é chamado o nível de razão porque o ponto de partida torna as razões signi- ficativas. Como um peso de 200 lb é duas vezes um peso de 100 lb, mas 50°F não é duas vezes mais quente do que 25°F, os pesos estão ao nível de razão, enquanto as temperaturas Fahrenheit estão em nível de intervalo. Para uma comparação e revisão concisas, deve-se estudar a Tabela 1-1 para ver as diferenças entre os qua- tro níveis de mensuração. Ao aplicarmos a estatística a problemas reais, o nível de men- suração dos dados é um fator importante para determinarmos o processo a ser utilizado. Nossa compreensão dos quatro níveis de mensuração deve ser complementado pelo bom senso — uma ferramenta indispensável na estatística. Por exemplo, não tem sentido calcularmos a média dos números de inscrição de segu- rados no lNSS, porque esses números não medem nem contam qualquer coisa; têm por função única e exclusiva identificar as pessoas. Tais números são, na verdade, nomes diferentes para as diversas pessoas e, como tais, não devem ser utilizados para cál- culos. De modo geral, não devemos calcular médias de dados aos níveis nominal ou ordinal de mensuração. TABELA 1-1 Níveis de Mensuração de Dados Nível Sumário Exemplo Nominal Ordinal Categorias somente. Os dados não podem ser dispostos em um esquema ordenado. As categorias são ordenadas, mas não podemos estabelecer diferenças, ou estas não têm sentido. Carros de alunos: 10 Corvettes 20 Ferraris 40 Porsches Carros de alunos: 10 compactos 20 médios 40 grandes Categorias ou nomes somente. Está determinada uma ordem: "compacto", "médio", "grande". Intervalo Podemos determinar diferenças entre valores, mas não há ponto de partida inerente. As razões não têm sentido. Razão Como intervalo, mas com um ponto de partida inerente. As razões têm sentido. Temperaturas no campus: 45°F } 90°F não é duas vezes 80°F mais quente do que 90°F 45°F. Pesos de jogadores de rugby em uma faculdade: 150 lb} 195 lb 300 lb é duas vezes 150 lb. 300 lb Introdução à Estatística 5 1-2 Exercícios A: Habilidades e Conceitos Básicos Nos Exercícios 1-8, identifique cada número como discreto ou contínuo. Cada cigarro Carne! tem 16,13 mg de alcatrão. O altímetro de um avião da American Airlines indica uma altitude de 21.359 pés. Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinantes de um serviço de computador on-line. O radar indica que Nolan Ryan rebateu a última bola a 82,3 mi/h. De todos os escores SAT marcados no ano passado, 27 foram per- feitos. De 1000 consumidores pesquisados, 930 reconheceram a marca de sopa Campbell, O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar passagem a pedestres é de 2,367 segundos. Ao completar um programa de treinamento, Shaquille O'Neal pe- sava 12,44 lb menos do que no início do treinamento. Nos Exercícios 9-18, determine o nível de mensuração mais adequado (nominal, ordinal, intervalo, razão). Classificação como superior, acima da média, médio, abaixo da média ou pobre para encontros marcados com desconhecidos. Conteúdo de nicotina (em miligramas) de cigarros Camel. Números de inscrição do INSS. Temperaturas (em graus Celsius) de uma amostra de contribuintes irritados por estarem sendo fiscalizados. Anos em que os democratas ganharam as eleições presidenciais. Graus finais (A, B, C, D, F) de estudantes de estatística. Códigos de endereçamento postal. Rendas anuais de enfermeiras. Carros classificados como subcompacto, compacto, intermediário ou grande. Cores de uma amostra de confeitos M&M. 1-2 Exercícios B: Acima do Básico Presidentes americanos foram assassinados nos anos de 1865, 1881, 1901 e 1963. Qual é o nível de mensuração para esses anos? Ex- plique sua resposta. No quadrinho "Bom Loser" (Perdedor nato) por Art Sansom, Brutus manifesta alegria por um aumento de temperatura de 1° para 2°. Ao lhe perguntarem a razão, respondeu: "Está agora duas ve- zes mais quente que hoje de manhã." Por que Brutus errou mais uma vez? 1-3 Usos e Abusos da Estatística Usos da EstatísticaAs aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo campo de estudo se beneficia da utiliza- ção de métodos estatísticos. Os fabricantes fornecem melhores produtos a custos menores através de técnicas de controle de qualidade. Controlam-se doenças com auxílio de análises que antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação do tamanho das populações. Visando reduzir as ta- xas de casos fatais, os legisladores têm melhor justificativa para leis como as que regem a poluição atmosférica, inspeções de automóveis, utilização do cinto de segurança e da bolsa de ar, e dirigir em estado de embriaguez. Citamos apenas esses exem- plos, porque uma compilação completa das aplicações da esta- tística facilmente tomaria o resto deste livro. Alguns estudantes escolhem um curso de estatística porque é exigido, mas um número cada vez maior o faz voluntariamente, porque reconhecem seu valor e aplicabilidade em qualquer campo em que pretendam trabalhar. Como os empregadores gostam de ver um curso de estatística no currículo de um candidato, o lei- tor que tiver estudado estatística levará vantagem ao procurar um emprego. Afora razões relacionadas com a obtenção de empre- go e com a disciplina, o estudo da estatística pode tornar o leitor mais crítico em sua análise de informações, e menos sujeito a afirmações enganosas, como as que se acham comumente asso- ciadas a pesquisas, gráficos e médias. Como membro educado e responsável da sociedade, o leitor deve aguçar sua capacidade de reconhecer dados estatísticos distorcidos e de interpretar in- teligentemente dados que se apresentem sem distorção. Os Motoristas Mais Idosos São Mais Seguros do que os Mais Moços? A American Association of Retired People — AARP (Associação Americana de Aposentados) alega que os motoristas mais idosos se envolvem em menor número de acidentes do que os mais jovens. Nos últimos anos, os motoristas com 16-19 anos de idade causaram cerca de 1,5 milhão de acidentes, em comparação com apenas 540.000 causados por motoristas com 70 anos ou mais, de forma que a alegação da AARP parece válida. Acontece, entretanto, que os motoristas mais idosos não dirigem tanto quanto os mais jovens. Em lugar de considerar apenas o número de acidentes, devemos examinar também as taxas de acidentes. Eis as taxas de acidentes por 100 milhões de milhas percorridas: 8,6 para os motoristas com idades de 16 a 19, 4,6 para os com idade de 75 a 79, 8,9 para os com idade de 80 a 84 e 20,3 para os motoristas com 85 anos de idade ou mais. Embora os motoristas mais jovens tenham de fato maior número de acidentes, os mais velhos apresentam as mais altas taxas de acidente. Abusos da Estatística Não é de hoje que ocorrem abusos com a estatística. Assim é que, há cerca de um século, o estadista Benjamin Disraeli disse: "Há três tipos de mentira: as mentiras, as mentiras sérias e a estatísti- ca." Já se disse também que "os números não mentem; mas os mentirosos forjam números" (Figures don't lie; liars figure) e que "se torturarmos os dados por bastante tempo, eles acabarão por admitir qualquer coisa". O historiador Andrew Lang disse que algumas pessoas usam a estatística "como um bêbado utili- za um poste de iluminação — para servir de apoio e não para iluminar". Todas essas afirmações se referem aos abusos da es- tatística, quando os dados são apresentados de forma enganosa. Alguns dos que abusam da estatística o fazem simplesmente por descuido ou ignorância; outros, porém, têm objetivos pessoais, pretendendo suprimir dados desfavoráveis enquanto dão ênfase aos dados que lhes são favoráveis. Passemos a alguns exemplos das diversas maneiras como os dados podem ser distorcidos. Pequenas Amostras No Capítulo 6 veremos que as pequenas amos- tras não são necessariamente más; entretanto, os resultados ob- tidos com pequenas amostras podem por vezes ser usados como uma forma de "mentira" estatística. As preferências de apenas 6 ESTATÍSTICA 10 dentistas por determinado dentifrício não devem servir dê base para uma afirmação generalizada como "A pasta dentifrícia XYZ é recomendada por 7 em cada 10 dentistas." Mesmo que a amostra seja grande, ela deve ser não-tendenciosa e representativa da população de onde provém. Às vezes uma amostra pode parecer realmente grande (como em uma pesquisa com "2000 adultos americanos escolhidos aleatoriamente"); mas se se formulam conclusões acerca de subgrupos, como republicanos católicos do sexo masculino, tais conclusões podem estar baseadas em amos- tras assaz pequenas. Números Precisos Às vezes os próprios números podem ser enga- nosos. Uma cifra, como um salário anual de $37.735,29, pode parecer muito precisa, introduzindo alto grau de confiança em sua exatidão. Já a cifra $37.700,00 não infunde o mesmo senso de precisão. Entretanto,-uma estatística com muitas casas deci- mais não é necessariamente precisa. Estimativas por Suposição Outra fonte de engano estatístico envol- ve estimativas que são, na verdade, suposições (ou, na lingua- gem popular, "palpites"), podendo apresentar erros substanciais. E preciso considerar a fonte da estimativa e a maneira como foi estabelecida. Quando o Papa visitou Miami, as fontes oficiais estimaram a multidão em 250.000 pessoas, mas, utilizando fo- tos aéreas e grades, o Miami Herald chegou a uma cifra mais precisa de apenas 150.000. Porcentagens Distorcidas Por vezes utilizam-se porcentagens con- fusas ou distorcidas. Em um anúncio de página inteira, a Conti- nental Airlines anuncia melhores serviços. No tocante ao caso de bagagem extraviada, o anúncio afirmava que "se trata de uma área em que já melhoramos 100% nos últimos seis meses". Em um editorial criticando essa estatística, o New York Times inter- pretou corretamente a melhora de 100% como significando que agora não se extravia mais qualquer bagagem — o que ainda não foi conseguido pela Continental Airlines. Cifras Parciais "Noventa por cento dos carros vendidos nos EUA nos últimos 10 anos ainda estão rodando." Milhões de consumi- dores ouviram esta mensagem e ficaram com a impressão de que esses carros devem ter sido muito bem construídos para durarem tanto. O que o fabricante não mencionou foi que 90% dos carros por ele vendidos, o foram nos últimos três anos. A alegação, embora tecnicamente correta, era enganosa, por não apresentar os resultados completos. Distorções Deliberadas No livro Tainted Truth, Cynthia Crossen cita um exemplo da revista Corporate Travei que publicou dados mostrando que, entre as companhias locadoras de carros, a Avis foi a vencedora em uma pesquisa junto aos locatários. Quando a Hertz solicitou informações detalhadas sobre a pesquisa, as res- postas desapareceram e o coordenador da pesquisa se demitiu. A Hertz processou a Avis (por falsa propaganda baseada na pes- quisa) e a revista; chegou-se a um acordo. Perguntas Tendenciosas As perguntas em uma pesquisa podem ser formuladas de modo a "sugerirem" uma resposta. Um caso fa- moso envoj.ve o candidato à presidência dos EUA, Ross Perot, que formulou a seguinte pergunta em um questionário: "O pre- sidente deve ter o poder de vetar decisões do Congresso?" No- venta e sete por cento das respostas foram "sim". Entretanto, o percentual de respostas "sim" caiu para 57% quando a pergunta foi "O presidente deve ter, ou não, o poder de vetar decisões do Congresso?" Às vezes as perguntas se apresentam involunta- riamente tendenciosas em virtude de fatores como a ordem dos itens a serem considerados. Por exemplo, uma pesquisa alemã formulou estas duas perguntas: O leitor diria que o tráfego contribui em maior ou menor grau do que a indústria para a poluição atmosférica? O leitor diria que a indústria contribui em maior ou menor grau do que o tráfego para a poluição atmosférica? Quando o tráfego foi mencionado em primeiro lugar, 45% acu- saram o tráfegoe 32% acusaram a indústria; quando a indústria foi citada em primeiro lugar, as porcentagens se modificaram grandemente para 24% e 57%, respectivamente. Pesquisa do Literary Digest Na campanha presidencial de 1936, a revista Literary Digest fez uma pesquisa e concluiu pela vitória de Alf Landon, mas Franklin D. Roosevelt venceu por larga margem. Maurice Bryson observa: "Foram enviados 10 milhões de cédulas — amostra a eleitores em potencial, mas apenas 2,3 milhões foram devolvidos. Como todos devem saber, tais amostras são quase sempre tendenciosas." Bryson afirma também: "As respostas voluntárias a questionários enviados pelo correio constituem talvez o método mais comum de coleta de dados sobre ciências sociais encontrado pelos estatísticos, e é também talvez o pior." (Ver Bryson, "The Literary Digest Poli: Making of a Statistical Myth", The American Statistician, Vol. 30, N.24.) Gráficos Enganosos Muitos dispositivos visuais.— como gráficos em barras e gráficos em setores — podem ser utilizados para exagerar ou diminuir a verdadeira natureza de um conjunto de dados. (Tais recursos serão discutidos no Capítulo 2.) Os dois gráficos da Figura 1-1 representam os mesmos dados do Bureau of Labor Statistics (Departamento de Estatística do Trabalho), mas a parte (b) tem como objetivo exagerar a diferença entre os ganhos dos homens e os das mulheres. Não partindo do zero no eixo vertical, o gráfico (b) tende a produzir uma impressão sub- jetiva errônea. A Figura 1-1 nos dá uma lição importante. Deve- mos analisar as informações numéricas contidas em um gráfico, não nos deixando enganar por sua forma geral. Pictográficos Os desenhos de objetos, chamados pictográficos, tam- bém podem levar-nos a erro. Os objetos comumente usados para ilustrar dados incluem sacos de dinheiro, pilhas de moedas, tan- $750 z .ns E • 500 "run E 250 ks) -c O (a) (b) Fig. 1-1 Ganhos de profissionais de tempo integral. $754 $750 -- c 700 650 - c 600 - " 550- 500 Homens $520 I- -UNA Mulheres Homens Mulheres Introdução À Estatística 7 ques do exército (para despesas militares), vacas (para produção • de laticínios), barris (para produção de petróleo) e casas (para construção). Ao desenhar tais objetos, o artista pode criar impres- sões falsas que distorcem as diferenças. Se duplicamos o lado de um quadrado, a área não é apenas duplicada, e sim quadrupli- cada; duplicando cada aresta de um cubo, seu volume não é ape- nas duplicado, e sim multiplicado por oito. Se os impostos do- bram a cada década, um desenhista pode representar os aumen- tos de imposto por um saco de dinheiro para o primeiro ano e um segundo saco duas vezes mais fundo, duas vezes mais alto e duas vezes mais largo para o segundo ano. Ao invés de aparece- rem duplicados, os impostos se apresentarão aumentados oito vezes; o desenho distorce, assim, a realidade. Pressão do Pesquisador Quando se formulam perguntas a indiví- duos pesquisados, esses freqüentemente dão respostas favoráveis à sua auto-imagem. Em uma pesquisa telefônica, 94% dos que responderam disseram que lavam suas mãos após usar um ba- nheiro, mas a observação em lugares tais como a Estação Penn, em Nova York e Golden Gate Park em San Francisco mostra- ram que o percentual efetivo é de apenas 68%. Más Amostras Outra fonte de estatística enganosa são os métodos inadequados de coleta de dados. É comum um pesquisador ana- lisar dados e formular conclusões errôneas porque o método de coleta de dados foi deficiente. Um exemplo típico é a pesquisa "Nightline" em que 186.000 espectadores de televisão pagaram 50 centavos para discar um número de telefone "900" dando sua opinião sobre se a sede das Nações Unidas deve permanecer nos EUA. Os resultados mos- traram que 67% dos que foram consultados eram favoráveis a que a sede da ONU saísse dos EUA. No começo deste capítulo perguntamos- o que se poderia concluir quanto à opinião geral da população sobre a permanência da ONU nos EUA. Como os . próprios espectadores é que decidiram se seriam incluídos na pesquisa, temos um exemplo de pesquisa auto-selecionada, que se define como segue. DEFINIÇÃO Uma pesquisa auto-selecionada é uma pesquisa em que os próprios entrevistados decidem se serão incluídos. Em tais pesquisas, o que freqüentemente ocorre é que participam apenas aqueles que têm uma opinião firmada, resultando daí que a amostra dos que respondem não é representativa da população como um todo. Como 67% dos 186.000 pesquisados eram favo- ráveis à mudança da sede da ONU dos EUA, nada podemos con- cluir sobre a população em geral, dada a maneira como se ob- 7 teve a amostra. Na realidade, Ted Koppel reportou que uma pes- quisa "científica" de 500 pessoas revelou que 72% delas deseja- vam que a sede da ONU permanecesse nos EUA. Nessa pesqui- sa de 500 pessoas, os que responderam foram selecionados ale- atoriamente pelo pesquisador, de modo que o resultado tende muito mais a refletir a verdadeira opinião da população em ge- ral. Uma pesquisa auto-selecionada é apenas uma das maneiras como o método de coleta de dados pode ser seriamente prejudi- 8. cado. Em vista de sua importância, dedicaremos a próxima se- ção ao método de amostragem ou coleta de dados. • Qual a renda anual após o corte de 10%? Com base na renda anual da parte a, determine a renda anual após o aumento de 10%. O corte de 10% seguido do aumento de 10% restituem à funcionária o salário original de $40.000? A revista Glamour publicou o seguinte resultado de uma pesqui- sa: "Setenta e nove por cento dos que responderam à nossa pes- quisa de agosto afirmaram crer que os americanos se tornaram demasiadamente propensos a apelar para a justiça em casos corri- queiros." A questão foi publicada na revista e os leitores podiam responder pelo correio, fax ou e-mail ( Tellus@Galamour . com). Até que ponto é válido o resultado de 79%? ADT Security Systems advertiu que "quando você sai de férias, os ladrões começam a agir". O anúncio afirmava que "de acordo com estatísticas do FBI, mais de 26% dos assaltos a residências ocor- riam entre o Memorial Day [feriado que homenageia os soldados mortos na guerra] e o Dia do Trabalho". Em que ponto essa afir- mação é enganosa? Em um estudo sobre crimes cometidos no campus de uma univer- sidade por estudantes sob efeito do álcool ou dai drogas, foram pesquisados 1.875 estudantes. Um artigo no USA Today notou: "Oito por cento dos estudantes que respondem anonimamente afir- mam ter cometido um crime no campus. E 62% desse grupo di- zem ter agido sob a influência do álcool ou das drogas." Supondo que o número de estudantes que responderam anonimamente seja de 1.875, quantos efetivamente cometeram um crime no campus sob a influência do álcool ou das drogas? Um estudo realizado pelo Insurance Institute for Ilighway Safety (Instituto de Segurança nas Rodovias) constatou que o Chevrolet Corvette acusa o mais elevado índice de acidentes fatais — "5,2 Os exemplos precedentes constituem uma pequena amostra das maneiras como a estatística pode ser utilizada de forma en- ganosa. Livros inteiros têm sido dedicados a esse assunto, inclu- sive o clássico How to Lie with Statistics, de Darrell Huff, The Figure Finaglers, de Robert Reichard, e Tainted Truth, de Cynthia Crossen. O entendimento de tais práticas será de grande auxílio na avaliação dos dados estatísticos encontrados em situ- ações cotidianas. 1-3 Exercícios A: Habilidades e Conceitos Básicos Uma pessoa foi encarregada de pesquisar o reconhecimento da marca Nike, devendo contactar por telefone 1500 consumidores nos EUA. Por que razão é incorreta a utilização de listas telefônicas como população para fornecer a amostra? Setenta e dois por cento dos americanos espremem o tubo de den- tifrício a partir da parte superior. Essa observação, assim como outras também não muito sérias, é apresentada em The First Really Important Survey of American Habits (aprimeira pesquisa realmen- te importante dos hábitos dos americanos). Esses resultados se baseiam em 7000 respostas a 25.000 questionários enviados pelo correio. Qual o lado errado dessa pesquisa? Um relatório patrocinado pela Florida Citrus Commission concluiu que os níveis de colesterol podem ser reduzidos mediante ingestão de produtos cítricos. Por que razão a conclusão poderia ser suspeita? Uma•funcionária tem um salário anual de $40.000, mas é informa- da de que terá uma redução de 10% no pagamento em virtude do declínio dos lucros da companhia. É informada também de que no próximo ano terá um aumento de 10%. A situação não se afigura tão má, porque a redução de 10% parece ser compensada pelo au- mento de 10%. $1864,8, Milhões $1483,3 Milhões $983,5 Milhões $643,3 Milhões 1 2 3 4 Ano 8 ESTATÍSTICA mortes para cada 10..000". O carro com menor índice cle'kcidéiités fatais foi o Volvo, com apenas 0,6 morte por 10.000. Significa isto que o Corvette não é tão seguro quanto o Volvo? O jornal Newport Chronicle afirma que as mães grávidas podem aumentar suas chances de ter unr bebê sadio comendo lagostas. A alegação se baseia em um estudo mostrando que as crianças nas- cidas de mães que comem lagostas têm menos problemas de saú- de do que as nascidas de mães que não comem lagostas. Qual é o erro nesta alegação? Uma pesquisa inclui o seguinte item: "Registre sua altura em po- legadas." Com isso pretende-se obter e analisar as alturas dos que respondem. Identifique os dois problemas neste item. "De acordo com uma pesquisa de âmbito nacional feita por 250 agências de empregos, os sapatos gastos constituem o motivo mais comum para que um homem que procura emprego não cause boa impressão à primeira vista." Os jornais apresentavam essa alega- ção com base em uma pesquisa encomendada pela Kiwi Brands, produtores de graxa para sapatos. Faça um comentário sobre a ra- zão por que os resultados de tal pesquisa podem ser questionados. Em um suplemento de propaganda inserido no Time, os aumentos das despesas com o combate à poluição foram ilustrados em um gráfico como o que aparece a seguir. O que está errado com a figura? • 1-4 Planejamento de Experimentos Os estudos que utilizam métodos estatísticos vão desde os que são bem concebidos e executados, dando resultados confiáveis, aos que são concebidos deficientemente e mal executados, levan- do a conclusões enganosas e sem qualquer valor real. Eis alguns pontos importantes para o planejamento de um estudo capaz de produzir resultados válidos: Identificar com precisão a questão a ser respondida e definir com clareza a população de interesse. Estabelecer um plano para coleta de dados. Esse plano deve descrever detalhadamente a realização de um estudo obser- vacional ou de um experimento (ambos definidos a seguir), e deve ser elaborado cuidadosamente, de modo que os da- dos coletados representem efetivamente a população em questão. Coletar os dados. Devemos ser extremamente cautelosos, para minimizar os erros que podem resultar de uma coleta tenden- ciosa de dados. Analisar os dados e tirar conclusões. Identificar também pos- síveis fontes de erros. 1-3 Exercícios E: Além do Básico Um artigo no New York Times afirmou que a duiação média da vida de 35 regentes de orquestra do sexo masculino era de 73,4 anos, em contraste com a média de 69,5 anos para a população masculina em geral. A vida mais longa foi atribuída a fatores como satisfação pes- soal e motivação. Há uma falha fundamental na conclusão de que os regentes de orquestra do sexo masculino vivem mais. Qual é? Um pesquisador do Sloan-Kettering Cancer Research Center foi criticado certa vez por adulterar dados. Entre seus dados estavam cifras obtidas de seis grupos de ratos, com 20 ratos em cada gru- po. Foram dados os seguintes valores como porcentagens de su- cesso: 53%, 58%, 63%, 46%, 48%, 67%. O que está errado? Procure identificar as quatro maiores falhas no seguinte. Um jor- nal realizou uma pesquisa solicitando a resposta dos leitores a esta pergunta: "Você apóia o desenvolvimento de armas atômicas que poderiam matar milhões de pessoas inocentes?" Relata-se qué 20 leitores responderam, 87% com "não" e 13% com "sim". Um editorial do New York Times criticou um anúncio que alegava que determinado anti-séptico bucal "reduzia em mais de 300% as placas nos dentes". Removendo-se 100% de uma quantidade, quanto resta? Que significa reduzir as placas em mais de 300%? Os estudos que requerem métodos estatísticos decorrem tipi- camente de duas fontes comuns: estudos observacionais e expe- • rimentos. DEFINIÇÕES Em um estudo observacional, verificamos e medimos características específicas, mas não tentamos manipular ou modificar os elementos a serem estudados. Em um experimento, aplicamos determinado tratamento e passamos então a observar seus efeitos sobre os elemen- tos a serem pesquisados. Por exemplo, um estudo observacional pode envolver uma pesquisa de cidadãos para determinar que porcentagem da po- pulação é a favor do registro de armas de fogo. Um experimento pode envolver o tratamento com um remédio ministrado a um grupo de pacientes a fim de determinar sua eficiência na cura. No caso da arma de fogo, coligimos dados sem modificar as pessoas a serem pesquisadas; já o tratamento por um remédio envolve a modificação das pessoas. Os experimentos bem planejados costumam envolver um gru- po a quem é dado um tratamento particular (chamado grupo de tratamento) e um segundo grupo de controle ao qual não se ad- ministra o tratamento. Por exemplo, o experimento sobre pólio realizado em 1954 envolveu um grupo de tratamento de crian- ças em quem foi injetada a vacina Salk, e um grupo de controle de crianças que recebeu um remédio neutro (placebo). Em ex- perimentos deste tipo, ocorre um efeito placebo quando um in- divíduo não tratado acredita estar recebendo o tratamento e ale- ga uma melhora nos sintomas. O efeito placebo pode ser contra- balançado fazendo-se um experimento cego, uma técnica em que o indivíduo não sabe se está recebendo o tratamento ou um pla- cebo. O experimento sobre pólio foi do tipo duplo-cego, em que as crianças que recebiam a injeção não sabiam se estavam rece- bendo a vacina Salk ou um placebo, e os médicos que davam a injeção e avaliavam os resultados também não sabiam. Introdução à Estatística 9 As Pesquisas Políticas Crescem Em "Consulting the Oracle", um artigo para o U.S. News and World Report, o autor Stephen Budiansky escreve que o Presidente Kennedy encomendou 16 pesquisas em seus três anos de mandato, Nixon encomendou 233 pesquisas em seus seis anos, e Clinton encomendou entre 100 e 150 pesquisas em seus primeiros 2,5 anos. As 'Pesquisas de Clinton custaram entre $30.000 e $45.000 coda uma, o que dá um custo de $30 por pessoa. Budiansky relata que a pesquisa é complicada por máquinas de resposta e por pessoas que se recusam a cooperar, mas as boas pesquisas incluem tentativas repetidas para obter respostas dos que não estão em casa ou se recusam a responder. Não levar em conta os que não respondem pode resultar em uma amostra que não represente adequadamente a população. Ao planejar um experimento para testar a eficiência de um ou mais tratamentos, devemos ter o cuidado de atribuir as unidades experimentais (ou indivíduos) aos diferentes grupos de tal modo que esses grupos sejam bem semelhantes. (Tais grupos semelhan- tes de unidades experimentais são chamados blocos.) Uma abor- dagem eficiente consiste em utilizar um planejamento experimen- tal completamente aleatorizado, que exige que as unidades ex- perimentais sejam divididas em diferentes grupos mediante um processo de seleção aleatória. Assim é que tal planejamento pode envolver a atribuição aleatória de pessoas a um grupo tratado com aspirina e a um grupo de controle que não é tratado. Outro pro- cesso consiste em utilizar um planejamento controlado rigoro- samente, com unidadesexperimentais' escolhidas cuidadosamen- te, de modo que os diferentes grupos (ou blocos) sejam tão se- melhantes quanto possível. Com um planejamento rigorosamente controlado, podemos tentar formar grupos de tratamento e de controle que incluam pessoas semelhantes em idade, peso, pres- são sanguínea etc. É importante também considerar a replica ção, que exige tamanhos de amostra suficientemente grandes que re- duzam os efeitos da variação amostra! aleatória. O experimento com a pólio foi um planejamento experimental completamente aleatorizado, porque os indivíduos em ambos os grupos, de tra- tamento e de controle, foram selecionados aleatoriamente. Incor- porou a replicação incluindo números muito grandes (200.000) de indivíduos em cada grupo. Na realização de experimentos, os resultados por vezes são comprometidos pelo confundimento. DEFINIÇÃO Ocorre o confundimento quando os efeitos de duas ou mais variáveis não podem distinguir-se uns dos outros. Por exemplo, se estamos realizando um experimento para testar a eficiência de um novo retardante no incêndio em uma sarça, e repentinamente começa a chover, ocorre o confundimento por- que é impossível distinguir entre o efeito do retardante e o efeito da chuva. Um dos erros mais graves consiste em uma forma inadequa- da de coleta de dados. Nunca é demais enfatizarmos este impor- tante ponto: Dados coletados de forma descuidada podem ser tão inúteis que nenhum processamento estatístico consegue salvá-los. Notamos na Seção 1-3 que uma pesquisa auto-selecionada é uma pesquisa em que as próprias pessoas decidem se vão responder ou não. As pesquisas auto-selecionadas são muito comuns, mas seus resultados em geral não têm utilidade para fazer inferências válidas sobre toda uma população. Passamos agora a definir e descrever os cinco métodos mais comuns de amostragem. DEFINIÇÃO Em uma amostra aleatória, os elementos da população são escolhidos de tal forma que cada um deles tenha igual chance de figurar na amostra. (Escolhe-se uma amostra aleatória simples de n elementos, de maneira que toda a mostra de tamanho n possível tenha a mesma chance de ser escolhida.) As amostras aleatórias podem ser escolhidas por diversos mé- todos, inclusive a utilização de tabelas de números aleatórios e de computadores para gerar números aleatórios. Com a amos- tragem aleatória, espera-se que todos os grupos da população sejam representados na amostra de forma aproximadamente proporcional. Uma amostragem descuidada pode facilmente resultar em uma amostra tendenciosa, com características as- saz diferentes das da população que a originou. Em contrapar- tida, a amostragem aleatória é cuidadosamente planejada para evitar qualquer tendenciosidade. Por exemplo, a utilização de catálogos telefônicos elimina automaticamente todos aqueles cujos telefones não figurem no catálogo, e a exclusão desse segmento da população pode facilmente conduzir a resultados falsos. Em Los Angeles, por exemplo, 42,5% dos números de telefones não estão no catálogo (com base em dados da Survey Sampling, Inc.). Os pesquisadores costumam contornar esse problema utilizando computadores para gerar números de te- lefone, de modo que todos os números sejam possíveis. Eles devem também ter o cuidado de incluir os que inicialmente não foram encontrados ou se recusaram a responder. A Companhia de Pesquisas Harris constatou que a taxa de recusa para entre- vistas telefônicas é em geral de 20%, no mínimo. O fato de ignorarmos os que inicialmente se recusam a responder pode concorrer para que nossa amostra seja tendenciosa. DEFINIÇÃO Com a amostragem estratificada, subdividimos a popu- lação em, no mínimo, duas subpopulações (ou estratos) que compartilham das mesmas características (como sexo) e, em seguida, extraímos uma amostra de cada estrato. Em uma pesquisa sobre a Emenda Constitucional da Igualda- de de Direitos, poderíamos utilizar o sexo como base para a criação de dois estratos. Após obter uma relação dos homens e uma relação das mulheres, aplicamos um método conveniente (como a amostragem aleatória) para escolher determinado nú- mero de elementos de cada relação. Quando os diversos estra- tos têm tamanhos amostrais que refletem a população global, temos o que se chama amostragem proporcional. No caso de alguns estratos não serem representados na proporção adequa- DEFINIÇÃO Na amostragem por conglomerados, começamos divi- dindo a área da população em seções (ou conglomerados); em seguida escolhemos algumas dessas seções e, finalmen- te, tomamos todos os elementos das seções escolhidas. 10 ESTATÍSTICA da, então os resultados poderão ser ajustados ou pondérados convenientemente. Para um tamanho fixo de amostra, se escolhemos aleatoria- mente elementos de diferentes estratos, temos chance de obter resultados mais consistentes (e menos variáveis) do que com a simples escolha de uma ali-Risca aleatória de toda a população. Por essa razão, costuma-se usar a amostragem estratificada para reduzir a variação nos resultados. DEFINIÇÃO Na amostragem sistemática, escolhemos um ponto de partida, e selecionamos cada k-ésim° elemento (como por exemplo cada 50.° elemento) da população. Por exemplo, se a Motorola quisesse fazer uma pesquisa sobre seus 107.000 empregados, poderia partir de uma relação com- pleta dos mesmos e selecionar cada 100.0 empregado, obtendo urna amostra de 1.070 elementos. Esse método é simples e utili- zado com freqüência. . Uma diferença importante entre a amostragem por conglomera- dos e a amostragem estratificada é que a amostragem por con- glomerados utiliza todos os elementos dos conglomerados sele- cionados, enquanto a amostragem estratificada utiliza uma amos- tra de membros de cada estrato. Pode-se encontrar um exemplo de amostragem por conglomerado em uma pesquisa pré-eleitoral, onde escolhemos aleatoriamente 30 zonas eleitorais e pesquisamos todos os elementos de cada uma das zonas escolhidas. Esse méto- do é muito mais rápido e menos dispendioso do que a escolha de um indivíduo de cada uma das inúmeras zonas da área popu- lacional. Os resultados podem ser ajustados ou ponderados para corrigir qualquer representação desproporcionada de grupos. A amostragem por conglomerados é extensamente utilizada pelo governo e por organizações particulares de pesquisa. Meta-análise O termo meta-análise se refere a uma técnica de estudo que, essencialmente, combina os resultados de outros estudos. Tem a vantagem de permitir que amostras menores separadas sejam combinadas em uma única amostra grande, tornando mais significativos os resultados globais. Tem também a vantagem de utilizar um trabalho já feito. Por outro lado, tem a desvantagem de ser apenas tão boa quanto o tenham sido os estudos básicos. Se esses estudos apresentam falhas, pode ocorrer o fenômeno "garbage in, garbage out" (N. do T.: "O que sai é tão bom como o que entra.") A utilização da meta-análise é de uso corrente em pesquisas médicas e psicológicas. Um exemplo: "Reversal of Left Ventricular Hypertrophy in Essential Hypertension: A Meta-analysis of Randomized Double-blind Studies", por Schmieder, Marius e Klingbeil, Joumal of the American Medical Association, Vol. 275, No.19. DEFINIÇÃO Na amostragem de conveniência, simplesmente utiliza- mos resultados que já estão disponíveis. Em alguns casos, os resultados da amostragem de conveniên- cia podem ser assaz bons, mas em outros casos podem apresentar séria tendenciosidade. Ao fazer uma pesquisa sobre pessoas ca- nhotas, seria conveniente um estudante pesquisar seus próprios colegas de classe, porque estão ao seu alcance imediato. Mesmo que tal amostra não seja aleatória, os resultados devem ser bem satisfatórios. Em contrapartida, poderia ser muito conveniente (e talvez mesmo lucrativo) para a ABC News fazer uma pesquisa pedindo aos espectadores que liguem para um número de telefone "900" para registrar suas opiniões, mas essa pesquisa seriaauto- selecionada e os resultados seriam provavelmente tendenciosos. A Figura 1-2 ilustra os cinco métodos mais comuns de amos- tragem que acabamos de descrever. Essas descrições pretendem ser breves e gerais. O conhecimento aprofundado desses diver- sos métodos, que permita sua utilização com proveito, exige um estudo muito mais extenso, que ultrapassa o nível de um curso introdutório. Para manter esta seção em perspectiva, notemos que este texto fará referência freqüente a dados "selecionados alea- toriamente", o que significa que os dados foram selecionados de modo que todos os elementos da população têm a mesma chan- ce de serem escolhidos. Conquanto não façamos referência fre- qüente aos outros métodos de amostragem, devemos ter consci- ência de que eles existem, e que o método de amostragem exige planejamento e execução cuidadosos. Os métodos apresentados em todo este texto dependem de amostras que tenham sido obtidas cuidadosamente. Além disso, o tamanho da amostra deve sempre ser suficientemente grande para os propósitos em vista. (Os pro- blemas de tamanho da amostra são abordados mais adiante, espe- cialmente no Capítulo 6.) Muitas pessoas acreditam que as gran- des amostras são sempre boas, mas mesmo essas podem ser total- mente desprovidas de valor, se os dados tiverem sido coletados de maneira negligente. Finalmente, se estamos medindo uma carac- terística (como altura) de um conjunto de indivíduos, podemos obter resultados mais precisos se fizermos nós mesmos as medi- das, em vez de pedirmos aos indivíduos que indiquem os valores. Este último procedimento pode resultar em um número despro- porcionado de resultados arredondados, assim como muitos resul- tados que refletem valores desejados em lugar de valores efetivos. Não importa quão bem planejemos e executemos o processo de coleta de amostras, há sempre a possibilidade de um erro nos resultados. Como exemplo, escolha aleatoriamente 1000 adul- tos e pergunte a eles se têm o curso secundário completo, regis- trando a porcentagem de respostas "sim". Escolhido um outro grupo de 1000 indivíduos, é provável que se obtenha uma por- centagem amostral diferente. DEFINIÇÕES Um erro amostral é a diferença entre um resultado amos- tral e o verdadeiro resultado populacional; tais erros resul- tam de flutuações amostrais aleatórias. Ocorre um erro não-amostral quando os dados amostrais são coletados, registrados ou analisados incorretamente. Tais erros resultam de um erro que não seja uma simples 'Amostragem de Conveniência Utilizar resultados de fácil acesso. ~WARM I Introdução à Estatística 11 Amostragem Aleatória Cada elemento da população tem a mesma chance de ser escolhido. Em geral utilizam-se computadores para gerar números de telefone aleatórios. Amostragem Estratificada Classificar a pop. ulação em, ao menos, dois estratos e extrair uma amostra de cada um. Is , Amostragem Sistemática Escolher cada elemento de ordem k. Amostragem por Conglomerado Dividir em seções a área populacional, selecionar aleatoriamente algumas dessas seções e tomar todos os elementos das mesmas. Fig. 1-2 Métodos comuns de amostragem. flutuação amostral aleatória, como a escolha de uma amos- tra não-aleatória e tendenciosa, a utilização de um instru- mento de mensuração defeituoso, uma questão formulada de modo tendencioso, um grande número de recusas de resposta ou a cópia incorreta dos dados amostrais. Se extrairmos uma amostra cuidadosamente, de forma que ela represente realmente a população, podemos aplicar os mé- todos descritos neste livro para analisar o erro amostra!, mas devemos ter o máximo cuidado em minimizar os erros não- amostrais. Hawthorne e os Efeitos do Experimentador O bem conhecido efeito placebo ocorre quando um indivíduo não tratado acredita incorretamente que está recebendo um tratamento real e reporta uma melhora dos sintomas. O efeito Hawthorne ocorre quando indivíduos tratados respondem de maneira um tanto diferente, simplesmente porque são partes de um experimento. (Esse fenômeno foi chamado "efeito Hawthorne" porque foi observado pela primeira vez em um estudo levado a efeito em operários cia fábrica da Western Electric, em Hawthorne.) Ocorre um efeito de experimentador (às vezes chamado efeito Rosenthall) quando o pesquisador ou experimentador involuntariamente influencia o indivíduo pesquisado, através de fatores como expressão facial, tom de voz ou atitude. 12 ESTATÍSTICA 1-4 Exercícios A: Habilidades e Conceitos Básicos Nos Exercícios 1-4, determine se a descrição dada corresponde a um estudo observacional ou a um experimento. Mede-se o conteúdo de alcatrão, nicotina e monóxido de carbono em diferentes marcas de cigarro (conforme Conjunto de Dados 4 no Apêndice B). Pede-se a fumantes que reduzam à metade o número de cigarros consumidos diariamente, para que se possam medir os efeitos so- bre a freqüência de pulsação. Em uma turma de educação física, estuda-se o efeito dos exercí- cios físicos sobre a pressão sanguínea, determinando-se que meta- de dos estudantes ande uma milha cada dia, enquanto a outra me- tade corra uma milha diária. Estuda-se a relação entre os pesos de ursos e seus comprimentos, tomando-se as medidas em ursos anestesiados. Nos Exercícios 5-16, identifique o tipo de amostragem utiliza- do: aleatória, estratificada, sistemática, por conglomerado ou de conveniência. Quando escreveu Women and Love: A Cultural Revolution, a au- tora Shere Hite baseou suas conclusões em 4.500 respostas a 100.000 questionários distribuídos a mulheres. Um psicólogo da Universidade de Nova York faz uma pesquisa sobre todos os estudantes de cada uma de 20 turmas selecionadas aleatoriamente. Um sociólogo na Universidade de Charleston seleciona 12 homens e 12 mulheres de cada uma de quatro turmas de inglês. A empresa Sony seleciona cada 200.0 CD de sua linha de produção e faz um teste de qualidade rigoroso. Um cabo eleitoral escreve o nome de cada senador dos EUA. em cartões separados, mistura-os e extrai 10 nomes. O gerente comercial da America Online testa uma nova estratégia de vendas selecionando aleatoriamente 250 consumidores com renda inferior a $50.000 e 250 consumidores com renda de ao menos $50.000. O programa Planned Parenthood (Planejamento Familiar) pesquisa 500 homens e 500 mulheres sobre seus pontos de vista sobre o uso de anticoncepcionais. Um pesquisador de mercado da American Airlines entrevista todos os passageiros de cada um de 10 vôos selecionados aleatoriamente. Um pesquisador médico da Universidade Johns Hopkins entrevis- ta todos os portadores de leucemia em cada um de 20 hospitais selecionados aleatoriamente. Um repórter da revista Business Week entrevista todo 50.0 gerente geral constante da relação das 1000 empresas com maior cotação de suas ações. Um repórter da revista Business Week obtém uma relação nume- rada das 1000 empresas com maiores cotações de ações na bolsa, utiliza um computador para gerar 20 números aleatórios e então entrevista os gerentes gerais das empresas correspondentes aos números extraídos. Ao fazer uma pesquisa para um noticiário vespertino de Boston, um repórter da NBC entrevista 15 pessoas que saem do auditório da IRS. 1-4 Exercícios B: Além do Básico Aberta e fechada são dois tipos de questões de uma pesquisa. Uma questão aberta permite uma resposta livre, enquanto uma questão fechada comporta apenas uma resposta fixa. Alguns exemplos baseadoá em pesquisas Gallup. Questão aberta: Na opinião do leitor, que se pode fazer para redu- zir o crime? Questão fechada: Qual das seguintes medidas más contribuiria para a redução da criminalidade? Contratar mais policiais. Fazer com que os pais eduquem melhor os filhos. Melhorar as condições sociais e econômicas nas favelas. Ampliar os esforços para reabilitação nas cadeias. Aplicar sentenças mais severas aos criminosos. Reformar os tribunais. 1-5 Estatística com Calculadorase Computadores Um subproduto importante do programa espacial dos EUA é a invenção do chip de microprocessador — uma invenção que teve profunda influência na aplicação da estatística. A instalação de chips de microprocessador em calculadoras e computadores eli- minou a tremenda tarefa de cálculos monótonos, tornando o uso da estatística mais acessível a muitas pessoas. Descreveremos brevemente, nesta seção, o papel das calculadoras e dos compu- tadores na estatística. Calculadoras Os estudantes de estatística cedo descobrem que uma calculado- ra é um de seus melhores auxiliares. Além de ter as operações básicas (+, —, x, ±, etc.), muitas calculadoras apresentam hoje recursos estatísticos especiais, como média, desvio-padrão e resultados de correlação/regressão. (Esses tópicos serão abor- dados em capítulos posteriores.) Além de possibilitar o cálculo de expressões complicadas e de certas operações estatísticas, algumas calculadoras também permitem a introdução e armaze- nagem de programas especiais a serem utilizados durante todo o curso. A 11-83 da Texas Instruments é um excelente exemplo de calculadora perfeitamente adaptável a um curso introdutório de estatística. E programável, pode exibir gráficos e tem não poucas funções estatísticas especiais incluídas. Existe um disco separado com programas escritos para a TI- 82 e 11-83, e esses programas podem ser transferidos de um com- putador para a calculadora. Alguns professores de estatística exigem que todos os seus alunos utilizem uma calculadora TI- 83, outros exigem qualquer calculadora que processe estatística bivariada e outros finalmente aceitam o uso de qualquer calcu- ladora. Para o estudante que ainda não tem uma calculadora, re- comenda-se uma que seja capaz de processar estatística de duas variáveis. Qualquer que seja a calculadora escolhida, o manual que a acompanha é um guia valioso. Em caso de dúvida, consul- Quais são as vantagens e as desvantagens das questões aber- tas? Quais as vantagens e as desvantagens das questões fecha- das? Que tipo é mais fácil de analisar com processos estatísticos formais? Por quê? i 18. Descreva detalhadamente um método que poderia ser usado para obter uma amostra aleatória simples das alturas de cinco alunos de . sua turma de estatística. Introdução à Estatística 13 te o manual e procure fazer os exemplos apresentados. Se ainda assim tiver dificuldade, recorra ao seu professor. Computadores O computador desempenha hoje papel relevante em quase todos os aspectos da análise estatística. A ampla diversidade de com- putadores e pacotes de software possibilitou a utilização da es- tatística por pessoas com diferentes tipos de formação matemá- tica, mas também criou maior oportunidade de uso indevido da estatística. É importante reconhecer que tanto os pacotes de soft- ware como os computadores têm uma limitação muito séria: eles seguem cegamente as instruções, ainda que inadequadas ou mesmo absurdas. O computador não raciocina, e não pode for- mular julgamentos. A compreensão dos princípios da estatística é pré-requisito importante para a correta interpretação de resul- tados obtidos por computador. Mesmo que o leitor não venha a usar efetivamente os computadores neste curso, deve procurar desenvolver habilidade em interpretar resultados de análise es- tatística obtidos em um computador, como os que ocorrem em todo este texto. Faremos referência freqüentemente a dois pacotes em parti- cular O STATDISK e Minitab. O STATDISK apresenta uma vantagem importante: é um programa fácil de ser usado. O Minitab já é um pacote estatístico de nível mais elevado, mas também é de utilização relativamente fácil. Com o STATDISK e o Minitab, os programas são escolhidos de uma barra de ferramentas no topo da tela, como segue: STATDISK: File Edit Analysis Data Help Minitab: File Edit Manip Calc Stat Graph Editor Window Help Utilizando STATDISK ou Minitab, podemos familiarizar-nos melhor com a operação geral de um computador. Os exemplos que seguem ilustram alguns aspectos básicos de STATDISK e Minitab: Para introduzir um novo conjunto de dados: STATDISK: Selecionar Data da barra de ferramentas e es- colher então a opção sampl e Editoi'. Minitab: Selecionar File da barra principal e escolher então a opção New Worksheet. Para salvar e nomear um conjunto de dados: STATDISK Selecionar File da barra principal e escolher então a opção seve As. Minitab: Selecionar File da barra principal e escolher então a opção Seve Worksheet As... Para abrir um arquivo de dados previamente armazenado: STATDISK: Selecionar File da barra principal e escolher então a opção Open. Minitab: Selecionar File da barra principal e escolher então a opção Open Worksheet. Para imprimir resultados: STATDISK: Selecionar File da barra principal e escolher a opção Print. Minitab: Selecionar File da barra principal e escolher a opção Print Window. Para sair do programa: STATDISK: Selecionar File da barra principal e escolher então a opção Quit. Minitab: Selecionar File da barra principal e escolher então a opção Exit. STATDISK e Minitab são ambos capazes de realizar quase to- das as operações importantes abordadas neste livro. Apresentamos apenas algumas características de STATDISK e Minitab, mas a utilização desses programas é abordada com maior detalhe em STATDISK Student Laboratory Manual and Workbook (7.° edição) e em Minitab Student Laboratory Manu- al and Workbook (7.a edição). As características e a apresenta- ção de alguns resultados dados por esses programas são também discutidos em todo este livro, sempre que adequado. Alguns professores de estatística preferem outros pacotes Como SPSS, SAS, BMDP, Execustat, Systat, Mystat ou Statgraphics. Qualquer que seja o pacote escolhido, o estudante sempre se beneficiará, melhorando seus conhecimentos em uma área que se tornou tão importante. Deixe o Computador Ligado Algumas pessoas costumam desligar o computador logo após o término de determinada tarefa, enquanto outras deixam-no ligado até que não precisem mais utilizá-lo naquele dia. O painel de circuitos e os chips do computador sofrem com esses ciclos de liga/desliga. Mas o monitor pode se danificar quando a mesma imagem é deixada na tela por períodos de tempo muito longos. O tempo médio entre interrupções (MTBF = Mean Time Between Failures) para o disco rígido já foi de 5000 horas, mas hoje é de cerca de 30.000 horas. Considerando os efeitos danosos dos ciclos on/off sobre o painel de circuitos e os chips do computador, e o grande MTBF para discos rígidos, faz sentido deixar o computador ligado até o fim do dia, desde que a tela do monitor possa ser protegida utilizando-se um programa para descansar a tela. Muitas pessoas utilizam essa estratégia, que se originou em parte de uma análise estatística de eventos passados. 1-5 Exercícios A: Habilidades e Conceitos Básicos Exercícios iniciais com calculadora: Nos Exercícios 1-8, as ex- pressões apresentadas são análogas às que se encontram em diferentes partes do livro. Utilize sua calculadora para obter os valores indicados. 3 44 1 + 2,67 + 2,09 + 1,87 + 3,11 . ' 5 2. \I(2 — 5)2 + (4 — 5)2 + (9 — 5)2 3 — 1 3 \13(101 ) — 152 6 00000001 00000002 00000003 00000004 00000005 00000006 00000007 00000008 00000009 00000010 00000011 00000012
Compartilhar