Baixe o app para aproveitar ainda mais
Prévia do material em texto
Learning ESTATÍSTICA APLICADA à administração e economia Dennis J. Sweeney Thomas A.Williams David R. Anderson rilha Dados e a estatística ESTATÍSTICA NA PRÁTICA BUSINESSWEEK 1.1 APLICAÇÕES EM ADMINISTRAÇÃO E ECONOMIA Contabilidade Finanças Marketing Produção Economia 1.2 DADOS Elementos, variáveis e observações Escalas de medição Dados categorizados e quantitativos Dados de seção transversal e de série temporal 1.3 AS FONTES DE DADOS Fontes existentes Estudos estatísticos Erros na obtenção de dados 1.4 ESTATÍSTICA DESCRITIVA 1.5 INFERÊNCIA ESTATÍSTICA 1.6 COMPUTADORES E A ANÁLISE ESTATÍSTICA 1.7 MIN ER AÇÃO (DATA M IN IN G ) 1.8 DIRETRIZES ÉTICAS PARA A PRÁTICA ESTATÍSTICA Vemos com frequência os seguintes tipos de afirmação em artigos de jornais e de revistas: • A National Association of Realtors (Associação Nacional de Corretores de Imóveis) relatou que o preço médio pago pelos que compram sua primeira casa é de $ 165.000 (The Wall Street Journal, de 11 fevereiro de 2009). • A NCAA (National Collegiate Athletic Association, ou Associação Atlética do Colegiado Nacio nal) relatou que atletas universitários estão obtendo diplomas a índices recorde. Os números mais recentes mostram que 79% de todos os alunos e alunas que são atletas se formam (Associated Press, 15 de outubro de 2008). • O tempo médio de percurso de ida para o trabalho é de 25,3 minutos (Agência de Recenseamento dos Estados Unidos, março de 2009). • Uma pesquisa demonstrou que 73% dos indivíduos pesquisados esperavam que a Média Industrial do índice Dow Jones aumentasse 10% ou mais durante o próximo ano (Money Investor’s Guide, fevereiro de 2010). ■ Estatística aplicada à administração e economia f t ESTATÍSTiCA na PRÁTICA' ................ ■...... ..... BUSINESSWEEK* Nova York, NY Com uma circulação global de mais de um milhão de exemplares, a BusinessWeek é a revista de negócios mais lida em todo o mundo. Mais de 200 repórteres exclusivos e editores em 26 agências internacionais publicam uma série de artigos que interessam à comunidade empresarial e econômica. Além dos artigos especiais sobre temas da atualidade, a revista contém seções regulares sobre negó cios internacionais, análise econômica, processamento de informação e ciência e tecnologia. As informações apre ^ sentadas nos artigos e nas seções regulares ajudam o leitor a se manter atualizado sobre os acontecimentos e a avaliar o impacto desses acontecimentos sobre as condições eco nômicas e de negócios. A maioria das edições da BusinessWeek fornece uma reportagem mais aprofundada sobre um assunto.de inte resse atual. Frequentemente, essas reportagens contêm fa tos e resumos estatísticos que ajudam o leitor a entender as informações empresariais ou econômicas. Por exemplo, a edição de 17 de março de 2009 incluía uma discussão sobre quando o mercado de ações começaria a se recupe rar; a edição de 4 de maio de 2009 tinha uma reportagem especial sobre como tornar a redução salarial menos pro blemática; e a edição de 18 de janeiro de 2010 continha um artigo sobre a permanência da mão de obra temporária. Além disso, a revista semanal BusinessWeek Investor for- nece estatísticas sobre a s i t u a ç ã o da economia, incluindo índices de produção, preços de ações, fundos mútuos e taxas de juros. A BusinessWeek também usa a estatística e informações estatísticas para gerenciar seu próprio negócio. Por exemplo, uma pesquisa anual feita com os assinantes ajuda a empresa a conhecer aspectos demográficos relativos a eles, seus há bitos de leitura, a probabilidade de compras, estilos de vida e assim por diante. Os gerentes da revista utilizam os re sumos estatísticos dessa pesquisa para oferecer melhores serviços aos assinantes e aos anunciantes. Uma pesquisa recente com os assinantes norte-americanos indicou que 90% dos assinantes da BusinessWeek têm computadores em casa e que 64% articulam a compra de um computador no trabalho. Esse tipo de estatística alerta os gerentes da . BusinessWeek quanto ao interesse do assinante em artigos sobre novos desenvolvimentos na ârea da informática. Os resultados da pesquisa também são colocados à disposi ção de potenciais assinantes. A elevada porcentagem de assinantes que usam computadores pessoais em casa e dos que articulam a compra de computadores no trabalho seria um incentivo para os fabricantes pensarem em anun ciar na revista. Neste capítulo, discutiremos os tipoS de dados disponí veis para análise estatística e descreveremos como são ob tidos. Apresentaremos a estatística descritiva e a inferência estatística como meios de converter dados em informações estatísticas significativas e de fácil interpretação. *Os autores agradecem a Charlene Trentham, gerente de Pesquisas da BusinessWeek, por fornecer esta Estatística na Prática. ° O preço médio nacional da gasolina comum atingiu $ 4,00 por galão pela primeira vez na história (site da Cable News Network, 8 de junho de 2008). 0 O time do New York Yankees obteve os mais elevados salários da liga profissional de beise bol. A folha de pagamento total é de $ 201.449.289, com um salário mediano de $ 5.000.000 (USA Today Salary Data Base, setembro de 2009). 0 A Média Industrial do índice Dow Jones fechou a 10,664 (The Wall Street Journal, 12 de janeiro de 2010). Os fatos numéricos contidos nessas afirmações ($ 165.000, 79%, 25,3 minutos, 73%, $ 4,00, $ 201.449.289, $ 5.000.000 e 10,664) denominam-se estatísticas. Desse modo, o termo estatística se refere a fatos numéricos, como médias, medianas, percentuais e índices, que nos ajudam a com preender uma variedade de situações administrativas e econômicas. Entretanto, como veremos, a área ou o objeto da estatística envolve muito mais do que fatos numéricos. Em um sentido mais amplo, estatística é a arte e a ciência de coletar, analisar, apresentar e interpretar dados. Especial mente na área da administração e economia, as informações obtidas por meio de coleta, análise, apresentação e interpretação dos dados proporcionam aos gerentes e tomadores de decisões uma melhor compreensão do ambiente empresarial e econômico e, assim, capacita-os a tomar decisões Capítulo 1 ® Dados e a estatística 3 mais fundamentadas e de melhor qualidade. Neste livro, enfatizamos o uso da estatística para a tomada de decisões nas áreas de administração e economia. O Capítulo 1 começa com algumas ilustrações da aplicação da estatística no setor de ad ministração e economia. Na Seção 1.2, definimos o termo dados e introduzimos o conceito de conjunto de dados. Essa seção também apresenta termos-chave, como variáveis e observações, discute a diferença entre dados quantitativos e categorizados e ilustra o uso de dados transversais e de séries temporais. A Seção 1.3 discute como é possível obter dados de fontes existentes ou por intermédio de pesquisa e estudos experimentais idealizados para obter novos dados. O im portante papel que a Internet desempenha na obtenção de dados também é realçado. A utilização de dados para desenvolver estatística descritiva e fazer inferências estatísticas será descrita nas Seções 1.4 e 1.5. As últimas três seções do Capítulo 1 apresentam o papel dos computadores na análise estatística, uma introdução ao campo relativamente novo da mineração e uma discussão sobre as diretrizes éticas para a prática estatística. O Apêndice no íinal do capítulo inclui uma introdução ao StatTools, que pode ser utilizado para ampliar as opções estatísticas destinadas aos usuários do Microsoft Excel. Aplicações em administração e economia No moderno ambiente administrativo e econômico global, qualquer pessoa pode ter acesso a uma enorme quantidade de informações estatísticas. Os gerentes e tomadores de decisão mais bem-suce- didos são aqueles capazes de entender a informaçãoe usá-la eficazmente. Nesta seção, apresentamos exemplos que ilustram algumas utilizações da estatística nas áreas da administração e economia. Contabilidade Empresas públicas de contabilidade utilizam procedimentos de amostragem estatística ao reali zarem auditorias para seus clientes. Por exemplo, suponha que uma firma de contabilidade queira determinar se o valor das contas a receber indicado na folha de balancete de um cliente representa fielmente o valor real das contas a receber. Geralmente, o grande número de contas a receber indi viduais torna a revisão e validação de cada conta algo demasiadamente demorado e dispendioso. A prática comum nessas situações é a equipe de auditores selecionar um subconjunto das contas, denominado amostra. Depois de revisar a exatidão das contas amostradas, os auditores concluem se o valor das contas a receber apresentado na folha de balancete do cliente é aceitável. Finanças Os analistas financeiros usam uma série de informações estatísticas para orientar suas recomendações de investimentos. No caso dos títulos financeiros, os analistas revisam uma série de dados financeiros que incluem os índices de preço/ganhos ou lucros e a rentabilidade em dividendos. Comparando a informação correspondente a um título individual com as informações sobre a média do mercado de ações, o analista financeiro pode concluir se um título individual está valorizado ou desvalorizado. Por exemplo, a revista Barron ’s (18 de fevereiro de 2008) publicou que a média dos índices de preço/ ganhos ou lucros dos 30 títulos da Média Industrial Dow Jones era de 2,45%. O Altria Group apre sentava um índice de preço/ganhos ou lucros igual a 3,05%. Nesse caso, as informações estatísticas sobre os rendimentos obtidos indicavam um maior rendimento conquistado pelo Altria Group do que a média em comparação aos títulos da Dow Jones. Portanto, um analista financeiro poderia concluir que os títulos do Altria Group estavam valorizados. Essa e outras informações sobre o Altria Group ajudariam o analista a recomendar a compra, venda ou manutenção dos títulos. Marketing Scanners eletrônicos utilizados nas caixas registradoras das lojas de venda a varejo coletam dados que são usados em uma série de aplicações de pesquisa de marketing. Por exemplo, fornecedores Estatística aplicada à adnúmstraçao e economia de dados com o a ACNielsen e a Information Resources Inc. compram dados colhidos por scanners eletrônicos localizados em pontos de venda de mercearias, processam esses dados e depois vendem seus resumos estatísticos a empresas de manufatura. Empresas manufatureiras gastam centenas de milhares de dólares por categoria de produto para obter esse tipo de informação. A indústria tam bém compra dados e resumos estatísticos a respeito de atividades promocionais, como a fixação de preços especiais e o uso de exibições em vídeo nas lojas. Gerentes de marca podem revisar os dados estatísticos dos scanners e os dados estatísticos da atividade promocional para obter um entendimento melhor da relação entre as atividades promocionais e as vendas. Esse tipo de análise muitas vezes é útil para estabelecer as futuras estratégias de marketing para os vários produtos. Produção A atual ênfase na qualidade torna o controle da qualidade uma importante aplicação da estatística na área de produção. Utiliza-se uma série de mapas estatísticos de controle da qualidade para mo nitorar o resultado (output) de um processo de produção. Em especial, pode-se usar uma carta de controle para X-barra para monitorar a média do produto. Suponha, por exemplo, que uma máqui na preencha recipientes com 355 ml de determinado refrigerante. Periodicamente, um funcionário do setor de produção seleciona uma amostra dos recipientes e calcula a quantidade média de refri gerante em mililitros. Essa média, ou valor X-barra, é traçada na carta de controle. Um valor acima do limite máximo de controle no gráfico mostra que o recipiente tem um volume de refrigerante maior que o especificado, e um valor abaixo do limite mínimo de controle no gráfico mostra que o recipiente tem um volume menor do que o especificado. O processo é chamado “sob controle” e pode prosseguir contanto que as médias traçadas se situem entre os limites de controle máximo e mínimo indicados na carta de controle. Adequadamente interpretada, uma carta de controle pode ajudar a estabelecer quando há a necessidade de ajustes para corrigir o processo de produção. Economia Os economistas frequentemente fornecem previsões sobre o futuro da economia ou algum aspecto dela. Eles usam uma série de informações estatísticas para fazer essas previsões. Por exemplo, ao preverem as taxas de inflação, usam informações estatísticas de indicadores como o índice de pre ços do produtor, a taxa de desemprego e a utilização da capacidade de produção industrial. Com frequência esses indicadores estatísticos são inseridos em modelos de previsão computadorizados que preveem as taxas de inflação. Aplicações de estatística como as que descrevemos nesta seção são parte integrante deste livro. Os exemplos constituem uma visão geral da amplitude das aplicações estatísticas. Para comple- mentá-los, profissionais da área de administração e economia nos forneceram os artigos de abertura de capítulo intitulados Estatística na Prática, que fazem uma introdução à matéria abordada em cada capítulo. As aplicações dessa seção mostram a importância da estatística em uma variedade ampla de situações comerciais e econômicas. 1.2 Dados Dados são os fatos e números coletados, analisados e sintetizados para apresentação e interpre tação. Todos os dados coletados em um estudo em particular denominam-se conjunto de dados do estudo. A Tabela 1.1 mostra um conjunto de dados que contém informações financeiras referentes a 25 fundos mútuos de investimento que faziam parte do relatório dos 500 maiores e mais populares fundos da Morningstar Funds 2008. A Morningstar é uma companhia que acompanha o desempenho de mais de 7 mil fundos mútuos de investimentos e prepara análises detalhadas de 2 mil desses fundos. Suas orientações são seguidas à risca por analistas financei ros e investidores individuais. Capítulo 1 • Dados e a estatística ',rj rilha Morningstar Conjuntos de dados como os da Morningstar estão disponíveis na Trilha. Elementos, variáveis e observações Elementos são as entidades a respeito das quais se coletam dados. Em relação ao conjunto de dados da Tabela 1.1, cada fundo de investimento individualmente é um elemento; os nomes dos elementos aparecem na primeira coluna. Com 25 fundos mútuos, o conjunto de dados contém 25 elementos. Uma variável é a característica de interesse para os elementos. O conjunto de dados da Tabela 1.1 inclui as cinco variáveis a seguir: • Tipo de fundo: tipo de fundo mútuo, identificado como DE (Domestic Equity, ou Capital Nacional Americano), IE (International Equity, ou Capital Internacional) e FI (Fixed Inco- me, ou Renda Fixa). • Valor do ativo líquido ($): o preço de fechamento por ação em 31 de dezembro de 2007. • Rendimento médio em 5 anos (%): o rendimento médio anual do fundo durante os últimos cinco anos. Tabela 1.1 • Conjunto de dados referentes a 25 fundos mútuos. Nome do fundo Tipo de fundo Valor do ativo líquido ($) Rendimento médio em 5 anos(%) Quociente de despesas (%) Classificação pela Morningstar American Century Intl. Disc IE 14,37 30,53 1,41 3 estrelas American Century Tax-Free Bond FI 10,73 3,34 0,49 4 estrelas American Century Ultra DE 24,94 10,88 0,99 3 estrelas Artisan Small Cap DE 16,92 15,67 1,18 3 estrelas Brown Cap Small DE 35,73 15,85 1,20 4 estrelas DFA U.S. Micro Cap DE 13,47 17,23 0,53 3 estrelas Fidelity Contrafund DE 73,11 17,99 0,89 5 estrelas Fidelity Overseas IE 48,39 23,46 0,90 4 estrelas Fidelity Sei ElectronicsDE 45,60 13,50 0,89 3 estrelas Fidelity Sh-Term Bond Fl 8,60 2,76 0,45 3 estrelas Gabelli Asset AAA DE 49,81 16,70 1,36 4 estrelas Kalmar Gr Val Sm Cp DE 15,30 15,31 1,32 3 estrelas Marsico 21st Century DE 17,44 15,16 1,31 5 estrelas Mathews Pacific Tiger IE 27,86 32,70 1,16 3 estrelas Oakmark 1 DE 40,37 9,51 1,05 2 estrelas P1MCO Emerg Mkts Bd D Fl 10,68 13,57 1,25 3 estrelas RS Value A DE 26,27 23,68 1,36 4 estrelas T. Rowe Price Latin Am. IE 53,89 51,10 1,24 4 estrelas T. Rowe Price Mid Val DE 22,46 16,91 0,80 4 estrelas Thornburg Value A DE 37,53 15,46 1,27 4 estrelas USAA Income Fl 12,10 4,31 0,62 3 estrelas Vanguard Equity-lnc DE 24,42 13,41 0,29 4 estrelas Vanguard Sht-Tm TE Fl 15,68 2,37 0,16 3 estrelas Vanguard Sm Cp Idx DE 32,58 17,01 0,23 3 estrelas Wasatch Sm Cp Growth DE 35,41 13,98 1,19 4 estrelas Fonte: Morningstar Funds 500 (2008). Estatística aplicada à administração e economia • Quociente de despesas: a porcentagem de ativos deduzidos a cada ano fiscal para as despe sas do fundo. • Classificação pela Morningstar. a classificação geral de cada fundo, em número de estrelas, de acordo com os riscos; as classificações da Morningstar vão de 1 estrela (classificação baixa) a 5 estrelas (classificação alta). Os dados foram obtidos coletando-se as medidas para cada variável de cada elemento do estudo. O conjunto de medidas obtidas correspondentes a determinado elemento é chamado observação. Consultando a Tabela 1.1, vemos que o conjunto de medidas referentes à primeira observação (American Century Intl. Disc) é IE, 14,37, 30,53, 1,41 e 3 estrelas. O conjunto de medidas da se gunda observação (American Century Tax-Free Bond) é FI, 10,73, 3,34 e 0,49, 4 estrelas e assim por diante. Um conjunto de dados com 25 elementos contém 25 observações. Escalas de medição A coleta de dados requer uma das seguintes escalas de medição: nominal, ordinal, intervalar ou razão (quociente). A escala de medição determina a quantidade de informação contida nos dados e indica a síntese e as análises estatísticas mais apropriadas aos dados. Quando os dados referentes a uma variável consistem em rótulos ou nomes usados para iden tificar um atributo do elemento, a escala de medição é considerada escala nominal. Por exemplo, consultando os dados da Tabela 1.1, vemos que a escala de medição da variável Tipo de Fundo é nominal porque DE, IE e FI são rótulos usados para identificar a categoria ou tipos de fundo. Nos casos em que a escala de medição é nominal, um código numérico, bem como rótulos não numéricos, pode ser usado. Por exemplo, para facilitar a coleta de dados e prepará-los para serem digitados em uma planilha eletrônica, poderíamos utilizar um código numérico atribuindo a l o significado Capital Nacional Americano (DE), ao número 2 o significado de Capital Internacional (IE) e ao número 3 o significado de Renda Fixa (FI). Nesse caso, os valores numéricos 1, 2 e 3 identificam a categoria do fundo. A escala de medição é nominal, embora os dados se apresentem como valores numéricos. A escala de medição de uma variável denomina-se escala ordinal se os dados exibirem as pro priedades de dados nominais e se a ordem ou classificação dos dados for significativa. Por exemplo, a Eastside Automotive envia um questionário aos clientes com o objetivo de obter dados sobre a qualidade de seu serviço de mecânica de automóveis. Cada cliente dá a avaliação de excelente, bom ou ruim ao serviço de mecânica. Uma vez que os dados obtidos são rótulos - excelente, bom ou ruim - , eles têm as propriedades de dados nominais. Além disso, podem ser classificados, ou dispostos em uma ordem, de acordo com a qualidade do serviço. Os dados registrados como “excelente” indicam o melhor serviço, seguidos de “bom” e depois “ruim”. Desse modo, a escala de medição é ordinal. Como outro exemplo, note que a Classificação da Morningstar, para os dados na Tabela 1.1, é ordinal. Ela fornece uma classificação de 1 até 5 estrelas, com base na avaliação da Morningstar em relação ao retomo do fundo ajustado ao risco do investimento. Os dados ordinais também podem ser forneci dos utilizando-se um código numérico, por exemplo, o semestre cursado na faculdade. A escala de medição de uma variável é a escala intervalar se os dados exibirem as proprie dades de dados ordinais e o intervalo entre os valores for expresso em termos de unidade de me dida fixa. Dados de intervalos são sempre numéricos. As pontuações do exame SAT (Scholastic Aptitude Test, ou Teste de Aptidão Escolar) são exemplos de dados com escala intervalar. Por exemplo, três estudantes com pontuações SAT iguais a 620, 550 e 470 podem ser classificados, ou ordenados, em termos do melhor para o pior desempenho. Além disso, as diferenças entre as pon tuações são significativas. Por exemplo, o estudante 1 pontuou 620 - 550 = 70 pontos a mais que o estudante 2, ao passo que o estudante 2 pontuou 550 — 470 = 80 pontos a mais que o estudante 3. A escala de medição de uma variável é a escala de razão (ou quociente) se os dados tiverem todas as propriedades de dados intervalares e o quociente de dois valores for significativo. Va riáveis como distância, altura, peso e tempo usam como medição a escala de razão. Essa escala Capítulo 1 • Dados e a estatística O método estatístico apropriado para a sintetização dos dados depende de eles serem categorizados ou quantitativos. exige que um valor zero seja incluído para indicar que não existe nada para a variável no ponto zero. Por exemplo, considere o custo de um automóvel. Um valor zero para o custo indicaria que o automóvel não tem nenhum custo e é grátis. Além disso, se compararmos o custo de $ 30 mil para um automóvel com o custo de $ 15 mil para um segundo automóvel, a propriedade da razão mostra que o primeiro automóvel é $ 30 mil/$ 15 mil = 2 vezes (ou o dobro) o custo do segundo automóvel. Dados categorizados e quantitativos Os dados também podem ser classificados como categorizados ou quantitativos. Os dados que po dem ser agrupados por categorias específicas são chamados dados categorizados e utilizam escala de medição nominal ou ordinal. Os dados que utilizam valores numéricos para indicar quantidade são denominados dados quantitativos e são obtidos utilizando medição de escala intervalar ou escala de razão. Uma variável categorizada ou categórica é aquela com dados categóricos, e uma variável quantitativa é aquela com dados quantitativos. A análise estatística apropriada de determinada va riável depende de a variável ser categorizada ou quantitativa. Se a variável for categórica, a análise estatística será bastante limitada. Podemos sintetizar os dados categorizados contando o número de observações em cada categoria ou calculando a proporção das observações em cada categoria. Entretanto, mesmo quando os dados categorizados usam código numérico, operações aritméticas como a adição, subtração, multiplicação e divisão não produzem resultados significativos. A Seção 2.1 discute maneiras de sintetizar dados categorizados. As operações aritméticas frequentemente produzem resultados significativos para variáveis quantitativas. Por exemplo, em relação a uma variável quantitativa, os dados podem ser soma dos e depois divididos pelo número de observações para calcularmos o valor médio. Essa média geralmente é significativa e facilmente interpretada. Em geral, quando os dados são quantitativos há mais alternativas para a análise estatística. A Seção 2.2 e o Capítulo 3 apresentam maneiras de sintetizar dados quantitativos. Dados de seção transversal e de série temporal Para fins de análise estatística, é importante estabelecer a distinção entre dados de seção transversal e dados de série temporal. Dados de seção transversal são dados coletados no mesmo intervalo de tempo ou aproximadamente no mesmo intervalo de tempo. Os dados da Tabela 1.1são transversais porque descrevem as cinco variáveis correspondentes aos 25 fundos mútuos no mesmo intervalo de tempo. Dados de série temporal são dados coletados ao longo de diversos períodos. Por exemplo, a Figura 1.1 apresenta um gráfico da média de preço por galão de gasolina comum, entre 2006 e 2009. Note que os maiores preços para a gasolina tendem a ocorrer nos meses de verão, com a média de preço mais elevada de $ 4,05 por galão ocorrendo em julho de 2008. Em janeiro de 2009, os preços da gasolina tiveram um declínio acentuado, atingindo o mínimo no período de três anos, de $ 1,65 por galão. Gráficos que representam dados de série temporal são, geralmente, encontrados em publicações na área de administração e economia. Tais gráficos ajudam os analistas a compreender o que acon teceu no passado, a identificar as tendências ao longo do tempo e a projetar níveis futuros para a série temporal. Os gráficos de dados de série temporal podem assumir diversas formas, conforme mostra a Figura 1.2. Com algum estudo, esses gráficos normalmente são fáceis de serem entendi dos e interpretados. Por exemplo, o Painel (A), na Figura 1.2, é um gráfico que mostra a Média Industrial do índi ce Dow Jones de 1997 até 2010. Em abril de 1997, o popular índice do mercado de ações estava próximo de 7 mil. Ao longo dos 10 anos seguintes o índice aumentou para mais de 14 mil, em julho de 2007. Contudo, observe o declínio acentuado na série temporal após as altas sucessivas verificadas em 2007. Em março de 2009, as más condições econômicas fizeram com que a Média 8 Estatística aplicada à administração e economia Figura 1.1 Preço médio por galão para a gasolina comum, nos Estados Unidos. Data Fonte: Administração de Informações sobre Energia, Ministério de Energia dos Estados Unidos, julho de 2009. Industrial do índice Dow Jones voltasse ao nível de 7 mil, de 1997. Esse foi um período assustador e desencorajador para os investidores. Em janeiro de 2010, o índice mostrava recuperação, tendo atingido o nível de 10.600. O gráfico no Painel (B) mostra o Rendimento Líquido do McDonald’s Inc. de 2003 a 2009. A situação de crise econômica em 2008 e 2009, na realidade, foi benéfica para o McDonald’s, uma vez que o rendimento líquido da companhia aumentou para sucessivas altas. O crescimento do rendimento líquido do McDonald’s mostrou que a companhia prosperou durante a recessão econô mica em virtude de as pessoas diminuírem a frequência aos restaurantes tradicionais, mais caros, e passarem a procurar as alternativas mais baratas, oferecidas pelo McDonald’s. O Painel (C) mostra a série temporal referente à Taxa de Ocupação de Hotéis do Sul da Flórida durante o período de um ano. As taxas de ocupação mais altas, de 95% e 98%, ocorrem durante os meses de fevereiro e março, quando o clima no sul da Flórida é atrativo para os turistas. De fato, tipicamente, o período de janeiro a abril de cada ano é uma época de grande taxa de ocupação nos hotéis do sul da Flórida. Por outro lado, note as baixas taxas de ocupação nos meses de agosto a outubro, com a menor taxa, de 50%, sendo registrada em setembro. As elevadas temperaturas e a temporada de furacões são as principais razões para a queda na taxa de ocupação em hotéis, nesse período. NOTAS e COMENTÁRIOS 1. Uma observação é o conjunto de medidas obtidas correspon dentes a cada elemento de um conjunto de dados. Portanto, o número de observações é sempre igual ao número de elemen tos. O número de medidas obtidas correspondentes a cada elemento é igual ao número de variáveis. Portanto, o número total de itens de dados pode ser determinado multiplicando- -se o número de observações pelo número de variáveis. 2. Os dados quantitativos podem ser discretos ou contínuos. Da dos quantitativos que medem uma quantidade (algo enumerá- vel, por exemplo, número de chamadas telefônicas recebidas em 15 minutos) são discretos. Dados quantitativos que medem uma quantificação (algo não enumerável, como peso ou tem po) são contínuos, porque não ocorre nenhuma separação en tre os possíveis valores dos dados. 1.3 As fontes de dados Os dados podem ser obtidos de fontes existentes ou de pesquisas e estudos experimentais planeja dos para a coleta de novas observações. Capítu lo I ® Dados e a estatística* • | Figura 1.2 Uma variedade de gráficos de dados de série temporal. co1—5 £O O 3-Oc .5•5 14.000 13.000 12.000 11.000 10.000 9.000 8.000 7.000 6.000 5.000 1998 2000 2002 2004 Ano (A) Média Industrial do índice Dow Jones 2006 2008 2010 <UIO£ S s o 2‘3cr o cO) S *3s I , m n a 2003 2004 2005 2006 2007 2008 2009 Ano (B) Rendimento líquido do McDonald’s Inc. 100 r- ^ o*v Mês (C) Taxa de ocupação de hotéis do Sul da Flórida Estatística aplicada à administração e economia Fontes existentes Em alguns casos, os dados necessários a uma aplicação em particular já existem. As empresas man têm uma série de bancos de dados sobre seus empregados, clientes e operações empresariais. Da dos sobre salários dos empregados, idade e anos de experiência geralmente podem ser obtidos dos registros internos do departamento de pessoal. Outros registros internos contêm dados sobre ven das, gastos com propaganda, custos de distribuição, níveis de estoque e quantidades de produção. A maioria das empresas também mantém dados detalhados a respeito de seus clientes. A Tabela 1.2 apresenta alguns dos dados que habitualmente estão disponíveis nos registros internos da empresa. Organizações especializadas em coletar e manter dados disponibilizam uma quantidade subs tancial de dados empresariais e econômicos. As empresas têm acesso a essas fontes externas de dados por contratos de leasing ou por meio de compra. A Dun & Bradstreet, a Bloomberg e a Dow Jones & Company são três firmas que oferecem amplos serviços de bancos de dados empresariais aos seus clientes. A ACNielsen e a Information Resources, Inc. construíram negócios bem-sucedi dos coletando e processando dados que são vendidos a empresas de publicidade e de manufatura. Dados também se encontram disponíveis em uma série de associações industriais e organiza ções de interesse especial. A Travei Industry Association of America mantém informações relacio nadas a viagens, por exemplo, o número de turistas e os gastos em viagens, organizados por Estado. Esses dados interessariam a firmas e a pessoas da indústria de viagens. O Graduate Management Admission Council mantém dados sobre notas de exames, características do estudante e programas de ensino de pós-graduação em administração. A maior parte dos dados desses tipos de fontes se encontra disponível a usuários habilitados, por um pequeno custo. A Internet continua a se expandir como uma importante fonte de dados e de informações esta tísticas. Quase todas as empresas mantêm sites que fornecem informações gerais sobre a empresa, bem como dados de vendas, número de empregados, número de produtos, preços dos produtos e especificações dos produtos. Além disso, agora, um grande número de empresas se especializa em tomar disponíveis informações pela rede. Em consequência, é possível ter acesso a cotações de ações, preços de refeições em restaurantes, dados salariais e uma variedade quase infinita de informações. Órgãos governamentais são outra fonte importante de dados existentes. Por exemplo, o U.S. Department of Labor (Ministério do Trabalho dos Estados Unidos) mantém dados consideráveis sobre os índices de emprego, índices salariais, tamanho da força trabalhista e afiliação sindical. A Tabela 1.3 relaciona os órgãos governamentais e alguns dos dados que eles oferecem. A maioria dos órgãos governamentais que coleta e processa dados também disponibiliza os resultados por meio de um site. A Figura 1.3 exibe a página inicial do site do U.S. Census Bureau (Ministériode Recenseamento dos Estados Unidos). Tabela 1.2 • Exemplos de dados disponíveis nos registros internos das empresas. Fonte Alguns dos dados tipicamente disponíveis Registros de funcionários Nome, endereço, número do seguro social, número de dias de férias, número de dias dedicados a tratamento de saúde e bonificações. Registros de produção Número de peças ou produtos, quantidade produzida, custo de mão de obra e custo de matérias-primas. Registros de estoques Número de peças ou produtos, número de unidades disponíveis, nível de reencomenda, lote econômico de compra e programa de descontos. Registros de vendas Número do produto, volume de vendas, volume de vendas por região e volume de vendas por tipo de cliente. Registros de crédito Nome do cliente, endereço, número telefônico, limite de crédito e saldo de contas a receber. Perfil do cliente Idade, gênero, nível de renda, tamanho da família, endereço e preferências. Capítulo 1 ® Dados e a estatística j f iO E B I Tabela 1.3 • Exemplos de dados disponíveis em órgãos governamentais selecionados. Órgão governamental Dados disponíveis____________________________________ Census Bureau Dados populacionais, número de famílias e renda familiar. Federal Reserve Board Dados sobre a base monetária, crédito de prestações, taxas de câmbio e taxas de desconto. Office of Management and Budget Dados sobre a receita, gastos e débito do governo federal. Department of Commerce Dados sobre a atividade empresarial, valor das exportações, nível de lucro da indústria e setores industriais que estão em crescimento ou declínio. Bureau of Labor Statistics Gastos de consumo, remuneração por hora de trabalho, taxa de desemprego, registros de segurança no trabalho e estatísticas internacionais. Acredita-se que o maior estudo estatístico experimental já realizado tenha sido o experimento da vacina Salk, contra a poliomielite, promovido pelo Public Health Service (Estados Unidos) em 1954. Aproximadamente 2 milhões de crianças do primeiro, segundo e terceiro anos do ensino fundamental foram selecionadas em todo o território nacional. Estudos estatísticos As vezes, os dados necessários para uma aplicação em particular não se encontram disponíveis por meio das fontes existentes. Nesses casos, frequentemente eles são obtidos pela realização de um estudo estatístico. Os estudos estatísticos podem ser classificados como experimentais ou obser vacionais. Em um estudo experimental, identifica-se primeiro a variável de interesse. Então, uma ou mais variáveis adicionais são identificadas e controladas, a fim de que se possam obter dados a respeito de como influem na variável de interesse. Por exemplo, uma empresa farmacêutica poderia estar interessada em realizar um experimento para saber como um novo medicamento afeta a pressão sanguínea. A pressão sanguínea é a variável de interesse no estudo. A dosagem do novo medica mento é outra variável em que se espera haver efeito causal sobre a pressão sanguínea. Para obter dados sobre o efeito do novo medicamento, os pesquisadores selecionam uma amostra de indiví duos. A dosagem do novo medicamento é controlada, uma vez que diferentes grupos de pessoas recebem diferentes dosagens. Antes e depois, são coletados dados sobre a pressão sanguínea de cada um dos grupos. A análise estatística dos dados experimentais pode ajudar a determinar a ma neira pela qual o novo medicamento afeta a pressão sanguínea. Estudos estatísticos não experimentais, ou observacionais, não se atêm ao controle das variáveis de interesse. Uma pesquisa talvez seja o tipo mais comum de estudo observacional. Por exemplo, em uma pesquisa realizada por meio de entrevistas pessoais, primeiramente, são identificadas as perguntas a serem feitas. Depois, um questionário é projetado e minis- Figura 1.3 Página inicial do U.S. Census Bureau V-c U.S. Census Bureau FAQs 1 Subjects Atoz| Hetp SEARCH: H R H H I ■ ■ ■ ■ cc D a t a F inders Data Tools American FactFinder JobsiJCensus Catalog Publications Are You In a Survey? About the Bureau Regional Offices Doing Business with Us Related Sites Ip fC e n s u s A tla s of the U n ite d S ta te s Census 2010 M 'e r ic g D j^ r»m unit^S.uiy_6,y • Census 2000 • Poverty • Health Insurance • NAICS • Survey of People & Estim ates • P rojections • Housing • Incom e | S I Households • International • Genealogy • More I B u s i n e s s & 5 I n d u s t r y B usiness Owners • Governm ent • E -S tats • Dynam ics • More G e o g r a p h y M acs ‘ U S E S • C a ^ ite e r • More Newsroom Rftleases • Facts For Features • t/ii.niyl y j j n k s • B roadcast & Pho|Q Sendees • embargo/Ngws Special Ce.nsui_Bijrog.ij Data and Eiugrqency P.rspargflr.eas • genius Calendar • Training ■ For Taa;hg.rs Topics LSJyrtM s • Statistical Abstract •-FedSielS • USA.AQa nformation & Communication ______ Technology (ICT) Survey PopulatlonC|ock5 U.S. 204,174,731 World 6,670,102,142 19:31 GMT (EST*5) M«y 26. 200« Population Finder city/ town, county, or zip Select a Find An Area Profile with Q; B3 Select a state to beginL - Sales Economic Indicators Select an indicator m Select an indicator 1 2 Estatística aplicada à administração e economia Os estudos de fumantes e não fumantes são observacionais porque os pesquisadores não determinam nem controlam quem fuma ou não. Figura 1.4 Questionário sobre a opinião dos clientes, utilizado pelo restaurante Chops City Grill, em Naples, Flórida. trado a uma amostra de indivíduos. Alguns restaurantes utilizam estudos observacionais para obter dados sobre a opinião dos clientes quanto à qualidade da comida, atendimento, am bien te etc. Um questionário destinado aos clientes, utilizado pelo Chops City Grill, em Naples, Flórida, é apresentado na Figura 1.4. Observe que os clientes que respondem ao questionário são solicitados a apresentar avaliações de 12 variáveis, incluindo experiência geral, aten dimento pela recepção, gerente (atendimento à mesa), serviço geral e assim por diante. As categorias de resposta excelente, bom, médio, regular e ruim fornecem dados categorizados que permitem à gerência do Chops City Grill m anter altos padrões para o serviço e as refei ções do restaurante. Gerentes que queiram utilizar dados e análises estatísticas como apoio para a tomada de decisões devem estar cientes do tempo e custo necessários para a obtenção dos dados. O uso de fontes de dados existentes é desejável quando é necessário que os dados sejam obtidos em um período relativamente curto. Se dados im portantes não estiverem prontamente dis poníveis, o tempo e o custo envolvidos em sua obtenção devem ser levados em conta. De qualquer maneira, o tomador de decisões deve considerar a contribuição da análise estatística no processo de tom ada de decisão. O custo da obtenção de dados e da subsequente análise estatística não deve ultrapassar a economia gerada pelo uso da informação para se tomar uma decisão melhor. Erros na obtenção de dados Gerentes devem sempre estar cientes da possibilidade de erros de dados nos estudos estatísticos. Usar dados errados pode ser pior do que não usar absolutamente nenhum dado. Um erro na obten- Data:_______________ Nome do Garçom: K1 ossos clientes são nossa principal prioridade. Por favor, dedique um momento para preencher nossa ficha de pesquisa, para que possamos atender melhor às suas necessidades. Você pode devolver esta ficha na recepção ou pelo correio . Obrigado PES Q U ISA SOBRE N O SS O A TEN D IM EN TO Excelente Bom Médio Regular Ruim Experiência geral □ □ □ □ □ Acolhimento pela recepção □ □ □ □ □ Gerente (atendimento à mesa) □ □ □ □ □ Sen/iço geral □ □ □ □ □ Profissionalismo □ □ □ □ □ Conhecimento do menu □ □ □ □ □ Cordialidade□ □ □ □ □ Seleção de vinhos □ □ □ □ □ Seleção do menu □ □ □ □ □ Qualidade da refeição □ □ □ □ □ Apresentação da refeição □ □ □ □ □ Valor pelo dinheiro gasto □ □ □ □ □ Que comentários você pode fazer para que possamos aprimorar nosso atendimento? Obrigado, apreciamos seus comentários. — A equipe do Chops City Grill. Capítulo 1 ® Dados e a estatística 13 ção de dados ocorre sempre que o valor de dados obtido não é igual ao valor verdadeiro ou real que seria obtido com um procedimento correto. Esses erros podem ocorrer de diversas maneiras. Por exemplo, um entrevistador poderia cometer um erro de registro, como a transposição ao escrever a idade de uma pessoa que tem 24 anos como sendo 42, ou a pessoa que responde às perguntas de uma entrevista poderia interpretar erroneamente a questão e fornecer uma resposta incorreta. Analistas de dados experientes tomam muito cuidado ao coletar e registrar dados, a fim de as segurar que não se cometam erros. Procedimentos especiais podem ser usados para verificar a coe rência interna dos dados. Por exemplo, esses procedimentos indicariam que o analista deve revisar a exatidão dos dados de uma pessoa que responde ter 22 anos de idade e 20 anos de experiência de trabalho. Os analistas de dados também revisam dados com valores incomumente elevados ou baixos, chamados valores atípicos (outliers), os quais são candidatos a possíveis erros. No Capítulo 3, apresentamos alguns dos métodos que os estatísticos usam para identificar esse tipo de dados. Os erros frequentemente ocorrem durante a obtenção dos dados. Utilizar cegamente quais quer dados que possam estar disponíveis ou usar aqueles que foram obtidos com pouco cuidado pode resultar em informações enganosas e decisões ruins. Assim, tomar as medidas necessárias para obter dados precisos pode ajudar a assegurar que a informação será confiável, e a tomada de decisões, valiosa. 1.4 Estatística descritiva A maioria das informações estatísticas publicadas nos jornais, revistas, relatórios de empresas e outras publicações consiste em dados sintetizados e apresentados de modo que o leitor entenda fa cilmente. Esses resumos de dados, que podem ser tabulares, gráficos ou numéricos, são conhecidos como estatística descritiva. Consulte novamente o conjunto de dados da Tabela 1.1, que mostra dados referentes a 25 fun dos mútuos. Métodos de estatística descritiva podem ser usados para produzir resumos da informa ção contida nesse conjunto de dados. Por exemplo, um resumo tabular dos dados correspondentes à variável categorizada Tipo de Fundo é exposto na Tabela 1.4. Um resumo gráfico dos mesmos dados, chamado de gráfico de colunas, é apresentado na Figura 1.5. Esses tipos de resumos tabu lares e gráficos geralmente tomam os dados mais fáceis de serem interpretados. Consultando a Ta bela 1.4 e a Figura 1.5, podemos ver facilmente que a maioria dos fundos mútuos é do tipo Capital Nacional Americano. Em termos percentuais, 64% são do tipo Capital Nacional Americano, 16%, são do tipo Capital Internacional e 20% são do tipo Renda Fixa. Um resumo gráfico dos dados correspondentes à variável quantitativa Valor do Ativo Líquido, denominado histograma, é apresentado na Figura 1.6. No histograma, é fácil ver que os valores do ativo líquido variam de $ 0 a $ 75, sendo as concentrações mais altas situadas entre $ 15 e $ 30. Somente um dos valores do ativo líquido é maior do que $ 60. Além das apresentações tabulares e gráficas, usam-se estatísticas descritivas numéricas para sintetizar os dados. A estatística descritiva numérica mais comum é a média aritmética, ou sim plesmente chamada de média. Usando os dados referentes ao Rendimento Médio em 5 Anos, para os fundos mútuos da Tabela 1.1, podemos calcular a média somando os rendimentos de todos os fundos mútuos e dividindo a soma por 25. Essa operação fornece um rendimento médio em 5 anos Tabela 1.4 • Frequências absolutas e relativas percentuais para o tipo de fundo mútuo. Tipo de fundo mútuo Frequência absoluta Frequência relativa percentual Capital Nacional Americano 16 64 Capital Internacional 4 16 Renda Fixa 5 20 Totais 25 100 14 Estatística aplicada à administração e economia Figura 1.5 Gráfico de colunas para o tipo de fundo mútuo. 70 r 60 50 40 30 20 10 0 Capital nacional Capital internacional americano Renda fixa Tipo de fundo Figura 1.6 Histograma dos 9 valores de ativo líquido para 25 8 fundos mútuos. 7 .S 3 0 15 30 45 60 75 Valor do ativo líquido ($) de 16,50%. Essa média demonstra uma medida de tendência central, ou posição central, dos dados correspondentes a essa variável. Existe grande interesse nos métodos efetivos para desenvolver e apresentar estatísticas des critivas. Os Capítulos 2 e 3 dedicam atenção aos métodos tabulares, gráficos e numéricos da estatística descritiva. 1.5 Inferência estatística Muitas situações requerem informações sobre um grupo amplo de elementos (indivíduos, em presas, eleitores, famílias, produtos, clientes etc.). Em virtude do tempo, custo e outros fatores, é possível coletar dados somente de uma pequena parte do grupo. O grupo mais amplo dos elementos de determinado estudo é denominado população e o grupo menor, amostra. Formalmente, usamos as seguintes definições: O governo norte- -americano realiza um censo a cada dez anos. As empresas de pesquisa de mercado realizam pesquisas amostrais todos os dias. ír] rilha Norris Capítulo 1 • Dados e a estatística j jjjllll População Uma população é o conjunto de todos os elementos de interesse em determinado estudo. Amostra Uma amostra é um subconjunto da população. O processo de realização de uma pesquisa (levantamento) para coletar dados correspondentes a uma população inteira se chama censo. O processo de realização de uma pesquisa para coletar dados correspondentes a uma amostra é denominado pesquisa amostrai. Como uma de suas maio res contribuições, a estatística usa dados de uma amostra para fazer estimativas e testar hipóteses a respeito das características de uma população, utilizando um processo conhecido como inferência estatística. Como um exemplo de inferência estatística, consideremos o estudo realizado pela Norris Elec tronics. A Norris produz um tipo de lâmpada de alta intensidade utilizada em uma série de produtos elétricos. Em uma tentativa de aumentar a vida útil da lâmpada, o grupo de projeto de produtos desenvolveu um novo filamento de lâmpada. Nesse caso, a população é definida como todas as lâmpadas que poderiam ser produzidas com o novo filamento. Para avaliar as vantagens do novo filamento, este foi colocado em 200 lâmpadas que foram produzidas e testadas. Os dados coletados a partir dessa amostra indicavam o número de horas que cada lâmpada permaneceu em operação antes de o filamento se queimar. Veja a Tabela 1.5. Suponha que a Norris queira usar os dados da amostra para fazer uma inferência a respeito da durabilidade média da população de todas as lâmpadas que poderiam ser produzidas com Tabela 1.5 ® Durabilidade, em horas, de uma amostra de 200 lâmpadas para o exemplo da Norris Eletronics. 107 73 68 97 76 79 94 59 98 57 54 65 71 70 84 88 62 61 79 98 66 62 79 86 68 74 61 82 65 98 62 116 65 88 64 79 78 79 77 86 74 85 73 80 68 78 89 72 58 69 92 78 88 77 103 88 63 68 88 81 75 90 62 89 71 71 74 70 74 70 65 81 75 62 94 71 85 84 83 63 81 62 79 83 93 61 65 62 92 65 83 70 70 81 77 72 84 67 59 58 66 66 94 77 63 66 75 68 76 90 78 71 101 78 43 59 67 61 71 96 75 64 76 72 77 74 65 82 86 66 86 96 89 81 71 85 99 59 92 68 72 77 60 87 84 75 77 51 45 85 67 87 80 84 93 69 76 89 75 83 68 72 67 92 89 82 96 77 102 74 91 76 83 66 68 61 73 72 76 73 77 79 94 63 59 62 71 81 65 73 63 63 89 82 64 85 92 64 73 U H !!! ; Estatística aplicada à administração e economia o novo filamento. Aoperação de somar os 200 valores da Tabela 1.5 e dividir o total por 200 produz a durabilidade média das lâmpadas da amostra: 76 horas. Podemos utilizar este resultado da amostra para estimar que o tempo médio de durabilidade das lâmpadas na população é de 76 horas. A Figura 1.7 apresenta um resumo gráfico do processo de inferência estatística para a Norris Electronics. Quando os estatísticos usam uma amostra para estimar determinada característica da população de interesse, geralmente apresentam uma declaração da qualidade, ou precisão, associada à esti mativa. Em relação ao exemplo da Norris, o estatístico poderia afirmar que a estimativa pontual da durabilidade média da população de novas lâmpadas é igual a 76 horas, com uma margem de erro de 4 horas para mais ou para menos. Assim, um intervalo estimado da durabilidade média para todas as lâmpadas produzidas é de 72 a 80 horas. O estatístico pode declarar também qual é o seu grau de confiança em que o intervalo de 72 a 80 horas contém a média populacional. Computadores e a análise estatística Os estatísticos frequentemente utilizam apoio computacional para realizar os cálculos estatísticos necessários envolvendo grandes quantidades de dados. Por exemplo, calcular a durabilidade média das 200 lâmpadas do exemplo da Norris Electronics (veja a Tabela 1.5) seria um trabalho bastante tedioso sem o uso de um computador. Para facilitar o uso do computador, muitos dos conjuntos de dados deste livro estão disponíveis na Trilha (ferramenta de aprendizagem que acompanha o livro). Os arquivos de dados estão disponíveis para download tanto no formato Minitab como no formato Excel. Os apêndices de final de capítulo abrangem procedimentos passo a passo para a utilização do Minitab, do Excel e do suplemento StatTools para o Excel, a fim de implementar as técnicas estatísticas apresentadas no capítulo. 1.6 O i conjuntos de dados do Minitab e do Excel estão disponíveis na Trilha. 1.7 Mineração (data mining) Com o auxílio de leitores de cartões magnéticos, scanners de código de barras e terminais de ponto de venda, a maioria das organizações obtém grandes quantidades de dados diariamente. E mesmo para um pequeno restaurante local, que utiliza monitores com tela sensível ao toque para fazer os pedidos e fechar a conta, a quantidade de dados coletados pode ser significativa. Para as grandes companhias de venda a varejo, é difícil conceituar o volume absoluto de dados coletados, e o desafio enfrentado é descobrir como utilizar efetivamente os dados para aumentar a lucrativi dade. Por exemplo, varejistas de massa, como o Walmart, capturam dados sobre 20 a 30 milhões Figura 1.7 O processo de inferência estatística do exemplo da Norris Eletronics. Capítulo 1 • Dados e a estatística j 3 T O B Os métodos estatísticos representam um papel importante em mineração, tanto em termos de descobrir relações nos dados como de prever resultados futuros. Contudo, uma abordagem completa de mineração e do uso da estatística em mineração não está no enfoque deste livro. de transações todos os dias; companhias de telecomunicação como a France Telecom e a AT&T geram mais de 300 milhões de registros de chamadas por dia, e a Visa processa 6.800 transações de pagamento por segundo ou aproximadamente 600 milhões de transações por dia. Armazenar e gerenciar os dados de transações são tarefas significantes. O termo armazenamento de dados (data warehousing) é empregado para se referir ao processo de capturar, armazenar e manter os dados. A capacidade de computação e as ferramentas de mi neração atingiram um ponto em que, atualmente, é viável armazenar e recuperar quantidades de dados extremamente grandes, em segundos. A análise dos dados armazenados pode resultar em decisões que levam a novas estratégias e a maiores lucros para a organização. A mineração lida com métodos para desenvolver tomadas de decisão úteis a partir de gran des bancos de dados. Utilizando uma combinação de procedimentos de estatística, matemática e ciência da computação, os analistas “coletam os dados” armazenados, a fim de convertê-los em informações úteis, por isso o nome mineração. O dr. Kurt Thearling, consultor consagra do nessa área, define a mineração como “a extração automatizada de informações preditivas a partir de grandes bancos de dados” . As duas palavras-chave na definição de Thearling são “automatizada” e “preditiva” . Os sistemas de mineração que são mais efetivos utilizam pro cedimentos automatizados para extrair informações a partir dos dados utilizando somente as questões mais genéricas ou, até mesmo, as mais vagas, feitas pelo usuário. E os softwares de mineração automatizam o processo de revelar informações preditivas ocultas que, anterior mente, requeriam análise manual. Os principais aplicativos de mineração têm sido produzidos por companhias com um enfoque direcionado aos consumidores, tais como empresas de varejo, organizações financeiras e com panhias de comunicação. A mineração tem sido utilizada com sucesso para ajudar os varejistas, como a Amazon e a Barnes & Noble, a determinar um ou mais produtos que estejam relacionados de modo que a compra de um implique na possível compra do outro. Então, quando um cliente se conecta ao site de uma companhia e compra um produto, o site utiliza pop-ups para alertá-lo sobre outros produtos que o cliente talvez queira comprar. Em outro aplicativo, a mineração pode ser utilizada para identificar clientes que provavelmente irão gastar mais do que $ 20 em uma compra específica. Esses clientes podem então ser identificados como aqueles que devem receber ofertas especiais de desconto por e-mail ou pelo correio para encorajá-los a fazer sua próxima compra anteé de terminar a data da promoção de desconto. A mineração é uma tecnologia que depende muito de metodologia estatística, como a regres são múltipla, a regressão logística e a correlação. Mas é necessário ter uma integração criativa de todos esses métodos e das tecnologias da ciência da computação, envolvendo a inteligência artificial e o aprendizado sobre máquinas, para tornar a mineração efetiva. É preciso um gran de investimento de tempo e dinheiro para implementar pacotes de software comerciais para a mineração, que são desenvolvidos por empresas tais como Oracle, Teradata e SAS. O conceito de estatística introduzido neste livro será útil para a compreensão da metodologia estatística utilizada pelos pacotes de software de mineração e ajudará a entender melhor as informações estatísticas desenvolvidas. Como os modelos estatísticos representam um papel importante no desenvolvimento de mo delos preditivos em mineração, muitas das preocupações dos estatísticos quanto ao desenvolvi mento de modelos estatísticos também se aplicam. Por exemplo, uma preocupação em qualquer estudo estatístico envolve a questão da confiabilidade no modelo. Encontrar um modelo que funciona bem para uma amostra de dados específica não significa necessariamente que ele possa ser aplicado a outros dados com confiabilidade. Uma das abordagens estatísticas mais comuns para avaliar a confiabilidade de um modelo é dividir o conjunto de dados da amostra em duas partes: um conjunto de dados para aprendizagem e um conjunto de dados para validação. Se o modelo desenvolvido utilizando os dados de aprendizagem tiver condições de prever, com pre cisão, valores nos dados de validação, dizemos que o modelo é confiável. Uma vantagem que a mineração tem sobre a estatística clássica é que a enorme quantidade de dados disponíveis permite ao software de mineração particionar o conjunto de dados de modo que o modelo desen- volvido para os dados de aprendizagem possa ser validado quanto à confiabilidade em relação a outros dados. Nesse sentido, o particionamento do conjunto de dados possibilita que a mineração desenvolvamodelos e relações e, então, diagnostique rapidamente se eles são passíveis de se repetir e se valem com dados novos e diferentes. Por outro lado, uma advertência em relação aos aplicativos de mineração é que com conjuntos de dados muito extensos, existe o risco de sobre posição do modelo a ponto de parecer existir associações e conclusões de causa/efeito errôneas. A interpretação cuidadosa dos resultados coletados e a realização de mais testes ajudará a evitar esta armadilha. 1 .8 Diretrizes éticas para a prática estatística O comportamento ético é algo pelo qual devemos lutar em tudo aquilo que fazemos. As questões éticas surgem na estatística por causa do importante papel que esta representa na coleta, análise, apresentação e interpretação de dados. Em um estudo estatístico, o comportamento antiético pode assumir diversas formas, incluindo a amostragem inadequada, a análise de dados inapropriada, o desenvolvimento de gráficos errôneos, o uso de resumos estatísticos impróprios e/ou uma interpre tação tendenciosa dos resultados estatísticos. A medida que você começar a realizar seu próprio trabalho estatístico, será encorajado a ser justo, imparcial, objetivo e neutro ào coletar dados, conduzir análises, fazer apresentações orais e apresentar relatórios escritos contendo as informações desenvolvidas. Como um consumidor de estatísticas, você também precisa estar ciente da possibilidade de se deparar com comportamento antiético, na estatística, por parte de outras pessoas. Quando você vê estatísticas nos jornais, na TV, na Internet e assim por diante, é uma boa ideia observar as informações com algum ceticismo, sempre ficando atento à fonte e também ao propósito e à objetividade da estatística fornecida. A Associação Norte-Americana de Estatística, a mais importante organização profissional de estatística e de estatísticos, dos Estados Unidos, desenvolveu o relatório “Diretrizes Éticas para a Prática Estatística”1 a fim de ajudar os profissionais de estatística a tomar e comunicar decisões éticas e auxiliar os estudantes no aprendizado concernente a como realizar trabalho estatístico com responsabilidade. O relatório contém 67 diretrizes organizadas acerca de oito áreas importantes: profissionalismo; responsabilidade para com os financiadores, clientes e empregadores; respon sabilidade quanto a publicações e testemunhos; responsabilidade quanto a tópicos de pesquisa; responsabilidade quanto aos colegas da equipe de pesquisa; responsabilidade para com outros pro fissionais da estatística; responsabilidade em relação a alegações de erro de conduta; e responsa bilidade dos empregadores, incluindo organizações, indivíduos, advogados ou outros clientes que empregam profissionais de estatística. Uma das diretrizes éticas na área do profissionalismo trata da questão da execução de diversos testes até que se obtenha o resultado desejado. Vamos considerar um exemplo. Na Seção 1.5, dis cutimos um estudo estatístico realizado pela Norris Electronics envolvendo uma amostra com 200 lâmpadas de alta intensidade, fabricada com um novo filamento. O tempo médio de vida útil para a amostra, de 76 horas, forneceu uma estimativa da durabilidade média para todas as lâmpadas produzidas com o novo filamento. Contudo, considere isto. Como a Norris selecionou uma amostra de lâmpadas, é razoável assumir que outra amostra teria fornecido um diferente tempo médio de vida útil. Suponha que a administração da Norris esperasse que os resultados da amostra permitiriam afirmar que o tempo médio de vida útil das novas lâmpadas seria de 80 horas ou mais. Suponha também que a administração da Norris decidisse continuar o estudo fabricando e testando repetidas amostras de 200 lâmpadas com o novo filamento até que fosse obtida uma média de 80 horas ou mais. Se o estudo fosse repetido um número suficiente de vezes, poderia ser obtida, eventualmente, uma amostra — apenas por acaso — , que forneceria os resultados desejados e possibilitaria à Nor ris fazer tal afirmação. Nesse caso, os consumidores seriam induzidos erroneamente a pensar que o Estatística aplicada à administração e economia 'American Statistical Association, “Ethical Guidelines for Statistical Practice”, 1999. Capítulo 1 • Dados e a estatística 19 novo produto seria melhor do que realmente é. Claramente, esse tipo de comportamento é antiético e representa um grave erro no uso da estatística na prática. Várias diretrizes éticas nas áreas de responsabilidade, publicações e testemunho lidam com questões envolvendo a manipulação de dados. Por exemplo, um estatístico deve responder por to dos os dados considerados em um estudo e explicar as amostras efetivamente utilizadas. No estudo da Norris Electronics, o tempo médio de duração para as 200 lâmpadas na amostra original é de 76 horas; esse é um período consideravelmente menor do que as 80 horas ou mais que a administração esperava obter. Suponha agora que depois de analisar os resultados mostrando um tempo médio de vida útil de 76 horas, a Norris descarte todas as observações com 70 horas ou menos até queimar, supostamente porque essas lâmpadas contêm imperfeições causadas pelos problemas iniciais no processo de produção. Depois de descartar essas lâmpadas, o tempo médio de duração das lâmpa das restantes na amostra termina sendo de 82 horas.Você suspeitaria da alegação da Norris de que a vida útil dessas lâmpadas é de 82 horas? Se as lâmpadas da Norris com vida útil de 70 horas ou menos até queimar fossem descartadas simplesmente para aproveitar as que proporcionam duração média de 82 horas até queimar, não haveria dúvidas de que descartar as lâmpadas com duração de 70 horas ou menos é antiético. Mas mesmo se as lâmpadas descartadas contivessem imperfeições devido a problemas iniciais no pro cesso de fabricação — e, como resultado, não devessem ser incluídas na análise — , o estatístico que conduziu o estudo deve responder por todos os dados que foram considerados e explicar como foi obtida a amostra efetivamente utilizada. Agir de outra maneira seria potencialmente errôneo e constituiria comportamento antiético tanto por parte da companhia como do estatístico. Uma diretriz na seção denominada valores comuns, do relatório da Associação Norte-Ame ricana para a Estatística, define que os estatísticos profissionais devem evitar qualquer tendência de influenciar o trabalho estatístico para obter resultados predeterminados. Esse tipo de prática antiética frequentemente é observada quando amostras não representativas são utilizadas para fazer alegações. Por exemplo, em muitas áreas do país não é permitido fumar em restaurantes. No en tanto, suponha que um lobista da indústria do tabaco entreviste pessoas em restaurantes nos quais é permitido fumar, a fim de estimar a porcentagem de quem é a favor de fumar em restaurantes, e os resultados amostrais dessa pesquisa demonstrem que 90% das pessoas entrevistadas são a favor. Com base nesses resultados amostrais, o lobista alega que 90% de todas as pessoas que comem em restaurantes são a favor da permissão de fumar nesses locais. Nesse caso, poderíamos alegar que somente as pessoas na amostragem em restaurantes que permitem fumar influenciaram os resulta dos. Se apenas os resultados finais de tal estudo forem relatados, quem não estiver familiarizado com os detalhes desse estudo (ou seja, que a amostra foi coletada somente em restaurantes que permitem fumar) pode ser induzido a uma conclusão errônea. O enfoque do relatório da Associação Norte-Americana para a Estatística é amplo e inclui dire trizes éticas que são apropriadas não apenas para um estatístico, mas também para os consumidores de informações estatísticas. Incentivamos a leitura desse relatório, a fim de que você adquira uma melhor perspectiva das questões éticas à medida que continua seu estudo de estatística e para que obtenha a experiêncianecessária para determinar como garantir que os padrões éticos sejam aten didos quando você começar a utilizar a estatística na prática. Resumo Estatística é a arte e ciência de coletar, analisar, apresentar e interpretar os dados. Quase todo es tudante universitário que se especializa em administração ou economia tem a necessidade de fazer um curso de Estatística. Iniciamos o capítulo descrevendo as aplicações estatísticas típicas das áreas de administração e economia. Dados são os fatos e os números que são coletados e analisados. As quatro escalas de medição utilizadas para obter dados de determinada variável são as seguintes: nominal, ordinal, intervalar e de razão. A escala de medição de uma variável é nominal quando os dados utilizam rótulos ou Estatística aplicada à administração e economia nomes para identificar determinado atributo de um elemento. A escala é ordinal se os dados apre sentam as propriedades inerentes aos dados nominais e se a ordem, ou classificação, for significa tiva. A escala de medição é intervalar se os dados apresentam as propriedades inerentes aos dados ordinais e se o intervalo entre os valores for expresso em termos de uma unidade de medida fixa. Por fim, a escala de medição é de razão se os dados apresentam todas as propriedades inerentes aos dados intervalares e se o quociente dos dois valores for significativo. Para fins de análise estatística, os dados podem ser classificados como categorizados ou quan titativos. Os dados categorizados usam rótulos ou nomes para identificar determinado atributo de cada elemento. Os dados categorizados utilizam a escala de medição nominal ou a ordinal, e podem ser numéricos ou não numéricos. Dados quantitativos são valores numéricos que indicam quantificação ou quantidade. Os dados quantitativos usam a escala de medição intervalar ou de razão. Operações numéricas comuns são significativas somente se os dados forem quantitativos. Portanto, Cálculos estatísticos utilizados para dados quantitativos nem sempre são apropriados para dados categorizados. Nas Seções 1.4 e 1.5, apresentamos os tópicos da estatística descritiva e inferência estatística. Estatística descritiva são os métodos tabulares, gráficos e numéricos utilizados para sintetizar os dados. O processo de inferência estatística usa dados obtidos de uma amostra para fazer estimativas ou testar hipóteses referentes às características de uma população. As últimas três seções do capítu lo fornecem informações acerca do papel da computação em análise estatística, uma introdução ao campo relativamente novo de mineração e um resumo das diretrizes éticas para a prática estatística. Glossário Estatística A arte e ciência de coletar, analisar, apresentar e interpretar dados. Dados Os fatos e os números que são coletados, analisados e sintetizados para apresentação e interpretação. Conjunto de dados Todos os dados coletados em determinado estudo. Elementos Entidades em relação às quais os dados são coletados. Variável Característica dos elementos que nos interessam. Observação Conjunto de medidas obtidas de dado elemento. Escala nominal Escala de medição de uma variável quando os dados utilizam rótulos ou nomes para identificar determinado atributo de um elemento. Os dados nominais podem ser numéricos ou não numéricos. Escala ordinal Escala de medição de uma variável se os dados exibirem as propriedades inerentes aos dados nominais, e se a ordem, ou classificação, dos dados for significativa. Os dados ordinais podem ser numéricos ou não numéricos. Escala intervalar Escala de medição de uma variável se os dados apresentarem as propriedades inerentes aos dados ordinais e se o intervalo entre os valores for expresso em termos de uma uni dade de medida fixa. Os dados intervalares são sempre numéricos. Escala de razão A escala de medição de uma variável se os dados demonstrarem todas as pro priedades inerentes aos dados intervalares e se o quociente entre dois valores for significativo. Os dados de razão são sempre numéricos. Dados categorizados Rótulos ou nomes usados para identificar um atributo de cada elemento. Os dados categorizados utilizam a escala de medição nominal ou a ordinal e podem ser numéricos ou não numéricos. Dados quantitativos Valores numéricos que indicam a quantificação ou a quantidade de algo. Da dos quantitativos são obtidos utilizando-se a escala de medição intervalar ou de razão. Variável categorizada Variável com dados categorizados. Variável quantitativa Variável com dados quantitativos. Dados de seção transversal Dados coletados no mesmo ou aproximadamente no mesmo intervalo de tempo. Dados de série temporal Dados coletados ao longo de diversos períodos. Estatística descritiva Resumos tabulares, gráficos e numéricos de dados. População Conjunto de todos os elementos que nos interessam em determinado estudo. Amostra Subconjunto da população. Censo Pesquisa com o objetivo de coletar dados sobre a população inteira. Pesquisa amostrai Pesquisa com o objetivo de coletar dados relativos a uma amostra. Inferência estatística Processo de usar os dados obtidos em uma amostra para fazer estimativas ou testar hipóteses a respeito das características de uma população. Mineração Processo de utilizar procedimentos de estatística e ciência da computação para extrair informações úteis a partir de bancos de dados extremamente grandes. Capítulo 1 • Dados e a estatística j U R U f i Exercícios suplementares . Morningstar AUTO □ TESTE AUTO D E TESTE M 1. A revista Foreign Affairs realizou uma pesquisa visando descrever um perfil de seus assinantes (site da Foreign Affairs, 23 de fevereiro de 2008). Foram feitas as seguintes perguntas. a. Quantas noites você se hospedou em um hotel nos últimos 12 meses? b. Onde você compra seus livros? Foram enumeradas três opções: livrarias, pela Internet e clube do livro. c. Você tem ou aluga um veículo de luxo? (Sim ou Não) d. Qual é sua idade? e. Nas viagens ao exterior que você realizou nos últimos três anos, qual foi seu destino? Fo ram enumerados sete destinos. Comente se cada questão fornece dados categorizados ou quantitativos. 2. O Ministério de Energia dos Estados Unidos fornece informações sobre a economia de com bustíveis para diversos veículos a motor. Uma amostra de dez automóveis é apresentada na Tabela 1.6 (no site da Fuel Economy de 22 de fevereiro de 2008). Os dados mostram o tama nho dos automóveis (compactos, de tamanho médio ou grandes), o número de cilindros no motor, milhas percorridas por galão nas cidades, milhas percorridas por galão nas estradas e o combustível recomendado (diesel, premium ou comum). a. Quantos elementos há nesse conjunto de dados? b. Quantas variáveis há nesse conjunto de dados? c. Quais variáveis são categorizadas e quais variáveis são quantitativas? d. Qual tipo de escala de medição é usada para cada uma das variáveis? 3. Consulte a Tabela 1.6. a. Qual é a média de milhas por galão dirigindo-se nas cidades? b. Em média, quanto é maior o número de milhas por galão (milhas/gal) dirigindo-se em es tradas, comparado a quando se dirige em cidades? c. Qual porcentagem dos carros tem motor de quatro cilindros? d. Qual porcentagem dos carros utiliza combustível comum? 4. Considere o conjunto de dados na Tabela 1.7. a. Calcule a doação média para a amostra. b. Calcule a porcentagem média de candidatos admitidos. c. Qual porcentagem de escolas tem times universitários de Io nível na III Divisão da NCAA? d. Qual porcentagem de escolas tem um campus com instalação de tamanho médio, localiza da na cidade? CAPÍTULO Ü l 7 i ...... Estatística descritiva: métodos tabulares e métodos gráficos ESTATÍSTICA NA PRÁTICA: COMPANHIA COLGATE-PALMOLIVE 2.1 SINTETIZANDO OS DADOS CATEGORIZADOS Distribuição de frequências absolutas Distribuições de frequências relativas ede frequências relativas percentuais Gráficos de colunas e gráficos de setores 2.2 SINTETIZANDO OS DADOS QUANTITATIVOS Distribuição de frequências absolutas Distribuições de frequências relativas e de frequências relativas percentuais Diagrama de pontos (Dot Plot) Histograma Distribuições cumulativas Ogiva 2.3 ANÁLISE EXPLORATÓRIA DOS DADOS: A APRESENTAÇÃO DE RAMO-E-FOLHAS 2.4 TABULAÇÕES CRUZADAS E DIAGRAMAS DE DISPERSÃO Tabulação cruzada Paradoxo de Simpson Diagrama de dispersão e linha de tendência Conforme indicado no Capítulo 1, os dados podem ser classificados como categorizados ou quantita tivos. Os dados categorizados utilizam rótulos ou nomes para identificar categorias de itens semelhan tes. Os dados quantitativos são valores numéricos que indicam quantidade ou quantificação. Este capítulo introduz os métodos tabulares e gráficos que são comumente utilizados para sintetizar os dados categorizados e quantitativos. Resumos tabulares e gráficos de dados podem ser encontrados em relatórios anuais, artigos de jornais e estudos de pesquisa. Esses tipos de apresentações aparecem no dia a dia de todos. Sendo assim, é importante entender como elas são preparadas e como devem ser interpretadas. Começaremos com os métodos tabulares e gráficos de sintetização dos dados relacionados a uma única variável. A última seção apresenta métodos para sintetizar dados quando a relação entre duas variáveis for de interesse. 33 Estatística aplicada à administração e economia E S TA TÍS TIC A P R Á T I C A A COMPANHIA COLGATE-PALMOLIVE* Nova York, NY A Companhia Colgate-Palmolive começou como uma pe quena fábrica de sabão e vela, situada na Cidade de Nova York, em 1806. Atualmente, emprega mais de 40 mil pes soas trabalhando em mais de 2 0 0 países e territórios ao redor do mundo. Embora seja mais bem conhecida pelos nomes de suas marcas: Colgate, Palmolive, Ajax e Fab, a companhia também comercializa os produtos para higiene da linha Mennen, e os produtos Hill's Science Diet e Hill’s Prescription Diet. A Colgate-Palmolive utiliza estatística em seu programa de garantia de qualidade para os produtos como detergen tes de uso doméstico para a lavagem de roupas. Uma das preocupações é a satisfação do cliente com a quantidade de detergente em pó em uma embalagem. Em cada cate goria de tamanho, a embalagem é preenchida com a mes ma quantidade de detergente por peso, mas o volume de detergente é afetado pela densidade do pó. Por exemplo, se a densidade do pó estiver mais concentrada, um menor volume de detergente é necessário para atingir o peso es pecífico da embalagem. Como resultado, pode parecer que a embalagem não está totalmente preenchida quando for aberta pelo consumidor. Para controlar o problema do peso do detergente em pó, são definidos limites quanto ao intervalo aceitável da densidade do detergente em pó. Amostras estatísticas são coletadas periodicamente, e é feita a medição da densi dade de cada amostra desse detergente. Em seguida, resu mos de dados são fornecidos para a equipe operacional, de modo que é possível tomar ações corretivas, se neces sário, para manter a densidade dentro das especificações de qualidade desejadas. A distribuição de frequências absolutas para as densi dades de 150 amostras coletadas durante o período de uma semana e um histograma são apresentados nas respectivas tabela e figura. Os níveis, de densidade acima de 0,40 são inaceitavelmente altos. A distribuição de frequências ab solutas e o histograma demonstram que a operação está seguindo as diretrizes de qualidade, com todas as densida des menores ou iguais a 0,40. Ao verem estes resumos esta tísticos, os gerentes ficarão satisfeitos com a qualidade do processo de produção de detergentes. Neste capítulo, você aprenderá acerca dos métodos ta bulares e gráficos da estatística descritiva, tais como as dis tribuições de frequências, os gráficos de colunas, histogra mas, apresentações em ramo-e-folhas, tabulações cruzadas, e outros. O objetivo desses métodos é sintetizar os dados, de modo que eles possam ser facilmente compreendidos e interpretados. Distribuição de frequências absolutas dos dados de densidade Densidade Frequência absoluta 0,29-0,30 30 0,31-0,32 75 0,33-0,34 32 0,35-0,36 9 0,37-0,38 3 0,39-0,40 1 Total 150 Histograma dos dados da densidade 3 cCA-O« .2 c<© 3O*Ou *Os autores agradecem a William R. Fowle, gerente de Garantia da Qualidade, na Companhia Colgate-Palmolive, por disponibilizar este exemplo de Estatística na Prática. 0,30 0,32 0,34 0,36 0,38 0,40 Densidade Menos de 1% das amostras estão próximas do nível indesejável de 0,40 Os modernos pacotes computacionais estatísticos fornecem amplos recursos para sintetizar da dos e preparar apresentações gráficas. O Minitab e o Excel são dois pacotes que estão amplamente disponíveis. Nos apêndices deste capítulo, mostramos algumas de suas capacidades. 2.1 Sintetizando os dados categorizados Distribuição de frequências absolutas Começamos a discussão de como as apresentações tabulares e gráficas podem ser utilizadas para sintetizar dados categorizados com a definição de uma distribuição de frequências absolutas. Distribuição de frequências absolutas A distribuição de frequências absolutas é um resumo tabular de dados mostrando o número (fre quência absoluta) de itens em cada uma das diversas classes não sobrepostas. Vamos empregar o seguinte exemplo para demonstrar a construção e interpretação de uma distribuição de frequências absolutas para dados categorizados. Coca-Cola clássica, Coca Diet, Dr. Pepper, Pepsi e Sprite são cinco refrigerantes populares nos Estados Unidos. Vamos assumir que os dados na Tabela 2.1 mostrem o refrigerante selecionado em uma amostra de 50 compras de refrigerantes. Capítulo 2 • Estatística descritiva: métodos tabulares e métodos gráficos j H S t i S Tabela 2.1 • Dados de uma amostra de 50 compras de refrigerantes. Coca-Cola clássica Sprite Pepsi Coca Diet Coca-Cola clássica Coca-Cola clássica Pepsi Coca Diet Coca-Cola clássica Coca Diet Coca-Cola clássica Coca-Cola clássica Coca-Cola clássica Coca Diet Pepsi Coca-Cola clássica Coca-Cola clássica Dr. Pepper Dr. Pepper Sprite Coca-Cola clássica Coca Diet Pepsi Coca Diet Pepsi Coca-Cola clássica Pepsi Pepsi Coca-Cola clássica Pepsi Coca-Cola clássica Coca-Cola clássica Pepsi Dr. Pepper Pepsi Pepsi Sprite Coca-Cola clássica Coca-Cola clássica Coca-Cola clássica Sprite Dr. Pepper Coca Diet Dr. Pepper Pepsi Coca-Cola clássica Pepsi Sprite Coca-Cola clássica Coca Diet Para desenvolvermos uma distribuição de frequências absolutas para esses dados, contamos o número de vezes que cada refrigerante aparece na Tabela 2.1. A Coca-Cola clássica aparece 19 vezes; a Coca Diet, 8 vezes; Dr. Pepper, 5 vezes; a Pepsi, 13 vezes; e a Sprite, 5 vezes. Essas con tagens estão sintetizadas na distribuição de frequências absolutas na Tabela 2.2. A distribuição de frequências absolutas fornece um resumo de como as 50 compras de refrige rantes são distribuídas pelos cinco refrigerantes. Esse resumo proporciona uma melhor percepção do que os dados originais mostrados na Tabela 2.1. Analisando a distribuição de frequências abso lutas, verificamos que a Coca-Cola clássica é a líder, a Pepsi vem em segundo lugar, a Coca Diet, em terceiro, e Sprite e Dr. Pepper estão empatadas na 4a posição. A distribuição de frequências absolutas sintetiza informações concernentes à popularidade dos cinco refrigerantes. Tabela 2.2 • Distribuição de frequências absolutas de compras de refrigerantes. Estatística aplicada à administração e economia Refrigerante Frequência absoluta Coca-Cola Clássica 19 Coca Diet 8 Dr. Pepper 5 Pepsi 13 Sprite 5 Total 50 Distribuições de frequências relativas
Compartilhar