Baixe o app para aproveitar ainda mais
Prévia do material em texto
Recife, 2010 Estatística Exploratória UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO (UFRPE) COORDENAÇÃO GERAL DE EDUCAÇÃO A DISTÂNCIA (EAD/UFRPE) Marco Domingues Jeísa Domingues Volume 1 Universidade Federal Rural de Pernambuco Reitor: Prof. Valmar Corrêa de Andrade Vice-Reitor: Prof. Reginaldo Barros Pró-Reitor de Administração: Prof. Francisco Fernando Ramos Carvalho Pró-Reitor de Extensão: Prof. Paulo Donizeti Siepierski Pró-Reitor de Pesquisa e Pós-Graduação: Prof. Fernando José Freire Pró-Reitor de Planejamento: Prof. Rinaldo Luiz Caraciolo Ferreira Pró-Reitora de Ensino de Graduação: Profª. Maria José de Sena Coordenação Geral de Ensino a Distância: Profª Marizete Silva Santos Produção Gráfica e Editorial Capa e Editoração: Rafael Lira, Italo Amorim e Arlinda Torres Revisão Ortográfica: Rita Barros Ilustrações: Allyson Vila Nova Coordenação de Produção: Marizete Silva Santos Sumário Apresentação ................................................................................................................. 5 Conhecendo o Volume 1 ................................................................................................ 6 Capítulo 1 – Introdução à Estatística............................................................................... 8 1.1. Tipos de Dados .........................................................................................................9 1.2. Planejamento de Experimentos..............................................................................11 1.3. Estudos Observacionais e Experimentos Aleatórios ...............................................14 Capítulo 2 – Resumo de Dados e Gráficos ..................................................................... 21 2.1. Distribuição de Frequências ...................................................................................21 2.2. Regras Gerais para elaborar uma Distribuição de Frequência ................................24 2.3. Histograma e Polígonos de Frequência ..................................................................24 2.4. Distribuições de Frequência Acumulada ................................................................26 2.5. Gráficos Estatísticos ................................................................................................31 2.5.1. Gráfico de Pontos ...........................................................................................31 2.5.2. Diagrama de Ramo e Folhas ...........................................................................32 2.5.3. Gráfico de Pareto ...........................................................................................33 2.5.4. Diagrama de Barras ........................................................................................34 2.5.5. Gráfico de Setores - Pizza ...............................................................................34 2.5.6. Gráfico de Dispersão ......................................................................................35 2.5.7. Gráfico de Séries Temporais ...........................................................................37 Capítulo 3 – Medidas Resumo ...................................................................................... 39 3.1. Medidas de Posição ................................................................................................39 3.1.1. Moda ..............................................................................................................40 3.1.2. Média .............................................................................................................41 3.1.3. Mediana .........................................................................................................42 3.1.4. Ponto Médio ..................................................................................................43 3.2. Assimetria ...............................................................................................................43 3.3. Medidas de Variação (dispersão) ............................................................................45 3.3.1. Amplitude ......................................................................................................45 3.3.2. Variância (σ2) e desvio padrão (σ) ..................................................................45 3.3.3. Escore z ..........................................................................................................49 3.3.4. Quartis e Percentis .........................................................................................49 3.3.5. Boxplot (diagrama de caixa) ...........................................................................50 Considerações Finais .................................................................................................... 52 Conheça os Autores ..................................................................................................... 54 5 Estatística Exploratória Apresentação Caro(a) aluno (a), Seja bem-vindo (a) ao primeiro volume do curso de Estatística Exploratória. Neste primeiro volume, vamos estudar os conceitos introdutórios em estatística necessários para a compreensão do assunto que será estudado durante toda a disciplina. O objetivo principal deste primeiro volume é proporcionar ao estudante uma ampla visão do tratamento estatístico de dados, desde sua coleta através dos estudos observacionais e experimentos, passando pela sua análise através de gráficos e medidas- resumo. Bons estudos! Marco Domingues e Jeísa Domingues Autores 6 Estatística Exploratória Conhecendo o Volume 1 Neste primeiro volume, você terá os conteúdos de estatística exploratória. A seguir, você pode entender a organização deste primeiro volume. Planejamento de experimentos estatísticos de análise exploratória dos dados. Carga horária: 15 h/aula Objetivo do volume 1: Ao final do módulo, o aluno terá condições de iniciar o planejamento de experimentos e estudos estatísticos, analisando os dados através de medidas-resumo e por meio de gráficos e tabelas. Assuntos » Introdução à estatística e tipos de dados; » Estudos observacionais e experimentos aleatórios; » Planejamento de experimentos; » Resumo de dados; » Distribuições de frequências e gráficos; » Medidas de posição e dispersão. Dicas de Estudo » O Capítulo 1 é tipicamente conceitual e por isso precisa de mais empenho e dedicação. Destine cinco horas de estudo para esse capítulo. Você deve organizar uma metodologia de estudo que possibilite contato diário com o material didático. » Para o Capítulo 2, você também precisará dedicar cinco horas estudo. Nesse capítulo você precisará de muita dedicação nos exercícios. São eles que farão com que o conteúdo seja assimilado de forma duradoura. » O Capítulo 3 engloba o tratamento gráfico e o estudo das medidas de posição e dispersão tão importantes para a compreensão da natureza dos dados. 7 Estatística Exploratória Capítulo 1 Metas Ao final do capítulo, esperamos que você consiga: » Entender as características dos estudos estatísticos observacionais e experimentais; » Conduzir experimentos estatísticos. Assuntos » Introdução à estatística; » Tipos de dados; » Planejamento de experimentos › Estudos observacionais; › Experimentos aleatórios. 8 Estatística Exploratória Capítulo 1 – Introdução à Estatística Vamos conversar sobre o assunto? E afinal, para que serve a Estatística? Onde a estatística pode ser utilizada? Por que eu devo estudar estatística? É importante estudar estatística para trabalhar com desenvolvimento de sistemas de software? Para responder a essas perguntas vamos discutir duas situações que aconteceram recentemente. Você deve ter observadoque nas semanas que antecedem as eleições no Brasil, a maioria dos veículos de comunicação fala sobre pesquisas de intenções de voto. No Brasil, várias empresas de pesquisas estatísticas trabalham nas eleições. Por falar nisso, você já foi entrevistado por alguma dessas empresas? Conhece alguém que já tenha sido? Nas eleições presidenciais de 2010, foram registrados mais de 100 milhões de eleitores, não é intrigante que essas pesquisas de intenção de voto sejam realizadas com pouco mais de 2000 eleitores? Como será que eles escolhem os eleitores para serem entrevistados? Em 2010 também aconteceu o recenseamento da população brasileira. Em cada censo, praticamente todas as residências brasileiras recebem a visita do representante do IBGE (Instituto Brasileiro de Geografia e Estatística) para uma rápida conversa. Essa entrevista consiste em um grupo de perguntas relativas à religião, composição de renda, escolaridade, quantidade de pessoas que moram na mesma residência, idade e quantidade de homens e mulheres etc. Ao final do processo, o IBGE realizará a análise com todos os dados coletados, elaborando um “raio-X” detalhado da sociedade brasileira. Essas informações são usadas pelo governo no desenvolvimento de políticas públicas para os estados da federação. Atualmente no Brasil, o CENSO ocorre a cada 10 anos e o primeiro aconteceu no ano de 1872, segundo dados do IBGE (http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html). Você pode ter observado que no primeiro exemplo apenas uma pequena porção (amostra) dos eleitores é entrevistada em cada pesquisa, enquanto que no censo, os dados são coletados de toda a população. Amostra e população são termos muito importantes em estatística. O quadro a seguir apresenta as definições desses e de outros termos básicos. Definições Dados São observações coletadas (por exemplo, idade, sexo, medidas). População É o conjunto completo de todos os elementos a serem estudados. Censo É um conjunto de dados obtidos de todos os membros de uma população. Amostra É um subconjunto de membros selecionados de uma população. Para realizar o censo 2010, o IBGE precisou contratar cerca de 190.000 recenseadores, cada um deles recebeu por mês entre R$ 800,00 e R$ 1.600,00 . Percebe-se claramente que a realização de um censo é muito dispendiosa, e estamos falando apenas dos salários dos recenseadores. Existem outros custos inerentes à realização do censo. Por outro lado, nas pesquisas de intenções de voto, são escolhidos, em média, 3000 eleitores em cada pesquisa. Você consegue se lembrar que na divulgação dessas pesquisas, sempre Saiba Mais 1 Fonte – Instituto Brasileiro de Geografia e Estatística. 9 Estatística Exploratória é citada uma margem de erro no resultado? Pois bem, um dos objetivos mais importantes da estatística é utilizar dados amostrais para tirar conclusões sobre populações. A grande vantagem é o baixo custo no processo de coleta e análise dos dados. Porém, a obtenção de dados amostrais representativos de uma população é um fator extremamente crítico. Observa-se facilmente que, quanto maior o tamanho da amostra, menor o erro da pesquisa e maior é o custo do processo. Daí, para que os dados coletados da amostra sejam verdadeiramente representativos da população, os elementos amostrais devem ser selecionados de modo aleatório e não tendencioso. Se os dados não forem coletados de modo apropriado, os resultados da análise estatística serão inválidos. O objetivo desse módulo é fornecer a base conceitual para que você compreenda todas as possibilidades de aplicações da estatística. E não pense que você precisa ser um especialista em matemática. Você verá que, com dedicação, será muito fácil dominar os princípios básicos sem muita dificuldade. 1.1. Tipos de Dados O Dicionário Aurélio define “estatística” como sendo “a parte da matemática em que se investigam os processos de obtenção, organização e análise de dados (características) sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos utilizados para estabelecer conclusões e fazer inferências ou predições com base nesses dados”. E por falar em dados, é importante que você saiba reconhecer a natureza dos dados que serão analisados. Como exemplo, vamos utilizar alguns dados (características) solicitados pelos entrevistadores no censo/2010: Para a característica “Sexo”, são dois os casos possíveis: masculino e feminino; Para a característica “Estado Civil”, os casos possíveis são: casado, solteiro, divorciado, separado, viúvo; Para a característica “Grau de Instrução”, os casos possíveis são: ensino fundamental, ensino médio e ensino superior; Para a característica “Número de Pessoas na Família”, há um número de resultados possíveis, expresso através dos números naturais: 0, 1, 2, 3, 4,..., n; Para a característica “Renda Familiar” a situação é diferente. Os resultados podem assumir um número infinito de valores numéricos dentro de um determinado intervalo; Para a característica “CEP – Código de Endereçamento Postal” que representa uma localização geográfica, os possíveis valores assumem qualquer combinação de oito números. Ex: 50741-100. O conjunto de valores que uma característica pode assumir é chamado de variável. Nos exemplos citados anteriormente, os dados da variável “Sexo” e os dados da variável “Estado Civil” são chamados de dados qualitativos, categóricos ou atributos. Perceba que para o atributo sexo, os valores masculino e feminino determinam uma categoria ou qualidade do indivíduo pesquisado, o mesmo ocorrendo para o atributo “Estado Civil”. Os possíveis valores que uma variável pode assumir também são chamados de realizações. Para o caso da variável “Sexo”, os valores “masculino” e “feminino” também são chamados de realizações da variável “Sexo”. As variáveis qualitativas ainda podem ser classificadas em dois tipos: variável qualitativa nominal, para a qual não existe nenhuma ordenação nas possíveis realizações, 10 Estatística Exploratória e variável qualitativa ordinal, para a qual existe uma ordem nos seus valores. Os dados da variável “CEP”, apesar de numéricos, não são quantidades. O CEP não identifica medidas ou contagem de coisa alguma, por isso, não faz sentido realizar cálculos com eles. A variável “CEP” é um caso de variável qualitativa nominal, enquanto “Grau de Instrução” é um exemplo de variável qualitativa ordinal, porque ensino fundamental, ensino médio e ensino superior correspondem a uma ordenação relacionada com o número de anos completos de escolaridade de um indivíduo. Definições Dados qualitativos, ou categóricos ou de atributos Podem ser classificados em diferentes categorias que se distinguem por alguma característica. Dados quantitativos Consistem em números que representam contagens ou medidas. De modo semelhante, as variáveis quantitativas podem ser classificadas em discretas e contínuas. A variável “Número de Pessoas na Família” é um exemplo de variável com dados discretos, uma vez que não podem ocorrer valores fracionados para essa variável. Por outro lado, a variável “Renda Familiar” é um exemplo de variável quantitativa com dados contínuos, cujos valores pertencem a um intervalo de números reais. A figura 1 apresenta um esboço da classificação das variáveis. Figura 1 – Classificação de uma variável. Os dados quantitativos descrevem medidas e é importante utilizarmos as unidades de medida apropriadas para cada variável. Por exemplo, suponha que você está desenvolvendo um sistema médico para controle de exames, como o teste ergométrico (teste de esforço). Esse exame pode auxiliar no diagnóstico de doenças cardíacas através do monitoramento do coração e da pressão arterialrelacionada com o nível de esforço físico ao qual o paciente é submetido. Nesse exame são coletados vários dados do paciente: peso (medido em Kg), pressão arterial (medida em mmHg – milímetros de mercúrio), atividade elétrica do coração (corrente elétrica – medida em Ampere, tensão elétrica – medida em Volt, resistência elétrica – medida em Ohm), frequência cardíaca (bpm – medida em batimentos por minuto) etc. Todas essas variáveis são quantitativas e a utilização de unidades de medida inadequadas pode tornar os diagnósticos imprecisos e/ou inválidos. 11 Estatística Exploratória 1.2. Planejamento de Experimentos Você estudou nas seções anteriores que a estatística lida com a coleta, a apresentação, a análise e o uso dos dados como ferramentas auxiliares na tomada de decisões e resolução de problemas. Você também pôde observar que o desenvolvimento de sistemas trabalha, na prática, com a manipulação de dados e, obviamente, algum conhecimento de estatística é importante para esse profissional. O campo da engenharia de software encontra na estatística as ferramentas essenciais para o planejamento de novos sistemas, análise de código, análise de erros, levantamento de custos e orçamento. As técnicas e métodos estatísticos são úteis para nos ajudar a entender a variabilidade de um determinado fenômeno observado. Por variabilidade, queremos dizer que sucessivas observações de um fenômeno não produzem exatamente o mesmo resultado. Por exemplo, considere que você é o gerente de um projeto com 10 programadores. Considere o desempenho diário de um dado programador em relação à produção de linhas de código e a quantidade de erros nesse código. Esse programador sempre atinge as mesmas metas de produção diária de código? Com as mesmas quantidades de erros? Naturalmente, não. Na verdade, algumas vezes o desempenho varia consideravelmente. Essa variabilidade observada no desempenho do programador depende de muitos fatores, tais como problemas pessoais, relacionamento com a equipe, experiência prévia com soluções semelhantes, habilidade com a linguagem de programação utilizada, apenas para citar alguns fatores. Esses fatores representam fontes potenciais de variabilidade na produção de software. A compreensão da variabilidade também é importante quando consideramos, por exemplo, o desempenho diário de vários programadores com as mesmas características (experiência prévia, habilidade com a linguagem, bom entrosamento com a equipe etc.). Se a empresa que você trabalha também tem outros projetos, cada um deles contando com grupos de programadores, e você foi convidado para apresentar um estudo sobre o desempenho global dos programadores para a diretoria, como você faria o levantamento das medidas de desempenho dos programadores da empresa? Faria o estudo com toda a população de programadores da empresa para o levantamento de parâmetros de desempenho? Faria o estudo com uma amostra de programadores da empresa para o levantamento de estatísticas de desempenho e estenderia as conclusões para toda a população através da inferência estatística? Definições Parâmetro Um parâmetro é uma medida numérica que descreve alguma característica de uma população. Estatística Uma estatística é uma medida numérica que descreve alguma característica de uma amostra. A estratégia baseada nas medidas de desempenho de alguns programadores para estabelecer conclusões sobre medidas de desempenho de todos os programadores da empresa pode resultar em erros (ou riscos). Esses erros são conhecidos como erros de amostragem. No entanto, se a amostra for selecionada adequadamente, esses riscos poderão ser quantificados e um tamanho apropriado de amostra poderá ser determinado. Infelizmente, alguns estudos utilizam experimentos estatísticos baseados em amostras ruins (coletadas por métodos viesados2). Uma amostra é considerada ruim Atenção 2 Viés é um termo muito comum em estatística. Uma medida viesada é uma medida tendenciosa, distorcida. 12 Estatística Exploratória ou tendenciosa quando o método de amostragem não gera amostras representativas da população da qual foram obtidas. Vamos analisar dois exemplos de estudos estatísticos cujas amostras foram geradas por processos de coleta de dados tendenciosos: Ao cursar uma disciplina de estatística aplicada na pós-graduação de uma universidade brasileira, um grupo de alunos realizou um experimento visando mapear o perfil salarial dos profissionais de TI em todo o Brasil, por regiões e pelas capitais. O método de coleta de dados consistiu no preenchimento voluntário de um formulário web contendo perguntas sobre as condições de trabalho, características do trabalho e salários dos profissionais de TI no Brasil. Esses profissionais de TI tomaram conhecimento da pesquisa através de um e-mail-convite enviado a eles por meio das redes sociais. Respostas voluntárias a questionários, apesar de ser um método muito comum de coleta de dados, é um dos piores, porque são os entrevistados que decidem se querem participar ou não da pesquisa; Outro exemplo interessante de coleta de dados do tipo resposta voluntária ocorreu quando a revista Newsweek (http://www.newsweek.com/) realizou uma sondagem sobre o sítio Napster (www.napster.com) que, no início, oferecia livre acesso à cópia de CDs de músicas. Perguntou-se aos leitores se eles continuariam a usar o Napster se tivessem que pagar uma taxa. Os leitores poderiam dar suas respostas através do sítio da revista. Entre as 1873 respostas recebidas, 19% diziam sim, ainda é mais barato do que comprar CDs. Outros 5% diziam sim, sentiam-se mais confortáveis pagando uma taxa. Nos dois estudos, a Internet foi o veículo escolhido para obtenção das amostras, e nesse caso, cabe às pessoas decidirem se querem ou não participar da pesquisa, de modo que constituem uma amostra de resposta voluntária. Sabe-se que as pessoas com opiniões mais contundentes têm mais tendência a participar, de maneira que as respostas não são representativas de toda a população. É muito importante que você desenvolva o senso crítico em relação aos procedimentos para coleta de dados nos experimentos. Com as amostras coletadas através de respostas voluntárias, apenas conclusões relacionadas com o grupo específico que escolheu participar do experimento podem ser tiradas. Infelizmente tem sido prática comum estenderem-se as conclusões a uma população maior. Esse tipo de amostra é tipicamente tendenciosa e não deveria ser usada para se fazer afirmações sobre uma população maior. A seguir serão apresentados alguns aspectos que devem ser considerados no planejamento de experimentos: Pequenas Amostras Como vimos nas seções anteriores, um dos principais objetivos da estatística é poder inferir sobre características de uma população a partir da análise de suas amostras. Você também percebeu que, se o tamanho dessas amostras cresce na direção do tamanho da população, mais precisas são as conclusões obtidas. Contudo, experimentos com amostras muito grandes se aproximam de um CENSO e podem se tornar bastante dispendiosos. Além disso, mesmo amostras grandes precisam ser coletadas por processos adequados. Mas por outro lado, amostras muito pequenas, mesmo sendo coletadas corretamente, podem não ser representativas da população. Resumindo, embora seja importante trabalharmos com amostras suficientemente grandes, é do mesmo modo importante que os dados amostrais tenham sido coletados de forma apropriada, de modo aleatório. Em outras palavras, mesmo amostras grandes podem ser ruins. Questões Orientadas Um problema fundamental na coleta de dados através de entrevistas ocorre quando 13 Estatística Exploratóriaas questões são direcionadas para provocar a resposta desejada. Observe as questões a seguir e avalie qual seria a sua resposta nos dois cenários: » “A CPMF deve voltar a vigorar no Brasil?” » “A CPMF deve voltar a vigorar no Brasil para resolver definitivamente os problemas do sistema de saúde?” Outra característica das entrevistas (também conhecidas como questões de sondagem) que pode causar impacto na qualidade dos dados coletados diz respeito à ordem das questões. Observe as duas questões a seguir e analise a sua resposta em comparação com as respostas de alguns de seus colegas de curso. Verifique se a ordem das palavras- chave (Jogos de computador e drogas leves) altera as respostas. » “Você diria que os jogos de computador têm mais ou menos potencial de causar dependência em jovens do que as chamadas drogas leves?” » “Você diria que as chamadas drogas leves têm mais ou menos potencial de causar dependência em jovens do que os jogos de computador?” Claro que esse estudo é muito simples para estabelecer conclusões definitivas sobre o contexto das drogas, jogos digitais e jovens, mas é muito valioso para que você construa a percepção de que a ordem das palavras-chave nas entrevistas pode influenciar nas respostas. Não-resposta No final de 2010, um pesquisador do IPEA (Instituto de Pesquisa Econômica Aplicada), órgão ligado à Presidência da República, utilizou uma lista de discussão de pesquisadores da SBC (Sociedade Brasileira de Computação) para solicitar que os seus assinantes preenchessem um questionário com dados referentes às suas áreas de atuação e competências, dentre outras informações. No último dia disponível para envio do questionário, o pesquisador do IPEA responsável pela pesquisa, emitiu um e-mail informando que apenas 60 pesquisadores haviam respondido o questionário, um número muito pequeno se considerarmos a quantidade de pesquisadores nas instituições brasileiras. Hoje em dia, cada vez mais as pessoas se recusam a responder esse tipo de questionário quando são abordadas. Alguns entrevistados se recusam porque já perceberam que vendedores tentam negociar bens e serviços começando com uma conversa que soa como se fosse parte de uma pesquisa de opinião, outras pessoas têm receio de perder a privacidade. Dados Ausentes ou Faltantes Os resultados de pesquisas podem ser fortemente afetados por dados não fornecidos. Isso acontece porque algumas perguntas podem causar constrangimento e as pessoas tendem a não responder esse tipo de pergunta. Em alguns casos, perguntas relacionadas com renda salarial, opção religiosa, opção sexual e experiências profissionais podem inibir as pessoas a fornecerem esses dados. Estudos Tendenciosos (Interesse Próprio) Você já deve ter visto em propagandas ou listas de e-mail sobre os benefícios de um determinado produto ou medicamento. Devemos tomar muito cuidado com estudos que são financiados por empresas e cujos resultados são “podados” para apresentar apenas as 14 Estatística Exploratória virtudes de um determinado produto. Algumas vezes, pode acontecer o contrário. Grupos concorrentes podem custear pesquisas de opinião ou mesmo pesquisas científicas para denegrir a imagem dos produtos e serviços dos seus concorrentes, apresentando apenas os seus efeitos nocivos. Outros cuidados devem ser tomados no tratamento estatístico dos dados. Por exemplo: Estabelecer que duas variáveis são correlacionadas implica que seus valores de certa forma são proporcionais (direta ou inversamente), mas pode não haver causalidade entre elas, ou seja, uma variável pode não afetar a outra. Ex.: Altura e QI; Descartar deliberadamente alguns dados para favorecer apenas os aspectos positivos da pesquisa. Ex.: Efeitos colaterais em medicamentos; Fornecer dados tecnicamente corretos que conduzem o leitor a conclusões enganosas. Ex.: O desmatamento na Amazônia caiu 14% em 2010 na comparação com 2009 e atingiu a taxa de 6.450 km² desmatados por ano3 . O leitor desavisado pode entender que a área que já havia sido desmatada em 2009 foi replantada e no ano de 2010 outros 6.450 km² foram desmatados, quando na verdade, a floresta amazônica é continuamente desmatada, ano após ano, mas em 2010 ela foi menos desmatada. Isso significa que a floresta vai demorar um pouco mais a ser completamente extinta. 1.3. Estudos Observacionais e Experimentos Aleatórios Na seção anterior, você aprendeu que antes de iniciar os estudos envolvendo experimentos estatísticos, é importante realizar um planejamento dos experimentos. Você também pôde observar que devemos procurar escapar de algumas armadilhas que podem aparecer quando estamos coletando dados amostrais. Nunca esqueça que, se os dados amostrais não forem coletados de maneira apropriada, eles podem não servir para estabelecer conclusões coerentes sobre a população estudada. Vou convidá-lo a observar dois estudos com perfis diferentes. Acho que você será capaz de analisá-los e determinar a natureza de cada um deles. Um laboratório farmacêutico está desenvolvendo uma nova droga para tratamento de um tipo de câncer (carcinoma). Foram selecionados 100 pacientes para com diagnóstico de carcinoma para receber tratamento com a nova droga. Os pacientes foram acompanhados durante seis meses para verificar os estágios da doença durante a administração da nova droga. Após esse período, verificou-se que em 75% dos pacientes houve redução no tamanho do tumor. Uma universidade brasileira encomendou um estudo para avaliar o efeito das políticas públicas antitabagistas (especialmente as propagandas antitabagistas nos maços de cigarro) entre os universitários daquela instituição de ensino. A equipe responsável pelo estudo iniciou a pesquisa entre os universitários escolhendo aleatoriamente os estudantes e agrupando-os em “fumantes”, “ex-fumantes” e “não fumantes”. Para o grupo dos “fumantes” foi perguntado: as propagandas antitabagismo obrigatórias nos maços de cigarro influenciam ou não a quantidade de cigarros consumidos? Para o grupo de “ex-fumantes” foi perguntado: as propagandas antitabagismo obrigatórias nos maços de cigarro influenciaram a sua decisão de parar de fumar? Finalmente, para o grupo de “não- fumantes” foi perguntado: Você acha que as propagandas antitabagismo obrigatórias dos maços de cigarro podem influenciar ou não a decisão de parar de fumar? Hiperlink 3 http://blog.planalto. gov.br/desmatamento- na-amazonia-tem- queda-historica/ 15 Estatística Exploratória E então? Quais as características que você observou em cada estudo? Muito bem, vamos juntos tentar identificar essas características. O primeiro estudo é normalmente chamado de experimento estatístico. Você pode notar que o interesse do estudo consiste na verificação do efeito da droga nos tumores dos pacientes. Os pacientes são também chamados de unidades experimentais. Somente após o início do tratamento é que os dados sobre o paciente são coletados. Portanto, há uma interferência direta sobre os indivíduos. Falaremos mais sobre as características dos experimentos estatísticos ao final desta seção. O segundo estudo consiste em uma entrevista e é conhecido como estudo observacional. Nesse tipo de estudo, observam-se características específicas sem a intenção de modificar os sujeitos objetos do estudo. Existem basicamente três tipos de estudos observacionais, diferentes entre si pelo período do tempo onde o estudo é realizado. Estudo retrospectivo Os dados são coletados do passado através de verificação em registros, entrevistas e documentos. Estudo transversal Os dados são observados, medidos e coletados em um momento no tempo. Estudo prospectivo Os dados são coletados no futuroa partir de grupos que compartilham fatores comuns. Tudo bem, eu sei que essas definições parecem muito obscuras sem os respectivos exemplos. Então, vamos aos exemplos: Estudo retrospectivo - Suponha que você está desenvolvendo um estudo para mapear os impactos na qualidade do software na segunda metade da década de 90. Esse estudo deve analisar os registros das empresas fabricantes de software, comparando projetos que empregaram a UML – Unified Modeling Language4 com projetos que utilizaram exclusivamente as técnicas estruturadas, como análise essencial e análise estruturada, no desenvolvimento de artefatos computacionais. Estudo transversal - Suponha que você é o CIO (Chief Information Officer) de uma empresa e deseja investigar o desempenho de duas ferramentas de segurança utilizadas na empresa. Você deseja obter a resposta para as seguintes questões: qual a prevalência de ocorrências de ataques por vírus e spyware no parque de máquinas da empresa e qual a relação entre a quantidade de ocorrências desses ataques e as respectivas ferramentas de segurança? Para realizar esse estudo, você deverá selecionar duas amostras de computadores, cada uma delas com uma das ferramentas de segurança. Em seguida, é necessário realizar a quantificação e qualificação dos ataques em cada amostra, em um dado período de tempo. Estudo prospectivo - Suponha que você foi contratado para coordenar uma grande equipe de desenvolvimento de projetos de software. Uma das suas tarefas é mensurar o desempenho dos times de projeto que utilizam metodologias ágeis de desenvolvimento, particularmente SCRUM e programação extrema (XP - eXtreme Programming). Para isso, você vai utilizar algumas métricas para avaliação de desempenho e analisar o comportamento da equipe ao longo do cronograma. Ao final do projeto, você terá elementos para avaliar se os times alcançaram os resultados esperados. O fluxograma da figura 2 pode ajudar a identificar os tipos de estudos observacionais e também serve para relacionar algumas particularidades que merecem ser consideradas no planejamento de experimentos. Hiperlink 4 http://www.uml.org/ 16 Estatística Exploratória Figura 2 – Tipos de estudos observacionais. Por falar em planejamento de experimentos, eu acho que você já está preparado para fornecer uma boa definição para experimento estatístico. Não? Quer uma ajuda? Então vamos lá: Experimento Estatístico é um procedimento planejado partindo de uma hipótese que visa provocar fenômenos em condições controladas, observar e analisar os seus resultados. Vamos tentar entender melhor essa definição. Um procedimento planejado é aquele em que o pesquisador mantém o controle do procedimento através da previsão das ações que ocorrem sobre o experimento. Para provocar os tais fenômenos em condições controladas, o pesquisador tem a opção de escolher a técnica mais adequada para aplicar o “tratamento” nas unidades experimentais. Já o tratamento é qualquer procedimento ou conjunto de procedimentos cujo efeito será avaliado e comparado com outras unidades experimentais. Não esqueça que além do conjunto de unidades experimentais que recebem o tratamento, também há um conjunto de unidades experimentais que não recebem o tratamento e que são utilizadas para realizar as comparações. Esse conjunto é chamado de grupo de controle. Quando você se deparar com a necessidade de realizar experimentos estatísticos, não se esqueça de considerar três fatores importantes (apresentados na figura 2): controlar o efeito das variáveis, realizar replicações do experimento e utilizar a aleatoriedade na escolha das amostras. Vamos considerar cada um desses fatores individualmente. Controlando os Efeitos das Variáveis Alguns métodos estão disponíveis para serem aplicados no controle dos efeitos das variáveis no experimento. Você vai observar que eles têm vantagens e desvantagens. A nossa intenção é que ao final da seção você seja capaz de reconhecer o método mais adequado para cada tipo de experimento. Vamos analisar alguns deles: 17 Estatística Exploratória » Experimento cego - Você já ouviu falar em “efeito placebo”? Esse efeito ocorre quando, em um experimento, um grupo de pacientes recebe um tratamento (vacinas, comprimidos etc.) sem nenhum efeito farmacológico e outro grupo recebe o tratamento que está sendo testado. O efeito placebo ocorre quando um sujeito não tratado relata melhora nos sintomas (há estudos que atestam que a melhora pode ser real). No experimento cego, os pacientes (unidades experimentais) não devem saber se estão recebendo placebo ou o tratamento sob teste. Dessa maneira, é possível determinar se o efeito do tratamento é significativamente diferente do efeito placebo. O experimento cego também pode ser estendido para os técnicos que aplicam o tratamento e realizam as análises. Em resumo, os pacientes não sabem se estão recebendo placebo ou tratamento, e os técnicos não sabem se estão aplicando placebo ou tratamento. Isso faz com que não haja influência sobre os pacientes. Isso mesmo, a expressão facial, tom de voz ou atitude podem influenciar os pacientes. Esse tipo de técnica é chamado de experimento duplamente cego. » Blocos - Quando planejamos um experimento, sabemos que existem alguns fatores que podem influenciar fortemente os resultados da variável em consideração. Por exemplo, se desejamos avaliar a produtividade dos membros de uma equipe de desenvolvimento de software ao utilizarmos uma nova suíte de desenvolvimento durante um determinado período (uma semana), precisamos levar diversos fatores em consideração – experiência em desenvolvimento de software, familiaridade com o projeto e com a linguagem de desenvolvimento, problemas hormonais (algumas mulheres sentem fortes cólicas durante o ciclo menstrual), ambiente de trabalho, etc. Isso quer dizer que a produtividade dos membros da equipe de desenvolvimento pode ser afetada tanto pela utilização da nova suíte de desenvolvimento quanto por outros fatores. Em outras palavras, um bloco é um grupo de sujeito que são semelhantes, mas são diferentes nos modos como podem afetar o resultado do experimento. Dessa forma, o ideal é separar os grupos de indivíduos com características semelhantes (bloco), e aplicar aleatoriamente o tratamento (no caso do exemplo, solicitar que o membro da equipe de desenvolvimento utilize a nova suíte) a alguns membros de cada grupo. » Experimento completamente aleatorizado - Suponha que desejamos, novamente, avaliar a produtividade dos membros de uma equipe de desenvolvimento de software ao utilizarmos uma nova suíte de desenvolvimento durante um determinado período (uma semana). No entanto, queremos que o experimento seja completamente aleatorizado. Nesse caso, os membros da equipe que utilizarão a nova suíte de desenvolvimento serão sorteados aleatoriamente. Esse sorteio é semelhante ao lançamento de uma moeda, por exemplo, para cada membro da equipe devemos realizar o lançamento de uma moeda, caso o resultado seja “cara”, esse desenvolvedor terá que utilizar a nova ferramenta de desenvolvimento; caso seja “coroa”, o desenvolvedor continuará com as mesmas condições de trabalho. Tente relacionar os problemas que podem acontecer ao utilizarmos essa abordagem. » Experimento rigorosamente controlado - Num experimento rigorosamente controlado, os indivíduos que recebem tratamento são cuidadosamente selecionados de tal forma que haja outro indivíduo em condições semelhantes no grupo que não recebe o tratamento. Com essa abordagem os efeitos individuais afetarão minimamente a avaliação. Por exemplo, em um experimento que avalia o desempenho de servidores de aplicações,todos os computadores utilizados devem ter as mesmas características, incluindo hardware, sistema operacional e carga de background. 18 Estatística Exploratória Replicação Além do controle dos efeitos que as variáveis podem exercer sobre os experimentos, a replicação dos experimentos é muito importante no planejamento de experimentos para verificar e/ou confirmar os efeitos da aplicação dos tratamentos em diferentes cenários. Obviamente, as amostras utilizadas na replicação do experimento devem ter sido escolhidas através de processos aleatórios e devem ser grandes o suficiente para que os efeitos da aplicação do tratamento sejam nitidamente reconhecidos. Contudo, é importante lembrar que, embora seja importante termos amostras suficientemente grandes, é mais importante que essas amostras sejam compostas por dados escolhidos de modo apropriado. Estratégias para Seleção de Amostras Pergunta para o leitor: E o que é afinal uma amostra aleatória? Nós já falamos algumas vezes no texto sobre amostra aleatória, você seria capaz de nos fornecer uma definição? Vamos tentar juntos e, para isso, vamos fazer uso de uma ilustração. Imagine que queremos fazer um experimento com uma moeda não viciada. Desejamos lançá-la ao ar e queremos saber qual a probabilidade de dar “cara”. Intuitivamente você dirá que as chances são de 50%. Exatamente, você está certíssimo. Vamos ver outro exemplo. Deseja-se utilizar um dado não viciado em um experimento. Queremos saber quais são as chances de aparecer o número 3 em um único lançamento. Se você disse que é 1/6, seu pensamento está correto mais uma vez. Nesse caso, qualquer número (1, 2, 3, 4, 5 e 6) tem as mesmas chances de aparecer no sorteio. Dessa forma, em uma amostra aleatória, os membros de uma população são selecionados de tal modo que cada indivíduo tenha as mesmas chances de ser selecionado. Também há o conceito de amostra aleatória simples de tamanho n, selecionada a partir de uma população de tamanho N. O processo consiste em selecionar um indivíduo sem reposição até que seja alcançado o número pré-determinado n. Um exemplo será útil para explicarmos esse processo. Exemplo: Você é o gerente de redes em uma grande empresa e deseja analisar as tentativas de ataques nos computadores. Ao todo, a empresa tem 300 computadores, cada um deles com a sua respectiva numeração, começando com o computador número 001. Por questões de custo, você fará as verificações de ataques em 5 amostras de tamanho n=10. Para selecionar os computadores das amostras, você pode utilizar uma urna e 300 pedaços de papel com as mesmas características, e anotar em cada pedaço de papel os números dos computadores, iniciando em 001 até 300. A partir daí, você pode sortear os 10 números para cada amostra, repetindo o procedimento 5 vezes. Como o tamanho N da população é muito maior do que o tamanho n da amostra, o processo para seleção pode ser sem reposição. O método de seleção de indivíduos também pode utilizar tabelas com números aleatórios associadas a cada elemento da população . Além da amostragem aleatória, há outras técnicas de amostragem probabilísticas que podem ser utilizadas. Vejamos as mais comuns: » Amostragem Aleatória Sistemática - Os itens ou indivíduos da população são ordenados. Um ponto de partida aleatório é sorteado, e então cada k-ésimo (por exemplo, 30º) membro da população é selecionado para a amostra. » Amostragem Aleatória Estratificada - A população é inicialmente dividida em subgrupos (estratos) de tal forma que os membros do mesmo subgrupo compartilhem as mesmas características (idade, sexo, altura) e uma subamostra é selecionada a partir de cada estrato da população. » Amostragem por Conglomerados - A população é inicialmente dividida em Atenção 5 Exemplo de gerador de números aleatórios - www.masoft.com. br/index. php?page= download&id=1185 19 Estatística Exploratória subgrupos (estratos) e uma amostra de estratos é selecionada (por exemplo, com probabilidade proporcional ao tamanho de cada estrato). A seguir, amostras são selecionadas dos estratos selecionados previamente. Mesmo realizando um excelente planejamento, levando em consideração todos os cuidados que aprendemos até agora, sempre haverá algum erro nos resultados. Em outras palavras, mesmo que a amostra seja representativa da população, ainda haverá uma diferença entre o valor da estimativa da amostra e o parâmetro populacional. Essa diferença é chamada de erro amostral ou variabilidade amostral. Por outro lado, quando o processo de amostragem foi tendencioso ou o processo de seleção da amostra utiliza instrumentos não calibrados, os erros provenientes são conhecidos por erros não-amostrais. 20 Estatística Exploratória Capítulo 2 Metas Após o estudo deste capítulo, esperamos que você consiga: » Analisar o comportamento dos dados através da distribuição de frequências; » Construir gráficos e histogramas. Assuntos » Tipos de variáveis; » Resumo de dados; » Distribuições de frequências; » Gráficos. 21 Estatística Exploratória Capítulo 2 – Resumo de Dados e Gráficos Vamos conversar sobre o assunto? É um fato inquestionável – a incrível quantidade de informação gerada atualmente é muito maior do que a nossa capacidade de consumi-la. Alguns artigos6, 7 comentam que a informação que uma pessoa adquire em uma semana nos dias de hoje é equivalente a toda informação adquirida ao longo da vida de uma pessoa que vivia no século XVII. E por falar em informação, você já ouviu o ditado popular – “quem tem a informação tem o poder”? Até pouco tempo, antes da popularização da internet, essa afirmativa era totalmente aplicável. Contudo, com a massificação dos mecanismos de busca de conteúdo na internet, qualquer pessoa pode localizar praticamente qualquer informação em alguns poucos segundos fazendo uma simples pesquisa no Google, se souber como procurar. Por isso, esse ditado nos dias atuais deveria ser reescrito – “Quem sabe garimpar a informação tem o poder”. O verbo garimpar é usado aqui de forma semelhante ao processo de extração de minério valioso entre os cascalhos de terra com minérios sem valor. Em outras palavras, a pessoa terá poder se ela souber escolher a informação realmente relevante. E essa informação “garimpada”, “limpa”, “pura” é um dos bens mais valiosos das organizações. É ela que orienta o processo de tomada de decisão, aumenta a produtividade e reduz custos e riscos. Atualmente, existem muitos estudos com o objetivo de “descobrir” conhecimento em grandes bases de dados, como Data Mining, Information Retrieval9 e Machine Learning10. Em todas essas técnicas, a estatística tem um papel fundamental no processo de tratamento da informação. Neste capítulo, estudaremos alguns recursos da estatística para facilitar a análise de um conjunto de dados. 2.1. Distribuição de Frequências Vamos iniciar os nossos estudos sobre tratamento de dados considerando a Tabela 1, extraída do sítio do Denatran, que apresenta o número de óbitos por acidente de trânsito nas capitais brasileiras entre os anos de 2000 e 2007. O tema da tabela foi propositalmente escolhido para servir de reflexão para todos nós. É importante salientar que a tabela contabiliza apenas os óbitos no local do acidente. Isto quer dizer que os números são ainda maiores. Quando se deseja estudar o comportamento de um conjunto de dados (variáveis), o nosso maior interesse é conhecer como essas variáveis se comportam, e para alcançarmos esse objetivo, precisamos analisar as ocorrências das suas possíveis realizações. Algumas características dessas realizações são muito úteis para que você compreenda o comportamento dosdados: » Medidas de centro - é um valor que representa o meio do conjunto de dados. Ex.: Em 2005, aconteceram em média 280 óbitos por acidente de trânsito nas capitais Hiperlink 6 http://www.mettodo. com.br/pdf/O%20 Excesso%20de%20 Informacao.pdf Hiperlink 7 http://www. thenewatlantis.com/ publications/the-myth- of-multitasking Hiperlink 8 http://www. intelliwise.com/ reports/i2002.htm Hiperlink 9 http://pt.wikipedia. org/wiki/Recuperação_ de_informação Hiperlink 10 http://ai.stanford. edu/~nilsson/mlbook. html 22 Estatística Exploratória brasileiras. » Medidas de variação - indica o quanto os valores dos dados variam entre eles. Ex.: Em oito anos do estudo, os dados apresentados na Tabela 1 mostram que o número de óbitos por acidente de trânsito na cidade de Curitiba, variou entre 358 e 432 óbitos. » Valores discrepantes ou outliers - Valores amostrais que se localizam longe da grande maioria dos outros valores amostrais. Geralmente ocorrem por erros na alimentação dos dados, porém, em alguns casos, podem indicar algum fenômeno específico. Ex.: Na cidade de Belém, ocorreram 139 óbitos em 2004, enquanto a média ficou em 162 óbitos. Em 2006, a cidade de Curitiba apresentou 721 óbitos, enquanto a média estava próxima de 400. » Distribuição dos dados - Representa a forma da distribuição dos dados. Características como a simetria e o volume nas extremidades da distribuição são importantes na análise dos dados. Vamos utilizar a distribuição de frequências como ferramenta para entender a distribuição dos dados. Tabela 1. Mortes por acidentes de trânsito nas capitais Número total de óbitos por acidentes de trânsito nas capitais - 2000 - 2007 Cidade 2000 2001 2002 2003 2004 2005 2006 2007 Aracaju 92 99 86 91 104 93 95 97 Belém 163 164 152 187 139 167 173 149 Belo Horizonte 381 417 382 393 410 400 491 451 Boa Vista 77 92 103 53 42 74 72 107 Brasília 520 488 519 587 505 527 471 555 Campo Grande 137 175 203 194 212 236 203 224 Cuiabá 125 94 153 125 129 127 137 142 Curitiba 425 372 358 371 425 432 721 427 Florianópolis 95 77 78 82 93 94 107 80 Fortaleza 329 384 485 465 444 519 405 383 Goiânia 346 309 339 400 381 341 315 330 João Pessoa 109 125 147 132 107 131 109 107 Macapá 79 86 98 84 91 76 91 79 Maceió 159 202 175 139 163 192 156 152 Manaus 253 219 235 247 261 278 328 281 Natal 62 66 82 59 85 72 62 65 Palmas 57 45 57 59 50 53 59 79 Porto Alegre 214 174 241 215 219 221 192 156 Porto Velho 122 89 117 99 113 91 104 109 Recife 245 218 243 213 227 230 207 234 Rio Branco 70 71 72 64 58 61 55 72 Rio de Janeiro 910 962 1020 924 974 930 1000 709 Salvador 103 126 114 126 103 292 290 294 São Luís 90 109 140 124 131 140 137 139 São Paulo 846 1604 1002 1465 1432 1544 1614 1651 Teresina 151 160 196 172 157 174 187 175 Vitória 64 56 56 62 59 60 51 51 23 Estatística Exploratória A Tabela 2 apresenta a distribuição de frequência da variável número de óbitos nas capitais brasileiras no ano de 2005. Tabela 2. Distribuição de frequências – nº de óbitos nas capitais em 2005 Nº óbitos nas capitais Frequência Proporção Porcentagem 0 – 200 15 =15/27=0,55 55% 201 – 400 7 =7/27=0,28 28% 401 – 600 3 =3/27=0,11 11% 601 – 800 0 =0 0% 801 – 1000 1 =1/27=0,037 3,7% 1001 – 1200 0 =0 0% 1201 – 1400 0 =0 0% 1401 – 1600 1 =1/27=0,037 3,7% Total 27 1,0 100% Observando os resultados da segunda coluna, você pode perceber que em 15 capitais aconteceram até 200 óbitos em 2005, em 3 capitais ocorreram entre 401 e 600 óbitos, em uma capital ocorreram entre 1401 e 1600 óbitos por acidentes de trânsito em 2005 e assim por diante. Tente continuar com essa análise para cada classe da Tabela 2. Outra medida bastante útil na interpretação de tabelas de frequência é a proporção de cada realização em relação ao total de ocorrências. Por exemplo, aconteceram na cidade de São Paulo 1544 óbitos, um valor muito acima da média das cidades. Contudo, em termos proporcionais, podemos observar que isso representa 3,7% do total de óbitos nas capitais do país naquele ano. As proporções também são úteis para comparar resultados de pesquisas com valores de frequências muito diferentes entre si. Por exemplo, segundo o Instituto de Pesquisa e Cultura Luiz Flávio Gomes11, no ano de 1996, o número de mortes no trânsito no Brasil foi de 35.281, e em 2008 foram 36.666 vítimas fatais. Em números absolutos o aumento foi de 1385 mortes, ou 3,92%. Porém, considerando o número de habitantes no Brasil em 1996 (156 milhões) e em 2008 (183 milhões), em termos proporcionais (óbitos/ habitante) houve uma sensível redução do número de mortes por habitantes (veja Tabela 3). O mérito dessa redução é dado à promulgação do Código de Trânsito Brasileiro em 1998 e à famosa “lei seca” de 2008. Infelizmente, a eficiência dessas leis foi reduzida assim que a fiscalização diminuiu e os números voltaram aos patamares de 37 mil mortes por ano. Tabela 3. Variação percentual do número de óbitos por habitantes ocorridos no Brasil entre os anos de 1996 e 2008. Ano Nº de óbitos População Proporção de óbtos por habitante 1996 35.281 156 milhões 1 óbito para 4422 hab 2008 36.666 183 milhões 1 óbito para 4990 hab Esse grande número de mortes no trânsito coloca o Brasil em 5º lugar no ranking mundial de acordo com as estatísticas da OMS – Organização Mundial de Saúde12. Os dados Hiperlink 11 http://www. ipcluizflaviogomes. com.br Hiperlink 12 OMS: http://www. who.int/en/ 24 Estatística Exploratória são de 2007 e os primeiros colocados são a Índia com 105,7 mil mortes por ano, a China 96,6 mil, os EUA 42,6 mil, a Rússia 35,9 e o Brasil com 35,1 mil mortes. 2.2. Regras Gerais para elaborar uma Distribuição de Frequência Antes de começarmos a estudar as diferentes possibilidades de representação gráfica dos dados, vamos voltar à Tabela 2 para entender como ela foi construída. Os passos a seguir facilitarão o entendimento: Definição do número de classes – a escolha do número de classes é arbitrária e depende muito da familiaridade do pesquisador com os dados. Contudo, lembre-se de que com um número pequeno de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir dados fica prejudicado. O mais comum é que o número de classes deva estar entre 5 e 20. No caso da Tabela 2, os dados foram agrupados em 8 classes. » O cálculo da amplitude da classe pode ser feito através da fórmula abaixo: Amplitude da classe = Arredonde o valor para obter um número mais conveniente. Para o caso da Tabela 2, por simplicidade, escolhemos 8 classes com amplitude igual a 200. Outra boa sugestão seria definirmos 10 classes, com amplitude 160, começando a partir de 40 até 1640. » Cálculo dos limites da classe – adicione a amplitude da classe ao limite inferior da primeira classe para obter o limite inferior da segunda classe. Siga este procedimento até a última classe. » Preenchimento da tabela – percorra o conjunto de dados incrementando o valor da classe apropriada para cada valor de dado. » Ponto médio de uma classe – é o ponto médio do intervalo da classe e é obtido somando-se o limite inferior ao superior e dividindo-se a soma por 2. Dessa forma, o ponto médio da primeira classe (0-200) da Tabela 2 é 100; da segunda classe (200-400) é 300, e assim por diante. 2.3. Histograma e Polígonos de Frequência O agrupamento dos dados em tabelas de frequência e frequência relativa (Tabela 2) é uma maneira bastante eficiente para analisar um conjunto de dados. Esses agrupamentos também podem ser representados graficamente através dos histogramas e polígonos de frequência. Um histograma ou histograma de frequênciaconsiste em um conjunto de retângulos que representam as classes cujas bases são iguais às suas amplitudes e são centradas no ponto médio de cada classe. As áreas de cada retângulo são proporcionais às frequências das classes e o número de classes deve variar entre 5 e 20 classes. Um polígono de frequência é um gráfico de linha passando pelos pontos médios dos topos dos retângulos de um histograma. Para uma visualização mais ampla do polígono de frequências, costuma-se prolongar a linha até o eixo das abscissas, considerando classes com frequência zero. A Figura 3 apresenta um histograma e um gráfico de polígonos de frequências referentes aos dados da Tabela 2. 25 Estatística Exploratória Figura 3 – Histogramas gerados a partir dos dados da Tabela 2. O formato da curva do gráfico de polígonos de frequência dá uma boa ideia da distribuição dos dados em termos de assimetria. Veja outras formas de curvas de frequência na Figura 5. As frequências relativas calculadas na Tabela 2 também podem ser utilizadas para a construção do histograma. Na verdade, os gráficos são exatamente os mesmos, basta para isso modificar os valores absolutos pelos valores relativos no eixo das ordenadas. 26 Estatística Exploratória 2.4. Distribuições de Frequência Acumulada A soma das frequências totais de todos os valores inferiores ao limite superior de uma dada classe é denominada frequência acumulada até e inclusive aquele intervalo de classe. Tudo bem, eu também concordo. Essa definição está um pouco complicada. Vamos tentar entendê-la através de um exemplo. Observe na Tabela 2 que a frequência acumulada até, e inclusive, o intervalo de classe 801-1000 da Tabela 2 é 15 + 7 + 3 + 0 + 1 = 26, o que significa que das 27 capitais estudadas, em 26 delas ocorreram até 1000 fatalidades no trânsito. Ficou um pouco mais claro? A Tabela 4 apresenta as frequências acumuladas por classe e, por isso, é chamada de tabela de frequência acumulada. Tabela 4. Tabela de frequência acumulada Nº óbitos nas capitais Frequência acumulada Frequência relativa acumulada Abaixo de 200 15 0,55 Abaixo de 400 22 0,83 Abaixo de 600 25 0,94 Abaixo de 800 25 0,94 Abaixo de 1000 26 0,975 Abaixo de 1200 26 0,975 Abaixo de 1400 26 0,975 Abaixo de 1600 27 1,0 Da mesma forma, o gráfico da Figura 5 apresenta a frequência acumulada abaixo de qualquer limite superior de classe, plotada em relação a esse limite. Esse tipo de gráfico é chamado de polígono de frequência acumulada ou ogiva. 27 Estatística Exploratória Figura 4 – Gráfico de frequência acumulada e frequência relativa acumulada. A terceira coluna da Tabela 4 também apresenta a frequência relativa acumulada ou frequência percentual acumulada. Esse cálculo é realizado dividindo-se a frequência acumulada pela frequência total. Uma característica importante a ser observada nos gráficos da Figura 3 é que a amplitude escolhida para as classes foi razoavelmente grande. Contudo, em muitos casos é possível escolhermos intervalos de classe relativamente pequenos e, além disso, obtermos amostras da população suficientemente grandes de tal forma que o “serrilhado” do polígono 28 Estatística Exploratória de frequência fique muito semelhante a uma linha contínua. Como já foi comentado, essas curvas de frequência são muito úteis para a compreensão do comportamento dos dados. A Figura 5 apresenta os tipos de curvas de frequência mais comuns. Os três primeiros gráficos representam curvas com assimetria à esquerda, curvas simétricas e curvas assimétricas à direita, respectivamente. 29 Estatística Exploratória 30 Estatística Exploratória Figura 5 – Tipos de curvas de frequência. Os outros gráficos da figura 5 representam curvas semelhantes a um “J”, curvas semelhantes a um “J” invertido e uma curva com distribuição dos dados uniforme. De todas as curvas de distribuições apresentadas, sem dúvida alguma, a distribuição chamada de normal é a mais importante. Suas características marcantes são o formato de “sino” e a simetria em torno do valor com maior frequência. Em outras palavras, as frequências começam baixas, crescem até uma frequência máxima e depois decrescem para uma frequência baixa. Identifique a distribuição normal entre os gráficos da Figura 5. 31 Estatística Exploratória Exemplo prático: Faça uma pesquisa entre os alunos (homens e mulheres separadamente) da sua turma, perguntando qual é a altura de cada um deles. Anote todos os valores, construa uma tabela com a distribuição das frequências e faça um histograma. Construa também um gráfico de polígono de frequências e observe se há alguma semelhança com a forma de um sino. Repita o mesmo procedimento para outras variáveis, como peso, notas dos alunos da disciplina banco de dados etc. 2.5. Gráficos Estatísticos Nesta seção vamos estudar um pouco mais sobre os gráficos, você já foi apresentado a alguns deles? Lembra dos histogramas? Aquele gráfico de barras, comumente utilizado na análise estatística para entendermos o comportamento das frequências de ocorrência de um determinado fenômeno ou grandeza. E dos polígonos de frequência, você também lembra? Aquela ligação dos pontos médios dos topos das classes. A partir de agora, vamos aprender a construir outros tipos de gráficos e entender como as variáveis podem ser exploradas através deles. Os gráficos são encontrados em todos os lugares, jornais, telejornais, livros, revistas, sítios diversos etc. Sua utilização traz vantagens como a capacidade de síntese de informações e a possibilidade de revelar características importantes das variáveis em estudo. Nessa seção vamos aprender a construir vários tipos de gráficos, dentre eles, o gráfico de pontos, o diagrama de ramo e folhas, o gráfico de Pareto, o gráfico de setores (pizza), o gráfico de barras, o diagrama de dispersão e o gráfico de séries temporais. Existe atualmente um conjunto amplo de ferramentas computacionais para a análise estatística e construção de gráficos, muitas delas são pagas e bastante caras (ex.: Minitab, Spss, Excel etc.). No entanto, o meio acadêmico e muitas empresas estão migrando para ferramentas baseadas nas licenças de software livre. Quando esse tipo de software, além de gratuito, é estável e robusto, a decisão é quase unânime. É o caso do software utilizado em todo o contexto do livro – o R. Isso mesmo, o nome do aplicativo é apenas R e pode ser encontrado para download para sistemas Windows, Linux e Mac em http://cran.r- project.org/. Além disso, o código fonte do R está disponível para modificações, permitindo ainda a criação e integração de pacotes estatísticos desenvolvidos por qualquer usuário. Os gráficos gerados também são gerados com o R. 2.5.1. Gráfico de Pontos O gráfico de pontos é um gráfico no qual cada valor é plotado como um ponto ao longo de uma escala de valores. Os pontos que representam valores iguais são empilhados. O gráfico de pontos da Figura 6 representa a distribuição das idades das deputadas federais eleitas para o mandato que começa a partir de 2011. Os dados foram extraídos do sítio da câmara dos deputados13. Esse tipo de gráfico é bastante útil, pois identifica a frequência a partir da contagem dos pontos. Por exemplo, na composição da câmara dos deputados com mandato no período entre 2011 - 2014, há 4 deputadas com 29 anos em 1º de janeiro de 2011. Hiperlink 13 http://www2. camara.gov.br/ deputados/pesquisa/ arquivos/arquivo- formato-excel-com- informacoes-dos- deputados-1 32 Estatística Exploratória Figura 6 – Gráfico de pontos referente às idades das deputadas federais eleitas em 2010 . 2.5.2. Diagrama de Ramo e Folhas O diagrama de ramoe folhas é muito útil para obter uma apresentação visual informativa de um conjunto de dados. Neste tipo de gráfico, cada informação deve ter no mínimo dois dígitos. Para construir esse diagrama, dividimos cada número em duas partes; um ramo, consistindo em um ou mais dígitos iniciais, e uma folha, consistindo nos dígitos restantes. A figura 7 ilustra um gráfico de ramo e folhas para as mesmas idades das deputadas federais eleitas para o mandato que inicia a partir de 2011. As idades estão em ordem crescente e são 29, 29, 29, 29, 34, 36, 36, ...., 76. É fácil observar como o primeiro valor de 29 se separa em seu ramo, 2, e sua folha, 9. As folhas são sempre arranjadas em ordem crescente e não na ordem em que aparecem nas tabelas de dados. 2 9999 3 4 3 667777789 4 44 4 6899999 5 114444 5 777 6 1111 6 666666 7 7 66 Figura 6 – Diagrama de ramo e folhas para as idades das deputadas eleitas em 2010. Virando-se a página de lado, 90º graus no sentido anti-horário, podemos ver a distribuição desses dados e ainda reconstruir todas as informações da tabela que originou o diagrama. Esse diagrama também é útil para a ordenação dos dados e para encontrar algumas de suas características como os quartis, percentis e mediana. Esses conceitos estatísticos serão abordados mais à frente. Certamente você deve ter percebido a semelhança entre o diagrama de ramo e folhas e as barras de um histograma. Quando você aprendeu como construir histogramas, viu que uma das orientações para a construção de um histograma é que o número de classes deve ficar entre 5 e 20. Pode-se aplicar a mesma orientação para a construção de um diagrama de ramo e folhas. Além disso, um diagrama de ramo e folhas pode ser expandido ou condensado, podendo ter mais ou menos folhas. 33 Estatística Exploratória 2.5.3. Gráfico de Pareto Para aprendermos a construir o gráfico de Pareto, vamos utilizar a Tabela 5. Essa tabela de dados apresenta o cenário partidário na câmara dos deputados a partir da eleição de 2010. Cada linha da tabela apresenta a frequência e a frequência relativa por partido. Tabela 5. Deputados federais eleitos em 2010 agrupados por partido. Partido Frequência Frequência relativa DEM 57 0,11 PcdoB 12 0,02 PDT 23 0,04 PMDB 90 0,18 PMN 3 0,01 PP 38 0,07 PPS 14 0,03 PR 45 0,09 PRB 8 0,02 PSB 26 0,05 PSC 17 0,03 PSDB 56 0,11 PT 81 0,16 PSOL 3 0,01 PTB 22 0,04 PTC 2 0,00 Ptdo B 1 0,00 PV 14 0,03 TOTAL 512 1,00 Os dados foram extraídos do sítio da câmara dos deputados - http://www2.camara. gov.br/deputados/pesquisa. Um gráfico de Pareto é um gráfico de barras para dados qualitativos, com as barras dispostas em ordem pela frequência. As escalas verticais nos gráficos de Pareto podem representar frequências ou frequências relativas. A barra mais alta fica à esquerda e as barras menores se afastam para a direita. O gráfico de Pareto é útil para destacar as categorias mais importantes. A Figura 7 ilustra a composição da câmara dos deputados a partir da eleição de 2010. Pode-se perceber claramente que os cinco partidos com maior representação na câmara dos deputados são aqueles que ocupam posições mais à esquerda no gráfico de pareto, e são PMDB, PT, DEM, PSDB e PR, respectivamente. Propositalmente os valores da escala vertical da Figura 7 foram omitidos. Experimente inserir esses valores a partir das frequências e usando as frequências relativas apresentadas na Tabela 5. 34 Estatística Exploratória Figura 7 – Gráfico de Pareto apresentando a composição da câmara dos deputados a partir da eleição de 2010 agrupados por partido. 2.5.4. Diagrama de Barras O gráfico de barras é muito semelhante ao gráfico de Pareto, exceto por não ser necessária seguir nenhuma ordem na distribuição dos retângulos do gráfico. Podem-se utilizar os valores para cada classe diretamente sobre os retângulos que representam as classes. A Figura 8 apresenta os dados da Tabela 5 através de um gráfico de barras. Figura 7 – Gráfico de barras com a composição da câmara dos deputados por partido. 2.5.5. Gráfico de Setores - Pizza O gráfico de setores ou pizza também é usado para apresentar dados qualitativos. No exemplo da Figura 9, foram utilizados os mesmos dados da Tabela 5 para elaborar um gráfico de setores. Observe que a construção de um gráfico de setores envolve a divisão de um círculo nas proporções das frequências das variáveis. Cada ocorrência assemelha-se a 35 Estatística Exploratória uma fatia de pizza, daí o nome dado a esse tipo de gráfico. Figura 9 – Gráfico de Setores descrevendo o número de deputados agrupados por partido – eleições/2010. 2.5.6. Gráfico de Dispersão O diagrama de dispersão de dados emparelhados é um gráfico onde os pontos no espaço cartesiano XY são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados. O diagrama de dispersão é usado principalmente para visualizar a relação/associação entre duas variáveis. Para aprendermos a construir e analisar o gráfico de dispersão utilizaremos um conjunto de dados relativos ao gêiser Old Faithful14, que está localizado no Parque Nacional de Yellowstone, em Wyoming, nos Estados Unidos. Esse gêiser não é o mais alto desse parque, mas certamente suas erupções são as mais previsíveis. As erupções podem fazer jorrar entre 14.000 e 32.000 litros de água fervendo a uma altura entre 30 e 55 metros, com duração entre 1,5 a 5 minutos. A altura média das suas erupções é de 44 metros. A Tabela 6 apresenta um conjunto com 240 medidas relacionando o tempo de duração da erupção com o respectivo período de espera para a próxima erupção, ambos medidos em minutos. Hiperlink 14 http://www.iis. uni-stuttgart.de/ lehre/ws09-10/ StatisticalDataMining/ oldfaith.tab 36 Estatística Exploratória Tabela 6. Duração das erupções e período de espera (em mintutos) do gêiser Old Faithful. 1 3,6 79 41 4,35 80 81 4,13 75 121 2,61 53 161 2,2 45 201 2,1 60 2 1,8 54 42 1,88 58 82 4,33 82 122 4,06 69 162 4,15 86 202 4,35 82 3 3,33 74 43 4,56 84 83 4,1 70 123 4,25 77 163 2 58 203 4,13 91 4 2,28 62 44 1,75 58 84 2,63 65 124 1,96 56 164 3,83 78 204 1,86 53 5 4,53 85 45 4,53 73 85 4,06 73 125 4,6 88 165 3,5 66 205 4,6 78 6 2,88 55 46 3,31 83 86 4,93 88 126 3,76 81 166 4,58 76 206 1,78 46 7 4,7 88 47 3,83 64 87 3,95 76 127 1,91 45 167 2,36 63 207 4,36 77 8 3,6 85 48 2,1 53 88 4,51 80 128 4,5 82 168 5 88 208 3,85 84 9 1,95 51 49 4,63 82 89 2,16 48 129 2,26 55 169 1,93 52 209 1,93 49 10 4,35 85 50 2 59 90 4 86 130 4,65 90 170 4,61 93 210 4,5 83 11 1,83 54 51 4,8 75 91 2,2 60 131 1,86 45 171 1,91 49 211 2,38 71 12 3,91 4,71 52 4,71 90 92 4,33 90 132 4,16 83 172 2,08 57 212 4,7 80 13 4,2 78 53 1,83 54 93 1,86 50 133 2,8 56 173 4,58 77 213 1,86 49 14 1,75 47 54 4,83 80 94 4,81 78 134 4,33 89 174 3,33 68 214 3,83 75 15 4,7 83 55 1,73 54 95 1,83 63 135 1,83 46 175 4,16 81 215 3,41 64 16 2,16 52 56 4,88 83 96 4,3 72 136 4,38 82 176 4,33 81 216 4,23 76 17 1,75 62 57 3,71 71 97 4,66 84 137 1,88 51 177 4,5 73 217 2,4 53 18 4,8 84 58 1,66 64 98 3,75 75 138 4,93 86 178 2,41 50 218 4,8 94 19 1,6 52 59 4,56 77 99 1,86 51 139 2,03 53 179 4 85 219 2 55 20 4,25 79 60 4,31 81 100 4,9 82 140 3,73 79 180 4,16 74 220 4,15 76 21 1,8 51 61 2,23 59 101 2,48 62 141 4,23 81 181 1,88 55 221 1,867 50 22 1,75 47 62 4,5 84 102 4,36 88 142 2,23 60 182 4,583 77 222 4,267 82 23 3,45 78 63 1,75 48 103 2,1 49 143 4,53 82 183 4,25 83 223 1,75 54 24 3,06 69 64 4,8 82 104 4,5 83 144 4,81 77 184 3,767 83 224 4,483 75 25 4,53 74 65 1,81 60 105 4,05 81 145 4,33 76 185 2,033 51 225 4 78 26 3,6 83 66 4,4 92 106 1,86 47 146 1,98 59 186 4,433 78 226 4,11779 27 1,96 55 67 4,16 78 107 4,7 84 147 4,63 80 187 4,083 84 227 4,083 78 28 4,08 76 68 4,7 78 108 1,78 52 148 2,01 49 188 1,833 46 228 4,067 78 29 3,85 78 69 2,06 65 109 4,85 86 149 5,1 96 189 4,417 83 229 3,267 70 30 4,43 79 70 4,7 73 110 3,68 81 150 1,8 53 190 2,183 55 230 3,917 79 31 4,3 73 71 4,03 82 111 4,73 75 151 5,03 77 191 4,8 81 231 4,55 70 32 4,46 77 72 1,96 56 112 2,3 59 152 4 77 192 1,833 57 232 2,417 54 33 3,36 66 73 4,5 79 113 4,9 89 153 2,4 65 193 4,8 76 233 4,183 86 34 4,03 80 74 4 71 114 4,41 79 154 4,6 81 194 4,1 84 234 2,217 50 35 3,83 74 75 1,98 62 115 1,7 59 155 3,56 71 195 3,966 77 235 4,45 90 36 2,01 52 76 5,06 76 116 4,63 81 156 4 70 196 4,233 81 236 1,883 54 37 1,86 48 77 2,01 60 117 2,31 50 157 4,5 81 197 3,5 87 237 1,85 54 38 4,83 80 78 4,56 78 118 4,6 85 158 4,08 93 198 4,366 77 238 4,283 77 39 1,83 59 79 3,88 76 119 1,81 59 159 1,8 53 199 2,25 51 239 3,95 79 40 4,78 90 80 3,6 83 120 4,41 87 160 3,96 89 200 4,667 78 240 2,333 64 A Figura 10 apresenta um diagrama de dispersão relativo às observações das erupções do gêiser Old Faithful. Note que existe uma correlação entre medida de tempo de erupção do gêiser com o tempo de espera para a próxima erupção. Enfatizamos com uma linha a orientação dessa correlação. 37 Estatística Exploratória Figura 10 – Diagrama de dispersão das erupções e tempos de espera de erupções relacionadas com o gêiser Old Faithful. 2.5.7. Gráfico de Séries Temporais Um gráfico de série temporal representa a evolução de uma medida ou grandeza através do tempo. Em outras palavras, é possível visualizar as tendências da variável estudada. Esse tipo de gráfico é muito utilizado nas bolsas de valores para mostrar as tendências dos ativos das companhias. Para construirmos esse tipo de gráfico, é necessário coletar as medidas em pontos diferentes no tempo. O gráfico da Figura 11 apresenta a evolução do Índice Bovespa (Ibovespa) desde 1994 até o final do ano passado. Observe a forte “depressão” da curva entre os meses de abril e dezembro do ano de 2008. Foi a época da crise financeira mundial causada, segundo os economistas, pelos títulos subprime do mercado imobiliário americano. Outra informação muito importante que pode ser retirada desse gráfico diz respeito ao ganho de capitais ao longo do tempo. Por exemplo, imagine que você é um investidor que volta no tempo, para o ano de 1994, para investir R$ 10.000,00 em uma carteira de ações vinculadas ao Ibovespa. Sabendo que quando os pontos do Ibovespa dobram de valor, o seu investimento também dobra, ao final de 1996, você dobrou o seu investimento e agora tem R$ 20.000,00. Por volta de agosto de 2003, você dobrou novamente o seu dinheiro e agora tem R$ 40.000,00. Continuando nesse pensamento, nos meses que antecederam a crise de 2008, os R$ 10.000,00 iniciais transformaram-se em módicos R$ 1.280.000.00. E aí, está bom para você começar a pensar em investir? 38 Estatística Exploratória Figura 11 – Diagrama de série temporal apresentando o índice Ibovespa a partir de 1994. Mas cuidado, o lucro do passado não significa lucro no futuro. Apenas a poupança tem correção garantida pelo governo – 0,5% ao mês mais a variação da TR(taxa referencial). Você pode estudar mais sobre a crise econômica e os seus efeitos no mercado brasileiro de ações visitando o sítio da Bovespa - http://www.bmfbovespa.com.br. 39 Estatística Exploratória Capítulo 3 – Medidas Resumo Vamos conversar sobre o assunto? No Capítulo 2, aprendemos como construir gráficos e a partir deles, extrair as informações e características importantes de um conjunto de dados. Este capítulo também é importante porque aprenderemos a explorar e quantificar algumas dessas características dos dados, como medidas de posição e dispersão. A utilização de gráficos e tabelas de frequências para resumir conjuntos de dados é uma maneira eficiente para extrair informações sobre o comportamento de uma variável, muito mais até do que a própria tabela original. Porém, em alguns casos é necessário resumir ainda mais estes dados através de valores ou medidas que sejam representativas de todo o conjunto de dados. Essas medidas são extraídas a partir do próprio conjunto de dados e podem ser classificadas em: » Medidas de posição → média, mediana, moda e outras medidas de tendência central; » Medidas de dispersão → amplitude, desvio padrão e variância; » Medidas de posição relativa → escores z, quartis e percentis; » Medidas relacionadas à forma → medidas de assimetria e curtose. Encontrar os valores dessas medidas envolverá um conjunto de fórmulas e cálculos e a manipulação direta dos dados. Porém, é essencial que você tenha em mente que o mais importante nesta disciplina é o entendimento dos conceitos, sua interpretação e aplicação, mas que obviamente você deverá realizar/acompanhar algum cálculo para que esses conceitos sejam alcançados e fixados na sua memória. Atualmente existem muitas ferramentas computacionais para cálculo estatístico e isso permite que a nossa atenção seja dedicada muito mais aos conceitos do que às contas. Os métodos do Capítulo 2 e deste capítulo são, em geral, chamados de métodos de estatística descritiva, porque o objetivo é descrever as características importantes de um conjunto de dados. 3.1. Medidas de Posição Antes de começarmos a trabalhar com as definições e fórmulas para cálculo das medidas de posição, vamos aprender um pouco sobre a notação matemática que será utilizada daqui para a frente. Se você encontrar o símbolo X j (leia-se “X índice j”) deve entender que ele representa qualquer um dos N valores, X 1 , X 2 , X 3 , X 4 ,...X N , assumidos pela variável X. A letra j, em X j , que pode representar qualquer dos números 1, 2, 3, ..., N, é denominada índice. Notação de somatório → o Símbolo é usado para representar a soma de 40 Estatística Exploratória todos os X j desde j = 1 até j = N , isto é, por definição = X 1 + X 2 + X 3 + ... + X N Quando não há possibilidade de confusão indica-se, frequentemente, o somatório, de modo mais simples, por , ou O símbolo , é a letra grega Sigma. Exemplo 1: Y j = X 1 Y 1 + X 2 Y 2 + X 3 Y 3 + ... + X N X N Exemplo 2: aX j = aX 1 + aX 2 + aX 3 + ... + aX N = (X 1 + X 2 + X 3 + ... + X N ) = a a é uma constante. Notação de produtório → o Símbolo é usado para representar o produto de todos os X j desde j = 1 até j= N, isto é, por definição = X 1 × X 2 × X 3 × ... × X N Quando não há possibilidade de confusão indica-se, frequentemente, o somatório, de modo mais simples, por X, X j ou O símbolo , é a letra grega Pi. 3.1.1. Moda A moda é definida como a realização mais frequente do conjunto de valores observados. Como exemplo, suponha que você entrevistou 25 professores do seu curso, casados, com relação ao número de filhos que eles têm. A pesquisa verificou que, ao todo, os casais têm 47 filhos. O resultado da pesquisa com a distribuição dos filhos entre os casais está resumido nas Tabelas 7 e 8. Tabela 7. Dados dos professores da UAB-UFRPE segundo o número de filhos. Casal Nº de filhos Casal Nº de filhos Casal Nº de filhos 1 2 10 3 19 1 2 4 11 2 20 4 3 0 12 1 21 0 4 1 13 5 22 2 5 3 14 1 23 3 6 2 15 0 24 2 7 1 16 2 25 1 8 0 17 3 9 3 18 1 Qual é a realização da variável “número de filhos” com maior frequência? Isso mesmo, a pesquisa mostrou que sete professores têm apenas um filho e essa é a moda da variável “número de filhos”. 41 Estatística Exploratória moda(“nº de filhos”) = 1 Tabela 8. Frequência e porcentagens
Compartilhar