Buscar

Estatistica Exploratoria - Volume 1 v11

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Recife, 2010
Estatística Exploratória
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO (UFRPE)
COORDENAÇÃO GERAL DE EDUCAÇÃO A DISTÂNCIA (EAD/UFRPE)
Marco Domingues 
Jeísa Domingues
Volume 1
Universidade Federal Rural de Pernambuco
Reitor: Prof. Valmar Corrêa de Andrade
Vice-Reitor: Prof. Reginaldo Barros
Pró-Reitor de Administração: Prof. Francisco Fernando Ramos Carvalho
Pró-Reitor de Extensão: Prof. Paulo Donizeti Siepierski
Pró-Reitor de Pesquisa e Pós-Graduação: Prof. Fernando José Freire
Pró-Reitor de Planejamento: Prof. Rinaldo Luiz Caraciolo Ferreira
Pró-Reitora de Ensino de Graduação: Profª. Maria José de Sena
Coordenação Geral de Ensino a Distância: Profª Marizete Silva Santos
Produção Gráfica e Editorial
Capa e Editoração: Rafael Lira, Italo Amorim e Arlinda Torres
Revisão Ortográfica: Rita Barros
Ilustrações: Allyson Vila Nova
Coordenação de Produção: Marizete Silva Santos
Sumário
Apresentação ................................................................................................................. 5
Conhecendo o Volume 1 ................................................................................................ 6
Capítulo 1 – Introdução à Estatística............................................................................... 8
1.1. Tipos de Dados .........................................................................................................9
1.2. Planejamento de Experimentos..............................................................................11
1.3. Estudos Observacionais e Experimentos Aleatórios ...............................................14
Capítulo 2 – Resumo de Dados e Gráficos ..................................................................... 21
2.1. Distribuição de Frequências ...................................................................................21
2.2. Regras Gerais para elaborar uma Distribuição de Frequência ................................24
2.3. Histograma e Polígonos de Frequência ..................................................................24
2.4. Distribuições de Frequência Acumulada ................................................................26
2.5. Gráficos Estatísticos ................................................................................................31
2.5.1. Gráfico de Pontos ...........................................................................................31
2.5.2. Diagrama de Ramo e Folhas ...........................................................................32
2.5.3. Gráfico de Pareto ...........................................................................................33
2.5.4. Diagrama de Barras ........................................................................................34
2.5.5. Gráfico de Setores - Pizza ...............................................................................34
2.5.6. Gráfico de Dispersão ......................................................................................35
2.5.7. Gráfico de Séries Temporais ...........................................................................37
Capítulo 3 – Medidas Resumo ...................................................................................... 39
3.1. Medidas de Posição ................................................................................................39
3.1.1. Moda ..............................................................................................................40
3.1.2. Média .............................................................................................................41
3.1.3. Mediana .........................................................................................................42
3.1.4. Ponto Médio ..................................................................................................43
3.2. Assimetria ...............................................................................................................43
3.3. Medidas de Variação (dispersão) ............................................................................45
3.3.1. Amplitude ......................................................................................................45
3.3.2. Variância (σ2) e desvio padrão (σ) ..................................................................45
3.3.3. Escore z ..........................................................................................................49
3.3.4. Quartis e Percentis .........................................................................................49
3.3.5. Boxplot (diagrama de caixa) ...........................................................................50
Considerações Finais .................................................................................................... 52
Conheça os Autores ..................................................................................................... 54
5
Estatística Exploratória
Apresentação
Caro(a) aluno (a),
Seja bem-vindo (a) ao primeiro volume do curso de Estatística Exploratória. Neste 
primeiro volume, vamos estudar os conceitos introdutórios em estatística necessários para 
a compreensão do assunto que será estudado durante toda a disciplina.
O objetivo principal deste primeiro volume é proporcionar ao estudante uma 
ampla visão do tratamento estatístico de dados, desde sua coleta através dos estudos 
observacionais e experimentos, passando pela sua análise através de gráficos e medidas-
resumo. 
Bons estudos!
Marco Domingues e Jeísa Domingues
Autores
6
Estatística Exploratória
Conhecendo o Volume 1
Neste primeiro volume, você terá os conteúdos de estatística exploratória. A seguir, 
você pode entender a organização deste primeiro volume.
Planejamento de experimentos estatísticos de análise exploratória dos 
dados.
Carga horária: 15 h/aula
Objetivo do volume 1: Ao final do módulo, o aluno terá condições de iniciar o 
planejamento de experimentos e estudos estatísticos, analisando os dados através de 
medidas-resumo e por meio de gráficos e tabelas. 
Assuntos
» Introdução à estatística e tipos de dados;
» Estudos observacionais e experimentos aleatórios;
» Planejamento de experimentos;
» Resumo de dados;
» Distribuições de frequências e gráficos;
» Medidas de posição e dispersão.
Dicas de Estudo
» O Capítulo 1 é tipicamente conceitual e por isso precisa de mais empenho e 
dedicação. Destine cinco horas de estudo para esse capítulo. Você deve organizar 
uma metodologia de estudo que possibilite contato diário com o material didático.
» Para o Capítulo 2, você também precisará dedicar cinco horas estudo. Nesse 
capítulo você precisará de muita dedicação nos exercícios. São eles que farão com 
que o conteúdo seja assimilado de forma duradoura. 
» O Capítulo 3 engloba o tratamento gráfico e o estudo das medidas de posição e 
dispersão tão importantes para a compreensão da natureza dos dados.
7
Estatística Exploratória
Capítulo 1
Metas
Ao final do capítulo, esperamos que você consiga:
» Entender as características dos estudos estatísticos observacionais e experimentais;
» Conduzir experimentos estatísticos.
Assuntos
» Introdução à estatística;
» Tipos de dados;
» Planejamento de experimentos
› Estudos observacionais;
› Experimentos aleatórios.
8
Estatística Exploratória
Capítulo 1 – Introdução à Estatística
Vamos conversar sobre o assunto?
E afinal, para que serve a Estatística? Onde a estatística pode ser utilizada? Por 
que eu devo estudar estatística? É importante estudar estatística para trabalhar com 
desenvolvimento de sistemas de software? Para responder a essas perguntas vamos discutir 
duas situações que aconteceram recentemente.
Você deve ter observadoque nas semanas que antecedem as eleições no Brasil, a 
maioria dos veículos de comunicação fala sobre pesquisas de intenções de voto. No Brasil, 
várias empresas de pesquisas estatísticas trabalham nas eleições. Por falar nisso, você já 
foi entrevistado por alguma dessas empresas? Conhece alguém que já tenha sido? Nas 
eleições presidenciais de 2010, foram registrados mais de 100 milhões de eleitores, não é 
intrigante que essas pesquisas de intenção de voto sejam realizadas com pouco mais de 
2000 eleitores? Como será que eles escolhem os eleitores para serem entrevistados? 
Em 2010 também aconteceu o recenseamento da população brasileira. Em cada 
censo, praticamente todas as residências brasileiras recebem a visita do representante do 
IBGE (Instituto Brasileiro de Geografia e Estatística) para uma rápida conversa. Essa entrevista 
consiste em um grupo de perguntas relativas à religião, composição de renda, escolaridade, 
quantidade de pessoas que moram na mesma residência, idade e quantidade de homens e 
mulheres etc. Ao final do processo, o IBGE realizará a análise com todos os dados coletados, 
elaborando um “raio-X” detalhado da sociedade brasileira. Essas informações são usadas 
pelo governo no desenvolvimento de políticas públicas para os estados da federação. 
Atualmente no Brasil, o CENSO ocorre a cada 10 anos e o primeiro aconteceu no ano de 
1872, segundo dados do IBGE (http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html). 
Você pode ter observado que no primeiro exemplo apenas uma pequena porção 
(amostra) dos eleitores é entrevistada em cada pesquisa, enquanto que no censo, os dados 
são coletados de toda a população. Amostra e população são termos muito importantes em 
estatística. O quadro a seguir apresenta as definições desses e de outros termos básicos.
Definições
Dados São observações coletadas (por exemplo, idade, sexo, medidas).
População É o conjunto completo de todos os elementos a serem estudados.
Censo É um conjunto de dados obtidos de todos os membros de uma população.
Amostra É um subconjunto de membros selecionados de uma população.
Para realizar o censo 2010, o IBGE precisou contratar cerca de 190.000 
recenseadores, cada um deles recebeu por mês entre R$ 800,00 e R$ 1.600,00 . Percebe-se 
claramente que a realização de um censo é muito dispendiosa, e estamos falando apenas 
dos salários dos recenseadores. Existem outros custos inerentes à realização do censo. Por 
outro lado, nas pesquisas de intenções de voto, são escolhidos, em média, 3000 eleitores 
em cada pesquisa. Você consegue se lembrar que na divulgação dessas pesquisas, sempre 
Saiba Mais
1 Fonte – Instituto 
Brasileiro de Geografia 
e Estatística.
9
Estatística Exploratória
é citada uma margem de erro no resultado? Pois bem, um dos objetivos mais importantes 
da estatística é utilizar dados amostrais para tirar conclusões sobre populações. A grande 
vantagem é o baixo custo no processo de coleta e análise dos dados. Porém, a obtenção 
de dados amostrais representativos de uma população é um fator extremamente crítico. 
Observa-se facilmente que, quanto maior o tamanho da amostra, menor o erro da 
pesquisa e maior é o custo do processo. Daí, para que os dados coletados da amostra 
sejam verdadeiramente representativos da população, os elementos amostrais devem ser 
selecionados de modo aleatório e não tendencioso. Se os dados não forem coletados de 
modo apropriado, os resultados da análise estatística serão inválidos.
O objetivo desse módulo é fornecer a base conceitual para que você compreenda 
todas as possibilidades de aplicações da estatística. E não pense que você precisa ser um 
especialista em matemática. Você verá que, com dedicação, será muito fácil dominar os 
princípios básicos sem muita dificuldade.
1.1. Tipos de Dados
O Dicionário Aurélio define “estatística” como sendo “a parte da matemática em 
que se investigam os processos de obtenção, organização e análise de dados (características) 
sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos utilizados 
para estabelecer conclusões e fazer inferências ou predições com base nesses dados”. E por 
falar em dados, é importante que você saiba reconhecer a natureza dos dados que serão 
analisados. Como exemplo, vamos utilizar alguns dados (características) solicitados pelos 
entrevistadores no censo/2010:
Para a característica “Sexo”, são dois os casos possíveis: masculino e feminino;
Para a característica “Estado Civil”, os casos possíveis são: casado, solteiro, 
divorciado, separado, viúvo;
Para a característica “Grau de Instrução”, os casos possíveis são: ensino fundamental, 
ensino médio e ensino superior;
Para a característica “Número de Pessoas na Família”, há um número de resultados 
possíveis, expresso através dos números naturais: 0, 1, 2, 3, 4,..., n;
Para a característica “Renda Familiar” a situação é diferente. Os resultados podem 
assumir um número infinito de valores numéricos dentro de um determinado intervalo;
Para a característica “CEP – Código de Endereçamento Postal” que representa 
uma localização geográfica, os possíveis valores assumem qualquer combinação de oito 
números. Ex: 50741-100.
O conjunto de valores que uma característica pode assumir é chamado de variável. 
Nos exemplos citados anteriormente, os dados da variável “Sexo” e os dados da variável 
“Estado Civil” são chamados de dados qualitativos, categóricos ou atributos. Perceba 
que para o atributo sexo, os valores masculino e feminino determinam uma categoria ou 
qualidade do indivíduo pesquisado, o mesmo ocorrendo para o atributo “Estado Civil”. 
Os possíveis valores que uma variável pode assumir também são chamados de 
realizações. Para o caso da variável “Sexo”, os valores “masculino” e “feminino” também são 
chamados de realizações da variável “Sexo”.
As variáveis qualitativas ainda podem ser classificadas em dois tipos: variável 
qualitativa nominal, para a qual não existe nenhuma ordenação nas possíveis realizações, 
10
Estatística Exploratória
e variável qualitativa ordinal, para a qual existe uma ordem nos seus valores. Os dados da 
variável “CEP”, apesar de numéricos, não são quantidades. O CEP não identifica medidas ou 
contagem de coisa alguma, por isso, não faz sentido realizar cálculos com eles. A variável 
“CEP” é um caso de variável qualitativa nominal, enquanto “Grau de Instrução” é um 
exemplo de variável qualitativa ordinal, porque ensino fundamental, ensino médio e ensino 
superior correspondem a uma ordenação relacionada com o número de anos completos de 
escolaridade de um indivíduo.
Definições
Dados qualitativos, ou categóricos 
ou de atributos
Podem ser classificados em diferentes categorias que se 
distinguem por alguma característica.
Dados quantitativos
Consistem em números que representam contagens ou 
medidas.
De modo semelhante, as variáveis quantitativas podem ser classificadas em 
discretas e contínuas. A variável “Número de Pessoas na Família” é um exemplo de variável 
com dados discretos, uma vez que não podem ocorrer valores fracionados para essa 
variável. Por outro lado, a variável “Renda Familiar” é um exemplo de variável quantitativa 
com dados contínuos, cujos valores pertencem a um intervalo de números reais. A figura 1 
apresenta um esboço da classificação das variáveis.
Figura 1 – Classificação de uma variável.
Os dados quantitativos descrevem medidas e é importante utilizarmos as 
unidades de medida apropriadas para cada variável. Por exemplo, suponha que você está 
desenvolvendo um sistema médico para controle de exames, como o teste ergométrico 
(teste de esforço). Esse exame pode auxiliar no diagnóstico de doenças cardíacas através 
do monitoramento do coração e da pressão arterialrelacionada com o nível de esforço 
físico ao qual o paciente é submetido. Nesse exame são coletados vários dados do paciente: 
peso (medido em Kg), pressão arterial (medida em mmHg – milímetros de mercúrio), 
atividade elétrica do coração (corrente elétrica – medida em Ampere, tensão elétrica – 
medida em Volt, resistência elétrica – medida em Ohm), frequência cardíaca (bpm – medida 
em batimentos por minuto) etc. Todas essas variáveis são quantitativas e a utilização de 
unidades de medida inadequadas pode tornar os diagnósticos imprecisos e/ou inválidos.
11
Estatística Exploratória
1.2. Planejamento de Experimentos
Você estudou nas seções anteriores que a estatística lida com a coleta, a 
apresentação, a análise e o uso dos dados como ferramentas auxiliares na tomada de 
decisões e resolução de problemas. Você também pôde observar que o desenvolvimento 
de sistemas trabalha, na prática, com a manipulação de dados e, obviamente, algum 
conhecimento de estatística é importante para esse profissional. O campo da engenharia 
de software encontra na estatística as ferramentas essenciais para o planejamento de novos 
sistemas, análise de código, análise de erros, levantamento de custos e orçamento.
As técnicas e métodos estatísticos são úteis para nos ajudar a entender a 
variabilidade de um determinado fenômeno observado. Por variabilidade, queremos dizer 
que sucessivas observações de um fenômeno não produzem exatamente o mesmo resultado. 
Por exemplo, considere que você é o gerente de um projeto com 10 programadores. 
Considere o desempenho diário de um dado programador em relação à produção de 
linhas de código e a quantidade de erros nesse código. Esse programador sempre atinge 
as mesmas metas de produção diária de código? Com as mesmas quantidades de erros? 
Naturalmente, não. Na verdade, algumas vezes o desempenho varia consideravelmente. 
Essa variabilidade observada no desempenho do programador depende de muitos fatores, 
tais como problemas pessoais, relacionamento com a equipe, experiência prévia com 
soluções semelhantes, habilidade com a linguagem de programação utilizada, apenas 
para citar alguns fatores. Esses fatores representam fontes potenciais de variabilidade na 
produção de software. 
A compreensão da variabilidade também é importante quando consideramos, por 
exemplo, o desempenho diário de vários programadores com as mesmas características 
(experiência prévia, habilidade com a linguagem, bom entrosamento com a equipe etc.). 
Se a empresa que você trabalha também tem outros projetos, cada um deles contando 
com grupos de programadores, e você foi convidado para apresentar um estudo sobre o 
desempenho global dos programadores para a diretoria, como você faria o levantamento 
das medidas de desempenho dos programadores da empresa? Faria o estudo com toda 
a população de programadores da empresa para o levantamento de parâmetros de 
desempenho? Faria o estudo com uma amostra de programadores da empresa para o 
levantamento de estatísticas de desempenho e estenderia as conclusões para toda a 
população através da inferência estatística?
Definições
Parâmetro
Um parâmetro é uma medida numérica que descreve alguma característica 
de uma população.
Estatística
Uma estatística é uma medida numérica que descreve alguma característica 
de uma amostra.
A estratégia baseada nas medidas de desempenho de alguns programadores 
para estabelecer conclusões sobre medidas de desempenho de todos os programadores 
da empresa pode resultar em erros (ou riscos). Esses erros são conhecidos como erros 
de amostragem. No entanto, se a amostra for selecionada adequadamente, esses riscos 
poderão ser quantificados e um tamanho apropriado de amostra poderá ser determinado.
Infelizmente, alguns estudos utilizam experimentos estatísticos baseados em 
amostras ruins (coletadas por métodos viesados2). Uma amostra é considerada ruim 
Atenção
2 Viés é um termo 
muito comum em 
estatística. Uma 
medida viesada é uma 
medida tendenciosa, 
distorcida.
12
Estatística Exploratória
ou tendenciosa quando o método de amostragem não gera amostras representativas da 
população da qual foram obtidas. Vamos analisar dois exemplos de estudos estatísticos 
cujas amostras foram geradas por processos de coleta de dados tendenciosos:
Ao cursar uma disciplina de estatística aplicada na pós-graduação de uma 
universidade brasileira, um grupo de alunos realizou um experimento visando mapear 
o perfil salarial dos profissionais de TI em todo o Brasil, por regiões e pelas capitais. O 
método de coleta de dados consistiu no preenchimento voluntário de um formulário web 
contendo perguntas sobre as condições de trabalho, características do trabalho e salários 
dos profissionais de TI no Brasil. Esses profissionais de TI tomaram conhecimento da 
pesquisa através de um e-mail-convite enviado a eles por meio das redes sociais. Respostas 
voluntárias a questionários, apesar de ser um método muito comum de coleta de dados, é 
um dos piores, porque são os entrevistados que decidem se querem participar ou não da 
pesquisa;
Outro exemplo interessante de coleta de dados do tipo resposta voluntária ocorreu 
quando a revista Newsweek (http://www.newsweek.com/) realizou uma sondagem sobre 
o sítio Napster (www.napster.com) que, no início, oferecia livre acesso à cópia de CDs de 
músicas. Perguntou-se aos leitores se eles continuariam a usar o Napster se tivessem que 
pagar uma taxa. Os leitores poderiam dar suas respostas através do sítio da revista. Entre as 
1873 respostas recebidas, 19% diziam sim, ainda é mais barato do que comprar CDs. Outros 
5% diziam sim, sentiam-se mais confortáveis pagando uma taxa. 
Nos dois estudos, a Internet foi o veículo escolhido para obtenção das amostras, e 
nesse caso, cabe às pessoas decidirem se querem ou não participar da pesquisa, de modo 
que constituem uma amostra de resposta voluntária. Sabe-se que as pessoas com opiniões 
mais contundentes têm mais tendência a participar, de maneira que as respostas não são 
representativas de toda a população.
É muito importante que você desenvolva o senso crítico em relação aos 
procedimentos para coleta de dados nos experimentos. Com as amostras coletadas através 
de respostas voluntárias, apenas conclusões relacionadas com o grupo específico que 
escolheu participar do experimento podem ser tiradas. Infelizmente tem sido prática comum 
estenderem-se as conclusões a uma população maior. Esse tipo de amostra é tipicamente 
tendenciosa e não deveria ser usada para se fazer afirmações sobre uma população maior.
A seguir serão apresentados alguns aspectos que devem ser considerados no 
planejamento de experimentos:
Pequenas Amostras
Como vimos nas seções anteriores, um dos principais objetivos da estatística é poder 
inferir sobre características de uma população a partir da análise de suas amostras. Você 
também percebeu que, se o tamanho dessas amostras cresce na direção do tamanho da 
população, mais precisas são as conclusões obtidas. Contudo, experimentos com amostras 
muito grandes se aproximam de um CENSO e podem se tornar bastante dispendiosos. Além 
disso, mesmo amostras grandes precisam ser coletadas por processos adequados. Mas por 
outro lado, amostras muito pequenas, mesmo sendo coletadas corretamente, podem não 
ser representativas da população. Resumindo, embora seja importante trabalharmos com 
amostras suficientemente grandes, é do mesmo modo importante que os dados amostrais 
tenham sido coletados de forma apropriada, de modo aleatório. Em outras palavras, mesmo 
amostras grandes podem ser ruins.
Questões Orientadas
Um problema fundamental na coleta de dados através de entrevistas ocorre quando 
13
Estatística Exploratóriaas questões são direcionadas para provocar a resposta desejada. Observe as questões a 
seguir e avalie qual seria a sua resposta nos dois cenários:
» “A CPMF deve voltar a vigorar no Brasil?”
» “A CPMF deve voltar a vigorar no Brasil para resolver definitivamente os problemas do sistema 
de saúde?”
Outra característica das entrevistas (também conhecidas como questões de 
sondagem) que pode causar impacto na qualidade dos dados coletados diz respeito à ordem 
das questões. Observe as duas questões a seguir e analise a sua resposta em comparação 
com as respostas de alguns de seus colegas de curso. Verifique se a ordem das palavras-
chave (Jogos de computador e drogas leves) altera as respostas.
» “Você diria que os jogos de computador têm mais ou menos potencial de causar dependência 
em jovens do que as chamadas drogas leves?”
» “Você diria que as chamadas drogas leves têm mais ou menos potencial de causar dependência 
em jovens do que os jogos de computador?”
Claro que esse estudo é muito simples para estabelecer conclusões definitivas 
sobre o contexto das drogas, jogos digitais e jovens, mas é muito valioso para que você 
construa a percepção de que a ordem das palavras-chave nas entrevistas pode influenciar 
nas respostas.
Não-resposta
No final de 2010, um pesquisador do IPEA (Instituto de Pesquisa Econômica 
Aplicada), órgão ligado à Presidência da República, utilizou uma lista de discussão de 
pesquisadores da SBC (Sociedade Brasileira de Computação) para solicitar que os seus 
assinantes preenchessem um questionário com dados referentes às suas áreas de 
atuação e competências, dentre outras informações. No último dia disponível para envio 
do questionário, o pesquisador do IPEA responsável pela pesquisa, emitiu um e-mail 
informando que apenas 60 pesquisadores haviam respondido o questionário, um número 
muito pequeno se considerarmos a quantidade de pesquisadores nas instituições brasileiras.
Hoje em dia, cada vez mais as pessoas se recusam a responder esse tipo de 
questionário quando são abordadas. Alguns entrevistados se recusam porque já perceberam 
que vendedores tentam negociar bens e serviços começando com uma conversa que soa 
como se fosse parte de uma pesquisa de opinião, outras pessoas têm receio de perder a 
privacidade. 
Dados Ausentes ou Faltantes
Os resultados de pesquisas podem ser fortemente afetados por dados não 
fornecidos. Isso acontece porque algumas perguntas podem causar constrangimento e 
as pessoas tendem a não responder esse tipo de pergunta. Em alguns casos, perguntas 
relacionadas com renda salarial, opção religiosa, opção sexual e experiências profissionais 
podem inibir as pessoas a fornecerem esses dados.
Estudos Tendenciosos (Interesse Próprio)
Você já deve ter visto em propagandas ou listas de e-mail sobre os benefícios de um 
determinado produto ou medicamento. Devemos tomar muito cuidado com estudos que 
são financiados por empresas e cujos resultados são “podados” para apresentar apenas as 
14
Estatística Exploratória
virtudes de um determinado produto. Algumas vezes, pode acontecer o contrário. Grupos 
concorrentes podem custear pesquisas de opinião ou mesmo pesquisas científicas para 
denegrir a imagem dos produtos e serviços dos seus concorrentes, apresentando apenas os 
seus efeitos nocivos. 
Outros cuidados devem ser tomados no tratamento estatístico dos dados. Por 
exemplo: 
Estabelecer que duas variáveis são correlacionadas implica que seus valores de 
certa forma são proporcionais (direta ou inversamente), mas pode não haver causalidade 
entre elas, ou seja, uma variável pode não afetar a outra. Ex.: Altura e QI; 
Descartar deliberadamente alguns dados para favorecer apenas os aspectos 
positivos da pesquisa. Ex.: Efeitos colaterais em medicamentos; 
Fornecer dados tecnicamente corretos que conduzem o leitor a conclusões 
enganosas. Ex.: O desmatamento na Amazônia caiu 14% em 2010 na comparação com 2009 
e atingiu a taxa de 6.450 km² desmatados por ano3 . O leitor desavisado pode entender 
que a área que já havia sido desmatada em 2009 foi replantada e no ano de 2010 outros 
6.450 km² foram desmatados, quando na verdade, a floresta amazônica é continuamente 
desmatada, ano após ano, mas em 2010 ela foi menos desmatada. Isso significa que a 
floresta vai demorar um pouco mais a ser completamente extinta.
1.3. Estudos Observacionais e Experimentos 
Aleatórios
Na seção anterior, você aprendeu que antes de iniciar os estudos envolvendo 
experimentos estatísticos, é importante realizar um planejamento dos experimentos. 
Você também pôde observar que devemos procurar escapar de algumas armadilhas que 
podem aparecer quando estamos coletando dados amostrais. Nunca esqueça que, se os 
dados amostrais não forem coletados de maneira apropriada, eles podem não servir para 
estabelecer conclusões coerentes sobre a população estudada.
Vou convidá-lo a observar dois estudos com perfis diferentes. Acho que você será 
capaz de analisá-los e determinar a natureza de cada um deles.
Um laboratório farmacêutico está desenvolvendo uma nova droga para tratamento 
de um tipo de câncer (carcinoma). Foram selecionados 100 pacientes para com diagnóstico 
de carcinoma para receber tratamento com a nova droga. Os pacientes foram acompanhados 
durante seis meses para verificar os estágios da doença durante a administração da nova 
droga. Após esse período, verificou-se que em 75% dos pacientes houve redução no 
tamanho do tumor.
Uma universidade brasileira encomendou um estudo para avaliar o efeito das 
políticas públicas antitabagistas (especialmente as propagandas antitabagistas nos maços 
de cigarro) entre os universitários daquela instituição de ensino. A equipe responsável 
pelo estudo iniciou a pesquisa entre os universitários escolhendo aleatoriamente os 
estudantes e agrupando-os em “fumantes”, “ex-fumantes” e “não fumantes”. Para o grupo 
dos “fumantes” foi perguntado: as propagandas antitabagismo obrigatórias nos maços 
de cigarro influenciam ou não a quantidade de cigarros consumidos? Para o grupo de 
“ex-fumantes” foi perguntado: as propagandas antitabagismo obrigatórias nos maços de 
cigarro influenciaram a sua decisão de parar de fumar? Finalmente, para o grupo de “não-
fumantes” foi perguntado: Você acha que as propagandas antitabagismo obrigatórias dos 
maços de cigarro podem influenciar ou não a decisão de parar de fumar?
Hiperlink
3 http://blog.planalto.
gov.br/desmatamento-
na-amazonia-tem-
queda-historica/
15
Estatística Exploratória
E então? Quais as características que você observou em cada estudo? Muito bem, 
vamos juntos tentar identificar essas características. 
O primeiro estudo é normalmente chamado de experimento estatístico. Você pode 
notar que o interesse do estudo consiste na verificação do efeito da droga nos tumores 
dos pacientes. Os pacientes são também chamados de unidades experimentais. Somente 
após o início do tratamento é que os dados sobre o paciente são coletados. Portanto, há 
uma interferência direta sobre os indivíduos. Falaremos mais sobre as características dos 
experimentos estatísticos ao final desta seção.
O segundo estudo consiste em uma entrevista e é conhecido como estudo 
observacional. Nesse tipo de estudo, observam-se características específicas sem a intenção 
de modificar os sujeitos objetos do estudo. Existem basicamente três tipos de estudos 
observacionais, diferentes entre si pelo período do tempo onde o estudo é realizado.
Estudo retrospectivo
Os dados são coletados do passado através de verificação em 
registros, entrevistas e documentos.
Estudo transversal
Os dados são observados, medidos e coletados em um momento 
no tempo.
Estudo prospectivo
Os dados são coletados no futuroa partir de grupos que 
compartilham fatores comuns.
Tudo bem, eu sei que essas definições parecem muito obscuras sem os respectivos 
exemplos. Então, vamos aos exemplos:
Estudo retrospectivo - Suponha que você está desenvolvendo um estudo para 
mapear os impactos na qualidade do software na segunda metade da década de 90. Esse 
estudo deve analisar os registros das empresas fabricantes de software, comparando 
projetos que empregaram a UML – Unified Modeling Language4 com projetos que 
utilizaram exclusivamente as técnicas estruturadas, como análise essencial e análise 
estruturada, no desenvolvimento de artefatos computacionais. 
Estudo transversal - Suponha que você é o CIO (Chief Information Officer) de uma 
empresa e deseja investigar o desempenho de duas ferramentas de segurança utilizadas 
na empresa. Você deseja obter a resposta para as seguintes questões: qual a prevalência 
de ocorrências de ataques por vírus e spyware no parque de máquinas da empresa e qual 
a relação entre a quantidade de ocorrências desses ataques e as respectivas ferramentas 
de segurança? Para realizar esse estudo, você deverá selecionar duas amostras de 
computadores, cada uma delas com uma das ferramentas de segurança. Em seguida, é 
necessário realizar a quantificação e qualificação dos ataques em cada amostra, em um 
dado período de tempo.
Estudo prospectivo - Suponha que você foi contratado para coordenar uma grande 
equipe de desenvolvimento de projetos de software. Uma das suas tarefas é mensurar o 
desempenho dos times de projeto que utilizam metodologias ágeis de desenvolvimento, 
particularmente SCRUM e programação extrema (XP - eXtreme Programming). Para isso, você 
vai utilizar algumas métricas para avaliação de desempenho e analisar o comportamento da 
equipe ao longo do cronograma. Ao final do projeto, você terá elementos para avaliar se os 
times alcançaram os resultados esperados. 
O fluxograma da figura 2 pode ajudar a identificar os tipos de estudos observacionais 
e também serve para relacionar algumas particularidades que merecem ser consideradas 
no planejamento de experimentos.
Hiperlink
4 http://www.uml.org/
16
Estatística Exploratória
Figura 2 – Tipos de estudos observacionais.
Por falar em planejamento de experimentos, eu acho que você já está preparado 
para fornecer uma boa definição para experimento estatístico. Não? Quer uma ajuda? Então 
vamos lá:
Experimento Estatístico é um procedimento planejado partindo de uma hipótese que visa provocar 
fenômenos em condições controladas, observar e analisar os seus resultados.
Vamos tentar entender melhor essa definição. Um procedimento planejado é 
aquele em que o pesquisador mantém o controle do procedimento através da previsão das 
ações que ocorrem sobre o experimento. Para provocar os tais fenômenos em condições 
controladas, o pesquisador tem a opção de escolher a técnica mais adequada para aplicar 
o “tratamento” nas unidades experimentais. Já o tratamento é qualquer procedimento ou 
conjunto de procedimentos cujo efeito será avaliado e comparado com outras unidades 
experimentais. Não esqueça que além do conjunto de unidades experimentais que recebem 
o tratamento, também há um conjunto de unidades experimentais que não recebem o 
tratamento e que são utilizadas para realizar as comparações. Esse conjunto é chamado de 
grupo de controle.
Quando você se deparar com a necessidade de realizar experimentos estatísticos, 
não se esqueça de considerar três fatores importantes (apresentados na figura 2): controlar 
o efeito das variáveis, realizar replicações do experimento e utilizar a aleatoriedade na 
escolha das amostras. Vamos considerar cada um desses fatores individualmente.
Controlando os Efeitos das Variáveis 
Alguns métodos estão disponíveis para serem aplicados no controle dos efeitos 
das variáveis no experimento. Você vai observar que eles têm vantagens e desvantagens. 
A nossa intenção é que ao final da seção você seja capaz de reconhecer o método mais 
adequado para cada tipo de experimento. Vamos analisar alguns deles:
17
Estatística Exploratória
» Experimento cego - Você já ouviu falar em “efeito placebo”? Esse efeito ocorre 
quando, em um experimento, um grupo de pacientes recebe um tratamento 
(vacinas, comprimidos etc.) sem nenhum efeito farmacológico e outro grupo recebe 
o tratamento que está sendo testado. O efeito placebo ocorre quando um sujeito 
não tratado relata melhora nos sintomas (há estudos que atestam que a melhora 
pode ser real). No experimento cego, os pacientes (unidades experimentais) 
não devem saber se estão recebendo placebo ou o tratamento sob teste. Dessa 
maneira, é possível determinar se o efeito do tratamento é significativamente 
diferente do efeito placebo. O experimento cego também pode ser estendido 
para os técnicos que aplicam o tratamento e realizam as análises. Em resumo, os 
pacientes não sabem se estão recebendo placebo ou tratamento, e os técnicos 
não sabem se estão aplicando placebo ou tratamento. Isso faz com que não haja 
influência sobre os pacientes. Isso mesmo, a expressão facial, tom de voz ou atitude 
podem influenciar os pacientes. Esse tipo de técnica é chamado de experimento 
duplamente cego.
» Blocos - Quando planejamos um experimento, sabemos que existem alguns fatores 
que podem influenciar fortemente os resultados da variável em consideração. Por 
exemplo, se desejamos avaliar a produtividade dos membros de uma equipe de 
desenvolvimento de software ao utilizarmos uma nova suíte de desenvolvimento 
durante um determinado período (uma semana), precisamos levar diversos fatores 
em consideração – experiência em desenvolvimento de software, familiaridade com 
o projeto e com a linguagem de desenvolvimento, problemas hormonais (algumas 
mulheres sentem fortes cólicas durante o ciclo menstrual), ambiente de trabalho, 
etc. Isso quer dizer que a produtividade dos membros da equipe de desenvolvimento 
pode ser afetada tanto pela utilização da nova suíte de desenvolvimento quanto 
por outros fatores. Em outras palavras, um bloco é um grupo de sujeito que são 
semelhantes, mas são diferentes nos modos como podem afetar o resultado 
do experimento. Dessa forma, o ideal é separar os grupos de indivíduos com 
características semelhantes (bloco), e aplicar aleatoriamente o tratamento (no caso 
do exemplo, solicitar que o membro da equipe de desenvolvimento utilize a nova 
suíte) a alguns membros de cada grupo.
» Experimento completamente aleatorizado - Suponha que desejamos, novamente, 
avaliar a produtividade dos membros de uma equipe de desenvolvimento 
de software ao utilizarmos uma nova suíte de desenvolvimento durante um 
determinado período (uma semana). No entanto, queremos que o experimento 
seja completamente aleatorizado. Nesse caso, os membros da equipe que utilizarão 
a nova suíte de desenvolvimento serão sorteados aleatoriamente. Esse sorteio 
é semelhante ao lançamento de uma moeda, por exemplo, para cada membro 
da equipe devemos realizar o lançamento de uma moeda, caso o resultado seja 
“cara”, esse desenvolvedor terá que utilizar a nova ferramenta de desenvolvimento; 
caso seja “coroa”, o desenvolvedor continuará com as mesmas condições de 
trabalho. Tente relacionar os problemas que podem acontecer ao utilizarmos essa 
abordagem.
» Experimento rigorosamente controlado - Num experimento rigorosamente 
controlado, os indivíduos que recebem tratamento são cuidadosamente 
selecionados de tal forma que haja outro indivíduo em condições semelhantes no 
grupo que não recebe o tratamento. Com essa abordagem os efeitos individuais 
afetarão minimamente a avaliação. Por exemplo, em um experimento que avalia o 
desempenho de servidores de aplicações,todos os computadores utilizados devem 
ter as mesmas características, incluindo hardware, sistema operacional e carga de 
background.
18
Estatística Exploratória
Replicação
Além do controle dos efeitos que as variáveis podem exercer sobre os experimentos, 
a replicação dos experimentos é muito importante no planejamento de experimentos para 
verificar e/ou confirmar os efeitos da aplicação dos tratamentos em diferentes cenários. 
Obviamente, as amostras utilizadas na replicação do experimento devem ter sido escolhidas 
através de processos aleatórios e devem ser grandes o suficiente para que os efeitos da 
aplicação do tratamento sejam nitidamente reconhecidos. Contudo, é importante lembrar 
que, embora seja importante termos amostras suficientemente grandes, é mais importante 
que essas amostras sejam compostas por dados escolhidos de modo apropriado.
Estratégias para Seleção de Amostras
Pergunta para o leitor: E o que é afinal uma amostra aleatória? Nós já falamos 
algumas vezes no texto sobre amostra aleatória, você seria capaz de nos fornecer uma 
definição? Vamos tentar juntos e, para isso, vamos fazer uso de uma ilustração. Imagine 
que queremos fazer um experimento com uma moeda não viciada. Desejamos lançá-la ao 
ar e queremos saber qual a probabilidade de dar “cara”. Intuitivamente você dirá que as 
chances são de 50%. Exatamente, você está certíssimo. Vamos ver outro exemplo. Deseja-se 
utilizar um dado não viciado em um experimento. Queremos saber quais são as chances de 
aparecer o número 3 em um único lançamento. Se você disse que é 1/6, seu pensamento 
está correto mais uma vez. Nesse caso, qualquer número (1, 2, 3, 4, 5 e 6) tem as mesmas 
chances de aparecer no sorteio. Dessa forma, em uma amostra aleatória, os membros de 
uma população são selecionados de tal modo que cada indivíduo tenha as mesmas chances 
de ser selecionado. 
Também há o conceito de amostra aleatória simples de tamanho n, selecionada a 
partir de uma população de tamanho N. O processo consiste em selecionar um indivíduo 
sem reposição até que seja alcançado o número pré-determinado n. Um exemplo será útil 
para explicarmos esse processo. 
Exemplo: Você é o gerente de redes em uma grande empresa e deseja analisar as 
tentativas de ataques nos computadores. Ao todo, a empresa tem 300 computadores, cada 
um deles com a sua respectiva numeração, começando com o computador número 001. Por 
questões de custo, você fará as verificações de ataques em 5 amostras de tamanho n=10. 
Para selecionar os computadores das amostras, você pode utilizar uma urna e 300 pedaços 
de papel com as mesmas características, e anotar em cada pedaço de papel os números dos 
computadores, iniciando em 001 até 300. A partir daí, você pode sortear os 10 números 
para cada amostra, repetindo o procedimento 5 vezes. Como o tamanho N da população 
é muito maior do que o tamanho n da amostra, o processo para seleção pode ser sem 
reposição. O método de seleção de indivíduos também pode utilizar tabelas com números 
aleatórios associadas a cada elemento da população .
Além da amostragem aleatória, há outras técnicas de amostragem probabilísticas 
que podem ser utilizadas. Vejamos as mais comuns:
» Amostragem Aleatória Sistemática - Os itens ou indivíduos da população são 
ordenados. Um ponto de partida aleatório é sorteado, e então cada k-ésimo (por 
exemplo, 30º) membro da população é selecionado para a amostra.
» Amostragem Aleatória Estratificada - A população é inicialmente dividida 
em subgrupos (estratos) de tal forma que os membros do mesmo subgrupo 
compartilhem as mesmas características (idade, sexo, altura) e uma subamostra é 
selecionada a partir de cada estrato da população. 
» Amostragem por Conglomerados - A população é inicialmente dividida em 
Atenção
5 Exemplo de gerador 
de números aleatórios 
- www.masoft.com.
br/index. php?page= 
download&id=1185
19
Estatística Exploratória
subgrupos (estratos) e uma amostra de estratos é selecionada (por exemplo, com 
probabilidade proporcional ao tamanho de cada estrato). A seguir, amostras são 
selecionadas dos estratos selecionados previamente.
Mesmo realizando um excelente planejamento, levando em consideração todos 
os cuidados que aprendemos até agora, sempre haverá algum erro nos resultados. Em 
outras palavras, mesmo que a amostra seja representativa da população, ainda haverá uma 
diferença entre o valor da estimativa da amostra e o parâmetro populacional. Essa diferença 
é chamada de erro amostral ou variabilidade amostral. Por outro lado, quando o processo 
de amostragem foi tendencioso ou o processo de seleção da amostra utiliza instrumentos 
não calibrados, os erros provenientes são conhecidos por erros não-amostrais.
20
Estatística Exploratória
Capítulo 2
Metas
Após o estudo deste capítulo, esperamos que você consiga:
» Analisar o comportamento dos dados através da distribuição de frequências;
» Construir gráficos e histogramas.
Assuntos
» Tipos de variáveis;
» Resumo de dados;
» Distribuições de frequências;
» Gráficos.
21
Estatística Exploratória
Capítulo 2 – Resumo de Dados e 
Gráficos
Vamos conversar sobre o assunto?
É um fato inquestionável – a incrível quantidade de informação gerada atualmente 
é muito maior do que a nossa capacidade de consumi-la. Alguns artigos6, 7 comentam que a 
informação que uma pessoa adquire em uma semana nos dias de hoje é equivalente a toda 
informação adquirida ao longo da vida de uma pessoa que vivia no século XVII. 
E por falar em informação, você já ouviu o ditado popular – “quem tem a informação 
tem o poder”? Até pouco tempo, antes da popularização da internet, essa afirmativa era 
totalmente aplicável. Contudo, com a massificação dos mecanismos de busca de conteúdo 
na internet, qualquer pessoa pode localizar praticamente qualquer informação em alguns 
poucos segundos fazendo uma simples pesquisa no Google, se souber como procurar. Por 
isso, esse ditado nos dias atuais deveria ser reescrito – “Quem sabe garimpar a informação 
tem o poder”. O verbo garimpar é usado aqui de forma semelhante ao processo de extração 
de minério valioso entre os cascalhos de terra com minérios sem valor. Em outras palavras, 
a pessoa terá poder se ela souber escolher a informação realmente relevante. E essa 
informação “garimpada”, “limpa”, “pura” é um dos bens mais valiosos das organizações. É 
ela que orienta o processo de tomada de decisão, aumenta a produtividade e reduz custos 
e riscos.
Atualmente, existem muitos estudos com o objetivo de “descobrir” conhecimento 
em grandes bases de dados, como Data Mining, Information Retrieval9 e Machine 
Learning10. Em todas essas técnicas, a estatística tem um papel fundamental no processo de 
tratamento da informação. Neste capítulo, estudaremos alguns recursos da estatística para 
facilitar a análise de um conjunto de dados. 
2.1. Distribuição de Frequências
Vamos iniciar os nossos estudos sobre tratamento de dados considerando a Tabela 
1, extraída do sítio do Denatran, que apresenta o número de óbitos por acidente de trânsito 
nas capitais brasileiras entre os anos de 2000 e 2007. O tema da tabela foi propositalmente 
escolhido para servir de reflexão para todos nós. É importante salientar que a tabela 
contabiliza apenas os óbitos no local do acidente. Isto quer dizer que os números são ainda 
maiores.
Quando se deseja estudar o comportamento de um conjunto de dados (variáveis), 
o nosso maior interesse é conhecer como essas variáveis se comportam, e para alcançarmos 
esse objetivo, precisamos analisar as ocorrências das suas possíveis realizações. 
Algumas características dessas realizações são muito úteis para que você compreenda o 
comportamento dosdados:
» Medidas de centro - é um valor que representa o meio do conjunto de dados. Ex.: 
Em 2005, aconteceram em média 280 óbitos por acidente de trânsito nas capitais 
Hiperlink
6 http://www.mettodo.
com.br/pdf/O%20
Excesso%20de%20
Informacao.pdf
Hiperlink
7 http://www.
thenewatlantis.com/
publications/the-myth-
of-multitasking
Hiperlink
8 http://www.
intelliwise.com/
reports/i2002.htm
Hiperlink
9 http://pt.wikipedia.
org/wiki/Recuperação_
de_informação
Hiperlink
10 http://ai.stanford.
edu/~nilsson/mlbook.
html
22
Estatística Exploratória
brasileiras. 
» Medidas de variação - indica o quanto os valores dos dados variam entre eles. Ex.: 
Em oito anos do estudo, os dados apresentados na Tabela 1 mostram que o número 
de óbitos por acidente de trânsito na cidade de Curitiba, variou entre 358 e 432 
óbitos.
» Valores discrepantes ou outliers - Valores amostrais que se localizam longe da 
grande maioria dos outros valores amostrais. Geralmente ocorrem por erros na 
alimentação dos dados, porém, em alguns casos, podem indicar algum fenômeno 
específico. Ex.: Na cidade de Belém, ocorreram 139 óbitos em 2004, enquanto a 
média ficou em 162 óbitos. Em 2006, a cidade de Curitiba apresentou 721 óbitos, 
enquanto a média estava próxima de 400.
» Distribuição dos dados - Representa a forma da distribuição dos dados. 
Características como a simetria e o volume nas extremidades da distribuição são 
importantes na análise dos dados. Vamos utilizar a distribuição de frequências 
como ferramenta para entender a distribuição dos dados.
Tabela 1. Mortes por acidentes de trânsito nas capitais
Número total de óbitos por acidentes de trânsito nas capitais - 2000 - 2007
Cidade 2000 2001 2002 2003 2004 2005 2006 2007
Aracaju 92 99 86 91 104 93 95 97
Belém 163 164 152 187 139 167 173 149
Belo 
Horizonte
381 417 382 393 410 400 491 451
Boa Vista 77 92 103 53 42 74 72 107
Brasília 520 488 519 587 505 527 471 555
Campo 
Grande
137 175 203 194 212 236 203 224
Cuiabá 125 94 153 125 129 127 137 142
Curitiba 425 372 358 371 425 432 721 427
Florianópolis 95 77 78 82 93 94 107 80
Fortaleza 329 384 485 465 444 519 405 383
Goiânia 346 309 339 400 381 341 315 330
João Pessoa 109 125 147 132 107 131 109 107
Macapá 79 86 98 84 91 76 91 79
Maceió 159 202 175 139 163 192 156 152
Manaus 253 219 235 247 261 278 328 281
Natal 62 66 82 59 85 72 62 65
Palmas 57 45 57 59 50 53 59 79
Porto Alegre 214 174 241 215 219 221 192 156
Porto Velho 122 89 117 99 113 91 104 109
Recife 245 218 243 213 227 230 207 234
Rio Branco 70 71 72 64 58 61 55 72
Rio de 
Janeiro
910 962 1020 924 974 930 1000 709
Salvador 103 126 114 126 103 292 290 294
São Luís 90 109 140 124 131 140 137 139
São Paulo 846 1604 1002 1465 1432 1544 1614 1651
Teresina 151 160 196 172 157 174 187 175
Vitória 64 56 56 62 59 60 51 51
23
Estatística Exploratória
A Tabela 2 apresenta a distribuição de frequência da variável número de óbitos nas 
capitais brasileiras no ano de 2005.
Tabela 2. Distribuição de frequências – nº de óbitos nas capitais em 2005
Nº óbitos nas capitais Frequência Proporção Porcentagem
0 – 200 15 =15/27=0,55 55%
201 – 400 7 =7/27=0,28 28%
401 – 600 3 =3/27=0,11 11%
601 – 800 0 =0 0%
801 – 1000 1 =1/27=0,037 3,7%
1001 – 1200 0 =0 0%
1201 – 1400 0 =0 0%
1401 – 1600 1 =1/27=0,037 3,7%
Total 27 1,0 100%
Observando os resultados da segunda coluna, você pode perceber que em 15 
capitais aconteceram até 200 óbitos em 2005, em 3 capitais ocorreram entre 401 e 600 
óbitos, em uma capital ocorreram entre 1401 e 1600 óbitos por acidentes de trânsito em 
2005 e assim por diante. Tente continuar com essa análise para cada classe da Tabela 2.
Outra medida bastante útil na interpretação de tabelas de frequência é a proporção 
de cada realização em relação ao total de ocorrências. Por exemplo, aconteceram na cidade 
de São Paulo 1544 óbitos, um valor muito acima da média das cidades. Contudo, em termos 
proporcionais, podemos observar que isso representa 3,7% do total de óbitos nas capitais 
do país naquele ano. 
As proporções também são úteis para comparar resultados de pesquisas com 
valores de frequências muito diferentes entre si. Por exemplo, segundo o Instituto de 
Pesquisa e Cultura Luiz Flávio Gomes11, no ano de 1996, o número de mortes no trânsito 
no Brasil foi de 35.281, e em 2008 foram 36.666 vítimas fatais. Em números absolutos o 
aumento foi de 1385 mortes, ou 3,92%. Porém, considerando o número de habitantes no 
Brasil em 1996 (156 milhões) e em 2008 (183 milhões), em termos proporcionais (óbitos/
habitante) houve uma sensível redução do número de mortes por habitantes (veja Tabela 
3). O mérito dessa redução é dado à promulgação do Código de Trânsito Brasileiro em 1998 
e à famosa “lei seca” de 2008. Infelizmente, a eficiência dessas leis foi reduzida assim que a 
fiscalização diminuiu e os números voltaram aos patamares de 37 mil mortes por ano.
Tabela 3. Variação percentual do número de óbitos por habitantes ocorridos no Brasil entre os anos 
de 1996 e 2008.
Ano Nº de óbitos População Proporção de óbtos por habitante
1996 35.281 156 milhões 1 óbito para 4422 hab
2008 36.666 183 milhões 1 óbito para 4990 hab
Esse grande número de mortes no trânsito coloca o Brasil em 5º lugar no ranking 
mundial de acordo com as estatísticas da OMS – Organização Mundial de Saúde12. Os dados 
Hiperlink
11 http://www.
ipcluizflaviogomes.
com.br
Hiperlink
12 OMS: http://www.
who.int/en/
24
Estatística Exploratória
são de 2007 e os primeiros colocados são a Índia com 105,7 mil mortes por ano, a China 
96,6 mil, os EUA 42,6 mil, a Rússia 35,9 e o Brasil com 35,1 mil mortes.
2.2. Regras Gerais para elaborar uma 
Distribuição de Frequência
Antes de começarmos a estudar as diferentes possibilidades de representação 
gráfica dos dados, vamos voltar à Tabela 2 para entender como ela foi construída. Os passos 
a seguir facilitarão o entendimento:
Definição do número de classes – a escolha do número de classes é arbitrária e 
depende muito da familiaridade do pesquisador com os dados. Contudo, lembre-se de que 
com um número pequeno de classes, perde-se informação, e com um número grande de 
classes, o objetivo de resumir dados fica prejudicado. O mais comum é que o número de 
classes deva estar entre 5 e 20. No caso da Tabela 2, os dados foram agrupados em 8 classes.
» O cálculo da amplitude da classe pode ser feito através da fórmula abaixo:
 Amplitude da classe = 
Arredonde o valor para obter um número mais conveniente. Para o caso da Tabela 
2, por simplicidade, escolhemos 8 classes com amplitude igual a 200. Outra boa sugestão 
seria definirmos 10 classes, com amplitude 160, começando a partir de 40 até 1640. 
» Cálculo dos limites da classe – adicione a amplitude da classe ao limite inferior 
da primeira classe para obter o limite inferior da segunda classe. Siga este 
procedimento até a última classe.
» Preenchimento da tabela – percorra o conjunto de dados incrementando o valor da 
classe apropriada para cada valor de dado.
» Ponto médio de uma classe – é o ponto médio do intervalo da classe e é obtido 
somando-se o limite inferior ao superior e dividindo-se a soma por 2. Dessa forma, 
o ponto médio da primeira classe (0-200) da Tabela 2 é 100; da segunda classe 
(200-400) é 300, e assim por diante. 
2.3. Histograma e Polígonos de Frequência
O agrupamento dos dados em tabelas de frequência e frequência relativa (Tabela 2) 
é uma maneira bastante eficiente para analisar um conjunto de dados. Esses agrupamentos 
também podem ser representados graficamente através dos histogramas e polígonos de 
frequência.
Um histograma ou histograma de frequênciaconsiste em um conjunto de retângulos 
que representam as classes cujas bases são iguais às suas amplitudes e são centradas no 
ponto médio de cada classe. As áreas de cada retângulo são proporcionais às frequências 
das classes e o número de classes deve variar entre 5 e 20 classes. 
Um polígono de frequência é um gráfico de linha passando pelos pontos médios 
dos topos dos retângulos de um histograma. Para uma visualização mais ampla do polígono 
de frequências, costuma-se prolongar a linha até o eixo das abscissas, considerando classes 
com frequência zero. A Figura 3 apresenta um histograma e um gráfico de polígonos de 
frequências referentes aos dados da Tabela 2. 
25
Estatística Exploratória
Figura 3 – Histogramas gerados a partir dos dados da Tabela 2.
O formato da curva do gráfico de polígonos de frequência dá uma boa ideia da 
distribuição dos dados em termos de assimetria. Veja outras formas de curvas de frequência 
na Figura 5.
As frequências relativas calculadas na Tabela 2 também podem ser utilizadas para a 
construção do histograma. Na verdade, os gráficos são exatamente os mesmos, basta para 
isso modificar os valores absolutos pelos valores relativos no eixo das ordenadas.
26
Estatística Exploratória
2.4. Distribuições de Frequência Acumulada
A soma das frequências totais de todos os valores inferiores ao limite superior de 
uma dada classe é denominada frequência acumulada até e inclusive aquele intervalo de 
classe. 
Tudo bem, eu também concordo. Essa definição está um pouco complicada. Vamos 
tentar entendê-la através de um exemplo. Observe na Tabela 2 que a frequência acumulada 
até, e inclusive, o intervalo de classe 801-1000 da Tabela 2 é 15 + 7 + 3 + 0 + 1 = 26, o 
que significa que das 27 capitais estudadas, em 26 delas ocorreram até 1000 fatalidades no 
trânsito. Ficou um pouco mais claro? 
A Tabela 4 apresenta as frequências acumuladas por classe e, por isso, é chamada 
de tabela de frequência acumulada. 
Tabela 4. Tabela de frequência acumulada
Nº óbitos nas capitais Frequência acumulada Frequência relativa acumulada
Abaixo de 200 15 0,55
Abaixo de 400 22 0,83
Abaixo de 600 25 0,94
Abaixo de 800 25 0,94
Abaixo de 1000 26 0,975
Abaixo de 1200 26 0,975
Abaixo de 1400 26 0,975
Abaixo de 1600 27 1,0
Da mesma forma, o gráfico da Figura 5 apresenta a frequência acumulada abaixo de 
qualquer limite superior de classe, plotada em relação a esse limite. Esse tipo de gráfico é 
chamado de polígono de frequência acumulada ou ogiva.
27
Estatística Exploratória
Figura 4 – Gráfico de frequência acumulada e frequência relativa acumulada.
A terceira coluna da Tabela 4 também apresenta a frequência relativa acumulada 
ou frequência percentual acumulada. Esse cálculo é realizado dividindo-se a frequência 
acumulada pela frequência total. 
Uma característica importante a ser observada nos gráficos da Figura 3 é que a 
amplitude escolhida para as classes foi razoavelmente grande. Contudo, em muitos casos é 
possível escolhermos intervalos de classe relativamente pequenos e, além disso, obtermos 
amostras da população suficientemente grandes de tal forma que o “serrilhado” do polígono 
28
Estatística Exploratória
de frequência fique muito semelhante a uma linha contínua.
Como já foi comentado, essas curvas de frequência são muito úteis para a 
compreensão do comportamento dos dados. A Figura 5 apresenta os tipos de curvas de 
frequência mais comuns. Os três primeiros gráficos representam curvas com assimetria à 
esquerda, curvas simétricas e curvas assimétricas à direita, respectivamente. 
29
Estatística Exploratória
30
Estatística Exploratória
Figura 5 – Tipos de curvas de frequência.
Os outros gráficos da figura 5 representam curvas semelhantes a um “J”, curvas 
semelhantes a um “J” invertido e uma curva com distribuição dos dados uniforme. 
De todas as curvas de distribuições apresentadas, sem dúvida alguma, a distribuição 
chamada de normal é a mais importante. Suas características marcantes são o formato 
de “sino” e a simetria em torno do valor com maior frequência. Em outras palavras, as 
frequências começam baixas, crescem até uma frequência máxima e depois decrescem para 
uma frequência baixa. Identifique a distribuição normal entre os gráficos da Figura 5.
31
Estatística Exploratória
Exemplo prático: Faça uma pesquisa entre os alunos (homens e mulheres separadamente) da 
sua turma, perguntando qual é a altura de cada um deles. Anote todos os valores, construa uma 
tabela com a distribuição das frequências e faça um histograma. Construa também um gráfico de 
polígono de frequências e observe se há alguma semelhança com a forma de um sino. Repita o 
mesmo procedimento para outras variáveis, como peso, notas dos alunos da disciplina banco de 
dados etc.
2.5. Gráficos Estatísticos
Nesta seção vamos estudar um pouco mais sobre os gráficos, você já foi apresentado 
a alguns deles? Lembra dos histogramas? Aquele gráfico de barras, comumente utilizado 
na análise estatística para entendermos o comportamento das frequências de ocorrência 
de um determinado fenômeno ou grandeza. E dos polígonos de frequência, você também 
lembra? Aquela ligação dos pontos médios dos topos das classes. A partir de agora, vamos 
aprender a construir outros tipos de gráficos e entender como as variáveis podem ser 
exploradas através deles.
Os gráficos são encontrados em todos os lugares, jornais, telejornais, livros, 
revistas, sítios diversos etc. Sua utilização traz vantagens como a capacidade de síntese 
de informações e a possibilidade de revelar características importantes das variáveis em 
estudo. Nessa seção vamos aprender a construir vários tipos de gráficos, dentre eles, o 
gráfico de pontos, o diagrama de ramo e folhas, o gráfico de Pareto, o gráfico de setores 
(pizza), o gráfico de barras, o diagrama de dispersão e o gráfico de séries temporais. 
Existe atualmente um conjunto amplo de ferramentas computacionais para a 
análise estatística e construção de gráficos, muitas delas são pagas e bastante caras (ex.: 
Minitab, Spss, Excel etc.). No entanto, o meio acadêmico e muitas empresas estão migrando 
para ferramentas baseadas nas licenças de software livre. Quando esse tipo de software, 
além de gratuito, é estável e robusto, a decisão é quase unânime. É o caso do software 
utilizado em todo o contexto do livro – o R. Isso mesmo, o nome do aplicativo é apenas R e 
pode ser encontrado para download para sistemas Windows, Linux e Mac em http://cran.r-
project.org/. Além disso, o código fonte do R está disponível para modificações, permitindo 
ainda a criação e integração de pacotes estatísticos desenvolvidos por qualquer usuário. Os 
gráficos gerados também são gerados com o R. 
2.5.1. Gráfico de Pontos
O gráfico de pontos é um gráfico no qual cada valor é plotado como um ponto ao 
longo de uma escala de valores. Os pontos que representam valores iguais são empilhados. 
O gráfico de pontos da Figura 6 representa a distribuição das idades das deputadas federais 
eleitas para o mandato que começa a partir de 2011. Os dados foram extraídos do sítio da 
câmara dos deputados13. Esse tipo de gráfico é bastante útil, pois identifica a frequência a 
partir da contagem dos pontos. Por exemplo, na composição da câmara dos deputados com 
mandato no período entre 2011 - 2014, há 4 deputadas com 29 anos em 1º de janeiro de 
2011.
Hiperlink
13 http://www2.
camara.gov.br/
deputados/pesquisa/
arquivos/arquivo-
formato-excel-com-
informacoes-dos-
deputados-1
32
Estatística Exploratória
Figura 6 – Gráfico de pontos referente às idades das deputadas federais eleitas em 2010 . 
2.5.2. Diagrama de Ramo e Folhas
O diagrama de ramoe folhas é muito útil para obter uma apresentação visual 
informativa de um conjunto de dados. Neste tipo de gráfico, cada informação deve ter 
no mínimo dois dígitos. Para construir esse diagrama, dividimos cada número em duas 
partes; um ramo, consistindo em um ou mais dígitos iniciais, e uma folha, consistindo nos 
dígitos restantes. A figura 7 ilustra um gráfico de ramo e folhas para as mesmas idades das 
deputadas federais eleitas para o mandato que inicia a partir de 2011. As idades estão em 
ordem crescente e são 29, 29, 29, 29, 34, 36, 36, ...., 76. É fácil observar como o primeiro 
valor de 29 se separa em seu ramo, 2, e sua folha, 9. As folhas são sempre arranjadas em 
ordem crescente e não na ordem em que aparecem nas tabelas de dados.
2 9999
3 4
3 667777789
4 44
4 6899999
5 114444
5 777
6 1111
6 666666
7
7 66
Figura 6 – Diagrama de ramo e folhas para as idades das deputadas eleitas em 2010. 
Virando-se a página de lado, 90º graus no sentido anti-horário, podemos ver a 
distribuição desses dados e ainda reconstruir todas as informações da tabela que originou 
o diagrama. Esse diagrama também é útil para a ordenação dos dados e para encontrar 
algumas de suas características como os quartis, percentis e mediana. Esses conceitos 
estatísticos serão abordados mais à frente.
Certamente você deve ter percebido a semelhança entre o diagrama de ramo e 
folhas e as barras de um histograma. Quando você aprendeu como construir histogramas, 
viu que uma das orientações para a construção de um histograma é que o número de 
classes deve ficar entre 5 e 20. Pode-se aplicar a mesma orientação para a construção de um 
diagrama de ramo e folhas. Além disso, um diagrama de ramo e folhas pode ser expandido 
ou condensado, podendo ter mais ou menos folhas.
33
Estatística Exploratória
2.5.3. Gráfico de Pareto
Para aprendermos a construir o gráfico de Pareto, vamos utilizar a Tabela 5. Essa 
tabela de dados apresenta o cenário partidário na câmara dos deputados a partir da eleição 
de 2010. Cada linha da tabela apresenta a frequência e a frequência relativa por partido.
Tabela 5. Deputados federais eleitos em 2010 agrupados por partido.
Partido Frequência Frequência relativa
DEM 57 0,11
PcdoB 12 0,02
PDT 23 0,04
PMDB 90 0,18
PMN 3 0,01
PP 38 0,07
PPS 14 0,03
PR 45 0,09
PRB 8 0,02
PSB 26 0,05
PSC 17 0,03
PSDB 56 0,11
PT 81 0,16
PSOL 3 0,01
PTB 22 0,04
PTC 2 0,00
Ptdo B 1 0,00
PV 14 0,03
TOTAL 512 1,00
Os dados foram extraídos do sítio da câmara dos deputados - http://www2.camara.
gov.br/deputados/pesquisa.
Um gráfico de Pareto é um gráfico de barras para dados qualitativos, com as 
barras dispostas em ordem pela frequência. As escalas verticais nos gráficos de Pareto 
podem representar frequências ou frequências relativas. A barra mais alta fica à esquerda 
e as barras menores se afastam para a direita. O gráfico de Pareto é útil para destacar as 
categorias mais importantes. A Figura 7 ilustra a composição da câmara dos deputados a 
partir da eleição de 2010. Pode-se perceber claramente que os cinco partidos com maior 
representação na câmara dos deputados são aqueles que ocupam posições mais à esquerda 
no gráfico de pareto, e são PMDB, PT, DEM, PSDB e PR, respectivamente. Propositalmente 
os valores da escala vertical da Figura 7 foram omitidos. Experimente inserir esses valores a 
partir das frequências e usando as frequências relativas apresentadas na Tabela 5. 
34
Estatística Exploratória
Figura 7 – Gráfico de Pareto apresentando a composição da câmara dos deputados a partir da eleição 
de 2010 agrupados por partido.
2.5.4. Diagrama de Barras
O gráfico de barras é muito semelhante ao gráfico de Pareto, exceto por não ser 
necessária seguir nenhuma ordem na distribuição dos retângulos do gráfico. Podem-se 
utilizar os valores para cada classe diretamente sobre os retângulos que representam as 
classes. A Figura 8 apresenta os dados da Tabela 5 através de um gráfico de barras.
Figura 7 – Gráfico de barras com a composição da câmara dos deputados por partido. 
2.5.5. Gráfico de Setores - Pizza
O gráfico de setores ou pizza também é usado para apresentar dados qualitativos. 
No exemplo da Figura 9, foram utilizados os mesmos dados da Tabela 5 para elaborar um 
gráfico de setores. Observe que a construção de um gráfico de setores envolve a divisão de 
um círculo nas proporções das frequências das variáveis. Cada ocorrência assemelha-se a 
35
Estatística Exploratória
uma fatia de pizza, daí o nome dado a esse tipo de gráfico.
Figura 9 – Gráfico de Setores descrevendo o número de deputados agrupados por partido – 
eleições/2010. 
2.5.6. Gráfico de Dispersão
O diagrama de dispersão de dados emparelhados é um gráfico onde os pontos no 
espaço cartesiano XY são usados para representar simultaneamente os valores de duas 
variáveis quantitativas medidas em cada elemento do conjunto de dados. O diagrama de 
dispersão é usado principalmente para visualizar a relação/associação entre duas variáveis.
Para aprendermos a construir e analisar o gráfico de dispersão utilizaremos um 
conjunto de dados relativos ao gêiser Old Faithful14, que está localizado no Parque Nacional 
de Yellowstone, em Wyoming, nos Estados Unidos. Esse gêiser não é o mais alto desse 
parque, mas certamente suas erupções são as mais previsíveis. As erupções podem fazer 
jorrar entre 14.000 e 32.000 litros de água fervendo a uma altura entre 30 e 55 metros, com 
duração entre 1,5 a 5 minutos. A altura média das suas erupções é de 44 metros. A Tabela 
6 apresenta um conjunto com 240 medidas relacionando o tempo de duração da erupção 
com o respectivo período de espera para a próxima erupção, ambos medidos em minutos.
Hiperlink
14 http://www.iis.
uni-stuttgart.de/
lehre/ws09-10/
StatisticalDataMining/
oldfaith.tab
36
Estatística Exploratória
Tabela 6. Duração das erupções e período de espera (em mintutos) do gêiser Old Faithful.
1 3,6 79 41 4,35 80 81 4,13 75 121 2,61 53 161 2,2 45 201 2,1 60
2 1,8 54 42 1,88 58 82 4,33 82 122 4,06 69 162 4,15 86 202 4,35 82
3 3,33 74 43 4,56 84 83 4,1 70 123 4,25 77 163 2 58 203 4,13 91
4 2,28 62 44 1,75 58 84 2,63 65 124 1,96 56 164 3,83 78 204 1,86 53
5 4,53 85 45 4,53 73 85 4,06 73 125 4,6 88 165 3,5 66 205 4,6 78
6 2,88 55 46 3,31 83 86 4,93 88 126 3,76 81 166 4,58 76 206 1,78 46
7 4,7 88 47 3,83 64 87 3,95 76 127 1,91 45 167 2,36 63 207 4,36 77
8 3,6 85 48 2,1 53 88 4,51 80 128 4,5 82 168 5 88 208 3,85 84
9 1,95 51 49 4,63 82 89 2,16 48 129 2,26 55 169 1,93 52 209 1,93 49
10 4,35 85 50 2 59 90 4 86 130 4,65 90 170 4,61 93 210 4,5 83
11 1,83 54 51 4,8 75 91 2,2 60 131 1,86 45 171 1,91 49 211 2,38 71
12 3,91 4,71 52 4,71 90 92 4,33 90 132 4,16 83 172 2,08 57 212 4,7 80
13 4,2 78 53 1,83 54 93 1,86 50 133 2,8 56 173 4,58 77 213 1,86 49
14 1,75 47 54 4,83 80 94 4,81 78 134 4,33 89 174 3,33 68 214 3,83 75
15 4,7 83 55 1,73 54 95 1,83 63 135 1,83 46 175 4,16 81 215 3,41 64
16 2,16 52 56 4,88 83 96 4,3 72 136 4,38 82 176 4,33 81 216 4,23 76
17 1,75 62 57 3,71 71 97 4,66 84 137 1,88 51 177 4,5 73 217 2,4 53
18 4,8 84 58 1,66 64 98 3,75 75 138 4,93 86 178 2,41 50 218 4,8 94
19 1,6 52 59 4,56 77 99 1,86 51 139 2,03 53 179 4 85 219 2 55
20 4,25 79 60 4,31 81 100 4,9 82 140 3,73 79 180 4,16 74 220 4,15 76
21 1,8 51 61 2,23 59 101 2,48 62 141 4,23 81 181 1,88 55 221 1,867 50
22 1,75 47 62 4,5 84 102 4,36 88 142 2,23 60 182 4,583 77 222 4,267 82
23 3,45 78 63 1,75 48 103 2,1 49 143 4,53 82 183 4,25 83 223 1,75 54
24 3,06 69 64 4,8 82 104 4,5 83 144 4,81 77 184 3,767 83 224 4,483 75
25 4,53 74 65 1,81 60 105 4,05 81 145 4,33 76 185 2,033 51 225 4 78
26 3,6 83 66 4,4 92 106 1,86 47 146 1,98 59 186 4,433 78 226 4,11779
27 1,96 55 67 4,16 78 107 4,7 84 147 4,63 80 187 4,083 84 227 4,083 78
28 4,08 76 68 4,7 78 108 1,78 52 148 2,01 49 188 1,833 46 228 4,067 78
29 3,85 78 69 2,06 65 109 4,85 86 149 5,1 96 189 4,417 83 229 3,267 70
30 4,43 79 70 4,7 73 110 3,68 81 150 1,8 53 190 2,183 55 230 3,917 79
31 4,3 73 71 4,03 82 111 4,73 75 151 5,03 77 191 4,8 81 231 4,55 70
32 4,46 77 72 1,96 56 112 2,3 59 152 4 77 192 1,833 57 232 2,417 54
33 3,36 66 73 4,5 79 113 4,9 89 153 2,4 65 193 4,8 76 233 4,183 86
34 4,03 80 74 4 71 114 4,41 79 154 4,6 81 194 4,1 84 234 2,217 50
35 3,83 74 75 1,98 62 115 1,7 59 155 3,56 71 195 3,966 77 235 4,45 90
36 2,01 52 76 5,06 76 116 4,63 81 156 4 70 196 4,233 81 236 1,883 54
37 1,86 48 77 2,01 60 117 2,31 50 157 4,5 81 197 3,5 87 237 1,85 54
38 4,83 80 78 4,56 78 118 4,6 85 158 4,08 93 198 4,366 77 238 4,283 77
39 1,83 59 79 3,88 76 119 1,81 59 159 1,8 53 199 2,25 51 239 3,95 79
40 4,78 90 80 3,6 83 120 4,41 87 160 3,96 89 200 4,667 78 240 2,333 64
A Figura 10 apresenta um diagrama de dispersão relativo às observações das 
erupções do gêiser Old Faithful. Note que existe uma correlação entre medida de tempo de 
erupção do gêiser com o tempo de espera para a próxima erupção. Enfatizamos com uma 
linha a orientação dessa correlação.
37
Estatística Exploratória
Figura 10 – Diagrama de dispersão das erupções e tempos de espera de erupções relacionadas com o 
gêiser Old Faithful. 
2.5.7. Gráfico de Séries Temporais
Um gráfico de série temporal representa a evolução de uma medida ou grandeza 
através do tempo. Em outras palavras, é possível visualizar as tendências da variável 
estudada. Esse tipo de gráfico é muito utilizado nas bolsas de valores para mostrar as 
tendências dos ativos das companhias.
Para construirmos esse tipo de gráfico, é necessário coletar as medidas em pontos 
diferentes no tempo. O gráfico da Figura 11 apresenta a evolução do Índice Bovespa 
(Ibovespa) desde 1994 até o final do ano passado. Observe a forte “depressão” da curva 
entre os meses de abril e dezembro do ano de 2008. Foi a época da crise financeira mundial 
causada, segundo os economistas, pelos títulos subprime do mercado imobiliário americano. 
Outra informação muito importante que pode ser retirada desse gráfico diz respeito ao 
ganho de capitais ao longo do tempo. Por exemplo, imagine que você é um investidor que 
volta no tempo, para o ano de 1994, para investir R$ 10.000,00 em uma carteira de ações 
vinculadas ao Ibovespa. Sabendo que quando os pontos do Ibovespa dobram de valor, o seu 
investimento também dobra, ao final de 1996, você dobrou o seu investimento e agora tem 
R$ 20.000,00. Por volta de agosto de 2003, você dobrou novamente o seu dinheiro e agora 
tem R$ 40.000,00. Continuando nesse pensamento, nos meses que antecederam a crise 
de 2008, os R$ 10.000,00 iniciais transformaram-se em módicos R$ 1.280.000.00. E aí, está 
bom para você começar a pensar em investir? 
38
Estatística Exploratória
Figura 11 – Diagrama de série temporal apresentando o índice Ibovespa a partir de 1994. 
Mas cuidado, o lucro do passado não significa lucro no futuro. Apenas a poupança 
tem correção garantida pelo governo – 0,5% ao mês mais a variação da TR(taxa referencial).
Você pode estudar mais sobre a crise econômica e os seus efeitos no mercado 
brasileiro de ações visitando o sítio da Bovespa - http://www.bmfbovespa.com.br.
39
Estatística Exploratória
Capítulo 3 – Medidas Resumo
Vamos conversar sobre o assunto?
No Capítulo 2, aprendemos como construir gráficos e a partir deles, extrair as 
informações e características importantes de um conjunto de dados. Este capítulo também 
é importante porque aprenderemos a explorar e quantificar algumas dessas características 
dos dados, como medidas de posição e dispersão. 
A utilização de gráficos e tabelas de frequências para resumir conjuntos de dados 
é uma maneira eficiente para extrair informações sobre o comportamento de uma variável, 
muito mais até do que a própria tabela original. Porém, em alguns casos é necessário 
resumir ainda mais estes dados através de valores ou medidas que sejam representativas 
de todo o conjunto de dados. Essas medidas são extraídas a partir do próprio conjunto de 
dados e podem ser classificadas em:
» Medidas de posição → média, mediana, moda e outras medidas de tendência 
central;
» Medidas de dispersão → amplitude, desvio padrão e variância;
» Medidas de posição relativa → escores z, quartis e percentis;
» Medidas relacionadas à forma → medidas de assimetria e curtose.
Encontrar os valores dessas medidas envolverá um conjunto de fórmulas e cálculos 
e a manipulação direta dos dados. Porém, é essencial que você tenha em mente que o mais 
importante nesta disciplina é o entendimento dos conceitos, sua interpretação e aplicação, 
mas que obviamente você deverá realizar/acompanhar algum cálculo para que esses 
conceitos sejam alcançados e fixados na sua memória. 
Atualmente existem muitas ferramentas computacionais para cálculo estatístico e 
isso permite que a nossa atenção seja dedicada muito mais aos conceitos do que às contas.
Os métodos do Capítulo 2 e deste capítulo são, em geral, chamados de métodos de 
estatística descritiva, porque o objetivo é descrever as características importantes de um 
conjunto de dados.
3.1. Medidas de Posição
Antes de começarmos a trabalhar com as definições e fórmulas para cálculo das 
medidas de posição, vamos aprender um pouco sobre a notação matemática que será 
utilizada daqui para a frente.
Se você encontrar o símbolo X
j
 (leia-se “X índice j”) deve entender que ele 
representa qualquer um dos N valores, X
1
, X
2
, X
3
, X
4
,...X
N
, assumidos pela variável X. A letra j, 
em X
j
, que pode representar qualquer dos números 1, 2, 3, ..., N, é denominada índice. 
Notação de somatório → o Símbolo é usado para representar a soma de 
40
Estatística Exploratória
todos os X
j
 desde j = 1 até j = N , isto é, por definição 
 = X
1
 + X
2
 + X
3
 + ... + X
N
Quando não há possibilidade de confusão indica-se, frequentemente, o somatório, 
de modo mais simples, por , ou O símbolo , é a letra grega Sigma. 
Exemplo 1: Y
j
 = X
1
 Y
1
 + X
2
 Y
2
 + X
3
 Y
3
 + ... + X
N
 X
N
Exemplo 2: aX
j
 = aX
1
 + aX
2
 + aX
3
 + ... + aX
N
 = (X
1
 + X
2
 + X
3
 + ... + X
N
) = a 
a é uma constante.
Notação de produtório → o Símbolo é usado para representar o produto de 
todos os X
j
 desde j = 1 até j= N, isto é, por definição 
 = X
1
 × X
2
 × X
3
 × ... × X
N
Quando não há possibilidade de confusão indica-se, frequentemente, o somatório, 
de modo mais simples, por X, X
j
 ou O símbolo , é a letra grega Pi. 
3.1.1. Moda
A moda é definida como a realização mais frequente do conjunto de valores 
observados. Como exemplo, suponha que você entrevistou 25 professores do seu curso, 
casados, com relação ao número de filhos que eles têm. A pesquisa verificou que, ao todo, 
os casais têm 47 filhos. O resultado da pesquisa com a distribuição dos filhos entre os casais 
está resumido nas Tabelas 7 e 8.
Tabela 7. Dados dos professores da UAB-UFRPE segundo o número de filhos.
Casal Nº de filhos Casal Nº de filhos Casal Nº de filhos
1 2 10 3 19 1
2 4 11 2 20 4
3 0 12 1 21 0
4 1 13 5 22 2
5 3 14 1 23 3
6 2 15 0 24 2
7 1 16 2 25 1
8 0 17 3
9 3 18 1
Qual é a realização da variável “número de filhos” com maior frequência? Isso 
mesmo, a pesquisa mostrou que sete professores têm apenas um filho e essa é a moda da 
variável “número de filhos”.
41
Estatística Exploratória
moda(“nº de filhos”) = 1
Tabela 8. Frequência e porcentagens

Outros materiais