Estatistica Exploratoria - Volume 1 v11

•

UFRPE

Bruno Pinheiro

19/01/2015

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Exploratória

32 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Recife, 2010
Estatística Exploratória
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO (UFRPE)
COORDENAÇÃO GERAL DE EDUCAÇÃO A DISTÂNCIA (EAD/UFRPE)
Marco Domingues
Jeísa Domingues
Volume 1
Universidade Federal Rural de Pernambuco
Reitor: Prof. Valmar Corrêa de Andrade
Vice-Reitor: Prof. Reginaldo Barros
Pró-Reitor de Administração: Prof. Francisco Fernando Ramos Carvalho
Pró-Reitor de Extensão: Prof. Paulo Donizeti Siepierski
Pró-Reitor de Pesquisa e Pós-Graduação: Prof. Fernando José Freire
Pró-Reitor de Planejamento: Prof. Rinaldo Luiz Caraciolo Ferreira
Pró-Reitora de Ensino de Graduação: Profª. Maria José de Sena
Coordenação Geral de Ensino a Distância: Profª Marizete Silva Santos
Produção Gráfica e Editorial
Capa e Editoração: Rafael Lira, Italo Amorim e Arlinda Torres
Revisão Ortográfica: Rita Barros
Ilustrações: Allyson Vila Nova
Coordenação de Produção: Marizete Silva Santos
Sumário
Apresentação ................................................................................................................. 5
Conhecendo o Volume 1 ................................................................................................ 6
Capítulo 1 – Introdução à Estatística............................................................................... 8
1.1. Tipos de Dados .........................................................................................................9
1.2. Planejamento de Experimentos..............................................................................11
1.3. Estudos Observacionais e Experimentos Aleatórios ...............................................14
Capítulo 2 – Resumo de Dados e Gráficos ..................................................................... 21
2.1. Distribuição de Frequências ...................................................................................21
2.2. Regras Gerais para elaborar uma Distribuição de Frequência ................................24
2.3. Histograma e Polígonos de Frequência ..................................................................24
2.4. Distribuições de Frequência Acumulada ................................................................26
2.5. Gráficos Estatísticos ................................................................................................31
2.5.1. Gráfico de Pontos ...........................................................................................31
2.5.2. Diagrama de Ramo e Folhas ...........................................................................32
2.5.3. Gráfico de Pareto ...........................................................................................33
2.5.4. Diagrama de Barras ........................................................................................34
2.5.5. Gráfico de Setores - Pizza ...............................................................................34
2.5.6. Gráfico de Dispersão ......................................................................................35
2.5.7. Gráfico de Séries Temporais ...........................................................................37
Capítulo 3 – Medidas Resumo ...................................................................................... 39
3.1. Medidas de Posição ................................................................................................39
3.1.1. Moda ..............................................................................................................40
3.1.2. Média .............................................................................................................41
3.1.3. Mediana .........................................................................................................42
3.1.4. Ponto Médio ..................................................................................................43
3.2. Assimetria ...............................................................................................................43
3.3. Medidas de Variação (dispersão) ............................................................................45
3.3.1. Amplitude ......................................................................................................45
3.3.2. Variância (σ2) e desvio padrão (σ) ..................................................................45
3.3.3. Escore z ..........................................................................................................49
3.3.4. Quartis e Percentis .........................................................................................49
3.3.5. Boxplot (diagrama de caixa) ...........................................................................50
Considerações Finais .................................................................................................... 52
Conheça os Autores ..................................................................................................... 54
5
Estatística Exploratória
Apresentação
Caro(a) aluno (a),
Seja bem-vindo (a) ao primeiro volume do curso de Estatística Exploratória. Neste
primeiro volume, vamos estudar os conceitos introdutórios em estatística necessários para
a compreensão do assunto que será estudado durante toda a disciplina.
O objetivo principal deste primeiro volume é proporcionar ao estudante uma
ampla visão do tratamento estatístico de dados, desde sua coleta através dos estudos
observacionais e experimentos, passando pela sua análise através de gráficos e medidas-
resumo.
Bons estudos!
Marco Domingues e Jeísa Domingues
Autores
6
Estatística Exploratória
Conhecendo o Volume 1
Neste primeiro volume, você terá os conteúdos de estatística exploratória. A seguir,
você pode entender a organização deste primeiro volume.
Planejamento de experimentos estatísticos de análise exploratória dos
dados.
Carga horária: 15 h/aula
Objetivo do volume 1: Ao final do módulo, o aluno terá condições de iniciar o
planejamento de experimentos e estudos estatísticos, analisando os dados através de
medidas-resumo e por meio de gráficos e tabelas.
Assuntos
» Introdução à estatística e tipos de dados;
» Estudos observacionais e experimentos aleatórios;
» Planejamento de experimentos;
» Resumo de dados;
» Distribuições de frequências e gráficos;
» Medidas de posição e dispersão.
Dicas de Estudo
» O Capítulo 1 é tipicamente conceitual e por isso precisa de mais empenho e
dedicação. Destine cinco horas de estudo para esse capítulo. Você deve organizar
uma metodologia de estudo que possibilite contato diário com o material didático.
» Para o Capítulo 2, você também precisará dedicar cinco horas estudo. Nesse
capítulo você precisará de muita dedicação nos exercícios. São eles que farão com
que o conteúdo seja assimilado de forma duradoura.
» O Capítulo 3 engloba o tratamento gráfico e o estudo das medidas de posição e
dispersão tão importantes para a compreensão da natureza dos dados.
7
Estatística Exploratória
Capítulo 1
Metas
Ao final do capítulo, esperamos que você consiga:
» Entender as características dos estudos estatísticos observacionais e experimentais;
» Conduzir experimentos estatísticos.
Assuntos
» Introdução à estatística;
» Tipos de dados;
» Planejamento de experimentos
› Estudos observacionais;
› Experimentos aleatórios.
8
Estatística Exploratória
Capítulo 1 – Introdução à Estatística
Vamos conversar sobre o assunto?
E afinal, para que serve a Estatística? Onde a estatística pode ser utilizada? Por
que eu devo estudar estatística? É importante estudar estatística para trabalhar com
desenvolvimento de sistemas de software? Para responder a essas perguntas vamos discutir
duas situações que aconteceram recentemente.
Você deve ter observadoque nas semanas que antecedem as eleições no Brasil, a
maioria dos veículos de comunicação fala sobre pesquisas de intenções de voto. No Brasil,
várias empresas de pesquisas estatísticas trabalham nas eleições. Por falar nisso, você já
foi entrevistado por alguma dessas empresas? Conhece alguém que já tenha sido? Nas
eleições presidenciais de 2010, foram registrados mais de 100 milhões de eleitores, não é
intrigante que essas pesquisas de intenção de voto sejam realizadas com pouco mais de
2000 eleitores? Como será que eles escolhem os eleitores para serem entrevistados?
Em 2010 também aconteceu o recenseamento da população brasileira. Em cada
censo, praticamente todas as residências brasileiras recebem a visita do representante do
IBGE (Instituto Brasileiro de Geografia e Estatística) para uma rápida conversa. Essa entrevista
consiste em um grupo de perguntas relativas à religião, composição de renda, escolaridade,
quantidade de pessoas que moram na mesma residência, idade e quantidade de homens e
mulheres etc. Ao final do processo, o IBGE realizará a análise com todos os dados coletados,
elaborando um “raio-X” detalhado da sociedade brasileira. Essas informações são usadas
pelo governo no desenvolvimento de políticas públicas para os estados da federação.
Atualmente no Brasil, o CENSO ocorre a cada 10 anos e o primeiro aconteceu no ano de
1872, segundo dados do IBGE (http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html).
Você pode ter observado que no primeiro exemplo apenas uma pequena porção
(amostra) dos eleitores é entrevistada em cada pesquisa, enquanto que no censo, os dados
são coletados de toda a população. Amostra e população são termos muito importantes em
estatística. O quadro a seguir apresenta as definições desses e de outros termos básicos.
Definições
Dados São observações coletadas (por exemplo, idade, sexo, medidas).
População É o conjunto completo de todos os elementos a serem estudados.
Censo É um conjunto de dados obtidos de todos os membros de uma população.
Amostra É um subconjunto de membros selecionados de uma população.
Para realizar o censo 2010, o IBGE precisou contratar cerca de 190.000
recenseadores, cada um deles recebeu por mês entre R$ 800,00 e R$ 1.600,00 . Percebe-se
claramente que a realização de um censo é muito dispendiosa, e estamos falando apenas
dos salários dos recenseadores. Existem outros custos inerentes à realização do censo. Por
outro lado, nas pesquisas de intenções de voto, são escolhidos, em média, 3000 eleitores
em cada pesquisa. Você consegue se lembrar que na divulgação dessas pesquisas, sempre
Saiba Mais
1 Fonte – Instituto
Brasileiro de Geografia
e Estatística.
9
Estatística Exploratória
é citada uma margem de erro no resultado? Pois bem, um dos objetivos mais importantes
da estatística é utilizar dados amostrais para tirar conclusões sobre populações. A grande
vantagem é o baixo custo no processo de coleta e análise dos dados. Porém, a obtenção
de dados amostrais representativos de uma população é um fator extremamente crítico.
Observa-se facilmente que, quanto maior o tamanho da amostra, menor o erro da
pesquisa e maior é o custo do processo. Daí, para que os dados coletados da amostra
sejam verdadeiramente representativos da população, os elementos amostrais devem ser
selecionados de modo aleatório e não tendencioso. Se os dados não forem coletados de
modo apropriado, os resultados da análise estatística serão inválidos.
O objetivo desse módulo é fornecer a base conceitual para que você compreenda
todas as possibilidades de aplicações da estatística. E não pense que você precisa ser um
especialista em matemática. Você verá que, com dedicação, será muito fácil dominar os
princípios básicos sem muita dificuldade.
1.1. Tipos de Dados
O Dicionário Aurélio define “estatística” como sendo “a parte da matemática em
que se investigam os processos de obtenção, organização e análise de dados (características)
sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos utilizados
para estabelecer conclusões e fazer inferências ou predições com base nesses dados”. E por
falar em dados, é importante que você saiba reconhecer a natureza dos dados que serão
analisados. Como exemplo, vamos utilizar alguns dados (características) solicitados pelos
entrevistadores no censo/2010:
Para a característica “Sexo”, são dois os casos possíveis: masculino e feminino;
Para a característica “Estado Civil”, os casos possíveis são: casado, solteiro,
divorciado, separado, viúvo;
Para a característica “Grau de Instrução”, os casos possíveis são: ensino fundamental,
ensino médio e ensino superior;
Para a característica “Número de Pessoas na Família”, há um número de resultados
possíveis, expresso através dos números naturais: 0, 1, 2, 3, 4,..., n;
Para a característica “Renda Familiar” a situação é diferente. Os resultados podem
assumir um número infinito de valores numéricos dentro de um determinado intervalo;
Para a característica “CEP – Código de Endereçamento Postal” que representa
uma localização geográfica, os possíveis valores assumem qualquer combinação de oito
números. Ex: 50741-100.
O conjunto de valores que uma característica pode assumir é chamado de variável.
Nos exemplos citados anteriormente, os dados da variável “Sexo” e os dados da variável
“Estado Civil” são chamados de dados qualitativos, categóricos ou atributos. Perceba
que para o atributo sexo, os valores masculino e feminino determinam uma categoria ou
qualidade do indivíduo pesquisado, o mesmo ocorrendo para o atributo “Estado Civil”.
Os possíveis valores que uma variável pode assumir também são chamados de
realizações. Para o caso da variável “Sexo”, os valores “masculino” e “feminino” também são
chamados de realizações da variável “Sexo”.
As variáveis qualitativas ainda podem ser classificadas em dois tipos: variável
qualitativa nominal, para a qual não existe nenhuma ordenação nas possíveis realizações,
10
Estatística Exploratória
e variável qualitativa ordinal, para a qual existe uma ordem nos seus valores. Os dados da
variável “CEP”, apesar de numéricos, não são quantidades. O CEP não identifica medidas ou
contagem de coisa alguma, por isso, não faz sentido realizar cálculos com eles. A variável
“CEP” é um caso de variável qualitativa nominal, enquanto “Grau de Instrução” é um
exemplo de variável qualitativa ordinal, porque ensino fundamental, ensino médio e ensino
superior correspondem a uma ordenação relacionada com o número de anos completos de
escolaridade de um indivíduo.
Definições
Dados qualitativos, ou categóricos
ou de atributos
Podem ser classificados em diferentes categorias que se
distinguem por alguma característica.
Dados quantitativos
Consistem em números que representam contagens ou
medidas.
De modo semelhante, as variáveis quantitativas podem ser classificadas em
discretas e contínuas. A variável “Número de Pessoas na Família” é um exemplo de variável
com dados discretos, uma vez que não podem ocorrer valores fracionados para essa
variável. Por outro lado, a variável “Renda Familiar” é um exemplo de variável quantitativa
com dados contínuos, cujos valores pertencem a um intervalo de números reais. A figura 1
apresenta um esboço da classificação das variáveis.
Figura 1 – Classificação de uma variável.
Os dados quantitativos descrevem medidas e é importante utilizarmos as
unidades de medida apropriadas para cada variável. Por exemplo, suponha que você está
desenvolvendo um sistema médico para controle de exames, como o teste ergométrico
(teste de esforço). Esse exame pode auxiliar no diagnóstico de doenças cardíacas através
do monitoramento do coração e da pressão arterialrelacionada com o nível de esforço
físico ao qual o paciente é submetido. Nesse exame são coletados vários dados do paciente:
peso (medido em Kg), pressão arterial (medida em mmHg – milímetros de mercúrio),
atividade elétrica do coração (corrente elétrica – medida em Ampere, tensão elétrica –
medida em Volt, resistência elétrica – medida em Ohm), frequência cardíaca (bpm – medida
em batimentos por minuto) etc. Todas essas variáveis são quantitativas e a utilização de
unidades de medida inadequadas pode tornar os diagnósticos imprecisos e/ou inválidos.
11
Estatística Exploratória
1.2. Planejamento de Experimentos
Você estudou nas seções anteriores que a estatística lida com a coleta, a
apresentação, a análise e o uso dos dados como ferramentas auxiliares na tomada de
decisões e resolução de problemas. Você também pôde observar que o desenvolvimento
de sistemas trabalha, na prática, com a manipulação de dados e, obviamente, algum
conhecimento de estatística é importante para esse profissional. O campo da engenharia
de software encontra na estatística as ferramentas essenciais para o planejamento de novos
sistemas, análise de código, análise de erros, levantamento de custos e orçamento.
As técnicas e métodos estatísticos são úteis para nos ajudar a entender a
variabilidade de um determinado fenômeno observado. Por variabilidade, queremos dizer
que sucessivas observações de um fenômeno não produzem exatamente o mesmo resultado.
Por exemplo, considere que você é o gerente de um projeto com 10 programadores.
Considere o desempenho diário de um dado programador em relação à produção de
linhas de código e a quantidade de erros nesse código. Esse programador sempre atinge
as mesmas metas de produção diária de código? Com as mesmas quantidades de erros?
Naturalmente, não. Na verdade, algumas vezes o desempenho varia consideravelmente.
Essa variabilidade observada no desempenho do programador depende de muitos fatores,
tais como problemas pessoais, relacionamento com a equipe, experiência prévia com
soluções semelhantes, habilidade com a linguagem de programação utilizada, apenas
para citar alguns fatores. Esses fatores representam fontes potenciais de variabilidade na
produção de software.
A compreensão da variabilidade também é importante quando consideramos, por
exemplo, o desempenho diário de vários programadores com as mesmas características
(experiência prévia, habilidade com a linguagem, bom entrosamento com a equipe etc.).
Se a empresa que você trabalha também tem outros projetos, cada um deles contando
com grupos de programadores, e você foi convidado para apresentar um estudo sobre o
desempenho global dos programadores para a diretoria, como você faria o levantamento
das medidas de desempenho dos programadores da empresa? Faria o estudo com toda
a população de programadores da empresa para o levantamento de parâmetros de
desempenho? Faria o estudo com uma amostra de programadores da empresa para o
levantamento de estatísticas de desempenho e estenderia as conclusões para toda a
população através da inferência estatística?
Definições
Parâmetro
Um parâmetro é uma medida numérica que descreve alguma característica
de uma população.
Estatística
Uma estatística é uma medida numérica que descreve alguma característica
de uma amostra.
A estratégia baseada nas medidas de desempenho de alguns programadores
para estabelecer conclusões sobre medidas de desempenho de todos os programadores
da empresa pode resultar em erros (ou riscos). Esses erros são conhecidos como erros
de amostragem. No entanto, se a amostra for selecionada adequadamente, esses riscos
poderão ser quantificados e um tamanho apropriado de amostra poderá ser determinado.
Infelizmente, alguns estudos utilizam experimentos estatísticos baseados em
amostras ruins (coletadas por métodos viesados2). Uma amostra é considerada ruim
Atenção
2 Viés é um termo
muito comum em
estatística. Uma
medida viesada é uma
medida tendenciosa,
distorcida.
12
Estatística Exploratória
ou tendenciosa quando o método de amostragem não gera amostras representativas da
população da qual foram obtidas. Vamos analisar dois exemplos de estudos estatísticos
cujas amostras foram geradas por processos de coleta de dados tendenciosos:
Ao cursar uma disciplina de estatística aplicada na pós-graduação de uma
universidade brasileira, um grupo de alunos realizou um experimento visando mapear
o perfil salarial dos profissionais de TI em todo o Brasil, por regiões e pelas capitais. O
método de coleta de dados consistiu no preenchimento voluntário de um formulário web
contendo perguntas sobre as condições de trabalho, características do trabalho e salários
dos profissionais de TI no Brasil. Esses profissionais de TI tomaram conhecimento da
pesquisa através de um e-mail-convite enviado a eles por meio das redes sociais. Respostas
voluntárias a questionários, apesar de ser um método muito comum de coleta de dados, é
um dos piores, porque são os entrevistados que decidem se querem participar ou não da
pesquisa;
Outro exemplo interessante de coleta de dados do tipo resposta voluntária ocorreu
quando a revista Newsweek (http://www.newsweek.com/) realizou uma sondagem sobre
o sítio Napster (www.napster.com) que, no início, oferecia livre acesso à cópia de CDs de
músicas. Perguntou-se aos leitores se eles continuariam a usar o Napster se tivessem que
pagar uma taxa. Os leitores poderiam dar suas respostas através do sítio da revista. Entre as
1873 respostas recebidas, 19% diziam sim, ainda é mais barato do que comprar CDs. Outros
5% diziam sim, sentiam-se mais confortáveis pagando uma taxa.
Nos dois estudos, a Internet foi o veículo escolhido para obtenção das amostras, e
nesse caso, cabe às pessoas decidirem se querem ou não participar da pesquisa, de modo
que constituem uma amostra de resposta voluntária. Sabe-se que as pessoas com opiniões
mais contundentes têm mais tendência a participar, de maneira que as respostas não são
representativas de toda a população.
É muito importante que você desenvolva o senso crítico em relação aos
procedimentos para coleta de dados nos experimentos. Com as amostras coletadas através
de respostas voluntárias, apenas conclusões relacionadas com o grupo específico que
escolheu participar do experimento podem ser tiradas. Infelizmente tem sido prática comum
estenderem-se as conclusões a uma população maior. Esse tipo de amostra é tipicamente
tendenciosa e não deveria ser usada para se fazer afirmações sobre uma população maior.
A seguir serão apresentados alguns aspectos que devem ser considerados no
planejamento de experimentos:
Pequenas Amostras
Como vimos nas seções anteriores, um dos principais objetivos da estatística é poder
inferir sobre características de uma população a partir da análise de suas amostras. Você
também percebeu que, se o tamanho dessas amostras cresce na direção do tamanho da
população, mais precisas são as conclusões obtidas. Contudo, experimentos com amostras
muito grandes se aproximam de um CENSO e podem se tornar bastante dispendiosos. Além
disso, mesmo amostras grandes precisam ser coletadas por processos adequados. Mas por
outro lado, amostras muito pequenas, mesmo sendo coletadas corretamente, podem não
ser representativas da população. Resumindo, embora seja importante trabalharmos com
amostras suficientemente grandes, é do mesmo modo importante que os dados amostrais
tenham sido coletados de forma apropriada, de modo aleatório. Em outras palavras, mesmo
amostras grandes podem ser ruins.
Questões Orientadas
Um problema fundamental na coleta de dados através de entrevistas ocorre quando
13
Estatística Exploratóriaas questões são direcionadas para provocar a resposta desejada. Observe as questões a
seguir e avalie qual seria a sua resposta nos dois cenários:
» “A CPMF deve voltar a vigorar no Brasil?”
» “A CPMF deve voltar a vigorar no Brasil para resolver definitivamente os problemas do sistema
de saúde?”
Outra característica das entrevistas (também conhecidas como questões de
sondagem) que pode causar impacto na qualidade dos dados coletados diz respeito à ordem
das questões. Observe as duas questões a seguir e analise a sua resposta em comparação
com as respostas de alguns de seus colegas de curso. Verifique se a ordem das palavras-
chave (Jogos de computador e drogas leves) altera as respostas.
» “Você diria que os jogos de computador têm mais ou menos potencial de causar dependência
em jovens do que as chamadas drogas leves?”
» “Você diria que as chamadas drogas leves têm mais ou menos potencial de causar dependência
em jovens do que os jogos de computador?”
Claro que esse estudo é muito simples para estabelecer conclusões definitivas
sobre o contexto das drogas, jogos digitais e jovens, mas é muito valioso para que você
construa a percepção de que a ordem das palavras-chave nas entrevistas pode influenciar
nas respostas.
Não-resposta
No final de 2010, um pesquisador do IPEA (Instituto de Pesquisa Econômica
Aplicada), órgão ligado à Presidência da República, utilizou uma lista de discussão de
pesquisadores da SBC (Sociedade Brasileira de Computação) para solicitar que os seus
assinantes preenchessem um questionário com dados referentes às suas áreas de
atuação e competências, dentre outras informações. No último dia disponível para envio
do questionário, o pesquisador do IPEA responsável pela pesquisa, emitiu um e-mail
informando que apenas 60 pesquisadores haviam respondido o questionário, um número
muito pequeno se considerarmos a quantidade de pesquisadores nas instituições brasileiras.
Hoje em dia, cada vez mais as pessoas se recusam a responder esse tipo de
questionário quando são abordadas. Alguns entrevistados se recusam porque já perceberam
que vendedores tentam negociar bens e serviços começando com uma conversa que soa
como se fosse parte de uma pesquisa de opinião, outras pessoas têm receio de perder a
privacidade.
Dados Ausentes ou Faltantes
Os resultados de pesquisas podem ser fortemente afetados por dados não
fornecidos. Isso acontece porque algumas perguntas podem causar constrangimento e
as pessoas tendem a não responder esse tipo de pergunta. Em alguns casos, perguntas
relacionadas com renda salarial, opção religiosa, opção sexual e experiências profissionais
podem inibir as pessoas a fornecerem esses dados.
Estudos Tendenciosos (Interesse Próprio)
Você já deve ter visto em propagandas ou listas de e-mail sobre os benefícios de um
determinado produto ou medicamento. Devemos tomar muito cuidado com estudos que
são financiados por empresas e cujos resultados são “podados” para apresentar apenas as
14
Estatística Exploratória
virtudes de um determinado produto. Algumas vezes, pode acontecer o contrário. Grupos
concorrentes podem custear pesquisas de opinião ou mesmo pesquisas científicas para
denegrir a imagem dos produtos e serviços dos seus concorrentes, apresentando apenas os
seus efeitos nocivos.
Outros cuidados devem ser tomados no tratamento estatístico dos dados. Por
exemplo:
Estabelecer que duas variáveis são correlacionadas implica que seus valores de
certa forma são proporcionais (direta ou inversamente), mas pode não haver causalidade
entre elas, ou seja, uma variável pode não afetar a outra. Ex.: Altura e QI;
Descartar deliberadamente alguns dados para favorecer apenas os aspectos
positivos da pesquisa. Ex.: Efeitos colaterais em medicamentos;
Fornecer dados tecnicamente corretos que conduzem o leitor a conclusões
enganosas. Ex.: O desmatamento na Amazônia caiu 14% em 2010 na comparação com 2009
e atingiu a taxa de 6.450 km² desmatados por ano3 . O leitor desavisado pode entender
que a área que já havia sido desmatada em 2009 foi replantada e no ano de 2010 outros
6.450 km² foram desmatados, quando na verdade, a floresta amazônica é continuamente
desmatada, ano após ano, mas em 2010 ela foi menos desmatada. Isso significa que a
floresta vai demorar um pouco mais a ser completamente extinta.
1.3. Estudos Observacionais e Experimentos
Aleatórios
Na seção anterior, você aprendeu que antes de iniciar os estudos envolvendo
experimentos estatísticos, é importante realizar um planejamento dos experimentos.
Você também pôde observar que devemos procurar escapar de algumas armadilhas que
podem aparecer quando estamos coletando dados amostrais. Nunca esqueça que, se os
dados amostrais não forem coletados de maneira apropriada, eles podem não servir para
estabelecer conclusões coerentes sobre a população estudada.
Vou convidá-lo a observar dois estudos com perfis diferentes. Acho que você será
capaz de analisá-los e determinar a natureza de cada um deles.
Um laboratório farmacêutico está desenvolvendo uma nova droga para tratamento
de um tipo de câncer (carcinoma). Foram selecionados 100 pacientes para com diagnóstico
de carcinoma para receber tratamento com a nova droga. Os pacientes foram acompanhados
durante seis meses para verificar os estágios da doença durante a administração da nova
droga. Após esse período, verificou-se que em 75% dos pacientes houve redução no
tamanho do tumor.
Uma universidade brasileira encomendou um estudo para avaliar o efeito das
políticas públicas antitabagistas (especialmente as propagandas antitabagistas nos maços
de cigarro) entre os universitários daquela instituição de ensino. A equipe responsável
pelo estudo iniciou a pesquisa entre os universitários escolhendo aleatoriamente os
estudantes e agrupando-os em “fumantes”, “ex-fumantes” e “não fumantes”. Para o grupo
dos “fumantes” foi perguntado: as propagandas antitabagismo obrigatórias nos maços
de cigarro influenciam ou não a quantidade de cigarros consumidos? Para o grupo de
“ex-fumantes” foi perguntado: as propagandas antitabagismo obrigatórias nos maços de
cigarro influenciaram a sua decisão de parar de fumar? Finalmente, para o grupo de “não-
fumantes” foi perguntado: Você acha que as propagandas antitabagismo obrigatórias dos
maços de cigarro podem influenciar ou não a decisão de parar de fumar?
Hiperlink
3 http://blog.planalto.
gov.br/desmatamento-
na-amazonia-tem-
queda-historica/
15
Estatística Exploratória
E então? Quais as características que você observou em cada estudo? Muito bem,
vamos juntos tentar identificar essas características.
O primeiro estudo é normalmente chamado de experimento estatístico. Você pode
notar que o interesse do estudo consiste na verificação do efeito da droga nos tumores
dos pacientes. Os pacientes são também chamados de unidades experimentais. Somente
após o início do tratamento é que os dados sobre o paciente são coletados. Portanto, há
uma interferência direta sobre os indivíduos. Falaremos mais sobre as características dos
experimentos estatísticos ao final desta seção.
O segundo estudo consiste em uma entrevista e é conhecido como estudo
observacional. Nesse tipo de estudo, observam-se características específicas sem a intenção
de modificar os sujeitos objetos do estudo. Existem basicamente três tipos de estudos
observacionais, diferentes entre si pelo período do tempo onde o estudo é realizado.
Estudo retrospectivo
Os dados são coletados do passado através de verificação em
registros, entrevistas e documentos.
Estudo transversal
Os dados são observados, medidos e coletados em um momento
no tempo.
Estudo prospectivo
Os dados são coletados no futuroa partir de grupos que
compartilham fatores comuns.
Tudo bem, eu sei que essas definições parecem muito obscuras sem os respectivos
exemplos. Então, vamos aos exemplos:
Estudo retrospectivo - Suponha que você está desenvolvendo um estudo para
mapear os impactos na qualidade do software na segunda metade da década de 90. Esse
estudo deve analisar os registros das empresas fabricantes de software, comparando
projetos que empregaram a UML – Unified Modeling Language4 com projetos que
utilizaram exclusivamente as técnicas estruturadas, como análise essencial e análise
estruturada, no desenvolvimento de artefatos computacionais.
Estudo transversal - Suponha que você é o CIO (Chief Information Officer) de uma
empresa e deseja investigar o desempenho de duas ferramentas de segurança utilizadas
na empresa. Você deseja obter a resposta para as seguintes questões: qual a prevalência
de ocorrências de ataques por vírus e spyware no parque de máquinas da empresa e qual
a relação entre a quantidade de ocorrências desses ataques e as respectivas ferramentas
de segurança? Para realizar esse estudo, você deverá selecionar duas amostras de
computadores, cada uma delas com uma das ferramentas de segurança. Em seguida, é
necessário realizar a quantificação e qualificação dos ataques em cada amostra, em um
dado período de tempo.
Estudo prospectivo - Suponha que você foi contratado para coordenar uma grande
equipe de desenvolvimento de projetos de software. Uma das suas tarefas é mensurar o
desempenho dos times de projeto que utilizam metodologias ágeis de desenvolvimento,
particularmente SCRUM e programação extrema (XP - eXtreme Programming). Para isso, você
vai utilizar algumas métricas para avaliação de desempenho e analisar o comportamento da
equipe ao longo do cronograma. Ao final do projeto, você terá elementos para avaliar se os
times alcançaram os resultados esperados.
O fluxograma da figura 2 pode ajudar a identificar os tipos de estudos observacionais
e também serve para relacionar algumas particularidades que merecem ser consideradas
no planejamento de experimentos.
Hiperlink
4 http://www.uml.org/
16
Estatística Exploratória
Figura 2 – Tipos de estudos observacionais.
Por falar em planejamento de experimentos, eu acho que você já está preparado
para fornecer uma boa definição para experimento estatístico. Não? Quer uma ajuda? Então
vamos lá:
Experimento Estatístico é um procedimento planejado partindo de uma hipótese que visa provocar
fenômenos em condições controladas, observar e analisar os seus resultados.
Vamos tentar entender melhor essa definição. Um procedimento planejado é
aquele em que o pesquisador mantém o controle do procedimento através da previsão das
ações que ocorrem sobre o experimento. Para provocar os tais fenômenos em condições
controladas, o pesquisador tem a opção de escolher a técnica mais adequada para aplicar
o “tratamento” nas unidades experimentais. Já o tratamento é qualquer procedimento ou
conjunto de procedimentos cujo efeito será avaliado e comparado com outras unidades
experimentais. Não esqueça que além do conjunto de unidades experimentais que recebem
o tratamento, também há um conjunto de unidades experimentais que não recebem o
tratamento e que são utilizadas para realizar as comparações. Esse conjunto é chamado de
grupo de controle.
Quando você se deparar com a necessidade de realizar experimentos estatísticos,
não se esqueça de considerar três fatores importantes (apresentados na figura 2): controlar
o efeito das variáveis, realizar replicações do experimento e utilizar a aleatoriedade na
escolha das amostras. Vamos considerar cada um desses fatores individualmente.
Controlando os Efeitos das Variáveis
Alguns métodos estão disponíveis para serem aplicados no controle dos efeitos
das variáveis no experimento. Você vai observar que eles têm vantagens e desvantagens.
A nossa intenção é que ao final da seção você seja capaz de reconhecer o método mais
adequado para cada tipo de experimento. Vamos analisar alguns deles:
17
Estatística Exploratória
» Experimento cego - Você já ouviu falar em “efeito placebo”? Esse efeito ocorre
quando, em um experimento, um grupo de pacientes recebe um tratamento
(vacinas, comprimidos etc.) sem nenhum efeito farmacológico e outro grupo recebe
o tratamento que está sendo testado. O efeito placebo ocorre quando um sujeito
não tratado relata melhora nos sintomas (há estudos que atestam que a melhora
pode ser real). No experimento cego, os pacientes (unidades experimentais)
não devem saber se estão recebendo placebo ou o tratamento sob teste. Dessa
maneira, é possível determinar se o efeito do tratamento é significativamente
diferente do efeito placebo. O experimento cego também pode ser estendido
para os técnicos que aplicam o tratamento e realizam as análises. Em resumo, os
pacientes não sabem se estão recebendo placebo ou tratamento, e os técnicos
não sabem se estão aplicando placebo ou tratamento. Isso faz com que não haja
influência sobre os pacientes. Isso mesmo, a expressão facial, tom de voz ou atitude
podem influenciar os pacientes. Esse tipo de técnica é chamado de experimento
duplamente cego.
» Blocos - Quando planejamos um experimento, sabemos que existem alguns fatores
que podem influenciar fortemente os resultados da variável em consideração. Por
exemplo, se desejamos avaliar a produtividade dos membros de uma equipe de
desenvolvimento de software ao utilizarmos uma nova suíte de desenvolvimento
durante um determinado período (uma semana), precisamos levar diversos fatores
em consideração – experiência em desenvolvimento de software, familiaridade com
o projeto e com a linguagem de desenvolvimento, problemas hormonais (algumas
mulheres sentem fortes cólicas durante o ciclo menstrual), ambiente de trabalho,
etc. Isso quer dizer que a produtividade dos membros da equipe de desenvolvimento
pode ser afetada tanto pela utilização da nova suíte de desenvolvimento quanto
por outros fatores. Em outras palavras, um bloco é um grupo de sujeito que são
semelhantes, mas são diferentes nos modos como podem afetar o resultado
do experimento. Dessa forma, o ideal é separar os grupos de indivíduos com
características semelhantes (bloco), e aplicar aleatoriamente o tratamento (no caso
do exemplo, solicitar que o membro da equipe de desenvolvimento utilize a nova
suíte) a alguns membros de cada grupo.
» Experimento completamente aleatorizado - Suponha que desejamos, novamente,
avaliar a produtividade dos membros de uma equipe de desenvolvimento
de software ao utilizarmos uma nova suíte de desenvolvimento durante um
determinado período (uma semana). No entanto, queremos que o experimento
seja completamente aleatorizado. Nesse caso, os membros da equipe que utilizarão
a nova suíte de desenvolvimento serão sorteados aleatoriamente. Esse sorteio
é semelhante ao lançamento de uma moeda, por exemplo, para cada membro
da equipe devemos realizar o lançamento de uma moeda, caso o resultado seja
“cara”, esse desenvolvedor terá que utilizar a nova ferramenta de desenvolvimento;
caso seja “coroa”, o desenvolvedor continuará com as mesmas condições de
trabalho. Tente relacionar os problemas que podem acontecer ao utilizarmos essa
abordagem.
» Experimento rigorosamente controlado - Num experimento rigorosamente
controlado, os indivíduos que recebem tratamento são cuidadosamente
selecionados de tal forma que haja outro indivíduo em condições semelhantes no
grupo que não recebe o tratamento. Com essa abordagem os efeitos individuais
afetarão minimamente a avaliação. Por exemplo, em um experimento que avalia o
desempenho de servidores de aplicações,todos os computadores utilizados devem
ter as mesmas características, incluindo hardware, sistema operacional e carga de
background.
18
Estatística Exploratória
Replicação
Além do controle dos efeitos que as variáveis podem exercer sobre os experimentos,
a replicação dos experimentos é muito importante no planejamento de experimentos para
verificar e/ou confirmar os efeitos da aplicação dos tratamentos em diferentes cenários.
Obviamente, as amostras utilizadas na replicação do experimento devem ter sido escolhidas
através de processos aleatórios e devem ser grandes o suficiente para que os efeitos da
aplicação do tratamento sejam nitidamente reconhecidos. Contudo, é importante lembrar
que, embora seja importante termos amostras suficientemente grandes, é mais importante
que essas amostras sejam compostas por dados escolhidos de modo apropriado.
Estratégias para Seleção de Amostras
Pergunta para o leitor: E o que é afinal uma amostra aleatória? Nós já falamos
algumas vezes no texto sobre amostra aleatória, você seria capaz de nos fornecer uma
definição? Vamos tentar juntos e, para isso, vamos fazer uso de uma ilustração. Imagine
que queremos fazer um experimento com uma moeda não viciada. Desejamos lançá-la ao
ar e queremos saber qual a probabilidade de dar “cara”. Intuitivamente você dirá que as
chances são de 50%. Exatamente, você está certíssimo. Vamos ver outro exemplo. Deseja-se
utilizar um dado não viciado em um experimento. Queremos saber quais são as chances de
aparecer o número 3 em um único lançamento. Se você disse que é 1/6, seu pensamento
está correto mais uma vez. Nesse caso, qualquer número (1, 2, 3, 4, 5 e 6) tem as mesmas
chances de aparecer no sorteio. Dessa forma, em uma amostra aleatória, os membros de
uma população são selecionados de tal modo que cada indivíduo tenha as mesmas chances
de ser selecionado.
Também há o conceito de amostra aleatória simples de tamanho n, selecionada a
partir de uma população de tamanho N. O processo consiste em selecionar um indivíduo
sem reposição até que seja alcançado o número pré-determinado n. Um exemplo será útil
para explicarmos esse processo.
Exemplo: Você é o gerente de redes em uma grande empresa e deseja analisar as
tentativas de ataques nos computadores. Ao todo, a empresa tem 300 computadores, cada
um deles com a sua respectiva numeração, começando com o computador número 001. Por
questões de custo, você fará as verificações de ataques em 5 amostras de tamanho n=10.
Para selecionar os computadores das amostras, você pode utilizar uma urna e 300 pedaços
de papel com as mesmas características, e anotar em cada pedaço de papel os números dos
computadores, iniciando em 001 até 300. A partir daí, você pode sortear os 10 números
para cada amostra, repetindo o procedimento 5 vezes. Como o tamanho N da população
é muito maior do que o tamanho n da amostra, o processo para seleção pode ser sem
reposição. O método de seleção de indivíduos também pode utilizar tabelas com números
aleatórios associadas a cada elemento da população .
Além da amostragem aleatória, há outras técnicas de amostragem probabilísticas
que podem ser utilizadas. Vejamos as mais comuns:
» Amostragem Aleatória Sistemática - Os itens ou indivíduos da população são
ordenados. Um ponto de partida aleatório é sorteado, e então cada k-ésimo (por
exemplo, 30º) membro da população é selecionado para a amostra.
» Amostragem Aleatória Estratificada - A população é inicialmente dividida
em subgrupos (estratos) de tal forma que os membros do mesmo subgrupo
compartilhem as mesmas características (idade, sexo, altura) e uma subamostra é
selecionada a partir de cada estrato da população.
» Amostragem por Conglomerados - A população é inicialmente dividida em
Atenção
5 Exemplo de gerador
de números aleatórios
- www.masoft.com.
br/index. php?page=
download&id=1185
19
Estatística Exploratória
subgrupos (estratos) e uma amostra de estratos é selecionada (por exemplo, com
probabilidade proporcional ao tamanho de cada estrato). A seguir, amostras são
selecionadas dos estratos selecionados previamente.
Mesmo realizando um excelente planejamento, levando em consideração todos
os cuidados que aprendemos até agora, sempre haverá algum erro nos resultados. Em
outras palavras, mesmo que a amostra seja representativa da população, ainda haverá uma
diferença entre o valor da estimativa da amostra e o parâmetro populacional. Essa diferença
é chamada de erro amostral ou variabilidade amostral. Por outro lado, quando o processo
de amostragem foi tendencioso ou o processo de seleção da amostra utiliza instrumentos
não calibrados, os erros provenientes são conhecidos por erros não-amostrais.
20
Estatística Exploratória
Capítulo 2
Metas
Após o estudo deste capítulo, esperamos que você consiga:
» Analisar o comportamento dos dados através da distribuição de frequências;
» Construir gráficos e histogramas.
Assuntos
» Tipos de variáveis;
» Resumo de dados;
» Distribuições de frequências;
» Gráficos.
21
Estatística Exploratória
Capítulo 2 – Resumo de Dados e
Gráficos
Vamos conversar sobre o assunto?
É um fato inquestionável – a incrível quantidade de informação gerada atualmente
é muito maior do que a nossa capacidade de consumi-la. Alguns artigos6, 7 comentam que a
informação que uma pessoa adquire em uma semana nos dias de hoje é equivalente a toda
informação adquirida ao longo da vida de uma pessoa que vivia no século XVII.
E por falar em informação, você já ouviu o ditado popular – “quem tem a informação
tem o poder”? Até pouco tempo, antes da popularização da internet, essa afirmativa era
totalmente aplicável. Contudo, com a massificação dos mecanismos de busca de conteúdo
na internet, qualquer pessoa pode localizar praticamente qualquer informação em alguns
poucos segundos fazendo uma simples pesquisa no Google, se souber como procurar. Por
isso, esse ditado nos dias atuais deveria ser reescrito – “Quem sabe garimpar a informação
tem o poder”. O verbo garimpar é usado aqui de forma semelhante ao processo de extração
de minério valioso entre os cascalhos de terra com minérios sem valor. Em outras palavras,
a pessoa terá poder se ela souber escolher a informação realmente relevante. E essa
informação “garimpada”, “limpa”, “pura” é um dos bens mais valiosos das organizações. É
ela que orienta o processo de tomada de decisão, aumenta a produtividade e reduz custos
e riscos.
Atualmente, existem muitos estudos com o objetivo de “descobrir” conhecimento
em grandes bases de dados, como Data Mining, Information Retrieval9 e Machine
Learning10. Em todas essas técnicas, a estatística tem um papel fundamental no processo de
tratamento da informação. Neste capítulo, estudaremos alguns recursos da estatística para
facilitar a análise de um conjunto de dados.
2.1. Distribuição de Frequências
Vamos iniciar os nossos estudos sobre tratamento de dados considerando a Tabela
1, extraída do sítio do Denatran, que apresenta o número de óbitos por acidente de trânsito
nas capitais brasileiras entre os anos de 2000 e 2007. O tema da tabela foi propositalmente
escolhido para servir de reflexão para todos nós. É importante salientar que a tabela
contabiliza apenas os óbitos no local do acidente. Isto quer dizer que os números são ainda
maiores.
Quando se deseja estudar o comportamento de um conjunto de dados (variáveis),
o nosso maior interesse é conhecer como essas variáveis se comportam, e para alcançarmos
esse objetivo, precisamos analisar as ocorrências das suas possíveis realizações.
Algumas características dessas realizações são muito úteis para que você compreenda o
comportamento dosdados:
» Medidas de centro - é um valor que representa o meio do conjunto de dados. Ex.:
Em 2005, aconteceram em média 280 óbitos por acidente de trânsito nas capitais
Hiperlink
6 http://www.mettodo.
com.br/pdf/O%20
Excesso%20de%20
Informacao.pdf
Hiperlink
7 http://www.
thenewatlantis.com/
publications/the-myth-
of-multitasking
Hiperlink
8 http://www.
intelliwise.com/
reports/i2002.htm
Hiperlink
9 http://pt.wikipedia.
org/wiki/Recuperação_
de_informação
Hiperlink
10 http://ai.stanford.
edu/~nilsson/mlbook.
html
22
Estatística Exploratória
brasileiras.
» Medidas de variação - indica o quanto os valores dos dados variam entre eles. Ex.:
Em oito anos do estudo, os dados apresentados na Tabela 1 mostram que o número
de óbitos por acidente de trânsito na cidade de Curitiba, variou entre 358 e 432
óbitos.
» Valores discrepantes ou outliers - Valores amostrais que se localizam longe da
grande maioria dos outros valores amostrais. Geralmente ocorrem por erros na
alimentação dos dados, porém, em alguns casos, podem indicar algum fenômeno
específico. Ex.: Na cidade de Belém, ocorreram 139 óbitos em 2004, enquanto a
média ficou em 162 óbitos. Em 2006, a cidade de Curitiba apresentou 721 óbitos,
enquanto a média estava próxima de 400.
» Distribuição dos dados - Representa a forma da distribuição dos dados.
Características como a simetria e o volume nas extremidades da distribuição são
importantes na análise dos dados. Vamos utilizar a distribuição de frequências
como ferramenta para entender a distribuição dos dados.
Tabela 1. Mortes por acidentes de trânsito nas capitais
Número total de óbitos por acidentes de trânsito nas capitais - 2000 - 2007
Cidade 2000 2001 2002 2003 2004 2005 2006 2007
Aracaju 92 99 86 91 104 93 95 97
Belém 163 164 152 187 139 167 173 149
Belo
Horizonte
381 417 382 393 410 400 491 451
Boa Vista 77 92 103 53 42 74 72 107
Brasília 520 488 519 587 505 527 471 555
Campo
Grande
137 175 203 194 212 236 203 224
Cuiabá 125 94 153 125 129 127 137 142
Curitiba 425 372 358 371 425 432 721 427
Florianópolis 95 77 78 82 93 94 107 80
Fortaleza 329 384 485 465 444 519 405 383
Goiânia 346 309 339 400 381 341 315 330
João Pessoa 109 125 147 132 107 131 109 107
Macapá 79 86 98 84 91 76 91 79
Maceió 159 202 175 139 163 192 156 152
Manaus 253 219 235 247 261 278 328 281
Natal 62 66 82 59 85 72 62 65
Palmas 57 45 57 59 50 53 59 79
Porto Alegre 214 174 241 215 219 221 192 156
Porto Velho 122 89 117 99 113 91 104 109
Recife 245 218 243 213 227 230 207 234
Rio Branco 70 71 72 64 58 61 55 72
Rio de
Janeiro
910 962 1020 924 974 930 1000 709
Salvador 103 126 114 126 103 292 290 294
São Luís 90 109 140 124 131 140 137 139
São Paulo 846 1604 1002 1465 1432 1544 1614 1651
Teresina 151 160 196 172 157 174 187 175
Vitória 64 56 56 62 59 60 51 51
23
Estatística Exploratória
A Tabela 2 apresenta a distribuição de frequência da variável número de óbitos nas
capitais brasileiras no ano de 2005.
Tabela 2. Distribuição de frequências – nº de óbitos nas capitais em 2005
Nº óbitos nas capitais Frequência Proporção Porcentagem
0 – 200 15 =15/27=0,55 55%
201 – 400 7 =7/27=0,28 28%
401 – 600 3 =3/27=0,11 11%
601 – 800 0 =0 0%
801 – 1000 1 =1/27=0,037 3,7%
1001 – 1200 0 =0 0%
1201 – 1400 0 =0 0%
1401 – 1600 1 =1/27=0,037 3,7%
Total 27 1,0 100%
Observando os resultados da segunda coluna, você pode perceber que em 15
capitais aconteceram até 200 óbitos em 2005, em 3 capitais ocorreram entre 401 e 600
óbitos, em uma capital ocorreram entre 1401 e 1600 óbitos por acidentes de trânsito em
2005 e assim por diante. Tente continuar com essa análise para cada classe da Tabela 2.
Outra medida bastante útil na interpretação de tabelas de frequência é a proporção
de cada realização em relação ao total de ocorrências. Por exemplo, aconteceram na cidade
de São Paulo 1544 óbitos, um valor muito acima da média das cidades. Contudo, em termos
proporcionais, podemos observar que isso representa 3,7% do total de óbitos nas capitais
do país naquele ano.
As proporções também são úteis para comparar resultados de pesquisas com
valores de frequências muito diferentes entre si. Por exemplo, segundo o Instituto de
Pesquisa e Cultura Luiz Flávio Gomes11, no ano de 1996, o número de mortes no trânsito
no Brasil foi de 35.281, e em 2008 foram 36.666 vítimas fatais. Em números absolutos o
aumento foi de 1385 mortes, ou 3,92%. Porém, considerando o número de habitantes no
Brasil em 1996 (156 milhões) e em 2008 (183 milhões), em termos proporcionais (óbitos/
habitante) houve uma sensível redução do número de mortes por habitantes (veja Tabela
3). O mérito dessa redução é dado à promulgação do Código de Trânsito Brasileiro em 1998
e à famosa “lei seca” de 2008. Infelizmente, a eficiência dessas leis foi reduzida assim que a
fiscalização diminuiu e os números voltaram aos patamares de 37 mil mortes por ano.
Tabela 3. Variação percentual do número de óbitos por habitantes ocorridos no Brasil entre os anos
de 1996 e 2008.
Ano Nº de óbitos População Proporção de óbtos por habitante
1996 35.281 156 milhões 1 óbito para 4422 hab
2008 36.666 183 milhões 1 óbito para 4990 hab
Esse grande número de mortes no trânsito coloca o Brasil em 5º lugar no ranking
mundial de acordo com as estatísticas da OMS – Organização Mundial de Saúde12. Os dados
Hiperlink
11 http://www.
ipcluizflaviogomes.
com.br
Hiperlink
12 OMS: http://www.
who.int/en/
24
Estatística Exploratória
são de 2007 e os primeiros colocados são a Índia com 105,7 mil mortes por ano, a China
96,6 mil, os EUA 42,6 mil, a Rússia 35,9 e o Brasil com 35,1 mil mortes.
2.2. Regras Gerais para elaborar uma
Distribuição de Frequência
Antes de começarmos a estudar as diferentes possibilidades de representação
gráfica dos dados, vamos voltar à Tabela 2 para entender como ela foi construída. Os passos
a seguir facilitarão o entendimento:
Definição do número de classes – a escolha do número de classes é arbitrária e
depende muito da familiaridade do pesquisador com os dados. Contudo, lembre-se de que
com um número pequeno de classes, perde-se informação, e com um número grande de
classes, o objetivo de resumir dados fica prejudicado. O mais comum é que o número de
classes deva estar entre 5 e 20. No caso da Tabela 2, os dados foram agrupados em 8 classes.
» O cálculo da amplitude da classe pode ser feito através da fórmula abaixo:
Amplitude da classe =
Arredonde o valor para obter um número mais conveniente. Para o caso da Tabela
2, por simplicidade, escolhemos 8 classes com amplitude igual a 200. Outra boa sugestão
seria definirmos 10 classes, com amplitude 160, começando a partir de 40 até 1640.
» Cálculo dos limites da classe – adicione a amplitude da classe ao limite inferior
da primeira classe para obter o limite inferior da segunda classe. Siga este
procedimento até a última classe.
» Preenchimento da tabela – percorra o conjunto de dados incrementando o valor da
classe apropriada para cada valor de dado.
» Ponto médio de uma classe – é o ponto médio do intervalo da classe e é obtido
somando-se o limite inferior ao superior e dividindo-se a soma por 2. Dessa forma,
o ponto médio da primeira classe (0-200) da Tabela 2 é 100; da segunda classe
(200-400) é 300, e assim por diante.
2.3. Histograma e Polígonos de Frequência
O agrupamento dos dados em tabelas de frequência e frequência relativa (Tabela 2)
é uma maneira bastante eficiente para analisar um conjunto de dados. Esses agrupamentos
também podem ser representados graficamente através dos histogramas e polígonos de
frequência.
Um histograma ou histograma de frequênciaconsiste em um conjunto de retângulos
que representam as classes cujas bases são iguais às suas amplitudes e são centradas no
ponto médio de cada classe. As áreas de cada retângulo são proporcionais às frequências
das classes e o número de classes deve variar entre 5 e 20 classes.
Um polígono de frequência é um gráfico de linha passando pelos pontos médios
dos topos dos retângulos de um histograma. Para uma visualização mais ampla do polígono
de frequências, costuma-se prolongar a linha até o eixo das abscissas, considerando classes
com frequência zero. A Figura 3 apresenta um histograma e um gráfico de polígonos de
frequências referentes aos dados da Tabela 2.
25
Estatística Exploratória
Figura 3 – Histogramas gerados a partir dos dados da Tabela 2.
O formato da curva do gráfico de polígonos de frequência dá uma boa ideia da
distribuição dos dados em termos de assimetria. Veja outras formas de curvas de frequência
na Figura 5.
As frequências relativas calculadas na Tabela 2 também podem ser utilizadas para a
construção do histograma. Na verdade, os gráficos são exatamente os mesmos, basta para
isso modificar os valores absolutos pelos valores relativos no eixo das ordenadas.
26
Estatística Exploratória
2.4. Distribuições de Frequência Acumulada
A soma das frequências totais de todos os valores inferiores ao limite superior de
uma dada classe é denominada frequência acumulada até e inclusive aquele intervalo de
classe.
Tudo bem, eu também concordo. Essa definição está um pouco complicada. Vamos
tentar entendê-la através de um exemplo. Observe na Tabela 2 que a frequência acumulada
até, e inclusive, o intervalo de classe 801-1000 da Tabela 2 é 15 + 7 + 3 + 0 + 1 = 26, o
que significa que das 27 capitais estudadas, em 26 delas ocorreram até 1000 fatalidades no
trânsito. Ficou um pouco mais claro?
A Tabela 4 apresenta as frequências acumuladas por classe e, por isso, é chamada
de tabela de frequência acumulada.
Tabela 4. Tabela de frequência acumulada
Nº óbitos nas capitais Frequência acumulada Frequência relativa acumulada
Abaixo de 200 15 0,55
Abaixo de 400 22 0,83
Abaixo de 600 25 0,94
Abaixo de 800 25 0,94
Abaixo de 1000 26 0,975
Abaixo de 1200 26 0,975
Abaixo de 1400 26 0,975
Abaixo de 1600 27 1,0
Da mesma forma, o gráfico da Figura 5 apresenta a frequência acumulada abaixo de
qualquer limite superior de classe, plotada em relação a esse limite. Esse tipo de gráfico é
chamado de polígono de frequência acumulada ou ogiva.
27
Estatística Exploratória
Figura 4 – Gráfico de frequência acumulada e frequência relativa acumulada.
A terceira coluna da Tabela 4 também apresenta a frequência relativa acumulada
ou frequência percentual acumulada. Esse cálculo é realizado dividindo-se a frequência
acumulada pela frequência total.
Uma característica importante a ser observada nos gráficos da Figura 3 é que a
amplitude escolhida para as classes foi razoavelmente grande. Contudo, em muitos casos é
possível escolhermos intervalos de classe relativamente pequenos e, além disso, obtermos
amostras da população suficientemente grandes de tal forma que o “serrilhado” do polígono
28
Estatística Exploratória
de frequência fique muito semelhante a uma linha contínua.
Como já foi comentado, essas curvas de frequência são muito úteis para a
compreensão do comportamento dos dados. A Figura 5 apresenta os tipos de curvas de
frequência mais comuns. Os três primeiros gráficos representam curvas com assimetria à
esquerda, curvas simétricas e curvas assimétricas à direita, respectivamente.
29
Estatística Exploratória
30
Estatística Exploratória
Figura 5 – Tipos de curvas de frequência.
Os outros gráficos da figura 5 representam curvas semelhantes a um “J”, curvas
semelhantes a um “J” invertido e uma curva com distribuição dos dados uniforme.
De todas as curvas de distribuições apresentadas, sem dúvida alguma, a distribuição
chamada de normal é a mais importante. Suas características marcantes são o formato
de “sino” e a simetria em torno do valor com maior frequência. Em outras palavras, as
frequências começam baixas, crescem até uma frequência máxima e depois decrescem para
uma frequência baixa. Identifique a distribuição normal entre os gráficos da Figura 5.
31
Estatística Exploratória
Exemplo prático: Faça uma pesquisa entre os alunos (homens e mulheres separadamente) da
sua turma, perguntando qual é a altura de cada um deles. Anote todos os valores, construa uma
tabela com a distribuição das frequências e faça um histograma. Construa também um gráfico de
polígono de frequências e observe se há alguma semelhança com a forma de um sino. Repita o
mesmo procedimento para outras variáveis, como peso, notas dos alunos da disciplina banco de
dados etc.
2.5. Gráficos Estatísticos
Nesta seção vamos estudar um pouco mais sobre os gráficos, você já foi apresentado
a alguns deles? Lembra dos histogramas? Aquele gráfico de barras, comumente utilizado
na análise estatística para entendermos o comportamento das frequências de ocorrência
de um determinado fenômeno ou grandeza. E dos polígonos de frequência, você também
lembra? Aquela ligação dos pontos médios dos topos das classes. A partir de agora, vamos
aprender a construir outros tipos de gráficos e entender como as variáveis podem ser
exploradas através deles.
Os gráficos são encontrados em todos os lugares, jornais, telejornais, livros,
revistas, sítios diversos etc. Sua utilização traz vantagens como a capacidade de síntese
de informações e a possibilidade de revelar características importantes das variáveis em
estudo. Nessa seção vamos aprender a construir vários tipos de gráficos, dentre eles, o
gráfico de pontos, o diagrama de ramo e folhas, o gráfico de Pareto, o gráfico de setores
(pizza), o gráfico de barras, o diagrama de dispersão e o gráfico de séries temporais.
Existe atualmente um conjunto amplo de ferramentas computacionais para a
análise estatística e construção de gráficos, muitas delas são pagas e bastante caras (ex.:
Minitab, Spss, Excel etc.). No entanto, o meio acadêmico e muitas empresas estão migrando
para ferramentas baseadas nas licenças de software livre. Quando esse tipo de software,
além de gratuito, é estável e robusto, a decisão é quase unânime. É o caso do software
utilizado em todo o contexto do livro – o R. Isso mesmo, o nome do aplicativo é apenas R e
pode ser encontrado para download para sistemas Windows, Linux e Mac em http://cran.r-
project.org/. Além disso, o código fonte do R está disponível para modificações, permitindo
ainda a criação e integração de pacotes estatísticos desenvolvidos por qualquer usuário. Os
gráficos gerados também são gerados com o R.
2.5.1. Gráfico de Pontos
O gráfico de pontos é um gráfico no qual cada valor é plotado como um ponto ao
longo de uma escala de valores. Os pontos que representam valores iguais são empilhados.
O gráfico de pontos da Figura 6 representa a distribuição das idades das deputadas federais
eleitas para o mandato que começa a partir de 2011. Os dados foram extraídos do sítio da
câmara dos deputados13. Esse tipo de gráfico é bastante útil, pois identifica a frequência a
partir da contagem dos pontos. Por exemplo, na composição da câmara dos deputados com
mandato no período entre 2011 - 2014, há 4 deputadas com 29 anos em 1º de janeiro de
2011.
Hiperlink
13 http://www2.
camara.gov.br/
deputados/pesquisa/
arquivos/arquivo-
formato-excel-com-
informacoes-dos-
deputados-1
32
Estatística Exploratória
Figura 6 – Gráfico de pontos referente às idades das deputadas federais eleitas em 2010 .
2.5.2. Diagrama de Ramo e Folhas
O diagrama de ramoe folhas é muito útil para obter uma apresentação visual
informativa de um conjunto de dados. Neste tipo de gráfico, cada informação deve ter
no mínimo dois dígitos. Para construir esse diagrama, dividimos cada número em duas
partes; um ramo, consistindo em um ou mais dígitos iniciais, e uma folha, consistindo nos
dígitos restantes. A figura 7 ilustra um gráfico de ramo e folhas para as mesmas idades das
deputadas federais eleitas para o mandato que inicia a partir de 2011. As idades estão em
ordem crescente e são 29, 29, 29, 29, 34, 36, 36, ...., 76. É fácil observar como o primeiro
valor de 29 se separa em seu ramo, 2, e sua folha, 9. As folhas são sempre arranjadas em
ordem crescente e não na ordem em que aparecem nas tabelas de dados.
2 9999
3 4
3 667777789
4 44
4 6899999
5 114444
5 777
6 1111
6 666666
7
7 66
Figura 6 – Diagrama de ramo e folhas para as idades das deputadas eleitas em 2010.
Virando-se a página de lado, 90º graus no sentido anti-horário, podemos ver a
distribuição desses dados e ainda reconstruir todas as informações da tabela que originou
o diagrama. Esse diagrama também é útil para a ordenação dos dados e para encontrar
algumas de suas características como os quartis, percentis e mediana. Esses conceitos
estatísticos serão abordados mais à frente.
Certamente você deve ter percebido a semelhança entre o diagrama de ramo e
folhas e as barras de um histograma. Quando você aprendeu como construir histogramas,
viu que uma das orientações para a construção de um histograma é que o número de
classes deve ficar entre 5 e 20. Pode-se aplicar a mesma orientação para a construção de um
diagrama de ramo e folhas. Além disso, um diagrama de ramo e folhas pode ser expandido
ou condensado, podendo ter mais ou menos folhas.
33
Estatística Exploratória
2.5.3. Gráfico de Pareto
Para aprendermos a construir o gráfico de Pareto, vamos utilizar a Tabela 5. Essa
tabela de dados apresenta o cenário partidário na câmara dos deputados a partir da eleição
de 2010. Cada linha da tabela apresenta a frequência e a frequência relativa por partido.
Tabela 5. Deputados federais eleitos em 2010 agrupados por partido.
Partido Frequência Frequência relativa
DEM 57 0,11
PcdoB 12 0,02
PDT 23 0,04
PMDB 90 0,18
PMN 3 0,01
PP 38 0,07
PPS 14 0,03
PR 45 0,09
PRB 8 0,02
PSB 26 0,05
PSC 17 0,03
PSDB 56 0,11
PT 81 0,16
PSOL 3 0,01
PTB 22 0,04
PTC 2 0,00
Ptdo B 1 0,00
PV 14 0,03
TOTAL 512 1,00
Os dados foram extraídos do sítio da câmara dos deputados - http://www2.camara.
gov.br/deputados/pesquisa.
Um gráfico de Pareto é um gráfico de barras para dados qualitativos, com as
barras dispostas em ordem pela frequência. As escalas verticais nos gráficos de Pareto
podem representar frequências ou frequências relativas. A barra mais alta fica à esquerda
e as barras menores se afastam para a direita. O gráfico de Pareto é útil para destacar as
categorias mais importantes. A Figura 7 ilustra a composição da câmara dos deputados a
partir da eleição de 2010. Pode-se perceber claramente que os cinco partidos com maior
representação na câmara dos deputados são aqueles que ocupam posições mais à esquerda
no gráfico de pareto, e são PMDB, PT, DEM, PSDB e PR, respectivamente. Propositalmente
os valores da escala vertical da Figura 7 foram omitidos. Experimente inserir esses valores a
partir das frequências e usando as frequências relativas apresentadas na Tabela 5.
34
Estatística Exploratória
Figura 7 – Gráfico de Pareto apresentando a composição da câmara dos deputados a partir da eleição
de 2010 agrupados por partido.
2.5.4. Diagrama de Barras
O gráfico de barras é muito semelhante ao gráfico de Pareto, exceto por não ser
necessária seguir nenhuma ordem na distribuição dos retângulos do gráfico. Podem-se
utilizar os valores para cada classe diretamente sobre os retângulos que representam as
classes. A Figura 8 apresenta os dados da Tabela 5 através de um gráfico de barras.
Figura 7 – Gráfico de barras com a composição da câmara dos deputados por partido.
2.5.5. Gráfico de Setores - Pizza
O gráfico de setores ou pizza também é usado para apresentar dados qualitativos.
No exemplo da Figura 9, foram utilizados os mesmos dados da Tabela 5 para elaborar um
gráfico de setores. Observe que a construção de um gráfico de setores envolve a divisão de
um círculo nas proporções das frequências das variáveis. Cada ocorrência assemelha-se a
35
Estatística Exploratória
uma fatia de pizza, daí o nome dado a esse tipo de gráfico.
Figura 9 – Gráfico de Setores descrevendo o número de deputados agrupados por partido –
eleições/2010.
2.5.6. Gráfico de Dispersão
O diagrama de dispersão de dados emparelhados é um gráfico onde os pontos no
espaço cartesiano XY são usados para representar simultaneamente os valores de duas
variáveis quantitativas medidas em cada elemento do conjunto de dados. O diagrama de
dispersão é usado principalmente para visualizar a relação/associação entre duas variáveis.
Para aprendermos a construir e analisar o gráfico de dispersão utilizaremos um
conjunto de dados relativos ao gêiser Old Faithful14, que está localizado no Parque Nacional
de Yellowstone, em Wyoming, nos Estados Unidos. Esse gêiser não é o mais alto desse
parque, mas certamente suas erupções são as mais previsíveis. As erupções podem fazer
jorrar entre 14.000 e 32.000 litros de água fervendo a uma altura entre 30 e 55 metros, com
duração entre 1,5 a 5 minutos. A altura média das suas erupções é de 44 metros. A Tabela
6 apresenta um conjunto com 240 medidas relacionando o tempo de duração da erupção
com o respectivo período de espera para a próxima erupção, ambos medidos em minutos.
Hiperlink
14 http://www.iis.
uni-stuttgart.de/
lehre/ws09-10/
StatisticalDataMining/
oldfaith.tab
36
Estatística Exploratória
Tabela 6. Duração das erupções e período de espera (em mintutos) do gêiser Old Faithful.
1 3,6 79 41 4,35 80 81 4,13 75 121 2,61 53 161 2,2 45 201 2,1 60
2 1,8 54 42 1,88 58 82 4,33 82 122 4,06 69 162 4,15 86 202 4,35 82
3 3,33 74 43 4,56 84 83 4,1 70 123 4,25 77 163 2 58 203 4,13 91
4 2,28 62 44 1,75 58 84 2,63 65 124 1,96 56 164 3,83 78 204 1,86 53
5 4,53 85 45 4,53 73 85 4,06 73 125 4,6 88 165 3,5 66 205 4,6 78
6 2,88 55 46 3,31 83 86 4,93 88 126 3,76 81 166 4,58 76 206 1,78 46
7 4,7 88 47 3,83 64 87 3,95 76 127 1,91 45 167 2,36 63 207 4,36 77
8 3,6 85 48 2,1 53 88 4,51 80 128 4,5 82 168 5 88 208 3,85 84
9 1,95 51 49 4,63 82 89 2,16 48 129 2,26 55 169 1,93 52 209 1,93 49
10 4,35 85 50 2 59 90 4 86 130 4,65 90 170 4,61 93 210 4,5 83
11 1,83 54 51 4,8 75 91 2,2 60 131 1,86 45 171 1,91 49 211 2,38 71
12 3,91 4,71 52 4,71 90 92 4,33 90 132 4,16 83 172 2,08 57 212 4,7 80
13 4,2 78 53 1,83 54 93 1,86 50 133 2,8 56 173 4,58 77 213 1,86 49
14 1,75 47 54 4,83 80 94 4,81 78 134 4,33 89 174 3,33 68 214 3,83 75
15 4,7 83 55 1,73 54 95 1,83 63 135 1,83 46 175 4,16 81 215 3,41 64
16 2,16 52 56 4,88 83 96 4,3 72 136 4,38 82 176 4,33 81 216 4,23 76
17 1,75 62 57 3,71 71 97 4,66 84 137 1,88 51 177 4,5 73 217 2,4 53
18 4,8 84 58 1,66 64 98 3,75 75 138 4,93 86 178 2,41 50 218 4,8 94
19 1,6 52 59 4,56 77 99 1,86 51 139 2,03 53 179 4 85 219 2 55
20 4,25 79 60 4,31 81 100 4,9 82 140 3,73 79 180 4,16 74 220 4,15 76
21 1,8 51 61 2,23 59 101 2,48 62 141 4,23 81 181 1,88 55 221 1,867 50
22 1,75 47 62 4,5 84 102 4,36 88 142 2,23 60 182 4,583 77 222 4,267 82
23 3,45 78 63 1,75 48 103 2,1 49 143 4,53 82 183 4,25 83 223 1,75 54
24 3,06 69 64 4,8 82 104 4,5 83 144 4,81 77 184 3,767 83 224 4,483 75
25 4,53 74 65 1,81 60 105 4,05 81 145 4,33 76 185 2,033 51 225 4 78
26 3,6 83 66 4,4 92 106 1,86 47 146 1,98 59 186 4,433 78 226 4,11779
27 1,96 55 67 4,16 78 107 4,7 84 147 4,63 80 187 4,083 84 227 4,083 78
28 4,08 76 68 4,7 78 108 1,78 52 148 2,01 49 188 1,833 46 228 4,067 78
29 3,85 78 69 2,06 65 109 4,85 86 149 5,1 96 189 4,417 83 229 3,267 70
30 4,43 79 70 4,7 73 110 3,68 81 150 1,8 53 190 2,183 55 230 3,917 79
31 4,3 73 71 4,03 82 111 4,73 75 151 5,03 77 191 4,8 81 231 4,55 70
32 4,46 77 72 1,96 56 112 2,3 59 152 4 77 192 1,833 57 232 2,417 54
33 3,36 66 73 4,5 79 113 4,9 89 153 2,4 65 193 4,8 76 233 4,183 86
34 4,03 80 74 4 71 114 4,41 79 154 4,6 81 194 4,1 84 234 2,217 50
35 3,83 74 75 1,98 62 115 1,7 59 155 3,56 71 195 3,966 77 235 4,45 90
36 2,01 52 76 5,06 76 116 4,63 81 156 4 70 196 4,233 81 236 1,883 54
37 1,86 48 77 2,01 60 117 2,31 50 157 4,5 81 197 3,5 87 237 1,85 54
38 4,83 80 78 4,56 78 118 4,6 85 158 4,08 93 198 4,366 77 238 4,283 77
39 1,83 59 79 3,88 76 119 1,81 59 159 1,8 53 199 2,25 51 239 3,95 79
40 4,78 90 80 3,6 83 120 4,41 87 160 3,96 89 200 4,667 78 240 2,333 64
A Figura 10 apresenta um diagrama de dispersão relativo às observações das
erupções do gêiser Old Faithful. Note que existe uma correlação entre medida de tempo de
erupção do gêiser com o tempo de espera para a próxima erupção. Enfatizamos com uma
linha a orientação dessa correlação.
37
Estatística Exploratória
Figura 10 – Diagrama de dispersão das erupções e tempos de espera de erupções relacionadas com o
gêiser Old Faithful.
2.5.7. Gráfico de Séries Temporais
Um gráfico de série temporal representa a evolução de uma medida ou grandeza
através do tempo. Em outras palavras, é possível visualizar as tendências da variável
estudada. Esse tipo de gráfico é muito utilizado nas bolsas de valores para mostrar as
tendências dos ativos das companhias.
Para construirmos esse tipo de gráfico, é necessário coletar as medidas em pontos
diferentes no tempo. O gráfico da Figura 11 apresenta a evolução do Índice Bovespa
(Ibovespa) desde 1994 até o final do ano passado. Observe a forte “depressão” da curva
entre os meses de abril e dezembro do ano de 2008. Foi a época da crise financeira mundial
causada, segundo os economistas, pelos títulos subprime do mercado imobiliário americano.
Outra informação muito importante que pode ser retirada desse gráfico diz respeito ao
ganho de capitais ao longo do tempo. Por exemplo, imagine que você é um investidor que
volta no tempo, para o ano de 1994, para investir R$ 10.000,00 em uma carteira de ações
vinculadas ao Ibovespa. Sabendo que quando os pontos do Ibovespa dobram de valor, o seu
investimento também dobra, ao final de 1996, você dobrou o seu investimento e agora tem
R$ 20.000,00. Por volta de agosto de 2003, você dobrou novamente o seu dinheiro e agora
tem R$ 40.000,00. Continuando nesse pensamento, nos meses que antecederam a crise
de 2008, os R$ 10.000,00 iniciais transformaram-se em módicos R$ 1.280.000.00. E aí, está
bom para você começar a pensar em investir?
38
Estatística Exploratória
Figura 11 – Diagrama de série temporal apresentando o índice Ibovespa a partir de 1994.
Mas cuidado, o lucro do passado não significa lucro no futuro. Apenas a poupança
tem correção garantida pelo governo – 0,5% ao mês mais a variação da TR(taxa referencial).
Você pode estudar mais sobre a crise econômica e os seus efeitos no mercado
brasileiro de ações visitando o sítio da Bovespa - http://www.bmfbovespa.com.br.
39
Estatística Exploratória
Capítulo 3 – Medidas Resumo
Vamos conversar sobre o assunto?
No Capítulo 2, aprendemos como construir gráficos e a partir deles, extrair as
informações e características importantes de um conjunto de dados. Este capítulo também
é importante porque aprenderemos a explorar e quantificar algumas dessas características
dos dados, como medidas de posição e dispersão.
A utilização de gráficos e tabelas de frequências para resumir conjuntos de dados
é uma maneira eficiente para extrair informações sobre o comportamento de uma variável,
muito mais até do que a própria tabela original. Porém, em alguns casos é necessário
resumir ainda mais estes dados através de valores ou medidas que sejam representativas
de todo o conjunto de dados. Essas medidas são extraídas a partir do próprio conjunto de
dados e podem ser classificadas em:
» Medidas de posição → média, mediana, moda e outras medidas de tendência
central;
» Medidas de dispersão → amplitude, desvio padrão e variância;
» Medidas de posição relativa → escores z, quartis e percentis;
» Medidas relacionadas à forma → medidas de assimetria e curtose.
Encontrar os valores dessas medidas envolverá um conjunto de fórmulas e cálculos
e a manipulação direta dos dados. Porém, é essencial que você tenha em mente que o mais
importante nesta disciplina é o entendimento dos conceitos, sua interpretação e aplicação,
mas que obviamente você deverá realizar/acompanhar algum cálculo para que esses
conceitos sejam alcançados e fixados na sua memória.
Atualmente existem muitas ferramentas computacionais para cálculo estatístico e
isso permite que a nossa atenção seja dedicada muito mais aos conceitos do que às contas.
Os métodos do Capítulo 2 e deste capítulo são, em geral, chamados de métodos de
estatística descritiva, porque o objetivo é descrever as características importantes de um
conjunto de dados.
3.1. Medidas de Posição
Antes de começarmos a trabalhar com as definições e fórmulas para cálculo das
medidas de posição, vamos aprender um pouco sobre a notação matemática que será
utilizada daqui para a frente.
Se você encontrar o símbolo X
j
(leia-se “X índice j”) deve entender que ele
representa qualquer um dos N valores, X
1
, X
2
, X
3
, X
4
,...X
N
, assumidos pela variável X. A letra j,
em X
j
, que pode representar qualquer dos números 1, 2, 3, ..., N, é denominada índice.
Notação de somatório → o Símbolo é usado para representar a soma de
40
Estatística Exploratória
todos os X
j
desde j = 1 até j = N , isto é, por definição
= X
1
+ X
2
+ X
3
+ ... + X
N
Quando não há possibilidade de confusão indica-se, frequentemente, o somatório,
de modo mais simples, por , ou O símbolo , é a letra grega Sigma.
Exemplo 1: Y
j
= X
1
Y
1
+ X
2
Y
2
+ X
3
Y
3
+ ... + X
N
X
N
Exemplo 2: aX
j
= aX
1
+ aX
2
+ aX
3
+ ... + aX
N
= (X
1
+ X
2
+ X
3
+ ... + X
N
) = a
a é uma constante.
Notação de produtório → o Símbolo é usado para representar o produto de
todos os X
j
desde j = 1 até j= N, isto é, por definição
= X
1
× X
2
× X
3
× ... × X
N
Quando não há possibilidade de confusão indica-se, frequentemente, o somatório,
de modo mais simples, por X, X
j
ou O símbolo , é a letra grega Pi.
3.1.1. Moda
A moda é definida como a realização mais frequente do conjunto de valores
observados. Como exemplo, suponha que você entrevistou 25 professores do seu curso,
casados, com relação ao número de filhos que eles têm. A pesquisa verificou que, ao todo,
os casais têm 47 filhos. O resultado da pesquisa com a distribuição dos filhos entre os casais
está resumido nas Tabelas 7 e 8.
Tabela 7. Dados dos professores da UAB-UFRPE segundo o número de filhos.
Casal Nº de filhos Casal Nº de filhos Casal Nº de filhos
1 2 10 3 19 1
2 4 11 2 20 4
3 0 12 1 21 0
4 1 13 5 22 2
5 3 14 1 23 3
6 2 15 0 24 2
7 1 16 2 25 1
8 0 17 3
9 3 18 1
Qual é a realização da variável “número de filhos” com maior frequência? Isso
mesmo, a pesquisa mostrou que sete professores têm apenas um filho e essa é a moda da
variável “número de filhos”.
41
Estatística Exploratória
moda(“nº de filhos”) = 1
Tabela 8. Frequência e porcentagens