Buscar

Apostila_de_estatistica_-_introducao_ate_analise_bidimensional_-

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 48 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 48 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 48 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
1 
ESTATÍSTICA 
 
 
1 INTRODUÇÃO 
 Desde a Antigüidade vários povos já registravam o número de habitantes, de 
nascimento, de óbitos, faziam estimativas das riquezas individual e social, 
distribuíam equitativamente terras ao povo, cobravam impostos e até realizavam 
inquéritos quantitativos por processos que, hoje, se chama de Estatística. 
 A palavra “Estatística” vem de status, que significa em latim Estado. Com 
essa palavra faziam-se as descrições e dados relativos aos Estados, tornando a 
Estatística um meio de administração para os governantes. Mais recentemente se 
passou a falar em estatística em várias ciências de todas as áreas do conhecimento 
humano, onde pode definir a Estatística como “um conjunto de métodos e processos 
quantitativos que servem para estudar e medir os fenômenos coletivos”. 
 Ao se estudar os fenômenos coletivos, o que interessa são os fatos que 
envolvem os elementos desses fenômenos, como eles se relacionam e qual o seu 
comportamento. Para que tal estudo possa acontecer com toda a seriedade que a 
ciência exige, é necessário que o levantamento seja feito através de uma pesquisa 
científica, sendo ela definida como a realização concreta de uma investigação 
planejada, desenvolvida e redigida de acordo com as normas de metodologia. 
 A Estatística é muito mais do que a simples construção de gráficos e o cálculo 
de médias. As informações numéricas são obtidas com a finalidade de acumular 
informação para a tomada de decisão. Então, a estatística pode ser vista como um 
conjunto de técnicas para planejar experimentos, obter dados e organizá-los, resumi-
los, analisá-los, interpretá-los e deles extrair conclusões. 
 A informação de estatística é apresentada constantemente no rádio e na 
televisão, como por exemplo, a coleta de dados sobre nascimentos e mortes, a 
avaliação da eficiência de produtos comerciais e a previsão do tempo. 
 As técnicas clássicas da estatística foram delineadas para serem as melhores 
possíveis sob rigorosas suposições. Entretanto, a experiência tem forçado os 
estudiosos a conhecer que as técnicas clássicas comportam-se mal quando 
situações práticas não apresentam o ideal descrito por tais suposições. O 
Laps & Notes
Text Box
1
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
2 
desenvolvimento recente de métodos exploratórios robustos está aumentando a 
eficiência da análise estatística. 
 Os bons profissionais de estatística têm sempre olhado com detalhes os 
dados antes de levantar suposições estatísticas e testes de hipóteses. Mas o uso 
indiscriminado de pacotes estatísticos computacionais, sem o exame cuidadoso dos 
dados profissionais da área, conduz, às vezes, a resultados aberrantes. 
 A análise exploratória de dados nos fornece um extenso repertório de 
métodos para um estudo detalhado dos dados, antes de adaptá-los. Nessa 
abordagem, a finalidade é obter dos dados a maior quantidade possível de 
informação, que indique modelos plausíveis a serem utilizados numa fase posterior, 
a análise confirmatória de dados ou inferência estatística. 
 
2 ÁREAS DA ESTATÍSTICA 
Se entender Estatística como a Ciência dos Dados, será de grande valia o 
domínio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto 
de partida, pode-se dividir a Estatística em duas áreas: 
• Descritiva 
• Inferencial (Indutiva) 
 
Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhães e Antonio 
Carlos Pedroso de Lima, dizem que a estatística, grosso modo, pode ser dividida em 
três áreas: Estatística descritiva; Probabilidade e Inferência estatística. 
 
2.1 ESTATÍSTICA DESCRITIVA 
 A Estatística Descritiva se preocupa com a organização, apresentação e 
sintetização de dados. Utilizam gráficos, tabelas e medidas descritivas como 
ferramentas. Utilizada na etapa inicial da análise, destinada a obter informações que 
indicam possíveis modelos a serem utilizados numa fase final que seria a chamada 
inferência estatística. 
 
 
 
Laps & Notes
Text Box
2
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
3 
2.2 ESTATÍSTICA INFERENCIAL 
 A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar 
dados oriundos de uma amostra para generalizações sobre a população. Constitui 
esse conjunto de técnicas: a determinação do número de observações (tamanho da 
amostra); o esquema de seleção das unidades observacionais; o cálculo das 
medidas estatísticas; a determinação da confiança nas estimativas; a significância 
dos testes estatísticos; a precisão das estimativas; dentre outras. Essa 
generalização é feita a partir do processo de estimação das medidas estatísticas que 
podem ser calculadas, porém não sem antes se antecipar um grau de certeza de 
que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a 
população fosse estudada. Nesse caso, o ramo da matemática que será utilizado 
para se avaliar tal grau de certeza é a probabilidade. Com ela teremos condições de 
mensurar a fidedignidade de cada inferência feita com base na amostra. 
 
Antes de começar a estudar os métodos estatísticos que permitirá analisar 
dados, sejam eles qualitativos ou quantitativos, é importante introduzir alguns 
conceitos preliminares a fim não apenas de dar nomes aos instrumentos, mas 
também adequar e equalizar a terminologia a ser utilizada ao longo do curso. 
Na terminologia estatística, o grande conjunto de dados que contém a 
característica que temos interesse recebe o nome de população. Esse termo refere-
se não somente a uma coleção de indivíduos, mas também ao alvo sobre o qual 
reside nosso interesse. Assim, nossa população pode ser tanto todos os habitantes 
de Londrina como todas as lâmpadas produzidas por uma fábrica em certo período 
de tempo. Algumas vezes podemos acessar toda a população para estudarmos 
características de interesse, mas, em muitas situações, tal procedimento não pode 
ser realizado. Em geral, razões econômicas são determinantes dessas situações. 
Por exemplo, uma empresa, usualmente, não dispõe de verba suficiente para saber 
o que pensam todos os consumidores de seus produtos. Há ainda razões éticas, 
quando, por exemplo, os experimentos de laboratório que envolvem o uso de seres 
vivos. Além disso, existem casos em que a impossibilidade de se acessar toda a 
população de interesse é incontornável. Por exemplo, em um experimento para 
determinar o tempo de funcionamento das lâmpadas produzidas por uma indústria, 
não podemos observar toda a população de interesse. 
Laps & Notes
Text Box
3
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
4 
Tendo em vista as dificuldades de várias naturezas para se observar todos os 
elementos da população, tomaremos alguns deles para formar um grupo a ser 
estudado. Este subconjunto da população, em geral com dimensão menor, é 
denominado amostra. 
 
3 POPULAÇÃO E AMOSTRA 
 
3.1 POPULAÇÃO 
 População é o conjunto constituído por todos os indivíduos que representam 
pelo menos uma característica comum, cujo comportamento interessa analisar 
(inferir). Assim sendo, o objetivo das generalizações estatísticas está em dizer se 
algo acerca de diversas características da população estudada, com base em fatos 
conhecidos. 
 
3.2 AMOSTRA 
 Amostra pode ser definida como um subconjunto, uma parte selecionada da 
totalidade de observações abrangidas pela população, através da qual se faz 
inferência sobre as características da população. Uma amostra tem que ser 
representativa, a tomada de uma amostra bem como seu manuseio requer cuidados 
especiais para que os resultados não sejam distorcidos. 
 
• Parâmetro é uma medida numérica que descreve uma característica de 
uma população. São valores fixos, geralmente desconhecidos e 
usualmente representadospor caracteres gregos. Por exemplo, µ (média 
populacional), p (proporção populacional), σ (desvio-padrão 
populacional), σ2 (variância populacional). 
• Estatística é uma estatística numérica que descreve uma característica 
de uma amostra. Representada por caracteres latinos. Por exemplo, 
x (média amostral), pˆ (proporção amostral), s (desvio-padrão amostral), 
s2 (variância amostral). 
• Unidade Observável é a portadora da(s) característica(s), ou 
propriedade(s), que se deseja investigar. 
Laps & Notes
Text Box
4
 
Resumão Estatística Básica 
VARIÁVEL CONTÍNUA: Resulta normalmente de uma mensuração, e a 
escala numérica de seus possíveis valores corresponde ao conjunto R dos 
números Reais, ou seja, podem assumir, teoricamente, qualquer valor entre 
dois limites. Ex.: Quando você vai medir a temperatura de seu corpo com um 
termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio, ao 
dilatar-se, passará por todas as temperaturas intermediárias até chegar na 
temperatura atual do seu corpo. 
 
Exemplos - 
. Cor dos olhos das alunas: qualitativa 
. Índice de liquidez nas indústrias capixabas: quantitativa contínua 
. Produção de café no Brasil: quantitativa contínua 
. Número de defeitos em aparelhos de TV: quantitativa discreta 
. Comprimento dos pregos produzidos por uma empresa: quantitativa contínua 
. O ponto obtido em cada jogada de um dado: quantitativa discreta 
 
 
 
AMOSTRAGEM 
 
MÉTODOS PROBABILÍSTICOS 
Î Exige que cada elemento da população possua determinada probabilidade de ser 
selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o 
tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. 
Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas 
de inferências. Somente com base em amostragens probabilísticas é que se podem 
realizar inferências ou induções sobre a população a partir do conhecimento da 
amostra. 
 
ƒ É uma técnica especial para recolher amostras, que garantem, tanto 
quanto possível, o acaso na escolha. 
 
. 
AMOSTRAGEM CASUAL ou ALEATÓRIA SIMPLES 
Î É o processo mais elementar e freqüentemente utilizado. É equivalente a um sorteio 
lotérico. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a 
seguir, por meio de um dispositivo aleatório qualquer, x números dessa seqüência, os 
quais corresponderão aos elementos pertencentes à amostra. 
 
Ex: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura 
de 90 alunos de uma escola: 
1º - numeramos os alunos de 1 a 90. 
2º - escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, 
colocamos na urna e após mistura retiramos, um a um, nove números que formarão a 
amostra. 
OBS: quando o número de elementos da amostra é muito grande, esse tipo de sorteio 
torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de números aleatórios, 
construída de modo que os algarismos de 0 a 9 são distribuídos ao acaso nas linhas e 
colunas. 
. 
 
 
.AMOSTRAGEM PROPORCIONAL ESTRATIFICADA: 
 5
Î Quando a população se divide em estratos (sub-populações), convém que o sorteio 
dos elementos da amostra leve em consideração tais estratos, daí obtemos os 
elementos da amostra proporcional ao número de elementos desses estratos. 
Laps & Notes
Text Box
5
 
Resumão Estatística Básica 
Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo 
anterior, supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São 
portanto dois estratos (sexo masculino e sexo feminino). Logo, temos: 
 
SEXO POPULACÃO 10 % 
AMOSTR
A 
MASC. 54 5,4 5 
FEMIN. 36 3,6 4 
Total 90 9,0 9 
 
Numeramos então os alunos de 01 a 90, sendo 01 a 54 meninos e 55 a 90, meninas e 
procedemos o sorteio casual com urna ou tabela de números aleatórios. 
. 
 
AMOSTRAGEM SISTEMÁTICA: 
Î Quando os elementos da população já se acham ordenados, não há necessidade de 
construir o sistema de referência. São exemplos os prontuários médicos de um 
hospital, os prédios de uma rua, etc. Nestes casos, a seleção dos elementos que 
constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. 
 
Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra 
formada por 50 casas para uma pesquisa de opinião. Podemos, neste caso, usar o 
seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um número 
de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais 
elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que 
o número sorteado fosse 4 a amostra seria: 4ª casa, 22ª casa, 40ª casa, 58ª casa, 76ª 
casa, etc. 
 
 
AMOSTRAGEM POR CONGLOMERADOS (ou AGRUPAMENTOS) 
Î Algumas populações não permitem, ou tornam extremamente difícil que se 
identifiquem seus elementos. Não obstante isso, pode ser relativamente fácil identificar 
alguns subgrupos da população. Em tais casos, uma amostra aleatória simples 
desses subgrupos (conglomerados) pode se colhida, e uma contagem completa deve 
ser feita para o conglomerado sorteado. Agrupamentos típicos são quarteirões, 
famílias, organizações, agências, edifícios etc. 
 
Ex: Num levantamento da população de determinada cidade, podemos dispor do 
mapa indicando cada quarteirão e não dispor de uma relação atualizada dos seus 
moradores. Pode-se, então, colher uma amostra dos quarteirões e fazer a contagem 
completa de todos os que residem naqueles quarteirões sorteados. 
 
 
MÉTODOS NÃO PROBABILÍSITCOS 
Î São amostragens em que há uma escolha deliberada dos elementos da amostra. 
Não é possível generalizar os resultados das pesquisas para a população, pois as 
amostras não-probabilísticas não garantem a representatividade da população. 
 
 
AMOSTRAGEM ACIDENTAL 
Î Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, 
que são possíveis de se obter até completar o número de elementos da amostra. 
Geralmente utilizada em pesquisas de opinião, em que os entrevistados são 
acidentalmente escolhidos. 
 
Ex: Pesquisas de opinião em praças públicas, ruas de grandes cidades; 
 6
 
Laps & Notes
Text Box
6
 
Resumão Estatística Básica 
 
AMOSTRAGEM INTENCIONAL 
Î De acordo com determinado critério, é escolhido intencionalmente um grupo de 
elementos que irão compor a amostra. O investigador se dirige intencionalmente a 
grupos de elementos dos quais deseja saber a opinião. 
 
Ex: Numa pesquisa sobre preferência por determinado cosmético, o pesquisador se 
dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram. 
 
 
AMOSTRAGEM POR QUOTAS 
Î Um dos métodos de amostragem mais comumente usados em levantamentos de 
mercado e em prévias eleitorais. Ele abrange três fases: 
 
1ª - classificação da população em termos de propriedades que se sabe, ou presume, 
serem relevantes para a característica a ser estudada; 
 
2ª - determinação da proporção da população para cada característica, com base na 
constituição conhecida, presumida ou estimada, da população; 
 
3ª - fixação de quotas para cada entrevistador a quem tocará a responsabilidade de 
selecionar entrevistados, de modo que a amostra total observada ou entrevistada 
contenha a proporção e cada classe tal como determinada na 2ª fase. 
 
Ex: Numa pesquisa sobre o "trabalho das mulheres na atualidade", provavelmente 
se terá interesse em considerar: a divisão cidade e campo, a habitação, o número de 
filhos, a idade dos filhos, a renda média, as faixas etárias etc. 
A primeira tarefa é descobrir as proporções (porcentagens) dessas característicasna 
população. Imagina-se que haja 47% de homens e 53% de mulheres na população. 
Logo, uma amostra de 50 pessoas deverá ter 23 homens e 27 mulheres. Então o 
pesquisador receberá uma "quota" para entrevistar 27 mulheres. A consideração de 
várias categorias exigirá uma composição amostral que atenda ao n determinado e 
às proporções populacionais estipuladas. 
. 
 
 
 
SÉRIES ESTATÍSTICAS 
 
TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e 
colunas de maneira sistemática. 
 
• De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos 
colocar : 
ƒ um traço horizontal ( - ) quando o valor é zero; 
ƒ três pontos ( ... ) quando não temos os dados; 
ƒ zero ( 0 ) quando o valor é muito pequeno para ser expresso pela 
unidade utilizada; 
ƒ um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão 
de determinado valor. 
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto.. 
 
 
SÉRIE ESTATÍSTICA: É qualquer tabela que apresenta a distribuição de um conjunto de 
dados estatísticos em função da época, do local ou da espécie. 
 
 7
 
Laps & Notes
Rectangle
Laps & Notes
Text Box
7
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
5 
 A seleção da amostra pode ser feita de várias maneiras, dependendo, entre 
outros fatores, do grau de conhecimento que temos da população, da quantidade de 
recursos disponíveis a assim por diante. Cabe ressaltar que este item será 
apresentado mais para frente. 
 
 
4 VARIÁVEIS 
Ao se fazer um estudo estatístico de um determinado fato ou grupo, tem-se 
que considerar o tipo de variável. Pode ter variáveis qualitativas ou variáveis 
quantitativas. 
 
4.1 VARIÁVEIS QUALITATIVAS 
 Variáveis qualitativas são aquelas em que a variável assume “valores” em 
categorias, classes ou rótulos. São, portanto, por natureza, dados não numéricos. 
Apesar de ser considerada de baixo nível de mensuração, do ponto de vista da 
aplicação de instrumental estatístico, a variável qualitativa oferece um vasto espectro 
de aplicação nas ciências sociais e do comportamento. Variáveis qualitativas 
denotam características individuais das unidades sob análise, tais como sexo, 
estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo 
estratificar as unidades para serem analisadas de acordo com outras variáveis. 
 
4.2 VARIÁVEIS QUANTITATIVAS 
Variáveis quantitativas são aquelas expressas pelas variáveis com níveis de 
mensuração intervalar ou de razão. Ou seja, são aqueles nas quais as variáveis 
assumem valores numa escala métrica definida por uma origem e uma unidade, por 
exemplo: idade, salário, peso, etc. 
As variáveis qualitativas podem ser, também, classificadas como nominal e 
ordinal. Por outro lado, as variáveis quantitativas podem ser classificadas como 
discretas, quando assumem um número finito de valores, ou contínuas, quando 
assume um número infinito de valores, geralmente em intervalos, como apresentam 
na Tabela 1. 
 
 
Laps & Notes
Text Box
8
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
6 
Tabela 1: Classificação das variáveis qualitativas e quantitativas 
Variáveis Tipos Descrição Exemplos 
Nominal Não existe nenhuma 
ordenação 
Cor dos olhos, sexo, estado 
civil, tipo sangüíneo. 
 
Qualitativas 
ou 
Categóricas Ordinal Existe uma ordenação I, II, III 
Nível de escolaridade, estágio 
da doença, colocação de 
concurso. 
Discretas Valor pertence a um 
conjunto enumerável 
Número de filhos por casal, 
quantidade de leitos 
 
 
Quantitativas 
 Contínuas 
Quando o valor 
pertence a um 
intervalo real 
Medidas de altura e peso, taxa 
de glicose, nível de colesterol. 
 
 Em algumas situações podem-se atribuir valores numéricos às várias 
qualidades ou atributos e depois proceder à análise como esta variável como se 
fosse quantitativa, desde que o procedimento seja passível de interpretação. 
 Uma vez obtidos os dados referentes às variáveis qualitativas, a tarefa 
seguinte é representá-los através de uma tabela e de um gráfico. Posteriormente, 
poderá ser útil calcular as frequências, simples, acumuladas e as relativas. 
Para os dados quantitativos, quando o número de observações cresce e os 
valores são diferenciados entre si, há que se representá-los de modo resumido. Para 
isso a melhor forma de representação tabular é através de distribuições de 
frequência por classes de valores. 
 
Como exemplo: Suponha que um médico está interessado em fazer um 
levantamento sobre algumas características de pacientes atendidos em sua clínica 
neurológica: sexo peso, tipo de tratamento, número de convulsões e classificação da 
doença (leve, moderada e severa). 
 Os dados podem ser organizados em uma tabela. Usualmente os indivíduos 
são representados nas linhas e as variáveis nas colunas. Este formato é utilizado 
pela maioria do programas computacionais. 
 Note através da Tabela 2 que cada indivíduo é uma unidade de observação 
na qual são feitas várias medidas e/ou anotados vários atributos, referentes às 
variáveis. 
Laps & Notes
Text Box
9
 10
Para resumir as informações levantadas durante uma pesquisa usaremos a técnica e a 
representação mais apropriada, a depender do tipo de variável que estamos analisando. 
 
 
2.4 Apresentação dos Dados 
 
2.4.1 Séries Estatísticas 
 
Quando realizamos um levantamento de dados sobre um fenômeno ou variável, o que 
obtemos como resultado é chamado de série estatística. O modo de condensação ou 
apresentação das informações pode ser na forma de tabelas ou de gráficos que facilitam a 
visualização do fenômeno, permitem a comparação com outros elementos ou, ainda, fazer 
previsões. Para fazermos a diferenciação de uma série estatística para outra, devemos levar 
em consideração os elementos que a compõe: 
• A época (fator temporal ou cronológico) a que se refere o fenômeno observado; 
• O local (fator espacial ou geográfico) onde o fenômeno acontece; 
• O fenômeno (espécie do fato ou fator especificativo) que é descrito. 
 
TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de 
maneira sistemática. 
 
 
 
 
 
 Corpo Ö 
 
 
 
 Fonte: 
 
De acordo com a Resolução 886/66 do IBGE, nas casas ou células da tabela devemos colocar: 
• um traço horizontal ( - ) quando o valor é zero; 
• três pontos ( ... ) quando não temos os dados; 
• zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; 
• um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de determinado 
valor. 
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. 
 
Uma tabela e mesmo um gráfico devem apresentar o título; o corpo; e o rodapé. 
O título deve conter o suficiente para que sejam respondidas as seguintes questões: 
• O quê? (referente ao fato); 
• Onde? (relativo ao lugar); 
• Quando?(corresponde à época) 
 O corpo é representado por colunas e subcolunas dentro das quais serão registrados os 
dados numéricos e informações. 
 O rodapé é reservado para as observações pertinentes, bem como a identificação da fonte 
dos dados. 
 
 
 TÍTULO 
Variação Freqüência
 
 
 
 
 
 
Laps & Notes
Rectangle
 11
PRODUÇAO DE CAFÉ Título 
 BRASIL 1991-1995 
 (Conjunto de informações respondendo 
 as perguntas: O que?, Quando?, Onde?) 
 
 
 
 
 
 
 
Fonte: IBGERodapé 
Conforme varie um dos elementos da série, podemos classificá-la em temporal, geográfica e 
específica respectivamente. 
 
a) Série histórica, cronológica ou temporal: Identifica-se pelo caráter variável do fator 
cronológico. O local e a variável (fenômeno) são elementos fixos. Esta série também é 
chamada de histórica ou evolutiva. 
 
 Evolução da demanda de vestibulandos para o 3º grau- Brasil 
 
 
 
 
 
 
 
 Fonte: Ministério da Educação 
 
b) Série geográfica, espacial ou de localização: Apresenta como elemento variável o fator 
geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, 
territorial ou de localização. 
 
 
População dos países que formam o MERCOSUL-1992 
 
 
 
 
 
 
 
 
 
 
 Fonte: IBGE 
 
 
 
 
ANOS 
 
 
PRODUÇÃO 
(1.000 t) 
1991 2.535 
1992 2.666 
1993 2.122 
1994 3.750 
1995 2.007 
EPECIFICA O 
CONTEÚDO 
DA COLUNA 
EPECIFICA O 
CONTEÚDO 
DA COLUNA 
 
INDICA O 
CONTEÚDO 
DAS LINHAS 
(variáveis) 
 
 
VALORES 
(n° de dados 
coletados das 
variáveis) 
Anos Quantidade
1980 1.803.567 
1982 1.735.457 
1983 1.689.249 
Países População 
Brasil 147.000.000
Argentina 32.300.000 
Uruguai 3.100.000 
Paraguai 4.300.000 
Total 186.700.000
 12
b) Série específica ou categórica: O caráter variável é apenas o fato ou espécie. Também é 
chamada de série categórica. 
 
 
Produção Agrícola no Brasil – 1974 
 
 
 
 
 
 
 
 Fonte: Revista Comércio e Mercado, março/76 
 
 
* Séries conjugadas, tabela de dupla entrada (Tabela cruzada): Também chamadas de tabelas de 
dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, 
havendo duas ordens de classificação: uma horizontal e outra vertical. 
 
 
Desembarque mensal de Camarão na Região Estuarina da 
Lagoa dos Patos/R.S. – 1994-1996 
 
 
 
 
 
 
 
 Fonte: IBAMA 
 
 
 Exercícios: 
1. Classifique as séries estatísticas em temporal ou histórica, geográfica, específica ou conjugada: 
 
a) ...................................................... b) ............................................................. 
 Temperatura no Campo Inflação no Brasil (Índice Geral de Preços) 
Período de 04 a 10 de dezembro de 2000 Período 1977 - 1983 
 
 
 
 
 
 
 
 
 
 
Fonte: Instituto Agronômico de Campinas (IAC). Fonte: Ipea, 1983 
 
 
Especificação Produção em 1.000 t.
Cacau 165 
Café 3220 
Fumo em folha 304 
Quantidade 
Ano Fevereiro Março Abril 
1994 96,8 120,3 9,1 
1995 308,2 1164,2 1012,7
1996 562,3 1332,9 746,9 
Ano Taxa inflacionária (em %) 
1997 38,8 
1978 40,8 
1979 77,2 
1980 110,2 
1981 95,2 
1982 99,7 
1983 211,0 
Cidades Temperatura média °C 
Adamantina 26,9 
Assis 24,3 
Campinas 24,2 
Jaú 25,3 
Mococa 25,1 
Ribeirão Preto 25,3 
 13
c) ............................................................. d) ................................................................... 
 Países mais Populosos do Mundo Avicultura brasileira 
 Ano – 1999 Ano - 1992 
 
 
 
 
 
 
 
 
 Fonte: IBGE 
 
 Fonte: IBGE 
e) ................................................................... f) ............................................................ 
Exportação Brasileira Evolução do Preço do Barril de Petróleo 
 1985-1990-1995 Período: Novembro de 2000 
 
 
 
 
 
 
 
 
 Fonte: MIC e SECEX Fonte: Bradcast. 
 
 
g) ...................................................................... 
 Os Números do País 
 Período: 1992-1999 
 
 
 
 
 
 
 
Fonte: IBGE 
 
Correspondência entre as séries estatísticas e a representação gráfica 
TIPO DE SÉRIE 
ESTATÍSTICA 
FATOR VARIANTE GRÁFICO MAIS INDICADO 
Temporal Época Curvas, excepcionalmente Colunas 
Especificativas Fenômeno Barras, Colunas ou Setores 
Geográficas Local Cartogramas, Colunas, Barras ou 
Setores 
Distribuição de 
freqüências 
Intensidade do 
fenômeno 
Histograma (contínua), Bastão 
(discreta), Barras, Colunas ou 
Setores (qualitativa ) 
 
Países 
População 
(em 
milhões) 
China 1.280 
Ìndia 1.010 
EUA 275 
Indonésia 225 
Brasil 170 
Espécies 
Número 
(em 
milhões) 
Galinhas 204.160 
Galos, Frangos (as) e pintos 435.465 
Codornas 2.488 
Importadores 1985 % 
1990
% 
1995 
% 
América Latina 13,0 13,4 25,6 
EUA 28,2 26,3 22,2 
Europa 33,9 35,2 20,7 
Ásia e Oceania 10,9 17,7 15,4 
África e Oriente Médio 14,0 8,8 5,5 
Dia
Preço 
Médio 
( US$) 
1º 30,51 
14 33,17 
29 32,68 
Variável 1992 1999 
Taxa de mortalidade infantil 44,4% 34,6%
Proporção de pessoas com 60 anos ou mais 7,9% 9,1% 
Taxa de analfabetismo (acima de 15 anos) 17,2% 13,3%
Índice de escolarização (crianças de 7 a 14 anos) 86,6% 95,7%
 14
2.4.2 Distribuição de freqüências 
 
 Neste tipo de série estatística o tempo, o local e o fenômeno permanecem fixos. O 
fenômeno considerado é uma variável qualitativa ou quantitativa (discreta ou contínua) e seus 
valores observados são descritos considerando o número de vezes que ocorreram na série 
(freqüência). 
Algumas definições: 
 
Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não foram 
numericamente organizados. É difícil formarmos uma idéia exata do comportamento do grupo 
como um todo, a partir de dados não ordenados. 
 
Freqüência simples absoluta: é o número de ocorrências ou repetições de um valor individual ou 
um intervalo de valores. 
Notação: Fi 
 
Freqüência simples relativa: é a razão entre a freqüência simples absoluta e o número total de 
dados (soma de todas as freqüências simples absolutas). 
Notação: fri 
 
Freqüência Acumulada: é a soma da freqüência da classe e de todas as classes que a antecedem. 
Agora vamos exemplificar distribuições de freqüência e suas respectivas tabelas para cada tipo de 
variável. 
Notação: Faci 
 
1ª) Dados qualitativos 
 
Os dados qualitativos obtidos em uma pesquisa podem ser organizados em formas de tabelas para 
facilitar a visualização e análise dos dados. 
 
Exemplo: Considere as respostas de 30 pessoas que foram entrevistadas sobre as bebidas 
preferidas durante a refeição. Os resultados foram os seguintes: 
 
Água Suco Refrigerante Suco Suco Cerveja 
Suco Refrigerante Suco Água Refrigerante Água 
Água Refrigerante Outras Suco Suco Suco 
Suco Outras Refrigerante Suco Refrigerante Outras 
Refrigerante Suco Refrigerante Cerveja Refrigerante Suco 
 
Tabela de Freqüências 
 
Bebida preferida 
Freqüência 
simples absoluta 
Freqüência 
simples 
acumulada 
Freqüência 
simples relativa 
Água 
Cerveja 
Refrigerante 
Suco 
Outras 
Total 
 Fonte: Dados fictícios 
 15
2ª) Dados quantitativos discretos 
 
Exemplo 4: Foi observado o número de defeitos apresentados por uma máquina industrial durante 
o período de 30 dias. Os resultados foram os seguintes: 
 
Distribuição de freqüência sem intervalos de classe:É a simples condensação dos dados 
conforme as repetições de seus valores. 
Tabela de Freqüência Simples 
 
 
 
 
 
 
 
De forma genérica temos: 
 
 
 
 
 
 
 
 
 
 
 
Exercícios: 
1) Abaixo temos o quadro que compõe os dados brutos. 
 
Tempo de produção, em horas diárias, de óleo de soja, em várias indústrias. 
6 10 9 8 7 4 9 11 5 7 
8 10 8 5 9 7 11 8 9 10 
9 11 8 6 7 8 10 8 7 8 
11 6 10 11 10 10 9 4 9 8 
8 11 4 10 7 6 9 8 10 5 
10 9 8 8 6 7 8 6 10 11 
 
a) Organize os dados em ordem crescente (Rol): 
 
 
 
 
 
 
 
1 1 1 0 1 1 1 1 1 2 0 1 2 2 1 
0 2 1 3 1 0 1 1 4 1 0 3 1 0 1 
Número de 
defeitos 
Freqüência 
simples absoluta 
0 6 
1 17 
2 4 
3 2 
4 1 
Total 30 
Onde: 
 
i = Posição que cada variável ocupa 
Xi = Variável 
Σ = Somatório 
Fi = Freqüência das variáveis 
Σ Fi = Somatório de todas as freqüências 
n = Quantidade de valores da amostra 
N = Quantidade de valores da população 
Σ Fi = n → Tamanho da amostra 
i Xi Fi 
1 
2 
3 
. 
. 
. 
K 
X1 
X2 
X3 
. 
. 
. 
XK 
F1 
F2 
F3 
. 
. 
. 
FK 
 Σ Σ Fi = n 
 16
b) Monte uma distribuição de freqüências simples, para o tempo de produção, em horas diárias, 
de óleo de soja, das várias indústrias. 
 
 c) Responda: 
 
1) Quantas indústrias foram investigadas?__________________ 
2) Qual a menor tempo de produção registrado?_______________ 
3) Qual a maior tempo de produção registrado? ________________ 
4) Qual o tempo de produção diária que detém o maior número de 
indústrias? _____________ 
5) Identifique: 
 X2 = _______ F5 = _______ Σ Fi = _______ 
 X8 = _____ n = _______ F7 = _______ 
 
 
 
3 ª) Dados quantitativos contínuos: 
 
Para um certo conjunto de dados, vamos adotar a seguinte nomenclatura: 
 
1. Máximo (max): maior valor do conjunto. 
2. Mínimo (min): menor valor do conjunto. 
3. Amplitude total (AT): é a diferença entre o valor máximo e mínimo. 
AT = MAX – MIN 
4. Classe: é cada um dos intervalos em que se subdivide a amplitude total 
5. Representação: k = número de classes 
6. Limite superior (Li): é a cota superior para os valores da classe. 
7. Limite inferior ( li): é a cota inferior para os valores da classe. 
8. Amplitude do intervalo de classe ( hi ): é o comprimento da classe, definida como a diferença 
entre o limite superior e inferior. 
 
 
Determinação do número de classes e amplitude do intervalo de classes: 
 
Não existem regras gerais, universalmente aceitas, para a determinação do número de classes. 
Existem, no entanto, algumas regras propostas por diferentes autores, que dão idéia aproximada do 
número de classes em função do número de dados. 
 
Um dos métodos utilizado é chamado de regra de Sturges ou regra do logaritmo. Ele estabelece 
que 
onde k é o número de classes e n é o número de dados. 
 
Uma vez encontrado o número de classes, determina-se a amplitude do intervalo de classes através 
da fórmula: 
 
Tempo 
(horas) 
Nº de 
indústrias
 
 
 
 
 
 
 
 
 
 
 
Total 
.
k
ATh =
,log3,31 10 nk +≅
 17
 
Ex.: Estaturas dos alunos de Probabilidade e Estatística. Aplicada.à Administração 
Turma “A” – 2001 
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
 
Rol: É a tabela obtida após a ordenação dos dados (crescente ou decrescente). 
 
Ex.: Estaturas dos alunos - Turma “A” – 2001 
 
 (Rol em ordem crescente) 
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173
 
 
Distribuição de freqüência com intervalos de classe: Quando o tamanho da amostra é elevado e 
o número de variáveis é muito grande (acima de 12 valores diferentes), é mais racional efetuar o 
agrupamento dos valores em vários intervalos de classe. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
• Ponto médio de classe: é o ponto que divide o intervalo de classe em duas partes iguais. 
 Ex: em 158├— 162 o ponto médio x3 = (158 + 162)/2 = 160, ou seja x3 = (l3 + L3) / 2. 
 
 
MÉTODO PRÁTICO PARA CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS 
COM CLASSE: 
 
1ª passo: Ordenar os dados brutos em ordem crescente, indicando a freqüência simples de cada 
elemento. 
 
2º passo: Determinar a amplitude amostral ou total e o número de intervalos de classe. 
 
 AT = Vmáx – Vmín → AT = 173 – 150 = 23 
 
Estaturas 
(cm) Freqüência 
150├— 154 4 
154├— 158 9 
158├— 162 11 
162├— 166 8 
166├— 170 5 
170├— 174 3 
Total 40 
Classes 
l i ├── Li 
Fi 
(Freqüência 
absoluta) 
Xi = 
2
ii Ll + 
(Ponto Médio) 
l 1├── L1 F1 X1 
l 2├── L2 F2 X2 
l 3├── L3 
. 
. 
. 
F3 
. 
. 
. 
X3 
. 
. 
. 
l K ├── LK FK XK 
Σ Σ Fi = n 
 18
 
Número de intervalos de classe (Regra de Sturges) 
 K = 1 + 3,22 log n onde K Ö número de classes 
 n Ö número total de observações 
 
No nosso exemplo: n = 40 dados, então , a princípio, a regra sugere a adoção de 6 classes. 
 K = 6 (Consultar Tabela de sugestão abaixo) 
 
3º passo: Determinar a amplitude do intervalo de classe. 
*** O arredondamento será feito pelo valor mais próximo. 
 h = 
K
AT = 23/6.= 3,8 Utilizaremos então h = 4 
Obs. h > 
K
AT (h deve ser um valor ligeiramente superior para haver folga na última classe). 
 
4º passo: Devemos escolher os limites de classe e o intervalo de classe. 
Temos então: 
• o menor nº da amostra = 150 
• o nº de classes = 6 
• a amplitude do intervalo h = 4. Podemos montar a tabela. 
 
No nosso exemplo: o menor nº da amostra = 150 + h = 154, logo a primeira classe será 
representada por 150├— 154. As classes seguintes respeitarão o mesmo procedimento. O primeiro 
elemento das classes seguintes sempre será formado pelo último elemento da classe anterior. 
Na tabela anterior k = 6 e 158├— 162 é a 3ª classe, onde i = 3. 
 
Limites de classe: são os extremos de cada classe. O menor número é o limite inferior de classe 
(li) e o maior número, limite superior de classe (Li). 
 Ex: em 158├— 162. l3 = 158 e L3= 162. O símbolo ├— representa um intervalo fechado à 
esquerda e aberto à direita. O dado 162 do ROL não pertence a classe 3 e sim a classe 4 
representada por 162├— 166. 
 
Obs: Quando o último valor coincide com o limite superior da última classe, então o intervalo 
desta classe é fechado nos extremos. 
 liK |——| LiK 
 
 
Tabela de sugestão para o número de classe pela regra de “Sturges” 
 
 
 
 
 
 
 
 
 
 
 
 
 
Obs: Qualquer regra para determinação do nº de classes da tabela não nos leva a uma decisão 
final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza 
dos dados. 
n = casos 
observados 
 K = nº de 
classes 
a usar 
47 |——| 90 7 
 91 |——| 181 8 
182 |——| 362 9 
 363 |——|724 10 
 725 |——|1448 11 
 1.449 |——|2.896 12 
.... ... 
n = casos 
observados 
 k = nº de classes
a usar 
 1 1 
2 2 
3 |——| 5 3 
 6 |——| 11 4 
12 |——| 22 5 
23 |——| 46 6 
 23
d) o ponto médio da sétima classe; 
e) a amplitude do intervalo da segunda classe; 
f) a freqüência da quarta classe; 
g) a freqüência relativa da sexta classe; 
h) a freqüência acumulada da quinta classe; 
i) o nº de lotes cuja área não atinge 700 m2; 
j) o nº de lotes cuja área atinge e ultrapassa 800 m2; 
k) a percentagemdos lotes cuja área não atinge 600 m2; 
l) a percentagem de lotes cuja área seja maior ou igual a 900 m2; 
m) a percentagem de lotes cuja área é de 500 m2, no mínimo, mas inferior a 1.000 m2; 
n) a classe do 72º lote; 
o) até que classe estão incluídos 60% dos lotes. 
 
GRÁFICOS ESTATÍSTICOS 
 
Os principais tipos de gráficos são: os diagramas, os cartogramas e os pictogramas. 
- Diagramas: são gráficos geométricos de, no máximo, duas dimensões, e para sua 
construção, em geral, faremos uso do sistema cartesiano. 
- Cartograma: é a representação sobre uma carta geográfica. 
- Pictograma: apresentação de uma série estatística por meio de símbolos representativos 
do fenômeno. 
 
Entre os principais tipos de diagramas podemos destacar: 
 
Gráfico em colunas: é representado por retângulos dispostos verticalmente. Os retângulos tem a 
mesma base e as alturas são proporcionais aos respectivos dados. São utilizados quando as 
legendas forem curtas. Embora possam representar qualquer série estatística, geralmente são 
empregados para representar as séries específicas. 
 
TABELA 1-Produção Brasileira de Carvão Mineral Bruto 
Período de 1989-1997 
 
 
 
 
 
 
 
O gráfico estatístico é uma outra forma de apresentação dos dados estatísticos, cujo 
objetivo é o de produzir, ao público em geral, uma percepção rápida do fenômeno em estudo. 
A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais, 
para ser realmente útil: 
- simplicidade Ö o gráfico deve ser destituído de detalhes e traços desnecessários; 
- clareza Ö o gráfico deve possuir uma correta interpretação dos valores representativos 
do fenômeno em estudo; 
- veracidadeÖ o gráfico deve expressar a verdade sobre o fenômeno em estudo. 
Anos
Quantidade
Produzida 
(1.000 t) 
1989 18.196 
1990 11.168 
1991 10.468 
1992 9.241 
Laps & Notes
Rectangle
Laps & Notes
Text Box
19
 24
 
 
 Fonte: Ministério da Agricultura 
 
GRÁFICO 1-Produção Brasileira de Carvão Mineral Bruto 
Período de 1989-1997 
0
5.000
10.000
15.000
20.000
1989 1990 1991 1992
Anos
M
il 
to
ne
la
da
s
 
 Fonte: Ministério da Agricultura 
 
Gráfico em barras: é representado por retângulos dispostos horizontalmente, prevalecendo os 
mesmos critérios adotados na elaboração de gráfico em coluna, sendo usado quando a legenda 
for extensa. 
TABELA 2- Exportações Brasileiras 
Março – 1995 
 
 
 
 
 
 
 
 
 
 Fonte: SECEX 
 
 GRÁFICO 2- Exportações Brasileiras 
 Março-1995 
0 200 400 600 800 1.000 1.200 1.400 1.600
São Paulo
Minas Gerais
Rio Grande do Sul
Espírito Santo
Paraná
Santa Catarina
Estados
Milhões de dólares
 
 Fonte: SECEX 
 
Gráfico em linha ou curva: este tipo de gráfico é utilizado para representar fenômenos contínuos, 
como por exemplo, no caso das séries temporais. As linhas são mais eficientes do que as colunas, 
Estados Valor (US$ milhões) 
São Paulo 1.344 
Minas Gerais 542 
Rio Grande do Sul 332 
Espírito Santo 285 
Paraná 250 
Santa Catarina 202 
Laps & Notes
Text Box
20
 25
quando existem intensas flutuações (tendências de aumento ou diminuições) nos valores numéricos 
de uma dada informação. 
 TABELA 3-Inflação no Brasil (Índice Geral de Preços) 
 Período 1977 - 1983 
 
 
 
 
 
 
 
 
 
 
 Fonte: Ipea, 1983 
 
GRÁFICO 3-Inflação no Brasil (Índice Geral de Preços) 
 Período 1977 – 1983 
 
0
50
100
150
200
250
1977 1978 1979 1980 1981 1982 1983
Ano
Ta
xa
 in
fla
ci
on
ár
ia
 %
 
 Fonte: Ipea, 1983 
 
 
Gráfico em colunas múltiplas 
 
 
TABELA 4- Balança Comercial do Brasil 
Período de 1989 a 1993 
 
 
 
 
 
 
 Fonte: Ministério da Fazenda 
 
 
GRÁFICO 4. 1- Balança Comercial do Brasil 
Período de 1989 a 1993 
Ano 
Taxa 
inflacionária 
(em %) 
1977 38,8 
1978 40,8 
1979 77,2 
1980 110,2 
1981 95,2 
1982 99,7 
1983 211,0 
Valor (US$ 1.000.000) Especificações 
1989 1990 1991 1992 1993 
Exportação 34.383 31.414 31.620 35.793 38.783 
Importação 18.263 20.041 21.041 20.554 25.711 
Laps & Notes
Text Box
21
 26
 
 
0
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
1989 1990 1991 1992 1993
 
 
 
 U
S
$ 
m
ilh
ão
Exportação Importação
 
 Fonte: Ministério da Fazenda 
 
Gráfico em linhas múltiplas: 
 
GRÁFICO 4.2 - Balança Comercial do Brasil 
Período de 1989 a 1993 
0
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
1989 1990 1991 1992 1993
Ano
M
ilh
õe
s 
de
 U
S$
Exportação Importação
 
 Fonte: Ministério da Fazenda 
 
Gráfico de setores: Tem por finalidade comparar a parte com o todo. O total é representado pelo 
círculo que fica dividido em tantos setores quantas são as partes. São utilizados para representar 
séries estatísticas geográficas, temporais e específicas. 
Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. Obtemos 
cada setor por meio de uma regra de três simples e direta, lembrando que o total da série 
corresponde a 360º. O gráfico em setores só deve ser empregado quando há, no máximo, sete 
dados. 
TABELA 5- Levantamento Demográfico 
Censo 2000 
 
 
 
 
 
 
 Fonte:IBGE 
 
Sexo Nº de Habitantes 
Homens 83.423.553 
Mulheres 86.120.890 
População total 169.544.443
Laps & Notes
Text Box
22
 27
169.544.443 360° 169.544.443 360° 
 83.423.553 X 86.120.890 Y 
 X = 177° (corresponde 49%) Y = 183° (corresponde a 51%) 
 
GRÁFICO 5- Levantamento Demográfico 
Censo 2000 
49%
51%
Homens Mulheres
 
 Fonte:IBGE 
 
 
Histograma Este gráfico é utilizado para dados agrupados em intervalos de classes. No caso de 
classes de mesma amplitude, é construído um retângulo para cada classe, com base igual à 
amplitude do intervalo classe e altura proporcional a freqüência da classe. Neste caso, 
altura ~ freqüência (absoluta ou relativa) 
 
 
 Estaturas dos alunos da Turma “A” – 2001 
4
9
11
8
5
3
0
2
4
6
8
10
12
150 I— 154 I— 158 I— 162 I— 166 I— 170 I— 174
Estatura em cm
N
º d
e 
al
un
os
 
Fonte: Fictícia 
Polígono de freqüência: é um gráfico em linha, sendo as freqüências marcadas sobre 
perpendiculares ao eixo horizontal, levantadas pelo ponto médio dos intervalos de classe. Para 
realmente obtermos um polígono (linha fechada), devemos completar a figura, ligando os extremos 
da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da 
distribuição. 
 Estaturas dos alunos da Turma “A” – 2001 
0
5
10
15
150 a 154 154 a 158 158 a 162 162 a 166 166 a 170 170 a 174
Estatura em cm
N
º d
e 
al
un
os
 
Laps & Notes
Text Box
23
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
30 
6 MEDIDAS ESTATÍSTICAS 
 Além da construção de tabelas e gráficos, a análise exploratória de dados, 
consiste também de cálculos de medidas estatísticas que resumem as informações 
obtidas dando uma visão global dos dados. Essasmedidas, também conhecidas 
como medidas descritivas, recebem o nome genérico de estatísticas quando 
calculada com os dados da amostra, e de parâmetros quando calculadas com dados 
populacionais. 
 Dentre as medidas estatísticas as mais utilizadas são as de tendência central 
(ou de posição) e as de dispersão (ou de variabilidade). Destacam-se, ainda, as 
separatrizes, as assimetrias e os box plot. 
 
6.1 MEDIDAS TENDÊNCIA CENTRAL (POSIÇÃO) 
 As medidas de tendência central são aquelas que produzem um valor em 
torno do qual os dados observados se distribuem, e que visam sintetizar em um 
único número o conjunto de dados. As medidas de tendência central são: média 
aritmética, mediana e moda. 
 
6.1.1 Média 
 Uma das medidas estatísticas mais utilizadas na representação de uma 
distribuição de dados é a média aritmética, na sua forma simples, ou ponderada. No 
primeiro caso divide-se a soma de todos os valores da série pelo número de 
observações, enquanto no segundo, mais utilizado em distribuições de frequências, 
os valores são ponderados pelas frequências com que ocorrem e depois dividem-se 
pelo total das frequências (este segundo caso será visto em distribuição de 
frequências): 
 Simples: 
n
x
n
xxxX
i
n
in 121
 
....
=
Σ
=
+++
=
 ou simplesmente 
n
x
X i∑= 
 
Exemplo: Foram levantados os diâmetros de 10 peças (cm) da Empresa AA Ltda. As 
medidas foram as seguintes: 13,1 – 13,5 – 13,9 – 13,3 – 13,7 – 13,1 – 13,1 – 13,7 – 
13,2 – 13,5. Portanto, diâmetro médio é 13,41 cm. 
Laps & Notes
Text Box
24
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
31 
 A média aritmética possui algumas propriedades desejáveis e não desejáveis 
e são as seguintes: 
i. Unicidade. Para um conjunto de dados existe somente uma média aritmética. 
ii. Simplicidade. A média aritmética é fácil de ser interpretada e de ser calculada. 
iii. Todos os valores entram para o cálculo da média aritmética, porém, os valores 
extremos afetam no valor calculado, e em alguns casos pode haver uma grande 
distorção, tornando, neste caso, a média aritmética indesejável como medida de 
tendência central. 
Como a média é influenciada por valores extremos da distribuição, ela só 
deve ser utilizada em distribuições simétricas, ou levemente assimétricas, e em 
distribuições não heterogêneas. Sua aplicação nos dois casos acima é precária e de 
pouca utilidade prática, pois perde sentido prático e capacidade de representar a 
distribuição que a originou. 
Também nos casos de série em que o fenômeno tem uma evolução não 
linear, como as séries de valores financeiros no tempo, de acordo com uma 
capitalização composta, a média mais recomendada seria a geométrica. Finalmente, 
não se recomenda à aplicação da média aritmética nas séries cujos valores 
representem relações recíprocas, como por exemplo, velocidades, expressas 
através da relação entre o espaço e o tempo. Neste último caso recomenda-se a 
utilização da média harmônica. 
 
6.1.2 Mediana 
 A mediana é o valor que ocupa a posição central de um conjunto de valores 
ordenados, ou seja, medida divide a distribuição de valores em duas partes iguais: 
50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de 
valores, há dois valores centrais, neste caso, a mediana é o valor médio dos dois 
valores centrais do conjunto de dados ordenados. 
 
Exemplo: Com os dados do exemplo anterior, calcular a mediana. 
 13,1 – 13,1 – 13,1 – 13,2 – 13,3 – 13,5 – 13,5 – 13,7 – 13,7 – 13,8 
 
 Nesta série tem-se número par de observações logo, têm-se dois valores 
centrais e são 13,3 e 13,5. Logo, a mediana é 13,4 cm. 
Laps & Notes
Text Box
25
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
32 
 Suponha, neste mesmo exemplo que se acrescente o valor 14,0 tornando um 
rol de número ímpar, 
13,1 – 13,1 – 13,1 – 13,2 – 13,3 – 13,5 – 13,5 – 13,7 – 13,7 – 13,8 – 14,0 
 
 Neste caso, a série possui apenas um valor central logo, a mediana é igual 
a 13,5 cm. 
 
Propriedades da mediana 
i. Unicidade. Existe somente uma mediana para um conjunto de dados. 
ii. Simplicidade. A mediana é fácil de ser calculada. 
iii. A mediana não é tão afetada pelos valores extremos como a média aritmética, 
por isso, se diz que a mediana é uma medida robusta. 
 
Conceito de resistência de uma medida 
Diz-se que uma medida de centralidade ou de dispersão é resistente quando 
ela é pouco afetada pela presença de observações discrepantes. Entre as medidas 
de centralidade, a média é bem menos resistente que a mediana. Por outro lado, 
entre as medidas de dispersão, o desvio padrão é bem menos resistente do que o 
desvio inter-quartílico. 
 
6.1.3 Moda 
 Moda de um conjunto de valores é o valor que ocorre com maior frequência, 
sua aplicação não depende do nível de mensuração da variável, sendo aplicada 
tanto a fenômenos qualitativos quanto quantitativos. Se todos os valores forem 
diferentes não há moda, por outro lado, um conjunto pode ter mais do que uma 
moda: bimodal, trimodal ou multimodal. 
 
Exemplo: Para os dados dos exemplos anteriores a moda é igual a 13,1 cm. 
 
 A moda pode ser utilizada para descrever dados qualitativos. Por exemplo, 
suponha que os pacientes vistos em uma clínica de saúde mental durante um 
determinado ano receberam um dos seguintes diagnósticos: retardo mental, psicose, 
Laps & Notes
Text Box
26
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
33 
neurose e mudança de personalidade. O diagnóstico que ocorre com maior 
frequência no grupo de pacientes pode ser chamado de diagnóstico modal. 
 
6.2 MEDIDAS DE DISPERSÃO 
 A dispersão de conjunto de dados é a variabilidade que os dados 
apresentam entre si. Se todos os valores forem iguais, não há dispersão; se os 
dados não são iguais, existe dispersão entre os dados. A dispersão é pequena 
quando os valores são próximos uns dos outros. Se os valores são muito diferentes 
entre si, a dispersão é grande, assim, as medidas de dispersão apresentam o grau 
de agregação dos dados. Veja como exemplo a Tabela 14. 
 
Tabela 14: Valores das séries A, B e C 
Repetição Série A Série B Série C 
1 45 41 25 
2 45 42 30 
3 45 43 35 
4 45 44 40 
5 45 45 45 
6 45 46 50 
7 45 47 55 
8 45 48 60 
9 45 49 65 
Média 45 45 45 
Mediana 45 45 45 
 
Nota-se que a série “A” não apresenta dispersão, já os valores da série “B” 
apresentam certa dispersão em torno da média 45, e os valores da série “C” 
apresentam uma dispersão em torno da média e maior do que a da série B. 
As medidas descritivas mais comuns para quantificar a dispersão são: 
amplitude, desvio médio, variância, desvio-padrão e coeficiente de variação. 
 
6.2.1 Amplitude 
 Uma maneira de medir a variação em um conjunto de valores é calcular a 
amplitude. A amplitude é a diferença entre o maior e o menor valor de um conjunto 
de observações. 
 At = no maior – no menor 
Laps & Notes
Text Box
27
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
34 
Exemplo: Determinar amplitude total da série: A, B e C. 
 
A utilidade da amplitude total como medida de dispersão é muito limitada, pois 
depende apenas dos valores extremos. A maior vantagem em usá-la é a 
simplicidade do seu cálculo. 
 
6.2.2 Desvio Médio 
 Uma vez que se deseja medir a dispersão ou grau de concentração dos 
valores em torno da média, nada mais interessante do que analisar o 
comportamento dos desvios de cada valor em relação à média, isto é: 
)( xxd ii −= 
 
 Porém, para qualquer conjunto de dados, a soma de todos os desvios é 
igual a zero, isto é: 
 0)( =−= ∑∑ xxd ii 
 
 Neste caso, considera-se o módulo de cada desvio xxi − , evitando com 
isso que 0=∑ id . Dessa forma, o desvio de um conjunto de n valores é dado por:n
xx
DM
n
i
i∑
=
−
=
1
 
Exemplo: Determinar desvio médio da série B. 
 
 
6.2.3 Variância 
 Embora o desvio médio seja uma medida melhor do que a Amplitude, ainda 
não é uma medida ideal, pois não discrimina pequenos dos grandes afastamentos 
em relação à média. Se para eliminar o problema dos sinais, ao invés de 
considerarmos os valores absolutos elevarmos os afastamentos ao quadrado, 
estaremos não apenas eliminando o problema dos sinais como também 
potencializando os afastamentos, enfatizando os grandes desvios em relação às 
Laps & Notes
Text Box
28
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
35 
observações mais próximas da média. Como resultado define a medida de variação, 
denominada de variância, como: 
 
1
)(
1
2
2
−
−
=
∑
=
n
XX
s
n
i
i
 ou 
1
)(
1
1
2
2
2
−
−
=
∑
∑
=
=
n
n
X
X
s
n
i
n
i
i
i
 
Exemplo: Determinar as variâncias das séries A, B e C. 
 
Esta estatística isolada tem difícil interpretação por apresentar unidade de 
medida igual ao quadrado da unidade de medida dos dados. 
 
6.2.4 Desvio Padrão 
 Devido à dificuldade de interpretação da variância, por ter sua unidade de 
medida ao quadrado, na prática usa-se o desvio padrão que é a raiz quadrada da 
variância, ou seja: 
 
2ss =
 
Exemplo: Determinar os desvios-padrão das séries A, B e C. 
 
6.2.5 Erro Padrão 
 Diferentes amostras retiradas de uma mesma população podem apresentar 
médias diferentes. A variação existente entre este conjunto de médias é estimada 
através do erro padrão, que corresponde ao desvio padrão das médias, sendo 
representado por 
x
s e calculado pela fórmula: 
 
x
s
s
n
= 
 
6.2.6 Coeficiente de Variação 
 Uma pergunta que pode surgir é se um desvio-padrão é grande ou pequeno; 
questão relevante, por exemplo, na avaliação da precisão de métodos. Um desvio-
padrão pode ser considerado grande ou pequeno dependendo da ordem de 
grandeza da variável. Por exemplo, um desvio-padrão de 10 pode ser insignificante 
Laps & Notes
Text Box
29
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
36 
se a observação típica for 10.000, mas será um valor bastante significativo para um 
conjunto de dados cuja observação típica é 100. 
 O coeficiente de variação é uma medida relativa de dispersão, utilizada para 
comparar, em termos relativos, o grau de concentração em torno da média. É 
representada por: 
 
X
sCV =
 
 O CV é uma medida adimensional, isto é, sem unidade de medida, podendo 
ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos 
que uma distribuição é homogênea quando a variabilidade relativa expressa pelo 
coeficiente de variação, não ultrapassar a 20% . Obviamente a distribuição não 
deixa de ser homogênea para valores maiores do que 20% mas vai perdendo o grau 
de homogeneidade na medida em que o coeficiente aumenta. 
 
Exemplo: Determinar o erro padrão e o coeficiente de variação das séries A, B e C. 
 
 Esta medida pode ser bastante útil na comparação de duas variáveis ou dois 
grupos que a princípio não são comparáveis (por exemplo, com ordens de grandeza 
das variáveis diferentes). 
 
Exemplo: Comparação dos depósitos bancários de duas Empresas (milhares R$). 
 
A Empresa X depositou, em média mensal, 2,0 (milhares R$) e um desvio-
padrão de 0,5 (milhares R$). A Empresa Y depositou média mensal, 2,3 (milhares 
R$) e um desvio-padrão de 0,8 (milhares R$). A Empresa Y apresenta não só uma 
média mensal mais alta como também maior variabilidade em torno da média. O 
coeficiente de variação capta esta diferença. Neste caso, o coeficiente de variação é 
25% para a Empresa X e 34,8% para a Empresa Y. 
 Alguns especialistas consideram: 
• Baixa dispersão: CV ≤ 15% 
• Média dispersão: 15% < CV < 30% 
• Alta dispersão: CV ≥ 30%. 
Laps & Notes
Text Box
30
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
37 
6.3 SEPARATRIZES: QUARTIS, DECIS E PERCENTIS 
 Os quartis, decis e percentis são muito similares à mediana, uma vez que 
também subdividem a distribuição de medidas de acordo com a proporção das 
frequências observadas. 
 Os quartis dividem um conjunto de dados em quatro partes iguais, isto é, 25% 
por parte. 
 0% 25% 50% 75% 100% 
 
 Q1 Q2 Q3 
onde: Q1 = 10 quartil, deixa 25% dos elementos. 
 Q2 = 20 quartil, deixa 50% dos elementos (coincide com a mediana). 
 Q3 = 30 quartil, deixa 75% dos elementos. 
 
Os decis dividem um conjunto de dados em dez partes iguais, isto é, 10% por 
parte. 
 0 10% 20% . . . 90% 100% 
 
 D1 D2 . . . D9 
onde: D1 = 10 decil, deixa 10% dos elementos. 
 D2 = 20 decil, deixa 20% dos elementos. 
 ............................................................. 
 D9 = 90 decil, deixa 90% dos elementos. 
 
 Já, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 
1% em cada parte. 
0% 1% 2% . . . 50% . . . 98% 99% 100% 
 
 P1 P2 . . . P50 . . . P98 P99 
onde: P1 = 10 percentil, deixa 1% dos elementos. 
 P2 = 20 percentil, deixa 2% dos elementos. 
 ............................................................. 
 P99 = 990 percentil, deixa 99% dos elementos. 
 
Laps & Notes
Text Box
31
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
41 
Para verificar o tipo de curva (da distribuição) e o grau de curtose utiliza-se a 
medida estatística adimensional denominada de Coeficiente de Curtose definido 
como: 
)(2 1090
13
PP
QQ
C
−
−
=
 
 Para uma curva relativamente à normal, tem-se que C = 0,263. Isto é: 
Se C = 0,263 � curva mesocúrtica 
C < 0,263 � curva leptocúrtica 
C > 0,263 � curva platicúrtica 
 
6.6 BOX PLOT 
 O box plot introduzido pelo estatístico americano John Tukey em 1977 é a 
forma de representar graficamente os dados da distribuição de uma variável 
quantitativa em função de seus parâmetros. Os cinco itens ou valores: o menor valor 
(x1), os quartis (Q1, Q2 e Q3) e o maior valor (xn), são importantes para se ter uma 
idéia da posição, dispersão e assimetria da distribuição dos dados. Na sua 
construção são considerados os quartis e os limites da distribuição, permitindo uma 
visualização do posicionamento da distribuição na escala da variável. Para melhor 
compreensão deste box plot, a Figura 18 apresenta um esquema sintetizado: 
 
 
 
 
 
 
 
 
 
 
 
 Figura 18: Esquema para construção do box plot 
 
 
Q1 Md Q3 
Ponto extremo 
* 0 
Outliers 
1,5DQ DQ 1,5DQ 
Valores 
LI LS 
Valores típicos 
3,0DQ 
Limite inferior 
Limite superior 
Laps & Notes
Rectangle
Laps & Notes
Text Box
32
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
42 
A escala de medida da variável encontra-se na linha horizontal do quadro 
onde está inserida a figura. 
Na caixa retangular da figura são fornecidos os quartis Q1, na parte esquerda, 
e Q3 na parte direita da caixa. Entre eles encontra-se a Mediana da distribuição. 
Observe que 50% da distribuição têm valores dentro da caixa. 
As linhas horizontais que saem da caixa terminam nos limites inferior (LI) e 
superior (LS) da distribuição. Entre esses limites encontram-se os valores 
considerados como típicos da distribuição. Esses limites são determinados em 
função da distância entre os dois quartis (Q3 e Q1), isto é, do desvio inter-quartílico: 
DQ = Q3 – Q1. 
Observaçõescom afastamento superior a 1,5 desvio inter-quartílico, para 
cima ou para baixo, são consideradas atípicas, ou possíveis outliers. Os pontos que 
estão mais de 1,5 DQ e menos que 3,0 DQ, são chamados de outliers, aparecendo 
(o). 
Valores com afastamento superior a 3,0 DQ, para cima ou para baixo são 
considerados como pontos extremos, aparecendo na figura com (*). Quanto maior 
for o valor do desvio inter-quartílico, maior a variabilidade da distribuição. 
Obs. Muitos livros e softwares apenas comentam sobre os pontos atípicos 
chamando-os de outliers (pontos discrepantes). 
 O box plot também fornece informações importantes sobre o comportamento 
do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior 
que à distância interquartílica e a mediana estiver mais próxima do 1o quartil do que 
do 3o quartil, há forte indicação de assimetria positiva e de grande dispersão das 
observações. 
 
Exemplo: O objetivo da administração é lucrar o máximo possível com o capital 
investido em sua empresa. Uma medida de bom desempenho é o retorno sobre os 
investimentos. A seguir são apresentados os mais recentes retornos em milhares 
(R$). 
 2.210 2.255 2.350 2.380 2.380 2.390 
 2.420 2.440 2.450 2.550 2.630 2.825 
 
Laps & Notes
Text Box
33
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
43 
 A mediana é 2.405 e os quartis Q1 = 2.365 e Q3 = 2.500. A resenha dos 
dados mostra um menor valor 2.210 e um maior valor de 2.825. Assim, a regra de 
cinco itens (números) para os dados de pesos dos recém nascidos é 2.210; 2.365; 
2.405; 2.500; 2.825. 
 
 Além desses valores, têm-se os limites, inferior que é dado por LI = Q1–1,5DQ 
e superior LS = Q3 + 1,5DQ. No caso, LI = 2.162,5 e LS = 2.702,5. Os dados fora 
destes limites são considerados pontos fora da curva. Neste caso, “o” = 2.825 é um 
outliers. A Figura 19 apresenta um esquema do box plot com esses resultados: 
 Mediana = 2405
 Q1=2365 e Q3 = 2500
 X1 = 2210 X11 = 2630
 Outliers = 2825
Retorno
2100
2200
2300
2400
2500
2600
2700
2800
2900
 
Figura 19: Resultados do desempenho de retorno de investimento da empresa 
 
Observações atípicas (outlier) 
 É muito comum aparecerem entre os dados coletados, observações atípicas 
(outliers), isto é, valores muito grande ou muito pequeno em relação aos demais. Um 
conjunto de dados pode apresentar apenas um ou vários outliers. 
 Observações atípicas alteram enormemente as médias e variabilidade dos 
grupos a que pertencem e podem até mesmo distorcer as conclusões obtidas 
através de uma análise estatística padrão. Portanto, é de fundamental importância 
detectar e dar um tratamento adequado a elas. É sempre boa a prática fazer-se uma 
Laps & Notes
Text Box
34
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
44 
inspeção dos dados no início da análise estatística. Técnicas descritivas de dados 
têm um papel importante nesta fase. 
 
Causas do aparecimento de outliers 
 Dentre as possíveis causas do aparecimento de outliers, pode citar as 
seguintes: 
• Leitura, anotação ou transição incorreta dos dados. 
• Erro na execução do experimento ou na tomada da medida. 
• Mudanças não controláveis nas condições experimentais ou dos 
pacientes. 
 
Como detectar outliers 
 As questões básicas são quais observações devem ser consideradas como 
outliers e como detectá-los. Existem procedimentos para responder a essas 
perguntas. 
 Os outliers podem ser detectados simplesmente por uma verificação lógica 
dos dados, através de gráficos específicos ou ainda através de teste apropriados. 
Uma forma gráfica usual é o box plot. As plotagens de retângulos são outras 
maneiras de identificar os pontos fora da curva. Mas eles não necessariamente 
identificam os mesmos valores que aqueles com uma contagem-z menor que -3 ou 
maior que +3. No entanto, o objetivo de ambas as abordagens é simplesmente 
identificar os valores de dados extremos que devem ser revisados para assegurar a 
validade dos dados. Pontos fora da curva identificados pelos dois métodos devem 
ser revisados. 
 
 
 
 
 
 
 
 
 
 
Laps & Notes
Text Box
35
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
45 
6.7 MEDIDAS DE POSIÇÃO E DISPERSÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA 
 Quando existe uma grande quantidade de dados, estes podem ser 
agrupados. A finalidade em agrupar os dados é para facilitar os cálculos. 
 
Exemplo: Um novo medicamento para cicatrização está sendo testado e um 
experimento é feito para estudar o tempo (em dias) de completo fechamento em 
cortes provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 
15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 
15, 16, 14, 18, 18, 16, 15 e 14. 
a) Organize uma tabela de frequência. 
b) Obter as frequências relativas de cada classe. 
c) Calcular a média. 
d) Que porcentagem das observações está abaixo de 16 dias? 
e) Classifique como rápida as cicatrizações iguais ou inferior a 15 dias e como 
lenta as demais. Quais as porcentagens para cada classificação. 
 
Solução: a e b 
Cicatrização 14 15 16 17 18 total 
Frequência 5 7 6 7 5 30 
Frequência relativa 0,167 0,233 0,200 0,233 0,167 1,000 
xi. fi 70 105 96 119 90 480 
 
 Média 16
30
480.
===
∑
n
fx
x
ii
 
 
 A determinação das medidas de posição e de dispersão para uma variável 
quantitativa contínua, através de sua distribuição de frequências, exige 
aproximações, já que perde a informação dos valores observados. Por exemplo, 
com as quantidades de depósitos bancários (milhares R$), a distribuição de 
frequência está representada na Tabela 15. 
 
Laps & Notes
Text Box
36
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
46 
Tabela 15: Nível de ruído, em decibéis, de tráfego em certo cruzamento 
Nível de ruído 
(em db) 
Quantidade 
( if ) 
Ponto médio 
)( ix 
Freq. Acum. 
( acF ) ( ii fx . ) ( ii fx .
2 ) 
58,0 |-- 60,0 5 59 5 295 17.405 
60,0 |-- 62,0 5 61 10 305 18.605 
62,0 |-- 64,0 6 63 16 378 23.814 
64,0 |-- 66,0 9 65 25 585 38.025 
66,0 |-- 68,0 15 67 40 1.005 67.335 
68,0 |-- 70,0 5 69 45 345 23.805 
70,0 |-- 72,0 5 71 50 355 25.205 
Total 50 3.268 214.194 
 
 Como foi dito, no agrupamento dos dados acarreta alguma perda de 
informação. Cada elemento perde sua identidade, por isso, sabem apenas quantos 
elementos há em cada classe. Uma aproximação razoável é supor que todos os 
valores dentro de cada classe tenham seus valores iguais ao ponto médio desta 
classe. 
 
6.7.1 Média 
 Para o cálculo da média, em geral, obtém-se uma boa aproximação atribuindo 
a cada elemento que se enquadra em uma classe o valor médio correspondente. 
Esse processo em geral é satisfatório, pois os erros introduzidos nos cálculos 
tendem a compensar-se. 
 A fórmula para a média de uma distribuição de frequências, onde x1, x2, ..., xn 
são os valores médios das classes, ponderados pelas frequências correspondentes 
f1, f2, ..., fn é dada por: 
 
n
fx
x
n
i
ii∑
=
=
1
.
, assim 3.268 65,36
50
x = = 
6.7.2 Mediana 
 A mediana divide um conjunto de dados ordenados em duas partes iguais. A 
expressão para determinar a mediana de uma distribuição de frequências é dada 
por: 
Laps & Notes
Rectangle
Laps & Notes
Text Box
37
 
Análise Exploratória de Dados - Prof. Dr. Waldir Medri 
50 
6.7.6 Desvio Médio 
 O desvio médio para dados agrupados, isto é, de uma distribuição de 
frequências é calculado da seguinte forma: 
 
n
fxx
DM
n
i
ii∑
=
−
=
1
 e 
n
fx
x
ii∑
= 
onde: xi são os pontos médios das classes e os fi as respectivas frequências. 
 
6.7.7 Variância 
 A expressãopara o cálculo da variância amostral de uma distribuição de 
frequências é: 
 
1
)(
1
1
2
2
2
−
−
=
∑
∑
=
=
n
n
fx
fx
s
n
i
n
i
ii
ii
 
Obter a variância referenta a tabela 20. 
 
2
2
(3268)214194
50 12,19
50 1
s
−
= =
−
 
 
6.7.8 Desvio Padrão 
O desvio padrão é obtido extraindo a raiz quadrada da variância, isto é: 
 
49,394,12 ====>= sss 
 
6.7.9 Erro Padrão 
 49,0
50
49,3
===
n
s
s
x
 
 
 
 
 
 
 
Laps & Notes
Text Box
38
39 
 
ANÁLISE BIDIMENSIONAL 
 
É comum haver interesse em saber se duas variáveis quaisquer estão 
relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos de 
pesquisa, por exemplo: 
- se o sexo dos funcionários de uma empresa está relacionado com a função exercida; 
- o quanto o a temperatura ambiente em uma região influencia as vendas de 
refrigerante; 
- se o nível de escolaridade de um grupo de empreendedores está relacionado com o 
grau de sucesso por eles alcançado. 
Muitas vezes queremos verificar se há uma relação de causa e efeito entre as 
duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma das 
variáveis através da outra (que é mais fácil de medir) - prever os valores de uma através 
dos valores da outra, ou calcular uma medida de correlação ou de dependência entre 
as variáveis. 
A Análise Bidimensional propõe-se a tentar responder as perguntas do parágrafo 
anterior. As duas variáveis abordadas podem ser qualitativas ou quantitativas, e para 
cada tipo haverá técnicas apropriadas. Para variáveis qualitativas vamos estudar: 
tabelas de contingência, estatística qui-quadrado e o coeficiente de contingência 
modificado. Para variáveis quantitativas vamos abordar: diagramas de dispersão e 
análise de correlação. 
 
ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS 
 
Variáveis qualitativas são as variáveis cujas realizações são atributos, categorias. 
Como exemplo de variáveis qualitativas tem-se: sexo de uma pessoa (duas categorias, 
masculino e feminino), grau de instrução (analfabeto, ensino fundamental incompleto, 
etc.), opinião sobre um assunto (favorável, desfavorável, indiferente), etc. 
Em estudos sobre variáveis qualitativas é extremamente comum registrar as 
frequências de ocorrência de cada valor que as variáveis podem assumir, e quando há 
duas variáveis envolvidas é comum registrar-se a frequência de ocorrência dos 
cruzamentos entre valores: por exemplo, quantas pessoas do sexo masculino são 
favoráveis a certa proposta de lei, quantas são desfavoráveis, quantas pessoas do sexo 
feminino são favoráveis, etc. E, para facilitar a análise dos resultados estes resultados 
costumam ser dispostos em uma tabela de contingência (fazendo uma dupla 
classificação). A tabela de contingência relaciona os possíveis valores de uma variável 
qualitativa com os possíveis valores da outra, registrando quantas ocorrências foram 
verificadas de cada cruzamento. 
40 
Exemplo: Vamos analisar a tabela de contingência para as variáveis Sexo e Função. 
Sexo 
Função 
Total 
Escritório Serviços gerais Gerência 
Masculino 157 27 74 258 
Feminino 206 0 10 216 
Total 363 27 84 474 
 
Podemos apresentar os percentuais calculados em relação aos totais das colunas: 
 
Sexo 
Função 
Total 
Escritório Serviços gerais Gerência 
Masculino 43,25% 100% 88,10% 54% 
Feminino 56,75% 0% 11,90% 46% 
Total 100% 100% 100% 100% 
 
Seria interessante saber se as duas variáveis são estatisticamente dependentes, 
e o quão forte é esta associação. Repare que os percentuais de homens e mulheres em 
cada função são diferentes dos percentuais marginais (de homens e mulheres no total 
de funcionários), sendo que em duas funções as diferenças são bem grandes. 
A tabela de contingência também é chamada de distribuição conjunta das duas 
variáveis. Permite descrever o grau de associação existente entre as duas variáveis: é 
possível avaliar a “força” do relacionamento, e caso haja uma associação forte pode-se 
prever os valores de uma variável através dos da outra. Se as variáveis forem 
independentes (ou seja, a associação entre elas for fraca), as frequências na tabela de 
contingência devem distribuir-se de forma aleatória, seguindo o padrão dos totais 
marginais. Se, porém, houver uma associação entre as variáveis, elas forem 
dependentes, as frequências deverão seguir algum padrão, diferente daquele 
apresentado pelos totais marginais. 
Precisamos de uma estatística que relacione as frequências OBSERVADAS na 
tabela de contingência com as frequências ESPERADAS se as duas variáveis fossem 
independentes (se as frequências nos cruzamentos dos valores das variáveis seguissem 
os padrões dos totais marginais). E quais serão os valores das frequências esperadas? 
Exemplo: Calcule as frequências esperadas sob a condição de independência entre 
Sexo e Função para a tabela de contingência do exemplo. Se as variáveis são 
independentes as frequências de homens e mulheres em cada função devem ter a 
mesma proporção que homens e mulheres têm no total de funcionários. Lembrando 
que há 54% de homens e 46% de mulheres, esperamos que esses percentuais 
mantenham-se em cada função, se as variáveis são independentes. 
- Em Escritório, há 363 pessoas nesta função, sob a condição de independência deveria 
haver: 
41 
Homens => 54% de 363 = 197,58 Mulheres => 46% de 363 = 165,42 
- Em Serviços Gerais, há 27 pessoas, sob a condição de independência deveria haver: 
Homens => 54% de 27 = 14,70 Mulheres => 46% de 27 = 12,30 
- Em Gerência, há 84 pessoas, sob a condição de independência deveria haver: 
Homens => 54% de 84 = 45,72 Mulheres => 46% de 84 = 38,28 
Como as frequências observadas estão razoavelmente distantes das esperadas 
sob a condição de independência, há indícios de que as duas variáveis estão 
relacionadas. 
Podemos calcular as frequências esperadas para todas as células da tabela de 
contingência diretamente, utilizando a seguinte fórmula: 
Eij = 
Total da linha i x total da coluna j 
Total geral 
Onde Eij é a frequência esperada, sob a condição de independência entre as 
variáveis, em uma célula qualquer da tabela de contingência. As frequências esperadas 
são necessárias para que possamos compará-las com as observadas, sendo essa 
comparação materializada em uma estatística, chamada de qui-quadrado (2). A 
expressão está descrita abaixo: 
 
 
 
 
 
 
 
 
 
 
 
Onde L é o número total de linhas da tabela de contingência (número de valores 
que uma das variáveis pode assumir), C é o número total de colunas da tabela (número 
de valores que a outra variável pode assumir), e Oij é a frequência observada em uma 
célula qualquer da tabela de contingência. Então, para cada célula da tabela de 
contingência calcula-se a diferença entre a frequência observada e a esperada. Para 
evitar que as diferenças positivas anulem as negativas as diferenças são elevadas ao 
quadrado. E para evitar que uma diferença grande em termos absolutos, mas pequena 
em termos relativos, “inflacione” a estatística, ou que uma diferença pequena em 
termos absolutos, mas grande em termos relativos, tenha sua influência reduzida, 
divide-se o quadrado da diferença pela frequência esperada. Somam-se os valores de 
todas as células e obtêm-se o valor da estatística. 
Exemplo: Calcule a estatística qui-quadrado para a tabela de contingência do 
exemplo anterior. 
Sexo 
Função Total 
Escritório Serviços gerais Gerência 
Masculino 157 27 74 258 
Feminino 206 0 10 216 
Total 363 27 84 474 
Calculando as frequências esperadas de acordo com a fórmula vista anteriormente:

Outros materiais