Apostila_Econometria

•
UFAM

sarah farias
16/07/2014
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 143 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 143 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 143 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Econometria

6.233 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
ALUNO (A): ------------------------------------------------------------------------------------- 
 
PROFESSOR (A): ---------------------------------------------------------------------------- 
 
 
 
 
 
 
 
 
CURSO DE QUALIFICAÇÃO 
PROFISSIONAL 
ECONOMETRIA 
 
 
GOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DO 
AMAZONASAMAZONASAMAZONASAMAZONAS 
CETAM 
Centro de Educação Tecnológica do 
Amazonas 
SEPLAN 
Secretaria de Estado de Planejamento e 
Desenvolvimento Econômico 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
APOSTILA DE ECONOMETRIA 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
PROF. Geraldo Lopes de Souza Júnior 
 
 
2 
 
 
 
 
 
ÍNDICE 
 
 
1 - INTRODUÇÃO A ESTATÍSTICA ................................................................................................................ 3 
1.1 - UM POUCO DE HISTÓRIA ................................................................................................................... 3 
1.2 - O QUE É ESTATÍSTICA?....................................................................................................................... 4 
1.3 - POR QUE ESTUDAR ESTATÍSTICA? ................................................................................................... 4 
1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? ....................................................................... 5 
1.5 - SOFTWARES ESTATÍSTICOS................................................................................................................ 6 
1.6 - ALGUNS CONCEITOS FUNDAMENTAIS ............................................................................................ 7 
2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ................................ 8 
2.1 - TIPOS DE DADOS ................................................................................................................................. 8 
2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA .................................................................................................... 9 
2.3 - MEDIDAS ............................................................................................................................................. 22 
2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES................................................................................................... 38 
2.5 - DIAGRAMA EM CAIXAS...................................................................................................................... 43 
3 - ANÁLISE BIDIMENSIONAL...................................................................................................................... 50 
3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS .......................................................... 51 
3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS........................................................ 56 
4 - ANÁLISE DE SÉRIES TEMPORAIS ......................................................................................................... 81 
4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS............................................................................... 83 
4.2 - OBTENÇÃO DA TENDÊNCIA ............................................................................................................. 86 
4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS ......................................................................................... 95 
4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES ............................................................. 99 
4.5 - RECOMPOSIÇÃO .............................................................................................................................. 104 
5 - NÚMEROS ÍNDICES.................................................................................................................................. 112 
5.1 - NÚMEROS ÍNDICES SIMPLES ......................................................................................................... 112 
5.2 - NÚMEROS ÍNDICES COMPOSTOS.................................................................................................. 115 
5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE............................................................................ 119 
5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS................................................................................. 122 
REFERÊNCIAS ................................................................................................................................................ 141 
 
3 
 
 
1 - INTRODUÇÃO A ESTATÍSTICA 
 
 
 
Geralmente, quando começamos a lecionar um curso de estatística direcionado 
para não estatísticos, somos indagados por questões muito pertinentes. Como 
exemplo podemos citar: 
 
 O que é estatística? 
 Por que estudar estatística? 
 O que a estatística tem haver com a formação profissional que estou 
almejando? 
 Quando se deve usar a estatística? 
 Como se deve usar a estatística? 
 
Na pretensão de responder essas e muitas outras perguntas, produzimos este 
material buscando uma linguagem acessível e atraente. 
 
1.1 - UM POUCO DE HISTÓRIA 
 
Em uma pesquisa feita por um grande matemático e estatístico de nossos dias, 
Gauss Cordeiro, encontramos indícios estatísticos desde muito tempo antes de 
Cristo. Por exemplo, em 5000 a.C. já existiam registros egípcios de presos de 
guerra, em 3000 a.C. os jogos de dados, em 2000 a.C. temos o Censo Chinês, em 
1500 a.C. dados de mortos em guerras no Velho Testamento, em 1100 a.C. já 
existiam registros de dados em livros da Dinastia Chinesa, em 400 a.C. é possível 
encontrarmos uma descrição detalhada de coleta de dados em livros de 
Constantinopla e em aproximadamente 100 a.C. Horácio usa um ábaco de fichas 
como instrumento de “cálculo portátil”. 
 
Para alguém já familiarizado com o curso de Administração Pública, esses 
dados podem ser vistos como indícios de relatórios gerenciais primitivos e não 
estatística propriamente dita. O leitor que afirma isso está parcialmente correto. Aqui 
ficam nítidas as raízes comuns entre a estatística e a administração. 
 
4 
 
 
Contudo, as intersecções não se dão apenas antes de Cristo. Muito pelo 
contrário, após Cristo os pontos em comuns se dão de forma mais consistentes e 
constantes. Temos em 400 d.C. o desenvolvimento da teoria dos números, em 695 
d.C. a utilização da média ponderada pelos árabes na contagem de moedas, em 
1303 d.C. a origem dos números combinatórios (Shihchieh Chu), em 1707 d.C. 
Números Índices (Fleetwood), em 1710 d.C. a primeira publicação de um Teste de 
Significância (John Arbuthnot), em 1892 d.C. determinação do Coeficiente de 
Correlação (Edgeworth) e em 1915 d.C. a fórmula do Lote Econômico (Harris). 
 
 
1.2 - O QUE É ESTATÍSTICA? 
 
A fim de conceituar a estatística, podemos dizer que ela é uma reunião de 
métodos quantitativos que serve para estudar e medir os fenômenos acerca de uma 
população. Ou, um ramo da matemática que trata da coleta, da análise, da 
interpretação e da apresentação de massas de dados numéricos. 
 
Etimologicamente, criada por Schmeitzel (1785) a partir do latim status 
(estado), statisticum. 
 
Sendo usada originalmente na Idade Antiga para levantamentos de dados no 
intuito de auxiliar o estado na tomada de decisões. 
 
 
1.3 - POR QUE ESTUDAR ESTATÍSTICA? 
 
Queremos chamar a atenção do estudante para dois objetivos relevantes. O 
primeiro, mais geral, é fazer com que o estudante possa distinguir entre problemas 
onde a estatística pode ser aplicada e problemas onde ela não se aplica. O segundo 
é que inclui a capacidade de reconhecer qual técnica se aplica à determinada 
situação e de utilizá-la da melhor formapossível na resolução do problema. 
 
Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o 
leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para 
5 
 
 
todas as outras disciplinas. Desta forma será possível fazer um link entre as 
disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística 
para o curso. Contudo, podemos evidenciar o seguinte: 
 
 O detentor de conhecimentos estatísticos pode ter uma visão mais crítica 
das informações expostas pela imprensa e das experiências do cotidiano 
que oferecem inúmeras interpretações; 
 O raciocínio estatístico está amplamente difundido e é muito utilizado na 
administração pública e privada. Assim, é possível que, no futuro, um 
empregador venha a contratar ou promover um profissional por causa de 
seus conhecimentos estatísticos; 
 Os administradores precisam do conhecimento da estatística para tomar 
algumas de suas decisões e para evitar serem ludibriados por certos 
resultados errôneos ou viciados; 
 Muitos periódicos e revistas de administração pública e áreas afins trazem 
referências freqüentes a estudos estatísticos; 
 
Esperamos que estas razões possam dar uma idéia do que o estudante de 
Administração Pública pode esperar do seu estudo de estatística. 
 
 
1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? 
 
Hoje, é muito comum ouvir algo do tipo: “As estatísticas mostram um 
crescimento econômico no último semestre”, “Segundo as estatísticas do ministério 
da agricultura, o cultivo de macaxeira e açaí é o responsável pelo decrescimento em 
dois pontos percentuais do desemprego no interior do Amazonas”, “O índice 
pluviométrico do rio Negro vem subindo a uma taxa de oito centímetros por dia”, “A 
taxa de criminalidade juvenil diminuiu em 60% no último ano de governo de Eduardo 
Braga”, “Houve um aumento de 120% na procura por educação nos ensinos 
fundamental e médio, afirma a SEMED”. Esses tipos de frases do nosso cotidiano 
são resultados de uma parte da estatística que utiliza números para descrever fatos, 
chamada apropriadamente de Estatística Descritiva. Podemos afirmar que a 
estatística descritiva é responsável pela organização, resumo, simplificação, 
interpretação e apresentação de informações um pouco mais complexas. 
6 
 
 
Outra parte da estatística, muito interessante, está relacionada com a teoria de 
probabilidade. Usamos a probabilidade para resolver questões que envolvem o 
acaso. Introdutoriamente podemos citar jogos de azar, resultados de partidas de 
futebol e resultados de lançamentos de moedas. Mais especificadamente, a 
aceitação de determinada abordagem em uma população em estudo, a decisão de 
investir na compra de determinadas ações, a decisão de contratar funcionários para 
empresa, todas utilizam a probabilidade consciente ou inconscientemente. 
 
A probabilidade nos dá “indicativos”, não certezas. Em uma de minhas leituras 
encontrei um caso curioso. Um aluno pergunta ao professor: “Se a probabilidade é a 
‘ciência do acaso’, como faço para ganhar na loteria?”, assim o professor, como 
tantos outros conhecedores de estatística respondeu: “Se eu soubesse, não estaria 
aqui dando aulas!”. 
 
Por fim, temos um terceiro ramo da estatística que está interessado na análise 
e interpretação de dados amostrais: a inferência. Basicamente a amostragem aborda 
uma fração, o mais fidedigna possível, de determinada população e utiliza as 
informações extraídas deste pequeno grupo para fazer inferência sobre a população 
toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através 
de certos procedimentos. Como exemplos, temos: assistir por alguns instantes 
determinado programa da TV para avaliar se vale a pena continuar assistindo; comer 
um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos 
da classe para determinar o que a maioria pensa a respeito de determinado assunto. 
Deve ficar claro ao estudante de estatística que essas três áreas não são 
separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar. 
Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É 
preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de 
probabilidade. 
 
 
1.5 - SOFTWARES ESTATÍSTICOS 
 
É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer 
cálculos!”. Hoje um curso de estatística para Administração Pública exige 
7 
 
 
inicialmente do aluno um conhecimento básico de matemática (nada sofisticado) e 
certa familiaridade com o Windows ou Linux, editores de texto e planilhas. 
 
Os pacotes estatísticos mais usuais como o Minitab, SPSS e R, importam 
dados do Excel e/ou bloco de notas do Windows. Com eles é possível ter análises 
estatísticas (resumos, gráficos e tabelas) em curto espaço de tempo dando um ou 
dois “cliques”. Chamaremos a atenção para um pacote estatístico em particular, o 
Scientific Annalsys Ststistical - SAS. O SAS talvez seja, hoje, o pacote mais 
completo e eficiente disponível no mercado. 
 
 
1.6 - ALGUNS CONCEITOS FUNDAMENTAIS 
 
Aqui deve começar de fato a familiarização com a linguagem estatística. Os 
conceitos ora apresentados são de grande importância para o curso e serão 
constantemente usados no decorrer do curso de estatística. 
 
 População: coleção de elementos (pessoas, objetos, animais, itens) que 
são inerentes ao estudo de um fenômeno coletivo possuindo alguma 
característica em comum; 
 Amostra: fração ou subconjunto da população; 
 Parâmetro: característica numérica estabelecida para toda a população; 
 Estimador: característica numérica estabelecida para uma amostra; 
 Variável: característica não numérica de uma população ou amostra; 
 Censo: é uma avaliação direta de um parâmetro, utilizando todos os 
componentes da população; 
 Estimação: é uma avaliação indireta de um parâmetro, como base em um 
estimador; 
 Dados brutos: é uma seqüência de valores numéricos não organizados, 
obtidos diretamente da observação de um fenômeno coletivo; 
 Rol: é uma seqüência ordenada, de forma crescente ou decrescente, dos 
dados brutos. 
 
 
8 
 
 
2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS 
ESTATÍSTICOS 
 
 
 
2.1 - TIPOS DE DADOS 
 
Podemos classificar as variáveis e os dados em estudo basicamente em dois 
grupos: Quantitativos (discretos ou contínuos) e Qualitativos (nominais ou ordinais). 
 
 
2.1.1 - Dados quantitativos 
 
 
Os dados quantitativos envolvem variáveis que são inerentemente numéricas. 
Esse tipo de variável pode ser dividido em variáveis quantitativas discretas ou 
variáveis quantitativas continuas. Uma variável quantitativa discreta só pode assumir 
determinados valores, em geral inteiros. Os dados discretos originam-se da 
contagem de itens ou elementos com determinada característica. Como exemplos: o 
número de ações de uma empresa; o número de alunos numa sala de aula; a 
quantidade de acidentes numa fábrica; etc. As variáveis que podem assumir 
virtualmente qualquer valor num intervalo de valores são chamadas contínuas. 
Características como idade, altura, peso, renda, tempo necessário pra realizar 
determinada tarefa, enquadram-se nesta categoria. Os dados referentes a essas 
características e similares dizem-se contínuos, embora na prática os instrumentos de 
mensuração tenham limitações físicas que lhes restringem o grau de precisão. 
 
 
2.1.2 - Dados qualitativos 
 
Os dados qualitativos envolvem variáveis que não são inerentemente 
numéricas, contudo as variáveis qualitativas devem ser convertidas em valores 
numéricos antes de serem processadas estatisticamente. Esse tipo de variável pode 
ser dividido em variáveis qualitativas nominais ou variáveis qualitativas ordinais. As 
variáveis qualitativasnominais envolvem categorias tais como sexo (masculino ou 
feminino), curso de estudo (Ciências Contábeis, Serviço Social, Administração, 
Filosofia, Pedagogia), desempenho (excelente, bom, regular, ruim), etc. Os dados 
9 
 
 
nominais surgem quando se definem categorias ou classes e se conta o número de 
observações pertencentes a cada categoria. Os dados ordinais consistem de valores 
atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc. 
 
Para cada tipo de variável existem técnicas diferentes para resumir as 
informações. Contudo, poderemos observar que as técnicas usadas num caso 
podem ser usadas para outros.Faz-se necessário evidenciar que em algumas 
situações é possível atribuir valores numéricos às várias qualidades ou atributos de 
uma variável qualitativa e depois analisar os dados como se esses fossem 
quantitativos. Mas isto só poderá ser feito se o procedimento for passível de 
interpretação.Existe um tipo de variável qualitativa para a qual essa quantificação é 
muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas 
realizações, usualmente chamadas sucesso e fracasso. A variável sexo é um bom 
exemplo disso. 
 
Organograma para o tipo de variáveis e dados 
 
2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA 
 
 
Podemos afirmar que uma distribuição de freqüência é um método de 
agrupamento de dados em classes, possibilitando determinar o número ou 
percentual de elementos em cada uma destas classes. Assim, quando estamos 
trabalhando com um grande conjunto de dados, poderemos visualizá-lo sem precisar 
levar em conta os números individuais. Uma distribuição de freqüência pode ser 
apresentada sob a forma de uma tabela ou de um gráfico. 
Estudaremos agora como apresentar um resumo dos dados através de tabelas. 
Para fins ilustrativos, faremos uso das informações dispostas no Quadro 2.1. 
10 
 
 
Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida em 
metros), peso (medido em quilogramas), estado civil, renda (medida em reais), zona 
da cidade em que mora, naturalidade (somente o estado de nascimento), time que 
torce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso de 
econometria do CETAM, Manaus – 09/2010. 
Gênero 
Idade 
(anos) 
Altura 
(m) 
Peso 
(kg) 
Estado 
civil 
Renda 
individual 
(R$) 
Zona 
residencial 
Naturalidade 
(estado) 
Time 
Pret. Sal. 
ao se 
formar 
Tipo 
Sanguíneo 
F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O + 
M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O + 
F 19 1,62 48 solt leste pará Flamengo 5.000,00 A + 
M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A - 
M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O + 
M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 A 
F 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 - 
M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O + 
M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O + 
M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A + 
F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A + 
F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O + 
F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O + 
M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A + 
F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O + 
F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O + 
F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 - 
F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A + 
M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O + 
F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+ 
F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A + 
M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O + 
F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A - 
F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O + 
M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB + 
F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O + 
F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A + 
F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A + 
F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B + 
F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A + 
F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A + 
F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A + 
M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O + 
M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 - 
F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O + 
M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O + 
M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O + 
F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+ 
F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A + 
F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O + 
F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O + 
F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O + 
F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O + 
F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B + 
F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A + 
 
FONTE: PESQUISA DE CAMPO 
11 
 
 
 
2.2.1 - Elaboração de tabelas 
 
Alguns rigores são exigidos na construção de tabelas: 
 
 É necessário saber previamente com que tipo de variável se deseja 
trabalhar (quantitativa ou qualitativa); 
 É necessário definir quantas e quais classes deverão ser utilizadas 
de acordo com um objetivo pré-determinado; 
 Se a variável for quantitativa, é necessário determinar a amplitude 
das classes (quando for conveniente); 
 Toda tabela deve ter significado próprio, dispensando consultas ao 
texto; 
 Toda tabela deve apresentar um título; 
 Toda tabela deve informar a fonte dos dados e o texto que contem tal 
informação deve ser apresentado em tamanho inferior aos demais textos 
da tabela e deve estar em caixa alta; 
 Nunca se fecha uma tabela nas laterais, esse procedimento objetiva 
permitir a entrada ou retiradas de informações; 
 A tabela deve ser colocada em posição vertical, para facilitar a leitura 
dos dados. No caso em que isso seja impossível, deve ser colocada em 
posição horizontal, com o título voltado para a margem esquerda da folha; 
 Se a tabela ou quadro não couber em uma página, deve ser 
continuado na página seguinte. Neste caso o final não será delimitado por 
traço horizontal na parte inferior e o cabeçalho será repetido na página 
seguinte; 
 Não devem ser apresentadas tabelas nas quais a maior parte das 
classes indiquem inexistência do fenômeno. 
 
Para exemplificarmos, tomaremos as variáveis sexo (qualitativa nominal) e 
idade (quantitativa contínua). Assim poderemos resumir o conjunto de informações 
acerca dessas variáveis disposto no Quadro 2.1 em tabelas que nos darão idéia do 
todo. 
 
12 
 
 
 
Tabela 2.1: Freqüências e porcentagens dos 45 alunos do curso de econometria do 
CETAM segundo o sexo – setembro de 2010. 
Sexo Freqüência simples Freqüência relativa (%) 
Masculino 15 33,33 
Feminino 30 66,67 
Total 45 100,0 
 
FONTE: DADOS HIPOTÉTICOS. 
 
Tabela 2.2: Freqüências e porcentagens dos 45 alunos do curso de econometria do 
CETAM segundo a idade – setembro de 2010. 
Idade 
Freqüência 
simples 
Freqüência 
relativa (%) 
Freqüência 
acumulada 
Freqüência 
acumulada relativa 
(%) 
18├─ 24 15 33,33 15 33,33 
24├─ 30 08 17,78 23 51,11 
30├─ 40 14 31,11 37 82,22 
40├─ 50 05 11,11 42 93,33 
50├─ 60 03 06,67 45 100,0 
Total 45 100,0 
 
FONTE: DADOS HIPOTÉTICOS. 
 
Quando estudamos a variável sexo só temos duas alternativas possíveis.Cada 
indivíduo da população em estudo ou é do sexo masculino ou é do sexo feminino. 
Podemos considerar cada uma dessas possibilidades como uma categoria, ou 
ainda, uma classe. Sendo assim, a Tabela 2.1 se apresenta com duas classes: 
masculino e feminino. Observamos que 30 alunos do total de 45 são do sexo 
feminino e que este grupo representa 66,67% do total. Encontramos o número 30 
como freqüência simples da segunda classe contando o número de pessoas que 
afirmaram ser do sexo feminino. O valor 66,67% é obtido quando dividimos a 
quantidade de pessoas do sexo feminino pelo total de pessoas e em seguida 
multiplicando esse resultado por cem. Assim, podemos concluir que o percentual 
atribuído a cada classe é dado pela freqüência relativa vezes cem. A equação da 
freqüência relativa é dada por: 
 
13 
 
 
 
 
Para as variáveis quantitativas podemos proceder de duas formas. A primeira é 
repetir o processo usado na construção da tabela 2.1, ou seja, identificar todas as 
classes (alternativas possíveis) e verificar a freqüência associada a cada uma 
dessas classes. Esse processo pode ser inviável se a variável em estudo possuir um 
número muito grande de possibilidades de respostas e/ou a população em estudo 
for muito numerosa. Para solucionar este problema apresentamos um outro 
procedimento. Reuni-se em uma única classe várias possibilidades de respostas. Se 
a variável em estudo é a idade, então podemos reunir em uma única classe todas as 
idades no intervalo de 18 a 24 anos, por exemplo. 
 
A tabela 2.2 apresenta a variável idade dividida em cinco classes. A primeira 
classe tem como limite inferior o número 18 e como limite superior o número 24. O 
sinal apresentado entre esses números nos da idéia do tipo de intervalo usado. 
Neste caso, dizemos que o intervalo da primeira classe é fechado em 18 e aberto 
em 24, ou seja, a primeira classe envolve todas as idades iguais ou maiores que 18 
anos e menores que 24. Note que não entrará nesta classe uma observação igual a 
24. Lê-se a classe 18├─ 24 da seguinte forma: de 18 anos inclusive até 24 anos 
exclusive. É possível termos classes dos tipos 18─┤24 (de 18 anos exclusive até 24 
anos inclusive) ou 18├─┤24 (de 18 anos inclusive até 24 anos inclusive). 
 
A diferença entre o maior valor observado e o menor valor observado é 
chamado de amplitude total, geralmente representado por At. A diferença entre o 
limite superior e o limite inferior de cada classe recebe o nome de amplitude de 
classe, geralmente representado por h. É possível encontrar na literatura autores 
que definam equações para determinar o número de classes e a amplitude que cada 
classe deve ter. Por exemplo, para determinar o número K de classes: ou K 
= 1 + 3,33 log n . Em que o n é o número total de observações. Feito isso será 
possível determinar a amplitude da classe através da equação: 
 
É necessário atentar para o fato de que quando temos muitas observações 
esses caminhos se tornam inviáveis por determinarem um número muito grande de 
classes. Observe ainda que procedendo desta maneira todas as classes terão a 
14 
 
 
mesma amplitude, o que pode contrariar o objetivo do estudo. Por exemplo, se o 
interesse é verificar a quantidade de crianças, adolescentes, jovens, adultos e 
idosos de uma população composta de 900 pessoas, usando a variável idade, onde 
a menor idade observada é 1 ano e a maior é 81 anos. Usando as equações acima, 
teríamos entre 24 a 30 classes e cada classe possuiria uma amplitude igual a 3 ou 4. 
Isso geraria uma tabela muito carregada e possivelmente não explicitaria o objetivo 
do estudo. 
 
A melhor maneira de determinar o número de classes e a amplitude de cada 
classe é usar o bom senso. Ainda com o objetivo de verificar a quantidade de 
crianças, adolescentes, jovens, adultos e idosos de uma população, usando a 
variável idade, podemos dividi-la em apenas cinco classes de amplitudes diferente e 
atender de forma bastante satisfatória o objetivo do estudo, por exemplo: 0 ├─ 12, 
12 ├─ 18, 18 ├─ 24, 24 ├─ 65, 65 ├─ 120. 
 
Podemos ter como interesse resumir simultaneamente os dados de duas 
variáveis. Neste caso usamos tabelas de dupla entrada (ou tabelas de contingência), 
onde deverão aparecer as freqüências simples e/ou as freqüências relativas que 
pertencem simultaneamente a classes de uma e outra variável. Quando 
consideramos duas variáveis podemos ter três situações: 
 
 As duas variáveis são qualitativas; 
 As duas variáveis são quantitativas; 
 Uma variável é qualitativa e a outra é quantitativa. 
 
A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável 
quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis 
usadas para construir as tabelas 2.1 e 2.2 (sexo e idade). 
 
Deve ficar claro que um dos principais objetivos de se construir uma 
distribuição conjunta (uma tabela de dupla entrada, por exemplo) de duas variáveis é 
medir o grau de dependência entre elas, de modo que possamos prever o melhor 
resultado de uma delas quando conhecemos a realização da outra. 
 
15 
 
 
Construiremos uma tabela de dupla entrada a fim de verificar se existe ou não 
associação entre as variáveis sexo e idade usando as observações dispostas no 
quadro 2.1. 
 
Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de 
econometria do CETAM – setembro de 2010. 
Sexo Idade (anos) Feminino Masculino Total 
18├─ 24 10 5 15 
24├─ 30 4 4 8 
30├─ 40 10 4 14 
40├─ 50 3 2 5 
50├─ 60 3 0 3 
Total 30 15 45 
 
FONTE: DADOS HIPOTÉTICOS. 
 
Esse tipo de tabela nos trás boas informações. Podemos observar, por 
exemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e 
40 anos (exclusive). Observamos ainda que, independente da idade, existem 30 
alunos do sexo feminino e 15 do sexo masculino. 
 
Perceba que os totais marginais para a variável sexo são iguais às freqüências 
simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são 
iguais às freqüências simples dispostas na tabela 2.2. 
 
Esta forma de apresentação, através de freqüência simples, pode dificultar o 
entendimento uma vez que não temos uma idéia clara de cada informação em 
relação ao todo. Para tanto poderíamos ter essas informações expressas em termos 
percentuais. 
 
Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dos 
alunos do curso de econometria do CETAM – setembro de 2010. 
Sexo Idade (anos) Feminino Masculino Total 
18├─ 24 22,22 % 11,11 % 33,33 % 
24├─ 30 08,89 % 08,89 % 17,78 % 
30├─ 40 22,22 % 08,89 % 31,11 % 
40├─ 50 06,67 % 04,44 % 11,11 % 
50├─ 60 06,67 % 00,00 % 06,67 % 
Total 66,67 % 33,33 % 100,00 % 
 
FONTE: DADOS HIPOTÉTICOS. 
 
16 
 
 
Observe que não existem alunos do sexo masculino com idade superior a 50 
anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades 
no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que, 
independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e 
apenas 6,67% de alunos com idade superior ou igual a 50 anos. 
 
Perceba que os totais marginais para a variável sexo são iguais às freqüências 
relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são 
iguais às freqüências relativas dispostas na tabela 2.2. 
 
Uma outra forma de apresentação de tabelas de dupla entra seria exibir em 
uma única tabela as freqüências relativas e percentuais. Para exemplificar, 
observemos a Tabela 2.5. 
 
Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveis 
sexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010 
 
Sexo Idade (anos) Feminino Masculino Total 
10 5 15 18├─ 24 22,22 % 11,11 % 33,33 % 
4 4 824├─ 30 8,89 % 8,89 % 17,78 % 
10 4 14 30├─ 40 22,22 % 8,89 % 31,11 % 
3 2 5 40├─ 50 6,67 % 4,44 % 11,11 % 
3 0 3 50├─ 60 6,67 % 0,0 % 6,67 % 
30 15 45 Total 66,67 % 33,33 % 100,00 % 
FONTE: DADOS HIPOTÉTICOS. 
EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA. 
 
 
Assim podemos observar que existem dez alunos do sexo feminino com idade 
entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam 
22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30 
alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino. 
 
 
 
17 
 
 
2.2.2. Elaboração de gráficos 
 
Uma outra forma de apresenta um resumo dos dados é através de gráficos. A 
representação gráfica de uma distribuição de uma variável tem a vantagem de, 
rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que 
podem ser utilizados e abordaremos aqui os mais simples. 
 
Para representar variáveis qualitativas existem vários tipos de gráficos que 
obedecem o mesmo principio, logo nos limitaremos a apresentar três deles: gráficos 
de barras, colunas e setores circular (“pizza”). 
 
O gráfico em colunas consiste em construir tantos retângulos conforme o 
número de classes de seu interesse, em que a altura de cada um desses retângulos 
(classes) está relacionada diretamente com a freqüência (simples ou relativa). Essas 
colunas estão dispostas paralelamente umas às outras, no sentido vertical. No 
gráfico em barras são construídos tantos retângulos conforme o número de classes 
de seu interesse, em que o comprimento de cada um desses retângulos (classes) 
está relacionado diretamente com a freqüência (simples ou relativa). Essas barras 
estão dispostas paralelamente umas às outras, no sentido horizontal. 
 
Ao construirmos um gráfico, independente do tipo, devemos atentar para o tipo 
de variável com a qual estamos trabalhando. É necessário verificar se a variável em 
estudo é continua ou não. Se a variável for contínua, devemos demonstrar isso no 
gráfico, ou seja, as classes (barras, colunas ou setores) deverão ser apresentadas 
justapostas. Se a variável não for contínua as classes deverão ser apresentadas 
separadamente. Uma outra observação a ser feita é que usualmente o titulo da 
figura deve ser apresentado em baixo da figura. 
 
Apesar de termos as duas convenções supracitadas, é muito comum 
encontrarmos em revistas, periódicos, livros e em outros meios de informação, 
gráficos fugindo desses padrões. Isso torna esses “erros” comuns, mas não 
aceitáveis. 
 
Para exemplificar, tomaremos a variável qualitativa estado civil e a variável 
quantitativa idade. Nas figuras 2.1, 2.2 e 2.3 temos, respectivamente, gráfico em 
colunas, gráfico em setores circular e gráfico em barras para a variável estado civil. 
18 
 
 
Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em 
setores circular e gráfico em barras para a variável idade. As observações usadas 
para a elaboração desses gráficos foram retiradas do quadro 2.1. 
 
 
Figura 2.1: Gráfico em colunas para a variável estado civil dos 
alunos do curso de econometria do CETAM - setembro de 
2010 
 
 
 
Figura 2.2: Gráfico em setores circular para a variável estado 
civil dos alunos do curso de econometria do CETAM - 
setembro de 2010 
 
19 
 
 
 
Figura 2.3: Gráfico em barras para a variável estado civil dos 
alunos do curso de econometria do CETAM - setembro de 
2010 
 
 
 
Figura 2.4: Gráfico em colunas para a variável idade dos 
alunos do curso de econometria do CETAM - setembro de 
2010 
 
 
20 
 
 
 
Figura 2.5: Gráfico em setores circular para a variável idade 
dos alunos do curso de econometria do CETAM - setembro de 
2010 
 
 
 
Figura 2.6: Gráfico em barras para a variável idade dos alunos 
do curso de econometria do CETAM - setembro de 2010 
 
Podemos ter como interesse resumir simultaneamente os dados de duas 
variáveis em um único gráfico. A exemplo das tabelas de dupla entrada (ou tabelas 
de contingência), nos gráficos deverão aparecer as freqüências simples ou as 
21 
 
 
freqüências relativas que pertencem simultaneamente a classes de uma e outra 
variável. Para ilustrar, temos as figuras 2.7 e 2.8. 
 
 
Figura 2.7: Gráfico em colunas para a distribuição conjunta das 
variáveis sexo e idade dos alunos do curso de econometria do 
CETAM - setembro de 2010 
 
 
Figura 2.8: Gráfico em barras para a distribuição conjunta das 
variáveis sexo e idade dos alunos do curso de econometria do 
CETAM - setembro de 2010 
 
 
22 
 
 
2.3 - MEDIDAS 
 
Até agora vimos que é possível resumir os dados e apresentá-los em forma de 
tabelas e gráficos. Contudo, quando estamos diante de um banco de dados é 
conveniente tentar resumi-lo através do cálculo de algumas medidas que a 
caracterizam. Estas medidas, quando bem interpretadas, podem fornecer-nos 
informações muito valiosas com respeito a este conjunto de dados. 
 
Em suma, podemos reduzi-lo a alguns valores, cuja interpretação fornece-nos 
uma compreensão bastante precisa de todo o conjunto de observações. Alguns 
destes valores são as medidas de tendência central outros são as medidas de 
dispersão. 
 
 
2.3.1. Medidas de tendência central 
 
São valores intermediários do conjunto de dados, ou seja, valores 
compreendidos entre o menor e o maior valor da série. São também valores em 
torno dos quais os elementos do conjunto de dados estão distribuídos. A medida de 
tendência central procura estabelecer um número no eixo horizontal em torno do 
qual a série se concentra. 
As principais medidas de tendência central são: média, mediana e moda. 
 
 
 2.3.1.1. Média 
 
 Do ponto de vista teórico, vários tipos de média podem ser calculados para 
uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto 
a mais comum. Apresentaremos ainda as médias geométricas e harmônicas. 
 
 Média aritmética simples: 
Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média aritmética simples, 
que designaremos por X é definida por: 
n
x
X i∑= 
23 
 
 
 
 Média aritmética ponderada: 
Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3, 
..., pn, respectivamente, a média aritmética ponderada, que designaremos por pX , é 
definida por: 
∑
∑
=
i
ii
p p
px
X
 
 
 Média geométrica simples 
Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média geométrica simples, 
que designaremos por gX , é definida por: 
n
ng xxxxX ...321= 
 
 Média geométrica ponderada 
Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3, 
..., pn, respectivamente, a média geométrica ponderada, que designaremos por 
gpX , é definida por: 
∑
=
i np p
n
ppp
gp xxxxX ...321 321 
 
 Média harmônica simples 
Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , a 
média harmônica simples, que designaremos por hX , é definida por: 
n
h
xxxx
nX 1
...
111
321
++++
= ou 
∑
=
i
h
x
nX 1
 
Note que a média harmônica é o inverso da média aritmética dos inversos dos 
elementos. 
 
 Média harmônica ponderada 
Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , 
afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média harmônica ponderada 
que designaremos por hpX é definida por: 
24 
 
 
 
n
n
i
hp
x
p
x
p
x
p
x
p
p
X
++++
=
∑
...
3
3
2
2
1
1
 ou 
∑
∑
=
i
i
i
hp
x
p
p
X
 
 
A média harmônica aplica-se naturalmente quando sequer a obtenção de uma 
média cuja unidade de medida seja o inverso da unidade de medida dos 
componentes da seqüência original. 
 
A média geométrica só é indicada para representar uma série de valores 
aproximadamente em progressão geométrica. 
 
Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir 
o desenvolvimento de médias ao caso de média aritmética, que é a média mais 
utilizada nas aplicações. 
 
 
 2.3.1.2. Cálculo da Média Aritmética 
 
 Dados brutos ou rol 
Neste caso, devemos utilizar uma média aritmética simples: 
n
x
X i∑= 
 Dados tabelados 
Se os dados estão apresentados na forma de uma tabela, utilizaremos a média 
aritmética ponderada, considerando as freqüências simples fi como sendo as 
ponderações dos elementos xi correspondentes. 
A equação da média que originalmente era 
∑
∑
=
i
ii
p
px
X passa a ser escrita 
como: 
∑
∑
=
i
ii
f
fx
X
 
Obs: Para tabelas de variáveis continuas, o valor de xi é o ponto médio da 
classe i. 
 
 
25 
 
 
 2.3.1.3. Mediana 
 
É um valor real que separa o rol em duas partes deixando à sua esquerda o 
mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que 
ocupa a posição central em um conjunto de dados. A mediana será denotada por 
md. 
 
 2.3.1.4. Cálculo da Mediana 
 
 Dados brutos ou rol 
Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo 
o Rol. Em seguida determinamos o número n de elementos do Rol. Se n é impar, o 
Rol admite apenas um termo central que ocupa a posição 





 +
2
1n
º. O valor do 
elemento que ocupa esta posição é a mediana. Se n é par, o rol admite dois termos 
centrais que ocupam as posições 





2
n
º e 





+ 1
2
n
º. A mediana é convencionada 
como sendo a média dos valores que ocupam estas posições centrais. 
Quando lidamos com um conjunto de dados muito grande, a quantidade de 
elementos à esquerda é à direita é aproximadamente 50% do total de 
elementos, o que conduz a seguinte interpretação genérica para a mediana: 
"50% dos valores do conjunto de dados são valores menores ou iguais a 
mediana e 50% dos valores do conjunto de dados são valores maiores ou 
iguais a mediana". 
 
 Dados tabelados - variável discreta 
Se os dados estão apresentados na forma de uma variável discreta, eles já 
estão naturalmente ordenados. Assim, basta verificar se o número de elementos da 
série é ímpar ou par e aplicar o mesmo raciocínio do caso anterior. 
 
 Dados tabelados - variável contínua 
Se a dados são apresentados na forma de uma variável contínua, o raciocínio 
anterior não pode ser utilizado, uma vez que mesmo identificada a posição da 
mediana no conjunto de dados, o valor do elemento da série que ocupa esta 
posição não é identificável. Assim, para determinar a mediana temos a 
equação: 
26 
 
 
hf
Fn
lm
d
d
m
ant
md
−
+= 2 
em que: 
1md = limite inferior da classe mediana. 
n = número de elementos do conjunto de dados. 
Fant = freqüência acumulada da classe anterior à classe mediana. 
fmd = freqüência simples da classe mediana. 
h = amplitude do intervalo de classe. 
 
COMENTÁRIO: Devido às condições impostas na obtenção da fórmula da 
mediana, fica evidente que o valor obtido pela fórmula é um valor aproximado do 
verdadeiro valor da mediana do conjunto de dados. 
De modo geral, todas as medidas calculadas para uma variável contínua serão 
valores aproximados para estas medidas, uma vez que ao agruparmos os dados 
segundo uma variável contínua, há perda de informações quanto à identidade dos 
dados. 
 
 2.3.1.5. Moda 
 
É o valor de maior freqüência em um conjunto de dados. Notação: A moda será 
denotada por mo. 
 
 
 2.3.1.6. Cálculo da Moda 
 
 Dados brutos ou rol 
Basta identificar o elemento de maior freqüência. Se a maior freqüência for 
atribuída a um único valor, dizemos que o conjunto de dados é unimodal. Se a maior 
freqüência for atribuída a valores distintos, dizemos que o conjunto de dados é 
bimodal. Poderemos encontrar seqüências trimodais, tetramodais e assim 
sucessivamente. Estes conjuntos de observações serão chamados de forma 
genérica por seqüências polimodais. 
Se todos os valores do conjunto de dados apresentam a mesma freqüência, 
dizemos que o conjunto de dados é amodal. 
 
27 
 
 
 Dados tabelados - variável discreta 
Este caso é ainda mais simples. Note que na apresentação da variável discreta, 
as freqüências já estão computadas. Basta identificar o elemento de maior 
freqüência. 
 
 Dados tabelados - variável contínua 
Para determinar a moda de uma variável contínua, podemos optar por vários 
processos. Daremos destaque para a moda de Pearson, de King e de Czuber. 
 
 Moda de Pearson: 
Segundo PEARSON, a moda de uma variável contínua pode ser obtida através 
do valor da média e da mediana: 
Xmm do 23 −= 
 
 Moda de King 
KING levou em consideração, em sua fórmula, a freqüência simples da classe 
anterior e a freqüência simples da classe posterior à classe modal. 
hff
f
lm
postant
post
mo o +
+=
 
em que: 
lmo = limite inferior da classe modal 
fpost = freqüência simples da classe posterior à classe modal 
fant = freqüência simples da classe anterior à classe modal 
h = amplitude do intervalo de classe 
 
 Moda de CZUBER 
CZUBER levou em consideração, em sua fórmula a freqüência simples da 
classe anterior, a freqüência simples da classe posterior, além da freqüência simples 
da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King. 
hfff
ff
lm
postantm
antm
mo
o
o
o )(2 +−
−
+=
 
 em que: 
lmo = limite inferior da classe modal 
fmo = freqüência simples da classe modal. 
28 
 
 
fpost = freqüência simples da classe posterior à classe modal 
fant = freqüência simples da classe anterior à classe modal 
h = amplitude do intervalo de classe 
 
COMENTÁRIO: A fórmula de Pearson tem normalmente interesse teórico. Se 
não dispusermos da média e da mediana da distribuição, a fórmula de Pearson é a 
mais trabalhosa. A fórmula de King é a mais simples delas, mas não é a mais 
precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva 
também em consideração a freqüência da classe modal. 
 
2.3.2. Utilização das Medidas de Tendência Central 
 
Na maioria das situações, não necessitamos calcular as três medidas de 
tendência central. Normalmente precisamos de apenas uma das medidas para 
caracterizar o centro da série. Surge, então, a questão: qual medida deve ser 
utilizada? 
 
A medida ideal em cada caso é aquela que melhor representa a maioria dos 
dados da série. Quando todos os dados de uma série estatística são iguais, a média, 
a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas 
representará bem a série. No entanto, este caso dificilmente ocorrerá na prática. 
 
Na maioria das vezes, teremos valores diferenciados para a série e 
conseqüentemente a medida irá representar bem, apenas os dados da série que se 
situam próximos a este valor. Os dados muito afastados em relação ao valor da 
medida não serão bem representados por ela. 
 
Desta forma, se uma série apresenta forte concentração de dados em sua área 
central, a média, a mediana e a moda ficam também situadas em sua área central 
representando bem a série. Como a mais conhecida é a média, optamos por esta 
medida de tendência central. Concluindo, devemos optar pela média, quando houver 
forte concentração de dados na área central da série. 
 
Se uma série apresenta forte concentração de dados em seu início, a mediana 
e a moda estarão posicionadas mais no inícioda série, representando bem esta 
29 
 
 
concentração. A média que é fortemente afetada por alguns valores posicionados no 
final da série se deslocará para a direita desta concentração não a representando 
bem. 
 
Como a mais conhecida entre mediana e moda é a mediana, esta será a 
medida indicada neste caso. A mesma situação ocorre se a série apresenta forte 
concentração de dados em seu final. Concluindo, devemos optar pela mediana, 
quando houver forte concentração de dados no início ou no final da série. 
 
A moda deve ser a opção como medida de tendência central apenas em séries 
que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior 
à freqüência dos outros elementos da série. 
 
2.3.3. Exemplos do uso de medidas de tendência central 
 
Como exemplo tomaremos as notas atribuídas aos alunos da sétima serie do 
Centro Educacional Elisa Bessa (CEEB) nas disciplinas de Português, Matemática, 
Historia e Geografia. Vale ressaltar que o CEEB possui uma política de diferenciação 
de disciplinas atribuindo um grau de importância (ou peso) diferente para cada 
disciplina. 
 
O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta 
o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a 
cada disciplina. 
 
 Quadro 2.2: Pesos atribuídos às disciplinas do Centro Educacional Elisa Bessa 
Disciplinas Pesos 
Português 3 
Matemática 1 
Historia 2 
Geografia 2 
Total 8 
 
FONTE: SECRETÁRIA DO CEEB. 
 
30 
 
 
Na tentativa de fazer uma avaliação da turma, o centro pedagógico do CEEB 
utilizou algumas medidas de tendência central. 
 
A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram 
somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados 
estão apresentados no Quadro 2.4. 
 
Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa 
Número do 
aluno Português Matemática História Geografia 
1 7,7 3,5 3,3 8,3 
2 6,7 7,4 5,8 7,1 
3 8,7 5,7 9,6 8,7 
4 9,2 4,3 6,9 7,4 
5 4,3 5,3 7,2 5,2 
6 6,3 3,9 8,5 7,9 
7 7,5 5,3 6,6 5,2 
8 6,9 4,0 9,9 9,4 
9 4,7 5,6 8,2 8,0 
10 8,7 7,1 9,1 6,1 
11 8,3 4,2 7,6 9,8 
12 8,4 5,6 7,7 8,1 
13 7,5 9,4 9,0 8,7 
14 9,1 5,0 7,9 7,3 
15 5,4 9,9 9,0 5,4 
16 9,0 6,9 6,8 7,1 
17 9,3 7,0 6,9 5,9 
18 7,2 5,1 7,1 8,7 
19 8,8 4,5 6,9 7,5 
20 4,1 7,2 6,8 3,0 
Média 7,4 5,8 7,5 7,2 
 
FONTE: SECRETÁRIA DO CEEB. 
 
 
31 
 
 
Quadro 2.4: Média individual dos alunos da sétima série do CEEB 
Número do aluno Cálculo da média Resultado 
1 (7,7 + 3,5 + 3,3 + 8,3) / 4 = 5,70 
2 (6,7 + 7,4 + 5,8 + 7,1) / 4 = 6,75 
3 (8,7 + 5,7 + 9,6 + 8,7) / 4 = 8,18 
4 (9,2 + 4,3 + 6,9 + 7,4) / 4 = 6,93 
5 (4,3 + 5,3 + 7,2 + 5,2) / 4 = 5,52 
6 (6,3 + 3,9 + 8,5 + 7,9) / 4 = 6,64 
7 (7,5 + 5,3 + 6,6 + 5,2) / 4 = 6,13 
8 (6,9 + 4,0 + 9,9 + 9,4) / 4 = 7,52 
9 (4,7 + 5,6 + 8,2 + 8,0) / 4 = 6,63 
10 (8,7 + 7,1 + 9,1 + 6,1) / 4 = 7,74 
11 (8,3 + 4,2 + 7,6 + 9,8) / 4 = 7,49 
12 (8,4 + 5,6 + 7,7 + 8,1) / 4 = 7,45 
13 (7,5 + 9,4 + 9,0 + 8,7) / 4 = 8,67 
14 (9,1 + 5,0 + 7,9 + 7,3) / 4 = 7,31 
15 (5,4 + 9,9 + 9,0 + 5,4) / 4 = 7,43 
16 (9,0 + 6,9 + 6,8 + 7,1) / 4 = 7,43 
17 (9,3 + 7,0 + 6,9 + 5,9) / 4 = 7,28 
18 (7,2 + 5,1 + 7,1 + 8,7) / 4 = 7,03 
19 (8,8 + 4,5 + 6,9 + 7,5) / 4 = 6,92 
20 (4,1 + 7,2 + 6,8 + 3,0) / 4 = 5,28 
 
Com base na média aritmética, 3 alunos possuíram média final abaixo de 6. 
Com tudo, é interesse da instituição ponderar as disciplinas. Sendo assim, um novo 
32 
 
 
cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos 
apresentavam média abaixo de 6. 
 
Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB 
Número do aluno Cálculo da média Resultado 
1 (7,7 x 3 + 3,5 x 1 + 3,3 x 2 + 8,3 x 2) / 8 = 6,23 
2 (6,7 x 3 + 7,4 x 1 + 5,8 x 2 + 7,1 x 2) / 8 = 6,65 
3 (8,7 x 3 + 5,7 x 1 + 9,6 x 2 + 8,7 x 2) / 8 = 8,56 
4 (9,2 x 3 + 4,3 x 1 + 6,9 x 2 + 7,4 x 2) / 8 = 7,55 
5 (4,3 x 3 + 5,3 x 1 + 7,2 x 2 + 5,2 x 2) / 8 = 5,39 
6 (6,3 x 3 + 3,9 x 1 + 8,5 x 2 + 7,9 x 2) / 8 = 6,94 
7 (7,5 x 3 + 5,3 x 1 + 6,6 x 2 + 5,2 x 2) / 8 = 6,41 
8 (6,9 x 3 + 4,0 x 1 + 9,9 x 2 + 9,4 x 2) / 8 = 7,89 
9 (4,7 x 3 + 5,6 x 1 + 8,2 x 2 + 8,0 x 2) / 8 = 6,52 
10 (8,7 x 3 + 7,1 x 1 + 9,1 x 2 + 6,1 x 2) / 8 = 7,94 
11 (8,3 x 3 + 4,2 x 1 + 7,6 x 2 + 9,8 x 2) / 8 = 8,00 
12 (8,4 x 3 + 5,6 x 1 + 7,7 x 2 + 8,1 x 2) / 8 = 7,80 
13 (7,5 x 3 + 9,4 x 1 + 9,0 x 2 + 8,7 x 2) / 8 = 8,43 
14 (9,1 x 3 + 5,0 x 1 + 7,9 x 2 + 7,3 x 2) / 8 = 7,82 
15 (5,4 x 3 + 9,9 x 1 + 9,0 x 2 + 5,4 x 2) / 8 = 6,88 
16 (9,0 x 3 + 6,9 x 1 + 6,8 x 2 + 7,1 x 2) / 8 = 7,70 
17 (9,3 x 3 + 7,0 x 1 + 6,9 x 2 + 5,9 x 2) / 8 = 7,57 
18 (7,2 x 3 + 5,1 x 1 + 7,1 x 2 + 8,7 x 2) / 8 = 7,30 
19 (8,8 x 3 + 4,5 x 1 + 6,9 x 2 + 7,5 x 2) / 8 = 7,46 
20 (4,1 x 3 + 7,2 x 1 + 6,8 x 2 + 3,0 x 2) / 8 = 4,89 
 
33 
 
 
O centro pedagógico do CEEB observou que a menor média entre as 
disciplinas era a de matemática com um valor igual a 5,8. A fim de obter mais 
informações sobre esse conjunto de dados (notas de matemática), a o centro 
pedagógico construiu um Rol para esses dados e em seguida calculou a mediana, a 
moda e apresentou um resumo dos dados na Tabela 2.6. 
Rol: 
3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3; 
5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9. 
Para o cálculo da mediana, foram tomados o 10º e o 11º elementos e em 
seguida foi calculada a media desses dois números. 
45,5
2
6,53,5
=
+
=dm 
 
Para determinar a moda, foi observada a maior freqüência entre as 
observações. Chegando a conclusão de que a serie e bimodal, pois os valores 5,3 e 
5,6 apresentam a mesma freqüência. 
 
Tabela 2.6: Divisão da 7ª série do CEEB quanto à nota de matemática 
Notas de matemática Freqüência simples Freqüência acumulada 
3,0 |-- 4,5 5 5 
4,5 |-- 6,0 8 13 
6,0 |-- 7,5 5 18 
7,5 |-- 9,0 0 18 
9,0 |-- 10,0 2 20 
Total 20 
 
FONTE: SECRETARIA DO CEEB 
 
Data a tabela acima é possível calcular a mediana e moda. 
44,55,1
8
5105,42 =−+=
−
+= hf
Fn
lm
d
d
m
ant
md 
25,55,1
55
55,4 =
+
+=
+
+= hff
f
lm
postant
post
mo o
 
 
 
34 
 
 
2.3.4. Medidas de dispersão 
 
São necessários dois tipos de medidas para descrever adequadamente um 
conjunto de dados. Além da informação quanto ao "meio" de um conjunto de 
números, é conveniente dispormos também de um método que nos permita exprimir 
a dispersão. As medidas de dispersão indicam se os valores estão relativamente 
próximos uns dos outros, ou separados. 
Consideraremos quatro medidas de dispersão: o desvio médio, a variância, 
desvio padrão e o coeficiente de variação. Todas elas têm na média o ponto de 
referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão 
aumenta à proporção que aumenta o valor da medida (desvio, variância, etc.). 
 
 
 2.3.4.1. Desvio médio absoluto 
 
O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à 
média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada 
valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em 
seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a 
soma dos desvios positivos e negativos a contar da média será sempre (por 
definição) igual a zero. A conversão das diferenças a valores absolutos (todos os 
valores são considerados como desvios positivos) antes de se proceder à soma 
resolve o problema. Calcula-se então o desvio médio absoluto pela seguinte 
equação: 
n
Xx
DMA i∑
−
= 
Em que n é o número de observações no conjuntode dados. 
Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito 
utilizado por haver outras medidas que apresentam propriedades matemáticas mais 
interessantes. O DMA possui algumas aplicações no controle de inventários. 
 
 2.3.4.2. Variância e desvio-padrão 
 
A variância é uma média aritmética calculada a partir dos quadrados dos 
desvios obtidos entre os elementos do conjunto de dados e a sua média. O desvio 
padrão é a raiz quadrada positiva da variância. 
35 
 
 
Em particular, para estas medidas levaremos em consideração o fato de a 
seqüência de dados representar toda uma população ou apenas uma amostra de 
uma população. 
Notações: Quando a seqüência de dados representa uma População a 
variância será denotada por )(2 Xσ e o desvio padrão correspondente por )(Xσ . 
Quando a seqüência de dados representa uma amostra, a variância será denotada 
por S2(X) e o desvio padrão correspondente por S(X). 
 
 
 2.3.4.3. Cálculo da variância e do desvio padrão 
 
 Dados brutos ou Rol 
Se o conjunto de dados representa uma População, a variância é calculada 
pela equação: 
( )
n
Xx
X i∑
−
=
2
2 )(σ
 
Conseqüentemente, o desvio-padrão será dado por: 
( )
n
Xx
XX i∑
−
==
2
2 )()( σσ 
Se o conjunto de dados representa uma amostra, a variância é calculada pela 
equação: 
( )
1
)(
2
2
−
−
=
∑
n
Xx
XS i
 
Conseqüentemente, o desvio-padrão será dado por: 
( )
1
)()(
2
2
−
−
==
∑
n
Xx
XSXS i 
 
 Dados tabelados – variável discreta 
Como há repetições de elementos no conjunto de dados, definimos a variância 
como sendo uma media aritmética ponderada dos quadrados dos desvios dos 
elementos do conjunto de dados. 
Variância para população: 
( )
∑
∑ −
=
i
ii
f
fXx
X
2
2 )(σ 
36 
 
 
Desvio padrão para população: 
( )
∑
∑ −
==
i
ii
f
fXx
XX
2
2 )()( σσ 
Variância para amostra: 
( )
∑
∑
−
−
=
1
)(
2
2
i
ii
f
fXx
XS 
Desvio padrão para amostra: 
( )
∑
∑
−
−
==
1
)()(
2
2
i
ii
f
fXx
XSXS 
 
 Dados tabelados – variável contínua 
Novamente, por desconhecer os particulares valores de xi do conjunto de 
dados, substituiremos nas equações anteriores estes valores pelos pontos médios 
da classe. 
Variância para população: 
( )
∑
∑ −
=
i
ii
f
fXx
X
2
2 )(σ onde xi é o ponto médio da classe i. 
 
Variância para amostra: 
( )
∑
∑
−
−
=
1
)(
2
2
i
ii
f
fXx
XS onde xi é o ponto médio da classe i. 
 
COMENTÁRIOS: No cálculo da variância, quando elevamos ao quadrado a 
diferença ( )Xxi − , a unidade de medida da série fica também elevada ao quadrado. 
Portanto, a variância é dada sempre no quadrado da unidade de medida da série. 
Se os dados são expressos em metros, a variância é expressa em metros 
quadrados. Em algumas situações, a unidade de medida da variância nem faz 
sentido. É o caso, por exemplo, em que os dados são expressos em litros. A 
variância será expressa em litros quadrados. Portanto, o valor da variância não pode 
ser comparado diretamente com os dados da série, ou seja: variância não tem 
interpretação. Exatamente para suprir esta deficiência da variância é que se define o 
desvio padrão. 
 
37 
 
 
 
 2.3.4.4. Coeficiente de variação (C.V.) 
 
Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão 
alcançada, embora não seja apenas esta a sua finalidade. Este coeficiente é 
expresso em percentagem, sendo utilizado em trabalhos científicos. É calculado pela 
equação: 
 
( )
X
XXCV )(σ= 
 
 
 2.3.4.5. Exemplos do uso de medidas de tendência central 
 
Observamos anteriormente que a média da turma de matemática da sétima 
série do CEEB era igual a 5,8, a mediana igual a 5,45 e as modas iguais a 5,3 e 5,6. 
Estas “características” nos dão alguma idéia sobre a população em estudo. Outras 
“características” que podem “melhorar a idéia” de como a turma se comporta, são a 
variância, o desvio-padrão e o coeficiente de variação. Para calcularmos estas três 
ultimas medidas, utilizaremos o mesmo Rol utilizado anteriormente (o rol da turma 
de matemática). 
Rol: 
3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3; 
5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9. 
 
Variância 
( )
94199,2
20
)8,59,9(...)8,59,3()8,55,3()(
2222
2
=
−++−+−
=
−
=
∑
n
Xx
X iσ
 
 
Desvio-padrão 
7,1)()( 2 == XX σσ
 
 
Coeficiente de variação 
( ) %31,292931,0
8,5
7,1)(
ou
X
XXCV === σ
 
38 
 
 
 
Tomando como fonte a Tabela 2.6, os cálculos para a variância, o desvio-
padrão e o coeficiente de variação, são: 
Variância 
( )
2,76625
20
25,8)(9,5...85,8)(5,2555,8)(3,75
f
fXx(X)σ
222
i
i
2
i2
=
−++−+−
=
−
=
∑
∑
 Desvio-padrão 
6632,1)()( 2 == XX σσ
 
 
Coeficiente de variação 
( ) %68,282868,0
8,5
6632,1)(
ou
X
XXCV === σ
 
 
 
 
 
2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES 
 
 
 Identificar se a distribuição de uma variável quantitativa em um determinado 
conjunto de dados é simétrica ou assimétrica pode ser de grande valia por vários 
motivos: 
 Se os dados são provenientes de uma amostra, identificar a simetria ou não 
da distribuição pode ser necessário para selecionar o modelo probabilístico 
mais adequado para descrever a variável na população. 
 No caso de um experimento, em que todas as causas de variação 
indesejadas são suprimidas, a ocorrência de assimetria quando era esperada 
simetria, ou o contrário, pode ser indicar que houve algum erro de 
planejamento ou de medição. 
 Nos casos em que são comparadas distribuições da mesma variável 
quantitativa em situações diferentes a identificação de um comportamento 
assimétrico ou simétrico, inesperado ou diferenciado, pode alertar para 
aspectos anteriormente despercebidos, ou existência de erros. 
 
39 
 
 
 Alguns programas computacionais calculam uma medida de assimetria 
(“skewness”): quando este valor é exatamente igual a zero a distribuição em questão 
é perfeitamente simétrica. Mas a forma ideal de analisar a simetria de uma 
distribuição é combinar a avaliação das medidas e de um gráfico, seja um 
histograma ou um diagrama em caixas. As figuras 2.9 a 2.11 irão apresentar gráficos 
de distribuições que poderiam ser ajustados a histogramas. 
 
Média
Mediana
Moda
freq
 
Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda) 
 
Observe que o "pico" da distribuição, identificado pela moda, está à direita do 
gráfico, indicando que "falta algo" à esquerda, justificando a denominação 
"assimétrica à esquerda". Observe também que a mediana é maior do que a média. 
Há uma medida estatística de assimetria que calcula a diferença entre média e 
mediana: quando a diferença é negativa (mediana maior do que a média) a 
distribuição é "assimétrica negativa". Este tipo de distribuição não é muito comum na 
prática, pois é mais difícil obter valores excepcionalmente pequenos (à esquerda) 
 
Moda
Mediana
Média
freq.
 
Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita) 
40 
 
 
 
Observe que o "pico" da distribuição, identificado pela moda, está à esquerda do 
gráfico, indicando que "falta algo" à direita, justificando a denominação "assimétrica 
à direita". Observe também que a média é maior do que a mediana. Agora a 
diferença entre média e mediana será positiva: quando a diferença é positiva a 
distribuição é "assimétrica negativa". Este tipo de distribuição é razoavelmente 
comum na prática,pois é fácil obter valores excepcionalmente altos, sendo o caso 
mais típico a variável renda. 
 
 
Moda = Média = Mediana
freq.
 
 Figura 2 - Distribuição simétrica 
 
Observe que as três medidas de posição coincidem. E que aproximadamente 
metade dos dados estão abaixo do centro e a outra metade acima, ou seja a 
distribuição é "simétrica" em relação às suas medidas de posição. A diferença entre 
média e mediana é igual a zero. Muitas variáveis apresentam distribuição simétrica, 
especialmente aquelas resultantes de medidas corpóreas, mas não somente. 
 
 
A seguir apresentamos histogramas de distribuições assimétricas e simétrica. 
f
x
 
Figura 2.12 - Histograma de distribuição simétrica 
41 
 
 
 
f
x
 
Figura 2.13 - Histograma de distribuição assimétrica para a direita (negativa) 
 
f
x
 
Figura 3.14 - Histograma de distribuição assimétrica para a esquerda (positiva) 
 
Além das medidas de posição podemos utilizar as separatrizes para avaliar não 
só a simetria, mas também a dispersão de um conjunto de dados. O procedimento 
para verificar a existência de assimetria consiste em avaliar a diferença existente 
entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma 
distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A 
avaliação da dispersão depende da existência de um padrão para comparação, seja 
um outro conjunto de dados ou alguma especificação. Um conjunto de dados 
apresentará maior dispersão do que outro se os seus quartis estiverem mais 
distantes da mediana. Observe as figuras a seguir. 
 
Simétrico
MdQi Qs
25% 25% 25% 25%
 
Figura 4.15 - Quartis de uma distribuição simétrica - 1o caso 
Observe que a diferença Qs - Md é igual à 
diferença Md - Qi, o que indica a simetria 
do conjunto. É importante lembrar que os 
quartis dividem o conjunto em 4 partes 
iguais (25% dos dados). 
42 
 
 
 
 
Simétrico, com
maior dispersão
Qi QsMd
25% 25% 25% 25%
 
Figura 5 - Quartis de uma distribuição simétrica - 2o caso 
 
Mas agora a dispersão do conjunto é maior, quando comparada ao 1o caso: os 
quartis estão mais distantes da mediana (as diferenças Qs - Md e Md - Qi serão 
maiores do que as obtidas no 1o caso). 
 
Assimétrico para
a direita
Qi QsMd
25% 25%
25% 25%
 
Figura 6.17 - Quartis de uma distribuição assimétrica para a direita 
 
O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez 
com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e 
ficasse mais distante da mediana do que o inferior, significando assimetria para a 
direita (ou positiva). 
 
Assimétrico para
a esquerda
Qi QsMd
25% 25%
25%25%
 
Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda 
 
Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais 
baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais 
distante da mediana do que o superior, significando assimetria para a esquerda (ou 
negativa). 
 
 A avaliação da assimetria através dos quartis também pode ser em um 
diagrama em caixas. 
 
Observe que a diferença 
Qs - Md continua igual à 
diferença Md - Qi, o que 
 indica a simetria do conjunto. 
Na figura 26 é fácil perceber 
diferenças são claramente 
desiguais: há assimetria. E 
como Qs - Md é maior do que 
Md - Qi é para a direita. 
Na figura 27 novamente as 
diferenças são claramente 
desiguais: há assimetria. E 
como Md - Qi é maior do que 
Qs - Md é para a esquerda. 
43 
 
 
2.5 - DIAGRAMA EM CAIXAS 
 
 O Diagrama em Caixas, também chamado de Desenho Esquemático, Box-
plot ou Box & Whisker plot é um gráfico que permite avaliar facilmente os valores 
típicos, a assimetria, a dispersão e os dados discrepantes de uma distribuição de 
dados de uma variável QUANTITATIVA. É indicado para grandes conjuntos de 
dados. 
 A construção do Diagrama em Caixas exige que sejam calculados 
previamente os valores da Mediana, Quartil Inferior e Quartil Superior do conjunto de 
dados, bem como a identificação dos extremos superior (maior valor) e inferior 
(menor valor). Traçam-se dois retângulos (duas caixas): um representa a “distância” 
entre o Quartil Inferior e a Mediana e o outro a distância entre a Mediana e o Quartil 
Superior. A partir dos Quartis Inferior e Superior são desenhadas linhas verticais até 
os últimos valores não discrepantes tanto abaixo quanto acima. 
 Valores discrepantes (ou “outliers”) são aqueles que têm valores: 
- maiores do que a expressão Qs + 1,5 x (Qs - Qi)1 ou 
- menores do que a expressão Qi - 1,5 x (Qs - Qi) 
Todos os valores discrepantes são marcados para posterior estudo individual. 
 O Diagrama em Caixas “típico” seria: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 8.19 - Diagrama em Caixas - Esquema 
 
1
 O valor Qs - Qi é chamado de desvio interquartílico. 
Qs + 1,5x(Qs - Qi) 
Qi - 1,5x(Qs - Qi) 
Md 
Qs 
Qi 
* 
* 
* 
* 
Valores discrepantes superiores 
Valores discrepantes inferiores 
Na caixa superior estão 25% 
dos dados, há outros 25% na 
caixa inferior, outros 25% 
acima do Qs e outros 25% 
abaixo do Qi: se houvesse 
100 dados 25 estariam na 
caixa superior, 25 na 
inferior, 25 abaixo do Qi e 
25 acima do Qs. 
44 
 
 
 
 Se as duas caixas tiverem “alturas” semelhantes (Qs - Md ≅ Md - Qi) a 
distribuição é dita simétrica (ver seção 2.4). Quanto maiores as “alturas” das caixas 
[maiores (Qs - Md ) e (Md - Qi)] maior a dispersão do conjunto. O valor “típico” do 
conjunto será a Mediana (Md), cujas características foram vistas anteriormente. A 
dimensão horizontal das caixas é irrelevante. 
 
A seguir o roteiro para construção do Diagrama em Caixas. 
Passos: 
 Ordenar os dados. 
 Calcular Mediana, Quartil Inferior e Quartil Superior. 
 Identificar Extremos. 
 Construir os retângulos (Qs - Md, Md - Qi). 
 A partir dos retângulos, para cima e para baixo, seguem linhas até o último 
valor não discrepante. 
 Marcar as observações discrepantes. 
 
Exemplo 2.22 - Foram medidas as alturas de 35 homens adultos, cujos resultados 
estão abaixo. 
Sejam as alturas de homens adultos a seguir. 
181 174 145 150 168 173 163 184 178 165 173 165 166 205 167 168 169 170 
174 170 172 198 177 173 179 180 169 181 169 183 142 183 163 204 165 
Construa o diagrama em caixas para as alturas, avaliando valor típico, assimetria, 
dispersão e valores discrepantes. 
 
1)Ordenar os dados crescentemente: 
142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173 
173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205 
 
2) Calcular Mediana, Quartil Inferior e Quartil Superior 
 Há 35 medidas: n = 35 
Posição da mediana = (n + 1) /2 = 36 / 2 = 18a => valor que está na 18a posição
 Md = 172 
 
45 
 
 
Posição do quartil inferior = (n + 1) / 4 = 36 /4 = 9a => valor que está na 9a posição 
Qi = 166 
 
Posição do quartil superior = 3 x (n + 1) / 4 = 3×36 /4 = 275a => valor que está na 
27a posição Qs = 180 
 
3) Identificar extremos 
O maior valor do conjunto (extremo superior) Es = 205 
O menor valor do conjunto (extremo inferior) Ei = 142 
 
4) “Retângulos” 
 Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais: 
distribuição 
 Md - Qi = 172 - 166 = 6 pode ser considerada simétrica) 
 
5) Identificação dos valores discrepantes 
 Qs - Qi = 180 - 166 = 14 1,5 x (Qs - Qi) = 1,5 × 14 = 21 
 Qi - 1,5 x (Qs - Qi) = 166 - 21 = 145 
Valores menores do que 145 cm de altura serão discrepantes: só há um valor abaixo 
de 145 (142), então há apenas um valor discrepante inferior. Assim a linha vertical 
inferior irá atéo último valor não discrepante, que vale 145 cm. 
 
 Qs + 1,5 x (Qs - Qi) = 180 + 21 = 201 
Valores maiores do que 201 cm de altura serão discrepantes: há dois valores acima 
de 201 (204 e 205), então há dois valores discrepantes superiores. A linha vertical 
superior irá até o último valor não discrepante, no caso 198. 
 
Todos os passos anteriores são feitos internamente pelo computador quando se usa 
um programa estatístico para construir um Diagrama em Caixas, resultando no 
gráfico a seguir2: 
 
 
2
 O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultados 
ligeiramente diferentes dos cálculos manuais devido aos arredondamentos. 
46 
 
 
Box Plot das Alturas
130
140
150
160
170
180
190
200
210
ALTURA
 
Figura 9.20 - Diagrama em caixas 
 
 O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser 
alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete 
pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais 
aprofundados para ser interpretado. 
 
 As duas caixas têm “alturas” semelhantes, indicando simetria ou "leve 
assimetria". Quanto à dispersão não há muito o que se comentar pois não há um 
padrão para comparação. 
 
 Há apenas um valor discrepante inferior, e dois superiores. Estes valores 
talvez merecessem um estudo individual: primeiramente verificar se não houve erro 
de medição, se constatada a correção da medida identificar os indivíduos, estudar 
seu histórico médico, etc.)3. 
 
 Como TODA ferramenta estatística o Diagrama em Caixas de nada vale se o 
usuário não tiver conhecimentos específicos sobre a variável retratada para 
interpretar os resultados. 
 
3
 Para que o estudo de pontos individuais seja possível é importante que sejam registrados onde, quando e em 
que condições as observações foram feitas. 
47 
 
 
2.5.1 - Diagrama em Caixas Múltiplo 
 
 É bastante comum querer comparar vários conjuntos de dados, para avaliar 
seus valores típicos, dispersão, assimetria, e valores discrepantes. Por exemplo, no 
caso do Exemplo 2.22 poderíamos ter interesse em comparar vários conjuntos de 
alturas, provenientes de diferentes grupos. Para tanto precisamos construir um 
diagrama múltiplo, em que todos tenham a mesma escala, para possibilitar a 
comparação (diversos programas estatísticos permitem fazer isso). 
 
Exemplo 2.23 - O diagrama em caixas múltiplo abaixo apresenta as notas finais de 
estudantes de disciplinas de Estatística em três cursos diferentes da UFSC, em 
1997. Faça a análise dos diagramas: valor típico, dispersão, assimetria, valores 
discrepantes. Algum dos cursos destaca-se? 
 
-1.2
0.0
1.2
2.4
3.6
4.8
6.0
7.2
8.4
9.6
Box-plot das notas
TURMAS
NO
TA
S
Ciências Biológicas Engenharia Mecânica Engenharia de Produção
 
Figura 2.21 - Diagrama em caixas múltiplo de notas por curso 
 
Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5 
e 6,75. 
48 
 
 
Quanto à assimetria, apenas o conjunto da Engenharia de Produção apresenta 
simetria (as alturas das caixas são semelhantes), enquanto os outros dois são 
assimétricos. 
 
Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas 
são maiores (Quartis mais distantes da Mediana). 
 
Há valores discrepantes nos três conjuntos, mas apenas inferiores, 2 em Ciências 
Biológicas, 4 em Engenharia Mecânica e 3 em Engenharia de Produção. 
 
 O curso de Engenharia Mecânica destaca-se ligeiramente, por apresentar 
Quartil Superior e Extremo Superior acima dos demais, mas não é uma grande 
diferença, e trata-se do curso com maior dispersão nas notas. 
 
Exemplo 2.24 - A ONU realizou uma pesquisa registrando os crescimentos 
demográficos e médias de calorias diárias ingeridas em vários países. Os países 
foram agrupados em seis regiões: OECD (EUA, Canadá, Austrália, Nova Zelândia e 
Europa Ocidental), África, América Latina, Oriente Médio, Europa Oriental, e 
Pacífico/Ásia. Os diagramas em caixa das variáveis estão abaixo. Faça a análise 
dos dois diagramas no que tange aos valores típicos, assimetria, dispersão e valores 
discrepantes. Qual é a sua opinião sobre a qualidade de vida nestas seis regiões? 
 
Figura 2.2210 - Diagramas em caixa múltiplos: crescimento demográfico e média 
diária de calorias ingeridas 
49 
 
 
 
Crescimento demográfico 
Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de 
cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos 
de zero. 
Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados 
simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o 
Oriente Médio é assimétrico. 
Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos 
são a Europa Oriental e OECD (demonstrando uma certa homogeneidade 
demográfica nestas duas regiões). 
Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD 
tem um superior, e as demais regiões não apresentam valores discrepantes. 
 
Média de calorias 
Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500 
calorias diárias, enquanto que a África têm o menor valor, por volta de 2200. 
Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e 
Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor 
assimetria. 
Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores), 
enquanto Pacífico/Ásia apresenta a maior. 
 
É interessante observar o contraste entre os dois diagramas: a África tem um dos 
maiores valores típicos de crescimento demográfico, e o menor valor típico de 
calorias ingeridas (indicando um cenário de miséria e fome), enquanto a Europa 
Oriental e a OECD têm uma situação inversa (o que indica condições sócio-
econômicas mais favoráveis). Impressiona também a alta taxa de crescimento 
demográfico no Oriente Médio. 
 
50 
 
 
3 - ANÁLISE BIDIMENSIONAL 
 
 
 
 
 É comum haver interesse em saber se duas variáveis quaisquer estão 
relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos 
de pesquisa, por exemplo: 
- se o sexo dos funcionários de uma empresa está relacionado com a função 
exercida; 
- o quanto o a temperatura ambiente em uma região influencia as vendas de 
refrigerante; 
- se o nível de escolaridade de um grupo de empreendedores está relacionado com 
o grau de sucesso por eles alcançado. 
 
 Muitas vezes queremos verificar se há uma relação de causa e efeito entre as 
duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma 
das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma 
através dos valores da outra, ou calcular uma medida de correlação ou de 
dependência entre as variáveis. 
 
 A Análise Bidimensional4 propõe-se a tentar responder as perguntas do 
parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou 
quantitativas, e para cada tipo haverá técnicas apropriadas. 
 
 Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística 
Qui-Quadrado e o Coeficiente de Contingência Modificado5. Para variáveis 
quantitativas vamos abordar: diagramas de dispersão, análise de correlação, análise 
de regressão linear simples, coeficiente de determinação e análise de resíduos. As 
próximas seções tratarão de cada tópico. 
 
 
 
4
 Se mais de duas variáveis estiverem envolvidas será necessário empregar técnicas