Buscar

Apostila Estatistica Descritiva

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

1
UNIVERSIDADE FEDERAL DE UBERLÂNDIA 
FACULDADE DE MATEMÁTICA 
 
 
 
 
 
PROGRAMA INSTITUCIONAL DE BOLSAS DO ENSINO DE 
GRADUAÇÃO - PIBEG 
 
 
 
 
 
 
 
 
ESTATÍSTICA DESCRITIVA 
 
 
 
 
 
 
 
 
 COODENADOR: Prof. Dr. EDMILSON RODRIGUES PINTO 
 ORIENTADORA: Prof. Dra AURÉLIA APARECIDA DE ARAÚJO RODRIGUES 
 ALUNOS: GUILHERME BARROS AMELOTI 
 WILLIAM HENRIQUE PEREIRA GUIMARAES 
 
 
 
 
 
 
UBERLÂNDIA, DEZEMBRO DE 2008 
 
 2
SUMÁRIO 
 
 
INTRODUÇÃO ......................................................................................................................04 
1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES ...............................................05 
2 TABELA......................................................................................................................06 
2.1 ELEMENTOS DA TABELA.......................................................................................07 
2.2 DISTRIBUIÇÃO DE FREQÊNCIA ............................................................................08 
2.2.1 Conceitos Básicos.........................................................................................................09 
3 GRÁFICOS .................................................................................................................13 
3.1 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS.......................14 
3.1.1 Histograma ...................................................................................................................14 
3.1.2 Polígono de Frequência ................................................................................................15 
3.1.3 Gráfico da Frequência Acumulada Ou Ogiva ..............................................................15 
3.1.4 Ramo – e – Folhas ........................................................................................................16 
3.2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS........................17 
3.2.1 Gráfico de Bastões........................................................................................................17 
3.2.2 Gráfico da Frequência Acumulada Ou Ogiva ..............................................................17 
3.3 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS..................................................18 
3.3.1 Gráfico de Barras..........................................................................................................18 
3.3.2 Gráfico de Colunas .......................................................................................................18 
3.3.3 Gráfico de Setores ........................................................................................................19 
3.3.4 Gráfico de Linhas .........................................................................................................19 
4 MEDIDAS DESCRITIVAS .......................................................................................20 
4.1 MEDIDAS DE TENDÊNCIA CENTRAL ..................................................................20 
4.1.1 Média Aritmética..........................................................................................................21 
4.1.2 Moda.............................................................................................................................23 
4.1.3 Mediana ........................................................................................................................24 
4.2 MEDIDAS SEPARATRIZES......................................................................................25 
4.3 MEDIDAS DE DISPERSÃO.......................................................................................28 
4.3.1 Amplitude Total............................................................................................................29 
 
 3
4.3.2 Amplitude Interquartílica .............................................................................................30 
4.3.3 Desvio Médio ...............................................................................................................30 
4.3.4 Variância.......................................................................................................................31 
4.3.5 Coeficiente de Variação ...............................................................................................34 
4.3.6 Medidas de Assimetria .................................................................................................35 
4.3.7 Medidas de Curtose ......................................................................................................38 
4.4 Diagramas em Caixa (BOX-PLOT) .............................................................................39 
BIBLIOGRAFIA ....................................................................................................................44 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 4
INTRODUÇÃO 
 
 
A Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do 
conhecimento humano. Entretanto, um equívoco comum que deparamos nos dias atuais é que, em 
função da facilidade que o advento dos computadores nos proporciona, permitindo desenvolver 
cálculos avançados e aplicações de processos sofisticados com razoável eficiência e rapidez, 
muitos pesquisadores consideram-se aptos a fazerem análises e inferências estatísticas sem um 
conhecimento mais aprofundado dos conceitos e teorias. Tal prática, em geral, culmina em 
interpretações equivocadas e muitas vezes errôneas. 
Em sua essência, a Estatística é a ciência que apresenta processos próprios para coletar, 
apresentar e interpretar adequadamente conjuntos de dados, sejam eles numéricos ou não. Pode-
se dizer que seu objetivo é o de apresentar informações sobre dados em análise para que se tenha 
maior compreensão dos fatos que os mesmos representam. A Estatística subdivide-se em três 
áreas: descritiva, probabilística e inferencial. A estatística descritiva, como o próprio nome já diz, 
se preocupa em descrever (organizar, resumir e apresentar) os dados, a probabilidade preocupa-se 
com a construção de modelos aleatórios e a estatística inferencial, fundamentada na teoria das 
probabilidades, se preocupa com a análise destes dados e sua interpretação. 
A palavra estatística tem mais de um sentido. No singular se refere à teoria estatística e ao 
método pelo qual os dados são analisados enquanto que, no plural, se refere às estatísticas 
descritivas que são medidas obtidas de dados selecionados. 
A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de mesma 
natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores, 
organiza e descreve os dados por meio de tabelas, de gráficos e de medidas descritivas. 
A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são 
formas mais claras de apresentação dos dados em tabelas, cujo objetivo é o de produzir uma 
impressão mais rápida e viva do fenômeno em estudo. 
Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou em 
comparação com outras, é necessário expressar tais tendências através de números ou estatísticas. 
Estes números ou estatísticas são divididos em duas categorias: medidas de posição e medidas de 
dispersão. 
Para se obter bons resultados numa análise estatística, além dos métodos aplicados, também 
é necessário ter clareza nos conceitos utilizados. A seguir são apresentados alguns desses 
conceitos. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 5
 
1. CONCEITOS FUNDAMENTAIS E DEFINIÇÕES 
 
A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou 
de uma amostra,
definida como: 
População: conjunto de elementos que tem pelo menos uma característica em comum. 
Esta característica deve delimitar corretamente quais são os elementos da população, que podem 
ser animados ou inanimados. 
Amostra: subconjunto de elementos de uma população. Este subconjunto, obviamente 
deve ter dimensão menor que a população e seus elementos devem ser representativos. A seleção 
dos elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do 
conhecimento que se tem da população e da quantidade de recursos disponíveis. A tecnologia da 
amostragem faz parte da estatística inferencial. 
Em se tratando de conjuntos, estes podem ser: 
Finitos: possuem um número limitado de elementos. Ex: A={ 1,2,3,4,5}. 
Infinitos: possuem um número ilimitado de elementos, podendo ser numeráveis ou não. 
Segundo Medronho (2003), elemento significa cada uma das unidades observadas no 
estudo. Após a determinação dos elementos pergunta-se: o que fazer com eles? Pode-se medi-los, 
observá-los, contá-los, surgindo um conjunto de respostas que receberá a denominação de 
variável. 
Variável: é a característica que vai ser observada, medida ou contada nos elementos da 
população ou da amostra e que pode variar assumir um valor diferente para cada elemento do 
conjunto de dados. 
Existem dois tipo de variáveis: 
 
a) Variáveis Quantitativas: são variáveis quem assumem como valores possíveis 
números. 
As variáveis quantitativas se dividem em: 
• Variável contínua: assume como valores numéricos, em intervalos da reta real e. 
Exemplo: peso: 60,5 kg e altura: 1,72 m 
• Variável discreta: assume como possíveis valores numéricos inteiros são 
resultantes da contagem de itens, formando um conjunto finito ou infinito numerável. 
Exemplo: Número de calçados defeituosos em um lote. 
 
b) Variáveis Qualitativas (ou categóricas): são variáveis quem assumem como valores 
possíveis, qualidades ou atributos. As variáveis qualitativas são classificadas em: 
• Variável nominal: as categorias não apresentam ordenação natural 
Exemplo: Sexo: masculino ou feminino 
 Cor dos olhos: castanhos, verdes, azuis e outras. 
• Variável ordinal: as categorias possuem ordenação natural. 
Exemplo: Escolaridade: 1- ensino fundamental 2 - ensino médio 3 - ensino superior 
 Classe social: 1 – baixa 2 – média 3 - alta. 
 
 
 
 
 
 6
2- TABELA 
 
É muito comum nos dias de hoje, devido ao uso de computadores, realizarem pesquisas em 
que a coleta de dados resulta em grandes coleções (quantidades) de dados para análise e torna-se 
quase impossível entendê-los, quanto ao(s) particular (es) objetivo(s) de estudo, se estes dados 
não estiverem resumidos. Em outras palavras, os dados na forma em que foram coletados não 
permitem, de maneira fácil e rápida, que se extraiam informações. Torna-se difícil detectar a 
existência de algum padrão. A tabela é um procedimento muito útil para guardar informações. 
Hoje em dia ,devido às grandes quantidades de dados, o uso de planilhas eletrônicas são de 
fundamental importância na organização dos dados. Com o auxilio de uma planilha, todas as 
variáveis podem ser resumidas através de uma tabela. 
 
 Tabela 01: Informação sobre sexo, idade (anos), altura (metros), peso (Kg), 
estado civil, número de irmãos e meio de transporte dos alunos da disciplina Inferência 
Estatística do curso de Estatística da UEM - 21/03/2005 
 
Nº Sexo Idade Altura Peso Est.Civil Nº de 
irmãos 
Procedência Meio de 
Transp. 
1 F 20 1,60 58 Solteiro 1 Maringá Próprio 
2 F 26 1,65 59 Solteiro 2 Fora do PR Coletivo 
3 F 18 1,64 55 Solteiro 2 Maringá Próprio 
4 F 25 1,73 60 Solteiro 2 Outro no PR Coletivo 
5 M 35 1,76 83 Casado 6 Outro no PR Coletivo 
6 F 20 1,62 58 Solteiro 2 Outro no PR Coletivo 
7 F 29 1,72 70 Solteiro 3 Maringá Coletivo 
8 M 23 1,71 62 Separado 2 Outro no PR Próprio 
9 F 20 1,63 63 Solteiro 2 Maringá Próprio 
10 M 20 1,79 75 Solteiro 2 Fora do PR Próprio 
11 M 20 1,82 66 Solteiro 1 Fora do PR Próprio 
12 F 30 1,68 46 Solteiro 3 Outro no PR Próprio 
13 F 18 1,69 64 Solteiro 1 Maringá Próprio 
14 M 37 1,82 80 Casado 2 Maringá Próprio 
15 M 25 1,83 62 Solteiro 1 Outro no PR Próprio 
16 F 20 1,63 68 Solteiro 2 Maringá Coletivo 
17 M 21 1,71 80 Solteiro 2 Maringá Coletivo 
18 M 25 1,80 82 Casado 1 Outro no PR Próprio 
19 F 24 1,62 55 Solteiro 2 Maringá Próprio 
20 M 19 1,74 58 Solteiro 2 Maringá Próprio 
21 F 21 1,55 65 Solteiro 1 Maringá Próprio 
22 M 22 1,73 62 Solteiro 0 Maringá Próprio 
 Fonte: Departamento de Estatística UEM. Apostila Terezinha 
 
 
 
 
 
 
 7
 Tabela 02 : Área e produção agrícola no Brasil, 1997 
Região Área, 
em milhões de km2 
Produção, em 
toneladas 
Norte 
Nordeste 
Centro-oeste 
Sul-Sudeste 
3,858 
1,549 
1,602 
1,503 
2,2 
6,8 
20,0 
49,3 
 Fonte: IBGE 
 
 
2.1 ELEMENTOS DA TABELA 
 
Os elementos fundamentais da tabela são: título, cabeçalho, coluna indicadora e corpo. O 
título aponta o fenômeno, época e local de ocorrência; o cabeçalho explica o conteúdo das 
colunas; a coluna indicadora detalha o conteúdo das linhas; o corpo mostra os dados. 
Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante, 
caracterizando a confiabilidade dos dados; as notas esclarecem o conteúdo e indicam a 
metodologia adotada na obtenção ou elaboração da informação e as chamadas clarificam pontos 
específicos da tabela. 
 
A disposição de uma tabela pode ser generalizada como mostra a Tabela a seguir. 
 
Tabela X – Tabela indicadora geral 
Coluna indicadora Cabeçalho 
 
 
 Conteúdo da linha 
 
 
 
 
 
 
Fonte: Origem dos dados. 
Célula 
C
ol
un
a 
444444444 3444444444 21
Tabela da Corpo
 
oFacultativ Traço →
Nota: Informação esclarecedora. 
 
Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem 
no texto, como é o caso de trabalhos científicos; as bordas superiores e inferiores devem ser 
fechadas com traços horizontais enquanto às da esquerda e direita não, podendo ou não ser 
fechadas por traços verticais a separação das colunas no corpo da tabela. É conveniente também 
que o número de casas decimais seja padronizado. 
 
Uma tabela contém as diferentes categorias observadas de uma variável qualitativa e suas 
respectivas contagens, denominadas frequências absolutas. A contagem refere-se ao número de 
ocorrências de cada categoria. 
 Quanto à classificação, uma tabela pode ser temporal, quando as observações são feitas 
levando-se em consideração o tempo; geográfica, quando os dados referem-se ao local de 
ocorrência; específica (ou categórica), quando tempo e local são fixos e comparativa, quando a 
 
 8
tabela resume informações de duas ou mais variáveis. A tabela comparativa é também 
denominada tabela cruzada ou de dupla ou mais entradas. 
Os nomes da coluna indicadora e cabeçalho podem ser escritos iniciando-se com letras 
maiúsculas. Também é prática comum justificar à esquerda as diferentes categorias da variável 
qualitativa que se apresentam no conteúdo das linhas, iniciando-se com letras maiúsculas e 
podendo ser dispostas na ordem em que aparecem nos questionários, ordem alfabética ou ordem 
decrescente de frequência absoluta. 
 
 Tabela 03 : Numero de alunos 
 formandos em Matemática 
Ano Número de 
formandos 
( Fi) 
2000 
2001 
2002 
4 
3 
3 
 Fonte: Faculdade de Matemática – UFU
Nota: No ano de 2001, houve um aluno forma 
 em licenciatura e Bacharelado 
 
É comum e útil na interpretação de tabelas a inclusão de uma coluna contendo as 
frequências relativas e/ou relativas em percentual. A frequência relativa é obtida dividindo-se a 
frequência absoluta de cada categoria da variável pelo número total de observações (número de 
elementos da amostra ou da população). Multiplicando-se este resultado por 100, obtém-se a 
frequência relativa (em percentagem). 
 
Tabela 04: Distribuição de frequência dos dados de motocicletas 
Fabricante Frequência Frequência relativa 
Honda 
Yamaha 
Kawasaki 
Harley-Davidson 
BMW 
41 
27 
20 
18 
9 
0,36 
0,23 
0,17 
0,16 
0,08 
Fonte: Desconhecida. 
 
Segundo Barbetta et. al. (2004), as frequências relativas em percentual são úteis ao se 
comparar tabelas ou pesquisas diferentes. Por exemplo, quando amostras (ou populações) têm 
números de elementos diferentes, a comparação através das frequências absolutas pode resultar 
em afirmações errôneas enquanto que pelas frequências relativas em percentual não, pois os 
percentuais totais são os mesmos. 
 
2.2 DISTRIBUIÇÃO DE FREQUÊNCIA 
 
Como já foi mencionado no início deste capítulo, dependendo do volume de dados, torna-se 
difícil ou impraticável tirar conclusões a respeito do comportamento das variáveis e, em 
particular, de variáveis quantitativas. 
 
 9
Pode-se, no entanto, colocar os dados brutos (obtidos após a coleta dos dados) de cada uma 
das variáveis quantitativas em uma ordem crescente ou decrescente, denominado rol. A 
visualização de algum padrão ou comportamento continua sendo de difícil observação ou até 
mesmo cansativa, mas torna-se rápido identificar maiores e menores valores ou concentrações de 
valores no caso de variáveis quantitativas. Estes números (menor e maior valor observado) 
servem de ponto de partida para a construção de tabelas para estas variáveis. Vale destacar que 
para as variáveis qualitativas, pode-se também construir um rol em ordem temporal ou alfabética, 
por exemplo. 
 
2.2.1 Conceitos Básicos. 
 
A – Dados Brutos 
 
Conjunto de dados numéricos obtido após a coleta dos dados. 
Exemplo: Idade, em anos, dos funcionários de uma empresa de computação. 
24, 23, 22, 28, 35, 25, 34, 22, 23, 28 
 
B – Rol 
 
É o arranjo dos dados brutos em ordem crescente ou decrescente. 
Para o exemplo anterior o rol, em ordem crescente, será: 
22, 22, 23, 23, 24, 25, 28, 28, 34, 35 
 
C – Amplitude Total (A) 
 
É uma medida de dispersão e corresponde à diferença entre o maior e o menor valor 
observado, ou seja, 
 
max minA x x= − 
Para o nosso exemplo, 35 22 13A = − =
 
D – Frequência Absoluta (Fi) 
 
É o numero de vezes que o elemento ix aparece na amostra, ou o numero de elementos 
pertencentes a uma classe. 
Exemplo: Para o elemento , 1 22x = 1 2F = 
 
E – Distribuição de Frequência Pontual 
 
É o arranjo dos valores e suas respectivas frequências. A construção de uma distribuição de 
frequência pontual é equivalente à construção de uma tabela, se listam os diferentes valores 
observados da variável, com suas respectivas frequências absolutas. Assim, a distribuição de 
frequência para o exemplo será: 
 
 
 
 10
i xi Fi 
1 
2 
3 
4 
5 
6 
7 
22 
23 
24 
25 
28 
34 
35 
2 
2 
1 
1 
2 
1 
1 
 
7
1
10i
i
F
=
∑ =
 
Onde i corresponde à ordem dos dados, desconsiderando a quantidade de vezes que o 
elemento repetiu. 
Para o nosso exemplo, ; 7,...,3,2,1=i ,221 =x com 21 =F ... 7 35,x = com 17 =F
 
F – Frequência Relativa (fi) 
A frequência relativa é dada por: ii
Ff
n
= ; onde n é a quantidade de dados observados, ou 
seja, é a percentagem daquele valor no conjunto de dados. 
Para o nosso exemplo, temos: 
 
xi Fi fi 
 
22 
 
23 
24 
25 
28 
34 
35
 
2 
 
2 
1 
1 
2 
1 
1 
2,0
12
2 = 
 
0,2 
0,1 
0,1 
0,2 
0,1 
0,1 
 
7
1
10i
i
F
=
=∑ 7
1
1,0i
i
f
=
=∑
Observe que . Note também que 
7
1
1,0i
i
f
=
=∑ 2,0102 = , ou das pessoas que trabalham 
na empresa têm idade igual a 22 anos. 
%20
 
G – Frequência Absoluta Acumulada (Faci) 
 
É a soma das frequências dos valores inferiores ou iguais ao valor considerado. 
Também pode ser considerada a frequência relativa acumulada (faci), obtida, da mesma 
forma quem Faci, ou seja, somando as frequências relativas inferiores ou iguais ao valor 
considerado. 
 
 11
A frequência relativa acumulada também pode ser obtida como: ii
Facfac
n
= 
Para o nosso exemplo temos: 
 
 
 xi Fi fi Faci faci 
22
23
24
25
28
34
35
2 
2 
1 
1 
2 
1 
1 
0,2
0,2
0,1
0,1
0,2
0,1
0,1
2 
4 
5 
6 
8 
9 
10 
0,2 
0,4 
0,5 
0,6 
0,8 
0,9 
1,0 
∑ 10 1,0 
 
Assim, podemos dizer quem 5 empregados, ou dos empregados têm idade menor ou 
igual a 24 anos. 
%50
Uma tabela contendo as frequências absolutas, relativas e acumuladas é dita uma 
distribuição de frequências completa. 
Segundo Milone (2004), em se tratando das frequências relativas em percentuais, 
arredondamentos se fazem necessários e devem ser feitos de maneira convencional. Neste tipo de 
aproximação opta-se sempre pelo menor erro. Por exemplo, se for necessário aproximar o 
número 0,483 para a ordem do centésimo, erra-se menos subtraindo 0,003 que adicionando 0,007 
ao valor 0,483, portanto a aproximação correta é 0,48. Se a aproximação for do número 0,4853 
para a ordem do centésimo, então o erro menor será para a adição de 0,0047 e não para a 
subtração de 0,0053, e a aproximação adequada é 0,49. Já no caso do número 0,485, o tamanho 
do erro de aproximação é o mesmo que se obtém quando feita para mais ou para menos (0,005), e 
neste caso, cabe ao usuário decidir qual aproximação é mais conveniente. 
A soma de todas as frequências relativas percentuais deve ser igual a 1,0. Entretanto, 
quando são feitas aproximações, tal fato pode não ocorrer. Para o caso em que a soma das 
frequências relativas for menor que 1,0, soma-se uma unidade ao dígito de interesse das maiores 
frequências relativas até que a soma seja 1,0. Se for maior que 1,0, deve-se subtrair uma unidade 
das maiores frequências relativas. Agora, se ocorrem empates ou se as maiores frequências forem 
números inteiros, é conveniente trabalhar com as outras frequências. O importante é que a 
distribuição dos dados não seja alterada. 
 
H – Distribuição de Frequência em Classes 
 
A distribuição de frequências em classes é apropriada para apresentar dados quantitativos 
contínuos ou discretos com um número elevado de valores. É necessário dividir os dados em 
intervalos ou faixas de valores que são denominadas classes. Uma classe é um intervalo ao qual 
são associadas frequências. O menor valor da classe é denominado limite inferior (li) e o maior 
valor da classe é denominado limite superior (Li). Existem algumas maneiras de expressar os 
limites das classes. Eis algumas: 
 
 12
a) li |---- Li, onde o limite inferior da classe é incluído na contagem da frequência absoluta, 
mas o superior não; 
b) li ------| Li, onde o limite superior da classe é incluído na contagem, mas o inferior não; 
c) li |-----| Li, onde tanto o limite inferior quanto o superior são incluídos na contagem; 
d) li ------ Li, onde os limites não fazem parte da contagem. 
 
Pode-se escolher qualquer uma destas opções, sendo o importante tornar claro no texto ou 
na tabela qual está sendo usada. A forma expressa em a) é a mais usada. 
Exemplos: 
a) a |---- b classe x a x b∈ ⇔ ≤ < 
b) a ----| b classe x a x b∈ ⇔ < ≤ 
c) a |----| b classe x a x b∈ ⇔ ≤ ≤ 
d) a ---- b classe x a x b∈
⇔ < < 
 
Se houver muitos intervalos, o resumo não constituirá grande melhoria com relação aos 
dados brutos. Se houver poucos, um grande volume de informação se perderá. Embora não seja 
necessário, os intervalos são frequentemente construídos de modo que todos tenham amplitudes 
iguais, o que facilita as comparações entre as classes. 
 
I – Numero de Classes (k) 
 
Não há uma fórmula exata para o cálculo do número de classes. Eis algumas sugestões: 
a) Para , ; para , 25≤n 5k = 25>n nk = 
b) Fórmula de Sturges: nk log22,31+≅
c) )ln(21 nk +−≅
Onde n é o número de elementos da amostra. 
Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos 
critérios deve ser o maior número inteiro obtido. 
Milone (2004) acrescenta ainda que, adotando o princípio de que os agrupamentos devem 
ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para 25≤ n ≤400, o do log 
para 16 ≤ n ≤ 572.237 e o do ln para 20 ≤ n ≤ 36.315. 
Por outro lado, o pesquisador pode definir o número de classes baseando-se em sua 
experiência. 
 
J – Amplitude das Classes (h) 
 
Determinado o número de classes da distribuição de frequências, o próximo passo é 
determinar a amplitude de cada classe. 
A amplitude de classe, h, é definida por: 
 
Ah
k
= 
 
E assim todas as classes terão a mesma amplitude, o que permitirá a construção de gráficos 
e cálculo de medidas descritivas. 
 
 13
O ponto médio da classe i é a média aritmética entre o limite inferior e o limite superior da 
classe, ou seja: 
 
, 1, 2 , ...,
2
i i
i
l Lx i k+= = 
Exemplo: Seja a Classe 
10 |---- 12 então 11
2
1210 =+=ix 
 
Estes valores são utilizados na construção de gráfico e na obtenção de medidas descritivas 
com o auxílio de calculadoras. 
 
Obs.: tanto h, quanto k devem ser aproximados para o maior inteiro mais próximo. 
 
3- GRÁFICOS 
 
Gráfico é um recurso visual da Estatística utilizado para representar um fenômeno. Sua 
utilização em larga escala nos meios de comunicação social, técnica e científica, devem-se tanto à 
sua capacidade de refletir padrões gerais e particulares do conjunto de dados em observação, 
como à facilidade de interpretação e a eficiência com que resume informações dos mesmos. 
Embora os gráficos forneçam menor grau de detalhes que as tabelas, estes apresentam um 
ganho na compreensão global dos dados, permitindo que se aperceba imediatamente da sua forma 
geral sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do 
pesquisador. 
A escolha da representação gráfica e, conseqüentemente, a escolha do tipo de gráfico mais 
adequado para representar um conjunto de dados deve ser feita com base nas respostas de 
questões como: 
- Um gráfico realmente é a melhor opção? 
- Qual é o público-alvo? 
- Qual é o objetivo do gráfico? 
- Que tipo de gráfico deve ser usado? 
- Como o gráfico deve ser apresentado? 
- Que tamanho o gráfico deve ter? 
- Deverá ser usado apenas um gráfico? 
- A qual meio técnico se deve recorrer? 
 
Uma representação gráfica coloca em evidência as tendências, as ocorrências ocasionais, os 
valores mínimos e máximos e também as ordens de grandezas dos fenômenos que estão sendo 
observados. 
Todo gráfico, em sua versão final deve primar pela simplicidade, clareza e veracidade nas 
informações. Para atingir tal objetivo, a construção de um gráfico exige muito trabalho e 
cuidados. 
O titulo do gráfico deve aparecer na parte inferior, precedido da palavra Gráfico Nº_ título 
e/ou legenda explicativa. 
Uma regra básica para elaboração adequada do título de qualquer gráfico é verificar se o 
mesmo responde a três exigências: o quê, onde e quando. 
 
 14
Existem diversos tipos de gráficos. Porém, nesta monografia serão destacados aqueles de 
maior interesse pedagógico na representação das variáveis qualitativas e quantitativas. 
 
3.1 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS 
 
3.1.1 Histograma 
 
É a representação gráfica de uma distribuição de frequência por meio de retângulos 
justapostos. 
No eixo horizontal são dispostos os limites das classes segundo as quais os dados foram 
agrupados enquanto que o eixo vertical corresponde às frequências absolutas ou relativas das 
mesmas. 
Quando os dados são distribuídos em classes de mesma amplitude, Figura 01 (a), todas as 
colunas apresentam bases iguais com alturas variando em função das suas frequências absolutas 
ou relativas. Neste caso, tem-se que a área de cada retângulo depende apenas da sua altura 
enquanto que no caso de dados agrupados em classes de dimensões diferentes, como mostra a 
Figura 01 (b), a área de cada coluna já não é mais proporcional à sua altura. No caso em que as 
classes possuem amplitudes diferentes o histograma é construído usando em lugar da frequência 
absoluta relativa, a densidade de frequência (di) dada por ii
fd
h
= , onde fi é a frequência relativa 
e h, a amplitude da classe. Observe que, desta forma, a área do retângulo, , será igual à 
frequência relativa (
id h×
)i if d h= × . Portanto, pode-se dizer que no primeiro caso, o eixo dos valores 
informa sobre a frequência relativa de cada classe, no segundo caso, tal procedimento perde todo 
significado, e é necessário comparar as áreas para interpretar as informações que são expostas. 
 
 Figura 01 – idade dos alunos da disciplina Inferência 
 Estatística do curso de Estatística da 
 UEM 21/03/2005 
 Fonte: Tabela 01 
 
 15
3.1.2 Polígono de frequência 
 
É a representação gráfica de uma distribuição por meio de um polígono. Um gráfico de 
linha cuja construção é feita unindo-se os pontos de coordenadas de abscissas correspondentes 
aos pontos médios de cada classe e as ordenadas, às frequências absolutas ou relativas dessas 
mesmas classes. 
O polígono de frequência é um gráfico que deve ser fechado no eixo das abscissas. Então, 
para finalizar sua elaboração, deve-se acrescentar à distribuição, uma classe à esquerda e outra à 
direita, ambas com frequências zero. Tal procedimento permite que a área sob a linha de 
frequências seja igual à área do histograma. 
Uma das vantagens da aplicação de polígonos de frequências é que, por serem gráficos de 
linhas, permitem a comparação entre dois ou mais conjuntos de dados por meio da superposição 
dos mesmos. 
0
2
4
6
8
10
12
0 5 10 15 20 25 30 35 40 45
C las s es
fi
 
 Figura 02 - Polígono de frequência referente ao histograma da Figura 01 (a) 
 Fonte: Tabela 01 
 
 
3.1.3 Gráfico da frequência acumulada ou Ogiva 
 
É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada. 
A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das 
classes, e, ordenadas suas respectivas frequências acumuladas. Convém observar que o ponto 
inicial desse gráfico é o limite inferior do primeiro intervalo, com frequência acumulada zero, 
pois não existe qualquer valor inferior a ele. 
Quando os dados contidos em cada classe são distribuídos uniformemente, pode-se estimar, 
a partir da ogiva, o número de elementos pertencentes a qualquer uma das classes que compõe a 
distribuição de frequência dos dados e a quantidade ou porcentagem de elementos que estão 
abaixo de certo valor pertencente ao conjunto de dados. 
Pela Figura 03, nota-se que não existem alunos com idade inferior a 18 anos enquanto que 
abaixo de 34 anos existem vinte alunos. 
Observe que também poderíamos ter usado a frequência
relativa acumulada para construir 
um gráfico semelhante à ogiva. 
 
 
 16
 
 Figura 03 – Idade acumulada dos alunos da disciplina 
 Inferência Estatística do curso de Estatística 
 da UEM 21/03/2005 
 Fonte: Tabela 01 
 
3.1.4 Ramo-e-Folhas 
 
É uma forma simples de visualização dos dados, quando a quantidade de dados não for 
muito grande. O Ramo-e-Folhas alem de fornecer uma distribuição de frequências ainda preserva 
a magnitude dos valores. O diagrama Ramo-e-Folhas, criado por John Tukey, é um procedimento 
utilizado para armazenar os dados sem perda de informação. É utilizado para se ter uma ideia 
visual da distribuição dos dados. Cada valor observado, xi, da variável X, deve consistir de no 
mínimo dois dígitos e a variável pode ser tanto quantitativa discreta como contínua. 
 
Para construí-lo, divide-se cada número em duas partes. A primeira é denominada ramo e a 
segunda, folhas. O ramo consistirá de um ou mais dígitos iniciais se o valor da variável for um 
número inteiro e do número inteiro, se o valor da variável for um número com decimais. Nas 
folhas, colocam-se os dígitos restantes se o valor observado for número inteiro, ou os decimais, 
caso contrário. 
Considere o conjunto de dados: 09, 10, 10, 11, 11, 18, 22, 23, 24, 32, 33, 64; para cada 
valor o primeiro algarismo é colocado do lado esquerdo do traço vertical (ramo). O segundo 
algarismo é colocado do lado direito do traço vertical (folhas). Assim o valor “32” fica 
representado por 3 | 2. Os dados devem estar ordenados. Assim o ramo e folhas para o conjunto 
de dados é: 
 
 
0 | 9 
1 | 0 1 8 
2 | 2 3 4 
3 | 2 3 
4 | 
5 | 
6 | 4 
 
Observe que 64 é um valor discrepante. 
 
 
 
 
 17
 
3.2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS 
 
3.2.1 Gráfico de Bastões 
 
Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da 
variável), cujo comprimento corresponde à frequência absoluta ou relativa de cada elemento da 
distribuição. Suas coordenadas não podem ser unidas porque a leitura do gráfico deve tornar 
claro que não há continuidade entre os valores individuais assumidos pela variável em estudo. 
 
 
 Figura 04 – Número de irmãos dos alunos da disciplina Inferência 
 Estatística do curso de Estatística da UEM 21/03/2005 
 Fonte: Tabela 01 
 
 
3.2.2 Gráfico da Frequência Acumulada ou Ogiva 
 
É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada. 
A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das 
classes e, ordenadas, suas respectivas frequências acumuladas. O ponto inicial do gráfico é limite 
inferior do primeiro intervalo, com frequência igual a zero. 
 
 
Figura 05 – Número acumulado de irmãos dos alunos da disciplina Inferência 
 Estatística do curso de Estatística da UEM 21/03/2005 
 Fonte: Tabela 01 
 
 18
3.3 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS 
 
3.3.1 Gráfico de barras 
 
É um gráfico formado por retângulos horizontais de larguras iguais, onde cada um deles 
representa a intensidade de uma modalidade ou atributo. 
É recomendável que cada coluna conserve uma distância entre si de aproximadamente 2/3 
da largura da base de cada barra, evidenciando deste modo, a não continuidade na seqüência dos 
dados. 
O objetivo deste gráfico é de comparar grandezas e é recomendável para variáveis cujas 
categorias tenham designações extensas. 
 
0 1000 2000 3000 4000
Masc
Fem
Se
xo
freqüência
 
Gráfico 01: Formandos em Engenharias 
segundo o sexo, Brasil, 1986 
 
3.3.2 Gráfico de colunas 
 
É o gráfico mais utilizado para representar variáveis qualitativas. Difere do gráfico de 
barras por serem seus retângulos dispostos verticalmente ao eixo das abscissas sendo mais 
indicado quando as designações das categorias são breves. Também para este tipo de gráfico 
deve ser preservada a distância entre cada retângulo de, aproximadamente, 2/3 da largura da base 
de cada coluna. O número de colunas ou barras do gráfico não deve ser superior a 12 (doze). 
 
0
500
1000
1500
2000
2500
3000
3500
4000
Masc Fem
Sexo
fr
eq
üê
nc
ia
 
Gráfico 02: Formandos em Engenharias 
segundo o sexo, Brasil, 1986 
 
 19
 
3.3.3 Gráfico de setores 
 
Tipo de gráfico onde a variável em estudo é projetada num círculo, de raio arbitrário, 
dividido em setores com áreas proporcionais às frequências das suas categorias. São indicados 
quando se deseja comparar cada valor da série com o total. Recomenda-se seu uso para o caso em 
que o número de categorias não é grande e não obedecem a alguma ordem específica. 
A Figura 06 mostra um gráfico de setores para a variável município de procedência que 
constam na Tabela 01. O procedimento para o cálculo do ângulo correspondente a cada categoria 
é feito por meio de simples proporções: 360º que corresponde a um círculo completo está para o 
total de alunos entrevistados, 22, assim como x está para o total de alunos que pertencem à 
categoria desejada. Por exemplo, os 54% dos alunos (12) que residem no município de Maringá 
corresponderá a um ângulo x resultante da expressão 
 
360 º _________ 22 
 x __________ 12 
 
Assim, x=196° 
 
 
 Figura 06 – Município de procedência dos alunos da disciplina 
 Inferência Estatística do curso de Estatística 
 da UEM 21/03/2005 
 Fonte: Tabela 01 
 
3.3.4 Gráfico de linhas 
 
Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão, 
conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no 
eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável 
numa ordem crescente. Este tipo de gráfico permite representar séries longas, o que auxilia 
detectar suas flutuações, tanto quanto analisar tendências. Também podem ser representadas 
várias séries em um mesmo gráfico. 
 
 
 20
100
110
120
130
140
150
160
1935 1940 1945 1950 1955 1960 1965
Ano
M
or
te
s 
po
r c
ân
ce
r p
or
 1
00
 m
il 
pe
ss
oa
s
 
Figura 07: Taxa de mortalidade por câncer (mortes por 100 mil 
pessoas), de 1940 a 1960 
 
 
4- MEDIDAS DESCRITIVAS 
 
Outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas e 
gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas. Estas 
medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se 
calculadas a partir de dados amostrais são denominadas estimativas ou estatísticas. 
As medidas descritivas auxiliam a análise do comportamento dos dados e Classificam-se 
em: medidas de posição (tendência central e separatrizes), medidas de dispersão, medidas de 
assimetria e curtose. 
 
4.1 MEDIDAS DE TENDÊNCIA CENTRAL 
 
Uma medida de tendência central ou de posição de um conjunto de dados mostra o valor em 
torno do qual se agrupam as observações. Este valor tende a ser o centro da distribuição dos 
dados. Reis (1998), afirma que: o
valor a escolher depende das características dos dados. Por exemplo, 
num estudo agrícola sobre a produção de trigo por hectare de terra arável podemos estar interessados em 
conhecer o valor mais elevado da produtividade do solo agrícola das várias explorações analisadas. Num 
outro estudo sobre os resultados de uma turma de estudantes universitários talvez seja mais interessante 
conhecer o resultado médio obtido por 50% dos estudantes. Num outro estudo sobre os rendimentos per 
capta dos países da América Latina, a comparação entre países será facilitada se calcularmos os 
rendimentos médios de cada país. 
A seguir, são definidas as principais medidas de tendência central: média, mediana e moda. 
 
 
 
 
 
 
 21
4.1.1 Média aritmética 
A média aritmética (
__
X ) é a soma de todos os valores observados da variável dividida pelo 
número total de observações. Sob uma visão geométrica a média de uma distribuição é o centro 
de gravidade, representando o ponto de equilíbrio de um conjunto de dados. É a medida de 
tendência central mais utilizada para representar a massa de dados. 
Seja (x1, x2, ..., xn) um conjunto de dados com n observações. A média é dada por: 
 
__
1
n
i
i
x
X
n
==
∑
 
 
 
Para dados provenientes de uma amostra. Se x1, x2, ..., xn representam todos os valores de 
uma população, de tamanho n, então usamos para representar a media populacional: 
 
1
n
i
i
x
n
μ ==
∑
, 
μ é chamado de parâmetro. 
Se os dados estiverem classificados em uma distribuição de frequências com K classes, se xi 
(i =1, 2, ..., k) são os pontos médios das classes, ou os diferentes valores observados (no caso de 
uma variável discreta) e se Fi são as respectivas frequências absolutas, a media aritmética é dada 
por: 
 
n
Fx
F
Fx
X
k
i
ii
k
i
i
k
i
ii ∑
∑
∑
=
=
=
⋅
=
⋅
= 1
1
1
__
, pois nF
k
i
i =∑
=1
 
 
Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde 
os pesos são as frequências absolutas de cada classe e é o ponto médio da classe i. ix
Propriedades da média aritmética: 
 
1. a média é um valor que depende de todas as observações; 
2. é única em um conjunto de dados e nem sempre tem existência real, ou seja, nem 
sempre é igual a um determinado valor pertencente ao conjunto de dados; 
3. a média aritmética é afetada por valores extremos observados; 
4. por depender de todos os valores observados, qualquer modificação nos dados fará com 
que a média fique alterada. Isto quer dizer que somando-se, subtraindo-se, 
multiplicando-se ou dividindo-se uma constante a cada valor observado, a média ficará 
acrescida, diminuída, multiplicada ou dividida desse valor. 
 
 22
Exemplo: 1
n
i
i
x c
c X
n
=
⋅
= ⋅
∑
 
5. a soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma 
dos desvios em relação à media aritmética é zero. 
0)(
1
1
1
__
1
__ =⋅−=⋅−=− ∑ ∑∑∑
=
=
==
n
i
n
i
i
i
n
i
i
n
i
i n
x
nxXnxXx 
 
 
A propriedade 5 é de grande importância para a definição de variância, uma medida de 
dispersão a ser definida posteriormente. 
Destaca-se, ainda, que, de acordo com a propriedade 3, observações discrepantes no 
conjunto de dados fazem da média uma medida não apropriada para representar os dados. Neste 
caso, não existe uma regra prática para a escolha de outra medida. O ideal é, a partir da 
experiência do usuário, decidir pela moda ou mediana. Como exemplo, considere o número de 
filhos, por família, para um grupo de 8 famílias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso, a média é X = 
1,875 filhos por família. 
Entretanto, incluindo ao grupo uma nova família com 10 filhos, a média passa a ser X = 
2,788, o que eleva em 48,16% o número médio de filhos por família. Assim, ao observar a média, 
pode-se pensar que a maior parte das famílias deste grupo tem três filhos quando, na verdade, 
apenas uma tem três filhos. Veja o diagrama de pontos ilustrado na Figura 07 
 
 
Figura 08 
 
Exemplo 01: 
 
As trincas em aço e ferro causadas por fadiga de corrosão cáustica estudada em decorrência 
de falhas em rebites de caldeiras em aço e em rotores a vapor. Considere as observações a seguir 
sobre x = comprimento da trinca ( mμ ) como resultado de testes de fadiga por corrosão devido a 
cargas constantes em amostras de barras de tração lisas durante um período de tempo fixo. (Os 
dados são consistentes com um histograma e as quantidades-resumo do artigo “On the Role of 
 
 23
Phosphorus in the Caustic Stress Corrosion Cracking of Low Alloy Steels”, Corrosion Science, 
1989: 53-68 ). 
 
 
16.1 09.6 24.9 20.4 12.7 21.2 30.2 25.8 18.5 10.3 25.3 
23.3 24.2 14.6 08.9 32.4 11.8 28.5 14.0 27.1 45.0 
 
 
__ 16.1 09.6 24.9 20.4 ... 45.0 444.8 21.18
21 21
X + + + + += = = 
 
Assim o comprimento médio de trincas nas ligas de aço e ferro é 21.18 mμ . 
 
 
4.1.2 Moda 
 
A moda (Mo) é o valor que apresenta a maior frequência da variável entre os valores 
observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente 
observando-se o rol ou a frequência absoluta dos dados. Por outro lado, em se tratando de uma 
distribuição de frequência de valores agrupados em classes, primeiramente é necessário 
identificar a classe modal, aquela que apresenta a maior frequência, e a seguir a moda é calculada 
aplicando-se a fórmula: 
 
1 1
1 1 1
( ) ( ) ou 
( ) ( ) 2
i i i i
i i
i i i i i i i
h F F h F FMo l Mo l
F F F F F F F
− −
1− + − +
− −= + = +− + − − − . 
Onde: 
 
i é a ordem da classe modal; 
li é o limite inferior da classe modal; 
h é a amplitude da classe modal; 
Fi é a frequência absoluta da classe modal; 
Fi−1 é a frequência absoluta da classe anterior à classe modal; 
Fi+1 é a frequência absoluta da classe posterior à classe modal. 
 
É relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a 
mesma frequência absoluta, e neste caso não existirá um valor modal, o que significa que a 
distribuição será classificada como amodal. Podem ocorrer, também, casos em que a seqüência 
de observações apresente vários elementos com frequência iguais, implicando numa distribuição 
plurimodal. 
O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida de 
tendência central. Outro aspecto que favorece a utilização da moda é que seu valor não é afetado 
pelos valores extremos do conjunto de dados analisado. 
 
 
 
 24
Exemplo 02: A moda da idade dos alunos da disciplina Inferência Estatística do curso de 
Estatística da UEM, determinada pontualmente, é Mo= 20 anos. Isto significa que a idade mais 
freqüente entre estes alunos é de 20 anos. 
Ao considerar a distribuição apresentada na Tabela 01, a moda é 
 
.75,2075,218
16
4418
)611()011(
)011(418
)()(
)(
11
1 =+=+−+−
−⋅+=−+−
−+=
+−
−
iiii
ii
i FFFF
FFhlMo 
 
A interpretação é análoga à determinada pontualmente 
 
4.1.3 Mediana 
 
A mediana (Med) é o valor que ocupa a posição central da série de observações de uma 
variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores 
inferiores à mediana é igual à quantidade de valores superiores a mesma. Para o cálculo da 
mediana , os dados devem estar ordenados de forma crescente. 
 
Exemplo 03: Exemplo com número de filhos por famílias. Verifica-se que: 
 
Se o número de dados é par (n é par) a mediana é a média aritmética dos dois valores 
centrais, ou seja: 
2
1
22
+
+
=
nn
ed
xx
M 
Para o caso de oito famílias, n= 8, a mediana é determinada como a seguir: 
 
x x1 x2 x3 x4 x5 x6 x7 x8 
Valor Observado
0 1 1 2 
2
54 xx + 2 2 3 4 
 
Se o número de dados é impar (n é impar) a mediana é o valor central 
2
1+= ned xM 
Quando se acrescenta ao grupo outra família com 10 filhos o tamanho da amostra passa a 
ser n = 9. Neste caso, a mediana é: 
 
x x1 x2 x3 x4 x5 x6 x7 x8 x9 
Valor Observado 0 1 1 2 2 2 3 4 10 
 
Observe que nos dois casos, por coincidência, a mediana manteve-se a mesma, Med = 2, 
significando que 50% das famílias possuem menos de 2 filhos ou 50% possuem mais de 2 filhos 
observe que a mediana não é influenciada por valores extremos. 
Este procedimento pode tornar-se inadequado quando o conjunto de dados for composto 
por muitos elementos. Os passos a seguir indicam uma forma para o cálculo da mediana, 
independentemente do tamanho da amostra. 
Ordenar as observações em ordem crescente ou decrescente (rol). 
Calcular a posição que a mediana ocupa no conjunto de dados. 
 
 25
Para os dados em distribuição de frequências em classes temos, em primeiro lugar, de 
localizar a classe da mediana e depois aplicarmos a fórmula: 
 
1( )2i ii
h nMed l Fac
F −
= + − , onde 
h: é a amplitude da classe. 
n: é o tamanho da amostra. 
i: é a classe da mediana. 
1
1
1
i
i
j
Fac F
−
−
=
=∑ j é a soma das frequências absolutas das classes inferiores à classe da mediana 
(Frequência acumulada da classe anterior à classe da mediana). 
iF : é a frequência absoluta da classe da mediana. 
il : é o limite inferior da classe da mediana (classe i). 
A classe da mediana é aquela quem contém o elemento 2nx . 
Exemplo: Considere a seguinte distribuição de frequências em classes. 
 
 
i Classes Fi Fai 
5 5 1
2
3
4
5
157|----162
162|----167
167|----172
172|----177
177|----182
15
46
24
10
20 
66 
90 
100
 
A classe da mediana é aquela que contém o elemento 50
2
100 xx = , que pertence à terceira 
classe, pois na primeira classe temos os elementos até ; na segunda, até e na terceira, 
até , portanto pertence a essa classe. 
1x 5x 6x 20x
21x 66x 50x
Assim, 26.170)20
2
100(
46
5167 =−+=edM 
 
4.1 MEDIDAS SEPARATRIZES 
 
QUARTIS 
 
Os quartis dividem um conjunto de dados em quatro partes iguais. 
 
 25% 50% 75% 100% 
|__________|__________|__________|__________| 
 Q 1 Q Q 3 2
Q 1 : é o valor que divide o conjunto de dados, de modo que 25% das observações são 
menores ou iguais esse valor 
 
 26
Q = Med: é o valor que divide o conjunto de dados, de modo que 50% das observações são 
menores ou iguais a esse valor. 
2
Q : é o valor que divide o conjunto de dados, de modo que 75% das observações são 
menores ou iguais a esse valor. 
3
14 i
k i
knh Fac
Q l
Fi
−
⎛ ⎞−⎜ ⎟⎝= + ⎠
j
, para k =1, 2, 3. 
i: é a classe do quartil k. 
li: é o limite inferior da classe i. 
h: é a amplitude da classe do quartil k. 
Fi: é a frequência absoluta da classe do quartil k. 
n: é o numero de observações. 
1
1
1
i
i
j
Fac F
−
−
=
=∑ é a frequência acumulada da classe anterior à classe do quartil k. 
A classe do quartil k é aquela que contém o elemento 
4
k nx ⋅ , k = 1, 2, 3. 
Exemplo 04: Dada a seguinte distribuição de frequências em classes, determine: Q1, Q2 = 
Med e Q3. 
 
 
 
⎯→⎯ classe de Q1 
⎯→⎯ classe de Q2 = Med 
⎯→⎯ classe de Q3 
 
i Classes Fi Fai 
1 
2 
3 
4 
5 
 7 |---- 17 
17 |---- 27 
27 |---- 37 
37 |---- 47 
47 |---- 57 
6 
15 
20 
10 
5 
6 
21 
41 
51 
56 
 n = 56 
Queremos determinar Q1, Q2, Q3. 
A classe de Q1 é aquela quem contém o elemento 14
4
56
4
xxxn == , logo, a segunda classe, 17 
|----27, é a classe de Q1, pois esta contém os elementos até . Assim, 7x 21x
.33,22
15
)6
4
561(10
171 =
−⋅
+=Q 
A classe de Q2 = Med é a classe quem contém o elemento 28
4
56
24
2 xxxx nn === , logo a 
terceira classe, 27 |---- 37, é a classe de Q2. 
2
2 5610( 21)
427 30,5.
20
Q
⋅ −
= + = 
A classe de Q3 é aquela quem contém o elemento 42
4
563
4
3 xxx n == ⋅ , logo a quarta classe, 37 
|---- 47, é a classe de Q3. 
 
 27
3
3 5610( 41)
437 38
10
Q
⋅ −
= + = . 
Assim, 25% dos dados ≤ 22,33 
 50% dos dados 30,50 ≤
 75% dos dados 38 ou 25% dos dados ≥ 38. ≤
 
DECIS: 
 
Dividem o conjunto de dados em dez partes iguais. 
 
 10% 50% 90% 
|_____|_____|_____|_____|_____|_____|_____|_____|_____|_____| 
 D1 D5 = Med D9 
 
O Decil DK é dado por: 
1( )10 i
k i
i
k nh Fac
D l
F
−
⋅ −
= + , para k = 1, 2, 3, ..., 9. 
i: é a classe do decil k, e é aquela que contém o elemento 
10
nkx ⋅ , para k = 1, 2, ..., 9. 
Neste caso, a mediana corresponde ao decil 5, D5. A interpretação é a mesma quem a dos 
quartis, por exemplo, para o decil 3, D3, temos quem 30% das observações são inferiores a esse 
valor, e obrigatoriamente, 70% são superiores. 
 
PERCENTIS: 
 
Dividem o conjunto de dados em 100 partes iguais. 
 
 1% 2% . . . 98% 99% 
|___|___|___________________________________________________|___| 
 P1 P2 P98 P99 
 
O percentil Pk é dado por: 
1( )100 i
k i
i
k nh Fac
P l
F
−
⋅ −
= + para k = 1, 2, ..., 99. 
i: é a classe do percentil k, e é aquela q contém o elemento 
100
nkx ⋅ , para k = 1, 2, 3, ..., 99. 
 
 
SEPARATRIZES PARA DADOS EM ROL: 
 
Este procedimento é adequado quando o conjunto de dados for composto de muitos 
elementos. A medida separatriz de ordem k é dada por: 
 
)(
1 PPP IIpIk
xxFxS −+= + 
 
 28
 
onde Ip é a parte inteira de p e Fp a parte fracionária (ou decimal). 
 
PI
x é o elemento que está na -ésima posição e PI
a) ),1(
4
+= nkp com para a determinação dos quartis; 3 2, ,1=k
b) ),1(
10
+= nkp com para determinação dos decis; ...,9 3, 2, ,1=k
c) ),1(
100
+= nkp com para a determinação das percentis. 99 ..., 3, 2, 1,=k
 
Exemplo: considere o conjunto com n = 22 observações, organizadas em rol. 
 
18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 
 
a) calcule o terceiro quartil Q3 
 
3Q S= 3 ; 3 (22 1) 17,254p = + = , assim 17pI = e 0,25pF = , logo 
 
3 3 17 18 170, 25( ) 25 0,25(26 25) 25,25Q S x x x= = + − = + − = 
 
Desta forma, pode-se dizer que 75% das observações é inferior a 25,25. 
 
b) calcule o quadragésimo percentil (P40) 
 
40 40P S= ; 40 (22 1) 9,2100p = + = , assim 9pI = e 0,20pF = 
 
40 40 9 10 90,20( ) 20 0,20(21 20) 20,20P S x x x= = + − = + − = 
 
Portanto, 40% das observações é inferior a 20,20. 
 
4.3 MEDIDAS DE DISPERSÃO 
 
De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-
se por suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de 
tendência central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou 
não, próximos uns dos outros. 
Considere os seguintes conjuntos de dados 
 
A={5,5,5,5,5} → 5X = 
 
 29
 
B={3,4,5,6,7} → 5__ =X
 
 
C={13,14,15,16,17}→ 15__ =X 
 
 
D={1,3,5,7,9}→ 5__ =X 
 
 
 
E={3,5,5,5,7} → 5__ =X
 
 
F={3,3,4,4,5,5,6,6,7,7}
→ 5__ =X
 
 30
 
Note que a média aritmética dos elementos do conjunto c é 15 e para todos os demais 
conjuntos a media aritmética é 5. 
Com base no simples exame desses conjuntos, podemos fazer as seguintes afirmativas, 
relativas à dispersão dos valores dos elementos de cada conjunto. 
1) O conjunto A apresenta dispersão nula; 
2) Os conjuntos B e C apresentam a mesma dispersão, só diferindo quanto à média. 
3) A dispersão de D é maior do que a dispersão de B e ainda, como para o conjunto D a 
diferença entre dois valores consecutivos é sempre igual a 2 e para o conjunto B é 
sempre igual a 1, pode-se dizer que a dispersão de D é, em certo sentido igual ao dobro 
da dispersão de B. 
4) A dispersão de E é maior do que a dispersão de A e menor do que a dispersão de B. 
5) O conjunto F apresenta a dispersão igual à de B, pois esses conjuntos só diferem quanto 
ao numero de elementos (F é uma duplicação de B). 
Assim, para caracterizar um conjunto de dados, devemos associar a uma medida de 
tendência central uma medida de dispersão. Uma medida de dispersão é uma indicação da 
aglomeração das medidas dos dados em torno do centro da distribuição. 
 
4.3.1 Amplitude Total 
 
E a diferença entre o maior valor e o menor valor observado. 
max minA x x= − 
Amplitude total é zero para o conjunto A, 4 para os conjuntos B, C, E e F e 8 para o 
conjunto D. Nota-se que os valores da amplitude não obedecem à quarta afirmativa, pois tais 
valores indicam, erroneamente, que os conjuntos B e E apresentam o mesmo grau de dispersão. 
Isso acontece porque a amplitude só leva em consideração os valores extremos, desconsiderando 
os valores intermediários e, portanto, perde a informação de como os dados estão distribuídos 
e/ou concentrados. 
Uma boa medida de dispersão deve levar em consideração todos os dados e não apenas o 
maior e o menor valor observado. 
 
4.3.2 Amplitude Interquartílica 
 
A amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é 
mais estável que a amplitude total por não considerar os valores mais extremos. Abrangendo 50% 
dos dados, sendo muito útil para detectar valores discrepantes. 
 
13 QQdq −= 
 
A outra medida usada é a amplitude semi-interquartílica que é definida como a média 
aritmética da diferença entre a mediana e os quartis: 
 
 31
 
2
)(
2
)()( 131223 QQQQQQdqm
−=−+−= 
 
Exemplo 05: A amplitude interquartílica da idade dos alunos que cursam a disciplina 
Inferência Estatística do curso de Estatística da UEM considerando-se a Tabela 01 é: 
 
67,52067,25 =−=qd 
 
4.3.3 Desvio-médio 
 
Outra medida de dispersão poderia ser a soma das diferenças dos valores dos conjuntos de 
dados em relação à sua média. Entretanto, para um conjunto de dados, x1, ..., xn, temos que: 
∑
=
=−=−++−+−
n
i
in XxXxXxXx
1
______
2
__
1 .0)()(...)()( 
Portanto, a soma dos desvios não serve como uma medida de dispersão. Desta forma, 
vamos considerar os desvios absolutos ix X− , mas se o numero de dados for grande o desvio 
também será grande, assim uma medida adequada é a média dos desvios absolutos, que iremos 
chamar de desvio médio, Dm. Assim, 
1
n
i
i
x X
Dm
n
=
−
=
∑
 
Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se: 
n
Xx
Dm
n
i
i∑
=
−
= 1
__
||
 
Para o conjunto B={3,4,5,6,7}, 5
__ =X
 
 
 
 
 
 
 
 
 
 
2,1
5
6 ==Dm 
ix xi -
__
X
__
Xxi −
3 -2 2 
4 -1 1 
5 0 0 
6 1 1 
7 2 2 
∑ 0 6 
O desvio médio, apesar de fácil de entender, não é muito usado como medida de dispersão, 
porque não apresenta boas propriedades matemáticas (devido à função módulo). 
 
 
 
 32
4.3.4 Variância 
dida de dispersão que tem propriedades matemáticas melhores que o desvio médio 
é a va
No cálculo da variância, os desvios são tomados ao quadrado e não em módulos, ou seja, 
n
os desvios também cresce com o número de dados. Assim 
tomamos a variância (S²) como, 
 
Uma me
riância. 
²)(
1=
−
i
i Xx 
A soma dos quadrados d
__∑
1
² −= nS 
No caso dos dados estarem agrupados em uma distribuição de frequências, a cada valor 
distinto ou valor 
)(
1
__−∑
=
Xx
n
i
i
central da classe (xj com j=1, ..., k) deve ser ponderado pela respectiva 
frequência, assim, 
1
)²(
² 1
__
−
⋅−
=
∑
=
n
FXx
S
k
j
jj
 
 
Note: 
2
__ __ __ __ __ __
1
1 1 1 1 1 1
( )² ² 2 ( )² ² 2 ( )² ( )² ² ( )² ²
n
in n n n n n
i
i i i i i i
i i i i i i
x
x X x X x n X x n X n X x n X x
n
=
= = = = = =
⎛ ⎞⎜ ⎟⎝ ⎠− = − + = − + = − = −
∑∑ ∑ ∑ ∑ ∑ ∑
 
Assim, a variância pode ser também dada por: 
2
2
1 1
1
²
1
n n
i i
i i
x x
n= =
⎛ ⎞− ⎜ ⎟⎝ ⎠∑ ∑
Da mesma forma, para dados agrupados em uma distribuição de frequências com k classes 
S
n
= − 
2
2
1 1
1
²
1
S
n
=
k k
j j j j
j j
x F x F
n= =
⎛ ⎞− ⎜ ⎟⎝ ⎠
−
∑ ∑
No caso do conjunto de dados ser formado por todos os elementos de uma população, a 
 
média é denominada μ e a variância é dada por 
n
=²σ , onde n é o
x
n
i
i∑
=
−
1
)²( μ
 tamanho da 
população. As outras expressões para a variância seguem de forma análoga. 
 Calcule a va iância da amostra 2, 4, 6, 8, 10. 
Temos que: 
 
Exemplo 06: r
___
6X = , 5=n 
 
 33
ix __X )(
__
X−xi xi )²(
__− X
2 6 -4 16 
4 6 -2 4 
6 6 0 0 
8 6 2 4 
10 6 4 16 
Assim, 10
4
40
15
)²(
5 __
==−
−∑ i Xx
 
 
É por definição a raiz quadrada da variância. 
² 1= =iS
Desvio Padrão 
 
²SS = 
Note que o desvio padrão tema mesma unidade dos dados, o que facilita sua interpretação, 
ao contrario da variância cujas unidades são quadradas. 
ara o exemplo anterior, 16,310 ≅=S P
Exemplo 07: Calcule a variância d te nj to de dados 
 
o seguin co un
Classe xi Fi 
 0 |--- 10 5 2 
10 |--- 20 15 1 
20 |--- 30 25 5 
30 |--- 40 5
40 |--- 50 45 4 
 20
3 8 
 
1
k
i i
i
x F
=
∑ e k 2Vamos calcular 
1
i i
i
x F∑ 
 
x
=
Classe xi Fi i.Fi xi² xi².Fi 
 0 |--- 10 5 2 10 25 50 
10 |--- 20 15 1 15 225 225 
20 |--- 30 25 5 125 625 3125 
30 |- 40 35 1225
40 |--- 50 45 4 180 2025 8100 
 20 610 21300
 
-- 8 280 9800 
25 5
1 1
1 1² 21300 (610)²
20² 141,84 141,84 11,91
1 19
i i i i
i i
x F x F
nS S
n
= =
⎛ ⎞− −⎜ ⎟⎝ ⎠= = = ⇒ =−
∑ ∑
 Assim, =
Comentários: 
 
 
 34
 
1) Tanto a variância quanto o desvio padrão fornecem informações complementares à 
ispersos e, desta forma, a média não está dando boa representatividade para os 
 observação pela medida resumo do 
ão diferentes, isto significa que as populações não têm o mesmo 
comportamento. 
08: Considere três alunos cujas notas em uma disciplina estão apresentadas na 
Tabe
s palavras, apesar dos três alunos terem o mesmo 
desem enho médio, a variabilidade difere. 
Aluno Prova Prova Prova Prova Prova 
informação contida na média. 
2) Variância e desvio padrão “grandes” implica que podemos dizer que os dados estão 
muito d
dados. 
3) Ambas as medidas de dispersão, desvio padrão e desvio médio, indicam qual será o 
“erro” (desvio) cometido ao tentar substituir cada
conjunto de dados (no caso, a média aritmética). 
4) É importante destacar que, se duas populações apresentam a mesma média, mas seus 
desvios padrão s
 
Exemplo 
la abaixo. 
Observa-se que as médias das notas dos três alunos são iguais, porém, seus desvios em 
torno da média são diferentes. Isto quer dizer que seus desempenhos são diferentes. O aluno A é 
constante em seu desempenho, o segundo vai progredindo aos poucos e o terceiro diminui 
abruptamente seu desempenho. Em outra
p
1 2 3 4 5 
X 
ix X− Dm ( )2ix X− S² S 
A 8,0 8,0 8,0 8,0 8,0 8,0 0,0 0,0 0,0 0,0 0,0 
B 6,0 6,0 8,0 10,0 10,0 8,0 8,0 1,60 16,0 4,0 2,0 
C 10,0 10,0 10,0 5,0 5,0 8,0 12,0 2,40 30,0 7,50 2,74
 
 
Como demonstrado no exemplo, geralmente, o desvio padrão é maior ou igual ao desvio 
médio, e isto devido ao fato de que para o cálculo do desvio-padrão cada desvio em torno da 
média é elevado ao quadrado, aumentando desproporcionalmente o peso dos valores extremos. 
xemplo 09: Retomando a idade dos alunos apresentada na Tabela 01, temos: 
édio: Dm =
 
 
E
 
 
20 23,8 11 ... 36 23,8 2
3,82
22
− + + − = Desvio m anos 
 
( ) ( )2 22 20 23,8 11 ... 36 23,8 2 23,63
22 1
S
− + + −= =−Variância: anos 
esvio padrão:
 
 23,63 4,86S = =D anos. 
.3.5 Coeficiente de Variação (CV) 
 
 
4
 
 35
 
O coeficiente de variação representa uma forma de verificar o quanto o desvio padrão está 
afastado da média, corresponde a uma medida de dispersão relativa, definida como a razão entre 
o desvio padrão e a média: 
 
SCV
X
= 
 
A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados 
e, conseqüentemente, se a média é uma boa medida para representar estes dados. O CV é útil para 
a comparação, em termos relativos, do grau de concentração em torno da média de conjuntos de 
dado
quando a média 
está p
 zero for o CV, mais homogêneo é o conjunto de dados e mais 
repre
bserve que o CV é uma medida quem não possui dimensão. 
.000,00 e com desvio padrão de R$ 
1.200,00 . Compare os salários dos homens e o das mulheres. 
alário médio das mulheres é inferior ao salário médio dos homens. Vamos 
verifi
- Para os homens: 
s distintos. 
Uma desvantagem do coeficiente de variação é que ele deixa de ser útil 
róxima de zero. Uma média muito próxima de zero pode inflacionar o CV. 
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica 
heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média. 
Neste caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de uma 
destas medidas. O usuário, com sua experiência, é que deverá decidir por uma ou outra. Por outro 
lado, quanto mais próximo de
sentativa será sua média. 
O
 
Exemplo 10: Numa empresa, o salário médio dos homens é de R$ 4.000,00 com desvio 
padrão de R$ 1.500,00 e o das mulheres é, em média, de R$ 3
 
Notamos que o s
car a dispersão. 
%5,37375,0
4000
1500 ===hCV 
- Para as mulheres: %4040,0
3000
===mCV 
Conclusão: os salário
1200
s das mulheres são em media menos e apresentam maior dispersão 
relati
mentário:
 om boa representatividade da media. 
≤ CV 
uanto menor for o CV maior será a representatividade da média. 
.3.6 Medidas de Assimetria 
e, a forma da distribu um 
valor se e seu gráfico no caso de uma função contínua, tem a forma 
va que o dos homens. 
Co alguns analistas consideram que: 
- indica baixa dispersão, c%15≤CV 
- %30≤ indica média dispersão%15
- %30≥CV indica alta dispersão 
Q
 
4
 
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir 
uma distribuição de frequências e/ou um histograma, está-se buscando, também, identificar 
visualment ição dos dados. Uma função f(x) é simétrica em relação a 
xxafxaf ∀+=− )()(a
 
 36
 
 
 
Como exemplo de uma distribuição simétrica, considere o conjunto de dados disposto em 
uma distribuição de frequência 
 
xi Fi 
1 1 
2 2 
3 5 
4 2 
5 1 
 
O gráfico associado a essa distribuição de frequência é: 
 
 
Observe que =
 
___
3 , 3 , 3edX Mo M= = 
Em uma distribuição simétrica ed
___
X M Mo= = 
Considere agora a seguinte distribuição de frequência 
 
xi Fi 
1 5 
2 3 
3 2 
4 1 
5 1 
 
 37
6 1 
Onde 
___
2,5 , 1 , 2,0edX Mo M= = = 
O gráfico associado a essa distribuição de frequência é: 
 
 
 
 
Dizemos nesse caso que a distribuição é assimétrica à direita, pois a distribuição possui a 
extremidade à direita mais alongada. Em uma distribuição assimétrica à direita, 
___
edMo M X< < . 
Essa 
onsidere ainda outro conjunto de dados com a seguinte distribuição de frequência 
 
distribuição às vezes é denominada positivamente assimétrica. 
C
xi Fi 
1 1 
2 1 
3 1 
4 2 
5 3 
6 5 
Aqui, 
___
4,5 , 5 , 6edX M Mo= = = 
O gráfico associado a essa distribuição de frequência é: 
 
 
 
 
Dizemos nesse caso que a distribuição é assimétrica à esquerda, pois a distribuição tem a 
 esquerda mais alongada. Em uma distribuição assimétricaextremidade à à esquerda 
___
edX M M< < o . Essa distribuição também é chamada de negatividade assimétrica. 
 
 38
No caso de termos uma variável continua as relações entre a média, moda e mediana são as 
mesmas. Neste caso termos que o histograma pode ser simétrico, assimétrico à direita ou à 
esquerda. 
 
Coeficientes de Assimetria 
 
Constitui em um modo formal de classificarmos uma distribuição de acordo com a simetria 
ou assimetria. 
 
Primeiro coeficiente de Pearson 
 
Quando dispomos da media, moda e desvio padrão, o primeiro coeficiente de Pearson é 
dado por: 
X MoAs
S
−= 
 
Segundo coeficiente de Pearson 
 
Para calcular o segundo coeficiente de Pearson é necessário somente o conhecimento do 
quartis. 
3 1
3 1
2 edQ Q MAs
Q Q
+ −= − 
 
A interpretação dos coeficientes de Pearson é a seguinte: 
 - Se , a distribuição é simétrica; 0=As
 - Se , a distribuição é assimétrica à direita (positiva assimétrica); 0>As
 - Se , a distribuição é assimétrica à esquerda (negativa assimétrica) 0<As
 
4.3.7 Medidas de Curtose 
 
A medida de curtose mede o grau de achatamento de uma distribuição, correspondendo a 
um indicador da forma dessa distribuição. 
A curtose ou achatamento é uma medida com a finalidade de complementara caracterização 
da dispersa em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores 
de um conjunto de dos em relação às medidas de tendência central em uma distribuição de 
frequências. 
Uma distribuição é classificada quanto ao grau de achatamento como: 
Leptocúrtica: quando a distribuição apresenta uma curva de frequência bastante fechada, 
com os dados fortemente concentrados em torno de seu centro. 
 
 39
 
Mesocúrtica (normal): quando os dados estão razoavelmente concentrados em torno do 
seu centro. 
 
Platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta, com os 
dados fracamente concentrados em torno de seu centro. 
 
Esses gráficos podem ser comparados como: 
 
O grau de achatamento é considerado em relação a uma distribuição normal (mesocúrtica). 
O coeficiente de curtose é dado por: 
)(2 1090
13
PP
QQK −
−= , onde 
 
P90 é o 90º percentil e P10 é o 10º percentil. 
A interpretação do coeficiente de curtose é a seguinte: 
 
 40
 - Se a distribuição é normal (mesocúrtica); 263,0=K
 - Se a distribuição é platicúrtica; 263,0>K
 - Se a distribuição é leptocúrtica. 263,0<K
 
 
4.4 Diagramas em caixa (Box-Plot) 
 
O gráfico Box-Plot (ou desenho esquemático) é uma analise gráfica que utiliza cinco 
medidas estatísticas, e por isso é conhecido como esquema dos cinco números: xmin, Q1, Med, Q3, 
xmáx. O diagrama em caixa (Box-Plot) é uma representação gráfica que descreve simultaneamente 
varias características importantes de um conjunto de dados, tais como centro (posição), dispersão, 
desvio da simetria, identificação de pontos discrepantes (aoutliers) e para detectar diferenças 
descritivas no comportamento de grupos de variáveis. 
Para a construção do Box-Plot, traça-se dois retângulos, um representando o espaço entre 
Q1 e a mediana e outro
entre a mediana e Q3. 
Estes dois retângulos, em conjunto, representam a faixa dos 50% valores mais típicos da 
distribuição. Entre os quartis e os extremos traça-se uma linha. A linha é traçada até o ultimo 
valor não-discrepante. Caso existam valores discrepantes, alem de ou antes de 
, esses valores devem ser indicados por pontos no gráfico. 
dqQ 5,13 +
dqQ 5,11 −
 
Figura 09 – Representação esquemática de um gráfico Box Plot 
 
 
 
A Figura 09 mostra o desenho esquemático do Box-Plot. Note que existem dois pontos 
discrepantes, xm,e xmáx e que a linha vertical (traço) é traçada até o último valor não-discrepante 
xmín e xk. 
 
Comentários: 
 
 41
1- Os diagramas em caixa (Box-Plot) podem ser traçados horizontalmente ou 
m ou não ser pontos discrepantes (outliers). Na Figura 09 xmáx é ponto 
indo dos quartis vão até os pontos mais extremos não 
verticalmente. 
2- xmáx e xmín pode
discrepante, mas xmin não. 
3- Observe que os traços sa
discrepantes, ou seja, que não ultrapassam dqQLdqQL SI 5,1ou 5,1 31 +=−= . Pontos 
maiores que esses valores não são ligados po o pontos 
e tratados como pontos discrepantes. 
4- Os quartis mostram a dispersão da m
r esta reta, são representados com
etade central dos dados, e os extremos mostram a 
os dão uma indicação da simetria ou assimetria 
 ser visualizado como: 
) Distribuição simétrica 
dispersão de todo o conjunto de dados. 
5- O espaçamento dos quartis e dos extrem
da distribuição. 
O comentário 5 pode
 
a
 
 
b) Distribuição assimétrica à direita 
 
 
) Distribuição assimétrica à esquerda c
 
 
 
 42
 
 
 
Exemplo 11:A construção do gráfico Box Plot pode ser exemplificada tomando-se a 
variável idade da Tabela 01. Sua elaboração segue os seguintes passos: 
Ordenar os dados em seqüência crescente. 
 
 
 
N=22; 
Med=21,50; 
Q1=20; 
Q3=25,25; 
dq=Q3 – Q1=25,25 – 20=5,25 
Li=Q1 – 1,5dq= 20 – 1,5. 5,25 =12,125 
Ls = Q3 + 1,5dq = 25,25 + 1,5. 5,25 = 33,125 
 
Construir uma escala com valores que incluam os valores máximo e mínimo dos dados. 
 
 
Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no 
valor da mediana. 
 
 
Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e 
a outra no centro do lado do retângulo correspondente ao primeiro quartil. Trace outra linha 
 
 43
paralela à reta, com uma extremidade no centro do lado do retângulo correspondente ao terceiro 
quartil e a outra alinhada com o limite máximo Ls. 
 
 
Identificar os pontos discrepantes 
 
 
 Figura 10 - Idade dos alunos da disciplina Inferência Estatística do curso 
de Estatística da Universidade Estadual de Maringá. 
 FONTE: Tabela 01. 
No conjunto de dados não existe aluno com idade inferior ao limite inferior 12,125, ou seja, 
não há aluno com idade considerada discrepante inferiormente. Entretanto, existem dois 
indivíduos cujas idades são superiores ao limite superior 33,125, pontos estes considerados 
discrepantes neste conjunto de dados: as idades 35 e 37. Estes pontos são identificados no 
diagrama de caixas por meio de um asterisco. 
Note que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos 
quais, 25% estão entre a linha da mediana e a linha do primeiro quartil e os outros 25% estão 
entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores 
discrepantes contêm os 25% restantes da distribuição. A Figura 09 mostra que a distribuição das 
idades dos alunos e apresenta assimetria positiva. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 44
BIBLIOGRAFIA 
 
BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. Florianópolis: Editora da UFSC, 
1998. 
BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatística para cursos de 
Engenharia e informática. São Paulo: Editora Atlas S.A., 2004 
BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2003. 
MAGALHÃES, M. N. e LIMA, A. C. P.de. Noções de Probabilidade e Estatística. São Paulo: 
IME-USP, 2000. 
MEDRONHO, R. A., CARVALHO, D.M.de, BLOCH K.V., LUIZ, R.R. E WERNECK, G.L. 
Epidemiologia. São Paulo: Editora Atheneu, 2003. 
MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning, 
 2004. 
MONTGOMERY, D.C. e RUNGER, G.C. Estatística Aplicada e Probabilidade para 
Engenheiros. Rio de Janeiro: Livros Técnicos e Científicos Editora S.A., 2003. 
MÜLLER, Mary S.; CORNELSEN, Julce M. Normas e padrões para teses, dissertações e 
monografias. Londrina: Eduel, 2003. 
Normas para apresentação de documentos científicos. Vol. 10, Gráficos. Curitiba: Editora da 
UFPR, 2001. 
PAGANO, Marcello ; GAUVREAU, Kimberlee. Princípios de Bioestatística. Tradução da 2ª 
edição norte-americana. São Paulo: Pioneira Thomson Learning, 2004 
REIS, Elizabeth. Estatística descritiva. Lisboa: Silabo, ed. 4, 1998. 
SOARES, José F.; Alfredo A. FARIAS e CESAR, Cibele C. Introdução à Estatística. Rio de 
Janeiro: Livros Técnicos e Científicos Editora S.A., 1991. 
 
 
 
 
 
 
 
 
 
 
 
	INTRODUÇÃO 04
	1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES 05
	BIBLIOGRAFIA 44
	Exemplo: Sexo: masculino ou feminino
	Área,
	Nordeste

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando