Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 
UNIVERSIDADE FEDERAL DO PARÁ 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS 
FACULDADE DE ESTATÍSTICA 
 
Disciplina: 
 
Análise Exploratória de Dados 
(EST1004) 
 
Profa. Adrilayne dos Reis Araújo, M.Sc. 
2º. Período de 2024 
 
Curso: Estatística 
Turma: 01 
Carga Horária: 90 horas 
Período da disciplina: 18/03 a 11/07/2024 
Horário: Segunda, Quarta e Sexta das 14:50 às 16:40 h 
Local: Sala 409 - Espaço Mirante do Rio 
 
 
Plano de Ensino 
 
Avaliações: No mínimo 3 (três) avaliações. As atividades valerão ponto. 
Conceito final: Conceito atribuído a partir da média aritmética simples das 
avaliações e atividades realizadas. 
Provas de 2ª. chamada: 10 de Julho de 2024. 
Frequência: Para aprovação na disciplina é necessário ter 75% de frequência às 
aulas. 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Objetivo: 
Apresentar ao aluno noções básicas de técnicas estatísticas descritivas. 
 
Conteúdo: 
Origens e tendências da Estatística. Séries estatísticas. Métodos e técnicas de pesquisa. Fases do trabalho 
estatístico. Síntese tabular e numérica de dados. Representação gráfica. Tabelas de Contingência. Re-
expressão de variáveis (transformação, padronização, índice). 
 
Competências e Habilidades: 
Dominar o conhecimento estatístico desde o planejamento e coleta de dados, produção de sínteses 
numéricas e gráficas dos dados, teoria inferencial, até a utilização de técnicas de análise e modelagem 
estatística. 
 
Procedimentos Didáticos: 
Aulas expositivas com uso de quadro magnético, data show e outros recursos didáticos, além de aulas 
práticas no Computador e resolução de listas de exercícios. 
 
Bibliografia Básica: 
BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 5. ed. Editora Saraiva, 2002. 
MURTEIRA, B. Análise Exploratória de Dados, Estatística Descritiva. McGraw-Hill, 1996. 
TUKEY, J. Exploratory Data Analysis. Massachusetts: Addison-Wesley, Reading, 1977. 
 
Bibliografia Complementar: 
ANDERSON, A. J. B. Interpreting Data: a First Course in Statistics. London: Chapman & Hall, 1989. 
CHAMBERS, J.; CLEVELAND, W.; KLEINER, B. ;TUKEY, P. Graphical Methods for Data Analysis, 
Wadsworth, 1983. 
FONSECA, J.; MARTINS, G. Curso de Estatística, Editora Atlas, 1996. 
LEVINE, D. M.; BERENSON, M. L.; STEPHAN, D. Estatística: Teoria e Aplicações usando Microsoft 
Excel em Português. Rio de Janeiro: LTC, 1998. 
SILVA, M. M. V. S. Noções de estatística descritiva. Coimbra: FEUC, 1998. 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
7. Medidas de Tendência Central 
Torna-se necessário, após a tabulação dos resultados e da representação gráfica de variáveis 
quantitativas, encontrar valores que possam representar a distribuição como um todo. São as chamadas 
medidas de tendência central ou medidas de posição. 
 São medidas representativas das características avaliadas pelos seus valores centrais, em torno dos 
quais tendem a concentrarem-se os dados. Tais medidas possibilitam comparações de séries de dados pelo 
confronto de seus valores. As medidas de tendência centrais mais utilizadas são: média aritmética, 
moda e mediana. 
7.1. Média Aritmética: X 
 A média aritmética é obtida pela soma de todos os valores de uma variável X dividida pelo 
número total de observações (n): 
n
X
n
XXX
X
n
i
i
n



 121 ...
. 
Exemplo: Sabendo-se que o atendimento diário em uma empresa de arquitetura, durante uma semana foi 
de 10, 14, 13, 15, 16, 18 e 12 pessoas, temos para atendimento médio diário na semana de: 
14
7
12181615131410


X pessoas. 
 Se os dados estão agrupados em uma distribuição de frequência, devem ser consideradas duas 
possibilidades: 
a) Sem intervalos de classe: Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando 
para variável o número de filhos do gênero masculino. Calcularemos a quantidade média de meninos por 
família: 
Nº. de meninos (Xi) Nº. de famílias )( if 
0 2 
1 6 
2 10 
3 12 
4 4 
Total 34 
Como as frequências são números indicadores da intensidade de cada valor da variável, elas 
funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada 
pela fórmula: 









k
i
i
k
i
ii
k
kk
f
Xf
fff
XfXfXf
X
1
1
21
2211
)(
...
...
 em que nf
k
i
i

1
 
Que na prática pode ser determinado como: 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Xi fi Xi×fi 
0 2 0 
1 6 6 
2 10 20 
3 12 36 
4 4 16 
Total 34 78 
Logo 
 


 



k
i
i
k
i
ii
f
fX
X
1
1 78/34 = 2,2941  2 filhos do sexo masculino. 
b) Com intervalos de classe: Neste caso, convencionamos que todos os valores incluídos em um 
determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética 
ponderada por meio da fórmula com iX agora sendo o ponto médio da classe. 
Exemplo: Calcular a estatura média de bebês conforme a tabela abaixo. 
Estaturas (cm) Frequência )( if Ponto médio )( iX ii fX 
50 |─ 54 4 52 208 
54 |─ 58 9 56 504 
58 |─ 62 11 60 660 
62 |─ 66 8 64 512 
66 |─ 70 5 68 340 
70 |─ 74 3 72 216 
Total 40 2.440 
Aplicando a fórmula acima temos: 
 
61
40
2440
1
1 
f
Xf
X
k
i
i
k
i
ii






 . Logo: cm X 61 
 
7.1.1 - Propriedades da Média 
i) A soma algébrica dos desvios de um conjunto de números em relação a média é sempre zero. 
  0 XX i ou   0 XXf ii 
 
ii) A soma dos quadrados dos desvios de um conjunto de números xj , em relação a qualquer número a, é 
um mínimo quando a = média e somente neste caso. 
  mínimoXX i 
2
 ou ,   mínimoXXf ii 
2
 
desde Xa  . 
iii) Somando-se ou subtraindo uma constante K (arbitrária) a todos os valores de um conjunto de 
informações, a média ficará somada ou subtraída dessa constante. 
Xi -> xbar = 2 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Xi + 1 = Yi -> ybar = 2+1 = 3 
Xi - 3 = Yi -> ybar = 2-3 = -1 
 
iv) Multiplicando-se ou dividindo-se todas as informações por uma constante K (arbitrária), a média 
aritmética ficará multiplicada ou dividida por essa constante. 
Xi -> xbar = 2 
Xi*2 = Yi -> ybar = 2*2 = 4 
 Xi/2 = Yi -> ybar = 2/2 = 1 
 
Observação: a média tem a desvantagem de ser sensível a valores aberrantes ou outliers. 
 
Tarefa de Casa – Demonstrar que     22
)( KXXX ii e apresentar um exemplo numérico. 
 
Exercício: Dada a tabela abaixo, relativa às Estaturas dos alunos da UFPA, ano 2000. 
Estaturas (cm) fi 
150 ├─ 156 
156 ├─ 162 
162 ├─ 168 
168 ├─ 174 
174 ├─ 180 
180 ├─ 186 
186 ├─ 196 
5 
4 
19 
18 
14 
12 
4 
a) Determine a estatura média dos alunos; 
b) Determine as frequências simples, relativas e acumuladas; 
c) Qual o percentual de alunos com idades inferiores que 162 cm? 
d) Qual o percentual de alunos com idades superiores a 174 cm? 
e) Qual o percentual de alunos com idades superiores que 196 cm? 
f) Quantos alunos tem idade de 168 e 174 cm? 
g) Esboce o histograma desta distribuição. 
Soma 76 
 Fonte: Dados hipotéticos. 
 
7.1.2 - Médias Especiais 
i) Média Aritmética Ponderada 
 Considerando uma coleção formada por n números racionais: nxxx ,,, 21  , de forma que cadaum 
esteja sujeito a um peso, respectivamente, indicado por: nppp ,,, 21  . A média aritmética ponderada 
desses n números é a soma dos produtos de cada um por seu peso, dividida por npppn  21 , isto 
é: 
n
nn
P
ppp
xpxpxp
M





21
2211 . 
 
Exemplo: Um grupo de 64 pessoas, que trabalha (com salário por dia), em uma empresa é formado por 
subgrupos com as seguintes características: 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Salário por dia (R$) Número de Pessoas 
 50,00 12 
 60,00 10 
 25,00 20 
 90,00 15 
120,00 7 
Total 64 
 
Para calcular a média salarial (por dia) de todo o grupo deve-se usar a média aritmética ponderada: 
78,60
64
3890
64
8401350500600600
715201012
00,120700,901500,252000,601000,5012





PM . 
 
ii) Média Geométrica 
 A média geométrica é usada na administração e na economia para achar taxas médias de variação, 
de crescimento, ou razões médias. É usada quando as variáveis não assumem valores negativos ou nulos. 
a) Média Geométrica Simples ou para dados brutos: 
n
nG xxxM 21 . 
Exemplo: Calcule a média geométrica do conjunto de valores {2, 5, 7, 9}: 
00997,56309752 44
1
21  

n
n
i
i
n
nG xxxxM  . 
 A média geométrica é dada por 5,00997. 
 
b) Média Geométrica Ponderada ou para dados agrupados: 



 
 

k
j
j
j
k
j
j
k
f k
j
f
j
f
f
k
ff
G xxxxM 1
1 21
1
21  , 
onde k é o número de classes de distribuição de frequências e 


k
j
jfn
1
. 
Observação: Em geral, a média geométrica é calculada utilizando-se o emprego de logaritmos (



n
i
ig x
n
M
1
ln
1
ln ). 
 
iii) Média Harmônica 
 É o inverso da média aritmética dos inversos. Aplica-se em situações em que não faz sentido 
somar os valores da variável por haver proporcionalidade inversa. A média harmônica costuma ser usada 
como medida de tendência central para conjuntos de dados que consistem em taxas de variação, como por 
exemplo, velocidades. 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
a) Média Harmônica Simples ou para dados brutos: 





n
i in
H
x
n
xxx
n
M
121
1111

. 
Exemplo: Um carro se desloca de Londrina até NewLondres (distância de 100 Km), mantendo na ida 
uma velocidade média de 90 Km/h e na volta ao local de origem mantendo a velocidade média de 110 
Km/h. Qual é a velocidade média durante todo o trajeto? 
hKm
xx
n
M H /99
990
20
2
990
911
2
110
1
90
1
2
11
21






 . 
 A velocidade média do carro durante o trajeto foi de 99 Km/h. 
 
b) Média Harmônica Ponderada ou para dados agrupados: 



 


k
i k
k
k
i
i
k
k
k
i
i
H
x
f
f
x
f
x
f
x
f
f
M
1
1
2
2
1
1
1

, 
onde k é o número de classes de distribuição de frequências e 


k
j
jfn
1
. 
Observação: Segundo Murteira e Black (1983) a média harmônica é menor ou igual à média geométrica 
para valores da variável diferentes de zero, que por sua vez é menor ou igual a média aritmética (
XMM gH  ). 
 
Exercício 1: Uma pessoa é capaz de construir um muro em 6 horas e outra pessoa tem a capacidade de 
trabalho para construir este mesmo muro em 9 horas. Pondo-se as duas pessoas trabalhando em conjunto, 
em quanto tempo t, o muro estará pronto? 
Exercício 2: Uma torneira enche uma caixa d'água em 4 horas e outra torneira enche a mesma caixa em 6 
horas. Abrindo-se as duas torneiras ao mesmo tempo, qual será o tempo t necessário para encher a caixa? 
Exercício 3: Uma torneira enche uma caixa d’água em 4 horas e outra torneira a esvazia em 6 horas. 
Abrindo-se as duas torneiras simultaneamente, qual será o tempo t necessário para encher a caixa d’água? 
 
iv) Média Quadrática ou Raiz Média Quadrática 
 A média quadrática é utilizada em geral em experimentos físicos. Em sistemas de distribuição de 
energia, por exemplo, as tensões e correntes são em geral dadas em termos de sua média quadrática. 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
a) Média Quadrática Simples ou para dados brutos: 
n
xxx
M n
Q
22
2
2
1 


. 
Exemplo: Calcule a média quadrática do conjunto de valores {2, 3, 5, 8}: 
0498,55,25
4
102
4
8532 222222
2
2
1 




n
xxx
M n
Q

. 
 A média quadrática é dada por 5,0498. 
 
b) Média Quadrática Ponderada ou para dados agrupados: 




k
j
k
kk
Q
f
xfxfxf
M
1
22
22
2
11 
, 
onde k é o número de classes de distribuição de frequências e 


k
j
jfn
1
. 
 
Fórmula Geral das Médias 
As médias aritméticas, geométrica e harmônica são casos particulares da fórmula geral das 
médias ou média de ordem q , 
  ,
1
1
q
n
x
qM
n
i
q
i





















 
que se obtêm fazendo, respectivamente, 1q , 0q , 1q . 
 
Observação: quando se tem valores “extravagantes”, podem-se utilizar as chamadas médias aparadas, 
pois esta atribui menor ponderação a esses valores. Uma média aparada a %100  , simbolicamente 
 T , é obtida eliminando %100  das menores e maiores observações e calculando a média simples 
das restantes. Por exemplo: Dado 20 observações, 2021 ,,, xxx  , tem-se a média aparada a 10% igual a, 
 
16
10,0 1843 xxx
T



 
a média aparada a 25% , 
 
10
25,0 1576 xxx
T



. 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 O problema da escolha do “melhor”  não cabe neste momento (disciplina). Porém, pode-se dizer 
que a quantidade “ideal” para aparar está diretamente relacionada com o peso das caudas da distribuição 
da população de onde veio a amostra: 
(a) se as caudas são neutras (distribuição gaussiana), a média  0 é a melhor medida de localização 
em termos de “eficiência” (nenhuma ou pouca perda de informação); 
(b) se as caudas são ligeiramente pesadas, para pequenas amostras  5n a medida mais eficiente é a 
média aparada a 25% (meia média); para amostras ligeiramente maiores  2010  n a medida mais 
eficiente é a média aparada a 10%; 
(c) se as caudas são pesadas (Cauchy, etc.), a medida mais eficiente é a mediana. 
 
7.2. Mediana: dM 
 Colocados os valores em ordem crescente de grandeza (rol), a mediana )( dM será o valor que 
ocupa a posição central da série de dados, ou seja, é o valor que divide a série em duas partes com 
números iguais de elementos. A mediana é preferível à média quando se está interessado em conhecer 
exatamente o centro da distribuição dos dados, ou ainda, quando os valores extremos podem afetar 
sensivelmente a média. O cálculo da mediana é feito sob duas condições: 
 
7.2.1. Mediana em Dados Não-Agrupados 
Dada uma série de valores como, por exemplo: {5, 2, 6, 13, 9, 15, 10}. De acordo com a definição 
de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: {2, 5, 6, 
9, 10, 13, 15}. O valor que divide a série acima em duas partes iguais é igual a 9, logo dM = 9. 
 
Método prático para o cálculo da Mediana: 
a) Se a série de dados tiver número ímpar de termos: O valor mediano será o termo que ocupa a 
posição central do rol, ou seja, o termo cuja posição é dada pela fórmula: Posição de Mediana = (n + 1)/2. 
 
Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5} 
1º - ordenar a série {0, 0, 1, 1, 2, 2, 3, 4, 5} 
2º - calcular a posição: n = 9 logo (n + 1)/2 é dado por (9 + 1) / 2 = 5, ou seja, o 5º elemento da sérieordenada será a mediana. 
Portanto, a mediana será o 5º elemento, então dM = 2. 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
b) Se a série dada tiver número par de termos: O valor mediano será a média aritmética dos valores 
centrais do rol, ou seja, os termos que ocupam a posição n/2 e n/2+1. 
 
Exemplo: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 3, 5, 6} 
1º - ordenar a série {0, 0, 1, 1, 2, 3, 3, 4, 5, 6} 
2º - calcular a posição: n = 10 logo a mediana será a média aritmética do termo que ocupa a posição n/2 = 
10/2 =5, ou seja, o 5º termo e do termo que ocupa a posição n/2+1 = 10/2+1 = 6, ou seja, o 6º termo. 
No rol: 5º termo = 2 e 6º termo = 3. 
A mediana será a média aritmética do 5º e 6º termos da série, ou seja, dM = (2+3) / 2 , ou seja, dM = 2,5. 
 
7.2.2. Mediana em Dados Agrupados 
a) Sem intervalos de classe: Neste caso, é o bastante identificar a frequência acumulada )( AcF 
imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que 
corresponde a tal Frequência Acumulada. 
 
Exemplo: conforme distribuição de frequências abaixo: 
Variável )( iX Frequência )( if Frequência acumulada )(
)(iAcF Observações 
0 2 2 0, 0, 
1 6 8 1, 1, 1, 1, 1, 1, 
2 9 17 2, 2, 2, 2, 2, 2, 2, 2, 2, 
3 13 30 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 
4 5 35 4, 4, 4, 4, 4 
Total n=35 - 
 
Quando o somatório das frequências for ímpar o valor mediano será o termo que ocupa a posição 
dada pela fórmula: 
2
1 if
. 
Como o somatório das frequências = 35 a fórmula ficará: (35+1)/2 = 18º termo. Localizando na 
coluna da variável (Xi), dM = 3. 
Quando o somatório das frequências for par o valor mediano será a média aritmética dos valores 
centrais da distribuição, ou seja, os termos que ocupam a posição 
2
 if
e .1
2

 if
 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Exemplo: Calcule a Mediana da distribuição de frequências abaixo: 
Variável )( iX Frequência )( if Frequência acumulada )(
)(iAcF 
12 1 1 
14 2 3 
15 1 4 
16 2 6 
17 1 7 
20 1 8 
Total 8 - 
Localizando a posição da mediana na frequência acumulada teremos: 8/2 = 4º termo e 8/2+1 = 5º 
termo. Localizando na coluna da variável (Xi), o 4º termo = 15 e o 5º termo = 16. Logo dM = (15 + 16) / 2 
= 15,5. 
 
b) Com intervalos de classe: Devemos seguir os seguintes passos: 
1º) Determinamos as frequências acumuladas; 
2º) Calculamos 
2
 if
 para localizar a classe mediana; 
3º) Marcamos a classe correspondente à frequência acumulada imediatamente superior a 
2
 if
. Tal 
classe será a classe mediana; 
4º) Calculamos a Mediana pela fórmula: h
f
F
f
lM
i
antAc
k
i
i
id 






















)(
1
2 
onde: il = Limite inferior da classe da mediana; 
)(antAcF = Frequência acumulada anterior da classe da dM ; 
 if = Frequência simples da classe da mediana; 
 h = Intervalo de classe. 
 
Exemplo: Estatura dos bebês. 
Classes Frequência )( if Frequência acumulada )(
)(iAcF 
50 |─ 54 4 4 
54 |─ 58 9 13 
58 |─ 62 11 24 
62 |─ 66 8 32 
66 |─ 70 5 37 
70 |─ 74 3 40 
Total 40 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
1º. Localizar a classe mediana: 20
2
40
2

 if
. A frequência acumulada que contém a 20ª unidade é a 
3ª classe (classe mediana será 58 |─ 62); 
2º. Identificar os elementos da fórmula na classe mediana: il = 58; )(antAcF = 13; h = 4 e if = 11; 
3º. Substituindo esses valores na fórmula, obtemos: 
 
55,604
11
1320
58 

dM . 
Interpretação da Mediana: Md = 60,55 cm. 50% dos 40 bebês têm estatura abaixo de 60,55 cm ou 50% 
dos 40 bebês têm estatura acima de 60,55 cm. 
Observação: Esta mediana é estimada, pois não temos os 40 valores da distribuição. 
 
7.3. Moda: oM 
A moda ( oM ) é o valor que ocorre com maior frequência ou o valor que mais se repete. Quando a 
série de dados é tal que as frequências são maiores nos extremos, ou quando se quer destacar um valor de 
alta frequência ou quando se pretende obter uma medida rápida e aproximada da tendência central, a 
moda pode então, ser considerada para a interpretação dos dados. Com relação à moda, uma série de 
dados pode ser classificada em amodal (não possui moda), unimodal (possui apenas uma moda), bimodal 
(possui duas modas) ou multimodal (possui mais de duas modas). 
 
7.3.1. A Moda quando os dados não estão agrupados 
A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se 
repete. 
Exemplo: Na série {7, 8, 9, 10, 10, 10, 11, 12} a moda é igual a 10. 
Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que 
outros. 
Exemplo: {3, 5, 8, 10, 12} não apresenta moda. A série é amodal. 
Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série 
tem dois ou mais valores modais. 
Exemplo: {2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9} apresenta duas modas: 4 e 7. A série é bimodal. 
 
7.3.2. A Moda quando os dados estão agrupados 
a) Sem intervalos de classe: Uma vez agrupados os dados, é possível determinar imediatamente a moda: 
basta localizar o valor da variável de maior frequência. 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Exemplo: Qual a temperatura mais comum medida no mês abaixo: 
Temperatura (Xi) Frequência (fi) 
0º C 3 
1º C 9 
2º C 12 
3º C 6 
Resposta: 2º C é a temperatura modal, pois é a maior frequência. 
 
b) Com intervalos de classe: A classe que apresenta a maior Frequência é denominada classe modal. 
Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido 
entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o 
ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. 
,
2
si
o
ll
M

 
onde il = limite inferior da classe modal e sl = limite superior da classe modal. 
Exemplo: Calcule a estatura modal conforme a tabela abaixo. 
Classes (em cm) Frequência 
54 |─ 58 9 
58 |─ 62 11 
62 |─ 66 8 
66 |─ 70 5 
Resposta: a classe modal é 58|─ 62, pois é a de maior frequência. il = 58 e sl = 62 
oM = (58+62) / 2 = 60 cm (este valor é estimado, pois não conhecemos o valor real da moda). 
Método mais elaborado pela fórmula de CZUBER: 
 
)(2
)(
h
fff
ff
lM
postantMo
antMo
io 











 
onde: il = Limite inferior da classe modal; 
 Mof = Frequência modal; 
 antf = Frequência simples anterior à classe modal; 
 postf = Frequência simples posterior à classe modal; 
 h = Intervalo de classe. 
Exemplo: Calcule a Moda da tabela do exemplo anterior pelo processo de CZUBER 
 
6,594
89112
911
58 







oM 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Obs.: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou 
quando a medida de posição deva ser o valor mais típico da distribuição. Já a média aritmética é a 
medida de posição que possui a maior estabilidade e a mediana é a medida mais central. 
Relação Empírica entre a Mediana e a Moda: 
2
3 od MM
X

 . 
 
7.4. Medidas Separatrizes 
Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não 
são medidas de tendência central, mas estãoligadas à mediana relativamente à sua característica de 
separar a série em partes que apresentam o mesmo número de valores. 
Essas medidas - os quartis, os decis e os percentis - são conhecidas pelo nome genérico de 
separatrizes. 
 
7.4.1. Quartis - Qq 
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos 
portanto de 3 quartis (Q1 , Q2 e Q3) para dividir a série em quatro partes iguais. 
Observação: O quartil 2 (Q2) sempre será igual a mediana da série. 
 
i) Quartis em Dados não Agrupados 
O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade 
serão calculadas “3 medianas” em uma mesma série. 
Exemplo 1: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15} 
- O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 
{2, 5, 6, 9, 10, 13, 15} (n+1)/2 => posição 
- O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9 que será = Q2 = 9. 
- Temos agora {2, 5, 6} e {10, 13, 15} como sendo os dois grupos de valores iguais proporcionados pela 
mediana (quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais 
provenientes da verdadeira Mediana da série (quartil 2). 
Logo em {2, 5, 6} a mediana é = 5. Ou seja: será o Quartil 1 = Q1 = 5. 
Em {10, 13, 15} a mediana é =13. Ou seja: será o Quartil 3 = Q3 = 13. 
 
Exemplo 2: Calcule os quartis da série: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13} n/2 e n/2+1 => posições 
A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5. 
O quartil 1 será a mediana da série à esquerda de Md: {1, 1, 2, 3, 5, 5} 
Q1 = (2+3)/2 = 2,5 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
O quartil 3 será a mediana da série à direita de Md: {6, 7, 9, 9, 10, 13} 
Q3 = (9+9)/2 = 9. 
 
ii) Quartis para Dados Agrupados em Classes 
A fórmula para determinação dos quartis para dados agrupados é semelhante à usada para o 
cálculo da mediana. 
Passos para Determinação do Quartil ( qQ ): 
1º passo: calcula-se a posição: 
4
1




k
i
i
fq
p ; 
2º passo: identifica-se a classe 
q
Q pela coluna das Frequências Acumuladas; 
3º passo: Aplica-se a fórmula: 
h
f
F
f
q
lQ
iQq
antAc
k
i
i
iQq q





















)(
1
4 , para q = 1, 2, 3 
onde: 
qiQ
l = Limite inferior da classe do Quartil; 
 )(antAcF = Frequência acumulada anterior a classe do Quartil; 
qiQ
f = Frequência simples da classe do Quartil; 
h = Intervalo de classe. 
 
Exemplo 3 - Calcule os quartis da tabela abaixo: 
Classes Frequência (fi) Frequência acumulada 
50 |─ 54 4 4 
54 |─ 58 9 13 -> Q1 
58 |─ 62 11 24 -> Md 
62 |─ 66 8 32 -> Q3 
66 |─ 70 5 37 
70 |─ 74 3 40 
Total 40 
 
O quartil 2 = dM , logo: 
20
4
402 p . Logo.a classe mediana será 58 |─ 62, li = 58..... )(antAcF = 13..... fi = 11.... hi = 4 
Substituindo esses valores na fórmula, obtemos: 
MdQ 




 
 54,604
11
1320
582 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
O quartil 1: 10
4
401 p  67,564
9
410
541 




 
Q 
Interpretação Q1: 
25% dos bebês têm estatura abaixo de 56,67 cm ou 75% dos bebês têm estatura acima de 56,67 cm. 
O quartil 3: 3. fi / 4 = 30  654
8
2430
623 




 
Q . 
Interpretação Q3: 
75% dos bebês têm estatura abaixo de 65 cm ou 25% dos bebês têm estatura acima de 65 cm. 
 
7.4.2. Decis - Dd 
A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da 
porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A fórmula básica será: 
d×fi /10 onde d é o número de ordem do decil a ser calculado. Indicam-se os decis: D1, D2, ... , D9. Deste 
modo precisa-se de 9 decis para se dividir uma série em 10 partes iguais. 
De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo, 
o QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL, que por sua vez É IGUAL À MEDIANA. 
Para D5 tem-se: 5. fi / 10 = fi / 2 
Exemplo: Calcule o 3º decil da tabela anterior com classes. 
d = 3 onde 3 × (fi / 10) = 3 × 40/10 = 12. 
Este resultado corresponde a 2ª classe. 
55,5755,3544
9
412
543 




 
D . 
7.4.3. Percentil ou Centil 
Denomina-se percentis ou centis como sendo os noventa e nove valores que separam uma série 
em 100 partes iguais. Indicamos: P1, P2,... , P99. É evidente que P50 = Md; P25 = Q1 e P75 = Q3. 
O cálculo de um centil segue a mesma técnica do cálculo da mediana, porém a fórmula será: 
k×fi/ 100, onde k é o número de ordem do centil a ser calculado. 
Para P45 temos: 45×fi / 100 
Exemplo: Calcule o 45º Centil da tabela anterior com classes. 
 
Relação entre as Medidas Separatrizes: 
 Uma relação importante entre as quatro Medidas Separatrizes é na verdade uma relação até visual, 
que não precisamos fazer esforço para percebê-la, basta traçar uma reta horizontal (que representará o 
conjunto de dados), e depois fazer as divisões, exatamente como mostramos nas seções anteriores, como 
pode ser visto a seguir: 
|-------------------|-------------------| 
 1 Md 100 
|---------|---------|---------|---------| 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Q1 Q2 Q3 
|---|---|---|---|---|---|---|---|---|---| 
D1 D2 D3 D4 D5 D6 D7 D8 D9 
|---|---|---|---|---|---|---|---|---|---| 
P10 P20 P30 P40 P50 P60 P70 P80 P90 
Daí, conclui-se sem maiores dificuldades que: 5052 PDQMd  , 251 PQ  e 753 PQ  . 
 
Interpretação das Medidas Separatrizes: 
Por exemplo, a interpretação de algumas medidas separatrizes: 
- Q1: 25% dos dados tomam valores menores ou iguais ao Q1 ou 75% dos dados tomam valores maiores 
ou iguais a Q1; 
- Q3: 75% dos dados tomam valores menores ou iguais ao Q3 ou 25% dos dados tomam valores maiores 
ou iguais a Q1; 
- D1: 10% dos dados tomam valores menores ou iguais ao D1 ou 90% tomam valores maiores ou iguais 
ao D1; 
- P1: 1% dos dados tomam valores menores ou iguais ao P1 ou 99% tomam valores maiores ou iguais ao 
P1; 
- P99: 99% dos dados tomam valores menores ou iguais ao P99 ou 1% tomam valores maiores ou iguais 
ao P1. 
 
8. Medidas de Dispersão 
As medidas que determinam o comportamento dos valores em termos de variabilidade são 
chamadas de medidas de dispersão ou de variabilidade, e as mais utilizadas são a variância e o desvio 
padrão. 
 Não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de 
valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual 
a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma delas a 
temperatura poderá variar entre limites de muito calor e de muito frio e, haver, ainda, uma temperatura 
média de 24ºC. A outra poderá ter uma variação pequena de temperatura, mas mantendo uma média de 
24ºC. 
 Fica claro que a média – ainda que considerada como um número que tem a faculdade de 
representar uma série de valores – não pode, por si mesma, destacar o grau de homogeneidade ou 
heterogeneidade que existe entre os valores que compõem um conjunto. 
 Considerando os seguintes conjuntos de valores das variáveis X, Y e Z: 
X: 70, 70, 70, 70, 70; Y: 68, 69, 70, 71, 72; Z: 5, 15, 50, 120, 160. 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Calculando a média aritmética de cada um desses conjuntos,tem-se que os três conjuntos apresentam a 
mesma média aritmética dada por 70. 
70
5
350


n
x
x
i
, 70
5
350


n
y
y
i
, 70
5
350


n
z
z
i
. 
Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos 
os valores são iguais a média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há 
menor diversificação entre cada um de seus valores e a média é representativa. 
 Chamando de dispersão ou de variabilidade a maior ou menor diversificação dos valores de uma 
variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer 
que o conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma distribuição 
ou variabilidade menor que o conjunto Z. 
 Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão 
ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de 
dispersão ou de variabilidade. Dessas medidas, serão descritas a amplitude total, o desvio quartil, o desvio 
médio absoluto, o desvio padrão e a variância. 
 
8.1. Medidas de Dispersão Absoluta 
8.1.1. Amplitude Total: É a única medida de dispersão que não tem na média o ponto de referência. 
Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor 
valor observado: MínMáxT XXA  . 
Exemplo: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: 
TA = 70 – 40 =30 
Quando os dados estão agrupados sem intervalos de classe ainda temos: MínMáxT XXA  . 
Exemplo: 
Xi fi 
0 
1 
3 
4 
2 
6 
5 
3 
 
TA = 4 - 0 = 4 
 
 
Com intervalos de classe a AMPLITUDE TOTAL é a diferença entre o limite superior da última classe e 
o limite inferior da primeira classe. Então: 
MínMáxT LLA  
Exemplo: 
Classes fi 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
4 |─ 6 
6 |─ 8 
8 |─10 
6 
2 
3 
 
TA = 10 – 4 = 6 
 
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, 
descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer 
determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de 
cálculo rápido sem muita exatidão. 
 
8.1.2. Desvio Quartil: Também chamado de amplitude semi-interquatílica e é baseada nos quartis.
2/)( 13 QQDq  
 
Observações: 
1) O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. 
Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo recomendado, por 
conseguinte, quando entre os dados figurem valores extremos que não se consideram representativos. 
2) O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a 
mediana. 
3) Trata-se de uma medida insensível à distribuição dos itens menores que Q1, entre Q1 e Q3 e maiores 
que Q3. 
 
Exemplo: Para os valores: 40, 45, 48, 62 e 70 o desvio quartil será: 
Q1 = (45+40)/2 = 42,5 Q3 = (70+62)/2 = 66 Dq = (66 - 42,5) / 2 = 11,75 
 
8.1.3 Desvio Médio Absoluto - MD 
i) Para dados brutos: É a média aritmética dos valores absolutos dos desvios tomados em relação a uma 
das seguintes medidas de tendência central: média ou mediana. 
a) para a Média = 
n
n
i
x
i
x
DM



 1
)(
 
b) para a Mediana = 
n
n
i
Md
i
x
DM



 1
)(
 
c) As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal dos desvios. 
 
Exemplo: Calcular o desvio médio do conjunto de números {- 4, - 3, - 2, 3, 5} 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
X = -0,2 e dM = - 2 
 
Tabela auxiliar para cálculo do desvio médio 
Xi 𝑋𝑖 − �̅� |𝑋𝑖 − �̅�| 𝑋𝑖 − 𝑀𝑑 |𝑋𝑖 − 𝑀𝑑| 
- 4 (- 4) - (-0,2) = -3,8 3,8 (- 4) - (-2) = - 2 2 
- 3 (- 3) - (-0,2) = -2,8 2,8 (- 3) - (-2) = - 1 1 
- 2 (- 2) - (-0,2) = -1,8 1,8 (- 2) - (-2) = 0 0 
3 3 - (-0,2) = 3,2 3,2 3 - (-2) = 5 5 
5 5 - (-0,2) = 5,2 5,2 5 - (-2) = 7 7 
  = 16,8  = 15 
Pela Média: MD = 16,8 / 5 = 3,36 Pela Mediana: MD = 15 / 5 = 3 
 
ii) Para dados agrupados: 
a) para a Média = 






k
j
j
f
k
j
fx
j
x
D
j
M
1
1
)(
, onde n
k
j
j
f 
1
. 
 
b) para a Mediana = 






k
j
j
f
k
j
fM
j
x
D
jd
M
1
1
)(
, onde n
k
j
j
f 
1
. 
 
8.1.4. Desvio-padrão - S 
É a medida de dispersão mais empregada, pois leva em consideração a totalidade dos valores da 
variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos 
desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da 
média aritmética dos quadrados dos desvios e é representada por: 
n
XX
S
n
i
i


 1
2)(
quando tratamos de uma população de dados não-agrupados. 
 
Exemplo: Calcular o desvio padrão da população representada por {-4, -3, -2, 3, 5}. 
Como X = -0,2, então: 
𝑋𝑖 𝑋𝑖 − �̅� (𝑋𝑖 − �̅�)2 
- 4 - 3,8 14,44 
- 3 - 2,8 7,84 
- 2 - 1,8 3,24 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
3 3,2 10,24 
5 5,2 27,04 
  = 62,8 
 
Sabe-se que n = 5 e 62,8/5 = 12,56. 
54,356,12
5
8,62)( 2

 

n
XX
S i
 
 
Observação: Quando nosso interesse não se restringe à descrição dos dados, mas partindo da amostra, 
visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que 
consiste em usar o divisor n - 1 em lugar de n. A fórmula ficará então: 
1
)( 2




n
XX
S
i
. 
Se os dados {- 4 , -3 , -2 , 3 , 5} representassem uma amostra o desvio padrão amostral será a raiz 
quadrada de 62,8 / (5 -1) = 3,96. 
O desvio padrão detém algumas propriedades, dentre as quais destacamos: 
1ª: Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão 
não se altera. 
2ª: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de 
zero), o desvio padrão fica multiplicado ( ou dividido) por essa constante. 
Quando os dados estão agrupados (temos a presença de Frequências) a fórmula do desvio padrão 
será: 

 

i
ii
f
fXX
S
2)(
 ou 





1
)( 2
i
ii
f
fXX
S
 
quando se trata de uma amostra. 
 
Exemplo: Calcule o desvio padrão populacional da tabela abaixo: 
Xi f i Xi . f i 𝑿𝒊 − �̅� (𝑿𝒊 − �̅�)𝟐 (𝑿𝒊 − �̅�)𝟐. 𝒇𝒊 
0 2 0 -2,1 4,41 8,82 
1 6 6 -1,1 1,21 7,26 
2 12 24 -0,1 0,01 0,12 
3 7 21 0,9 0,81 5,67 
4 3 12 1,9 3,61 10,83 
Total 30 63 32,70 
 
Sabe-se que   30if e 32,7 / 30 = 1,09. A raiz quadrada de 1,09 é o desvio padrão = 1,044 
Se considerar os dados como sendo de uma amostra o desvio padrão será a raiz quadrada de 32,7 / (30 -
1) = 1,062. 
O desvio padrão pode ser calculado usando a seguinte fórmula prática: 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 











1
)(
ou 
)( 2
2
2
2
i
ii
ii
i
ii
ii
f
n
fX
fX
S
f
n
fX
fX
S quando se trata de uma amostra. 
 
 
Exemplo: Calcule o desvio padrão populacional do exemplo anterior: 
𝑿𝒊 𝒇𝒊 𝑿𝒊.𝒇𝒊 (𝑿𝒊)
𝟐 (𝑿𝒊)
𝟐. 𝒇𝒊 
0 2 0 0 0 
1 6 6 1 6 
2 12 24 4 48 
3 7 21 9 63 
4 3 12 16 48 
Total 30 63 165 
044,109,1
30
30
)63(
165
2


S 
Se os dados forem uma amostra, o resultado será: 062,1128,1
130
30
)63(
165
2



S 
Observação: Nastabelas de distribuições de frequências com intervalos de classe a fórmula a ser 
utilizada é a mesma do exemplo anterior. 
 
Exemplo: Calcule o desvio-padrão populacional da tabela abaixo: 
É necessário calcular o ponto médio das classes (𝑋𝑖) 
Classes 𝒇𝒊 𝑿𝒊 𝑿𝒊.𝒇𝒊 (𝑿𝒊)
𝟐 (𝑿𝒊)
𝟐. 𝒇𝒊 
2├ 4 8 3 24 9 72 
4├ 6 7 5 35 25 175 
6├ 8 13 7 91 49 637 
 8├ 10 2 9 18 81 162 
Total () 30 168 1046 
 
Usando a fórmula prática: 
873,1507,3
30
30
)168(
1046
)( 22
2








i
ii
ii
f
n
fX
fX
S 
 
Se os dados forem uma amostra, o resultado será: 
905,1628,3
130
30
)168(
1046
1
)( 22
2










i
ii
ii
f
n
fX
fX
S 
 
 DP de Dados Brutos DP de Dados Tabelados 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
População 
N
XX
N
i
i


 1
2)(
 






N
i
i
N
i
ii
f
XXf
1
1
2 ))((
 
Amostra 
Processo longo 1
1
)( 2





n
n
i
x
i
x
S 
1
.
1
)( 2





n
i
f
n
i
x
i
x
S 
Amostra 
Processo simplificado 
1
2
1
2



n
xn
n
i
i
x
S 
1
2
1
2



n
xn
i
f
n
i
i
x
S 
 
8.1.5. Variância - 
2S 
É o desvio padrão elevado ao quadrado. A variância é uma medida que tem pouca utilidade como 
estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de 
amostras. 
 
8.1.6. Propriedades da Variância 
 A variância absoluta de uma constante é igual a zero. 
 Somando-se ou diminuindo-se a todos os valores da série um valor constante 0k , a nova variância 
será igual a anterior, isto é, não se altera. 
Xi -> 2 
Xi + k - Var(Xi + k) = Var(Xi) + Var(k) = Var(Xi) 
ou 
Xi - k -> Var(Xi - k) = Var(Xi) - Var(k) = Var(Xi) 
 
 Multiplicando-se ou dividindo-se todos os valores de uma série por um valor constante, 0k , a nova 
variância calculada será igual a variância absoluta original multiplicada ou dividida pelo quadrado da 
constante utilizada. 
1
1
)(
2
2





n
n
i
x
i
x
S 
Xi -> Var(Xi) = 2 
Xi + k - Var(Xi +k) = Var(Xi) + Var(k) = Var(Xi) = 2 
Xi*2 = Yi 
Var(Yi) = Var(Xi*2) = 2^2*Var(Xi) = 4*2 = 8. 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 Variância de Dados Brutos Variância de Dados Tabelados 
População 
N
XX
N
i
i


 1
2
2
)(
 





N
i
i
N
i
ii
f
XXf
1
1
2
2
))((
 
Amostra 
Processo longo 
1
1
)(
2
2





n
n
i
x
i
x
S 
1
.
1
)(
2
2





n
i
f
n
i
x
i
x
S 
Amostra 
Processo simplificado 
1
2
1
2
2



n
xn
n
i
i
x
S 
1
2
1
2
2



n
xn
i
f
n
i
i
x
S 
 
8.1.7. Representação Gráfica do Desvio Padrão na Distribuição Normal com média m () e desvio 
padrão s (). 
 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Figura: Distribuição Normal Padrão (N(0, 1)) e Escalas. 
 
 
Representação gráfica - Boxplot 
 O boxplot é um gráfico que possibilita representar a distribuição de um conjunto de dados com 
base em alguns de seus parâmetros descritivos, que são: a mediana (Md = Q2), o quartil inferior (Q1), o 
quartil superior (Q3) e do intervalo interquartil (IQR = Q3 - Q1). 
 A linha central da caixa marca a mediana do conjunto de dados. A parte inferior da caixa é 
delimitada pelo quartil inferior (Q1) e a parte superior pelo quartil superior (Q3). As hastes inferiores e 
superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior a Q1 – 
1,5×IQR e do quartil superior até o maior valor não superior a Q3 + 1,5×IQR. Os valores inferiores a 
Q1 – 1,5×IQR e superiores a Q3 + 1,5×IQR são representados individualmente no gráfico sendo estes 
valores caracterizados como outliers, que também são chamados de pontos aberrantes. 
 
Figura 1: Representação do Boxplot. 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 As quantidades Q1 – 1,5×IQR e Q3 + 1,5×IQR delimitam, respectivamente, as cercas inferior e 
superior e constituem limites para além dos quais, como visto, os dados passam a ser considerados 
outliers. 
 O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers nos 
mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados 
correspondentes às categorias de uma variável qualitativa. 
 
Exemplo: Os dados utilizados para a construção do boxplot abaixo está na página 233 do livro Análise 
Financeira de Balanços - Abordagem Básica e Gerencial (6a Edição) do Dante C. Matarazzo, relativo aos 
índices de liquidez corrente de empresas solventes e insolventes. O conjunto de dados chama-se ilc.txt e 
está disponível em http://marcosfs2006.googlepages.com/ilc.txt. 
O boxplot pode ser construído com a função boxplot() do R (software livre). Os dados possuem 
duas variáveis (ilc e situacao) e 99 registros ou observações. A variável ilc registra os índices de liquidez 
corrente das empresas avaliadas. Iremos agora construir um boxplot para comparar a distribuição dos 
índices de liquidez corrente das empresas solventes e insolventes. O boxplot pode ser feito como na 
Figura 1. 
 O gráfico abaixo apresenta a distribuição da variável ilc segundo as categorias da variável 
situação. Observando o gráfico, verifica-se que as empresas classificadas como solventes possuem 
índices de liquidez corrente em geral maiores que os índices das empresas classificadas como insolventes. 
 
Figura 1: Boxplot do índice de liquidez corrente por situação da empresa. 
 
 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Figura: Representação gráfica do boxplot e das curvas normais padrão - N(0, 1), na mesma escala. 
 
 
Exercícios: Faça uma análise dos Boxplots a seguir: 
 
 (a) (b) 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 
 (c) Milhagem de carros (d) Nascimentos diários no hospital. 
 
 
(e) Petall: pétala esquerda; Sepall: sépala esquerda (f) 
 
 
 (g) (h) 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 
 (i) (j) Milhagem de carro 
 
 
 (k) (l) 
 
8.2. Medida de Dispersão Relativa 
8.2.1. Coeficiente de Variação 
É uma medida adimensional, útil para comparar variabilidades de diferentes amostras, onde as 
médias são muito desiguais ou as unidades de medidas são diferentes. O coeficiente de variação (CV) é o 
desvio padrão expresso em porcentagem da média, isto é, magnitude relativa do desvio padrão quando 
comparado com a média da distribuição das medidas. O coeficiente é dado por: 
%100)( 
X
S
XCV . 
O CV é muito utilizado para comparar a variabilidade de dois conjuntos de dados relativamente ao 
nível geral dos valores em cada conjunto, e, portanto, relativamente à média. Ou seja, quando deseja-se 
comparar conjuntos onde as escalas de medidassão diferentes. 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Observações: 
1. Será considerada a série mais homogênea, aquela que apresentar menor valor do coeficiente de 
variação. 
2. O CV é uma medida estatística que serve para avaliar a homogeneidade de séries estatísticas, que é o 
grau de concentração dos valores observados em torno da sua média aritmética. 
3. O seu valor numérico pode ser expresso em percentual. 
4. Para efeitos práticos, costuma-se considerar que o CV superior a 50% indica alto grau de dispersão e, 
consequentemente, pequena representatividade da média. Enquanto que para valores inferiores a 
50%, a média será tanto mais representativa quanto menor for o valor de seu CV. 
5. 1- 2/3 => 33% 
6. Em situação onde as variáveis em estudo exigem maior precisão o valor do CV deve ser ainda menor 
que nos itens 4 e 5. 
 
Exemplo 1: Para duas emissões de ações ordinárias da indústria eletrônica, o preço médio diário, no 
fechamento dos negócios, durante um período de um mês, para as ações A, foi de R$150,00 com desvio-
padrão de R$5,00. Para as ações B, o preço médio foi de R$50,00 com um desvio padrão de R$3,00. Em 
termos de comparação absoluta, a variabilidade do preço das ações A foi maior, devido ao desvio padrão 
maior. Mas, em relação ao nível do preço, devem ser comparados os respectivos coeficientes de variação, 
CVA = 0,033 (3,33%) e CVB = 0,060 (6%). Portanto, relativamente ao nível médio de preços das ações, 
pode-se concluir que o preço da ação B é quase duas vezes mais variável que o preço da ação A. 
 
Exemplo 2: Um estudo foi efetuado em uma maternidade, registrando-se o peso e o comprimento de 40 
recém-nascidos do sexo feminino, obtendo-se para o peso uma média de 3.094,5 gramas e um desvio 
padrão de 178,9062 gramas e para o comprimento uma média de 50,525 cm e um desvio padrão de 
2,0753 cm. Calcule o CV para o peso e para o comprimento. 
Média peso = 3.094,5 gramas 
Desvio-padrão peso = 178,9062 gramas 
Média comprimento = 50,525 cm 
Desvio-padrão comprimento = 2,0753 cm 
%100)( 
X
S
XCV 
CV(Peso) = 178,9062 / 3.094,5 * 100 = 5,78% 
CV(Comprimento) = 2,0753 / 50,525 * 100 = 4,11% 
 
Exemplo 3: Grupo I: CV = 66,67%, S = 2, X = 3 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Grupo II: CV = 3,64%, S = 2, X = 55 
 Como vemos, a dispersão dos dados é a mesma para os dois grupos. Entretanto as médias são 
diferentes. Isso determina a diferença da dispersão relativa, medida pelo coeficiente de variação. Neste 
caso, o desvio padrão igual a 2 é muito mais importante para o grupo I do que para o grupo II, o que é 
confirmado a partir do CV. 
 
Exemplo 4: Tome os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos: 
Discriminação Média Desvio-padrão 
Estaturas 175 cm 5,0 cm 
Pesos 68 kg 2,0 kg 
Qual das medidas (Estatura ou Peso) possui maior homogeneidade? 
Resposta: Teremos que calcular o CV da Estatura e o CV do Peso. O resultado menor será o de maior 
homogeneidade (menor dispersão ou variabilidade). 
CV estatura = (5 / 175) x 100 = 2,85% 
CV peso = (2 / 68) x 100 = 2,94%. 
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos. 
 
EXERCÍCIOS: 
1. Os dados abaixo representam o número de filhos de 60 casais residentes na zona urbana de uma 
determinada cidade: 
1 5 1 2 2 3 0 2 8 6 
0 1 2 3 5 0 4 0 5 6 
7 0 2 2 3 4 2 6 3 0 
1 2 0 2 1 3 0 6 4 0 
1 0 5 6 8 7 2 0 6 0 
3 6 9 8 2 0 1 2 0 3 
a. Classifique a variável. 
b. Construir uma distribuição de frequências sem classes para os dados. 
c. Determinar as frequências relativas percentuais. 
d. Determinar as frequências absolutas acumuladas. 
e. Determinar as frequências relativas acumuladas. 
f. Calcular a média aritmética, a moda e a mediana. 
g. Calcular a variância, o desvio-padrão e o coeficiente de variação. 
h. Analisar os resultados. 
 
2. Considere os dados relativos às alturas de 100 indivíduos (dadas em cm): 
151 152 154 155 158 159 159 160 161 161 
161 162 163 163 163 164 165 165 165 166 
166 166 166 167 167 167 167 167 168 168 
168 168 168 168 168 168 168 168 169 169 
169 169 169 169 169 170 170 170 170 170 
a. Classifique a variável. 
b. Construir uma distribuição de frequências com classes para os dados. 
c. Determinar as frequências relativas percentuais. 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
d. Determinar as frequências absolutas acumuladas. 
e. Determinar as frequências relativas acumuladas. 
f. Construir o histograma e o polígono de frequências. 
g. Calcular a média aritmética, a moda e a mediana. 
h. Calcular os quartis, decil 1, decil 9, percentil 10 e 90. 
i. Calcular a variância, o desvio-padrão e o coeficiente de variação. 
j. Analisar os resultados. 
 
3. Resultados da prova de Rapidez Numérica - Exame de Admissão do Colégio São José - 2011: 
25 33 35 37 55 27 40 16 14 46 
39 28 34 29 44 36 22 27 21 21 
29 21 28 29 33 42 15 33 24 27 
41 20 23 38 47 32 15 51 19 17 
27 33 46 10 16 34 18 36 19 26 
a. Classifique a variável. 
b. Construir uma distribuição de frequências com classes para os dados. 
c. Determinar as frequências relativas percentuais. 
d. Determinar as frequências absolutas acumuladas. 
e. Determinar as frequências relativas acumuladas. 
f. Construir o histograma e o polígono de frequências 
g. Calcular a média aritmética, a moda e a mediana. 
h. Calcular os quartis, decil 6, percentil 14 e 86. 
i. Calcular a variância, o desvio-padrão e o coeficiente de variação. 
j. Analisar os resultados. 
 
4. A tabela abaixo representa a distribuição dos salários (em R$) de 100 pessoas: 
200 150 120 300 500 120 100 200 350 100 
250 350 125 140 140 150 200 350 500 600 
120 200 140 150 250 100 120 150 200 600 
500 150 250 350 450 430 425 600 120 150 
350 600 120 150 135 170 450 100 200 100 
100 250 220 230 350 600 500 150 100 250 
120 100 120 120 240 350 120 100 200 142 
250 350 120 100 100 550 450 400 300 200 
100 350 150 180 190 200 300 500 100 150 
120 100 200 150 140 120 500 600 100 150 
a. Classifique a variável. 
b. Construir uma distribuição de frequências com classes para os dados. 
c. Determinar as frequências relativas percentuais. 
d. Determinar as frequências absolutas acumuladas. 
e. Determinar as frequências relativas acumuladas. 
f. Construir o histograma e o polígono de frequências. 
g. Calcular a média aritmética, a moda e a mediana. 
h. Calcular os quartis, decil 4, percentil 30 e 80. 
i. Calcular a variância, o desvio-padrão e o coeficiente de variação. 
j. Analisar os resultados. 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
5. Considere os dados de notas obtidas na prova de Matemática da 6
a
 série -1° bimestre de 2011, do 
Colégio C. 
5,0 4,5 3,0 2,0 1,5 8,0 7,0 6,2 7,0 6,0 
7,0 6,0 6,5 8,0 8,0 7,0 5,0 5,0 3,0 2,0 
6,5 4,0 6,0 4,0 5,0 3,0 4,5 4,5 8,0 4,4 
7,0 5,0 5,0 7,0 7,0 6,0 9,0 5,5 5,0 8,0 
3,0 7,0 1,0 4,0 5,5 2,0 3,5 2,0 2,0 2,5 
7,0 7,0 8,0 1,0 3,0 0,5 9,5 5,5 2,0 6,0 
 
a. Classifique a variável. 
b. Construir uma distribuição de frequências com classes para os dados. 
c. Determinar as frequências relativas percentuais. 
d. Determinar as frequências absolutas acumuladas. 
e. Determinar as frequências relativas acumuladas. 
f. Construir o histograma e o polígono de frequências 
g. Calcular a média aritmética, a moda e a mediana. 
h. Calcular os quartis, decil 4, percentil 30 e 80.i. Calcular a variância, o desvio-padrão e o coeficiente de variação. 
j. Analisar os resultados. 
 
6) Encontre para os dados abaixo as medidas de posição: média, mediana, moda, quartis, desvio-padrão e 
coeficiente de variação: 
a) Temperaturas em 
o
C: 23,764; 23,614; 21,827; 22,196; 22,023; 24,438; 24,675; 24,244; 24,749; 25,611; 
25,002; 24,179. 
b) Idade em anos: 61, 69, 61, 71, 63, 71, 72, 68, 66, 69, 72, 67, 63, 66, 63, 63, 60, 67, 71, 63, 60. 
c) Cintura em centímetros: 87, 89, 106, 90, 99, 125, 115, 85, 100, 74, 90, 76, 80, 78, 72, 78, 80, 76. 
d) Quadril em centímetros: 109, 104, 123, 99, 121, 132, 125, 103, 120, 83, 111, 90, 102, 96, 81, 90. 
e) Peso em kg: 58,2; 63; 70,1; 73,2; 58,6; 77; 76,2; 59,8; 64,3; 52,1; 62; 52,1; 58; 55; 50,1; 57,9. 
f) Faça uma análise comparativa dos dados usando o coeficiente de variação. 
 
7) Encontre para a distribuição de frequência da tabela abaixo as medidas de posição: média, mediana, 
moda, quartis, desvio-padrão e coeficiente de variação: 
Classes fi 
 0 ├─ 10 
10 ├─ 20 
20 ├─ 30 
30 ├─ 40 
40 ├─ 50 
2 
5 
8 
6 
3 
Total 24 
 
8) Encontre para a distribuição de frequência da temperatura (
o
C) medida ao longo do ano de 2005 em 
uma certa cidade, as medidas de posição: média, mediana, moda, quartis, desvio-padrão e coeficiente de 
variação: 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
 
Classe de Temperatura Frequência 
18,00 ├─ 20,00 17 
20,00 ├─ 22,00 523 
22,00 ├─ 24,00 806 
24,00 ├─ 26,00 159 
26,00 ├─ 28,00 160 
28,00 ├─ 30,00 84 
30,00 ├─ 32,00 3 
Total 1.752 
 
9) Encontre para a distribuição de frequência do IMC de mulheres, as medidas de posição: média, 
mediana, moda, quartis, desvio-padrão e coeficiente de variação: 
Classe de IMC Frequência 
20,0 ├─ 22,5 7 
22,5 ├─ 25,0 20 
25,0 ├─ 27,5 11 
27,5 ├─ 30,0 5 
30,0 ├─ 32,5 2 
Total 45 
 
10) Construa o Boxplot para todas as questões possíveis acima. 
 
11) Dado o conjunto  1;2;16;1;4;2;64A , responda as questões a seguir. 
i. A Média Aritmética de A é: a) 12,0 b) 2,0 c) 12,9 d) 4,0. 
ii. A Mediana de A é: a) 12,0 b) 2,0 c) 2,1 d) 12,9 e) 4,0. 
iii. Podemos dizer que A é: a) Amodal b) Unimodal c) Bimodal d) Unimodal e Bimodal 
e) Bimodal, porque sua moda é 2. 
iv. O Desvio Médio de A é: a) 108,6 b) 130321 c) 15,5 d) 3,94 e) 211. 
v. A Variância de A é: a) 10,4 b) 361 c) 400 d) 3,94 e) 460,1. 
vi. O Desvio-padrão de A é: a) 3,2 b) 19 c) 2 d) 20 e) 21,4. 
vii. O Coeficiente de Variação de A é: a) 24,8 b) 15,5 c) 147,3 d) 155,0 e) 165,9. 
 
12) Responda as questões a seguir considerando a distribuição de frequência da Tabela 1. 
Tabela 1: Número de Funcionários da Empresa Marvel em 1996. 
Salários Mínimos (R$) Nº de Funcionários 
1 ├─ 3 30 
3 ├─ 5 15 
5 ├─ 7 25 
7 ├─ 9 08 
 9 ├─ 11 10 
11 ├─ 13 12 
TOTAL 100 
 Fonte: Dados Hipotéticos 
 
i. A média da distribuição de frequências é: a) 5,4 b) 5,78 c) 2,3 d) 2,8 e) 4,0. 
ii. A mediana da distribuição de frequências é: a) 5,4 b) 5,78 c) 2,3 d) 2,8 e) 4,0. 
iii. A moda da distribuição de frequências é: a) 5,4 b) 5,78 c) 2,3 d) 2,8 e) 4,0. 
iv. Se, empiricamente, a moda for 2 e a mediana 4, a média aritmética será: a) 8 b) 2 c) 3 d) 5. 
 
Exercícios: Construa o Boxplot para os dados das Tabelas a seguir. 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Tabela 1: Produção de trigo e milho em toneladas. 
Ano Trigo (t) Milho (t) 
1970 200 75 
1971 185 90 
1972 225 100 
1973 250 85 
1974 240 80 
1975 195 100 
1976 210 110 
1977 225 105 
1978 250 95 
1979 230 110 
1980 235 100 
 
Tabela 2: Totais anuais de chuva (em mm) na cidade de Pelotas/RS. 
i Yi i Yi i Yi i Yi i Yi 
1 680 21 1048 41 1220 61 1331 81 1510 
2 689 22 1049 42 1225 62 1334 82 1535 
3 832 23 1054 43 1232 63 1342 83 1539 
4 856 24 1066 44 1237 64 1344 84 1543 
5 857 25 1090 45 1255 65 1350 85 1555 
6 864 26 1099 46 1258 66 1352 86 1582 
7 885 27 1110 47 1265 67 1355 87 1605 
8 890 28 1112 48 1270 68 1360 88 1654 
9 890 29 1114 49 1271 69 1361 89 1656 
10 919 30 1137 50 1297 70 1372 90 1694 
11 923 31 1138 51 1298 71 1373 91 1695 
12 926 32 1144 52 1300 72 1377 92 1718 
13 931 33 1153 53 1305 73 1390 93 1724 
14 952 34 1160 54 1307 74 1423 94 1746 
15 973 35 1166 55 1311 75 1435 95 1778 
16 982 36 1178 56 1320 76 1443 96 1780 
17 998 37 1179 57 1321 77 1455 97 1815 
18 1004 38 1191 58 1323 78 1496 98 1945 
19 1011 39 1198 59 1326 79 1501 99 1995 
20 1040 40 1212 60 1330 80 1510 100 2338 
 
Tabela 3: Medidas descritivas de notas em estatística de 100 alunos. 
Média Mediana DP Mínimo Q1 Q3 Máximo 
5,925 6,000 1,812 1,500 4,625 7,375 10,000 
 
Tabela 4: Medidas descritivas de temperaturas (C
o
) na cidade de São Paulo. 
Média Mediana Mínimo Q1 Q3 Máximo 
17,22 17,7 12,3 16 18,6 21 
 
Tabela 5: Medidas descritivas das idades dos funcionários de duas repartições públicas. 
Repartição Mínimo Q1 Mediana Média Q3 Máximo DP CV% 
A 18 27 33 33 39 48 5 15% 
B 18 23 32 33 42 48 10 30% 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Tabela 6: Medidas descritivas dos salários mínimos (R$) de profissionais com nível universitário. 
Região Mínimo Q1 Mediana Média Moda Q3 Máximo DP 
A 8,00 17,32 20,32 20,00 20,15 22,68 32,00 4,00 
B 14,00 16,00 18,00 20,00 17,00 24,00 42,00 6,00 
 
9. Tabelas de Contingência 
A forma geral da tabela cruzada, na qual uma amostra de n observações é classificada 
relativamente a duas variáveis qualitativas, uma com r categorias ou populações no caso de teste de 
homogeneidade e outra com c categorias. 
Estas são denominadas tabela cruzada r × c e a frequência observada ou contagem das categorias i 
da variável linha e das categorias j da variável coluna, é representada por Oij. 
O total de observações na categoria i da variável linha é ni. e o total de observações na categoria j 
da variável coluna é n.j. 
Estes são chamados totais marginais e em termos das frequências das células, nij, são expressos 
por: 
 
Categoria 1 
Categoria 
2 
 Categoria c Total 
Categoria 1 
 
 
 
 
Categoria 2 
 
 
 
 
 
 
 
Categoria r 
 
 
 
 
Total 
 
 
 
 
 
10. Re-expressão de variáveis 
10.1. Transformação dos dados amostrais 
 
Razões para a transformação dos dados 
Quando algum dos requisitos para o emprego da estatística paramétrica - normalidade da 
distribuição dos erros, homogeneidade das variâncias, e aditividade dos efeitos dos fatores de 
variação - não puder ser preenchido pelos dados da sua amostra experimental, o pesquisador pode ainda 
tentar o recurso da transformação dos dados, antes de optar pela aplicação da estatística não-
paramétrica. É um recurso que sempre vale a pena tentar, porque a estatística paramétrica é 
evidentemente mais poderosa que a não-paramétrica. De fato, esta somente foi desenvolvida como um 
recurso complementar, destinado a suprir a necessidade de testes estatísticos nos casos em que alguma 
restrição desaconselhava o uso da estatística paramétrica, ou quando a própria natureza dos dados, muitas 
vezes não exatamente numéricos, vedava a aplicação desta. 
 
As transformações mais comumente utilizadas 
As transformações diretas dos dados mais comumente utilizadas são: a logarítmica, a 
logarítmica dos dados +1, a raiz quadrada dos dados, a raiz quadradados dados +1, ou mais 1/2, a 
raiz cúbica dos dados, a transformação angular, a transformação hiperbólica de primeiro grau (ou 
o inverso dos dados) ou hiperbólica de segundo grau, a transformação percentual, e a 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
transformação em valores de z, já referida quando se comentaram os testes para verificar a normalidade 
da distribuição dos erros amostrais. 
 
A transformação mais indicada 
Há sempre uma razão objetiva, em geral bem definida matematicamente, para se optar por uma ou 
outra dessas transformações, tudo dependendo de como ou porque a distribuição amostral está se 
deformando e fugindo à normalidade. Só a prática, entretanto, acaba ensinando o pesquisador a 
entrever qual a transformação mais indicada. Todavia, com o advento da informática, essas 
transformações se tornaram algo tão corriqueiro e tão rápido de realizar, que o estatístico, ou o 
pesquisador, pode tentar todas elas em sequência, para ver qual a que produz o melhor resultado, gastando 
para isso não mais do que alguns poucos minutos de seu precioso tempo. 
Na verdade, a transformação mais indicada geralmente coincide com aquela que apresentar 
a probabilidade mais elevada de a distribuição ser normal, de modo que se torna supérfluo saber a sua 
justificativa matemática. Se a transformação não for adequada, a probabilidade de normalidade tende a 
piorar, em vez de melhorar. 
 
Interpretação dos resultados (em dados transformados) 
O único cuidado que se deve ter, após transformar os dados experimentais, é passar a raciocinar 
em termos da natureza dos novos dados, por ocasião da discussão e da interpretação dos resultados. 
Por exemplo: algumas transformações invertem os valores dos dados, como é o caso da própria 
transformação inversa (ou hiperbólica de primeiro grau), na qual 𝑋𝑖 =
1
𝑥𝑖
, e da hiperbólica de segundo 
grau, em que 𝑋𝑖 =
1
𝑥𝑖
2. 
 
A transformação logarítmica 
Não se deve esquecer portanto que, uma vez transformados os dados em logaritmos, a soma de 
dados logarítmicos não tem o mesmo valor que a soma de seus antilogaritmos, mas representa o produto 
destes, de modo que a média dos logaritmos não corresponde ao logaritmo da média de seus 
antilogaritmos. Na verdade, o antilogaritmo da média dos logaritmos corresponde à média geométrica dos 
dados originais, e não à média aritmética destes. 
Por isso, no cálculo das médias, após a transformação logarítmica, não se pode esquecer de que os 
logaritmos passaram a ser tratados como simples dados numéricos, e não mais como logaritmos. Para 
fazer a conversão para os valores originais, as médias correspondentes às médias dos dados logarítmicos 
têm de ser calculadas a partir dos dados originais. A única coisa que é mantida nesses casos é a hierarquia 
dos dados, pois quando um dado original é maior do que outro, os seus logaritmos mantêm essa mesma 
ordenação hierárquica, ainda que os próprios valores numéricos passem a ser diferentes. 
Uma vez normalizada e homogeneizada a distribuição dos dados amostrais, por intermédio 
da transformação que se comprovar mais conveniente, o pesquisador estará autorizado a utilizar os 
testes paramétricos. Contudo, se mesmo tendo tentado todos os recursos disponíveis ainda assim a 
distribuição continua se demonstrando não-normal, ou não-homogênea, ou até mesmo não-aditiva, não 
há outra alternativa senão utilizar a estatística não-paramétrica. 
 
10.2. Padronização 
 
Modelo Normal 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Diz-se que uma variável aleatória contínua X tem distribuição Normal com parâmetros  e 
2 
se sua função de densidade é dada por 
 
 



xexf
x
,
2
1 22
2



. 
Utiliza-se a notação  2,~ NX , para indicar que X tem distribuição Normal com parâmetros  e 
2 . A densidade é representada na Figura 10.4. 
 
 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Figura 10.1: Densidade Normal 
 
Algumas propriedades da distribuição Normal podem ser facilmente observadas de seu gráfico 
(Figura 10.1). 
I)  xf é simétrica em relação a  ; 
II)   0xf quando x ; 
III) O valor máximo de  xf se dá para x . 
 No cálculo das probabilidades para variáveis contínuas, devemos resolver a integral da função 
densidade no intervalo de interesse, isto é, 
 
 
..
2
1 22
2
dxebXaP
x
b
a





 
 Entretanto, a integral acima só pode ser resolvida de modo aproximado e por métodos numéricos 
e, por essa razão, as probabilidades para o modelo Normal são calculadas com o auxílio de tabelas. Para 
se evitar a multiplicação desnecessária de tabelas para cada par de valores  2, , utiliza-se uma 
transformação que conduz sempre cálculo de probabilidades com uma variável de parâmetros  1;0 , isto é, 
média 0 e variância 1. 
 Considera-se  2,~ NX e, assim, define-se uma nova variável 



X
Z . Pelas propriedades 
do valor esperado e da variância tem-se 
       011 









XEXEEZE
X
 e 
      1
2
1
2
1 






XVarXVarVarZVar
X


 . 
Pode-se ainda verificar que essa transformação não afeta a normalidade e, assim, a variável 
aleatória Z terá distribuição  1,0N e será denominada de Normal Padrão ou Normal Reduzida. 
Portanto, para determinar a probabilidade de  baX , , procedemos da seguinte forma 
   
,




 





 














ba
bXa
ZP
P
bXaPbXaP
 
e portanto, quaisquer que sejam os valores de  e  , utilizados a Normal Padrão para obter 
probabilidades com a distribuição Normal. 
 xf
x

 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Os valores para  ,0 zZP  0z são apresentados na Tabela 10.1 em anexo. Como 
probabilidade é sempre um número entre 0 e 1, a tabela contém apenas a parte decimal. 
 
Exemplo 1: Para  9;2~ NX encontre  52  XP . 
Observação: A simetria da Normal é utilizada para encontrar probabilidades de maneira fácil. 
 
Exemplo 2: Para  9;2~ NX encontre  20  XP . 
Observação: Um outro recurso importante no uso tabela é a utilização do complementar. 
 
Exemplo 3: Para  9;2~ NX encontre  3XP . 
 
Exemplo 4: Para Para  9;2~ NX encontre P(3<X<5) 
 
A tabela também pode ser utilizada no sentido inverso, isto é, dado uma certa probabilidade c tal 
que   ?4,00  cZP procurando no corpo da tabela, a probabilidade de que mais se aproxima de 0,4 é 
0,3997; correspondendo a 1,28 que será o valor de c . 
Finalmente, suponha agora que queremos encontrar d tal que   8,0 dZP . Observamos d 
precisa ser negativo, pois a probabilidade desejada é maior que 21 , que é o valor de  0ZP . Assim, o 
intervalo  0,d precisa ter probabilidade 0,3. Pela simetria da Normal, o intervalo  d,0 também tem 
probabilidade 0,3. Da tabela segue que 84,0 d e, portanto 84,0d . 
 
Aplicações 
 Teoria da Amostragem: segundo o Teorema Central do Limite, quando n ≥ 30, o uso da distribuição 
normal é garantido para a estimativa de médias e proporções populacionais. 
 Testes de Hipóteses: testar hipóteses sobre médias ou diferenças entre médias de dois ou mais grupos. 
 
Exercícios 
1) Para  100;90~ NX , obtenha: 
a)  115XP = 0,9938 
b)  80XP = 0,8413 
c)  75XP = 0,0668 
d)  10085  XP = 0,5328. 
 
2) Tem-se quea variável QI tem média 100 e variância 225. Padronize a variável QI e encontre: 
a) Qual a probabilidade que uma pessoa escolhida aleatoriamente tenha o QI superior a 135? Resp.= 0,01. 
b) Qual a probabilidade que uma pessoa escolhida aleatoriamente tenha o QI inferior a 90? Resp.: 0,2514. 
 
3) Um teste de inteligência foi aplicado em um grupo de 50 estudantes de uma série. Os resultados 
obtidos apresentaram uma distribuição aproximadamente normal, com média 50 e desvio-padrão 6. 
a) Qual a proporção de alunos com notas superiores a 60? 
b) Qual o número de alunos com notas compreendidas entre 35 e 45? 
 
UNIVERSIDADE FEDERAL DO PARÁ DISCIPLINA: Análise Exploratória de Dados Código: EST1004 
INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS Profa. Adrilayne dos Reis Araújo, M.Sc. 2 per 2024 
 
Tabela 10.1 – Distribuição Normal Padrão 
Valores de p tais que   pzZP 0 
Segunda Decimal de z 
 
P
a
rt
e 
In
te
ir
a
 e
 P
ri
m
ei
ra
 D
ec
im
a
l 
d
e 
 z
 
z 0 1 2 3 4 5 6 7 8 9 
0,0 
0,1 
0,2 
0,3 
0,4 
0,5 
0,6 
0,7 
0,8 
0,9 
1,0 
1,1 
1,2 
1,3 
1,4 
1,5 
1,6 
1,7 
1,8 
1,9 
2,0 
2,1 
2,2 
2,3 
2,4 
2,5 
2,6 
2,7 
2,8 
2,9 
3,0 
3,1 
3,2 
3,3 
3,4 
3,5 
3,6 
3,7 
3,8 
3,9 
0,0000 
0,0398 
0,0793 
0,1179 
0,1154 
0,1915 
0,2257 
0,2580 
0,2881 
0,3159 
0,3413 
0,3643 
0,3849 
0,4032 
0,4192 
0,4332 
0,4452 
0,4554 
0,4641 
0,4713 
0,4772 
0,4821 
0,4861 
0,4893 
0,4918 
0,4938 
0,4953 
0,4965 
0,4974 
0,4981 
0,4987 
0,4990 
0,4993 
0,4995 
0,4997 
0,4998 
0,4998 
0,4999 
0,4999 
0,5000 
0,0040 
0,0438 
0,0832 
0,1217 
0,1591 
0,1950 
0,2291 
0,2611 
0,2910 
0,3186 
0,3438 
0,3665 
0,3869 
0,4049 
0,4207 
0,4345 
0,4463 
0,4564 
0,4649 
0,4719 
0,4778 
0,4826 
0,4864 
0,4896 
0,4920 
0,4940 
0,4955 
0,4966 
0,4975 
0,4982 
0,4987 
0,4991 
0,4993 
0,4995 
0,4997 
0,4998 
0,4998 
0,4999 
0,4999 
0,5000 
0,0080 
0,0478 
0,0871 
0,1255 
0,1628 
0,1985 
0,2324 
0,2642 
0,2939 
0,3212 
0,3461 
0,3686 
0,3888 
0,4066 
0,4222 
0,4357 
0,4474 
0,4573 
0,4656 
0,4726 
0,4783 
0,4830 
0,4868 
0,4898 
0,4922 
0,4841 
0,4956 
0,4967 
0,4976 
0,4982 
0,4987 
0,4991 
0,4994 
0,4995 
0,4997 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000 
0,0120 
0,0517 
0,0910 
0,1293 
0,1664 
0,2019 
0,2357 
0,2673 
0,2967 
0,3238 
0,3485 
0,3708 
0,3907 
0,4082 
0,4236 
0,4370 
0,4484 
0,4582 
0,4664 
0,4732 
0,4788 
0,4834 
0,4871 
0,4901 
0,4925 
0,4943 
0,4957 
0,4968 
0,4977 
0,4983 
0,4988 
0,4991 
0,4994 
0,4996 
0,4997 
0,4998 
0,4999 
0.4999 
0,4999 
0,5000 
0,0160 
0,0557 
0,0948 
0,1331 
0,1700 
0,2054 
0,2389 
0,2704 
0,2995 
0,3264 
0,3508 
0,3729 
0,3925 
0,4099 
0,4251 
0,4382 
0,4495 
0,4591 
0,4671 
0,4738 
0,4793 
0,4838 
0,4875 
0,4904 
0,4927 
0,4945 
0,4959 
0,4969 
0,4977 
0,4984 
0,4988 
0,4992 
0,4994 
0,4996 
0,4997 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000 
0,0199 
0,0596 
0,0987 
0,1368 
0,1736 
0,2088 
0,2422 
0,2734 
0,3023 
0,3289 
0,3531 
0,3749 
0,3944 
0,4115 
0,4265 
0,4394 
0,4505 
0,4599 
0,4678 
0,4744 
0,4798 
0,4842 
0,4878 
0,4906 
0,4929 
0,4946 
0,4960 
0,4970 
0,4978 
0,4984 
0,4989 
0,4992 
0,4994 
0,4996 
0,4997 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000 
0,0239 
0,0636 
0,1026 
0,1406 
0,1772 
0,2123 
0,2454 
0,2764 
0,3051 
0,3315 
0,3554 
0,3770 
0,3962 
0,4131 
0,4279 
0,4406 
0,4515 
0,4608 
0,4686 
0,4750 
0,4803 
0,4846 
0,4881 
0,4909 
0,4931 
0,4948 
0,4961 
0,4971 
0,4979 
0,4985 
0,4989 
0,4992 
0,4994 
0,4996 
0,4997 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000 
0,0279 
0,0675 
0,1064 
0,1443 
0,1808 
0,2157 
0,2486 
0,2794 
0,3078 
0,3340 
0,3577 
0,3790 
0,3980 
0,4147 
0,4292 
0,4418 
0,4525 
0,4616 
0,4693 
0,4756 
0,4808 
0,4850 
0,4884 
0,4911 
0,4932 
0,4949 
0,4962 
0,4972 
0,4979 
0,4985 
0,4989 
0,4992 
0,4995 
0,4996 
0,4997 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000 
0,0319 
0,0714 
0,1103 
0,1480 
0,1844 
0,2190 
0,2517 
0,2823 
0,3106 
0,3365 
0,3599 
0,3810 
0,3997 
0,4162 
0,4306 
0,4429 
0,4535 
0,4625 
0,4699 
0,4761 
0,4812 
0,4854 
0,4887 
0,4913 
0,4934 
0,4951 
0,4963 
0,4973 
0,4980 
0,4986 
0,4990 
0,4993 
0,4995 
0,4996 
0,4997 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000 
0,0359 
0,0753 
0,1141 
0,1517 
0,1879 
0,2224 
0,2549 
0,2852 
0,3133 
0,3389 
0,3621 
0,3830 
0,4015 
0,4177 
0,4319 
0,4441 
0,4545 
0,4633 
0,4706 
0,4767 
0,4817 
0,4857 
0,4890 
0,4916 
0,4936 
0,4952 
0,4964 
0,4974 
0,4981 
0,4986 
0,4990 
0,4993 
0,4995 
0,4997 
0,4998 
0,4998 
0,4999 
0,4999 
0,4999 
0,5000

Mais conteúdos dessa disciplina