Logo Passei Direto
Buscar
Material
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Análise Exploratória de Dados 1
 
 
1. Introdução 
 
 
A Estatística possui um papel fundamental na tomada de decisões em organizações 
públicas e privadas. Em algumas do conhecimento tais como, medicina, biologia e economia 
as aplicações da Estatística têm recebido muito destaque. Nas Universidades disciplinas de 
estatística são obrigatórias na maioria cursos de graduação e de pós-graduação. Podemos 
ainda adicionar, o desenvolvimento de novos produtos na indústria e o setor de serviços. As 
aplicações da Estatística estão todas as atividades humanas envolvidas com a coleta, 
organização e análise de dados. Por conseguinte, no resumo desses dados em informação para 
testar hipóteses científicas sobre um fenômeno observável. 
Por exemplo, com o objetivo da melhoria da qualidade, produtividade e lucratividade, 
e sem deixar de seguir as exigências da legislação ambiental, as empresas procuram otimizar 
os processos de produção. Estes processos podem gerar dados de várias variáveis de interesse. 
Um resumo e análise desses dados são elaborados de forma adequada com o uso de métodos 
estatísticos e apoio de softwares. 
 
 
1.1. Conceitos Básicos 
 
Definição 1.1: A Estatística é a ciência que tem como objetivo a obtenção, organização, 
análise e interpretação de um conjunto de dados associado a um determinado fenômeno. Além 
disso, a formulação de modelos matemáticos para fazer inferência sobre uma população. 
 
 A Inferência estatística tem como objetivo fazer afirmações sobre as características de 
uma população a partir de uma amostra representativa. Estas afirmações são apresentadas 
juntamente com uma probabilidade de erro. 
 
Definição 1.2: Estatística Descritiva é um conjunto de procedimentos para construir um 
determinado resumo dos dados observados de uma ou mais variáveis associadas a um 
experimento aleatório em estudo. 
 
Análise Exploratória de Dados 2
 
 
 A estatística descritiva também denominada análise exploratória de dados representa 
uma fase importante do método estatístico. Tem como objetivo a coleta, organização e resumo 
dos dados por meio de tabelas, gráficos e medidas numéricas. 
 
Definição 1.3: População é o conjunto Ω de todos os resultados possíveis de um experimento 
que temos interesse em estudar. Ω pode ser finito, infinito enumerável ou infinito não-
enumerável. 
 
Definição 1.4: Amostra é um subconjunto da população. 
 
 Em geral as letras � e � são utilizadas para representar o tamanho da amostra e da 
população, respectivamente. A letra grega maiúscula Ω, tem sido utilizada para representar a 
população. A Figura 1.1 apresenta uma interpretação geométrica de uma população e de uma 
amostra. 
 
 Figura 1.1 - Representação esquemática de uma população e uma amostra. 
 
Definição 1.5: Técnicas da amostragem é um conjunto de técnicas utilizadas para a obtenção 
de uma amostra representativa da população. Exemplos de utilização: pesquisa de mercado, 
pesquisa de opinião pública, testes de medicamentos, controle de qualidade de produtos, 
entre outros. 
 
Definição 1.6: Variável é aquilo que se deseja observar para se tirar algum tipo de informação 
do experimento em estudo, por exemplo: opinião sobre a compra de um produto, idade, peso, 
altura, sexo, renda de um indivíduo, tempo de vida de um paciente, tempo de espera numa fila 
de um supermercado. 
Análise Exploratória de Dados 3
 
 
 
Definição 1.7: Dados são observações de uma ou mais variáveis. O conjunto de dados 
provem de uma amostra, a qual representa uma população de interesse. 
 
O desenvolvimento de novos softwares estatísticos e o aumento do uso dos 
computadores tem facilitado o emprego da Estatística Descritiva em diversas áreas do 
conhecimento. 
A inferência estatística utiliza a teoria das probabilidades e resumos de dados de uma 
amostra (��, �
, ⋯ , ��) para tirar conclusões sobre a população. Os Exemplos 1.1 e 1.2 a 
seguir ilustram esta situação. 
 
Exemplo 1.1 - Para avaliar o desempenho de candidatos em determinado intervalo de tempo 
de uma campanha eleitoral, um instituto de pesquisa de opinião utiliza um conjunto de dados 
de uma pesquisa por amostragem da população de eleitores. O objetivo principal é estimar a 
proporção de votos de cada candidato. Considere um certo candidato �. Então, podemos 
chamar de � a proporção de eleitores na população que têm intenção de votar no candidato �, 
e de �̂ a proporção de pessoas na amostra que expressam intenção de voto em �. 
Para estimar a proporção � da população utiliza-se o valor de 
�̂ = #�� , 
em que, #� é o número de pessoas na amostra que tem intenção de votar no candidato � e � 
é o tamanho da amostra. 
Numa eleição para governador, os institutos de pesquisa de opinião observam 
periodicamente amostras de eleitores para obter estimativas de intenção de voto da população. 
A estimativa �̂ da proporção � de eleitores na população é divulgada de acordo uma margem 
de erro, � = � − �̂. Além disso, um intervalo de confiança, (�̂ − �, �̂ + �). A margem de erro 
pode ser fixada antes da realização do experimento e depende do tamanho da amostra �. Pela 
lei dos grandes números � tende para 0 (zero) quando � tende para ∞ (infinito) com 
probabilidade 1. 
Considere a variável � representando o número de eleitores na amostra que tem 
intenção de votar no candidato �. Então, podemos escrever �̂ na forma 
Análise Exploratória de Dados 4
 
 �̂ = ��. 
Desde que � < � , podemos, por exemplo, fixar um erro amostral � = 0.02. Note que, �� − 0.02 ≤ � ≤ �� + 0.02. 
Para estar 100% certo de que � = ��, você teria que entrevistar a população inteira. Entretanto, 
podemos escolher uma probabilidade menor do que 1, suponha 95%, e determinar � tal que 
! "�� − 0.02 ≤ � ≤ �� + 0.02# ≥ 0.95. (1.1) 
O intervalo %�� − 0.02 ; �� + 0.02' é chamado intervalo de confiança para p. Sendo que, o 
nível de confiança é 0.95. Note que, qualquer � suficientemente grande irá satisfazer a 
expressão (1.1). A determinação de � usa recursos da teoria das probabilidades, em 
particular, o teorema central do limite que pode ser explorado em disciplinas de probabilidade 
e inferência estatística. Desprezando alguns detalhes técnicos, segue da expressão (1.1) que 0.02 = 1.96)�(1 − �)/�. 
Sendo que, 1.96 representa o percentil 97.5 de uma distribuição de probabilidade Normal 
padronizada. Isto implica que � = 9604�(1 − �). Em muitas aplicações, como a deste 
exemplo, não há informação adicional sobre o valor verdadeiro de �. Então, admite-se � = 1/2, o valor de � que maximiza �(1 − �). Como resultado, � = 2401. A Figura 1.2 
apresenta a estimativa simulada da proporção de votos do candidato � baseado em uma 
amostra de tamanho 2401. 
 
 Figura 1. 2 - Resultado simulado da proporção de votos do candidato �. 
Análise Exploratória de Dados 5
 
 
 
Após a divulgação da pesquisa de opinião pelos órgãos de imprensa, algumas questões 
podem surgir ao eleitor. Como foi determinado o tamanho da amostra � ?; Que informação 
importante o instituto de pesquisa de opinião não apresentou? 
 
Exemplo 1.2 - Determinação do tamanho de uma população (�). Considere uma população 
formada por um conjunto de � táxis de uma cidade e que os táxis são enumerados de 1 a �. 
Para estimar o número � de táxis da cidade, foi anotado os números de todos os táxis que um 
turista pegou: 440, 73, 179, 405 e 280. Como devemos escolher uma estimativa para �? 
 Os dados ordenados podem ser representados por: (73, 179, 280, 405, 440). 
 
Estimativa de � pelo Método do Extremo: Uma estimativa é obtida somando o maior valor 
na amostra (440) com a lacuna do menor valor (72). Ou seja, �/ = 440 + 72 = 512 . 
Observar que a lacuna entre dois valores dados foi definida pela quantidade de inteiros entre 
eles. Então, a lacuna entre 405 e 440 é (440 − 405 − 1) = 34 (existem 34 números 
inteiros entre 405 e 440). 
 
Estimativa de � usando Mediana da Amostra:Outra estimativa de � é obtida somando-se o 
valor mediano da amostra (280) com sua lacuna (279). Ou seja, �/ = 280 + 279 = 559. 
 
Estimativa de � pela Média das Lacunas: Considere agora as lacunas observadas na amostra, 
isto é, o nº de observações entre dois valores ordenados da amostra. Os tamanhos das lacunas 
observadas são: 72, 105, 100, 124 e 34. A média das lacunas é dada por: 
 �0 = (72 + 105 + 100 + 124 + 34)/5 = 87. 
 
Portanto, outra estimativa é dada por: �1 = 440 + 87 = 527. 
 
Como poderíamos escolher o método de estimação a ser usado? Esta questão é tratada 
em Inferência Estatística. A Estatística Descritiva, é o objeto de estudo dos Capítulos 2 e 3. 
 
 
 
Análise Exploratória de Dados 6
 
 
1.2 Códigos em R usados no Capítulo 1 
## Códigos em R do Exemplo 1.1 
rm(list=ls(all=TRUE)) 
x=rbinom(n=2401, size =1,prob=0.58)# sim=1, 0=não 
n=length(x) 
summary(x) # resumo da variável (ou vetor ) x 
mean(x) # média de x 
var (x) # variância de x 
sd(x) # desvio padrão de x 
## usando o fBasics 
require ( fBasics ) # carrega o pacote fBasics 
basicStats (x) y=c("Candidato A", "Candidato B") 
fi=c(sum(x), n-sum(x)) 
px=fi/n 
barplot(px,names=as.character(y), ylim=c(0,1.1*max(px)), ylab="%", col="green", main='') 
 
 
 
 
 
 
 
 
 
 
 
 
 
Análise Exploratória de Dados 7
 
 
2. Dados Univariados 
 A Estatística Descritiva reúne um conjunto de técnicas para resumir os dados em 
tabelas, gráficos e medidas descritivas que permitem tirar informações contidas nos dados. 
 Num conjunto de dados podemos ter dois tipos de variáveis, as quantitativas e as 
qualitativas. 
 
Variáveis Quantitativas: São variáveis numéricas obtidas por contagens ou 
mensuração, podem ser discretas ou contínuas. 
 
• Variáveis discretas: estão associadas a dados de contagem, por exemplo, � = 
Número de usuários atendidos mensalmente numa biblioteca; � = Número de 
clientes numa fila esperando atendimento; � = número de caras voltadas para 
cima em 20 lançamentos de uma moeda honesta. 
• Variáveis contínuas: estão associadas a medidas de tempo, peso, altura, 
volume, área, ..., capacidade. Por exemplo, 2 = Tempo de atendimento em 
minutos a um usuário ou cliente; � = peso em kg de um indivíduo; 3 = nota 
obtida por um aluno numa prova de matemática. 
 
Variáveis Qualitativas ou Categóricas: São variáveis não numéricas em que os 
resultados são categorias ou atributos. Por exemplo, opinião sobre um produto 
comprado em uma loja de esporte: {ótimo, bom, regular, ruim, péssimo}; resultado do 
lançamento de uma moeda uma única vez: {cara, coroa}; resposta sobre a instalação 
ou não de um aplicativo num smartphone: {sim, não}; resultado sobre a qualidade de 
um produto fabricado: {perfeito, defeituoso}. Em geral, as variáveis qualitativas 
podem ser codificadas numericamente, por exemplo, "sim = 1" e "não = 0". 
 
Após a coleta ou obtenção dos dados e a construção de um banco de dados, como 
resumir e organizá-los de uma maneira informativa? A resposta a esta questão é tratada nas 
Seções 2.1 e 2.2. 
 
 
 
 
Análise Exploratória de Dados 8
 
 
2.1. Tabelas e Gráficos 
 Após a coleta dos dados a construção de um banco de dados pode ser feita em forma 
de planilha em um software estatístico para facilitar o resumo de interesse. Um exemplo de 
um banco de dados é dado pela Tabela 2.1. 
 
 TABELA 2.1 - Amostra aleatória de tamanho 20 de algumas variáveis coletadas numa 
pesquisa com estudantes da graduação em Matemática da UFMA em setembro de 2010. 
Aluno P1 P2 P3 P7a P10B P24 P27 
23 1 0 1 0 3 5 5 
21 1 0 1 0 3 5 5 
16 1 0 2 0 3 4 3 
13 1 0 1 NA* 3 3 5 
89 4 0 2 0 3 4 4 
10 1 0 3 0 3 4 4 
32 2 0 2 0 2 4 3 
1 1 0 1 0 4 5 5 
3 1 0 1 1 5 5 4 
12 1 1 1 0 4 5 5 
53 3 0 1 1 5 5 5 
11 1 0 2 0 1 4 4 
47 3 0 2 0 3 4 4 
18 1 1 5 0 4 4 4 
74 4 0 2 0 4 4 5 
69 4 0 2 0 3 5 4 
51 3 1 2 0 4 4 4 
81 4 0 2 0 4 2 5 
26 2 1 1 1 2 5 5 
68 4 1 4 1 5 2 3 
 P1. Ano curricular que frequenta?, 1. 1º ano, 2. 2º ano, 3. 3º ano, 4. 4º ano. 
 P2. Sexo? 0. masculino, 1. feminino. 
 P3. Faixa etária?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. 41 - 50 anos. 
P7a. Domínio do idioma inglês para a leitura?; 1. sim, 0. não. 
P10B. Grau de satisfação em relação às bibliotecas central e setorial? 1. Sem opinião 2.Insatisfeito, 3. 
Regular, 4. Bom, 5. Excelente. 
P24. Seus professores demonstraram domínio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim, 
a maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. Não, nenhum 
deles. 
P27. Como você avalia a contribuição do Curso para sua formação? 5. Muito boa; 4. Boa; 3. Regular; 2. 
Fraca; 1. Muito Fraca. 
* NA: Não se aplica, não respondeu. 
• A pesquisa teve por objetivo obter informações do perfil do aluno e sobre o grau de satisfação em 
relação aos serviços educacionais oferecidos pela Instituição, Curso e administração acadêmica. O 
período de referência considerado foi o 1
o
 semestre de 2010. As entrevistas foram realizadas entre os 
dias 01, 02 e 03 de setembro de 2010. Foi utilizada uma amostragem aleatória estratificada dos alunos 
levando-se em consideração o período matriculado. A amostra final foi composta de 93 alunos. A 
Análise Exploratória de Dados 9
 
 
tabulação dos dados foi feita no software Excel. Para a elaboração dos gráficos e estatísticas 
descritivas, foram utilizados o Excel e o software R (R Development Core Team, 2010). 
 
 
2.1.1. VARIÁVEIS CATEGÓRICAS 
Podemos resumir os dados de variáveis categóricas em 
• tabelas de frequências 
e 
• gráficos: em colunas, linhas, histograma de frequências, diagrama de pontos e 
bastões; 
 
Suponha que os dados estão classificados em k categorias. Calculamos as frequências 
absolutas 45 e as frequências relativas 465 de cada categoria. 
 
465 = 45� = 4789:ê�<=> ?> <>@8AB7=> C�º @B@>E ?8 BFG87H>çõ8G , C = 1, 2, ⋯ , K (2.1) 
 
Categorias da variável � Frequência simples absoluta relativa 45 465 L� 4� 46� 
 L
 4
 46
 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ LN 4N 46N 
TOTAL � 1,0 
 
 
Geralmente os dados categóricos podem ser resumidos por uma tabela de frequências, como 
mostra a Tabela 2.2 , por gráficos em colunas, barras horizontais e em setores. 
 
Exemplo 2.1 - Considere uma amostra aleatória de 16939 fontes bibliográficas da biblioteca 
da Universidade de Illinois. Uma medida de desempenho utilizada na definição da qualidade 
da biblioteca é a taxa de cobertura estimada na Tabela 2.2 pela percentagem de itens 
possuídos na amostra. Os dados estão resumidos na Tabela 2.2 e Figuras 2.1 , 2.2 , 2.3 e 2.4. 
 
 TABELA 2.2 - Amostras de referências bibliográficas da Universidade de Illinois - 1990. 
Análise Exploratória de Dados 10
 
 
Tipo de Fonte No de títulos 
Tamanho da 
amostra 
Possuídos 
 frequência (fi) (%) 
Monografia 10514 1200 923 77 
Periódico 4268 1200 1046 87 
Tese 2157 1050 961 91 
TOTAL 16939 3450 2930 
 Fonte: Lancaster (1993) p.43, apud Oliveira (1991). 
 
 
Os dados da Tabela 2.2 podem ser representados graficamente, por exemplo, por gráficos em 
setores ou em colunas. Para construir o gráfico da Figura 2.1 usando uma calculadora a tabela 
seguinte pode ajudar. 
Tipo de Fonte 45 465 Graus 
Monografia 10514 0,6207 223,4512 
Periódico 4268 0,25196 90,70665 
Tese 2157 0,12734 45,84214 
TOTAL 2930 1 360 
 
 
 
 
 
 Figura 2.1 - Distribuição das referências bibliográficas Figura 2.2 - Distribuição das referências bibliográficas 
 da Universidade de Illinois - 1990. da Universidade de Illinois - 1990. 
 
 
 
 
Figura 2.3 - Estimativa da cobertura das referências Figura 2.4 - Amostras de referências bibliográficas 
bibliográficas da Universidade de Illinois -1990. da Universidade de Illinois - 1990. 
 
62%
25%
13%
Referências Bibliográficas
Monografia Periódico Tese 0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
Monografia Periódico Tese
70
75
80
85
90
95
Tese Periódico Monografia
(%)
0 500 1000 1500
Monografia
Periódico
Tese
Possuídos
Análise Exploratória de Dados 11
 
 
 
Exemplo 2.2 - (a) Gráficos em colunas para as variáveis P1: ano curricular e P10B: grau de 
satisfação em relação às bibliotecas central e setorial, respectivamente, apresentadas na 
Tabela 2.1. 
 
 
Figura 2.5 (a) - Ano curricular frequentado pelos alunos da graduação em matemática da UFMA numa amostra 
aleatória de tamanho 20 em setembro de 2010. 
 
 
 
Figura 2.5 (b) - Grau de satisfação em relação às bibliotecas central e setorial dos alunos da graduação em 
matemática da UFMA numa amostra aleatória de tamanho 20 em setembro de 2010. 
 
Um exemplo de gráfico em colunas agrupadas é dado pela Figura 2.5 (c) 
 
Análise Exploratória de Dados 12
 
 
 
Figura 2.5 (c) - Os dez clubes do NE com as maiores soma de pontos na Copa do Brasil, 
1989 - 2020. 
Fonte: https://cassiozirpoli.com.br/o-ranking-dos-nordestinos-na-copa-do-brasil-com-89- 
 clubes-de-1989-a-2020/ 
 
 
Exemplo 2.2 - (b) Exemplos de gráficos em barras horizontais que são apropriados quando 
temos muitas categorias são apresentados pelas Figura 2.6 (a) e 2.6 (b). 
 
 
 Figura 2.6 (a) - Receita de alguns times de futebol com publicidade no ano de 2015. 
 Fonte: http://esporte.uol.com.br/futebol/ultimas-noticias/2016/07/21/palmeiras-passa-corinthians-e-fica-em-2-em- 
 receita-publicitaria-fla-e-1.htm 
 
 
Análise Exploratória de Dados 13
 
 
 
Figura 2.6 (b) - Receitas comerciais dos clubes do Brasil no ano de 2019. 
Fonte: https://www.mg.superesportes.com.br/app/noticias/futebol/ 
futebol-nacional/2020/06/03/noticia_futebol_nacional,3849487/atletico-e-o-nono-e-cruzeiro-o-decimo-no- 
ranking-de-receitas-dos-clube.shtml 
 
 
 
 
2.1.2. VARIÁVEIS QUANTITATIVAS DISCRETAS 
Podemos resumir os dados em 
• tabelas; 
• gráficos: em colunas, linhas, histograma de frequências, diagrama de pontos e 
bastões; 
e 
• medidas descritivas, ver Seção 2.2. 
 
Para resumir os dados de uma variável quantitativa discreta numa tabela de 
frequências, calculamos as frequências relativas dadas por: 
 
 475 = 45� = 4789:ê�<=> ?8 :O H>EB7 P5 �º @B@>E ?8 BFG87H>çõ8G , C = 1, 2, ⋯ , K. (2.2) 
 
 
Exemplo 2.3 - Os dados a seguir representam o número diário � de livros de estatística 
retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015. 
 (1, 3, 1, 1, 0, 1, 0, 1, 1, 0, 2, 2, 0, 0, 0, 1, 2, 1, 2 , 0, 0, 1, 6, 4, 3, 3, 1, 2, 4, 0) 
Análise Exploratória de Dados 14
 
 
 
Na Tabela 2.3 temos as frequências relativas (distribuição de frequências) para cada 
valor observado P da variável � = número de livros retirados diariamente. 
 
 TABELA 2.3 - Distribuição de frequências do número de livros estatística 
 retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015. � = no de livros 45 475 
0 9 0,3000 
1 10 0,3333 
2 5 0,1667 
3 3 0,1000 
4 2 0,0667 
5 0 0,0000 
6 1 0,0333 
TOTAL 30 1,0000 
 
 
 A distribuição de frequências de uma variável discreta também pode ser representada 
por gráficos em colunas, bastões e gráficos de retângulos verticais (histogramas). 
 Nas Figura 2.7 e 2.8 temos, respectivamente, os gráficos em colunas e um histograma 
para a distribuição de frequências dada na Tabela 2.3. 
 
 
6543210
30
20
10
0
xi
fr (%)
 
 
Figura 2.7 - Gráfico em colunas da frequência Figura 2.8 - Histograma da distribuição de frequências 
relativa do número diário de livros de do número diário de livros de estatística retirados. 
estatística retirados. 
 
 
 
Diagrama de Pontos - Os diagramas de pontos ou dot-plots permitem a visualização rápida 
da concentração e dispersão dos dados. 
 
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0 1 2 3 4 5 6
número de livros retirados
frequência relativa
Análise Exploratória de Dados 15
 
 
Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de 
10 usuários numa biblioteca: 20, 6, 52, 4, 4, 6, 7, 8, 14, 18. 
 
 
 
 
 Figura 2.9 (a) - Tempo (em minutos) entre as chegadas de 10 usuários numa biblioteca. 
 
 
Na Figura 2.9 (b) temos uma reprodução obtida usando a linguagem R da Figura 2.9 (a). Os 
Códigos utilizados são: 
 
x=c(20, 6, 52, 4, 4, 6, 7, 8, 14, 18) 
stripchart(x, method = "stack", offset = 1.0, at = .10, pch = 20, 
 main = "", xlab = "",col = "blue") 
 
 
 Figura 2.9 (b) - Tempo (em minutos) entre as chegadas de 10 usuários numa 
 biblioteca. 
 
 
 
2.1.3. VARIÁVEIS QUANTITATIVAS CONTÍNUAS 
Podemos resumir os dados em 
• tabelas de frequências; 
• gráficos: histograma de frequências e diagrama de pontos e diagrama de caixa; 
e 
• medidas descritivas, ver Seção 2.2. 
 
Análise Exploratória de Dados 16
 
 
Os histogramas, os diagramas de pontos ("dot-plots") e os diagramas de caixa ("box-
plots") são gráficos que fornecem informações sobre a centralidade dos dados, variabilidade e 
sobre a forma de sua distribuição de frequências. 
 
 
Diagrama em caixa ou Box-plot - Representação gráfica de cinco medidas amostrais: 
mínimo, 1º quartil, mediana, 3º quartil e máximo de uma variável X. Essas medidas estão 
apresentadas na Seção 2.2. Na Figura 2.10, temos uma representação esquemática de um "box 
plot". 
 
 
 Figura 2.10 - Exemplo de um "box-plot" e algumas de suas características. 
 Fonte: adaptado de Bussab & Morettin (2009). 
 
Observar que Q= = Q1 − S
 (Q3 − Q1) e QG = T3 + 3/2(T3 − T1), Q= = último ponto 
inferior e QG = último ponto superior. Q1 e Q3 representam o 1º quartil e o 3º quartil, 
respectivamente. O ponto * representa um ponto extremo da variável �. 
 
 
Exemplo 2.4 (b) - Considere os dados observados de 15 estudantes nas variáveis � e 3 notas 
em duas provas de Estatística. � = 5, 8, 9, 9, 9, 8, 9, 6, 5, 10, 9, 7, 8, 10, 6 3 = 2, 4, 6, 8, 9, 8, 7, 7, 6, 7, 8, 7, 7, 8, 7 
Análise Exploratória de Dados 17
 
 
 
Na Figura 2.11 temos uma representação gráfica para os dados observados das variáveis � e 3. 
 
 Figura 2.11 - "Box-plots" para os dados observados das variáveis � e 3 do Exemplo 2.4 (b). 
 
## Códigos em R para os dados do Exemplo 2.4 (b) 
## Códigos em R para os dados do Exemplo 2.4 (b) 
x = c(5, 8, 9, 9, 9, 8, 9, 6, 5, 10, 9, 7, 8, 10, 6) 
y = c(2, 4, 6, 8, 9, 8, 7, 7, 6, 7, 8, 7, 7, 8, 7) 
scores = data.frame(x,y) 
boxplot(scores,col = "red") 
 
 
Histogramas de frequências - São apropriados quando o tamanho da amostra é grande. 
 Para construir os histogramas podemos utilizar uma tabela de distribuição de 
frequências. 
 
 
DISTRIBUIÇÃO DE FREQUÊNCIAS DE VARIÁVEIS CONTÍNUAS 
 Em geral, na construção de uma distribuição de frequências consideram-se intervalos 
de classes de comprimentos iguais (Wand, 1997). Um procedimento muito utilizado é o 
seguinte. 
 
Análise Exploratória de Dados 18
 
 
(i) Achar o mínimo e o máximo dos dados e determinar o número de classes (k), 
pela regra de Sturges (Sturges, 1926; Hyndman, 1995), 
 
nk 10log322,31+≅ . 
Observar que, 
n
n
nk 102 log322,312log
log
1log1 +≅+=+= . 
(ii) Escolher intervalos de classes de comprimento c iguais que incluam o mínimo 
e o máximo da amostra: 
k
xx
c minmax
−
= . 
(iii) Contar o número de observações que pertencem a cada intervalo de classe. 
Esses números 4�, 4
, … , 4N são as frequências das classes 1, 2, . . . , K, 
respectivamente. 
(iv) Calcular as frequências relativas (475) da j-ésima classe: 
 
475 = 45� = 4789:ê�<=> BFG8H>?>�> <E>GG8 C �º @B@>E ?8 BFG87H>çõ8G , C = 1, 2, ⋯ , K. (2.3) 
 
Uma tabela de frequências para os dados observados de uma variável X pode ser apresentada 
na seguinte forma: 
 
X 
Frequência simples Frequência acumulada 
absoluta relativa absoluta relativa 45 465 V5 V65 
[EW, E�) 4� 46� V� V6� 
[E�, E
) 4
 46
 V
 V6
 ⋮ ⋮ ⋮ ⋮ ⋮ 
[ENX�, EN) 4N 46N � 1 
Total n 1 
 
sendo que, 475 = YZ� , C = 1,2, ⋯ , K; V5 = 4� + 4
 + ⋯ + 45; V75 = [Z� , C = 1,2, ⋯ , K; 
ou V75 = 47� + 47
 + ⋯ + 475. 
Análise Exploratória de Dados 19
 
 
Observar que: [EW, E�) = EW ≤ P\ < E�. 
 
 
 
HISTOGRAMAS 
Histograma é uma representação gráfica por retângulos de uma distribuição de 
frequências. A base de cada retângulo é proporcional ao comprimento do intervalo de classe e 
a área de cada retângulo proporcional à respectiva frequência. Note que, a área total de um 
histograma pode ser igual a 1. Para isso, é necessário impor que as frequências relativas sejam 
iguais as áreas dos retângulos, 475 = < × ℎ. Temos então, 
 
kj
c
fr
h
j ,,1 , L== , (2.4) 
 
sendo que, 475 = frequência relativa da classe C = 1, ⋯ , K e < = largura do intervalo de 
classe. 
 
 Com as alturas calculadas pela expressão (2.4), a soma das áreas dos retângulos é igual 1. Por isso, quando o tamanho � da amostra for grande, podemos usar áreas sobre o 
histograma para estimar probabilidades sobre a variável de interesse. 
Observe que, marcar no eixo das ordenadas os valores 45 ou 475 leva a obtenção de 
histogramas com a mesma forma; somente as áreas é que são diferentes. 
 
Exemplo 2. 5 - Os dados a seguir representam o tempo 2 (em horas) da duração até falhar de 
60 peças fabricadas por uma máquina. 15.1, 16.4, 33.6, 36.5, 40.3, 45.4, 45.5, 47.3, 53.8, 57.7, 59.2, 62.8, 63.2, 64.7, 67.5, 72.7, 78.5,80.1, 81.1, 81.6, 86.7, 89.3, 93.0, 93.7, 97.6, 100.8, 104.0, 105.1, 106.0, 118.3, 132.9, 133.4, 137.9, 138.0, 163.3, 176.9, 182.7, 183.1, 184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9 
 
 
 Estes dados estão resumidos na Tabela 2.4 e na Figura 2.12. 
 
 
 
 
 
Análise Exploratória de Dados 20
 
 
 TABELA 2.4 - Distribuições de frequências do tempo (em horas) da duração até 
 falhar de 60 peças fabricadas por uma máquina. 2 = tempo de vida 45 465 V5 V65 @5 (*) 
[0 , 40) 4 0,0667 4 0,067 20 
[40 , 80) 13 0,2167 17 0,283 60 
[80 , 120) 13 0,2167 30 0,500 100 
[120 , 160) 4 0,0667 34 0,567 140 
[160 , 200) 5 0,0833 39 0,650 180 
[200 , 240) 2 0,0333 41 0,683 220 
[240 , 280) 19 0,3167 60 1,000 260 
TOTAL 60 1,0000 
 (*) o ponto médio do j-ésimo intervalo de classe C = 1, … , K da variável 2. 
 
 
 
 Figura 2.12 - Histograma do tempo (em horas) da duração até falhar de 60 peças fabricadas por uma 
máquina e histograma alisado, área = 1. 
 
 
 
2.2. Medidas Descritivas 
 As medidas descritivas são usadas para sumarizar informações de um conjunto de 
dados. Elas podem ser classificadas como medidas de tendência central, posição, assimetria, 
curtose e variabilidade. 
 
Análise Exploratória de Dados 21
 
 
 
2.2.2. Medidas de Tendência Central e de Posição 
 
 
Definição 2.1. MÉDIA AMOSTRAL (P̅) - A média amostral P de uma variável quantitativa 
X baseada na amostra (P�, P
, ⋯ , P�) de tamanho n é dada por 
 
P̅ = ∑ P\�\a�� . (2.5) 
 
Note que, ∑ P\�\a� = P� + P
 + ⋯ + P� = P + P + ⋯ + P = �P. Isto implica que pelo menos 
um dos P�, P
, ⋯ , P� é maior ou igual a P. Com efeito, suponha por absurdo que, P� < P,P
 < P, ⋯ , P� < P . Então, deveríamos ter 
 P� + P
 + ⋯ + P� < �P, �� (P� + P
 + ⋯ + P�) < P , P < P, o que é uma contradição. ∎ 
 
 
A média amostral para os dados do Exemplo 2.4 (a) é dada por: 
 P = (4 + 4 + 6 + 6 + 7 + 8 + 14 + 18 + 20 + 52)/10 = 13,9 minutos . 
 
 Se a amostra observada (P�, P
, ⋯ , P�) for agrupada em k classes ou categorias com 
frequências 45 , C = 1, 2, ⋯ , K. Então, média amostral é dada por: 
 
P̅ = ∑ P545N5a�∑ 45N5a� , (2.6) 
 
sendo que P5 é o ponto médio da classe j e ∑ 45N5a� = �. 
Para estimar a média populacional ( µ ) de uma variável X utilizamos a média amostral P. 
 
 
Análise Exploratória de Dados 22
 
 
Definição 2.2. MEDIANA AMOSTRAL (Md) - Seja (P�, P
, ⋯ , P�) a amostra observada e 
seja (P(�), P(
), ⋯ , P(�)) a amostra ordenada de uma variável quantitativa �. A mediana amostral jk(�) é o valor central se n é impar ou, se n é par é a média dos valores centrais. 
 
jk(�) = lPmnopq r , se n é ímpar .Pmnqr + Pmnqs�r 2 , se n é par . t 
 
Exemplo. (a) n é ímpar. A mediana da amostra: (3, 2, 12, 8, 1, 5, 9) da variável � é 5. Note 
que este é o valor central da amostra ordenada (1, 2, 3, 5, 8, 9, 12). 
 (b) n é par. Para calcular a mediana da amostra (2, 3, 2, 8, 215, 10) devemos 
considerar a amostra ordenada (2, 2, 3, 8, 10, 215). Note que � = 6, então a mediana é dada 
pela média dos dois valores centrais, 
jk(�) = Pmnqr + Pmnqs�r 2 = Pmuqr + Pmuqs�r 2 = P(S) + P(v) 2 = 3 + 8 2 = 5,5. 
A média amostral é dada por (2 + ⋯ + 215)/6 = 40. Além disso, a observação 215 é muito 
discrepante, causando um aumento considerável na média amostral. 
 
 
Definição 2.3. MODA AMOSTRAL (Mo) - A moda amostral Mo é o valor (ou valores) da 
amostra (P�, P
, ⋯ , P�) com maior frequência. 
 
Exemplo 2.6 (a) - Seja (3, 3, 2, 3, 8, 7, 7, 9, 13, 5) uma amostra de tamanho 10 de uma 
variável � representando o tempo em minutos de clientes esperando atendimento numa fila de 
um supermercado � . Então, jB(�) = 3 O=�. Significa que o valor 3 possui a maior 
frequência observada (45). 
 
Exemplo 2.6 (b) - Seja (2, 1, 0, 5, 1, 5, 3, 2, 13, 8, 2, 4, 3, 4, 2, 9, 1, 3, 2, 2, 1, 13,4, 3, 4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4, 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) uma 
amostra de tamanho 50 de uma variável Y representando o tempo em minutos de clientes 
esperando atendimento numa fila de um supermercado B. Note que, Mo(Y) = 2 min. Outras 
estatísticas amostrais e um histograma representado pela Figura 2.13 foram obtidos com os 
seguintes códigos em linguagem R. 
 
Análise Exploratória de Dados 23
 
 
### Códigos em R para o Exemplo 2.6 (b) 
> rm(list=ls(all=TRUE)) # remove todas as variáveis 
> y=c(2, 1, 0, 5, 1, 5, 3, 2, 13, 8, 2, 4, 3, 4, 2, 9, 1, 3, 
+ 2, 2, 1, 13, 4, 3, 4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4, 
+ 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) ## dados do ex. 2.6b 
> summary(y) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 0.0 2.0 3.0 4.1 5.0 13.0 
> library(fBasics) ## carregar pacote 
> basicStats(y, ci=0.95) 
 y 
nobs 50.000000 
NAs 0.000000 
Minimum 0.000000 
Maximum 13.000000 
1. Quartile 2.000000 
3. Quartile 5.000000 
Mean 4.100000 
Median 3.000000 
Sum 205.000000 
SE Mean 0.451980 
LCL Mean 3.191713 
UCL Mean 5.008287 
Variance 10.214286 
Stdev 3.195980 
Skewness 1.252763 
Kurtosis 0.952214 
> hist(y, main="", xlab="tempo de espera na fila (min)", 
+ col="lightblue", ylab="número de clientes") 
 
 
 Figura 2.13 - Histograma para amostra observada da variável Y do Exemplo 2.6 (b). 
 
Análise Exploratória de Dados 24
 
 
Outras medidas apresentadas no Exemplo 2.6 (b) serão definidas a seguir. 
 
Definição 2.4. QUANTIL OU PERCENTIL (xp) - O quantil ou percentil de uma amostra (P�, P
, ⋯ , P�) de tamanho n de uma variável quantitativa � é um valor Pw tal que 
 
V6({� ≤ Pw}) = �úO87B ?8 BFG87H>çõ8G ≤ Pw� = � ∙ (2.7) 
 
Note que V6({� ≤ Pw}) é a frequênciarelativa acumulada do evento {� ≤ Pw}. Por exemplo, 
No Exemplo 2.6 (b) podemos estimar a percentagem de usuários que esperam menos que 10 
minutos para serem atendidos, isto é: 
 V6(� ≤ 10) = � . (2.8) 
 
Neste caso, podemos verificar, de acordo com o código em R 
"length(y[y<10])/length(y)" que p = 0.92. 
 
Graficamente, a percentagem de usuários que esperam entre a e b minutos é dada pela área 
sombreada no histograma alisado da Figura 2.14 
 
 
 Figura 2.14 - )( bXaFr ≤≤ . 
 
 Note que, 
 
)()()( aXFbXFbXaF rrr ≤−≤=≤≤ , 
 
sendo que, 
rF é a frequência relativa acumulada. 
 
Análise Exploratória de Dados 25
 
 
Nem sempre, as medidas de tendência central, a média por ex., fornecem informações 
suficientes sobre o comportamento de uma variável X. Outras medidas podem se fazer 
necessárias, como, as medidas de dispersão dessa variável. 
 
2.2.3. Medidas de Dispersão 
 Além das medidas de centralidade e de posição, é importante obter informações sobre 
a dispersão ou variabilidade dos dados. Suponha que os salários dos empregados de uma 
empresa estejam concentrados em dois grupos: grupo 1 com salários em torno de 10000 reais 
e grupo 2 com salários em torno de 800 reais. Não seria suficiente informar que a média de 
salários da empresa é de aproximadamente 5000 reais. Este caso ilustra a importância das 
medidas de dispersão para melhorar a comparação entre duas ou mais variáveis. 
Apresentamos nesta seção as medidas de dispersão mais utilizadas: variância, desvio-padrão e 
o coeficiente de variação. Estas medidas são ainda definidas sob o uso de dados agrupados em 
subintervalos de classes. 
 
 
Definição 2.5. DESVIO (di) - Considere uma amostra observada (P�, P
, ⋯ , P�) de tamanho n 
de uma variável � . Então, o i-ésimo desvio ?\ em relação à média amostral x é dado por: 
 ?\ = P\ − P̅, (2.9) 
 em que, = = 1, 2, . . . , �. 
 Podemos mostrar que 0)(
11
=−=∑∑
==
n
i
i
n
i
i xxd . 
 
Definição 2.6. VARIÂNCIA AMOSTRAL ({
) - Considere uma amostra observada de 
tamanho n (P�, P
, ⋯ , P�) de uma variável X. Um estimador da variância populacional 2σ é a 
variância amostral {
, definida por 
{
 = 1� − 1 |(P\ − P̅)
�\a� (2.10) 
Outro estimador comumente utilizado para estimar 2σ é dado por 
 
}~
 = 1� |(P\ − P̅)
�\a� . 
Análise Exploratória de Dados 26
 
 
 
Estimaremos 2σ por {
 , a menos em situações especificadas. 
 
Definição 2.7. DESVIO PADRÃO AMOSTRAL ({) - Considere uma amostra observada (P�, P
, ⋯ , P�) de tamanho � de uma variável �. Um estimador do desvio padrão 
populacional } é o desvio padrão amostral {, definido por 
 
{ = � 1� − 1 |(P\ − P̅)
�\a� . (2.11) 
 
Podemos observar que o desvio padrão amostral { é definido como a raiz quadrada da 
variância amostral {
. 
Outro estimador comumente utilizado para estimar } é dado por 
 
}~ = �1� |(P\ − P̅)
�\a� . 
 
Estimaremos o desvio padrão populacional } pelo estimador { . 
 
 É importante ressaltar que o desvio padrão é uma medida de dispersão que está na 
mesma escala dos dados. 
 
Definição 2.8. COEFICIENTE DE VARIAÇÃO AMOSTRAL (L�) - O coeficiente de 
variação amostral L� é uma medida de dispersão adimensional definida como o quociente do 
desvio padrão amostral pela média amostral: 
 
L� = {�P̅ . (2.12) 
 
Estimaremos o coeficiente de variação populacional, � = } �⁄ , por �~ = L�, de acordo com a 
equação (2.12). 
 
Análise Exploratória de Dados 27
 
 
 As equações (2.10), (2.11) e (2.12) podem ser facilmente adaptadas para dados 
agrupados. Se os dados estão agrupados em k classes ou categorias, com frequências 
kjf j ,,1, L= , a variância amostral é dada por: 
{
 = 1� − 1 |(P5 − P̅)
N5a� 45 , 
em que, x é definida pela equação (2.6). 
 
 
Exemplo 2.7 - Considere uma amostra aleatória (a.a.) de tamanho 21 do tempo de espera � 
(em minutos) até o atendimento � de usuários numa fila de uma biblioteca: � = (2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17.0, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16.0, 15.0, 1.4, 1.3, 19.0). 
 
A amostra ordenada de � é dada por: 
 (1.2, 1.3, 1.4, 1.4, 1.5, 1.7, 1.8, 2.0, 2.4, 2.4, 2.8, 3.0, 3.1, 3.5, 4.8, 5.0, 8.0, 15.0, 16.0, 17.0, 19.0). 
 
Algumas estatísticas para os dados da Tabela 2.5 calculadas no software R são dadas por 
 
 
21
21
1∑ == i i
x
x = 5.4428 min. , mediana = 2.8 min. 
 {�
 = �
�X� ∑ (P\ − P̅)
�\a� = 34.5286 min2 , {� = 5.8751 min. 
 
 
 TABELA 2.5 - Percentis do tempo de espera na fila (em minutos). 
Percentil xp 0 5 10 25 50 75 90 95 100 
1.2 1.3 1.4 1.7 (1o quartil) 2.8 (mediana) 5.0 (3o quartil) 16.0 17.0 19.0 
 
Então, o valor x para o qual 90% dos valores amostrais são menores ou iguais a P é 16.0. Observe que pela definição de percentis, 
Análise Exploratória de Dados 28
 
 
 V6(� < 16.0) = 90% , 
 
sendo que, V6 é chamada de frequência relativa acumulada do tempo de espera. 
 
 A Figura 2.15 apresenta um histograma da variável X. 
 
 FIGURA 2.15 - Histograma do tempo de espera na fila de 21 usuários de uma biblioteca. 
 
 
## Códigos em R para os dados do Exemplo 2.7 
rm(list=ls(all=TRUE)) # remove todas as variaveis 
x=c(2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 
16, 15, 1.4, 1.3, 19) 
ordx= sort(x) # dados ordenados 
summary(x) # resumo dos dados 
xbar= mean(x) # média de X 
var(x) # variância de X 
sd(x) # desvio padrão de X 
n=length(x) # tamanho da amostra 
q=c(0, 0.05, 0.10, 0.25, 0.50, 0.75, 0.90, 0.95, 1) # para definir percentis de 
interesse 
quantile(x, q) 
Md=median(x) # mediana de X 
hj=c(0,4,8,12,16,20) # vetor de limites de classes 
hist(x, breaks=hj, xlim = range(hj), ylim = c(0,0.20) , main="", xlab="tempo de 
espera na fila (min)", 
ylab="densidade", col="blue", probability=T) 
######## 
 
Análise Exploratória de Dados 29
 
 
2.2.4. Medidas de Assimetria 
 
Definição 2.9. COEFICIENTE DE ASSIMETRIA DE PEARSON (��) - O coeficiente de 
assimetria de Pearson mede o grau de assimetria da distribuição de frequência em relação à 
uma distribuição de frequência simétrica, é definido como: 
,
X
o
X
S
Mx
A
−
= 
sendo que, j� , P � e {� representam, a moda, a média e o desvio-padrão amostrais da 
variável � , respectivamente. 
 Se �� = 0, a distribuição é simétrica. 
 Se �� > 0, a distribuição é assimétrica à direita. 
 Se �� < 0, a distribuição é assimétrica à esquerda. 
 
Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As 
Figuras 2.16 e 2.17 mostram posições relativas entre a média moda e mediana, e alguns tipos 
de histogramas, respectivamente. 
 
 FIGURA 2.16 - Posições relativas entre a média, mediana e moda numa população. Fonte: DOANE & 
 SEWARD (2011). 
Análise Exploratória de Dados 30
 
 
 
 FIGURA 2.17 - Alguns histogramas com características importantes . Fonte: DOANE & SEWARD (2011). 
 
 
2.4. Função de Distribuição Empírica 
 
DEFINIÇÃO: Sejam (P�, P
, ⋯ , P�) uma amostra observada de tamanho � de uma variável 
quantitativa e P um número real qualquer. A de função de distribuição empírica (Fde), 
indicada por V�(P) é dada por 
V�(P) = �(P)� , 
 
sendo que, �(P) representa o número de observações menores ou iguais a P. 
 A Figura 2.18 representa a Fde da variável � do Exemplo 2.6 (b). 
Análise Exploratória de Dados 31
 
 
 
 FIGURA 2.18 - Função de distribuição empírica da variável � do Exemplo 2.6 (b). 
 
 
O código em R plot(ecdf(x),col='red',do.points=T, verticals=F, main="") foi utilizado 
para construir a Figura 2.18. 
 
 
 
 
 
 
 
 
 
Análise Exploratória de Dados 32
 
 
3. Dados Bivariados 
 Suponha que temos duas medidas x e y associadas com cada unidade amostral. Um 
dos interesses é descobrir possíveis relações existentes entre as variáveis X e Y. Podemos, por 
exemplo verificar a relação existente entre renda e nível de escolaridade ou entre a nota obtida 
em um teste e o tempo de estudo. 
 
 
3.1. VARIÁVEIS QUALITATIVAS BIVARIADAS 
 Podemos construir tabelas de frequência com dupla entrada. Essas tabelas de dados 
com classificação cruzada, como mostram os Exemplos 3.1 - 3.3, são conhecidas por tabelas 
de contingência. 
 
Exemplo 3.1. Suponha que uma pesquisa de opinião foi conduzida entre 400 operários de 
uma indústria metalúrgica. Cada operário foi consultado a respeito de uma possível greve a 
ser realizada pelos operários da indústria. Cada operário apresentou a sua opinião (sim, 
indiferente ou não) e também informou se pertence ou não ao sindicato local (ver Tabela 
3.1). Portanto, as variáveis de interesse neste caso são X = opinião e Y = situação sindical. 
 
 TABELA 3.1 - Pesquisa de Opinião. 
Y 
X 
Sim Indiferente Não TOTAL 
Sindicalizado 112 36 28 176 
Não sindicalizado 84 68 72 224 
TOTAL 196 104 100 400 
 
 Para verificarmos possíveis relações entre as duas variáveis categóricas X e Y podemos 
construir uma tabela equivalente a Tabela 3.1 com as frequências relativas de cada categoria, 
ver Tabela 3.2: 
 
 TABELA 3.2 - Frequências relativas. 
Y 
X 
Sim Indiferente Não TOTAL 
Sindicalizado 0,28 0,09 0,07 0,44 
Não sindicalizado 0,21 0,17 0,18 0,56 
TOTAL 0,49 0,26 0,25 1,00 
 
Análise Exploratória de Dados 33
 
 
 Outra possibilidade seria, com a finalidade de comparar os dois grupos de pessoas 
(176 sindicalizados e 224 não sindicalizados), verificar se as proporções em cada categoria 
são iguais ou não. Para isso, podemos construir uma tabela de frequências relativas em 
relação aos totais marginais considerando dois grupos de 176 e 224 indivíduos, ver Tabela 
3.3: 
 
 TABELA 3.3 - Frequências relativas em relação aos totais marginais. 
Y 
X 
Sim Indiferente Não TOTAL 
Sindicalizado 0,636 0,205 0,159 1,000 
Não 
sindicalizado 
0,375 0,304 0,321 1,000 
 
 Note que na Tabela 3.3 a frequência relativa dos operários favoráveis à greve 
pertencentes ao sindicato é dada por: 112/176 = 0,636. 
 
 
3.2. VARIÁVEIS QUANTITATIVAS BIVARIADAS 
 Suponha que temos duas variáveis contínuas x e y medidas para cada unidade 
amostral. Representaremos esse dados por n pares (x1 , y1) , ... , (xn , yn). 
 Podemos formular as seguintes questões: 
(i) As variáveis são relacionadas? 
(ii) Qual é a forma de relacionamento entre as duas variáveis? 
(iii) Como podemos medir esta relação? 
(iv) Como podemos prever uma variável a partir do conhecimento da outra variável? 
 
 Uma verificação visual do relacionamento entre as duas variáveis � e 3 pode ser dada 
a partir de um gráfico dos valores xi versus yi, , i = 1, ...,n. Este gráfico é chamado de 
diagrama de dispersão e sua construção consiste na representação no plano cartesiano dos 
pares (x1 , y1) , ... , (xn , yn). Na Figura 3.1 temos um exemplo de um diagrama de dispersão. 
 
Exemplo 3.2 – Os pares de medidas abaixo representam a temperatura (�) e a potência (3) de 15 motores de mesmo tipo submetidos a um teste de laboratório numa fábrica de automóveis. 
 � 19, 15, 35, 52, 35, 33, 30, 57, 49, 26, 45, 39, 25, 40, 40 3 1.2, 1.5, 1.5, 3.3, 2.5, 2.1, 2.5 ,3.2, 2.8, 1.5, 2.2, 2.2, 1.9, 1.8, 2.8 
 
Análise Exploratória de Dados 34
 
 
 O gráfico dos valores observados de X versus Y é dado na Figura 3.1. 
 
 Figura 3.1 - Diagrama de dispersão da Temperatura e potência de 15 motores elétricos. 
 
 
Com base na Figura 3.1 podemos observar uma possível relação linear entre X e Y . 
 
 
 
COEFICIENTE DE CORRELAÇÃO AMOSTRAL 
 O coeficiente de correlação amostral 7 é uma medida da relação linear entre duas 
variáveis X e Y, definida por: 
 
 
YX
n
i
ii
SSn
yyxx
r
)1(
))((
1
−
−−
=
∑
=
, (3.1) 
 
em que, 11 ≤≤ r- e XS e YS são os desvios padrões das variáveis X e de Y, respectivamente. 
 O coeficiente de correlação amostral 7 pode ser escrito usando a covariância amostral
),cov( yx entre as variáveis X e Y, definida por 
 
1
))((
),cov( 1
−
−−
=
∑
=
n
yyxx
yx
n
i
ii
. 
 
 
Análise Exploratória de Dados 35
 
 
 As Figuras 3.2a e 3.2b apresentam exemplos de diagramas de dispersão sugerindo 
diferentes relações entre as variáveis X e Y e o valor do coeficiente de correlação 7. 
 
(a) (b) 
 
(c) (d) 
 
 FIGURA 3.2a - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y. 
 
 
 
(e) (f) 
 
 FIGURA 3.2b - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y. 
 
 
 
Na interpretação dos valores de r temos: 
432
5
4
3
x
y
r = 0,9
2 3 4
3
4
5
x
y
r = -0,9
2 3 4
3
4
5
x
y
r = 0,5
432
5
4
3
x
y
r = - 0,5
2 3 4
3
4
5
x
y
r = 0
432
5
4
3
x
y
r = 0
Análise Exploratória de Dados 36
 
 
(i) r indica o grau de relação linear, enquanto o seu sinal indica a direção da relação 
linear. 
(ii) Se r = 1, todos os pontos (x , y) estão na reta com inclinação positiva. 
(iii) Se r = -1, todos os pontos (x , y) estão na reta com inclinação negativa. 
(iv) Se 0 ≅r não temos relação linear entre X e Y, mas podemos ter outro tipo de relação 
não-linear, ver Figura 3.2b (f). 
 
 
Quando os pontos estão agrupados em dois blocos, o coeficiente de correlação r não é 
adequado para sugerir uma relação linear entre as variáveis (X, Y), ver Figura 3.3. 
 
 
Figura 3.3 - Pares (x , y) agrupados em dois blocos. 
 
 
 
 
3.3. REGRESSÃO LINEAR SIMPLES 
 O estudo experimental entre duas variáveis é frequentemente motivado pela 
necessidade de achar o valor de previsão de uma variável a partir do valor da outra variável. 
Por exemplo, considere as seguintes situações: 
(i) Duração de um treinamento e o grau obtido por um aluno. 
(ii) Taxa de desemprego e taxa de criminalidade. 
(iii) Expectativa de vida e taxa de analfabetismo. 
 
432
5
4
3
x
y
Análise Exploratória de Dados 37
 
 
Seja X a variável preditora ou independente e seja Y a variável resposta ou 
dependente. Para determinar uma possível relação linear entre as variáveis X e Y, seguimos o 
seguinte procedimento: 
(i) Fazer um diagrama de dispersão dos pontos (x , y). 
(ii) Se existir aproximadamente uma relação linear entre X e Y, podemos avaliar esta 
linearidade calculando o coeficiente de correlação amostral r. 
(iii) Determinar a reta que melhor se aproxima dos pontos observados. 
Considere que a reta que se propõe ajustar seja dada por 
 
 � = �W + ��P + �. (3.2) 
 
Para o ajuste do modelo linear (3.2) usaremos o método de mínimos quadrados (MMQ). 
Considere os dados observados (P\, �\), �\ = �W + ��P\ + �\ = = 1, ⋯ , �, em que 
yi = i-ésima observação da variável dependente; 
 xi = i-ésima observação da variável independente; 
 �W, �� = parâmetros de regressão, nomeados de intercepto e coeficiente 
angular, respectivamente; �\ = �\ − ��1 i-ésimo valor do erro aleatório ou resíduo do modelo de 
regressão. 
 
O método MMQ consiste em determinar os valores de �W e �� para os quais 
 
{(�W, ��) = | �\
�\a� = | (�\ − (�W + ��P\))
�\a� (3.3) 
 
é mínima. Para fazer isso, é preciso resolver o sistema de equações envolvendo as derivadas 
de {(�W, ��), cuja solução pode ser vista em Bussab & Morettin (2009). 
 Considerando n observações bivariadas (P�,��), (P
, �
), ⋯ , (P�, ��), a equação 
ajustada por mínimos quadrados é dada por: 
 xy 10
ˆˆˆ ββ += (3.4) 
em que, o coeficiente angular 1β̂ e o intercepto 0β̂ são dados respectivamente pelas equações 
 
Análise Exploratória de Dados 38
 
 
 
∑
∑
=
=
−
−−
=
n
i
i
n
i
ii
xx
yyxx
1
2
1
1
)(
))((
β̂ (3.5) 
e 
 xy 10
ˆˆ ββ −= . (3.6) 
 
Exemplo 3.3 - Nota de uma prova em Estatística e tempo de estudo em horas de 5 alunos 
escolhidos aleatoriamente. 
 As variáveis são: 
• � = tempo de estudo (em horas); 
• 3 = nota da prova. 
Considere os pares de observações (P\ , �\): 
 
Tempo (P\) 3.0, 7.0, 2.0, 1.5, 12.0 
Nota (�\) 4.5, 6.5, 3.7, 4.0, 9.3 
 
Um resumo dos dados está apresentado na seguinte tabela: 
 A B C D E = CD L
 G B - G 
i P\ �\ P\ − P̅ �\ − �0 �~\ 8\ = �\ − �~\ 8G\ 
1 3 4.5 -2.1 -1.1 2.31 4.4 0.1 0.03 
2 7 6.5 1.9 
3 2 3.7 -3.1 
4 1,5 4.0 2.6 
5 12 9.3 6.9 
| 25.5 0 0 
 
Note que P̅ = ∑ ��n��p� = 
�,�� = 5,1 horas, �0 = 5.6 e de acordo com as equações (3.5 ) e (3.6) ��W = 2,9 e ��� = 0,5. 
 
A Figura 3.4 apresenta o diagrama de dispersão e a reta de regressão ajustada. 
 
 
Análise Exploratória de Dados 39
 
 
 
 Figura 3.4 - Gráfico da reta ajustada do Exemplo 3.3. 
 
O coeficiente de correlação, de acordo com a expressão (3.1) é dado por 
 7 = )7
 = √0.992 = 0.996. 
 
A partir da reta ajustada �~ = 2,9 + 0,5P, ver Figura 3.4, podemos achar valores de 
previsão de � a partir de valores atribuídos a P. Por exemplo, a previsão de � para P = 8 é 
dada por �~(8) = 2,9 + 0,5 × 8 = 6,9. Isto é, uma previsão da nota obtida para um aluno que 
estuda 8 horas é �~ = 6,9. 
 Para determinar o acréscimo na nota 3 quando se aumenta o tempo de estudo em uma 
unidade, basta fazer � = 2,9 + 0,5(P + 1). Note que, � = 2.9 + 0,5P + 0,5. Significa que 3 aumenta em ��� = 0,5. 
 
 
 
 
Análise de Resíduos (8\ = �\ − �~\) 
 
 Para verificar a adequação do ajuste podemos construir os gráficos: resíduos versus 
variável independente � , resíduos versus valor ajustado �~ e resíduos padronizados versus 
valor ajustado �.1 
Análise Exploratória de Dados 40
 
 
 Se os pontos estiverem aleatoriamente distribuídos em torno de zero, temos uma 
indicação de que o modelo está bem ajustado. Resíduos padronizados ( sie ) fora do intervalo 
]2,2[− são denominados pontos aberrantes. 
 
ni
e
e
e
ei
si , ,2 ,1, K=
−
=
σ
µ
. 
 
 Figura 3.5 - Gráfico dos resíduos ei versus valores ajustados iŷ . 
 
 
 
 
Análise gráfica dos resíduos padronizados: 
Observe que os pontos ie na Figura 3.5 estão aleatoriamente distribuídos em torno de 
zero, indicando adequação do modelo linear ajustado. 
Análise Exploratória de Dados 41
 
 
 
 Figura 3.6 - Gráfico dos resíduos sie versus valores ajustados iŷ . 
 
 
Observe que os pontos sie na Figura 3.6 estão aleatoriamente distribuídos em torno de 
zero. Não há um ou mais pontos fora do intervalo [-2, 2]. Isto sugere que o modelo linear 
ajustado pode ser utilizado para explicar a nota do aluno (Y) pelo o tempo de estudo (X). 
Entretanto o tamanho da amostra n = 5 é pequeno para se tomar qualquer conclusão segura. 
 
## Códigos em R para os dados do Exemplo 3.3. 
 
rm(list=ls(all=TRUE)) # remove todas as variaveis 
x=c(3,7,2,1.5,12) # para criar o vetor x 
y=c(4.5,6.5,3.7,4,9.3) # para criar o vetor y 
n=length(x) # comprimento do vetor x , n=5 
reg=lm(y ~ x); reg # regressao linear 
## diagrama de dispersão e reta ajustada 
plot(x,y) 
abline(reg) 
## 
X <- model.matrix(reg) 
n <- nrow(X) 
p <- ncol(X) 
H <- X%*%solve(t(X)%*%X)%*%t(X) ## ajuste solve(t(X)%*%X)%*%t(X)%*%y 
h <- diag(H) 
lms <- summary(reg) 
s <- lms$sigma 
r <- resid(lms) 
ts <- r/(s*sqrt(1-h)) 
si <- lm.influence(reg)$sigma 
tsi <- r/(si*sqrt(1-h)) 
a <- max(tsi) 
b <- min(tsi) 
# 
## diagrama de dispersão e reta ajustada 
plot(x,y,xlab="tempo de estudo", ylab="nota",pch=16) 
Análise Exploratória de Dados 42
 
 
abline(reg, col='red') 
# Gráfico dos resíduos 
plot(fitted(reg),r,xlab="Valores Ajustados", 
ylab="Residuos", ylim=c(-0.3,0.3), pch=16) 
# 
# ## Resíduos padronizados 
pred<-predict(reg) # valores estimados 
ei=y-pred # resíduos 
esi= (ei-mean(ei))/sd(ei) # resíduos padronizados 
plot(pred,esi, ylim=c(-3,3),pch=16,xlab="valores ajustados",ylab="resíduos 
padronizados", col='red') 
abline(2,0,lty=2) 
abline(-2,0,lty=2)# 
 
 
 
Exemplo 3.4 - Continuação do Exemplo 1.2 - Determinação do Tamanho de uma População 
(�). Considere uma população formada por um conjunto de � táxis de uma cidade e que os 
táxis são enumerados de 1 a �. Para estimar o número � de táxis da cidade, foram anotados 
os números de todos os táxis que um turista pegou: 440, 73, 179, 405 e 280. Determine a 
probabilidade de o turista ter tomado os táxis que têm esses números e determine o valor de � 
para o qual essa probabilidade é máxima. 
Solução. Considere os eventos, � = {B �7=O8=7B @áP= @8O �úO87B 440},   = {B G8A:�?B @áP= @8O �úO87B 73}, e assim por diante. 
Então, !(� ∩   ∩ L ∩ ¢ ∩ £) = !(�)!( |�)!(L|� ∩  )!(¢|� ∩   ∩ L)!(£|� ∩   ∩ L ∩ ¢) 
 = 1� 1� 1� 1� 1� = 1�� . 
 
A probabilidade de ocorrer a amostra observada (440, 73, 179, 405, 280), !(� ∩   ∩ L ∩¢ ∩ £) é chamada de função de verossimilhança. Neste caso particular, esta função é 
máxima quando o valor de � é mínimo. Ora, como � ≥ 440, o valor de � que torna máxima 
a função de verossimilhança é 440. A estimativa de máxima verossimilhança de � é 440. 
 
 Uma introdução a teoria das probabilidades é apresentada no Capítulo 4. 
 
 
 
 
 
 
 
 
 
 
 
Análise Exploratória de Dados 43
 
 
Exercícios dos Capítulos 1, 2 e 3 
 
Lista 1: Exercícios: 1, 3, 4, 5, 8, 10, 18, 20, 24, 27. Entregar até o dia 10/10/2022. 
 
 
1. Dadas as Tabelas 1 e 2 a seguir. Esboçar um gráfico adequado em cada caso e interpretar. 
 
TABELA 1 - Consumo mensal de 
energia elétrica da Fábrica X., 2011-2020. 
ANO KW 
2011 196 
2012 195 
2013 183 
 2014 150 
2015 164 
2016 185 
2017 173 
2018 308 
2019 180 
2020 405 
Fonte: Fábrica X. 
 
 
 2. Atualize até o ano de 2015 e represente graficamente os dados da Tabela 3 para 
as variáveis: densidade demográfica, e população residente, segundo o ano, sexo e 
situação do domicílio. Para atualizar os dados utilize o site do IBGE 
(www.ibge.gov.br). 
 
 Tabela 3 - Estado do Maranhão - População residente, por sexo, situação do domicílio e 
densidade demográfica. 
Ano 
Total 
(hab) 
Sexo Situação do domicílio Densidade 
demográfica 
(hab/km2) Homens Mulheres Urbana Rural 
1980 3.996.444 1.991.701 2.004.743 1.254.830 2.741.614 11,99 
1991 4.930.253 2.446.865 2.483.388 1.972.421 2.957.832 14,79 
1996 5.222.183 2.595.181 2.627.002 2.711.175 2.511.008 15,67 
2000 5.651.475 2.812.681 2.838.794 3.357.898 2.285.062 16,95 
2001(1) 5.749.966 2.869.255 2.880.711 3.754.892 1.995.074 17,25 
 Fonte: IBGE. 
 (1) PNAD. 
 
 
 
3. Atualize e represente graficamente os dados da Tabela 3 para a variável população 
residente (%), segundo cor ou raça , no Estado do Maranhão, Nordeste e Brasil – 
2001. Para atualizar os dados utilize o site do IBGE (www.ibge.gov.br). Comparar 
os dados atualizados com o dados do ano 2001. 
 
 
 
TABELA 2 - Frequências de 
2000 empregados da Companhia 
MB, segundo o grau de 
instrução. 
Grau de 
instrução 
 frequência (¥¦) 
superior 650 
médio 1020 
fundamental 330 
Total 2000 
 Fonte: Companhia MB. 
Análise Exploratória de Dados 44
 
 
Tabela 3 - População residente (%), segundo cor ou raça, no Estado do 
Maranhão, Nordeste e Brasil 2001. 
Cor ou raça (%) Maranhão Nordeste Brasil 
Branca 24,5 29,5 53,4 
Preta 7,4 6,15,6 
Parda 66,9 64,1 40,4 
Amarela e indígena 1,3 0,3 0,6 
Fonte: IBGE. PNAD 2001: microdados. Rio de Janeiro: IBGE, 2002. 1 CD-ROM. Extraído da publicação 
Indicadores Sociais Mínimos 
Nota: Os dados do Brasil não incluem a população rural de Rondônia, Acre, Amazonas, Roraima, Pará e Amapá. 
 
4. Os dados abaixo representam a idade � em anos de 50 indivíduos: 
 
84, 68, 53, 52, 59, 73, 68, 61, 73, 77, 74, 71, 81, 81, 65, 55, 57, 65, 85, 88, 59, 
80, 61, 50, 53, 65, 76, 85, 73, 60, 67, 51, 78, 56, 74, 65, 55, 55, 64, 74, 65, 84, 
66, 58, 59, 69, 89, 78, 72, 54 
a) Obtenha uma tabela de distribuição de frequências, calculando fj, (freq. simples) e 
fr (freq. relativa). 
b) Supondo que os indivíduos com idade superior a 65 devem ser escolhidos, determine este 
percentual. 
c) Construa um histograma e o polígono de frequências baseado nas frequências 
relativas (frj) para os dados. 
d) Calcule a média, a variância e o desvio padrão para os dados brutos e dados 
agrupados em classes. Compare os resultados. 
e) Determine a idade x que deixa 90% dos indivíduos abaixo desse valor. 
Sugestão: utilizar os intervalos de classe: [50, 55), [55, 60), .... 
 
 
5. O que acontece com a média, a mediana e desvio-padrão de uma amostra observada de 
tamanho n (P�, P
, ⋯ , P�) de uma variável quantitativa X quando 
a) soma-se uma constante c a cada observação (3 = � + <) ; b) subtrai-se a 
média amostral x de cada observação (3 = � − P̅); 
c) subtrai-se de cada observação a média amostral x e divide-se este resultado pelo 
desvio-padrão {� . 
 
6. Uma indústria produz dois tipos de componentes eletrônicos A e B. O tempo de 
duração até falhar (em horas) de A e de B é dado: 
 A : 3020, 2890, 2350, 2875, 2970, 3005, 2780, 3010, 2600, 3040 
 B : 2900, 3050, 2975, 2450, 2890, 2875, 2990, 2300, 2700, 2990 
a) Qual o componente que tem a maior dispersão? 
b) Qual o componente que tem a maior dispersão relativa? 
 
 
7. A Tabela 4 a seguir apresenta a média e o desvio padrão dos valores de três variáveis 
usadas como indicadoras da qualidade de vida de uma população, medidas nas 27 
unidades da federação brasileiras (Folha de São Paulo de 09/09/98): 
 
Análise Exploratória de Dados 45
 
 
 Tabela 4 
Variável Média Desvio Padrão 
Esperança de vida (em anos) 66,97 
 
 2,39 
 
Taxa de alfabetização (em %) 80,85 
 
 9,62 
 PIB per capita ajustado 
(em dólares ajustados pelo poder de 
compra) 
4846 1697 
 
Deseja-se escolher uma dessas variáveis para se criar um ranking de qualidade de vida entre 
estas UF’s. A variável escolhida deve ser, portanto, a de melhor poder de discriminação. Com 
as informações fornecidas na Tabela 4, podemos dizer que esta deve ser a variável de maior 
heterogeneidade entre as UF’s. Qual deve ser a variável escolhida ? Justifique. 
 
 
8. Uma companhia telefônica está interessada em obter informações sobre o tempo de 
duração 
(em minutos) das conversações telefônicas e determinou-se que o tempo médio de 
conversação era de 3,4 minutos. Um mês mais tarde, 30 chamadas telefônicas foram 
observadas e achou-se um tempo médio de conversação de 4,2 minutos. Ache o tempo médio 
de conversação das 50 chamadas da pesquisa. 
 
9. Medidos os comprimentos de 101 peças fabricadas obteve-se x = 152,2cm e S = 6,9cm. O 
peso médio dessas mesmas peças é 25kg, com um desvio padrão de 1,3kg. Essas peças 
apresentam maior variabilidade em comprimento ou em peso? 
 
 
10. Para se estudar o desempenho de duas companhias corretoras de ações, selecionou-se de 
cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada; 
computou-se a percentagem de lucro apresentada durante um período fixado de tempo. Os 
dados estão a seguir: 
 
CORRETORA A ( AX ) 45 62 38 55 54 65 60 55 48 
56 59 55 54 70 64 55 48 60 
CORRETORA B ( BX ) 57 50 59 61 57 55 59 55 52 55 
52 57 58 51 58 59 56 53 50 54 56 
a) Para verificar a homogeneidade das duas populações um estatístico sugeriu o quociente: 
)(
)(
B
A
XVar
XVar
F = , 
em que )( AXVar e )( BXVar correspondem a variância de AX e variância de BX , 
respectivamente. Que decisão você adotaria para dizer se são homogêneas ou não ? 
 
b) Adote agora o seguinte teste: 
Análise Exploratória de Dados 46
 
 
 
BA nn
BAt
S
xx
11
*
+
=
− , nnn BA =+ ; 2
)()1()()1(2
−+
−+−
=
BA
BBAA
nn
XVarnXVarn
S
. 
 
Caso | t | < 2 os desempenhos são semelhantes, caso contrário são diferentes. Qual é a sua 
conclusão ? 
 
11. A distribuição de frequência do salário mensal dos funcionários da fábrica X é apresentada 
na tabela abaixo: 
 
TABELA 5 - Salário mensal dos funcionários 
 da Fábrica X - nov/2010. 
SALÁRIOS 
MÍNIMOS 
FREQUÊNCIA 
 
0 | 2 1000 a) construa um histograma da distribuição 
2 | 4 390 b) determine a média a variância e o desvio-padrão 
4 | 6 200 
c) Uma fábrica Y apresenta , uma média de 8,2 
salários mínimos e um 
6 | 8 110 
Desvio-padrão de 15,1 salários mínimos. 
Em qual das fábricas os salários são mais 
homogêneos ? 
8 | 10 80 
10 | 12 70 
12 | 14 200 
TOTAL 2050 
Fonte: Dept. de Pessoal. 
 
 
12. Para cada uma das doses 200, 300, 500 e 1000 (mg) de uma determinada droga foram 
submetidos seis grupos, cada um com dez indivíduos, e observado o nº de pacientes curados. 
Os dados são resumidos na tabela abaixo. 
 200 300 500 1000 
7 9 10 6 7 9 6 4 8 1 3 2 
8 9 9 7 8 4 5 6 3 2 6 5 
 
Calcule para cada dose a média, mediana e o desvio padrão. Compare o nº médio com o nº 
mediano de indivíduos curados segundo as doses. Comente. 
 
 
13. Os Os dados abaixo se referem ao tempo de espera numa fila de 30 indivíduos. 
4,2 4,2 1,9 3,6 4,2 5,1 6,0 1,8 1,5 6,9 
6,5 4,5 2,4 5,4 5,1 7,4 6,0 2,0 3,0 8,2 
7,5 6,8 8,0 6,9 5,7 7,5 7,2 2,7 3,9 8,5 
 
a) Calcule as medidas descritivas: mínimo, 1º. quartil, média, mediana, 3º. quartil, 
máximo; 
b) Construa uma tabela de distribuição de frequências e calcule as medidas acima, a 
partir dos dados da tabela; 
Análise Exploratória de Dados 47
 
 
c) Compare os resultados obtidos nos itens a) e b); 
d) Construa um histograma e interprete; 
e) Construa um desenho esquemático (box plot) e interprete. 
 
 
14. Uma indústria, desejando melhorar o nível de seus funcionários em cargos de chefia, 
montou um curso experimental e indicou 25 funcionários para a primeira turma. Os dados 
referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir. 
Utilizando o R, EXCEL ou MINITAB. 
(a) Classifique as variáveis listadas. 
(b) Calcule média, moda, mediana e desvio padrão das variáveis Direito, Política e Estatística. 
(c) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, 
Política e Estatística (use “dotplots”). 
(d) Compare o aproveitamento dos funcionários da disciplina Estatística segundo a seção a 
que eles pertencem. 
(e) Construa uma tabela de contingência para as variáveis seção e inglês. Determine as 
freqüências relativas e compare o desempenho dos funcionários em inglês segundo a seção a 
que eles pertencem. 
 
Funcionário Seção Direito Política Estatística Inglês Metodologia 
1 Pessoal 9 9 9 B A 
2 Pessoal 9 6,5 9 B C 
3 Pessoal 9 9 8 D B 
4 Pessoal 9 6 8 D C 
5 Pessoal 9 6,5 9 A A 
6 Pessoal 9 6,5 10 B A 
7 Pessoal 9 9 8 D C 
8 Técnica 9 6 8 B C 
9 Técnica 9 10 9 B B 
10 Técnica 9 9 8 B C 
11 Técnica 9 10 10 C B 
12 Técnica 9 6,5 7 D B 
13 Técnica 9 6 7 B C 
14 Técnica 9 10 9 A B 
15 Vendas 9 10 9 C B 
16 Vendas 9 9 7 A A 
17 Vendas 9 10 8 D C 
18 Vendas 9 6 9 C C 
19 Vendas 9 6 1 D C 
20 Vendas 9 6 7 C B 
21 Vendas 9 6,5 7 D B 
22 Vendas 9 6 8 C A 
23 Vendas 9 9 10 C C 
24 Vendas 9 6,5 9 A A 
25 Vendas 9 9 9 B A 
 
 
15. A tabela a seguir apresenta o tempo (em unidades de milhões de ciclos) até a perda develocidade de cinco tipos de turbina de avião. Foram considerados 10 motores para cada tipo 
de turbina. Calcule para cada tipo a média, mediana, desvio padrão e intervalo interquartil. 
Compare os cinco tipos segundo essas medidas. Calcule também o coeficiente de variação 
Análise Exploratória de Dados 48
 
 
para cada tipo, comente. Utilize agora o comando boxplot do R e faça uma comparação 
gráfica do desempenho dos cinco tipos de turbina. 
 
Tipo 1 Tipo 2 Tipo 3 Tipo 4 Tipo 5 
3.03 3.19 3.46 5.88 6.43 
5.53 4.26 5.22 6.74 9.97 
5.60 4.47 5.69 6.90 10.39 
9.30 4.53 6.54 6.98 13.55 
9.92 4.67 9.16 7.21 14.45 
12.51 4.69 9.40 8.14 14.72 
12.95 5.78 10.19 8.59 16.81 
15.21 6.79 10.71 9.80 18.39 
16.04 9.37 12.58 12.28 20.84 
16.84 12.75 13.41 25.46 21.51 
 
 
16. A tabela seguinte mostra os resultados de uma pesquisa com 10 famílias de determinada 
região. 
Família
s 
Renda 
(u.m.:100) 
Poupança 
u.m.:1000) 
Número de 
filhos 
Média de anos de 
estudo da família 
A 10 4 8 3 
B 15 7 6 4 
C 12 5 5 5 
D 70 20 1 12 
E 80 20 2 16 
F 100 30 2 18 
G 20 8 3 8 
H 30 8 2 8 
I 10 3 6 4 
J 60 15 1 8 
 
Calcule o coeficiente de correlação linear de Pearson entre: 
a) renda familiar e poupança das dez famílias; 
b) renda e número de filhos para as dez famílias; 
c) poupança e número de filhos; 
d) média de anos de estudo e número de filhos; 
e) renda familiar e media de anos de estudo. 
 
 
17. Existe associação entre as vendas de gasolina com chumbo e a concentração de chumbo 
no cordão umbilical de recém-nascidos? A s vendas mensais de gasolina com chumbo no 
estado de Massachusetts (X) e as concentrações médias de chumbo no cordão umbilical (Y) de 
bebês nascidos no principal hospital de Boston durante 14 meses no período de 1980-1981 
são listados na tabela abaixo. 
a) Calcule o coeficiente de correlação linear de Pearson entre X e Y. 
Análise Exploratória de Dados 49
 
 
b) Ajuste de uma reta de regressão para descrever a relação entre as variáveis Y (dependente) 
e X (independente). Qual é o acréscimo na concentração média de chumbo no cordão 
umbilical ocasionado pela venda adicional de uma tonelada métrica de gasolina? 
c) Considerando a reta estimada dada no item (b), estime a concentração média no cordão 
umbilical correspondente à venda de 110 toneladas métricas de gasolina. 
 
X 141 166 161 170 148 136 169 109 117 87 105 73 82 75 
Y 6,4 6,1 5,7 6,9 7,0 7,2 6,6 5,7 5,7 5,3 4,9 5,4 4,5 6,0 
 
 
18. Uma pesquisa sobre a qualidade da água foi realizada numa cidade. Em 8 comunidades 
com reservatórios de água na superfície, estudou-se o efeito da quantidade de magnésio 
(miligramas p/ litro) sobre um índice de qualidade. 
 
 
x 8,7 9 11 8,5 9,2 12 12 18 
y 25 25 26 48 65 87 90 100 
 
(a) calcular o coeficiente de correlação amostral. Fazer um diagrama de dispersão das 
variáveis � (covariável) e 3 (variável resposta). 
(b) Obter 0β̂ , 1β̂ e a equação da reta ajustada. Qual a interpretação de 0β̂ e 1β̂ ? 
(c) Achar o valor de previsão para a qualidade da água com P = 15 miligramas por litro de 
magnésio 
(d) Fazer o gráfico dos resíduos yyei ˆ−= versus valores ajustados �~ e comentar. 
 
19. Os dados a seguir representam o número de filhos do sexo feminino (X) de 40 moradores 
de um bairro A da cidade de São Luís. x = (5 ,2, 3, 1, 3, 2, 2, 3, 2, 2, 4, 4, 1, 3, 2, 2, 4, 4, 3, 3, 
3, 0, 2, 4, 3, 2, 2, 4, 2, 5, 1, 4, 1, 1, 1, 3, 3, 0, 3, 1). Construir uma tabela com as frequências 
simples (fj) e relativas (frj). Construir um gráfico apropriado para representar a variável X. 
Determinar a média a mediana e o desvio padrão de X. Estimar a probabilidade de uma 
família sorteada ao acaso possuir dois ou menos filhos do sexo feminino pela frequência 
relativa deste evento. 
 
 
20. Os dados a seguir representam uma amostra (x,y) de tamanho 10 das notas de alunos de 
Cálculo (1a prova) e Estatística (1a prova) do curso de Matemática da UFMA. 
 Cálculo (X) Estatística (Y) 
5 6 
7.5 8 
6.5 6 
8 9 
9.5 10 
3 4 
5.5 5 
Análise Exploratória de Dados 50
 
 
9 10 
7 7.5 
2 2.5 
(a) calcular o coeficiente de correlação amostral. Fazer um diagrama de dispersão das 
variáveis X (covariável) e Y (variável resposta). 
(b) Obter 0β̂ , 1β̂ e a equação da reta ajustada. Qual a interpretação de 0β̂ e 1β̂ ? 
(c) Achar o valor de previsão para a nota de estatística com x = 9. 
(d) Fazer o gráfico dos resíduos padronizados e comentar. 
 
 
21. As três maiores universidades do país em quantidade de alunos na graduação estão longe 
do topo na lista de melhores do país no RUF (Ranking Universitário Folha), publicado em 
09/09/2013, veja a figura a seguir. 
 
 
Fonte: http://f.i.uol.com.br/folha/cotidiano/images/13254708.jpeg 
 
Utilize um modelo de regressão linear para ajustar os dados observados das variáveis X = 
número de alunos e Y = nota total no RUF (variável resposta). Comente os resultados. 
 
22. Considere uma variável de interesse X. Mostre que soma dos quadrados dos desvios de X 
em relação à média X é um mínimo. 
Sugestão: Mostrar que o valor da função 4(�) = ∑ (P\ − �)
�\a� será mínimo quando � = P̅. 
 
23. (PROFMAT - 2015) As notas obtidas por cinco alunos em uma prova de matemática 
indicam que a mediana é 6, a moda é 8 e a média aritmética é 6. Acrescentando-se à amostra a 
nota de um sexto aluno, que fez a segunda chamada da prova, a mediana aumenta para 6,5. 
Nessas condições, determine a nova média aritmética das notas. Resposta: 37/6. 
 
Análise Exploratória de Dados 51
 
 
24. A idade média da idade dos candidatos a um determinado curso sempre foi baixa, da 
ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se 
uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se um 
levantamento da idade dos candidatos atualmente, e os resultados estão na tabela a seguir. 
 
Idade (X) 
Frequência simples Frequência acumulada 
absoluta relativa absoluta relativa 
fj frj V5 V65 P5 
 18 | 20 18 0,36 V� V6� 19 
 20 | 22 12 0,24 V
 V6
 21 
 22 | 26 10 0,20 ⋮ ⋮ 24 
 26 | 30 8 0,16 ⋮ ⋮ 
 30 | 36 2 0,04 � 1 
TOTAL 50 1,0 
 
(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, a 
média aumentou?) 
 
(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença (P̅ − 22) fosse maior 
que o valor 2}�/√�, então a campanha surtiu efeito. Qual a conclusão dele baseada nos 
dados? 
 
(c) Fazer um histograma para os dados da variável X. 
(d) Determinar as frequências acumuladas V5 e V65, C = 1,2, ⋯ , K , sendo que, V5 = 4� + 4
 + ⋯ + 45; V65 = [Z� , C = 1,2, ⋯ , K; 
 ou V65 = 46� + 46
 + ⋯ + 465. 
 
 
25. O que acontece com a média e o desvio padrão de uma série de dados quando: 
(a) cada observação é multiplicada por 2? 
(b) soma-se 10 a cada observação? 
(c) subtrai-se a média amostral P̅ de cada observação? 
(d) de cada observação subtrai-se P̅ e divide-se pelo desvio padrão amostral S ? 
 
26. 15. Os dados a seguir representam o tempo de atendimento em horas para uma amostra de 
n = 20 pacientes numa clínica médica, no ano de 2015 num hospital da cidade de São Luís. 
11.80,11.90,12.00,12.30,12.80,12.99,13.10,13.50,13.80,14.10, 
14.55,14.65,14.70,15.00,15.10,15.20,15.50,15.80,15.90,15.96 
 
 (a) Obter a média P̅, a variância {
 e o desvio padrão { amostrais. 
Análise Exploratória de Dados 52
 
 
 (b) Determinar o coeficiente de variação L� . Qual é a principal diferença entre o 
desvio padrão e a variância? 
 (c) Determinar o erro padrão da média (8�(�0) = {/√�). 
 (d) Se você fosse solicitado a apresentar duas medidas (estatísticas) para resumir os 
dados, quais 
você recomendaria? 
 (e) Se cada observação for dividida por 24, para se obter o tempo de atendimento em 
dias, quais serão os novos valores da média, variância, desvio padrão, coeficiente de variaçãoe erro padrão da média? 
 
 (f) Agrupar os dados tempo entre chegadas em horas em classes (distribuição de 
frequências). Responder as questões:. 
 (f1) Construir um histograma para os dados do tempo entre chegadas em horas. 
Determinar a média usando os dados agrupados. 
 (f2) Calcular a variância, desvio padrão, coeficiente de variação e erro padrão da 
média. 
 (f3) Após uma mudança de diretoria do hospital o tempo de atendimento apresentou 
média de 14 dias e desvio padrão de 2 dias. Qual é a situação que apresentou maior 
variabilidade, anterior ou posterior a mudança de diretoria? 
 (f4) Em qual caso a média foi calculada com maior precisão? No item (a) ou no item 
(f1)? Justifique sua resposta. 
 
 
27. Os dados de uma amostra observada de tamanho n = 30 da variável � = tempo em 
meses até a falha de um equipamento eletrônico são dados por: 
 P = (8.13,8.23,8.60,8.80,8.97,9.05,9.12,9.30,9.35,9.78,9.80, 
9.86,9.90,9.95,10.00,10.11,10.13,10.15,10.16,10.23,10.31, 
10.33,10.40,10.46,10.50,11.14,11.29,11.46,12.05,12.14) . 
a) Obter a média, a mediana e o desvio padrão da variável X. 
b) Se o tempo de falha de cada equipamento for multiplicado pela constante 30, qual será o 
valor da média, da mediana e do desvio padrão amostral da variável transformada? 
 
28. Escalas de medidas. (Bussab & Morettin, 2017) A seguir descrevemos outros possíveis 
critérios para classificar variáveis, em função da escala adotada. Observe a similaridade com a 
classificação apresentada anteriormente. Nossas observações são resultados de medidas feitas 
Análise Exploratória de Dados 53
 
 
sobre os elementos de uma população. Existem quatro escalas de medidas que podem ser 
consideradas: 
Escala nominal. Nesta escala somente podemos afirmar que uma medida é diferente ou não 
de outra, e ela é usada para categorizar indivíduos de uma população. Um exemplo é o sexo 
de um indivíduo. Para cada categoria associamos um numeral diferente (letra ou número). Por 
exemplo, no caso de sexo: podemos associar as letras M (masculino) e F (feminino) ou 1 
(masculino) e 2 (feminino). Não podemos realizar operações aritméticas aqui e uma medida 
de posição apropriada é a moda. (As medidas citadas nesse problema, como a média, mediana 
e moda, são definidas no Capítulo 3.) 
Escala ordinal. Aqui podemos dizer que uma medida é diferente e maior do que outra. Temos 
a situação anterior, mas as categorias são ordenadas, e a ordem dos numerais associados 
ordena as categorias. Por exemplo, a classe socioeconômica de um indivíduo pode ser baixa 
(1 ou X), média (2 ou Y) e alta (3 ou Z). Transformações que preservam a ordem não alteram a 
estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 
10 e 100 ou A, L e Z. Medidas de posição apropriadas são a mediana e a moda. 
Escala intervalar. Nesta escala podemos afirmar que uma medida é igual ou diferente, maior 
e quanto maior do que outra. Podemos quantificar a diferença entre as categorias da escala 
ordinal. Necessitamos de uma origem arbitrária e de uma unidade de medida. Por exemplo, 
considere a temperatura de um indivíduo, na escala Fahrenheit. A origem é 0o F e a unidade é 
1o F. Transformações que preservam a estrutura dessa escala são do tipo � = >P + F, > > 0. Por exemplo, a transformação � = 5/9 (P – 32) transforma graus Fahrenheit em 
centígrados. Para essa escala, podemos fazer operações aritméticas, e média, mediana e moda 
são medidas de posição apropriadas. 
Escala razão. Dadas duas medidas nessa escala, podemos dizer se são iguais, ou se uma é 
diferente, maior, quanto maior e quantas vezes a outra. A diferença com a escala intervalar é 
que agora existe um zero absoluto. A altura de um indivíduo é um exemplo de medida nessa 
escala. Se ela for medida em centímetros (cm), 0 cm é a origem e 1 cm é a unidade de medida. 
Um indivíduo com 190 <O é duas vezes mais alto do que um indivíduo com 95 <O, e esta 
relação continua a valer se usarmos 1 O como unidade. Ou seja, a estrutura da escala razão 
não é alterada por transformações da forma � = <P, < > 0. Por exemplo, � = P/100 
transforma <O em O. As estatísticas apropriadas para a escala intervalar são também 
apropriadas para a escala razão. 
 
Para cada uma das variáveis abaixo, indique a escala usualmente adotada para resumir os 
dados em tabelas de frequências: 
(a) Salários dos empregados de uma indústria. 
(b) Opinião de consumidores sobre determinado produto. 
(c) Número de respostas certas de alunos num teste com dez itens. 
(d) Temperatura diária da cidade de Manaus. 
(e) Porcentagem da receita de municípios aplicada em educação. 
(f) Opinião dos empregados da Companhia MB sobre a realização ou não de cursos 
obrigatórios de treinamento. 
(g) QI de um indivíduo. 
 
Análise Exploratória de Dados 54
 
 
 
29. Média aparada. (Bussab & Morettin, 2017) Se 0 < ® < 1, uma média aparada a 100®% é obtida eliminando 100®% das menores observações e 100®% das maiores 
observações e calculando-se a média aritmética das restantes. Por exemplo, se tivermos 10 
observações ordenadas P(�) < P(
) < . . . < P(�W) , a média aparada a 10% é 
P̅(0,10) = P(
) + P(S)+ . . . + P(¯)8 . 
Se ® = 0,25, P̅(0,25) é chamada meia-média. 
Calcule a média aparada a 25% para os dados do Exemplo 2.5 - adaptado. 
 
 Exemplo 2. 5 - Os dados a seguir representam o tempo de vida 2 (em semanas) de 60 
peças fabricadas por uma máquina. 15.1,16.4,33.6,36.5,40.3,45.4,45.5,47.3,53.8,57.7,59.2,62.8,63.2,64.7,67.5,72.7,78.5, 80.1, 81.1,81.6,86.7,89.3,93.0,93.7,97.6,100.8,104.0,105.1,106.0, 118.3, 132.9, 133.4, 137.9,138.0,163.3,176.9, 182.7, 183.1,184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s , 272.9s, 272.9s , 272.9s , 272.9s. 
Os tempos de vida das peças que falharam após 272.9 horas foram registrados como 272.9s. 
Os dados deste experimento são denominados de “dados censurados à direita”. 
 
30. Uma amostra de tamanho � = 10 automóveis foi selecionada e cada um deles foi sujeito a 
um teste de colisão a 5 O�ℎ. Representando um carro sem danos visíveis por { (de sucesso) e 
um carro com danos por V (de falha), os resultados são os seguintes: { { V { { { V V { { 
a) Substitua cada { por 1 e cada V por 0. Calcule então P̅ para essa amostra codificada 
numericamente. 
b) Qual é o valor da proporção amostral de sucessos �̂ = #°� ? . Considerando esta amostra de 
tamanho � = 10, é seguro afirmar que a probabilidade de sucesso � é igual a �̂ ? 
c) Suponha que se decidiu incluir mais 15 carros no experimento. Quantos deles teriam de ser { para fornecer �̂ = 0,80 para a amostra de 25 carros? 
 
 
 
 
Análise Exploratória de Dados 55
 
 
 
REFERÊNCIAS 
 
BUSSAB, W. O.; MORETTIN, P. A. (2009). Estatística básica. Saraiva, São Paulo, 6ª 
Edição. 
 
BOLFARINE, H., & DE OLIVEIRA BUSSAB, W. (2005). Elementos de amostragem (Vol. 
1). São Paulo: Edgard Blücher. 
 
DOANE, D. P. ; SEWARD, L. E. (2011). Measuring Skewness: A Forgotten Statistic?. 
Journal of Statistics Education, Vol. 19, Number 2. 
 
HYNDMAN, R. J. (1995). The problem with Sturges’ rule for constructing 
histograms. Monash University. 
 
MAGALHÃES, M. N.; PEDROSO DE LIMA, A. C. (2010). Noções de probabilidade e 
estatística. Edusp, São Paulo. 
 
R Core Team (2010). R: A Language and Environment for Statistical Computing. R 
Foundation for Statistical Computing, Vienna, Austria. 
 
R Core Team (2013). R: A Language and Environment for Statistical Computing. R 
Foundation for Statistical Computing, Vienna, Austria. 
 
STURGES, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical 
Association, Vol. 21, No. 153, pp. 65- 66. 
 
WAND, M. P. (1997). Data-based choice of histogram bin width. The American Statistician 
Vol. No. 1, 51, pp. 59-64.

Mais conteúdos dessa disciplina