Prévia do material em texto
Análise Exploratória de Dados 1
1. Introdução
A Estatística possui um papel fundamental na tomada de decisões em organizações
públicas e privadas. Em algumas do conhecimento tais como, medicina, biologia e economia
as aplicações da Estatística têm recebido muito destaque. Nas Universidades disciplinas de
estatística são obrigatórias na maioria cursos de graduação e de pós-graduação. Podemos
ainda adicionar, o desenvolvimento de novos produtos na indústria e o setor de serviços. As
aplicações da Estatística estão todas as atividades humanas envolvidas com a coleta,
organização e análise de dados. Por conseguinte, no resumo desses dados em informação para
testar hipóteses científicas sobre um fenômeno observável.
Por exemplo, com o objetivo da melhoria da qualidade, produtividade e lucratividade,
e sem deixar de seguir as exigências da legislação ambiental, as empresas procuram otimizar
os processos de produção. Estes processos podem gerar dados de várias variáveis de interesse.
Um resumo e análise desses dados são elaborados de forma adequada com o uso de métodos
estatísticos e apoio de softwares.
1.1. Conceitos Básicos
Definição 1.1: A Estatística é a ciência que tem como objetivo a obtenção, organização,
análise e interpretação de um conjunto de dados associado a um determinado fenômeno. Além
disso, a formulação de modelos matemáticos para fazer inferência sobre uma população.
A Inferência estatística tem como objetivo fazer afirmações sobre as características de
uma população a partir de uma amostra representativa. Estas afirmações são apresentadas
juntamente com uma probabilidade de erro.
Definição 1.2: Estatística Descritiva é um conjunto de procedimentos para construir um
determinado resumo dos dados observados de uma ou mais variáveis associadas a um
experimento aleatório em estudo.
Análise Exploratória de Dados 2
A estatística descritiva também denominada análise exploratória de dados representa
uma fase importante do método estatístico. Tem como objetivo a coleta, organização e resumo
dos dados por meio de tabelas, gráficos e medidas numéricas.
Definição 1.3: População é o conjunto Ω de todos os resultados possíveis de um experimento
que temos interesse em estudar. Ω pode ser finito, infinito enumerável ou infinito não-
enumerável.
Definição 1.4: Amostra é um subconjunto da população.
Em geral as letras � e � são utilizadas para representar o tamanho da amostra e da
população, respectivamente. A letra grega maiúscula Ω, tem sido utilizada para representar a
população. A Figura 1.1 apresenta uma interpretação geométrica de uma população e de uma
amostra.
Figura 1.1 - Representação esquemática de uma população e uma amostra.
Definição 1.5: Técnicas da amostragem é um conjunto de técnicas utilizadas para a obtenção
de uma amostra representativa da população. Exemplos de utilização: pesquisa de mercado,
pesquisa de opinião pública, testes de medicamentos, controle de qualidade de produtos,
entre outros.
Definição 1.6: Variável é aquilo que se deseja observar para se tirar algum tipo de informação
do experimento em estudo, por exemplo: opinião sobre a compra de um produto, idade, peso,
altura, sexo, renda de um indivíduo, tempo de vida de um paciente, tempo de espera numa fila
de um supermercado.
Análise Exploratória de Dados 3
Definição 1.7: Dados são observações de uma ou mais variáveis. O conjunto de dados
provem de uma amostra, a qual representa uma população de interesse.
O desenvolvimento de novos softwares estatísticos e o aumento do uso dos
computadores tem facilitado o emprego da Estatística Descritiva em diversas áreas do
conhecimento.
A inferência estatística utiliza a teoria das probabilidades e resumos de dados de uma
amostra (��, �
, ⋯ , ��) para tirar conclusões sobre a população. Os Exemplos 1.1 e 1.2 a
seguir ilustram esta situação.
Exemplo 1.1 - Para avaliar o desempenho de candidatos em determinado intervalo de tempo
de uma campanha eleitoral, um instituto de pesquisa de opinião utiliza um conjunto de dados
de uma pesquisa por amostragem da população de eleitores. O objetivo principal é estimar a
proporção de votos de cada candidato. Considere um certo candidato �. Então, podemos
chamar de � a proporção de eleitores na população que têm intenção de votar no candidato �,
e de �̂ a proporção de pessoas na amostra que expressam intenção de voto em �.
Para estimar a proporção � da população utiliza-se o valor de
�̂ = #�� ,
em que, #� é o número de pessoas na amostra que tem intenção de votar no candidato � e �
é o tamanho da amostra.
Numa eleição para governador, os institutos de pesquisa de opinião observam
periodicamente amostras de eleitores para obter estimativas de intenção de voto da população.
A estimativa �̂ da proporção � de eleitores na população é divulgada de acordo uma margem
de erro, � = � − �̂. Além disso, um intervalo de confiança, (�̂ − �, �̂ + �). A margem de erro
pode ser fixada antes da realização do experimento e depende do tamanho da amostra �. Pela
lei dos grandes números � tende para 0 (zero) quando � tende para ∞ (infinito) com
probabilidade 1.
Considere a variável � representando o número de eleitores na amostra que tem
intenção de votar no candidato �. Então, podemos escrever �̂ na forma
Análise Exploratória de Dados 4
�̂ = ��.
Desde que � < � , podemos, por exemplo, fixar um erro amostral � = 0.02. Note que, �� − 0.02 ≤ � ≤ �� + 0.02.
Para estar 100% certo de que � = ��, você teria que entrevistar a população inteira. Entretanto,
podemos escolher uma probabilidade menor do que 1, suponha 95%, e determinar � tal que
! "�� − 0.02 ≤ � ≤ �� + 0.02# ≥ 0.95. (1.1)
O intervalo %�� − 0.02 ; �� + 0.02' é chamado intervalo de confiança para p. Sendo que, o
nível de confiança é 0.95. Note que, qualquer � suficientemente grande irá satisfazer a
expressão (1.1). A determinação de � usa recursos da teoria das probabilidades, em
particular, o teorema central do limite que pode ser explorado em disciplinas de probabilidade
e inferência estatística. Desprezando alguns detalhes técnicos, segue da expressão (1.1) que 0.02 = 1.96)�(1 − �)/�.
Sendo que, 1.96 representa o percentil 97.5 de uma distribuição de probabilidade Normal
padronizada. Isto implica que � = 9604�(1 − �). Em muitas aplicações, como a deste
exemplo, não há informação adicional sobre o valor verdadeiro de �. Então, admite-se � = 1/2, o valor de � que maximiza �(1 − �). Como resultado, � = 2401. A Figura 1.2
apresenta a estimativa simulada da proporção de votos do candidato � baseado em uma
amostra de tamanho 2401.
Figura 1. 2 - Resultado simulado da proporção de votos do candidato �.
Análise Exploratória de Dados 5
Após a divulgação da pesquisa de opinião pelos órgãos de imprensa, algumas questões
podem surgir ao eleitor. Como foi determinado o tamanho da amostra � ?; Que informação
importante o instituto de pesquisa de opinião não apresentou?
Exemplo 1.2 - Determinação do tamanho de uma população (�). Considere uma população
formada por um conjunto de � táxis de uma cidade e que os táxis são enumerados de 1 a �.
Para estimar o número � de táxis da cidade, foi anotado os números de todos os táxis que um
turista pegou: 440, 73, 179, 405 e 280. Como devemos escolher uma estimativa para �?
Os dados ordenados podem ser representados por: (73, 179, 280, 405, 440).
Estimativa de � pelo Método do Extremo: Uma estimativa é obtida somando o maior valor
na amostra (440) com a lacuna do menor valor (72). Ou seja, �/ = 440 + 72 = 512 .
Observar que a lacuna entre dois valores dados foi definida pela quantidade de inteiros entre
eles. Então, a lacuna entre 405 e 440 é (440 − 405 − 1) = 34 (existem 34 números
inteiros entre 405 e 440).
Estimativa de � usando Mediana da Amostra:Outra estimativa de � é obtida somando-se o
valor mediano da amostra (280) com sua lacuna (279). Ou seja, �/ = 280 + 279 = 559.
Estimativa de � pela Média das Lacunas: Considere agora as lacunas observadas na amostra,
isto é, o nº de observações entre dois valores ordenados da amostra. Os tamanhos das lacunas
observadas são: 72, 105, 100, 124 e 34. A média das lacunas é dada por:
�0 = (72 + 105 + 100 + 124 + 34)/5 = 87.
Portanto, outra estimativa é dada por: �1 = 440 + 87 = 527.
Como poderíamos escolher o método de estimação a ser usado? Esta questão é tratada
em Inferência Estatística. A Estatística Descritiva, é o objeto de estudo dos Capítulos 2 e 3.
Análise Exploratória de Dados 6
1.2 Códigos em R usados no Capítulo 1
## Códigos em R do Exemplo 1.1
rm(list=ls(all=TRUE))
x=rbinom(n=2401, size =1,prob=0.58)# sim=1, 0=não
n=length(x)
summary(x) # resumo da variável (ou vetor ) x
mean(x) # média de x
var (x) # variância de x
sd(x) # desvio padrão de x
## usando o fBasics
require ( fBasics ) # carrega o pacote fBasics
basicStats (x) y=c("Candidato A", "Candidato B")
fi=c(sum(x), n-sum(x))
px=fi/n
barplot(px,names=as.character(y), ylim=c(0,1.1*max(px)), ylab="%", col="green", main='')
Análise Exploratória de Dados 7
2. Dados Univariados
A Estatística Descritiva reúne um conjunto de técnicas para resumir os dados em
tabelas, gráficos e medidas descritivas que permitem tirar informações contidas nos dados.
Num conjunto de dados podemos ter dois tipos de variáveis, as quantitativas e as
qualitativas.
Variáveis Quantitativas: São variáveis numéricas obtidas por contagens ou
mensuração, podem ser discretas ou contínuas.
• Variáveis discretas: estão associadas a dados de contagem, por exemplo, � =
Número de usuários atendidos mensalmente numa biblioteca; � = Número de
clientes numa fila esperando atendimento; � = número de caras voltadas para
cima em 20 lançamentos de uma moeda honesta.
• Variáveis contínuas: estão associadas a medidas de tempo, peso, altura,
volume, área, ..., capacidade. Por exemplo, 2 = Tempo de atendimento em
minutos a um usuário ou cliente; � = peso em kg de um indivíduo; 3 = nota
obtida por um aluno numa prova de matemática.
Variáveis Qualitativas ou Categóricas: São variáveis não numéricas em que os
resultados são categorias ou atributos. Por exemplo, opinião sobre um produto
comprado em uma loja de esporte: {ótimo, bom, regular, ruim, péssimo}; resultado do
lançamento de uma moeda uma única vez: {cara, coroa}; resposta sobre a instalação
ou não de um aplicativo num smartphone: {sim, não}; resultado sobre a qualidade de
um produto fabricado: {perfeito, defeituoso}. Em geral, as variáveis qualitativas
podem ser codificadas numericamente, por exemplo, "sim = 1" e "não = 0".
Após a coleta ou obtenção dos dados e a construção de um banco de dados, como
resumir e organizá-los de uma maneira informativa? A resposta a esta questão é tratada nas
Seções 2.1 e 2.2.
Análise Exploratória de Dados 8
2.1. Tabelas e Gráficos
Após a coleta dos dados a construção de um banco de dados pode ser feita em forma
de planilha em um software estatístico para facilitar o resumo de interesse. Um exemplo de
um banco de dados é dado pela Tabela 2.1.
TABELA 2.1 - Amostra aleatória de tamanho 20 de algumas variáveis coletadas numa
pesquisa com estudantes da graduação em Matemática da UFMA em setembro de 2010.
Aluno P1 P2 P3 P7a P10B P24 P27
23 1 0 1 0 3 5 5
21 1 0 1 0 3 5 5
16 1 0 2 0 3 4 3
13 1 0 1 NA* 3 3 5
89 4 0 2 0 3 4 4
10 1 0 3 0 3 4 4
32 2 0 2 0 2 4 3
1 1 0 1 0 4 5 5
3 1 0 1 1 5 5 4
12 1 1 1 0 4 5 5
53 3 0 1 1 5 5 5
11 1 0 2 0 1 4 4
47 3 0 2 0 3 4 4
18 1 1 5 0 4 4 4
74 4 0 2 0 4 4 5
69 4 0 2 0 3 5 4
51 3 1 2 0 4 4 4
81 4 0 2 0 4 2 5
26 2 1 1 1 2 5 5
68 4 1 4 1 5 2 3
P1. Ano curricular que frequenta?, 1. 1º ano, 2. 2º ano, 3. 3º ano, 4. 4º ano.
P2. Sexo? 0. masculino, 1. feminino.
P3. Faixa etária?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. 41 - 50 anos.
P7a. Domínio do idioma inglês para a leitura?; 1. sim, 0. não.
P10B. Grau de satisfação em relação às bibliotecas central e setorial? 1. Sem opinião 2.Insatisfeito, 3.
Regular, 4. Bom, 5. Excelente.
P24. Seus professores demonstraram domínio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim,
a maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. Não, nenhum
deles.
P27. Como você avalia a contribuição do Curso para sua formação? 5. Muito boa; 4. Boa; 3. Regular; 2.
Fraca; 1. Muito Fraca.
* NA: Não se aplica, não respondeu.
• A pesquisa teve por objetivo obter informações do perfil do aluno e sobre o grau de satisfação em
relação aos serviços educacionais oferecidos pela Instituição, Curso e administração acadêmica. O
período de referência considerado foi o 1
o
semestre de 2010. As entrevistas foram realizadas entre os
dias 01, 02 e 03 de setembro de 2010. Foi utilizada uma amostragem aleatória estratificada dos alunos
levando-se em consideração o período matriculado. A amostra final foi composta de 93 alunos. A
Análise Exploratória de Dados 9
tabulação dos dados foi feita no software Excel. Para a elaboração dos gráficos e estatísticas
descritivas, foram utilizados o Excel e o software R (R Development Core Team, 2010).
2.1.1. VARIÁVEIS CATEGÓRICAS
Podemos resumir os dados de variáveis categóricas em
• tabelas de frequências
e
• gráficos: em colunas, linhas, histograma de frequências, diagrama de pontos e
bastões;
Suponha que os dados estão classificados em k categorias. Calculamos as frequências
absolutas 45 e as frequências relativas 465 de cada categoria.
465 = 45� = 4789:ê�<=> ?> <>@8AB7=> C�º @B@>E ?8 BFG87H>çõ8G , C = 1, 2, ⋯ , K (2.1)
Categorias da variável � Frequência simples absoluta relativa 45 465 L� 4� 46�
L
4
46
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ LN 4N 46N
TOTAL � 1,0
Geralmente os dados categóricos podem ser resumidos por uma tabela de frequências, como
mostra a Tabela 2.2 , por gráficos em colunas, barras horizontais e em setores.
Exemplo 2.1 - Considere uma amostra aleatória de 16939 fontes bibliográficas da biblioteca
da Universidade de Illinois. Uma medida de desempenho utilizada na definição da qualidade
da biblioteca é a taxa de cobertura estimada na Tabela 2.2 pela percentagem de itens
possuídos na amostra. Os dados estão resumidos na Tabela 2.2 e Figuras 2.1 , 2.2 , 2.3 e 2.4.
TABELA 2.2 - Amostras de referências bibliográficas da Universidade de Illinois - 1990.
Análise Exploratória de Dados 10
Tipo de Fonte No de títulos
Tamanho da
amostra
Possuídos
frequência (fi) (%)
Monografia 10514 1200 923 77
Periódico 4268 1200 1046 87
Tese 2157 1050 961 91
TOTAL 16939 3450 2930
Fonte: Lancaster (1993) p.43, apud Oliveira (1991).
Os dados da Tabela 2.2 podem ser representados graficamente, por exemplo, por gráficos em
setores ou em colunas. Para construir o gráfico da Figura 2.1 usando uma calculadora a tabela
seguinte pode ajudar.
Tipo de Fonte 45 465 Graus
Monografia 10514 0,6207 223,4512
Periódico 4268 0,25196 90,70665
Tese 2157 0,12734 45,84214
TOTAL 2930 1 360
Figura 2.1 - Distribuição das referências bibliográficas Figura 2.2 - Distribuição das referências bibliográficas
da Universidade de Illinois - 1990. da Universidade de Illinois - 1990.
Figura 2.3 - Estimativa da cobertura das referências Figura 2.4 - Amostras de referências bibliográficas
bibliográficas da Universidade de Illinois -1990. da Universidade de Illinois - 1990.
62%
25%
13%
Referências Bibliográficas
Monografia Periódico Tese 0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
Monografia Periódico Tese
70
75
80
85
90
95
Tese Periódico Monografia
(%)
0 500 1000 1500
Monografia
Periódico
Tese
Possuídos
Análise Exploratória de Dados 11
Exemplo 2.2 - (a) Gráficos em colunas para as variáveis P1: ano curricular e P10B: grau de
satisfação em relação às bibliotecas central e setorial, respectivamente, apresentadas na
Tabela 2.1.
Figura 2.5 (a) - Ano curricular frequentado pelos alunos da graduação em matemática da UFMA numa amostra
aleatória de tamanho 20 em setembro de 2010.
Figura 2.5 (b) - Grau de satisfação em relação às bibliotecas central e setorial dos alunos da graduação em
matemática da UFMA numa amostra aleatória de tamanho 20 em setembro de 2010.
Um exemplo de gráfico em colunas agrupadas é dado pela Figura 2.5 (c)
Análise Exploratória de Dados 12
Figura 2.5 (c) - Os dez clubes do NE com as maiores soma de pontos na Copa do Brasil,
1989 - 2020.
Fonte: https://cassiozirpoli.com.br/o-ranking-dos-nordestinos-na-copa-do-brasil-com-89-
clubes-de-1989-a-2020/
Exemplo 2.2 - (b) Exemplos de gráficos em barras horizontais que são apropriados quando
temos muitas categorias são apresentados pelas Figura 2.6 (a) e 2.6 (b).
Figura 2.6 (a) - Receita de alguns times de futebol com publicidade no ano de 2015.
Fonte: http://esporte.uol.com.br/futebol/ultimas-noticias/2016/07/21/palmeiras-passa-corinthians-e-fica-em-2-em-
receita-publicitaria-fla-e-1.htm
Análise Exploratória de Dados 13
Figura 2.6 (b) - Receitas comerciais dos clubes do Brasil no ano de 2019.
Fonte: https://www.mg.superesportes.com.br/app/noticias/futebol/
futebol-nacional/2020/06/03/noticia_futebol_nacional,3849487/atletico-e-o-nono-e-cruzeiro-o-decimo-no-
ranking-de-receitas-dos-clube.shtml
2.1.2. VARIÁVEIS QUANTITATIVAS DISCRETAS
Podemos resumir os dados em
• tabelas;
• gráficos: em colunas, linhas, histograma de frequências, diagrama de pontos e
bastões;
e
• medidas descritivas, ver Seção 2.2.
Para resumir os dados de uma variável quantitativa discreta numa tabela de
frequências, calculamos as frequências relativas dadas por:
475 = 45� = 4789:ê�<=> ?8 :O H>EB7 P5 �º @B@>E ?8 BFG87H>çõ8G , C = 1, 2, ⋯ , K. (2.2)
Exemplo 2.3 - Os dados a seguir representam o número diário � de livros de estatística
retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015.
(1, 3, 1, 1, 0, 1, 0, 1, 1, 0, 2, 2, 0, 0, 0, 1, 2, 1, 2 , 0, 0, 1, 6, 4, 3, 3, 1, 2, 4, 0)
Análise Exploratória de Dados 14
Na Tabela 2.3 temos as frequências relativas (distribuição de frequências) para cada
valor observado P da variável � = número de livros retirados diariamente.
TABELA 2.3 - Distribuição de frequências do número de livros estatística
retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015. � = no de livros 45 475
0 9 0,3000
1 10 0,3333
2 5 0,1667
3 3 0,1000
4 2 0,0667
5 0 0,0000
6 1 0,0333
TOTAL 30 1,0000
A distribuição de frequências de uma variável discreta também pode ser representada
por gráficos em colunas, bastões e gráficos de retângulos verticais (histogramas).
Nas Figura 2.7 e 2.8 temos, respectivamente, os gráficos em colunas e um histograma
para a distribuição de frequências dada na Tabela 2.3.
6543210
30
20
10
0
xi
fr (%)
Figura 2.7 - Gráfico em colunas da frequência Figura 2.8 - Histograma da distribuição de frequências
relativa do número diário de livros de do número diário de livros de estatística retirados.
estatística retirados.
Diagrama de Pontos - Os diagramas de pontos ou dot-plots permitem a visualização rápida
da concentração e dispersão dos dados.
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0 1 2 3 4 5 6
número de livros retirados
frequência relativa
Análise Exploratória de Dados 15
Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de
10 usuários numa biblioteca: 20, 6, 52, 4, 4, 6, 7, 8, 14, 18.
Figura 2.9 (a) - Tempo (em minutos) entre as chegadas de 10 usuários numa biblioteca.
Na Figura 2.9 (b) temos uma reprodução obtida usando a linguagem R da Figura 2.9 (a). Os
Códigos utilizados são:
x=c(20, 6, 52, 4, 4, 6, 7, 8, 14, 18)
stripchart(x, method = "stack", offset = 1.0, at = .10, pch = 20,
main = "", xlab = "",col = "blue")
Figura 2.9 (b) - Tempo (em minutos) entre as chegadas de 10 usuários numa
biblioteca.
2.1.3. VARIÁVEIS QUANTITATIVAS CONTÍNUAS
Podemos resumir os dados em
• tabelas de frequências;
• gráficos: histograma de frequências e diagrama de pontos e diagrama de caixa;
e
• medidas descritivas, ver Seção 2.2.
Análise Exploratória de Dados 16
Os histogramas, os diagramas de pontos ("dot-plots") e os diagramas de caixa ("box-
plots") são gráficos que fornecem informações sobre a centralidade dos dados, variabilidade e
sobre a forma de sua distribuição de frequências.
Diagrama em caixa ou Box-plot - Representação gráfica de cinco medidas amostrais:
mínimo, 1º quartil, mediana, 3º quartil e máximo de uma variável X. Essas medidas estão
apresentadas na Seção 2.2. Na Figura 2.10, temos uma representação esquemática de um "box
plot".
Figura 2.10 - Exemplo de um "box-plot" e algumas de suas características.
Fonte: adaptado de Bussab & Morettin (2009).
Observar que Q= = Q1 − S
(Q3 − Q1) e QG = T3 + 3/2(T3 − T1), Q= = último ponto
inferior e QG = último ponto superior. Q1 e Q3 representam o 1º quartil e o 3º quartil,
respectivamente. O ponto * representa um ponto extremo da variável �.
Exemplo 2.4 (b) - Considere os dados observados de 15 estudantes nas variáveis � e 3 notas
em duas provas de Estatística. � = 5, 8, 9, 9, 9, 8, 9, 6, 5, 10, 9, 7, 8, 10, 6 3 = 2, 4, 6, 8, 9, 8, 7, 7, 6, 7, 8, 7, 7, 8, 7
Análise Exploratória de Dados 17
Na Figura 2.11 temos uma representação gráfica para os dados observados das variáveis � e 3.
Figura 2.11 - "Box-plots" para os dados observados das variáveis � e 3 do Exemplo 2.4 (b).
## Códigos em R para os dados do Exemplo 2.4 (b)
## Códigos em R para os dados do Exemplo 2.4 (b)
x = c(5, 8, 9, 9, 9, 8, 9, 6, 5, 10, 9, 7, 8, 10, 6)
y = c(2, 4, 6, 8, 9, 8, 7, 7, 6, 7, 8, 7, 7, 8, 7)
scores = data.frame(x,y)
boxplot(scores,col = "red")
Histogramas de frequências - São apropriados quando o tamanho da amostra é grande.
Para construir os histogramas podemos utilizar uma tabela de distribuição de
frequências.
DISTRIBUIÇÃO DE FREQUÊNCIAS DE VARIÁVEIS CONTÍNUAS
Em geral, na construção de uma distribuição de frequências consideram-se intervalos
de classes de comprimentos iguais (Wand, 1997). Um procedimento muito utilizado é o
seguinte.
Análise Exploratória de Dados 18
(i) Achar o mínimo e o máximo dos dados e determinar o número de classes (k),
pela regra de Sturges (Sturges, 1926; Hyndman, 1995),
nk 10log322,31+≅ .
Observar que,
n
n
nk 102 log322,312log
log
1log1 +≅+=+= .
(ii) Escolher intervalos de classes de comprimento c iguais que incluam o mínimo
e o máximo da amostra:
k
xx
c minmax
−
= .
(iii) Contar o número de observações que pertencem a cada intervalo de classe.
Esses números 4�, 4
, … , 4N são as frequências das classes 1, 2, . . . , K,
respectivamente.
(iv) Calcular as frequências relativas (475) da j-ésima classe:
475 = 45� = 4789:ê�<=> BFG8H>?>�> <E>GG8 C �º @B@>E ?8 BFG87H>çõ8G , C = 1, 2, ⋯ , K. (2.3)
Uma tabela de frequências para os dados observados de uma variável X pode ser apresentada
na seguinte forma:
X
Frequência simples Frequência acumulada
absoluta relativa absoluta relativa 45 465 V5 V65
[EW, E�) 4� 46� V� V6�
[E�, E
) 4
46
V
V6
⋮ ⋮ ⋮ ⋮ ⋮
[ENX�, EN) 4N 46N � 1
Total n 1
sendo que, 475 = YZ� , C = 1,2, ⋯ , K; V5 = 4� + 4
+ ⋯ + 45; V75 = [Z� , C = 1,2, ⋯ , K;
ou V75 = 47� + 47
+ ⋯ + 475.
Análise Exploratória de Dados 19
Observar que: [EW, E�) = EW ≤ P\ < E�.
HISTOGRAMAS
Histograma é uma representação gráfica por retângulos de uma distribuição de
frequências. A base de cada retângulo é proporcional ao comprimento do intervalo de classe e
a área de cada retângulo proporcional à respectiva frequência. Note que, a área total de um
histograma pode ser igual a 1. Para isso, é necessário impor que as frequências relativas sejam
iguais as áreas dos retângulos, 475 = < × ℎ. Temos então,
kj
c
fr
h
j ,,1 , L== , (2.4)
sendo que, 475 = frequência relativa da classe C = 1, ⋯ , K e < = largura do intervalo de
classe.
Com as alturas calculadas pela expressão (2.4), a soma das áreas dos retângulos é igual 1. Por isso, quando o tamanho � da amostra for grande, podemos usar áreas sobre o
histograma para estimar probabilidades sobre a variável de interesse.
Observe que, marcar no eixo das ordenadas os valores 45 ou 475 leva a obtenção de
histogramas com a mesma forma; somente as áreas é que são diferentes.
Exemplo 2. 5 - Os dados a seguir representam o tempo 2 (em horas) da duração até falhar de
60 peças fabricadas por uma máquina. 15.1, 16.4, 33.6, 36.5, 40.3, 45.4, 45.5, 47.3, 53.8, 57.7, 59.2, 62.8, 63.2, 64.7, 67.5, 72.7, 78.5,80.1, 81.1, 81.6, 86.7, 89.3, 93.0, 93.7, 97.6, 100.8, 104.0, 105.1, 106.0, 118.3, 132.9, 133.4, 137.9, 138.0, 163.3, 176.9, 182.7, 183.1, 184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9
Estes dados estão resumidos na Tabela 2.4 e na Figura 2.12.
Análise Exploratória de Dados 20
TABELA 2.4 - Distribuições de frequências do tempo (em horas) da duração até
falhar de 60 peças fabricadas por uma máquina. 2 = tempo de vida 45 465 V5 V65 @5 (*)
[0 , 40) 4 0,0667 4 0,067 20
[40 , 80) 13 0,2167 17 0,283 60
[80 , 120) 13 0,2167 30 0,500 100
[120 , 160) 4 0,0667 34 0,567 140
[160 , 200) 5 0,0833 39 0,650 180
[200 , 240) 2 0,0333 41 0,683 220
[240 , 280) 19 0,3167 60 1,000 260
TOTAL 60 1,0000
(*) o ponto médio do j-ésimo intervalo de classe C = 1, … , K da variável 2.
Figura 2.12 - Histograma do tempo (em horas) da duração até falhar de 60 peças fabricadas por uma
máquina e histograma alisado, área = 1.
2.2. Medidas Descritivas
As medidas descritivas são usadas para sumarizar informações de um conjunto de
dados. Elas podem ser classificadas como medidas de tendência central, posição, assimetria,
curtose e variabilidade.
Análise Exploratória de Dados 21
2.2.2. Medidas de Tendência Central e de Posição
Definição 2.1. MÉDIA AMOSTRAL (P̅) - A média amostral P de uma variável quantitativa
X baseada na amostra (P�, P
, ⋯ , P�) de tamanho n é dada por
P̅ = ∑ P\�\a�� . (2.5)
Note que, ∑ P\�\a� = P� + P
+ ⋯ + P� = P + P + ⋯ + P = �P. Isto implica que pelo menos
um dos P�, P
, ⋯ , P� é maior ou igual a P. Com efeito, suponha por absurdo que, P� < P,P
< P, ⋯ , P� < P . Então, deveríamos ter
P� + P
+ ⋯ + P� < �P, �� (P� + P
+ ⋯ + P�) < P , P < P, o que é uma contradição. ∎
A média amostral para os dados do Exemplo 2.4 (a) é dada por:
P = (4 + 4 + 6 + 6 + 7 + 8 + 14 + 18 + 20 + 52)/10 = 13,9 minutos .
Se a amostra observada (P�, P
, ⋯ , P�) for agrupada em k classes ou categorias com
frequências 45 , C = 1, 2, ⋯ , K. Então, média amostral é dada por:
P̅ = ∑ P545N5a�∑ 45N5a� , (2.6)
sendo que P5 é o ponto médio da classe j e ∑ 45N5a� = �.
Para estimar a média populacional ( µ ) de uma variável X utilizamos a média amostral P.
Análise Exploratória de Dados 22
Definição 2.2. MEDIANA AMOSTRAL (Md) - Seja (P�, P
, ⋯ , P�) a amostra observada e
seja (P(�), P(
), ⋯ , P(�)) a amostra ordenada de uma variável quantitativa �. A mediana amostral jk(�) é o valor central se n é impar ou, se n é par é a média dos valores centrais.
jk(�) = lPmnopq r , se n é ímpar .Pmnqr + Pmnqs�r 2 , se n é par . t
Exemplo. (a) n é ímpar. A mediana da amostra: (3, 2, 12, 8, 1, 5, 9) da variável � é 5. Note
que este é o valor central da amostra ordenada (1, 2, 3, 5, 8, 9, 12).
(b) n é par. Para calcular a mediana da amostra (2, 3, 2, 8, 215, 10) devemos
considerar a amostra ordenada (2, 2, 3, 8, 10, 215). Note que � = 6, então a mediana é dada
pela média dos dois valores centrais,
jk(�) = Pmnqr + Pmnqs�r 2 = Pmuqr + Pmuqs�r 2 = P(S) + P(v) 2 = 3 + 8 2 = 5,5.
A média amostral é dada por (2 + ⋯ + 215)/6 = 40. Além disso, a observação 215 é muito
discrepante, causando um aumento considerável na média amostral.
Definição 2.3. MODA AMOSTRAL (Mo) - A moda amostral Mo é o valor (ou valores) da
amostra (P�, P
, ⋯ , P�) com maior frequência.
Exemplo 2.6 (a) - Seja (3, 3, 2, 3, 8, 7, 7, 9, 13, 5) uma amostra de tamanho 10 de uma
variável � representando o tempo em minutos de clientes esperando atendimento numa fila de
um supermercado � . Então, jB(�) = 3 O=�. Significa que o valor 3 possui a maior
frequência observada (45).
Exemplo 2.6 (b) - Seja (2, 1, 0, 5, 1, 5, 3, 2, 13, 8, 2, 4, 3, 4, 2, 9, 1, 3, 2, 2, 1, 13,4, 3, 4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4, 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) uma
amostra de tamanho 50 de uma variável Y representando o tempo em minutos de clientes
esperando atendimento numa fila de um supermercado B. Note que, Mo(Y) = 2 min. Outras
estatísticas amostrais e um histograma representado pela Figura 2.13 foram obtidos com os
seguintes códigos em linguagem R.
Análise Exploratória de Dados 23
### Códigos em R para o Exemplo 2.6 (b)
> rm(list=ls(all=TRUE)) # remove todas as variáveis
> y=c(2, 1, 0, 5, 1, 5, 3, 2, 13, 8, 2, 4, 3, 4, 2, 9, 1, 3,
+ 2, 2, 1, 13, 4, 3, 4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4,
+ 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) ## dados do ex. 2.6b
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 2.0 3.0 4.1 5.0 13.0
> library(fBasics) ## carregar pacote
> basicStats(y, ci=0.95)
y
nobs 50.000000
NAs 0.000000
Minimum 0.000000
Maximum 13.000000
1. Quartile 2.000000
3. Quartile 5.000000
Mean 4.100000
Median 3.000000
Sum 205.000000
SE Mean 0.451980
LCL Mean 3.191713
UCL Mean 5.008287
Variance 10.214286
Stdev 3.195980
Skewness 1.252763
Kurtosis 0.952214
> hist(y, main="", xlab="tempo de espera na fila (min)",
+ col="lightblue", ylab="número de clientes")
Figura 2.13 - Histograma para amostra observada da variável Y do Exemplo 2.6 (b).
Análise Exploratória de Dados 24
Outras medidas apresentadas no Exemplo 2.6 (b) serão definidas a seguir.
Definição 2.4. QUANTIL OU PERCENTIL (xp) - O quantil ou percentil de uma amostra (P�, P
, ⋯ , P�) de tamanho n de uma variável quantitativa � é um valor Pw tal que
V6({� ≤ Pw}) = �úO87B ?8 BFG87H>çõ8G ≤ Pw� = � ∙ (2.7)
Note que V6({� ≤ Pw}) é a frequênciarelativa acumulada do evento {� ≤ Pw}. Por exemplo,
No Exemplo 2.6 (b) podemos estimar a percentagem de usuários que esperam menos que 10
minutos para serem atendidos, isto é:
V6(� ≤ 10) = � . (2.8)
Neste caso, podemos verificar, de acordo com o código em R
"length(y[y<10])/length(y)" que p = 0.92.
Graficamente, a percentagem de usuários que esperam entre a e b minutos é dada pela área
sombreada no histograma alisado da Figura 2.14
Figura 2.14 - )( bXaFr ≤≤ .
Note que,
)()()( aXFbXFbXaF rrr ≤−≤=≤≤ ,
sendo que,
rF é a frequência relativa acumulada.
Análise Exploratória de Dados 25
Nem sempre, as medidas de tendência central, a média por ex., fornecem informações
suficientes sobre o comportamento de uma variável X. Outras medidas podem se fazer
necessárias, como, as medidas de dispersão dessa variável.
2.2.3. Medidas de Dispersão
Além das medidas de centralidade e de posição, é importante obter informações sobre
a dispersão ou variabilidade dos dados. Suponha que os salários dos empregados de uma
empresa estejam concentrados em dois grupos: grupo 1 com salários em torno de 10000 reais
e grupo 2 com salários em torno de 800 reais. Não seria suficiente informar que a média de
salários da empresa é de aproximadamente 5000 reais. Este caso ilustra a importância das
medidas de dispersão para melhorar a comparação entre duas ou mais variáveis.
Apresentamos nesta seção as medidas de dispersão mais utilizadas: variância, desvio-padrão e
o coeficiente de variação. Estas medidas são ainda definidas sob o uso de dados agrupados em
subintervalos de classes.
Definição 2.5. DESVIO (di) - Considere uma amostra observada (P�, P
, ⋯ , P�) de tamanho n
de uma variável � . Então, o i-ésimo desvio ?\ em relação à média amostral x é dado por:
?\ = P\ − P̅, (2.9)
em que, = = 1, 2, . . . , �.
Podemos mostrar que 0)(
11
=−=∑∑
==
n
i
i
n
i
i xxd .
Definição 2.6. VARIÂNCIA AMOSTRAL ({
) - Considere uma amostra observada de
tamanho n (P�, P
, ⋯ , P�) de uma variável X. Um estimador da variância populacional 2σ é a
variância amostral {
, definida por
{
= 1� − 1 |(P\ − P̅)
�\a� (2.10)
Outro estimador comumente utilizado para estimar 2σ é dado por
}~
= 1� |(P\ − P̅)
�\a� .
Análise Exploratória de Dados 26
Estimaremos 2σ por {
, a menos em situações especificadas.
Definição 2.7. DESVIO PADRÃO AMOSTRAL ({) - Considere uma amostra observada (P�, P
, ⋯ , P�) de tamanho � de uma variável �. Um estimador do desvio padrão
populacional } é o desvio padrão amostral {, definido por
{ = � 1� − 1 |(P\ − P̅)
�\a� . (2.11)
Podemos observar que o desvio padrão amostral { é definido como a raiz quadrada da
variância amostral {
.
Outro estimador comumente utilizado para estimar } é dado por
}~ = �1� |(P\ − P̅)
�\a� .
Estimaremos o desvio padrão populacional } pelo estimador { .
É importante ressaltar que o desvio padrão é uma medida de dispersão que está na
mesma escala dos dados.
Definição 2.8. COEFICIENTE DE VARIAÇÃO AMOSTRAL (L�) - O coeficiente de
variação amostral L� é uma medida de dispersão adimensional definida como o quociente do
desvio padrão amostral pela média amostral:
L� = {�P̅ . (2.12)
Estimaremos o coeficiente de variação populacional, � = } �⁄ , por �~ = L�, de acordo com a
equação (2.12).
Análise Exploratória de Dados 27
As equações (2.10), (2.11) e (2.12) podem ser facilmente adaptadas para dados
agrupados. Se os dados estão agrupados em k classes ou categorias, com frequências
kjf j ,,1, L= , a variância amostral é dada por:
{
= 1� − 1 |(P5 − P̅)
N5a� 45 ,
em que, x é definida pela equação (2.6).
Exemplo 2.7 - Considere uma amostra aleatória (a.a.) de tamanho 21 do tempo de espera �
(em minutos) até o atendimento � de usuários numa fila de uma biblioteca: � = (2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17.0, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16.0, 15.0, 1.4, 1.3, 19.0).
A amostra ordenada de � é dada por:
(1.2, 1.3, 1.4, 1.4, 1.5, 1.7, 1.8, 2.0, 2.4, 2.4, 2.8, 3.0, 3.1, 3.5, 4.8, 5.0, 8.0, 15.0, 16.0, 17.0, 19.0).
Algumas estatísticas para os dados da Tabela 2.5 calculadas no software R são dadas por
21
21
1∑ == i i
x
x = 5.4428 min. , mediana = 2.8 min.
{�
= �
�X� ∑ (P\ − P̅)
�\a� = 34.5286 min2 , {� = 5.8751 min.
TABELA 2.5 - Percentis do tempo de espera na fila (em minutos).
Percentil xp 0 5 10 25 50 75 90 95 100
1.2 1.3 1.4 1.7 (1o quartil) 2.8 (mediana) 5.0 (3o quartil) 16.0 17.0 19.0
Então, o valor x para o qual 90% dos valores amostrais são menores ou iguais a P é 16.0. Observe que pela definição de percentis,
Análise Exploratória de Dados 28
V6(� < 16.0) = 90% ,
sendo que, V6 é chamada de frequência relativa acumulada do tempo de espera.
A Figura 2.15 apresenta um histograma da variável X.
FIGURA 2.15 - Histograma do tempo de espera na fila de 21 usuários de uma biblioteca.
## Códigos em R para os dados do Exemplo 2.7
rm(list=ls(all=TRUE)) # remove todas as variaveis
x=c(2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4,
16, 15, 1.4, 1.3, 19)
ordx= sort(x) # dados ordenados
summary(x) # resumo dos dados
xbar= mean(x) # média de X
var(x) # variância de X
sd(x) # desvio padrão de X
n=length(x) # tamanho da amostra
q=c(0, 0.05, 0.10, 0.25, 0.50, 0.75, 0.90, 0.95, 1) # para definir percentis de
interesse
quantile(x, q)
Md=median(x) # mediana de X
hj=c(0,4,8,12,16,20) # vetor de limites de classes
hist(x, breaks=hj, xlim = range(hj), ylim = c(0,0.20) , main="", xlab="tempo de
espera na fila (min)",
ylab="densidade", col="blue", probability=T)
########
Análise Exploratória de Dados 29
2.2.4. Medidas de Assimetria
Definição 2.9. COEFICIENTE DE ASSIMETRIA DE PEARSON (��) - O coeficiente de
assimetria de Pearson mede o grau de assimetria da distribuição de frequência em relação à
uma distribuição de frequência simétrica, é definido como:
,
X
o
X
S
Mx
A
−
=
sendo que, j� , P � e {� representam, a moda, a média e o desvio-padrão amostrais da
variável � , respectivamente.
Se �� = 0, a distribuição é simétrica.
Se �� > 0, a distribuição é assimétrica à direita.
Se �� < 0, a distribuição é assimétrica à esquerda.
Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As
Figuras 2.16 e 2.17 mostram posições relativas entre a média moda e mediana, e alguns tipos
de histogramas, respectivamente.
FIGURA 2.16 - Posições relativas entre a média, mediana e moda numa população. Fonte: DOANE &
SEWARD (2011).
Análise Exploratória de Dados 30
FIGURA 2.17 - Alguns histogramas com características importantes . Fonte: DOANE & SEWARD (2011).
2.4. Função de Distribuição Empírica
DEFINIÇÃO: Sejam (P�, P
, ⋯ , P�) uma amostra observada de tamanho � de uma variável
quantitativa e P um número real qualquer. A de função de distribuição empírica (Fde),
indicada por V�(P) é dada por
V�(P) = �(P)� ,
sendo que, �(P) representa o número de observações menores ou iguais a P.
A Figura 2.18 representa a Fde da variável � do Exemplo 2.6 (b).
Análise Exploratória de Dados 31
FIGURA 2.18 - Função de distribuição empírica da variável � do Exemplo 2.6 (b).
O código em R plot(ecdf(x),col='red',do.points=T, verticals=F, main="") foi utilizado
para construir a Figura 2.18.
Análise Exploratória de Dados 32
3. Dados Bivariados
Suponha que temos duas medidas x e y associadas com cada unidade amostral. Um
dos interesses é descobrir possíveis relações existentes entre as variáveis X e Y. Podemos, por
exemplo verificar a relação existente entre renda e nível de escolaridade ou entre a nota obtida
em um teste e o tempo de estudo.
3.1. VARIÁVEIS QUALITATIVAS BIVARIADAS
Podemos construir tabelas de frequência com dupla entrada. Essas tabelas de dados
com classificação cruzada, como mostram os Exemplos 3.1 - 3.3, são conhecidas por tabelas
de contingência.
Exemplo 3.1. Suponha que uma pesquisa de opinião foi conduzida entre 400 operários de
uma indústria metalúrgica. Cada operário foi consultado a respeito de uma possível greve a
ser realizada pelos operários da indústria. Cada operário apresentou a sua opinião (sim,
indiferente ou não) e também informou se pertence ou não ao sindicato local (ver Tabela
3.1). Portanto, as variáveis de interesse neste caso são X = opinião e Y = situação sindical.
TABELA 3.1 - Pesquisa de Opinião.
Y
X
Sim Indiferente Não TOTAL
Sindicalizado 112 36 28 176
Não sindicalizado 84 68 72 224
TOTAL 196 104 100 400
Para verificarmos possíveis relações entre as duas variáveis categóricas X e Y podemos
construir uma tabela equivalente a Tabela 3.1 com as frequências relativas de cada categoria,
ver Tabela 3.2:
TABELA 3.2 - Frequências relativas.
Y
X
Sim Indiferente Não TOTAL
Sindicalizado 0,28 0,09 0,07 0,44
Não sindicalizado 0,21 0,17 0,18 0,56
TOTAL 0,49 0,26 0,25 1,00
Análise Exploratória de Dados 33
Outra possibilidade seria, com a finalidade de comparar os dois grupos de pessoas
(176 sindicalizados e 224 não sindicalizados), verificar se as proporções em cada categoria
são iguais ou não. Para isso, podemos construir uma tabela de frequências relativas em
relação aos totais marginais considerando dois grupos de 176 e 224 indivíduos, ver Tabela
3.3:
TABELA 3.3 - Frequências relativas em relação aos totais marginais.
Y
X
Sim Indiferente Não TOTAL
Sindicalizado 0,636 0,205 0,159 1,000
Não
sindicalizado
0,375 0,304 0,321 1,000
Note que na Tabela 3.3 a frequência relativa dos operários favoráveis à greve
pertencentes ao sindicato é dada por: 112/176 = 0,636.
3.2. VARIÁVEIS QUANTITATIVAS BIVARIADAS
Suponha que temos duas variáveis contínuas x e y medidas para cada unidade
amostral. Representaremos esse dados por n pares (x1 , y1) , ... , (xn , yn).
Podemos formular as seguintes questões:
(i) As variáveis são relacionadas?
(ii) Qual é a forma de relacionamento entre as duas variáveis?
(iii) Como podemos medir esta relação?
(iv) Como podemos prever uma variável a partir do conhecimento da outra variável?
Uma verificação visual do relacionamento entre as duas variáveis � e 3 pode ser dada
a partir de um gráfico dos valores xi versus yi, , i = 1, ...,n. Este gráfico é chamado de
diagrama de dispersão e sua construção consiste na representação no plano cartesiano dos
pares (x1 , y1) , ... , (xn , yn). Na Figura 3.1 temos um exemplo de um diagrama de dispersão.
Exemplo 3.2 – Os pares de medidas abaixo representam a temperatura (�) e a potência (3) de 15 motores de mesmo tipo submetidos a um teste de laboratório numa fábrica de automóveis.
� 19, 15, 35, 52, 35, 33, 30, 57, 49, 26, 45, 39, 25, 40, 40 3 1.2, 1.5, 1.5, 3.3, 2.5, 2.1, 2.5 ,3.2, 2.8, 1.5, 2.2, 2.2, 1.9, 1.8, 2.8
Análise Exploratória de Dados 34
O gráfico dos valores observados de X versus Y é dado na Figura 3.1.
Figura 3.1 - Diagrama de dispersão da Temperatura e potência de 15 motores elétricos.
Com base na Figura 3.1 podemos observar uma possível relação linear entre X e Y .
COEFICIENTE DE CORRELAÇÃO AMOSTRAL
O coeficiente de correlação amostral 7 é uma medida da relação linear entre duas
variáveis X e Y, definida por:
YX
n
i
ii
SSn
yyxx
r
)1(
))((
1
−
−−
=
∑
=
, (3.1)
em que, 11 ≤≤ r- e XS e YS são os desvios padrões das variáveis X e de Y, respectivamente.
O coeficiente de correlação amostral 7 pode ser escrito usando a covariância amostral
),cov( yx entre as variáveis X e Y, definida por
1
))((
),cov( 1
−
−−
=
∑
=
n
yyxx
yx
n
i
ii
.
Análise Exploratória de Dados 35
As Figuras 3.2a e 3.2b apresentam exemplos de diagramas de dispersão sugerindo
diferentes relações entre as variáveis X e Y e o valor do coeficiente de correlação 7.
(a) (b)
(c) (d)
FIGURA 3.2a - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y.
(e) (f)
FIGURA 3.2b - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y.
Na interpretação dos valores de r temos:
432
5
4
3
x
y
r = 0,9
2 3 4
3
4
5
x
y
r = -0,9
2 3 4
3
4
5
x
y
r = 0,5
432
5
4
3
x
y
r = - 0,5
2 3 4
3
4
5
x
y
r = 0
432
5
4
3
x
y
r = 0
Análise Exploratória de Dados 36
(i) r indica o grau de relação linear, enquanto o seu sinal indica a direção da relação
linear.
(ii) Se r = 1, todos os pontos (x , y) estão na reta com inclinação positiva.
(iii) Se r = -1, todos os pontos (x , y) estão na reta com inclinação negativa.
(iv) Se 0 ≅r não temos relação linear entre X e Y, mas podemos ter outro tipo de relação
não-linear, ver Figura 3.2b (f).
Quando os pontos estão agrupados em dois blocos, o coeficiente de correlação r não é
adequado para sugerir uma relação linear entre as variáveis (X, Y), ver Figura 3.3.
Figura 3.3 - Pares (x , y) agrupados em dois blocos.
3.3. REGRESSÃO LINEAR SIMPLES
O estudo experimental entre duas variáveis é frequentemente motivado pela
necessidade de achar o valor de previsão de uma variável a partir do valor da outra variável.
Por exemplo, considere as seguintes situações:
(i) Duração de um treinamento e o grau obtido por um aluno.
(ii) Taxa de desemprego e taxa de criminalidade.
(iii) Expectativa de vida e taxa de analfabetismo.
432
5
4
3
x
y
Análise Exploratória de Dados 37
Seja X a variável preditora ou independente e seja Y a variável resposta ou
dependente. Para determinar uma possível relação linear entre as variáveis X e Y, seguimos o
seguinte procedimento:
(i) Fazer um diagrama de dispersão dos pontos (x , y).
(ii) Se existir aproximadamente uma relação linear entre X e Y, podemos avaliar esta
linearidade calculando o coeficiente de correlação amostral r.
(iii) Determinar a reta que melhor se aproxima dos pontos observados.
Considere que a reta que se propõe ajustar seja dada por
� = �W + ��P + �. (3.2)
Para o ajuste do modelo linear (3.2) usaremos o método de mínimos quadrados (MMQ).
Considere os dados observados (P\, �\), �\ = �W + ��P\ + �\ = = 1, ⋯ , �, em que
yi = i-ésima observação da variável dependente;
xi = i-ésima observação da variável independente;
�W, �� = parâmetros de regressão, nomeados de intercepto e coeficiente
angular, respectivamente; �\ = �\ − ��1 i-ésimo valor do erro aleatório ou resíduo do modelo de
regressão.
O método MMQ consiste em determinar os valores de �W e �� para os quais
{(�W, ��) = | �\
�\a� = | (�\ − (�W + ��P\))
�\a� (3.3)
é mínima. Para fazer isso, é preciso resolver o sistema de equações envolvendo as derivadas
de {(�W, ��), cuja solução pode ser vista em Bussab & Morettin (2009).
Considerando n observações bivariadas (P�,��), (P
, �
), ⋯ , (P�, ��), a equação
ajustada por mínimos quadrados é dada por:
xy 10
ˆˆˆ ββ += (3.4)
em que, o coeficiente angular 1β̂ e o intercepto 0β̂ são dados respectivamente pelas equações
Análise Exploratória de Dados 38
∑
∑
=
=
−
−−
=
n
i
i
n
i
ii
xx
yyxx
1
2
1
1
)(
))((
β̂ (3.5)
e
xy 10
ˆˆ ββ −= . (3.6)
Exemplo 3.3 - Nota de uma prova em Estatística e tempo de estudo em horas de 5 alunos
escolhidos aleatoriamente.
As variáveis são:
• � = tempo de estudo (em horas);
• 3 = nota da prova.
Considere os pares de observações (P\ , �\):
Tempo (P\) 3.0, 7.0, 2.0, 1.5, 12.0
Nota (�\) 4.5, 6.5, 3.7, 4.0, 9.3
Um resumo dos dados está apresentado na seguinte tabela:
A B C D E = CD L
G B - G
i P\ �\ P\ − P̅ �\ − �0 �~\ 8\ = �\ − �~\ 8G\
1 3 4.5 -2.1 -1.1 2.31 4.4 0.1 0.03
2 7 6.5 1.9
3 2 3.7 -3.1
4 1,5 4.0 2.6
5 12 9.3 6.9
| 25.5 0 0
Note que P̅ = ∑ ��n��p� =
�,�� = 5,1 horas, �0 = 5.6 e de acordo com as equações (3.5 ) e (3.6) ��W = 2,9 e ��� = 0,5.
A Figura 3.4 apresenta o diagrama de dispersão e a reta de regressão ajustada.
Análise Exploratória de Dados 39
Figura 3.4 - Gráfico da reta ajustada do Exemplo 3.3.
O coeficiente de correlação, de acordo com a expressão (3.1) é dado por
7 = )7
= √0.992 = 0.996.
A partir da reta ajustada �~ = 2,9 + 0,5P, ver Figura 3.4, podemos achar valores de
previsão de � a partir de valores atribuídos a P. Por exemplo, a previsão de � para P = 8 é
dada por �~(8) = 2,9 + 0,5 × 8 = 6,9. Isto é, uma previsão da nota obtida para um aluno que
estuda 8 horas é �~ = 6,9.
Para determinar o acréscimo na nota 3 quando se aumenta o tempo de estudo em uma
unidade, basta fazer � = 2,9 + 0,5(P + 1). Note que, � = 2.9 + 0,5P + 0,5. Significa que 3 aumenta em ��� = 0,5.
Análise de Resíduos (8\ = �\ − �~\)
Para verificar a adequação do ajuste podemos construir os gráficos: resíduos versus
variável independente � , resíduos versus valor ajustado �~ e resíduos padronizados versus
valor ajustado �.1
Análise Exploratória de Dados 40
Se os pontos estiverem aleatoriamente distribuídos em torno de zero, temos uma
indicação de que o modelo está bem ajustado. Resíduos padronizados ( sie ) fora do intervalo
]2,2[− são denominados pontos aberrantes.
ni
e
e
e
ei
si , ,2 ,1, K=
−
=
σ
µ
.
Figura 3.5 - Gráfico dos resíduos ei versus valores ajustados iŷ .
Análise gráfica dos resíduos padronizados:
Observe que os pontos ie na Figura 3.5 estão aleatoriamente distribuídos em torno de
zero, indicando adequação do modelo linear ajustado.
Análise Exploratória de Dados 41
Figura 3.6 - Gráfico dos resíduos sie versus valores ajustados iŷ .
Observe que os pontos sie na Figura 3.6 estão aleatoriamente distribuídos em torno de
zero. Não há um ou mais pontos fora do intervalo [-2, 2]. Isto sugere que o modelo linear
ajustado pode ser utilizado para explicar a nota do aluno (Y) pelo o tempo de estudo (X).
Entretanto o tamanho da amostra n = 5 é pequeno para se tomar qualquer conclusão segura.
## Códigos em R para os dados do Exemplo 3.3.
rm(list=ls(all=TRUE)) # remove todas as variaveis
x=c(3,7,2,1.5,12) # para criar o vetor x
y=c(4.5,6.5,3.7,4,9.3) # para criar o vetor y
n=length(x) # comprimento do vetor x , n=5
reg=lm(y ~ x); reg # regressao linear
## diagrama de dispersão e reta ajustada
plot(x,y)
abline(reg)
##
X <- model.matrix(reg)
n <- nrow(X)
p <- ncol(X)
H <- X%*%solve(t(X)%*%X)%*%t(X) ## ajuste solve(t(X)%*%X)%*%t(X)%*%y
h <- diag(H)
lms <- summary(reg)
s <- lms$sigma
r <- resid(lms)
ts <- r/(s*sqrt(1-h))
si <- lm.influence(reg)$sigma
tsi <- r/(si*sqrt(1-h))
a <- max(tsi)
b <- min(tsi)
#
## diagrama de dispersão e reta ajustada
plot(x,y,xlab="tempo de estudo", ylab="nota",pch=16)
Análise Exploratória de Dados 42
abline(reg, col='red')
# Gráfico dos resíduos
plot(fitted(reg),r,xlab="Valores Ajustados",
ylab="Residuos", ylim=c(-0.3,0.3), pch=16)
#
# ## Resíduos padronizados
pred<-predict(reg) # valores estimados
ei=y-pred # resíduos
esi= (ei-mean(ei))/sd(ei) # resíduos padronizados
plot(pred,esi, ylim=c(-3,3),pch=16,xlab="valores ajustados",ylab="resíduos
padronizados", col='red')
abline(2,0,lty=2)
abline(-2,0,lty=2)#
Exemplo 3.4 - Continuação do Exemplo 1.2 - Determinação do Tamanho de uma População
(�). Considere uma população formada por um conjunto de � táxis de uma cidade e que os
táxis são enumerados de 1 a �. Para estimar o número � de táxis da cidade, foram anotados
os números de todos os táxis que um turista pegou: 440, 73, 179, 405 e 280. Determine a
probabilidade de o turista ter tomado os táxis que têm esses números e determine o valor de �
para o qual essa probabilidade é máxima.
Solução. Considere os eventos, � = {B �7=O8=7B @áP= @8O �úO87B 440}, = {B G8A:�?B @áP= @8O �úO87B 73}, e assim por diante.
Então, !(� ∩ ∩ L ∩ ¢ ∩ £) = !(�)!( |�)!(L|� ∩ )!(¢|� ∩ ∩ L)!(£|� ∩ ∩ L ∩ ¢)
= 1� 1� 1� 1� 1� = 1�� .
A probabilidade de ocorrer a amostra observada (440, 73, 179, 405, 280), !(� ∩ ∩ L ∩¢ ∩ £) é chamada de função de verossimilhança. Neste caso particular, esta função é
máxima quando o valor de � é mínimo. Ora, como � ≥ 440, o valor de � que torna máxima
a função de verossimilhança é 440. A estimativa de máxima verossimilhança de � é 440.
Uma introdução a teoria das probabilidades é apresentada no Capítulo 4.
Análise Exploratória de Dados 43
Exercícios dos Capítulos 1, 2 e 3
Lista 1: Exercícios: 1, 3, 4, 5, 8, 10, 18, 20, 24, 27. Entregar até o dia 10/10/2022.
1. Dadas as Tabelas 1 e 2 a seguir. Esboçar um gráfico adequado em cada caso e interpretar.
TABELA 1 - Consumo mensal de
energia elétrica da Fábrica X., 2011-2020.
ANO KW
2011 196
2012 195
2013 183
2014 150
2015 164
2016 185
2017 173
2018 308
2019 180
2020 405
Fonte: Fábrica X.
2. Atualize até o ano de 2015 e represente graficamente os dados da Tabela 3 para
as variáveis: densidade demográfica, e população residente, segundo o ano, sexo e
situação do domicílio. Para atualizar os dados utilize o site do IBGE
(www.ibge.gov.br).
Tabela 3 - Estado do Maranhão - População residente, por sexo, situação do domicílio e
densidade demográfica.
Ano
Total
(hab)
Sexo Situação do domicílio Densidade
demográfica
(hab/km2) Homens Mulheres Urbana Rural
1980 3.996.444 1.991.701 2.004.743 1.254.830 2.741.614 11,99
1991 4.930.253 2.446.865 2.483.388 1.972.421 2.957.832 14,79
1996 5.222.183 2.595.181 2.627.002 2.711.175 2.511.008 15,67
2000 5.651.475 2.812.681 2.838.794 3.357.898 2.285.062 16,95
2001(1) 5.749.966 2.869.255 2.880.711 3.754.892 1.995.074 17,25
Fonte: IBGE.
(1) PNAD.
3. Atualize e represente graficamente os dados da Tabela 3 para a variável população
residente (%), segundo cor ou raça , no Estado do Maranhão, Nordeste e Brasil –
2001. Para atualizar os dados utilize o site do IBGE (www.ibge.gov.br). Comparar
os dados atualizados com o dados do ano 2001.
TABELA 2 - Frequências de
2000 empregados da Companhia
MB, segundo o grau de
instrução.
Grau de
instrução
frequência (¥¦)
superior 650
médio 1020
fundamental 330
Total 2000
Fonte: Companhia MB.
Análise Exploratória de Dados 44
Tabela 3 - População residente (%), segundo cor ou raça, no Estado do
Maranhão, Nordeste e Brasil 2001.
Cor ou raça (%) Maranhão Nordeste Brasil
Branca 24,5 29,5 53,4
Preta 7,4 6,15,6
Parda 66,9 64,1 40,4
Amarela e indígena 1,3 0,3 0,6
Fonte: IBGE. PNAD 2001: microdados. Rio de Janeiro: IBGE, 2002. 1 CD-ROM. Extraído da publicação
Indicadores Sociais Mínimos
Nota: Os dados do Brasil não incluem a população rural de Rondônia, Acre, Amazonas, Roraima, Pará e Amapá.
4. Os dados abaixo representam a idade � em anos de 50 indivíduos:
84, 68, 53, 52, 59, 73, 68, 61, 73, 77, 74, 71, 81, 81, 65, 55, 57, 65, 85, 88, 59,
80, 61, 50, 53, 65, 76, 85, 73, 60, 67, 51, 78, 56, 74, 65, 55, 55, 64, 74, 65, 84,
66, 58, 59, 69, 89, 78, 72, 54
a) Obtenha uma tabela de distribuição de frequências, calculando fj, (freq. simples) e
fr (freq. relativa).
b) Supondo que os indivíduos com idade superior a 65 devem ser escolhidos, determine este
percentual.
c) Construa um histograma e o polígono de frequências baseado nas frequências
relativas (frj) para os dados.
d) Calcule a média, a variância e o desvio padrão para os dados brutos e dados
agrupados em classes. Compare os resultados.
e) Determine a idade x que deixa 90% dos indivíduos abaixo desse valor.
Sugestão: utilizar os intervalos de classe: [50, 55), [55, 60), ....
5. O que acontece com a média, a mediana e desvio-padrão de uma amostra observada de
tamanho n (P�, P
, ⋯ , P�) de uma variável quantitativa X quando
a) soma-se uma constante c a cada observação (3 = � + <) ; b) subtrai-se a
média amostral x de cada observação (3 = � − P̅);
c) subtrai-se de cada observação a média amostral x e divide-se este resultado pelo
desvio-padrão {� .
6. Uma indústria produz dois tipos de componentes eletrônicos A e B. O tempo de
duração até falhar (em horas) de A e de B é dado:
A : 3020, 2890, 2350, 2875, 2970, 3005, 2780, 3010, 2600, 3040
B : 2900, 3050, 2975, 2450, 2890, 2875, 2990, 2300, 2700, 2990
a) Qual o componente que tem a maior dispersão?
b) Qual o componente que tem a maior dispersão relativa?
7. A Tabela 4 a seguir apresenta a média e o desvio padrão dos valores de três variáveis
usadas como indicadoras da qualidade de vida de uma população, medidas nas 27
unidades da federação brasileiras (Folha de São Paulo de 09/09/98):
Análise Exploratória de Dados 45
Tabela 4
Variável Média Desvio Padrão
Esperança de vida (em anos) 66,97
2,39
Taxa de alfabetização (em %) 80,85
9,62
PIB per capita ajustado
(em dólares ajustados pelo poder de
compra)
4846 1697
Deseja-se escolher uma dessas variáveis para se criar um ranking de qualidade de vida entre
estas UF’s. A variável escolhida deve ser, portanto, a de melhor poder de discriminação. Com
as informações fornecidas na Tabela 4, podemos dizer que esta deve ser a variável de maior
heterogeneidade entre as UF’s. Qual deve ser a variável escolhida ? Justifique.
8. Uma companhia telefônica está interessada em obter informações sobre o tempo de
duração
(em minutos) das conversações telefônicas e determinou-se que o tempo médio de
conversação era de 3,4 minutos. Um mês mais tarde, 30 chamadas telefônicas foram
observadas e achou-se um tempo médio de conversação de 4,2 minutos. Ache o tempo médio
de conversação das 50 chamadas da pesquisa.
9. Medidos os comprimentos de 101 peças fabricadas obteve-se x = 152,2cm e S = 6,9cm. O
peso médio dessas mesmas peças é 25kg, com um desvio padrão de 1,3kg. Essas peças
apresentam maior variabilidade em comprimento ou em peso?
10. Para se estudar o desempenho de duas companhias corretoras de ações, selecionou-se de
cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada;
computou-se a percentagem de lucro apresentada durante um período fixado de tempo. Os
dados estão a seguir:
CORRETORA A ( AX ) 45 62 38 55 54 65 60 55 48
56 59 55 54 70 64 55 48 60
CORRETORA B ( BX ) 57 50 59 61 57 55 59 55 52 55
52 57 58 51 58 59 56 53 50 54 56
a) Para verificar a homogeneidade das duas populações um estatístico sugeriu o quociente:
)(
)(
B
A
XVar
XVar
F = ,
em que )( AXVar e )( BXVar correspondem a variância de AX e variância de BX ,
respectivamente. Que decisão você adotaria para dizer se são homogêneas ou não ?
b) Adote agora o seguinte teste:
Análise Exploratória de Dados 46
BA nn
BAt
S
xx
11
*
+
=
− , nnn BA =+ ; 2
)()1()()1(2
−+
−+−
=
BA
BBAA
nn
XVarnXVarn
S
.
Caso | t | < 2 os desempenhos são semelhantes, caso contrário são diferentes. Qual é a sua
conclusão ?
11. A distribuição de frequência do salário mensal dos funcionários da fábrica X é apresentada
na tabela abaixo:
TABELA 5 - Salário mensal dos funcionários
da Fábrica X - nov/2010.
SALÁRIOS
MÍNIMOS
FREQUÊNCIA
0 | 2 1000 a) construa um histograma da distribuição
2 | 4 390 b) determine a média a variância e o desvio-padrão
4 | 6 200
c) Uma fábrica Y apresenta , uma média de 8,2
salários mínimos e um
6 | 8 110
Desvio-padrão de 15,1 salários mínimos.
Em qual das fábricas os salários são mais
homogêneos ?
8 | 10 80
10 | 12 70
12 | 14 200
TOTAL 2050
Fonte: Dept. de Pessoal.
12. Para cada uma das doses 200, 300, 500 e 1000 (mg) de uma determinada droga foram
submetidos seis grupos, cada um com dez indivíduos, e observado o nº de pacientes curados.
Os dados são resumidos na tabela abaixo.
200 300 500 1000
7 9 10 6 7 9 6 4 8 1 3 2
8 9 9 7 8 4 5 6 3 2 6 5
Calcule para cada dose a média, mediana e o desvio padrão. Compare o nº médio com o nº
mediano de indivíduos curados segundo as doses. Comente.
13. Os Os dados abaixo se referem ao tempo de espera numa fila de 30 indivíduos.
4,2 4,2 1,9 3,6 4,2 5,1 6,0 1,8 1,5 6,9
6,5 4,5 2,4 5,4 5,1 7,4 6,0 2,0 3,0 8,2
7,5 6,8 8,0 6,9 5,7 7,5 7,2 2,7 3,9 8,5
a) Calcule as medidas descritivas: mínimo, 1º. quartil, média, mediana, 3º. quartil,
máximo;
b) Construa uma tabela de distribuição de frequências e calcule as medidas acima, a
partir dos dados da tabela;
Análise Exploratória de Dados 47
c) Compare os resultados obtidos nos itens a) e b);
d) Construa um histograma e interprete;
e) Construa um desenho esquemático (box plot) e interprete.
14. Uma indústria, desejando melhorar o nível de seus funcionários em cargos de chefia,
montou um curso experimental e indicou 25 funcionários para a primeira turma. Os dados
referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir.
Utilizando o R, EXCEL ou MINITAB.
(a) Classifique as variáveis listadas.
(b) Calcule média, moda, mediana e desvio padrão das variáveis Direito, Política e Estatística.
(c) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito,
Política e Estatística (use “dotplots”).
(d) Compare o aproveitamento dos funcionários da disciplina Estatística segundo a seção a
que eles pertencem.
(e) Construa uma tabela de contingência para as variáveis seção e inglês. Determine as
freqüências relativas e compare o desempenho dos funcionários em inglês segundo a seção a
que eles pertencem.
Funcionário Seção Direito Política Estatística Inglês Metodologia
1 Pessoal 9 9 9 B A
2 Pessoal 9 6,5 9 B C
3 Pessoal 9 9 8 D B
4 Pessoal 9 6 8 D C
5 Pessoal 9 6,5 9 A A
6 Pessoal 9 6,5 10 B A
7 Pessoal 9 9 8 D C
8 Técnica 9 6 8 B C
9 Técnica 9 10 9 B B
10 Técnica 9 9 8 B C
11 Técnica 9 10 10 C B
12 Técnica 9 6,5 7 D B
13 Técnica 9 6 7 B C
14 Técnica 9 10 9 A B
15 Vendas 9 10 9 C B
16 Vendas 9 9 7 A A
17 Vendas 9 10 8 D C
18 Vendas 9 6 9 C C
19 Vendas 9 6 1 D C
20 Vendas 9 6 7 C B
21 Vendas 9 6,5 7 D B
22 Vendas 9 6 8 C A
23 Vendas 9 9 10 C C
24 Vendas 9 6,5 9 A A
25 Vendas 9 9 9 B A
15. A tabela a seguir apresenta o tempo (em unidades de milhões de ciclos) até a perda develocidade de cinco tipos de turbina de avião. Foram considerados 10 motores para cada tipo
de turbina. Calcule para cada tipo a média, mediana, desvio padrão e intervalo interquartil.
Compare os cinco tipos segundo essas medidas. Calcule também o coeficiente de variação
Análise Exploratória de Dados 48
para cada tipo, comente. Utilize agora o comando boxplot do R e faça uma comparação
gráfica do desempenho dos cinco tipos de turbina.
Tipo 1 Tipo 2 Tipo 3 Tipo 4 Tipo 5
3.03 3.19 3.46 5.88 6.43
5.53 4.26 5.22 6.74 9.97
5.60 4.47 5.69 6.90 10.39
9.30 4.53 6.54 6.98 13.55
9.92 4.67 9.16 7.21 14.45
12.51 4.69 9.40 8.14 14.72
12.95 5.78 10.19 8.59 16.81
15.21 6.79 10.71 9.80 18.39
16.04 9.37 12.58 12.28 20.84
16.84 12.75 13.41 25.46 21.51
16. A tabela seguinte mostra os resultados de uma pesquisa com 10 famílias de determinada
região.
Família
s
Renda
(u.m.:100)
Poupança
u.m.:1000)
Número de
filhos
Média de anos de
estudo da família
A 10 4 8 3
B 15 7 6 4
C 12 5 5 5
D 70 20 1 12
E 80 20 2 16
F 100 30 2 18
G 20 8 3 8
H 30 8 2 8
I 10 3 6 4
J 60 15 1 8
Calcule o coeficiente de correlação linear de Pearson entre:
a) renda familiar e poupança das dez famílias;
b) renda e número de filhos para as dez famílias;
c) poupança e número de filhos;
d) média de anos de estudo e número de filhos;
e) renda familiar e media de anos de estudo.
17. Existe associação entre as vendas de gasolina com chumbo e a concentração de chumbo
no cordão umbilical de recém-nascidos? A s vendas mensais de gasolina com chumbo no
estado de Massachusetts (X) e as concentrações médias de chumbo no cordão umbilical (Y) de
bebês nascidos no principal hospital de Boston durante 14 meses no período de 1980-1981
são listados na tabela abaixo.
a) Calcule o coeficiente de correlação linear de Pearson entre X e Y.
Análise Exploratória de Dados 49
b) Ajuste de uma reta de regressão para descrever a relação entre as variáveis Y (dependente)
e X (independente). Qual é o acréscimo na concentração média de chumbo no cordão
umbilical ocasionado pela venda adicional de uma tonelada métrica de gasolina?
c) Considerando a reta estimada dada no item (b), estime a concentração média no cordão
umbilical correspondente à venda de 110 toneladas métricas de gasolina.
X 141 166 161 170 148 136 169 109 117 87 105 73 82 75
Y 6,4 6,1 5,7 6,9 7,0 7,2 6,6 5,7 5,7 5,3 4,9 5,4 4,5 6,0
18. Uma pesquisa sobre a qualidade da água foi realizada numa cidade. Em 8 comunidades
com reservatórios de água na superfície, estudou-se o efeito da quantidade de magnésio
(miligramas p/ litro) sobre um índice de qualidade.
x 8,7 9 11 8,5 9,2 12 12 18
y 25 25 26 48 65 87 90 100
(a) calcular o coeficiente de correlação amostral. Fazer um diagrama de dispersão das
variáveis � (covariável) e 3 (variável resposta).
(b) Obter 0β̂ , 1β̂ e a equação da reta ajustada. Qual a interpretação de 0β̂ e 1β̂ ?
(c) Achar o valor de previsão para a qualidade da água com P = 15 miligramas por litro de
magnésio
(d) Fazer o gráfico dos resíduos yyei ˆ−= versus valores ajustados �~ e comentar.
19. Os dados a seguir representam o número de filhos do sexo feminino (X) de 40 moradores
de um bairro A da cidade de São Luís. x = (5 ,2, 3, 1, 3, 2, 2, 3, 2, 2, 4, 4, 1, 3, 2, 2, 4, 4, 3, 3,
3, 0, 2, 4, 3, 2, 2, 4, 2, 5, 1, 4, 1, 1, 1, 3, 3, 0, 3, 1). Construir uma tabela com as frequências
simples (fj) e relativas (frj). Construir um gráfico apropriado para representar a variável X.
Determinar a média a mediana e o desvio padrão de X. Estimar a probabilidade de uma
família sorteada ao acaso possuir dois ou menos filhos do sexo feminino pela frequência
relativa deste evento.
20. Os dados a seguir representam uma amostra (x,y) de tamanho 10 das notas de alunos de
Cálculo (1a prova) e Estatística (1a prova) do curso de Matemática da UFMA.
Cálculo (X) Estatística (Y)
5 6
7.5 8
6.5 6
8 9
9.5 10
3 4
5.5 5
Análise Exploratória de Dados 50
9 10
7 7.5
2 2.5
(a) calcular o coeficiente de correlação amostral. Fazer um diagrama de dispersão das
variáveis X (covariável) e Y (variável resposta).
(b) Obter 0β̂ , 1β̂ e a equação da reta ajustada. Qual a interpretação de 0β̂ e 1β̂ ?
(c) Achar o valor de previsão para a nota de estatística com x = 9.
(d) Fazer o gráfico dos resíduos padronizados e comentar.
21. As três maiores universidades do país em quantidade de alunos na graduação estão longe
do topo na lista de melhores do país no RUF (Ranking Universitário Folha), publicado em
09/09/2013, veja a figura a seguir.
Fonte: http://f.i.uol.com.br/folha/cotidiano/images/13254708.jpeg
Utilize um modelo de regressão linear para ajustar os dados observados das variáveis X =
número de alunos e Y = nota total no RUF (variável resposta). Comente os resultados.
22. Considere uma variável de interesse X. Mostre que soma dos quadrados dos desvios de X
em relação à média X é um mínimo.
Sugestão: Mostrar que o valor da função 4(�) = ∑ (P\ − �)
�\a� será mínimo quando � = P̅.
23. (PROFMAT - 2015) As notas obtidas por cinco alunos em uma prova de matemática
indicam que a mediana é 6, a moda é 8 e a média aritmética é 6. Acrescentando-se à amostra a
nota de um sexto aluno, que fez a segunda chamada da prova, a mediana aumenta para 6,5.
Nessas condições, determine a nova média aritmética das notas. Resposta: 37/6.
Análise Exploratória de Dados 51
24. A idade média da idade dos candidatos a um determinado curso sempre foi baixa, da
ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se
uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se um
levantamento da idade dos candidatos atualmente, e os resultados estão na tabela a seguir.
Idade (X)
Frequência simples Frequência acumulada
absoluta relativa absoluta relativa
fj frj V5 V65 P5
18 | 20 18 0,36 V� V6� 19
20 | 22 12 0,24 V
V6
21
22 | 26 10 0,20 ⋮ ⋮ 24
26 | 30 8 0,16 ⋮ ⋮
30 | 36 2 0,04 � 1
TOTAL 50 1,0
(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, a
média aumentou?)
(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença (P̅ − 22) fosse maior
que o valor 2}�/√�, então a campanha surtiu efeito. Qual a conclusão dele baseada nos
dados?
(c) Fazer um histograma para os dados da variável X.
(d) Determinar as frequências acumuladas V5 e V65, C = 1,2, ⋯ , K , sendo que, V5 = 4� + 4
+ ⋯ + 45; V65 = [Z� , C = 1,2, ⋯ , K;
ou V65 = 46� + 46
+ ⋯ + 465.
25. O que acontece com a média e o desvio padrão de uma série de dados quando:
(a) cada observação é multiplicada por 2?
(b) soma-se 10 a cada observação?
(c) subtrai-se a média amostral P̅ de cada observação?
(d) de cada observação subtrai-se P̅ e divide-se pelo desvio padrão amostral S ?
26. 15. Os dados a seguir representam o tempo de atendimento em horas para uma amostra de
n = 20 pacientes numa clínica médica, no ano de 2015 num hospital da cidade de São Luís.
11.80,11.90,12.00,12.30,12.80,12.99,13.10,13.50,13.80,14.10,
14.55,14.65,14.70,15.00,15.10,15.20,15.50,15.80,15.90,15.96
(a) Obter a média P̅, a variância {
e o desvio padrão { amostrais.
Análise Exploratória de Dados 52
(b) Determinar o coeficiente de variação L� . Qual é a principal diferença entre o
desvio padrão e a variância?
(c) Determinar o erro padrão da média (8�(�0) = {/√�).
(d) Se você fosse solicitado a apresentar duas medidas (estatísticas) para resumir os
dados, quais
você recomendaria?
(e) Se cada observação for dividida por 24, para se obter o tempo de atendimento em
dias, quais serão os novos valores da média, variância, desvio padrão, coeficiente de variaçãoe erro padrão da média?
(f) Agrupar os dados tempo entre chegadas em horas em classes (distribuição de
frequências). Responder as questões:.
(f1) Construir um histograma para os dados do tempo entre chegadas em horas.
Determinar a média usando os dados agrupados.
(f2) Calcular a variância, desvio padrão, coeficiente de variação e erro padrão da
média.
(f3) Após uma mudança de diretoria do hospital o tempo de atendimento apresentou
média de 14 dias e desvio padrão de 2 dias. Qual é a situação que apresentou maior
variabilidade, anterior ou posterior a mudança de diretoria?
(f4) Em qual caso a média foi calculada com maior precisão? No item (a) ou no item
(f1)? Justifique sua resposta.
27. Os dados de uma amostra observada de tamanho n = 30 da variável � = tempo em
meses até a falha de um equipamento eletrônico são dados por:
P = (8.13,8.23,8.60,8.80,8.97,9.05,9.12,9.30,9.35,9.78,9.80,
9.86,9.90,9.95,10.00,10.11,10.13,10.15,10.16,10.23,10.31,
10.33,10.40,10.46,10.50,11.14,11.29,11.46,12.05,12.14) .
a) Obter a média, a mediana e o desvio padrão da variável X.
b) Se o tempo de falha de cada equipamento for multiplicado pela constante 30, qual será o
valor da média, da mediana e do desvio padrão amostral da variável transformada?
28. Escalas de medidas. (Bussab & Morettin, 2017) A seguir descrevemos outros possíveis
critérios para classificar variáveis, em função da escala adotada. Observe a similaridade com a
classificação apresentada anteriormente. Nossas observações são resultados de medidas feitas
Análise Exploratória de Dados 53
sobre os elementos de uma população. Existem quatro escalas de medidas que podem ser
consideradas:
Escala nominal. Nesta escala somente podemos afirmar que uma medida é diferente ou não
de outra, e ela é usada para categorizar indivíduos de uma população. Um exemplo é o sexo
de um indivíduo. Para cada categoria associamos um numeral diferente (letra ou número). Por
exemplo, no caso de sexo: podemos associar as letras M (masculino) e F (feminino) ou 1
(masculino) e 2 (feminino). Não podemos realizar operações aritméticas aqui e uma medida
de posição apropriada é a moda. (As medidas citadas nesse problema, como a média, mediana
e moda, são definidas no Capítulo 3.)
Escala ordinal. Aqui podemos dizer que uma medida é diferente e maior do que outra. Temos
a situação anterior, mas as categorias são ordenadas, e a ordem dos numerais associados
ordena as categorias. Por exemplo, a classe socioeconômica de um indivíduo pode ser baixa
(1 ou X), média (2 ou Y) e alta (3 ou Z). Transformações que preservam a ordem não alteram a
estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1,
10 e 100 ou A, L e Z. Medidas de posição apropriadas são a mediana e a moda.
Escala intervalar. Nesta escala podemos afirmar que uma medida é igual ou diferente, maior
e quanto maior do que outra. Podemos quantificar a diferença entre as categorias da escala
ordinal. Necessitamos de uma origem arbitrária e de uma unidade de medida. Por exemplo,
considere a temperatura de um indivíduo, na escala Fahrenheit. A origem é 0o F e a unidade é
1o F. Transformações que preservam a estrutura dessa escala são do tipo � = >P + F, > > 0. Por exemplo, a transformação � = 5/9 (P – 32) transforma graus Fahrenheit em
centígrados. Para essa escala, podemos fazer operações aritméticas, e média, mediana e moda
são medidas de posição apropriadas.
Escala razão. Dadas duas medidas nessa escala, podemos dizer se são iguais, ou se uma é
diferente, maior, quanto maior e quantas vezes a outra. A diferença com a escala intervalar é
que agora existe um zero absoluto. A altura de um indivíduo é um exemplo de medida nessa
escala. Se ela for medida em centímetros (cm), 0 cm é a origem e 1 cm é a unidade de medida.
Um indivíduo com 190 <O é duas vezes mais alto do que um indivíduo com 95 <O, e esta
relação continua a valer se usarmos 1 O como unidade. Ou seja, a estrutura da escala razão
não é alterada por transformações da forma � = <P, < > 0. Por exemplo, � = P/100
transforma <O em O. As estatísticas apropriadas para a escala intervalar são também
apropriadas para a escala razão.
Para cada uma das variáveis abaixo, indique a escala usualmente adotada para resumir os
dados em tabelas de frequências:
(a) Salários dos empregados de uma indústria.
(b) Opinião de consumidores sobre determinado produto.
(c) Número de respostas certas de alunos num teste com dez itens.
(d) Temperatura diária da cidade de Manaus.
(e) Porcentagem da receita de municípios aplicada em educação.
(f) Opinião dos empregados da Companhia MB sobre a realização ou não de cursos
obrigatórios de treinamento.
(g) QI de um indivíduo.
Análise Exploratória de Dados 54
29. Média aparada. (Bussab & Morettin, 2017) Se 0 < ® < 1, uma média aparada a 100®% é obtida eliminando 100®% das menores observações e 100®% das maiores
observações e calculando-se a média aritmética das restantes. Por exemplo, se tivermos 10
observações ordenadas P(�) < P(
) < . . . < P(�W) , a média aparada a 10% é
P̅(0,10) = P(
) + P(S)+ . . . + P(¯)8 .
Se ® = 0,25, P̅(0,25) é chamada meia-média.
Calcule a média aparada a 25% para os dados do Exemplo 2.5 - adaptado.
Exemplo 2. 5 - Os dados a seguir representam o tempo de vida 2 (em semanas) de 60
peças fabricadas por uma máquina. 15.1,16.4,33.6,36.5,40.3,45.4,45.5,47.3,53.8,57.7,59.2,62.8,63.2,64.7,67.5,72.7,78.5, 80.1, 81.1,81.6,86.7,89.3,93.0,93.7,97.6,100.8,104.0,105.1,106.0, 118.3, 132.9, 133.4, 137.9,138.0,163.3,176.9, 182.7, 183.1,184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s, 272.9s , 272.9s, 272.9s , 272.9s , 272.9s.
Os tempos de vida das peças que falharam após 272.9 horas foram registrados como 272.9s.
Os dados deste experimento são denominados de “dados censurados à direita”.
30. Uma amostra de tamanho � = 10 automóveis foi selecionada e cada um deles foi sujeito a
um teste de colisão a 5 O�ℎ. Representando um carro sem danos visíveis por { (de sucesso) e
um carro com danos por V (de falha), os resultados são os seguintes: { { V { { { V V { {
a) Substitua cada { por 1 e cada V por 0. Calcule então P̅ para essa amostra codificada
numericamente.
b) Qual é o valor da proporção amostral de sucessos �̂ = #°� ? . Considerando esta amostra de
tamanho � = 10, é seguro afirmar que a probabilidade de sucesso � é igual a �̂ ?
c) Suponha que se decidiu incluir mais 15 carros no experimento. Quantos deles teriam de ser { para fornecer �̂ = 0,80 para a amostra de 25 carros?
Análise Exploratória de Dados 55
REFERÊNCIAS
BUSSAB, W. O.; MORETTIN, P. A. (2009). Estatística básica. Saraiva, São Paulo, 6ª
Edição.
BOLFARINE, H., & DE OLIVEIRA BUSSAB, W. (2005). Elementos de amostragem (Vol.
1). São Paulo: Edgard Blücher.
DOANE, D. P. ; SEWARD, L. E. (2011). Measuring Skewness: A Forgotten Statistic?.
Journal of Statistics Education, Vol. 19, Number 2.
HYNDMAN, R. J. (1995). The problem with Sturges’ rule for constructing
histograms. Monash University.
MAGALHÃES, M. N.; PEDROSO DE LIMA, A. C. (2010). Noções de probabilidade e
estatística. Edusp, São Paulo.
R Core Team (2010). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria.
R Core Team (2013). R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria.
STURGES, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical
Association, Vol. 21, No. 153, pp. 65- 66.
WAND, M. P. (1997). Data-based choice of histogram bin width. The American Statistician
Vol. No. 1, 51, pp. 59-64.