Buscar

Estatístiva descritiva resumo

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• O Que é Estatística?
DADOS INFORMAÇÃO→→→→
ESTATÍSTICA:
Estatística é a ciência que permite obter 
informações sobre um fenômeno, a partir 
do registro de observações deste fenômeno.
A estatística divide-se 
em duas áreas:
- Estatística Descritiva
- Inferência Estatística
Estatística Descritiva ou
Análise Exploratória de Dados
A estatística descritiva ocupa-se da 
análise/descrição de um conjunto de 
dados por intermédio de tabelas, gráficos
e/ou medidas-resumo, com o objetivo de 
facilitar sua visualização e compreensão. 
Exemplo:
Cálculo do coeficiente de rendimento 
(c.r.) = média ponderada das notas em 
cada disciplina → medida-resumo do 
desempenho acadêmico de um aluno. 
Inferência Estatística ou
Estatística Inferencial
A inferência estatística consiste de um 
conjunto de técnicas para, a partir de uma 
amostra selecionada de um universo, 
formular conclusões para este universo.
Exemplo:
Pesquisa eleitoral → estimação dos 
percentuais de intenções de voto em todo 
o universo eleitoral, a partir de uma 
amostra de, digamos, 2.000 pessoas.
2
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• Tipos de Dados
Dados = matéria prima da estatística.
A identificação da ferramenta estatística 
adequada para tratá-los depende da 
identificação correta do tipo dos dados.
A seguir são apresentadas as tipologias 
mais importantes para classificar dados.
1 - Dados Populacionais x Amostrais
• Dados populacionais são aqueles que 
representam todo o universo em estudo.
• Dados amostrais são aqueles que 
representam um subconjunto do universo 
em estudo, sendo em geral utilizados para 
tirar conclusões acerca desse universo.
2 - Dados Primários x Secundários
• Dados primários são aqueles obtidos 
de forma direta, mediante observação, 
pesquisas ou experimentos controlados.
• Dados secundários são aqueles que não 
são obtidos diretamente, e sim mediante 
publicações (como relatórios ou artigos).
3 - Dados em Corte x Séries Temporais 
• Dados em corte (transversal) são aqueles 
referentes ao mesmo instante de tempo.
• Dados de séries temporais são aqueles 
registrados ao longo de um período de 
tempo, com determinada frequência.
4 - Dados Qualitativos x Quantitativos
• Dados qualitativos são aqueles que 
representam um atributo ou qualidade.
Exemplos: profissão, gênero, raça, estado 
civil, classe social, nível de educação, etc.
• Dados quantitativos são números que 
resultam de uma contagem ou medida.
Exemplos: idade, peso, altura, renda, número 
de filhos, número de banheiros em casa, etc.
No caso desta última tipologia, também é 
importante especificar a escala dos dados.
3
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Dados qualitativos podem estar 
em escala nominal ou ordinal.
• Escala nominal é aquela na qual a ordem dos 
atributos é indiferente. Exemplo: cursos de 
Mestrado em Economia no Rio de Janeiro.
• Escala ordinal é aquela na qual faz sentido 
estabelecer uma ordem. Exemplo: avaliação 
em excelente, boa, regular, ruim ou péssima. 
Neste exemplo, se a avaliação fosse por notas 
de 1 a 5, as notas também seriam classificadas 
como dados qualitativos em escala ordinal!
Dados quantitativos podem estar 
em escala discreta ou contínua.
• Dados discretos são aqueles 
provenientes de uma contagem.
Exemplo: número de filhos.
• Dados contínuos, por outro lado, são 
definidos em um intervalo contínuo.
Exemplos: altura, renda.
1. ESTATÍSTICA 
DESCRITIVA
Exemplo 1.1 - Faturamento bruto no mês 
passado, em milhões de R$, das 30 filiais 
de uma determinada empresa de varejo:
11,8 3,6 16,6 13,5 4,8 8,3 
8,9 9,1 7,7 2,3 12,1 6.1 
10,2 8,0 11,4 6,8 9,6 19,5 
15,3 12,3 8,5 15,9 18,7 11,7 
6,2 11,2 10,4 7,2 5,5 14,5
Que conclusões você pode tirar?
É disto que trata a
estatística descritiva!
Esses dados estão na chamada forma 
bruta, difícil de analisar diretamente.
Precisamos usar técnicas adequadas para 
resumí-los ou facilitar sua visualização.
A distribuição de frequências é 
uma tabela que agrupa os dados 
em classes (intervalos), indicando o 
número ou a proporção de observações 
que pertencem a cada uma das classes.
Distribuição de Frequências
As classes não precisam 
ter amplitudes iguais.
4
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• Distribuição de Frequências Absolutas
Classe Frequência
2 | 5 3
5 | 8 7
8 | 11 7
11 | 14 7
14 | 17 4
17 | 20 2
Total: 30
A notação | significa que o extremo inferior da classe 
não está incluído, e o extremo superior está incluído!
Limitações da distribuição 
de frequências absolutas:
1. A frequência absoluta de cada classe não 
tem interpretação direta. É sempre necessário 
olhar para o total de observações consideradas.
2. Não permite a comparação com outra 
distribuição cujos totais sejam diferentes.
O uso de frequências relativas
soluciona os problemas acima.
• Distribuição de Frequências Relativas
Representam a proporção ou o percentual 
de observações que caem em cada classe. 
Classe Frequência Relativa
2 | 5 3/30 = 0,1 = 10%
5 | 8 = 7/30 ou 23,33%
8 | 11 23,33%
11| 14 23,33%
14 | 17 13,33%
17 | 20 6,67%
Total: 1 = 100%
• Distribuição de Frequências Acumuladas
Classe Frequência Acumulada
2 | 5 3 ou 10%
5 | 8 3 + 7 = 10 ou 33,3%
8 | 11 3 + 7 + 7 = 17 ou 56,7%
11| 14 24 ou 80%
14 | 17 28 ou 93,3%
17 | 20 30 ou 100%
Representa a soma das frequências 
até a classe considerada (inclusive).
O histograma é uma representação 
gráfica da distribuição de frequências.
Como obter o histograma?
Colocar as classes no eixo horizontal,
as frequências no eixo vertical,
e traçar um diagrama de barras.
Histograma
Histograma (Frequências Absolutas) - ex. 1.1:
0
2
4
6
8
10
2-|5 5-|8 8-|11 11-|14 14-|17 17-|20
Frequências
Classes
Ligando os pontos médios das linhas superiores das 
barras, obtemos o polígono ou curva de frequências.
5
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• Gráfico de Barras
Representação gráfica apropriada para 
dados qualitativos, ou quantitativos 
em escala discreta (isto é, contagens).
Consiste de barras verticais centradas 
nos valores assumidos pela variável, 
e com espaços separando as barras.
Exemplo 1.2
Frequências das reclamações diárias no 
SAC de uma empresa em um certo mês:
• Gráfico de Pareto e Ogiva
O gráfico de Pareto é um gráfico de barras no 
qual os eventos são dispostos em ordem 
decrescente de frequência de ocorrência.
Em geral, é sobreposta a ele uma curva de 
frequências acumuladas, denominada ogiva.
Exemplo 1.3 - Análise dos tipos de defeito nas 
chapas fabricadas por uma empresa siderúrgica. 
Ogiva
• Gráfico de Pizza ou de Setores
O gráfico de pizza, ou de setores, é um 
diagrama estatístico bastante popular.
É apropriado quando o objetivo 
é identificar partes de um todo.
Exemplo 1.4: 
6
FGV/EPGE - Mestradoem Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• Medidas de Posição
Uma medida de posição é um valor em 
torno do qual os dados estão concentrados.
Sinônimos: medida de localização
ou de tendência central.
Principais medidas de posição:
Média , Mediana e Moda.
É a soma das observações dividida 
pelo número de observações:
Média
.
n
x...xx
n
x
n21
n
1i
i +++
==µ
∑
=
i-ésima
observação
no de 
observações
No exemplo 1.1, o faturamento médio 
é µ = 307,7/30 = 10,3 milhões.
Nenhum problema!
A média de um conjunto de dados não
precisa ser um dos valores observados.
Note que o valor 10,3 não ocorre. 
Exemplo 1.5:
Salários de economistas recém-formados 
(em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0.
Salário médio (destes 5 economistas): 
µ = 3,5 (R$ 3.500,00). 
Este número é representativo
dos salários desses 5 economistas?
R: Não, pois está bem acima 
de 4 dos 5 valores.
Claramente, o valor responsável 
por esta distorção foi o “6,0”.
O “6,0” é um valor atípico ou discrepante, 
tecnicamente denominado outlier. 
Conclusão: 
A média é uma medida de posição 
muito sensível à presença de outliers!
Neste caso, é recomendável utilizar outra 
medida de posição, chamada mediana!
7
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
É o valor Md que divide os dados 
ordenados em duas partes iguais.
Se n for ímpar: Md = observação central.
Se n for par: 
Md = média das duas observações centrais.
Mediana Exemplo 1.5 (cont.):
Salários ordenados: 
2,6; 2,8; 3,0; 3,1; 6,0.
Md = 3,0.
3,0 é certamente mais representativo 
da “tendência central” destes salários.
Obs - A mediana é uma medida de posição 
chamada robusta ou resistente (o sentido 
é que ela continua representando a posição 
dos dados, resistindo a eventuais outliers).
Em algumas situações, nem a média nem 
a mediana serão medidas apropriadas.
Exemplo 1.6 - O gerente de uma loja de 
calçados está interessado em saber qual 
tamanho de calçado ele deve priorizar na 
hora de planejar seu estoque, a partir dos 
tamanhos dos calçados vendidos no último 
mês. Qual a medida de posição adequada?
A moda é o valor que ocorre com 
maior frequência em um conjunto 
de observações (notação: Mo).
Moda
Exercício 1.1 - As notas de uma turma 
foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a 
média, a mediana e a moda das notas.
Um conjunto de dados que possua 2 modas 
é chamado bimodal. Se possui mais de 2, 
multimodal. Se não possui moda, amodal.
8
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Medidas de Posição no Excel
Considere que os dados estão 
na coluna A, células A1 a A8.
Média: MEDIA(A1:A8).
Mediana: MED(A1:A8).
Moda: MODO(A1:A8).
Exemplo 1.7 - Em uma pequena empresa, 
os salários dos 12 funcionários estão 
distribuídos da seguinte forma:
5 ganham R$ 2.500,00;
2 ganham R$ 3.000,00;
3 ganham R$ 4.000,00;
2 ganham R$ 4.500,00.
Calcule o salário médio dos 
funcionários desta empresa.
A média ponderada, µp, é definida como:
.
... 
x...xxx
n21
nn2211
n
1i
i
n
1i
ii
p
ω++ω+ω
ω++ω+ω
=
ω
ω
=µ
∑
∑
=
=
Média Ponderada
peso da i-ésima observação (no exemplo, 
frequência de ocorrência do i-ésimo salário).
Resposta do exemplo 1.7: R$ 3.291,67.
• Média para Dados Agrupados
Quando os dados estão disponíveis agrupados 
(na forma de uma distribuição de frequências), 
só é possível obter a média por aproximação.
O que se faz é a média dos pontos médios 
das classes, ponderados por suas frequências.
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3
Exercício 1.2 - Obtenha o peso médio da 
população cuja distribuição de frequências é: 
Solução: µ ≅ (2*45 + 5*55 + 7*65 
+ 8*75 + 3*85)/25 = 67 Kg. 
• Mediana para Dados Agrupados
Exemplo 1.8 - Considere a distribuição 
de frequências dos consumos domiciliares 
mensais de energia elétrica em uma 
determinada área, apresentada a seguir: 
9
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Faixas de Consumo Frequência Relativa
0 | 50 KWh 8%
50 | 100 KWh 12%
100 | 150 KWh 32%
150 | 300 KWh 40%
300 | 500 KWh 8%
Total: 100%
O cálculo da mediana é feito 
por meio de uma regra de 3.
Faixas de Consumo Frequência Acumulada
0 | 50 KWh 8%
50 | 100 KWh 20%
100 | 150 KWh 52%
150 | 300 KWh 92%
300 | 500 KWh 100%
O primeiro passo é obter
a distribuição acumulada:
A figura a seguir posiciona a mediana 
(= 100+h) na distribuição acumulada: h é calculado por meio da seguinte regra de três:
Assim, a mediana é: Md ≅ 146,8 KWh.
.
2050
2052
h
100150
−
−
=
−
A média geométrica µg é 
definida da seguinte forma:
Média Geométrica
( ) .x...xx n1
n21g =µ
Exemplo 1.9 - Seja um investimento com 
taxas de retorno anuais de 10 e 20% nos 
anos 1 e 2, respectivamente.
A média simples (aritmética) dos retornos 
é 15%. Isto poderia levar à impressão de 
que alguém que invista neste ativo por 2 
anos obteria um retorno de 15% ao ano, 
uma conclusão totalmente equivocada.
10
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Para ilustrar, considere um capital de 
R$ 1000,00 investido no início do ano 1.
Qual o valor capitalizado ao final dos 2 anos?
1.000*(1+R1)*(1+R2) = 1.000*1,1*1,2 = 
R$ 1.320,00.
fator de capitalização 
no ano 1
fator de capitalização 
no ano 2
O retorno médio efetivo ou equivalente
Req é o retorno por período que levaria 
ao mesmo valor final caso os retornos 
de todos os períodos fossem iguais.
O fator de capitalização equivalente 
referente a n períodos é obtido por meio 
da média geométrica dos fatores de 
capitalização referentes à cada período:
(1+Req)n = (1+R1)(1+R2)...(1+Rn)
⇓
(1+Req) = [(1+R1)(1+R2)...(1+Rn)]1/n
E daí se obtém o Req.
No exemplo 1.9: 
de tal forma que Req = 14,8913%.
Interpretação: para obter o valor final de R$ 
1.320,00 com a mesma taxa de retorno em 
cada ano, esta taxa teria que ser 14,8913%.
,148913,132,1)R1)(R1( )R1( 21eq ==++=+
Adendo para os economistas
(não cai na prova)
Outro exemplo de aplicação de média 
geométrica em economia surge em números 
índices, no cálculo do índice de Fischer.
Índice de Fisher:
O índice de Fisher é a média geométrica
dos índices de Laspeyres e Paasche:
Este índice possui algumas propriedades 
desejáveis que os índices mais conhecidos 
(de Laspeyres e de Paasche) não possuem.
.PLF e PLF qt
q
t
q
t
p
t
p
t
p
t ==
11
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• Medidas de Dispersão
Frequentemente, uma medida de posição 
não fornece todas as informações de que 
precisamos para tomar uma certa decisão.
Exemplo 1.10 - Dois fornecedores, A e 
B, apresentaram os seguintes prazos de 
entrega, referentes aos últimos 5 clientes:
(em dias)
Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.
Com base nos prazos acima, qual dos 
fornecedores você escolheria: A ou B?
Naturalmente,você escolheria o fornecedor B
(menor risco inerente ao prazo de entrega).
Uma medida de dispersão é um valor que 
nos diz o quanto os dados estão variando 
em relação à uma medida de posição 
(no caso usual, a medida de 
posição considerada é a média µ). 
Seja (xi-µ) o desvio de xi em relação à média. 
Possíveis medidas de dispersão seriam:
.
n
 )x(
 ou )x(
n
1i
in
1i
i
∑
∑ =
=
µ−
µ−
Problema:
sempre! ,0)x(n
1i
i∑
=
=µ−
Solução: 
trabalhar com 
os módulos 
ou quadrados 
dos desvios!
É a média dos módulos dos desvios:
.
n
|x|
DM
n
1i
i∑
=
µ−
=
Esta medida não é muito usada. É mais usual 
trabalhar com os quadrados dos desvios.
• Desvio (Absoluto) Médio Variância (σσσσ2)
.
n
)x(
n
1i
2
i
2
∑
=
µ−
=σ
Exercício 1.3 - Seja um conjunto de 3 dados: 
x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6.
É a média dos quadrados dos desvios:
12
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Forma alternativa para o cálculo de σ2:
.
n
x
n
nx
2
n
1i
2
i
2
n
1i
2
i
2 µ−=
µ−
=σ
∑∑
==
Exercício 1.3 (cont.) - Recalcule a variância 
utilizando a forma alternativa sugerida acima.
Exemplo 1.10 (cont.):
Prazos de entrega aos últimos 5 clientes:
Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.
Para o fornecedor A: σ2 = 45,2.
Para o fornecedor B: σ2 = 1,2.
. 
Interpretação?
A variância apresenta um sério problema: ela 
é expressa no quadrado da unidade original, 
em geral uma unidade que sequer faz sentido.
Como consequência, a variância 
não possui interpretação direta.
Por esta razão o desvio padrão, apresentado 
a seguir, é adotado com maior frequência.
Desvio Padrão (σσσσ)
.
2σ=σ
No exemplo 1.10, para o fornecedor A: σ = 
6,72 dias, e para o fornecedor B: σ = 1,10 dias.
O desvio padrão preserva a unidade original
dos dados e ainda possui interpretação direta.
99,72%
Interpretação de σ (válida se o histograma 
apresentar formato similar ao de um sino):
Regra Z para 
definir outliers: 
valores fora de 
[µ-3σ,µ+3σ].
• Aplicação em Análise de Investimentos
É usual analisar a média e o desvio padrão dos 
retornos (variações de preço) de um ativo. 
Neste contexto, o desvio padrão é uma medida 
do risco do ativo, chamada volatilidade.
13
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
RETORNOS DIÁRIOS DE 2 AÇÕES
-8
-6
-4
-2
0
2
4
6
8
10
12
1 5 9 13 17 21 25 29 33 37 41 45 49
DIAS
Ação A
Ação B
Exemplo 1.11:
Em compensação, a flutuação dos retornos da 
ação B é bem maior → maior risco.
A curva mais clara (ação B) oscila em torno de 
um patamar superior àquele em torno do qual 
oscilam os retornos da ação A. Medidas de Dispersão no Excel
Considere que os dados estão 
na coluna A, células A1 a A8.
Variância: VARP(A1:A8).
Desvio Padrão: DESVPADP(A1:A8).
Questão: por que o “P” no final do comando?
Para enfatizar que estamos calculando 
as quantidades Populacionais, ou seja, 
considerando que o conjunto de dados é o 
nosso universo de estudo, como é o caso. 
Quando trabalharmos com uma amostra, com 
o objetivo de estimar a variância σ2 de uma 
população (matéria da P2), a fórmula 
apropriada passará a ser a do slide seguinte.
.
1n
xnx
1n
)xx(
s
n
1i
22
i
n
1i
2
i
2
−
−
=
−
−
=
∑∑
==
Esta medida é usada para estimar a variância 
de uma população. Os comandos no excel 
são, respectivamente: VARA e DESVPADA.
média amostral.
• Variância Amostral (s2)
graus de liberdade
• Variância para Dados Agrupados
Quando os dados estão disponíveis na forma de 
distribuição de frequências (isto é, agrupados), 
só é possível obter a variância por meio de uma 
aproximação, a partir da média dos quadrados 
dos desvios dos pontos médios das k classes em 
relação à média, ponderados pelas frequências:
.
n
)x(k
1j
2
jj
2
∑ µ−ω
≅σ =
Exercício 1.4 - Calcule a variância dos pesos 
na população do exercício 1.2, com base 
apenas na distribuição de frequências: 
Classe Frequência
40 | 50 Kg 2
50 | 60 Kg 5
60 | 70 Kg 7
70 | 80 Kg 8
80 | 90 Kg 3
R: 128.
14
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Quando queremos comparar dados 
expressos em diferentes unidades ou 
magnitudes, o uso do desvio padrão 
leva a conclusões equivocadas, sendo 
necessário utilizar uma outra medida 
chamada coeficiente de variação.
Coeficiente de Variação (CV) Exemplo 1.12 - Suponha que estejamos interessados em estudar a variabilidade de 
salários em diferentes ramos de atividade 
profissional. Como um caso extremo, 
considere a comparação entre salários 
de gerentes e de auxiliares de escritório.
Sabe-se que o salário médio dos 
gerentes é de R$ 5.000,00 e o dos 
auxiliares de escritório é de R$ 500,00. 
O desvio padrão dos salários dos gerentes 
foi igual ao dos salários dos auxiliares 
de escritório, ambos iguais a 100 
Isto indica variabilidade alta ou baixa?
No caso dos auxiliares de escritório, cujos 
salários estão em torno de R$ 500,00, é alta.
Já para os gerentes, cujos salários estão em 
torno de R$ 5.000,00, é relativamente baixa.
.CV
µ
σ
=
CV dos salários dos auxiliares de 
escritório: 100/500 = 0,2 ou 20%. 
CV dos salários dos gerentes: 100/5.000 = 
0,02 ou 2% ⇒ dispersão relativa menor.
Fórmula do Coeficiente de Variação:
Propriedades do Coeficiente de Variação:
1 - É adimensional, isto é, não é expresso 
em nenhuma unidade de medida.
2 - É uma medida de dispersão relativa. 
Um CV menor significa dados relativamente 
menos dispersos ou mais homogêneos.
• Outras Medidas Importantes
Medidas de posição e de dispersão, embora 
muito importantes, não são as únicas medidas 
resumo que descrevem um conjunto de dados.
Para uma análise mais completa, em algumas 
situações específicas, podemos precisar de 
medidas mais sofisticadas, como assimetria, 
curtose e percentis (= quantis = separatrizes).
15
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
A assimetria é uma medida do quanto a curva 
de frequência dos dados está afastada de um 
aspecto simétrico em relação ao eixo central.
Se a metade esquerda da curva é um “espelho” 
da metade direita, dizemos que os dados são 
simétricos. Caso contrário, que são assimétricos.
Assimetria e Curtose
As figuras a seguir comparam as curvas de 
frequência de dados simétricos e assimétricos:
dados 
simétricos
dados com 
assimetria positiva 
ou à direita.
Dados com 
assimetria negativa 
ou à esquerda.
A curtose é uma medida do “achatamento” 
da curva de frequência dos dados. As figuras 
a seguir ilustram as 3 situações possíveis:
Aspecto achatado, com 
valores distribuídos de modo 
uniforme (curtose < 3).
aspecto pontiagudo, com 
valores concentrados em um 
intervalo pequeno (curtose > 3).
referência 
(curtose 3). 
Coeficientes de Assimetria e Curtose
Possíveis medidas da assimetria e da curtose 
de um conjunto de dados são, respectivamente:
3
n
1i
3
i
n
)x(
a
σ
µ−
=
∑
=
4
n
1i
4
i
n
)x(
k
σ
µ−
=
∑
=
e
Outra forma de medir assimetria é por meio dos 
coeficientes de Pearson:.
Mx3 ou Mxa do
σ
−
σ
−
=
O p-ésimo percentil ou percentil p de 
um conjunto de dados é o valor x tal que 
p% dos dados são menores ou iguais a x.
Os percentis 25, 50 e 75 são chamados quartis:
250 Percentil = primeiro quartil (Q1)
500 Percentil = segundo quartil (Q2) = mediana
750 Percentil = terceiro quartil (Q3).
Percentis/Quantis/Separatrizes Quartis
São medidas Q1, Q2 e Q3 que 
dividem os dados em 4 partes iguais.
16
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Cálculo de Percentis - Dados Brutos
Existe na literatura diversas formas de 
calcular percentis para dados brutos 
(= desagrupados). Estas formas em geral 
não conduzem aos mesmos resultados. 
Não entraremos em detalhes sobre este 
ponto. Aos interessados, recomenda-se o 
link: http://www.amstat.org/publications/jse/v14n3/langford.html. 
Cálculo de Percentis - Dados Agrupados
O cálculo de quartis para dados agrupados 
segue o mesmo procedimento do cálculo 
da mediana, apresentado no exemplo 1.8.
Por exemplo, para calcular Q1, deve-se 
traçar uma linha tal que 25% dos dados 
estejam abaixo dela. E para calcular Q3, a 
linha deve ser tal que 75% dos dados estejam 
abaixo dela (no caso da mediana, era 50%).
É uma medida de dispersão robusta dada pela 
diferença entre o terceiro e o primeiro quartis: 
∆Q = Q3 – Q1.
Amplitude Interquartil(tílica)
• Esquema de 5 Números (ECN) 
Representação esquemática que mostra os 
quartis e os valores máximo e mínimo de 
um conjunto de dados, da seguinte forma:
É um diagrama que representa:
- a mediana,
- os quartis Q1 e Q3,
- uma linha que vai de Q3 até a maior 
observação menor ou igual a LS = Q3+1,5∆Q,
- outra linha que vai de Q1 até a menor 
observação maior ou igual a LI = Q1-1,5∆Q.
Box-Plot Exemplo 1.13 - Seja o seguinte conjunto de 
dados (ordenado): 5, 10, 12, ... , 37, 42, 45. 
Sabendo-se que os quartis são 20, 25 
(mediana) e 28, obtenha o box-plot.
17
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Aplicações do Box-Plot
1. Comparar dispersões (via amplitudes 
interquartílicas) de dois conjuntos de dados.
2. Identificar a presença de assimetria
(e o tipo dela – se é positiva ou negativa).
Como detectar e identificar o tipo de assimetria?
A partir das distâncias da mediana aos quartis.
Se a mediana está mais próxima de Q1, 
os dados apresentam assimetria positiva.
Se a mediana está mais próxima de Q3, 
os dados apresentam assimetria negativa.
Se a distância da mediana para os quartis é a 
mesma, os dados tem distribuição simétrica.
Aplicações do Box-Plot (cont.)
3. Detectar a presença de outliers:
Valores acima de LS são outliers (superiores)
Valores abaixo de LI são outliers (inferiores)
Os outliers costumam ser assinalados com *.
Exercício 1.5 - Identifique se existe 
assimetria e/ou outliers no exemplo 1.13. 
Obs - Por que quem está fora dos 
limites LI e LS é considerado outlier?
Por que estes limites são construídos de 
tal forma que, se os dados seguirem uma 
distribuição Normal, aproximadamente 
99,5% dos dados estarão contidos em [LI,LS].
O critério baseado no Box-Plot é mais geral 
do que a regra Z, pois também permite 
identificar outliers no caso de assimetria.
Exercício 1.6 - As idades das mulheres 
com 40 anos ou mais, em uma localidade, 
apresentam Q1 = 49, Md = 54 e Q3 = 63. A 
mais velha tem 71 anos. Obtenha o box-plot. 
Solução:
Exercício 1.7 - Considere os dados a seguir: 
2, 6, 5, 4, 3, 2, 7, 1, 29. Sabe-se que: Q1 = 2 
e Q3 = 6. Construa o box-plot e verifique se 
alguma das observações acima é um outlier.
18
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
• Análise Bidimensional
É a análise estatística que envolve 2 variáveis. 
Por exemplo:
1) gasto com alimentação e renda
2) nota em uma prova e horas de estudo 
3) vendas e investimento em publicidade
etc.
Um diagrama de dispersão é um 
gráfico de pontos {(xi,yi); i = 1,2,...,n} 
que indica se parece ou não existir 
alguma relação entre 2 variáveis X e Y, 
e identificar qual o tipo desta relação.
Diagrama de Dispersão 
cada ponto desses representa o valor 
de X e de Y para a i-ésima observação
Questões que o diagrama de 
dispersão permite responder: 
1 - É possível observar algum padrão que 
indique uma associação entre X e Y? 
2 - Em caso positivo, a relação aparente:
2.1 - É crescente ou decrescente? 
2.2 - É linear ou não-linear? 
uma relação é linear quando podemos traçar uma reta que se ajusta 
bem aos pontos, no sentido de descrever sua disposição no diagrama
3 - Havendo relação linear, ela é perfeita? 
(os pontos estão todos sobre uma reta?)
4 - No caso de relação linear imperfeita, 
o grau de associação é forte ou fraco?
uma relação é chamada mais forte à medida que os 
pontos estejam mais concentrados em torno da reta 
Exemplos de diagramas de dispersão:
O diagrama de dispersão permite 
visualizar uma relação de associação.
Este é um dos objetivos da estatística 
descritiva. Todavia, é muito importante 
saber mensurar a força desta associação.
Para isto, precisamos de medidas-resumo. 
19
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
A covariância é uma medida da 
variabilidade conjunta de X e Y.
Fórmula:
Covariância
.
n
)y)(x(
n
1i
YiXi
XY
∑
=
µ−µ−
=σ
Interpretação da Covariância:
Uma covariância positiva nos diz que 
quando X tende a variar acima de sua média 
(xi>µX), Y também tende (yi>µY), e quando 
X tende a variar abaixo de sua média 
(xi<µX), Y também tende (yi<µY), ou seja: 
X e Y variam no mesmo sentido.
Interpretação da Covariância (cont.):
Uma covariância negativa nos diz que 
quando X tende a variar acima de sua média 
(xi>µX), Y tende a variar abaixo de sua 
média (yi<µY), e quando X tende a variar 
abaixo de sua média (xi<µX), Y tende a 
variar acima de sua média (yi>µY), ou seja:
X e Y variam em sentidos opostos.
Exemplo 1.14 - Considere 3 alunos cujos 
números X de faltas a um curso e notas Y 
na prova são dados a seguir:
X Y
Aluno 1 4 3
Aluno 2 4 4
Aluno 3 1 8
Calcule a covariância entre faltas e notas.
R: σXY = -3.
Fórmula alternativa para a covariância:
.
n
yx
n
nyx
YX
n
1i
ii
n
1i
YXii
XY µµ−=
µµ−
=σ
∑∑
==
A covariância evidencia o sentido da relação 
entre as variáveis, mas o interesse maior 
costuma ser medir a força desta associação.
É aí que entra o 
coeficiente de correlação.
20
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
O coeficiente de correlação é um 
número entre -1 e 1, que mede a força 
da associação linear entre X e Y.
Fórmula:
Coeficiente de Correlação
.
YX
XY
XY
σσ
σ
=ρ
Interpretação do 
Coeficiente de Correlação:
- Se a relação linear entre X e Y for 
positiva e perfeita, a correlação é igual a 1.
- Se a relação linear entre X e Y for 
negativa e perfeita, a correlação é igual a -1.
- Se não houver relação linear: o valor 
do coeficiente de correlação é zero.
Obs - Correlação x Independência! 
É importante frisar que a correlação mede 
apenas a força de uma associação linear, 
não fornecendo informação acerca de 
relações de dependência não linear.
Por exemplo, se Y = X2, ρXY = 0, 
porém as variáveissão dependentes.
Se a relação linear entre X e Y for positiva, 
mas não perfeita, a correlação está entre 0 e 1. 
Neste caso, quanto maior a intensidade da 
associação, mais próximo ρXY está de 1.
Por exemplo, um coeficiente de correlação 
igual a 0,95 indica uma relação linear
positiva e forte entre X e Y.
Se a relação linear entre X e Y for negativa, 
mas não perfeita, a correlação está entre -1 e 0. 
Neste caso, quanto maior a intensidade da 
associação, mais próximo ρXY está de -1. 
Por exemplo, um coeficiente de correlação 
igual a -0,1 indica uma relação linear
negativa e fraca entre X e Y.
Exemplo 1.15 - No exemplo 1.14, ache a 
correlação entre notas e faltas. Os desvios 
padrão são, respectivamente, 2,16 e 1,41. 
Resposta:
.98,0
41,1*16,2
3
YX
XY
XY −≅
−
=
σσ
σ
=ρ
A associação linear entre o número de 
faltas e a nota é negativa ou inversa (o 
que era de se esperar), e bastante forte.
21
FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2014 - Professor: Eduardo Lima Campos
Resumo das Propriedades do 
Coeficiente de Correlação:
1 - varia entre -1 e 1
2 - é adimensional (não possui unidade) 
3 - representa apenas a relação linear
Esta última propriedade significa que o 
fato de X e Y serem descorrelacionadas 
não implica que sejam independentes! 
Exemplo 1.16 - Uma loja decide avaliar a 
sua relação publicidade/vendas. Para isto, 
registrou, durante 10 semanas, o número de 
comerciais veiculados e o nível de vendas: 
Diagrama de dispersão
número de comerciais x vendas (n = 10):
0
10
20
30
40
50
60
70
0 1 2 3 4 5 6
Número de Comerciais
Ve
n
da
s
Por simples inspeção gráfica, o que 
você diria sobre o grau de associação 
linear entre X e Y?
A covariância é:
O coeficiente de correlação é (faça a conta):
Interpretação: a relação linear entre X 
e Y é positiva/crescente e bastante forte.
.9,951*3
10
46*2...57*550*2
XY =−
+++
=σ
.9305,0XY =ρ
Medidas de Associação no Excel
Covariância: COVAR(A1:A8;B1:B8).
Correlação: CORREL(A1:A8;B1:B8).
Importante: na hora de calcular a 
covariância e a correlação entre duas 
variáveis, não ordene os dados. Isto não 
faz o menor sentido e induz uma relação 
crescente espúria entre as variáveis.
• Covariância e Correlação Amostrais
.
1n
)yy)(xx(
s
n
1i
ii
XY
−
−−
=
∑
=
,
ss
s
r
YX
XY
XY =
onde sX e sY são os desvios padrão amostrais. 
(perceba que, numericamente, rXY = ρXY)
É isto que a 
função COVAR 
do Excel calcula!

Outros materiais