Buscar

Estatística Básica - Medidas Importantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 48 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 48 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 48 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística I
Aula 3
Prof.: Patricia Maria Bortolon, D. Sc.
Dados quantitativos: medidas numéricas
Propriedades
Numéricas
Tendência
Central Dispersão Formato
Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal
Média
Mediana
Moda
Central
Amplitude
Variância
Desvio Padrão
Dispersão Formato
Assimetria
Coeficiente de VariaçãoQuantis
Propriedades Numéricas dos Dados
Tendência Central
(Localização)
Estatística: Prof. Luis AraujoEstatística: Prof. Luis Araujo
Variação
(Dispersão)
Forma
Notação
Medida Amostra População
Média x µ
Desvio Padrão S σ
Estatística: Prof. Luis AraujoEstatística: Prof. Luis Araujo
Desvio Padrão S σ
Variância S2 σ
2
Tamanho n N
Medidas de tendência central
• Média Aritmética
– Propriedades da média:
• Centro de gravidade
n
x
sobservaçõedenúmero
xdevaloresdossoma
x
∑==
• Mais informativa no caso de distribuições aproximadamente 
simétricas
• A soma dos desvios em relação a média é igual a zero 
• É influenciada por valores extremos.
∑ =− 0)( xxi
Medidas de tendência central
n
x
x
n
i i=
∑ =1
N
x
N
i i=
∑ =µ 1
Média Amostral Média Populacional
aestatísticx
n
= parâmetro
N
=µ
Exemplo 1
• Se as lâmpadas de uma amostra duram 967, 949, 952, 940 e 922 
horas de uso continuado, o que podemos concluir sobre a 
duração média das 40.000 lâmpadas do lote?
• Solução:
horasx 946
5
922940952949967
=
++++
=
• Supondo que os dados são de uma amostra que represente a 
população de lâmpadas podemos estimar que a duração média 
das 40.000 lâmpadas é de 
• Para dados não-negativos, a média não só descreve o meio do 
conjunto de dados, mas impõe uma limitação ao seu tamanho. 
Se multiplicarmos por n ambos os lados da equação , 
veremos que e, portanto, que nenhuma parte, ou 
subconjunto dos dados, pode exceder .
horas946=µ
n
x
x
∑=
∑ = xnx .
xn .
Exemplo 2
• Se o salário anual médio pago a três jogadores de 
basquete nos EUA na temporada 2001-2002 foi de 
3.650.000 dólares, pode
– (a) algum deles ter recebido 6.000.000 dólares?
– (b) dois deles terem recebido, cada um, 6.000.000 dólares?
• Solução:• Solução:
– Como n * x = 3 * 3.650.000 = 10.950.000
– (a) se um deles recebeu seis milhões, restariam 10.950.000 –
6.000.000 = 4.950.000 para os outros dois, de modo que é 
possível.
– (b) se dois deles receberam, cada um, seis milhões, isso 
necessitaria de 2(6.000.000)=12.000.000 dólares. Como isso 
necessitaria mais do que o total pago aos três jogadores, não 
teria sido possível.
Exemplo 3
• A editora de um livro precisa de um número para a 
quantidade de calorias de uma fatia de pizza de 
calabresa grande. Solicitando a um laboratório que 
faça o serviço com um calorímetro, ela recebe os 
seguintes números para uma fatia de pizza de seis 
fornecedores diferentes: 265, 332, 340, 225, 238 e 
346.346.
– (a) calcule a média, que a editora irá utilizar em seu livro
– (b) suponha que, ao calcular a média, a editora cometa o erro de 
digitar 832, em vez de 238, em sua calculadora. Qual será o 
tamanho do erro no número que ela utilizará em seu livro?
Exemplo 3
• Solução:
– (a) a média correta é
– (b) a média errada é
291
6
346238225340332265
=
+++++
=x
– (b) a média errada é
– E o erro será um desastroso 390 – 291 = 99 calorias
390
6
346832225340332265
=
+++++
=x
Medidas de Tendência Central
• Média Ponderada
– Útil quando as grandezas em jogo não têm a mesma importância
∑
∑ ==
+++
+++
=
n
ii
n
inn
w
w
xw
www
xwxwxw
x
12211
.
...
......
– xi são as observações da amostra
– wi são os pesos de cada observação
∑ =+++ ininw wwww 121 ...
Exemplo 4
• Numa turma de psicologia, há 14 calouros, 25 alunos 
de segundo e 16 alunos de terceiro ano. Dado que 
num exame os calouros obtiveram a média 76, os 
alunos do segundo ano a média 83 e alunos de 
terceiro ano a média 89, qual é a grande média pra 
toda a classe?
• Solução:
96,82
162514
891683257614
=
++
⋅+⋅+⋅
=x
Medidas de tendência central
• Mediana (Md)
– Em um conjunto de observações ordenadas de forma crescente é o 
elemento que ocupa a posição central.
– É o valor do elemento do meio se n é impar, e a média dos dois valores 
do meio se n é par.
– Não é afetado por valores extremos.
Dados de produção:
Mês Produção: Dados ordenados:
Jan 210 180Jan 210 180
Fev 180 180
Mar 205 185
Abr 195 190
Mai 205 195
Jun 220 198 <== Mediana =(198 + 200) / 2 = 199
Jul 185 200 <==
Ago 190 205
Set 200 205
Out 180 205
Nov 205 210
Dez 198 220
soma = 2.373
média = 197,75
Medidas de tendência central
• Mediana (Md)
– Variável discreta em tabela de frequências
Total de elementos = 23
Então o termo central ocupa a posição 
de no. 12
xi fi
2 1
5 4
Como localizar o 12o. elemento?
R: construindo a frequência acumulada
5 4
8 10
10 6
12 2
Medidas de tendência central
• Mediana (Md)
– Variável discreta em tabela de frequências
xi fi Fi
2 1 1
5 4 5
Total de elementos = 23
Então o termo central ocupa a posição 
de no. 125 4 5
8 10 15
10 6 21
12 2 23
Como localizar o 12o. elemento?
R: construindo a frequência acumulada
O elemento que ocupa a 12a. posição vale 
8, então, podemos afirmar que a mediana 
vale 8!!
Medidas de tendência central - posição
• Quartis
– Dividem um conjunto de dados dispostos em ordem crescente 
em quatro partes com dimensões iguais.
Mínimo 3o. Q1o. Q 2o. Quartil
= Mediana
Máximo
– 25% dos dados são inferiores ao 1o. Q
– 50% dos dados são inferiores ao 2o. Q ou mediana
– 75% dos dados são inferiores ao 3o. Q
Medidas de tendência central - posição
• Decis
– Dividem um conjunto de dados dispostos em ordem crescente 
em dez partes com dimensões iguais.
– 10% dos dados são inferiores ao 1o. Decil
• Percentis
– Dividem um conjunto de dados dispostos em ordem crescente 
em cem partes com dimensões iguais.
– 1% dos dados são inferiores ao 1o. Percentil
Medidas de tendência central
• Média – valores agrupados
Amostra:
18 20 20 21 22 24 25 34 41 51
29 30 30 31 31 32 33 40 50 29
37 37 37 37 38 38 38 49 27 36
44 45 45 45 46 47 48 26 36 44
54 54 56 58 62 65 25 35 43 53
n
Fx
x
ii∑=
Média = 38,32
Intervalos 
das classes Fi xi xiFi
18 - 25 6 21,5 129,0
25 - 32 10 28,8 288,0
32 - 39 13 35,5 461,5
39 - 46 8 42,5 340,0
46 - 53 6 49,5 297,0
53 - 60 5 56,5 282,5
60 - 67 2 63,5 127,0
Total 50 1925,0
Média = 38,50
0
2
4
6
8
10
12
14
21,5 28,8 35,5 42,5 49,5 56,5 63,5
Medidas de tendência central
• Moda (Mo)
– É o valor mais frequente (a maior barra do histograma)
Intervalos 
das classes Fi xi xiFi
18 - 25 6 21,5 129,0
25 - 32 10 28,8 288,0
32 - 39 13 35,5 461,5 <== Classe Modal32 - 39 13 35,5 461,5 <== Classe Modal
39 - 46 8 42,5 340,0
46 - 53 6 49,5 297,0
53 - 60 5 56,5 282,5
60 - 67 2 63,5 127,0
Total 50 1925,0
Média = 38,50
0
2
4
6
8
10
12
14
21,5 28,8 35,5 42,5 49,5 56,5 63,5
Medidas de tendência central
14
12
10
8
Moda
Média
Mediana (627)
925,0
900,0
875,0
850,0
825,0
800,0
775,0
750,0
725,0
700,0
675,0
650,0
625,0
600,0
575,0
550,0
525,0
500,0
6
4
2
0
Std. Dev = 114,73 
Mean = 658,6
N = 100
Dados quantitativos: medidas numéricas
Propriedades
Numéricas
Tendência
Central Dispersão Formato
Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal
Média
Mediana
Moda
Central
Amplitude
Variância
Desvio Padrão
DispersãoFormato
Assimetria
Coeficiente de VariaçãoQuantis
Dados quantitativos: medidas numéricas
Propriedades
Numéricas
Dispersão
Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal
Amplitude
Dispersão
Variância
Desvio Padrão
Coeficiente de Variação
Por que avaliar medidas de dispersão?
• Exemplo: um médico observa a variação nos 
batimentos cardíacos por minuto de dois pacientes. 
Veja os resultados:
– Paciente A: 72 76 74
– Paciente B: 72 91 59
– Os dois pacientes têm média de batimentos iguais a 74 mas a 
variação é muito diferente!!
Amplitude
• É a diferença entre o maior e o menor valor
• Mede a dispersão total no conjunto de dados
• Mas tem um problema....
7 8 9 10 11 12 13
Balança A
7 8 9 10 11 12 13
Balança C
7 8 9 10 11 12 13
Balança B
Não é apropriada quando há observações extremas
Variância e Desvio Padrão
• A amplitude não descreve como os valores se distribuem em 
torno da média, não mostra se há valores extremos...
• ... poderíamos então avaliar os desvios em torno da média
xxxxxxxx n −−−− ,...,,, 321
• ... mas a soma destes desvios é sempre igual a zero!!
• Como não nos interessa se as diferenças são positivas ou 
negativas trabalhamos com os quadrados das diferenças
• Uma alternativa, pouco utilizada, é usar os desvios absolutos, 
calculando o Desvio Médio Absoluto
∑ = −=
n
i i
xx
n
DMA
1
1
Variância Amostral
• É a soma das diferenças ao quadrado, em torno da 
média aritmética, dividindo-a pelo tamanho da 
amostra, menos um:
( )
1
1
2
2
−
−
=
∑
=
n
xx
S
n
i
i
• E a variância da população é igual a:
1−
=
n
S
( )
N
x
N
i
i
x
∑
=
−
= 1
2
2
µ
σ
Desvio Padrão Amostral
• É a raiz quadrada da variância.
• É a medida de dispersão mais utilizada. Está na 
mesma unidade dos dados originais.
( )
1
2
−
=
∑
=
xx
S
n
i
i
• E desvio padrão da população é igual a:
1
1
−
= =
n
S i
( )
N
x
N
i
i
x
∑
=
−
= 1
2
µ
σ
Desvio Padrão Amostral
• Para calcular o desvio padrão de uma amostra 
devemos:
– Calcular a média da amostra
– Obter a diferença entre cada observação e a média
– Elevar ao quadrado essas diferenças
– Somar os quadrados das diferenças
– Dividir o somatório por (n-1) � você aqui obteve a variância
– Extrair a raiz quadrada do somatório obtido
Exemplo 5
• Calcule o desvio padrão da seguinte amostra:
Amostra
Dados (Xi) : 10 12 14 15 17 18 18 24
n = 8 Média = x = 16
)X(24)X(14)X(12)X(10
S
2222 −++−+−+−
=
L
4.2426
7
126
18
16)(2416)(1416)(1216)(10
1n
)X(24)X(14)X(12)X(10
S
2222
==
−
−++−+−+−
=
−
=
L
É uma medida da 
dispersão “média” dos 
dados em torno de sua 
média
Desvio Padrão Amostral
• Organize seus cálculos:
==x
xxi − ( )2xxi −ix
total
( )
1
1
2
−
−
=
∑
=
n
xx
n
i
i
xσ
Desvio Padrão Amostrais
Comparando Desvios - Padrão
Média = 15.5
S = 3.33811 12 13 14 15 16 17 18 19 20 21
Dados A
11 12 13 14 15 16 17 18 19 20 
21
Dados B Média = 15.5
S = 0.926
11 12 13 14 15 16 17 18 19 20 21
Média = 15.5
S = 4.570
Dados C
Desvio Padrão Amostrais
Comparando Desvios - Padrão
Pequeno desvio padrão
Grande desvio padrãoGrande desvio padrão
Fórmula alternativa
• Fórmula alternativa para o Desvio Padrão Amostral
( )
∑ ∑= =−=−=
n
i
n
i i
ixx
xx
n
x
xonde
n
S
1
2
12
1
σ
σ
∑ =− i ixx nn 11
• Vantagem desse cálculo: não é preciso calcular a 
média nem os desvios em relação a média
Entendendo a Variação nos Dados
• Quanto mais espalhados ou dispersos estiverem os 
dados, maiores serão a amplitude, a variância e o 
desvio padrão
• Quanto mais concentrados, ou homogêneos, forem 
os dados, menores serão a variância e o desvio 
padrãopadrão
• Se as observações forem todas iguais (de forma que 
não exista nenhuma variação nos dados), a 
amplitude, a variância e o desvio padrão serão todos 
iguais a zero
• Nenhuma das medidas de variação pode ser 
negativa
Entendendo a Variação nos Dados
• Você é apresentado ao desvio padrão dos retornos 
mensais nos últimos três anos de três fundos de 
investimentos
– S = 7,71
– S = 17,66– S = 17,66
– S = 23,17
– O que você pode dizer sobre a variação dos 
retornos?
– Você pode dizer qual o fundo com maior risco?
Aplicações do Desvio Padrão
• São usados nos problemas de inferência que 
veremos adiante
• A dispersão, e o desvio padrão, são pequenos se os 
dados estão concentrados em torno da média e 
grandes se os mesmos são muito dispersos
• O teorema de Tchebichev expressa formalmente • O teorema de Tchebichev expressa formalmente 
essa idéia...
Teorema de Tchebichev
• Para qualquer conjunto de dados (população ou 
amostra) e qualquer constante k maior do que 1, a 
proporção dos dados que devem estar a menos de k 
desvios-padrão de qualquer um dos dois lados da 
média é pelo menos
1
2
1
1
k
−
Exemplo 6
• Você está avaliando a rentabilidade das empresas do setor varejista. A 
média da rentabilidade sobre os ativos em 2009 foi de 10% com desvio 
padrão de 3%. Faça estimativas para a distribuição dos dados pelo 
Teorema de Tchebychev para k igual a 2 e 3.
• Solução:
%75
31
1
 :2 k para
⇒==
=
 - 
%91adesrentabilid das 88,9% menos pelo%1
%3310%adesrentabilid das 88,9% menos pelo%33%10
%9,88
9
8
3
1
1
 :3 k para
%61adesrentabilid das 75% menos pelo%4
%3210%adesrentabilid das 75% menos pelo%32%10
%75
42
1
2
2
≤≤
⋅+≤≤⋅−
⇒==
=
≤≤
⋅+≤≤⋅−
⇒==
 - 
 - 
Teorema de Tchebichev
• O problema do Teorema de Tchebichev é que ele diz 
apenas “pelo menos qual proporção” dos dados deve 
estar entre certos limites. É um limite inferior para a 
verdadeira proporção, tem poucas aplicações 
práticas.
• Para distribuições em forma de sino podemos fazer as 
seguintes afirmações muito mais fortes.seguintes afirmações muito mais fortes.
Cerca de 68% dos valores estão a menos de um desvio-padrão da 
média, isto é, entre xx σ− e xx σ+ 
Cerca de 95% dos valores estão a menos de dois desvios-padrão da 
média, isto é, entre xx σ2− e xx σ2+ 
Cerca de 99,7% dos valores estão a menos de três desvios-padrão da 
média, isto é, entre xx σ3− e xx σ3+ 
Fórmula de conversão para unidades padronizadas
• Em um curso de francês um aluno obteve nota 66 
em vocabulário e 80 em gramática. 
– 1a. Conclusão: melhor nota em gramática que vocabulário
• E se você agora souber que a média e o desvio 
padrão da turma em vocabulário foram, 
respectivamente, 51 e 12. Em gramática média e respectivamente, 51 e 12. Em gramática média e 
desvio padrão das notas da turma foram, 
respectivamente, 72 e 16. Como sua resposta se 
altera?
– Em vocabulário a nota do aluno está (66-51)/12 = 1,25 desvios 
padrão acima da média e em gramática (80-72)/16 = 0,50 
desvios padrão acima da média da turma.
– Comparado com o resto da turma o aluno está melhor em 
vocabulário do que em gramática.
Fórmula de conversão para unidades padronizadas
• z nos diz quantos desvios-padrão um valor está 
acima ou abaixo da média do conjunto de dados ao 
qual pertence.
σ
µ−
=
−
=
x
zou
S
xx
z
qual pertence.
Exemplo 7
• A Sra. Santos pertence a uma faixa etária na qual o 
peso médio é de 56kg, com desvio-padrão de 6kg, e 
seu marido, o Sr. Santos, pertencea uma faixa etária 
na qual o peso médio é de 82kg, com desvio-padrão 
de 9kg. Se a Sra. Santos pesa 66kg e o Sr. Santos 
pesa 96kg, qual dos dois, relativamente ao peso 
médio de sua faixa etária, está com maior excesso médio de sua faixa etária, está com maior excesso 
de peso?
Exemplo 7
• Solução:
– O peso do Sr. Santos está 96 – 82 = 14kg acima da média e o 
peso da Sra. Santos está “somente” 66 – 56 = 10kg acima da 
média, mas em unidades padronizadas obtemos (96-82)/9=1,55 
para o Sr. Santos e (66-56)/6=1,66 para a Sra. Santos. Assim, 
relativamente ao peso médio de sua faixa etária, a Sra. Santos 
está mais acima do peso do que o Sr. Santos.
Coeficiente de Dispersão
• O desvio padrão depende das unidades de medida
• O Coeficiente de Dispersão é uma medida relativa 
de variação
• Expresso na forma de percentagem e não em 
termos das unidades dos dados específicos
• Permite comparações quando as variáveis têm 
unidades de medida diferentesunidades de medida diferentes
%100%100 ⋅=⋅=
µ
σ
Vou
x
S
V
Coeficiente de Dispersão
• Exemplo: o gerente de um serviço de entregas está 
avaliando a compra de uma nova frota de 
caminhões. Quando as encomendas são carregadas 
nos caminhões, no preparo para entrega, dois 
importantes parâmetros são considerados: peso (em 
kg) e o volume (em m3) para cada item. Suponha que 
numa amostra de 200 encomendas, o peso médio numa amostra de 200 encomendas, o peso médio 
seja de 26kg com um desvio padrão de 3,9kg, e o 
volume médio para cada encomenda seja 8,8m3 com 
um desvio padrão de 2,2m3. Como podem as 
variações de peso e volume ser comparadas?
Coeficiente de Dispersão
• Solução:
– para o peso o coeficiente de variação 
V=3,9/26x100%=15%; 
– para o volume V=2,2/8,8x100%=25%. 
– logo, em relação à média aritmética, o volume de 
uma encomenda é muito mais variável do que seu uma encomenda é muito mais variável do que seu 
peso.
Formato
• 1. Descreve como os dados estão distribuídos
• 2. Medida: assimetria
AssimétricaAssimétricaAssimétricaAssimétrica
Estatística: Prof. André CarvalhalEstatística: Prof. André Carvalhal
AssimétricaAssimétrica
à direitaà direita
AssimétricaAssimétrica
à esquerdaà esquerda SimétricaSimétrica
MediaMedia= = MedianaMediana= = ModaModaMediaMediaMedianaMedianaModaModa ModaModa MedianaMediana MediaMedia
Negativamente
Assimétrica
Simétrica Positivamente
Assimétrica
Formato
• Coeficiente de Assimetria de Pearson
padrãodesvio
medianamédia
SK
−
−
=
)(3
MediaMedia= = MedianaMediana= = ModaModaMediaMediaMedianaMedianaModaModa ModaModa MedianaMediana MediaMedia
Negativamente
Assimétrica
Simétrica Positivamente
Assimétrica

Continue navegando