Buscar

A1_3_Medidas_de_Disperso

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Curso de Ciências Econômicas – Probabilidade e Estatística Página 1 
 
MEDIDAS DE POSIÇÃO 
Expressam a característica dos dados observados tenderem a se agrupar em torno dos valores centrais, 
indicado a posição da série em relação ao eixo dos valores assumidos pela variável ou característica em 
estudo. Em síntese, podemos dizer que as MEDIDAS DE POSIÇÃO tentam traduzir a semelhança que os 
dados estatísticos referentes à observação de um fenômeno apresentam entre si, conforme se pode notar 
pela observação dos conjuntos abaixo. 
Conjunto 1 4 4 4 10 16 16 16 �̅� =10 
Conjunto 2 4 5 8 10 12 14 16 �̅� = 9,86 
Conjunto 3 7 8 9 10 11 12 13 �̅� =10 
Conjunto 4 10 10 10 10 10 10 10 �̅� =10 
 
A julgar apenas pela MÉDIA, teríamos que concluir pela igualdade entre os três conjuntos 1, 3 e 4. Se 
estendermos nossa análise, incluindo as medidas MEDIANA teríamos que concluir pela igualdade entre os 
quatro conjuntos. Mas, como os conjuntos são pequenos, conseguimos observar que eles não são iguais. 
Nesse caso, a média ainda que considerada como um número que pode representar uma sequência de 
números, não pode destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que 
compõem o conjunto. Desse modo, precisamos efetuar outros procedimentos matemáticos para caracterizar 
melhor os dados de cada grupo com o objetivo de tirarmos conclusões qualitativas. 
As medidas que mostram a variação dos dados de um conjunto são chamadas de MEDIDAS DE DISPERSÃO 
OU VARIABILIDADE. 
Para estudarmos as medidas de variabilidade para dados não tabelados usaremos um exemplo prático. 
Supomos que uma empresa esteja querendo contratar um funcionário, e no final da concorrência sobraram 
dois candidatos para uma única vaga. Então foi dado 4 tarefas para cada um, onde as mesmas tiveram 
como registro o tempo (em minutos) de execução. 
 
TAREFAS 1 2 3 4 
OPERÁRIO A (TEMPO) 55 45 52 48 
OPERÁRIO B (TEMPO) 30 70 40 60 
 
ANÁLISE GRÁFICA 
 
O que se constata, é que os fenômenos passíveis de análise pelo método estatístico, bem como os dados 
estatísticos a eles referentes, caracterizam-se tanto pela sua semelhança quanto pela sua variabilidade. 
MEDIDAS DE DISPERSÃO OU VARIABILIDADE 
Vimos que a média a moda e a mediana podiam ser usadas para resumir, num único número, aquilo que é 
“médio” ou “típico” de um conjunto de dados. Mas a informação contida fornecida pelas medidas de 
posição necessita em geral ser complementada pelas medidas de dispersão. Estas servem para indicar o 
quanto os dados se apresentam dispersos em torno da região central. Caracterizam, portanto, o grau de 
variação existente no conjunto de valores. As medidas de dispersão que nos interessam são: 
 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 2 
 
- a amplitude total; 
- o desvio médio; 
- a variância; 
- o desvio-padrão; 
- e o coeficiente de variação; 
- Box Plot. 
A dispersão mede quão próximos os valores estão uns dos outros no grupo. 
 
 
(A) Pequena Dispersão (B) Grande Dispersão 
 
A variabilidade de B é maior que a de A. 
Para termos uma boa representação dos dados, temos que ter: 
Uma medida de posição (quase sempre a Média) mais uma medida de dispersão (quase sempre o Desvio 
Padrão). 
 
AMPLITUDE TOTAL 
Dados não Agrupados 
A amplitude total é a diferença entre o maior e o menor valor observado: 
AT = x(máx) – x(mín) 
Exemplo: Para os valores: 40, 45, 48, 52, 54, 62 e 70 
Temos: AT = 70 – 40 = 30 
 
Quando dizemos que a amplitude total dos valores é 30, estamos afirmando alguma coisa do grau de sua 
concentração. É evidente que, quanto maior a amplitude total, maior a dispersão ou variabilidade dos 
valores da variável. 
 
Dados Agrupados 
✓ Sem intervalos de classe: 
Neste caso, ainda temos: AT = x(máx) – x(mín) 
Exemplo: Considerando a tabela abaixo: 
xi 1 2 3 4 5 
fi 3 10 1 11 6 
 
Temos: AT = 5 – 1 = 4 
✓ Com intervalos de classe: 
Neste caso, a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da 
primeira classe: AT = Lsup (máx) – linf (mín) 
Exemplo: Considerando a distribuição abaixo: 
 
 
 
 
 
 
 
 
 
 
 
Temos: AT = 174 -150 = 24 
 
 
 
i 
ESTATURAS 
(cm) 
fi 
1 
2 
3 
4 
5 
6 
150 ι— 154 
154 ι— 158 
158 ι— 162 
162 ι— 166 
166 ι— 170 
170 ι— 174 
4 
9 
 11 
8 
5 
3 
 ∑ = 40 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 3 
 
VARIÂNCIA E DESVIO PADRÃO 
Duas medidas de variação que usam todas as entradas de dados são a variância e o desvio padrão. Contudo, 
antes de aprender essas medidas de variação, você precisa saber qual é o significado do desvio de uma 
entrada em um conjunto de dados. 
Desvio de uma entrada x em um conjunto de dados de uma população é diferença entre a entrada e a média 
 do conjunto de dados, ou seja, parâmetro que indica o grau de variação de um conjunto de elementos. 
 
Exemplo: Dada a temperatura máxima durante 3 dias em uma cidade A, obteve-se os seguintes valores: 
28º, 29º e 30º, a média calculada é de: 29º. 
Em outra cidade B, foram coletadas as temperaturas máximas de 22º, 29º e 35º, obtendo de média 29º. 
Logo as médias das duas cidades tem o mesmo valor. Para podermos diferenciar uma média da outra, foi 
criada a noção de desvio padrão, que serve para dizer o quanto os valores dos quais se extraiu a média são 
próximos ou distantes da própria média. 
Quanto menor o desvio padrão, mais homogênea é a minha amostra. 
 
DESVIO MÉDIO (DM): É a média aritmética dos desvios. 
Formulação matemática: 
 
DESVIO MÉDIO (DADOS BRUTOS) DESVIO MÉDIO (DADOS TABELADOS POPULAÇÃO) 
n
xx
D
n
i
i
m

=
−
= 1
||
 


=
=
−
=
n
i
i
n
i
ii
m
f
fxx
D
1
1
.||
 
 
VARIÂNCIA (S2) OU (2) 
A VARIÂNCIA é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente 
importante na inferência estatística. A variância leva em consideração os valores extremos e os valores 
intermediários, isto é, expressa melhor os resultados obtidos. 
Quando a série de dados representa uma AMOSTRA, a VARIÂNCIA é denotada por s2, e quando provém de 
uma POPULAÇÃO, a VARIÂNCIA é denotada por 2 ( = sigma minúsculo, caractere do alfabeto grego, 
equivalente ao s minúsculo no alfabeto arábico). Observe que há uma diferença no método de cálculo das 
duas VARIÂNCIAS: quando se trata de uma POPULAÇÃO, o denominador da equação de 2 representa a 
quantidade total de elementos na população (N), enquanto no caso de uma AMOSTRA, o denominador da 
equação de s2 é o total de elementos na amostra menos 1 (n-1). 
 
 
Formulação matemática: 
DADOS BRUTOS VARIÂNCIA 
AMOSTRAL s2 
DADOS BRUTOS VARIÂNCIA 
POPULACIONAL 2 
VARIÂNCIA (DADOS TABELADOS 
POPULAÇÃO) 2 
)1(
||
s 1
2
2
−
−
=

=
n
xx
n
i
i
 
N
xx
N
i
i
=
−
= 1
2
2
||
σ 


=
=
−
=
n
i
i
N
i
ii
f
fxx
1
1
2
2
.||
σ 
 
Em várias situações, torna-se necessário visualizar como os dados estão dispersos. Tomando como exemplo 
várias empresas que apresentem salários médios iguais, podemos concluir, então, que a contribuição social 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 4 
 
(% do salário) será a mesma? Somente com base no salário médio, sim, mas estaríamos chegando a uma 
conclusão errada. A variação em termos de faixas salariais pode ser diferente, apesar de apresentarem a 
mesma média. 
 
 
 
 
 
 
 
 
DESVIO PADRÃO (S) OU () 
O desvio-padrão é a medida mais usada na comparação de diferenças entre grupos, por ser mais precisa e 
estar na mesma medida do conjunto de dados. Ele determina a dispersão dos valores em relação a média. 
Sua formulação é dada pela raiz quadrada da média aritmética dos quadrados dos desvios, ou seja: 
1n
)xx(
S
n
1i
2
i
−
−
=

= =
1n
)xx()xx()xx( 2n
2
2
2
1
−
−++−+− 
, logo temos: 
DESVIO PADRÃO 
AMOSTRAL (S) 
DESVIOPADRÃO 
POPULACIONAL () 
2 2s=s 2
2σ = 
Importante! 
Condição para se usar o desvio-padrão ou variância para comparar a variabilidade entre grupos: 
✓ mesmo número de observações; 
✓ mesma unidade; 
✓ mesma média. 
 
Regra empírica 
Para qualquer distribuição amostral ou populacional com média ou μ e desvio-padrão S ou σ, há: 
✓ O intervalo ( ± S) ou (μ ± σ) contém entre 60% e 80% de todas as observações. A porcentagem aproxima-
se de 70% para distribuições aproximadamente simétricas, chegando a 90% para distribuições fortemente 
assimétricas. 
✓ O intervalo ( ± 2S) ou (μ ± 2σ) contém aproximadamente 95% das observações para distribuições 
simétricas e aproximadamente 100% para distribuições com assimetria elevada. 
✓ O intervalo ( ± 3S) ou (μ ± 3σ) contém aproximadamente 100% das observações para distribuições 
simétricas. 
 
Aplicação: Foi calculada a média da idade de 50 funcionários de uma Multinacional, obtendo o valor de 38,44 anos, 
a variância amostral de 134,18 e o desvio padrão de 11,58 anos. 
Com o auxilio dos dados acima, vamos verificar a relação da média +/- um desvio padrão. 
( - S; + S ) = (38,44 - 11,58; 38,44 + 11,58) = (26,86; 50,02) 
 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 5 
 
 
K Limite das Clases xi fi fa xi*fi (xi -média)^2.fi 
1 18 |--- 25 21,5 6 6 129 1721,7816 
2 25 |--- 32 28,5 10 16 285 988,036 
3 32 |--- 39 35,5 13 29 461,5 112,3668 
4 39 |--- 46 42,5 8 37 340 131,8688 
5 46 |--- 53 49,5 6 43 297 733,9416 
6 53 |--- 60 56,5 5 48 282,5 1630,818 
7 60 |--- 67 63,5 2 50 127 1256,0072 
 50 1922 6574,82 
 
Verificando os dados da tabela acima, concluímos que, entre 27 e 50 anos, temos: (10 + 13 + 8 + 6 = 37/50) = 
0,74 * 100  74% das observações. Isto é: o intervalo compreendido entre a média menos um desvio-padrão e a 
média mais um desvio-padrão contém, nesse exemplo, 74% das 50 idades. A regra empírica indica que o referido 
intervalo deverá conter de 60% a 80% das observações. 
 
COEFICIENTE DE VARIAÇÃO (CV) 
Podemos considerar uma situação na qual se avalia o custo indireto de fabricação (CIF) de um produto em 
reais e o tempo gasto em uma máquina para fabricação deste produto em segundos. 
 x s 
CIF 
R$ 175,00 R$ 5,00 
Tempo 
68 
segundos 
2 segundos 
A princípio, você poderia concluir que o CIF apresenta maior variabilidade. Entretanto, as condições citadas 
anteriormente deveriam ser satisfeitas para que pudesse utilizar o desvio padrão para comparar a 
variabilidade. Como as condições não são satisfeitas, devemos tentar expressar a dispersão dos dados em 
torno da média, em termos porcentuais. Então, utilizaremos uma medida estatística chamada de coeficiente 
de variação. 
O coeficiente de variação (cv) é definido como o quociente entre o desvio-padrão e a média. É expresso em 
porcentagem. 
A grande utilidade do COEFICIENTE DE VARIAÇÃO é permitir a comparação de variabilidade de diferentes 
conjuntos de dados. 
x
S
cv = x 100, logo temos: 
 
 
Para a situação do CIF e Tempo, teremos: 
 
 
 
 
Portanto, neste caso, o tempo de horas da máquina apresenta maior dispersão do que o custo indireto de 
fabricação (CIF), mudando a conclusão anterior. 
Podemos realizar interpretações do coeficiente de variação através de algumas regras empíricas: 
 
Se: C.V < 15% tem-se baixa dispersão 
Se: 15% < C.V. < 30% tem-se média dispersão 
Se: C.V > 30% tem-se elevada dispersão 
100100 ==
x
CVou
x
s
CV populaçãoamostra

%94,2100
68
2
100
%85,2100
175
5
100
===
===
x
s
CV
x
s
CV
t
CIF
Curso de Ciências Econômicas – Probabilidade e Estatística Página 6 
 
Podemos classificar as distribuições em homogêneas ou heterogêneas da seguinte forma: 
Distribuição homogênea: tem coeficiente da variação com baixa ou média dispersão (até 30% de 
variação) 
Distribuição heterogênea: tem coeficiente da variação com elevada dispersão (acima de 30% de variação) 
 
Exemplo 1: Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos 
a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-
se com as notas descritas na tabela abaixo: 
 
CANDIDATOS 
PROVAS 
1º 2 º 3 º 4 º 5 º 6 º 
A 7,0 7,5 8,0 8,0 8,5 9,0 
B 6,0 7,0 8,0 8,0 9,0 10,0 
C 7,5 8,0 8,0 8,0 8,0 8,5 
Fonte: Dados Hipotéticos 
 
Exemplo 2:Uma empresa fabricante de lâmpadas deseja testar uma parte de sua produção. Selecionou 60 
lâmpadas de 100W e deixou-as ligadas até que queimassem. O tempo de vida útil de cada uma delas está 
registrado na tabela abaixo. O objetivo é construir a tabela de Distribuição de Freqüências completa. 
 
Tabela: Tempo de Vida Útil de Lâmpadas de 100 W 
684 693 819 836 868 893 911 924 1005 1052 
796 721 907 888 905 922 938 1041 1080 773 
859 832 1038 962 926 1016 1093 742 821 909 
939 902 912 1096 786 760 1016 920 852 762 
773 1004 1005 994 852 860 859 848 876 984 
697 857 952 918 870 899 971 977 1014 954 
 
SEPARATRIZES 
Outras medidas que vamos estudar são as separatrizes, que englobam: 
- a própria mediana; 
- os quartis; 
- os decis; 
- os percentis. 
 
Mediana: divide a série em duas partes iguais. 
 
 
Quartis: denominamos quartis os valores de uma série que a dividem em quatro partes iguais. 
 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 7 
 
25% 
 
Há, portanto, três quartis: 
- O primeiro quartil (Q 1 ) : é o valor situado de tal modo na série que uma quarta parte (25%) dos 
dados é menor que ele e as três quartas partes restantes (75%) são maiores. 
- O segundo quartil (Q 2 ) : é exatamente o valor da mediana, ou seja, o valor situado de tal modo 
na série que deixa metade (50%) dos dados a esquerda dele e a outra metade à direita (Q 2 =Md). 
- O terceiro quartil (Q 3 ) : é o valor situado de tal modo na série que as três quartas partes (75%) 
dos dados são menores que ele e uma quarta parte restante (25%) é maior. 
- 
 
FÓRMULA DO QUARTIL PARA DADOS BRUTOS 
𝑄𝑖 = 𝑥𝑖 .
𝑛
4
 ou 𝑄𝑖 =
𝑋𝑖(𝑛+1)
4
 
FÓRMULA DO QUARTIL PARA TABELA COM INTERVALO DE CLASSE 
 
𝑄𝑖 = 𝑙𝑖 + 
(𝑖.
𝛴𝑓𝑖
4 − 𝐹𝑎𝑛𝑡
)
𝑓𝑖classe considerada
 . ℎ 
 
𝛴𝑓𝑖
4
 = somatório das frequências dividido por quatro; 
Li = limite inferior da classe do quartil considerado; 
Fant = frequência acumulada da classe anterior à classe do quartil considerado; 
h = amplitude do intervalo de classe do quartil considerado; 
fi = frequência simples da classe do quartil considerado. 
 
Os quartis são valores de um conjunto de dados ordenados, que os dividem em quatro partes iguais. É 
necessário, portanto, três quartis (Q1, Q2 e Q3) para dividir um conjunto de dados ordenados em quatro 
partes iguais. 
Q1 : deixa 25% dos elementos abaixo dele. 
Q2 : deixa 50% dos elementos abaixo dele e coincide com a mediana. 
Q3 : deixa 75% dos elementos abaixo dele. 
 
A figura abaixo mostra bem o quartis: 
 
 
 
 
 
 
 
 
 
3º 
Quartil 
1º 
Quartil Mediana 
Faixa Central 
Resposta: 
Extremo 
Resposta: 
Extremo 
25% 25% 25% 
50% 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 8 
 
Decis: os decis por sua vez, são os dez valores que dividem a série em 10 partes iguais, onde, cada uma 
delas contém 10% dos dados. 
 
 
FÓRMULA DO DECIL PARA DADOS BRUTOS 
𝐷𝑖 = 𝑥𝑖 .
𝑛
10
 ou 𝐷𝑖 =
𝑋𝑖(𝑛+1)
10
 
FÓRMULA DO DECIL PARA TABELA COM INTERVALO DE CLASSE 
𝐷𝑖 = 𝑙𝑖 + 
(𝑖.
𝛴𝑓𝑖
10 − 𝐹𝑎𝑛𝑡
)
𝑓𝑖classe considerada
 . ℎ 
𝛴𝑓𝑖
10
 = somatório das frequências dividido por dez; 
Li = limite inferior da classe do decil considerado; 
Fant = frequência acumulada da classe anterior à classe do decil considerado; 
h = amplitude do intervalo de classe do decil considerado; 
fi = frequência simples da classe do decil considerado. 
 
Percentis: denominamos percentis os noventa e nove valores que separamuma série em 100 partes iguais, 
ou seja: 
99321 P,,P,P,P  , onde P 50 = Md = Q 2 , P 25 = Q 1 e P 75 = Q 3 
 
Por exemplo, se desejamos dividir uma produção em 5 partes iguais: Ruim, Boa, Muito Boa, Ótima e 
Excelente, devemos recorrer aos percentis P20 , P40 , P60 e P80. 
Observe a figura abaixo: 
 
 
 
 
 
 
Percebe-se que a produção Ruim envolverá valores de P0 a P20. A produção Boa envolverá valores 
de P20 a P40. A produção Muito Boa envolverá valores de P40 a P60. A produção Ótima de P60 a P80 e a 
produção Excelente de P80 a P100. 
Uma produção será classificada como ótima se seu valor estiver compreendido entre P60 e P80 e será 
considerada excelente toda produção cujo valor for acima de P80. 
 
Muito Boa Ótima Excelente 
P0 
Ruim Boa 
P20 P40 P60 P80 P100 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 9 
 
FÓRMULA DO PERCENTIL PARA DADOS BRUTOS 
𝑃𝑖 = 𝑥𝑖 .
𝑛
100
 ou 𝑃𝑖 =
𝑋𝑖.(𝑛+1)
100
 
FÓRMULA DO PERCENTIL PARA TABELA COM INTERVALO DE CLASSE 
P𝑖 = 𝑙𝑖 + 
(𝑖.
𝛴𝑓𝑖
100 − 𝐹𝑎𝑛𝑡
)
𝑓𝑖classe considerada
 . ℎ 
 
𝛴𝑓𝑖
100
 = somatório das frequências dividido por cem; 
Li = limite inferior da classe do percentil considerado; 
Fant = frequência acumulada da classe anterior à classe do percentil considerado; 
h = amplitude do intervalo de classe do percentil considerado; 
fi = frequência simples da classe do percentil considerado. 
Sintetizando o modo de encontrar as medidas de posição de acordo com a forma de apresentação dos dados, 
vemos que as medidas descritas abaixo devem ser obtidas: 
Quando os 
dados se 
apresentarem 
em: 
Média Moda Mediana Quartis, Decis e Percentis 
Rol 
n
x
x
n
i
i
== 1 
Pela observação dos 
dados 
Pela observação dos dados Pela observação dos dados 
Agrupamento 
Simples 


==
i
i
n
i
i
f
fx
x
.
1 
Pela observação dos 
dados 
Pela observação dos dados Pela observação dos dados 
Ramo e Folhas 
n
fx
x
n
i
ii
== 1 
Pela observação dos 
dados 
Pela observação dos dados Pela observação dos dados 
Agrupamento 
Em Classes 


==
i
n
i
ii
f
fx
x 1
.
 
Fórmula 
Mo = 𝑙𝑖 + 
∆1
∆1 + ∆2
 . ℎ 
 
Fórmula 
Md = 𝑙𝑖 + 
(
𝛴𝑓𝑖
2
− 𝐹𝑎𝑛𝑡)
𝑓𝑚𝑑
 . ℎ 
Fórmula 
𝑄𝑖 = 𝑙𝑖 + 
(𝑖.
𝛴𝑓𝑖
4
− 𝐹𝑎𝑛𝑡)
𝑓𝑖classe considerada
 . ℎ 
 
𝐷𝑖 = 𝑙𝑖 + 
(𝑖.
𝛴𝑓𝑖
10
− 𝐹𝑎𝑛𝑡)
𝑓𝑖classe considerada
 . ℎ 
 
𝑃𝑖 = 𝑙𝑖 + 
(𝑖.
𝛴𝑓𝑖
100
− 𝐹𝑎𝑛𝑡)
𝑓𝑖classe considerada
 . ℎ 
 
 
A AMPLITUDE INTERQUARTIL 
A amplitude interquartil (também chamada de dispersão média) corresponde à diferença entre o terceiros 
quartil e o primeiro quartil em um conjunto de dados. 
Amplitude Interquartil = Q3 – Q1 
A amplitude interquartil mede a dispersão nos dados que estão entre as 50% das observações centrais. Não 
é influenciada por valores extremos. 
Exemplo: Dada uma amostra com os 10 intervalos de tempo necessários para se aprontar na parte da manhã, 
você pode calcular a amplitude interquartil. 
29 – 33 – 35 – 39 – 39 – 40 – 44 – 44 – 52 
Ordenados os dados calculamos, temos Q1 = 33 e Q3 = 44. 
Amplitude Interquartil = 44 – 33= 11 minutos 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 10 
 
Logo a amplitude interquartil para o tempo necessário para se aprontar corresponde a 11 minutos. A 
amplitude desde 33 até 44 é geralmente conhecida como os Cinquenta do Meio. 
 
O RESUMO DOS CINCO NÚMEROS de um conjunto de dados consiste na menor observação, no primeiro 
quartil, na mediana, no terceiro quartil e na maior observação, escritos do menor para o maior. Sendo 
representado como: 
Min. Q1 Md Q3 Max. 
 
Embora as três medidas Q1, MEDIANA e Q3 mostrem a forma da distribuição de 50% dos valores ao redor 
da mediana, a adição dos valores MÍNIMO e MÁXIMO a estas três medidas permite obter um conjunto mais 
completo de informações sobre a forma da distribuição. O BOX PLOT é a forma gráfica de representar 
estas cinco medidas estatísticas num único conjunto de resultados. 
Para ilustrar considere os dados da tabela abaixo, retirada de Hines et al (2006), que representam leituras 
de viscosidade em três misturas diferentes de uma matéria-prima usada em uma linha de produção. Um dos 
objetivos do estudo que Hines et al discutem é comparar as três misturas. 
Mistura 1 Mistura 2 Mistura 3 
22,02 21,49 20,33 
23,5 22,56 20,49 
23,83 22,67 21,67 
25,38 22,78 21,95 
25,49 24,18 22,28 
25,9 24,46 22,45 
26,67 24,62 27,00 
 
Apresentamos os box-plot para os dados da viscosidade. Essa apresentação permite uma interpretação fácil 
dos dados. A mistura 1 tem viscosidade mais alta do que a mistura 2, e esta tem viscosidade mais alta que 
a mistura 3. A distribuição da viscosidade não é simétrica, porque as linhas superior e inferior e os 
comprimentos das caixas superior e inferior em torno da linha mediana não são iguais. O valor da 
viscosidade máxima da mistura 3 parece alta, em comparação com os demais valores da mistura 3 e, 
também, é maior que os valores das demais misturas 1 e 2. Essa observação é um outlier, e ela exige exame 
e análise mais aprofundados. 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 11 
 
 
Na verdade, o gráfico BOX PLOT nos fornece informações sobre a posição central, dispersão e assimetria 
da respectiva distribuição de frequências dos dados. 
CURVAS DE DENSIDADE E O BOX PLOT. 
 
Distribuição em forma de Sino. Distribuição assimétrica à Esquerda. Distribuição assimétrica à Direita. 
 
Se estivermos diante de uma situação na qual essas três medidas apresentam o mesmo valor, tal fato nos 
informa que a distribuição dos dados é simétrica; quando resultam em valores diferentes, porém muito 
próximos, indica que a forma dessa distribuição é aproximadamente simétrica. Nesses casos, 
optaremos por qualquer uma das três: média, moda ou mediana. 
 
Grafico Box Plot 
Exemplo: Construa o gráfico das notas que representam as notas dos 40 alunos de uma sala da aula. 
60 40 50 80 100 90 0 10 40 80 
70 70 70 50 40 80 70 90 80 50 
40 60 60 50 10 50 100 30 80 80 
90 80 70 100 60 70 100 20 80 90 
 
ESCORES Z 
Um valor extremo, ou outlier é um valor localizado bem distante da média aritmética. O escore Z, que 
corresponde à diferença entre o valor e a média aritmética dividida pelo desvio-padrão, é útil na 
identificação de valores extremos. Quanto maior o escore Z, maior a distância desde o valor até a média 
aritmética. 
𝒁 =
( �̅� − 𝝁)
𝒔
 
�̅� = MÉDIA AMOSTRAL; 
µ = MÉDIA POPULACIONAL; 
S = DESVIO-PADRÃO AMOSTRAL. 
 
 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 12 
 
 
Figura: Áreas sob a curva Normal 
 
Interpretação do desvio padrão 
 
Neste item vamos apresentar duas regras para interpretação do desvio padrão: 
 
 Regra Empírica 
Para qualquer distribuição amostral com média x e desvio padrão S, tem-se: 
• O intervalo SxSx +− , contém entre 60% e 80% de todas as observações amostrais. A 
porcentagem aproxima-se de 70% para distribuições fortemente simétricas, chegando a 90% para 
distribuições fortemente assimétricas. 
• O intervalo  SxSx 2 ,2 +− contém aproximadamente 95% das observações amostrais para 
distribuições simétricas e aproximadamente 100% para distribuições com assimetria elevada. 
• O intervalo  SxSx 3 ,3 +− contém aproximadamente 100% das observações amostrais, para 
distribuições simétricas. 
 
Exemplo1: Para analisar minuciosamente a amostra com os 10 intervalos de tempo para se aprontar, você 
pode calcular os escores Z. Uma vez que a média aritmética corresponde a 39,6 minutos, o desvio-padrão 
é de 6,77 minutos, e o tempo para se aprontar nos dez dias respectivamente são: 39, 29, 43, 52, 39, 44, 40, 
31, 44 e 35 calcule o escore Z para todos os dias. Qual o escore Z mais alto e o mais baixo? Ouve valor 
extremo? 
 
Uma distribuição pode ser Simétrica, onde os valores abaixo da médiaaritmética estão distribuídos 
exatamente do mesmo modo que os valores acima da média aritmética, neste caso os valores baixos e os 
valores altos se contrabalançam, já, uma distribuição Assimétrica os valores não são simétricos em torno 
da média, essa assimetria resulta em um desequilíbrio dos valores baixos ou dos valores altos. 
✓ Média < mediana = negativa, ou assimétrica à esquerda; 
✓ Média = mediana = simétrica, ou zero de assimetria; 
✓ Média > mediana = positiva, ou assimétrica à direita. 
 
ESCORES Z 
O que é o Score Z? É o quanto uma medida se afasta da média em termos de Desvios Padrão. Quando o 
escore Z é positivo isto indica que o dado está acima da média e quando o mesmo é negativo significa que 
o dado está abaixo da média. Seus valores oscilam entre -3 < Z < +3 e isto correspondem a 99,72% da área 
sob a curva da Distribuição Normal. 
 
 
Score Z entre -3 DP até +3DP 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 13 
 
 
 
Exemplo 2: Suponha que os pesos das pessoas adultas que pertencem a determinada população seguem 
uma curva Normal com média µ = 70Kg e desvio padrão σ = 10kg. Portanto, µ -2 σ = 70 – 2*10 = 50 e µ 
+ 2 σ = 70 + 2*10 = 90. Então podemos afirmar que: 
✓ Cerca de 95% dessas pessoas pesam entre 50 kg e 90 kg. 
✓ Cerca de 2,5% dessas pessoas pesam menos de 50 kg. 
✓ Cerca de 2,5% dessas pessoas pesam mais de 90 kg. 
 
Exemplo 3: Calcule a porcentagem de melancias com peso de 4 kg a 7 kg, sabendo que a média do peso 
das melancias é de 5 kg e o desvio-padrão é 1,5 kg. 
DETECTANDO OUTLIERS 
Nos trabalhos de coleta de dados, podem ocorrer observações que fogem das dimensões esperadas – 
os outliers. A presença de valores extremos numa série de dados sempre provoca inconvenientes e 
distorções na análise estatística dos resultados. Dessa forma é interessante identificar ou detectar a presença 
desses outliers num conjunto de dados, antes mesmo de iniciar as análises. 
1o método: 
Para detectá-los, pode-se calcular o escore padronizado (Zi) e considerar outliers as observações cujos 
escores, em valor absoluto (em módulo), sejam maiores do que 3. 
Exemplo 1 
Os dados de uma pesquisa revelaram média 0,243 e desvio-padrão 0,052 para determinada variável. 
Verificar se os dados 0,380 e 0,455 podem ser considerados observações atípicas da referida variável. 
Solução: 
 
Resposta: O dado 0,380 pode ser considerado normal, pois Z = 2,63, menor que 3; por outro lado, 0,455 
pode ser um outlier pois Z = 4,08 maior que 3, portanto descartável. 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 14 
 
2o método: 
Para identificar os outliers também é possível utilizar conceito implícito do gráfico boxplots presente 
em alguns softwares estatísticos como o SPSS, que envolve o uso de quartis ou percentis. Para tanto, deve-
se calcular o primeiro quartil (Q1 ou P25) e o terceiro quartil (Q3 ou P75). 
A diferença entre o Q3 e o Q1 é chamada de intervalo interquartílico. 
I = Q3 – Q1 
Os dados situados fora dos intervalos abaixo podem ser considerados 
Outliers 
no limite inferior (Li): entre Q1 – 1,5.( Q3 – Q1) 
no limite superior (Ls): entre Q3 + 1,5.( Q3 – Q1) 
Convém lembrar que este segundo método é mais interessante do que o primeiro porque os quartis (ou 
percentis) não são afetados pela presença de valores extremos na série, já que essas medidas levam em 
consideração a quantidade de elementos e não os valores assumidos pela série da variável em análise. 
Há que se destacar, adicionalmente, que existem outros métodos para detectar a presença 
de outliers em séries, incluídos em pacotes computacionais, alguns dos quais com um nível de sofisticação 
mais elevado do que os aqui apresentados. Todavia, nenhum deles indica de forma absoluta a necessidade 
ou não da eliminação dos dados da série em análise. Esta tarefa caberá sempre ao analista. 
 
Exercícios Gerais de Medidas de Posição e Dispersão. 
1-) Consideremos 4 conjuntos funcionários com a seguinte produção diária: 
A 6 6 6 6 6 
B 6 7 10 5 8 
C 7 10 6 10 9 
D 8 6 2 6 8 
Para demitir um funcionário, determine qual apresenta maior dispersão. Se você calcular para uma população e 
comparar para uma amostra o resultado muda? 
 
2- ) Vinte alunos foram submetidos a um teste de aproveitamento cujos resultados formam os que seguem: 
26 28 24 13 18 
18 25 18 25 24 
20 21 15 28 17 
27 22 13 19 28 
Pede-se agrupar tais resultados em uma distribuição de frequências para dados tabelados com intervalo de classe, 
determine a assimetria e a curtose, classificando-a. Utilize log(20) = 1,40 
 
3-) Na empresa BitCompany Ltda, foi observada a distribuição de funcionário do setor de serviços gerais com 
relação ao salário semanal, conforme mostra a distribuição de frequências: 
Salário semanal ($) 25|--30 30|--35 35|--40 40|--45 45|--50 50|--55 
Nº de funcionários 10 20 30 15 40 35 
Pede-se: ( �̅� = $ 42,83,  =$ 7,97, md = $ 49,16, cv = $ 18,61%, as = -0,79) 
a) o salário médio semanal dos funcionários; b) o desvio padrão, coeficiente de variação e a assimetria; 
c) se o empresário divide os funcionários em três categorias, com relação ao salário, de sorte que: 
- os 25% menos produtivos seja da categoria A; ( $ 36,25, $ 45, $ 49,68) 
- os 25% seguintes seja da categoria B; 
- os 25% seguintes, isto é, os mais produtivos, sejam da categoria C. 
Pede-se determinar os limites dos salários das categorias A, B e C. 
Curso de Ciências Econômicas – Probabilidade e Estatística Página 15 
 
 
4-) Cinco moedas foram lançadas, e em cada lance foi anotado o número de caras. Os números de lances nos quais 
foram obtidas 0, 1, 2, 3, 4, e 5 caras que estão indicados na tabela abaixo. 
Nº de Caras 0 1 2 3 4 5 
Nº de lances 10 12 15 16 16 6 
Pede-se: 
a) Construir uma tabela que apresente as percentagens dos lances e indique a do terceiro valor. 
b) Qual o número mais escolhido? O que ele representa? 
c) Calcule a média, moda e mediana. 
 
5-) A prefeitura de uma cidade quer regularizar uma situação referente ao número de documentos falsificados que 
aparecem em um determinado setor e o valor arrecadado por hora de um tipo de multa em reais. Em qual das duas 
variáveis ocorre maior variabilidade, ou variação? 
 Documentos Falsificados (nº) Multa (Reais) 
Média 22 800 
Desvio padrão 5 100 
Tabela com valores da média e desvio-padrão das variáveis estudadas. 
 
Com base nas informações acima, conclui-se: 
( ) A multa apresenta maior variabilidade, já que tem maior desvio padrão. 
( ) O número de documentos falsificados apresentou maior dispersão do que a multa. 
( ) Como as médias são diferentes, não temos como fazer uma comparação. 
( ) O número de documentos falsificados, apresenta variabilidade relativa similar à multa. 
 
6- A produção diária de parafusos da Indústria Aço & Ferro Ltda é de 20 lotes, contendo cada um 100.000 
unidades. Ao escolher uma amostra de oito lotes, o controle de qualidade verificou o número seguinte de parafusos 
com defeitos em cada lote: 
Amostra 01 02 03 04 05 06 07 08 
Defeito 300 550 480 980 1050 350 450 870 
Pede-se projetar o número de parafusos com defeito em um dia de trabalho. (12.575 parafusos defeituosos/dia) 
 
7- Considerando a distribuição de frequências relativas aos pesos de 150 caixas num deposito, calcule: 
a). A média aritmética;(55,47) b) O desvio padrão; (10,15) 
c). A mediana;(56) d) Os quartis Q1 e Q3;(48,5 e 63,44) 
e). Os percentis P10 e P90;(68,44 e 41) f) O coeficiente de assimetria; (0,157) 
g). O coeficiente percentílico de curtose. (0,272) 
 
Pesos caixas (kg) 30|--40 40|--50 50|--60 60|--70 70|--80 
frequência 12 30 55 45 8

Continue navegando