Buscar

Medidas de Dispersão

Prévia do material em texto

Medidas de dispersão
O  resumo  de  um  conjunto  de  dados  por  uma  única  medida
representativa  de  posição  central  esconde  toda  a  informação  sobre  a
variabilidade do conjunto de observações. Por exemplo, suponhamos que
cinco  grupos  de  alunos  submeteram­se  a  um  teste,  obtendo­se  as
seguintes notas: 
grupo A: 3, 4, 5, 6, 7 
grupo B: 1, 3, 5, 7, 9 
grupo C: 5, 5, 5, 5, 5 
grupo D: 3, 5, 5, 7 
grupo E: 3, 5, 5, 6, 6
A identificação de cada uma destas séries por sua média (5, em todos os
casos)  nada  informa  sobre  suas  diferentes  variabilidades.  Notamos,
então,  a  conveniência  de  serem  criadas  medidas  que  sumarizem  a
variabilidade  de  um  conjunto  de  observações  e  que  nos  permita,  por
exemplo,  comparar  conjuntos  diferentes  de  valores,  como  os  dados
acima, segundo algum critério estabelecido.
Um  critério  frequentemente  usado  para  tal  fim  é  aquele  que  mede  a
dispersão dos dados em torno de sua média, e duas medidas são as
mais usadas: desvio médio e variância. O princípio básico é analisar
os desvios das observações em relação à média dessas observações.
Para o grupo A acima os desvios são: –2, –1, 0, 1, 2. É  fácil ver que,
para  qualquer  conjunto  de  dados,  a  soma  dos  desvios  é  igual  a  zero.
Nestas  condições,  a  soma  dos  desvios  �não  é  uma  boa  medida  de
dispersão para o conjunto A. Duas opções são: (a) considerar o total dos
desvios  em  valor  absoluto;  (b)  considerar  o  total  dos  quadrados  dos
desvios.  Para  o  grupo  A  teríamos,  respectivamente,  6  e  10,  conforme
tabela abaixo:
Existem diversas  formas de quantificar  a  variabilidade ou dispersão de
um conjunto de dados. Todas estas formas usam uma medida de posição
como  referência  e  “medem”  a  proximidade  ou  afastamento  dos  dados
com  relação  à  medida  de  posição  usada.  De  todas  as  medidas  de
variabilidade existentes,  as mais  conhecidas e usadas  são a variância
(S2) e o desvio padrão (S). A variância amostral é definida pela soma
dos quadrados dos desvios dividida por N ­ 1, já o desvio padrão é a raiz
quadrada da variância. Assim, para o exemplo acima, tem­se:
S2 = 10/(5 ­ 1) = 10/4 = 2,5
S = Raiz(2,5) = 1,58
Quantis
Tanto a média como o desvio padrão podem não ser medidas adequadas
para representar um conjunto de dados, pois: 
(a) são afetados, de forma exagerada, por valores extremos; 
(b)  apenas  com  estes  dois  valores  não  temos  idéia  da  simetria  ou
assimetria da distribuição dos dados. 
Para contornar esses fatos, outras medidas têm de ser consideradas. 
Vimos que  a mediana  é  um valor  que deixa metade dos  dados  abaixo
dela  e  metade  acima.  De  modo  geral,  podemos  definir  uma  medida,
chamada quantil de ordem p ou p­quantil,  indicada por q(p),  onde p é
uma  proporção  qualquer,  0  <  p  <  1,  tal  que  100p%  das  observações
sejam menores do que q(p).
Abaixo estão indicados alguns quantis e seus nomes particulares. 
q(0,25) = q1: 1o Quartil = 25o Percentil
q(0,50) = q2: Mediana = 2o Quartil = 50o Percentil 
q(0,75) = q3: 3o Quartil = 75o Percentil
q(0,40): 4o Decil 
q(0,95): 95o Percentil
Primeiro quartil
O  primeiro  quartil  é  a  observação  que  divide  o  conjunto  de  dados
ordenados em duas partes, 25% dos dados com valores menores a este
quartil e 75% com valores superiores.
Terceiro quartil
O  terceiro  quartil  é  a  observação  que  divide  o  conjunto  de  dados
ordenados em duas partes, 75% dos dados com valores menores a este
quartil e 25% com valores superiores.
Amplitude e amplitude interquartílica
A  diferença  entre  o  maior  valor  e  o  menor  valor  de  um  conjunto  de
dados é chamada de amplitude. Já a variação entre o terceiro quartil e
o primeiro quartil é conhecido como amplitude interquartílica.
Construindo um Box Plot
Para  construir  este  diagrama,  consideremos  um  retângulo  onde  estão
representados a mediana e os quartis. A partir do retângulo, para cima,
segue uma linha até o ponto mais 
remoto  que  não  exceda  o  limite  superior  =  q3  +  (1,5)amplitude
interquartílica.  De modo  similar,  da  parte  inferior  do  retângulo,  para
baixo, segue uma linha até o ponto mais remoto que não seja menor do
que  o  limite  inferior  =  q1  –  (1,5)amplitude  interquartílica.  Os
valores  compreendidos  entre  esses  dois  limites  são  chamados  valores
adjacentes.  As  observações  que  estiverem acima do  limite  superior  ou
abaixo do limite inferior estabelecidos serão chamadas pontos exteriores
(ou  extremos)  e  representadas  por  asteriscos  ou  pontos.  Essas  são
observações  destoantes  das  demais  e  podem  ou  não  ser  o  que
chamamos de outliers ou valores atípicos. 
O  box  plot  dá  uma  idéia  da  posição,  dispersão,  assimetria,  caudas  e
dados discrepantes. A posição central é dada pela mediana e a dispersão
pela  amplitude  interquartílica.  As  posições  relativas  de  q1,  q2,  q3  dão
uma noção da assimetria da distribuição. Os comprimentos das caudas
são dados pelas linhas que vão do retângulo aos valores remotos e pelos
valores atípicos.
Referências
Bussab, W. O. e Morettin, P. A. (2014). Estatística Básica. São Paulo, SP:
Editora Saraiva. 
Corty,  E.  W.  (2016).  Using  and  Interpreting  Statistics.  New  York,  NY:
Macmillan Learning. 
Velarde,  L. G.  C.  (2008). Noções  de Bioestatística.  Rio  de  Janeiro,  RJ:
Universidade Federal Fluminense.
 
Exercício 1:
A tabela abaixo representa a distribuição de frequência dos salários de
um grupo de 50 empregados de uma empresa, em certo mês. O salário
médio desses empregados, nesse mês, foi de:
 
A ­  R$ 2 637,00 
B ­  R$ 2 520,00   
C ­  R$ 2 500,00 
D ­  R$ 2 420,00 
E ­  R$ 2 400,00 
Comentários:
Essa disciplina não é ED ou você não o fez comentários 
Exercício 2:
Em um grupo de pessoas,  as  idades  são: 10, 12, 15 e 17 anos. Caso
uma pessoa de 16 anos junte­se ao grupo, o que acontece com a média
das idades do grupo?
 
A ­ Permanece inalterada. 
B ­ Diminui em um ano. 
C ­ Aumenta e passa ser 16. 
D ­ Passa a ser 14. 
E ­ Aumenta em 2 anos. 
Comentários:
Essa disciplina não é ED ou você não o fez comentários 
Exercício 3:
Determine a média da distribuição abaixo.
Observação    Frequência 
5                  2 
7                  3 
8                  6 
10                 4 
13                 1
 
A ­ 8,25 
B ­ 8 
C ­ 10 
D ­ 8,5 
E ­ 6 
Comentários:
Essa disciplina não é ED ou você não o fez comentários 
Exercício 4:
Em um ambulatório infantil, anotaram­se a idade d e algumas crianças
atendidas e chegou­se aos dados abaixo.
Classes    Frequência 
0­2 anos         8 
2 ­4 anos       12 
4­ 6 anos       15 
6­ 8 anos        5
Considere as afirmativas abaixo:
I. Não há moda nesta distribuição.
II. A média é de 2 anos.
III.  O tamanho da amostra é 40
Está correto o que se afirma somente em:
 
A ­ I 
B ­ II 
C ­ III 
D ­ I e III 
E ­ II e III 
Comentários:
Essa disciplina não é ED ou você não o fez comentários

Continue navegando