Aula 3 - Bioestatística

Bioestatística I

•

UFRJ

Rafaella Rodrigues

04/02/2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.720 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Aula 3
Medidas-Resumo de Dados
Objetivo: Compreender a importância de se resumir a informação a poucos
valores numéricos, tanto de centralidade quanto de dispersão dos dados para futuras
tomadas de decisão sob incerteza.
1 Medidas de Posição
Medidas de Posição (ou de Tendência Central), como o próprio termo indica,
visam a sintetizar o conjunto de dados em geral numa única medida em algum lugar
geométrico central. Isso só é possível se nossas observações são de natureza quanti-
tativa, pois, como dissemos anteriormente, as variáveis qualitativas estão no domínio
da frequência apenas, ou seja, só podemos contar quantas observações recaem em
cada categoria, mas não podemos operar matematicamente com as categorias em si.
As principais medidas de posição usadas na Estatística são a média arit-
mética, a mediana, a moda e os quartis da distribuição. Outras medidas de posição
existem, mas não são tão usuais e não as trataremos nesse curso.
Seja uma amostra representada por fx1; x2; x3; :::; xng de n observações numé-
ricas, retiradas de uma população hipotética de N elementos cujas medidas são
fX1; X2; X3; :::; XNg. Observe que em geral não temos acesso a todos os resultados
da população e assim n < N , o que justica o uso da Estatística. Além disso não
se deve confundir xi (i = 1; 2; :::; n) e Xj (j = 1; 2; :::; N). xi é o i-ésimo valor ob-
servado na amostra, enquanto Xj é o j-ésimo valor não necessariamente observado
da população. Claro que para todo xi na amostra, existe um j tal que xi = Xj.
1.1 Média Aritmética
A média aritmética pode ser vista como o centro de gravidade de um conjunto de
dados. Por isso ela é conhecida na Estatística como o momento de primeira ordem
dos dados, ou seja o ponto de equilíbrio das observações.
A média aritmética da população (�) é denida como
� =
X1 +X2 + :::+XN
N
=
PN
i=1Xi
N
.
A média aritmética da amostra ( �Xn) é denida como
�Xn =
x1 + x2 + :::+ xn
n
=
Pn
i=1 xi
n
.
1
Observe que � é um parâmetro (não acessado e xo) e �Xn é uma estatística
(acessada através da amostra e variável).
Exemplo 1 Suponha uma amostra de 5 elementos de uma população cujos resul-
tados são f1; 1; 4; 9; 10g. Então temos
�X5 =
1 + 1 + 4 + 9 + 10
5
= 5.
Propriedades da Média Aritmética
(1) Seja uma amostra n observações numéricas representado por fx1; x2; x3; :::; xng
com média �Xn. Seja k um número real.
Então o conjunto fkx1; kx2; kx3; :::; kxng terá média k �Xn.
De fato podemos ver que
kx1 + kx2 + kx3 + :::+ kxn
n
= k � x1 + x2 + :::+ xn
n
= k �Xn
O que o resultado acima nos diz é que, ao multiplicarmos nossas observações
por um fator k, a nova média aritmética será dada pela média aritmética anterior
multiplicada pelo mesmo fator.
(2) Seja uma amostra de n observações numéricas representada por fx1; x2; x3; :::; xng
com média �Xn. Seja k um número real.
Então o conjunto fk + x1; k + x2; k + x3; :::; k + xng terá média k + �Xn.
De fato podemos ver que
(k + x1) + (k + x2) + (k + x3) + :::+ (k + xn)
n
=
nk + (x1 + x2 + :::+ xn)
n
= k +
x1 + x2 + :::+ xn
n
= k + �Xn
O que o resultado acima nos diz é que ao somarmos nossas observações por um
valor k, então a nova média aritmética será dada pela média aritmética anterior
somada pelo mesmo valor k.
(3) Seja uma amostra n observações numéricas representado por fx1; x2; x3; :::; xng
com média �Xn. Seja di = xi� �Xn a distância (orientada) entre a i-ésima observação
e a média aritmética. Então d1 + d2 + :::+ dn = 0, ou seja, as somas das distâncias
orientadas é sempre nula, e consequentemente a média das distâncias orientadas
é sempre nula. Isso comprova que a média é o ponto de equilíbrio de forças das
observações. De fato
2
d1 + d2 + :::+ dn =
�
x1 � �Xn
�
+
�
x2 � �Xn
�
+ :::+
�
xn � �Xn
�
= (x1 + x2 + :::+ xn)�
�
�Xn + �Xn + :::+ �Xn
�
= (x1 + x2 + :::+ xn)� n �Xn
= (x1 + x2 + :::+ xn)� n� x1 + x2 + :::+ xn
n
= (x1 + x2 + :::+ xn)� (x1 + x2 + :::+ xn)
= 0
e assim
d1 + d2 + :::+ dn
n
=
0
n
= 0.
(4) A média é mal condicionada para valores atípicos no conjunto de dados.
No exemplo do conjunto de dados f1; 1; 4; 9; 10g a média é �X5 =
1 + 1 + 4 + 9 + 10
5
= 5 e representa bem a coleção. No entanto se tivéssemos
f1; 1; 4; 9; 100g a média seria �X5 = 1 + 1 + 4 + 9 + 100
5
= 23, valor esse que não
representa a maioria dos dados 1, 1, 4, 9, abaixo do valor 10.
Com isso devemos ter cautela em sintetizar os dados com a média aritmética,
se os mesmos são muito assimétricos e possuem valores discrepantes. Por exemplo,
não seria adequado resumir a informação a respeito dos salários de trabalhadores
de uma indústria com a média aritmética, se há cargos no executivo com salários
astronômicos, pois estes elevariam a média salarial acima da realidade do trabal-
hador mediano. Nesses casos devemos tomar outra medida de posição, que seja
mais estável para dados atípicos, como a mediana, que veremos a seguir.
Cabe ressaltar aqui que se os dados são apresentados em tabelas de frequên-
cia, indicando que o valor xi ocorre fi vezes no conjunto de dados, com f1 + f2 +
:::+ fn = n, então a fórmula da média aritmética amostral será naturalmente dada
por:
�Xn =
x1:f1 + x2:f2 + :::+ xn:fn
f1 + f2 + :::+ fn
=
Pn
i=1 xi:fi
n
.
A fórmula acima pode ser interpretada como uma média aritmética pon-
derada cujos pesos são as frequências fi, i = 1; 2; :::; n. Observe também que se
denotarmos por pi =
fi
f1+f2+:::+fn
= fi
n
a média dos dados pode ser expressa como
�Xn =
nX
i=1
xi:pi,
com pi tendo a interpretação de uma frequência relativa empírica da ocorrência de
xi. Veremos mais tarde que essa expressão se assemelha à fórmula da Esperança
Matemática de uma variável aleatória discreta.
3
Finalmente, se os dados são apresentados em classes com as respectivas
frequências da classe, a fórmula acima também também expressa a média dos dados,
com xi agora representando o ponto médio do intervalo da i-ésima classe e fi a
frequência da i-ésima classe. Vejamos um exemplo desse tipo.
Exemplo 2 Suponha a distribuição de frequências em classe, vista na Aula 2, dada
por
Classes Frequência xi (Ponto Médio)
67 ` 79 3 73
79 ` 91 5 85
91 ` 103 8 97
103 ` 115 9 109
115 ` 127 5 121
Total 30
A média aritmética baseada nos dados agrupados em classe da tabela acima
será dada por
�X30 =
73� 3 + 85� 5 + 97� 8 + 109� 9 + 121� 5
30
=
3:006
30
= 100; 2.
Obviamente, esse valor não é necessariamente igual à média dos dados toma-
dos pontualmente (não agrupados em classe). No entanto, espera-se que ambos os
valores sejam próximos e, em situações em que não temos acesso aos dados não agru-
pados, não nos resta outra maneira de resgatar a média dos mesmos, senão através
do procedimento acima descrito.
1.2 Mediana
É a medida que ocupa a posição central num conjunto de dados ordenados (se
o número de elementos é ímpar) ou a média aritmética simples dos dois valores
centrais (se o número de elementos é par). Isto é, se denirmos x(k) como a k-ésima
observação ordenada em ordem crescente, isto é, x(1) � x(2) � x(3) � ::: � x(n),
então
Me = x(n+1
2
) (se n é ímpar) ou Me =
x(n
2
) + x(n+2
2
)
2
(se n é par).
Vejamos o seguinte exemplo para ilustrar o cálculo da mediana num conjunto de
dados não agrupados.
4
Exemplo 3 Suponha uma amostra de 10 elementos de uma população cujos resul-
tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem
crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos
Me =
x( 10
2
) + x( 10+2
2
)
2
=
x(5) + x(6)
2
Mas x(5) = 20 e x(6) = 27. Assim
Me =
20 + 27
2
= 23; 5.
Propriedades da Mediana
(1) A mediana divide a distribuição ao meio, indicando que 50% dos valores
observados estão abaixo e 50% estãoacima deste valor mediano.
(2) A mediana é uma medida robusta, isto é, se abala pouco para valores ex-
tremos na distribuição. Vejamos isso à luz de um exemplo simples:
Para o conjunto de dados f1; 1; 4; 9; 10g, temos que a média é �X5 =
1 + 1 + 4 + 9 + 10
5
= 5 e a mediana é Me = x(3) = 4, ambas as medidas represen-
tando bem o conjunto como um todo. No entanto, se tivéssemos agora f1; 1; 4; 9; 10; 100g
a média seria �X6 =
1 + 1 + 4 + 9 + 10 + 100
6
= 20; 833::: (valor esse que não rep-
resenta a maioria dos dados) e a mediana seria Me =
4 + 9
2
= 6; 5 (valor ainda
representativo da maioria dos dados). Assim, vemos que, na presença do valor ex-
tremo 100, a média passa de 5 a 20; 83, enquanto que a mediana passa de 4 a 6; 5.
Isso mostra o caráter de robustez da mediana.
Quando os dados estão distribuídos em classe, a médiana é calculada medi-
ante a fórmula:
Me = li +
� n
2
� fac
fmed
�
� h
onde li é o limite inferior da classe da mediana (isto é, a classe em que se situa a
informação de posição n
2
); n é o número de observações, fac é a frequência acumulada
anterior à classe da mediana; fmed é a frequência da classe da mediana; e h é a
amplitude da classe da mediana. Retomemos o Exemplo 2 anterior. Assim, temos
Classes Frequência Frequência Acumulada
67 ` 79 3 3
79 ` 91 5 8
91 ` 103 8 16
103 ` 115 9 25
115 ` 127 5 30
Total 30
Como há n = 30 observações a posição do valor mediano é 30
2
= 15 e,
portanto, a classe da mediana é 91 ` 103, pois esta classe contém os elementos
5
ordenados da 9a a 16a posições. Assim, temos li = 91, fac = 8, fmed = 8 e h =
103� 91 = 12. Assim, a mediana será dada por
Me = 91 +
� 30
2
� 8
8
�
� 12 = 101; 5.
1.3 Moda
A moda (Mo) é a observação mais freqüente de um conjunto de dados. Caso
não haja observação mais freqüente, ou seja, todos os valores aparecem apenas uma
única vez no conjunto de dados, a distribuição é dita amodal. Podemos ter um
conjunto unimodal se houver apenas uma moda; bimodal se houver duas modas;
ou multimodal (ou plurimodal) se houver três ou mais modas no conjunto de
dados coletados.
Vejamos exemplos das quatro situações descritas acima: Sejam as notas da
prova de Matemática dos alunos de quatro turmas diferentes dadas pela tabela a
seguir.
Turma Notas Moda Distribuição
T1 2; 4; 6; 8; 8,5; 9, 10 Não existe Amodal
T2 2; 4; 5; 5; 8; 9; 10 5 Unimodal
T3 2; 4; 5; 5; 8; 9; 9; 10 5 e 9 Bimodal
T4 2; 2; 4; 5; 5; 8; 9; 9; 10 2, 5 e 9 Plurimodal
A pergunta que surge naturalmente agora é: Quando a moda será preferível
à média ou à mediana?
Se a distribuição é bem equilibrada, isto é, o histograma da distribuição tem
uma certa simetria, e há um único valor modal, então as três medidas-resumo são
qualitativamente equivalentes. Mas nesse caso, em geral, preferiremos a média, pois
veremos futuramente que a média possui propriedades probabilísticas importantes
para a análise inferencial da população.
Se, no entanto, a distribuição é altamente assimétrica com valores atípicos
e unimodal, então preferiremos, em geral, tomar a mediana como medida síntese,
embora a moda também possa ser usada em certas situações nesse caso.
Se, por outro lado, o histograma da distribuição é do tipo bimodal (ou
mesmo plurimodal) como na representação esquemática abaixo, então nem a média,
nem a mediana são boas medidas de representação dos dados, pois estas se situariam
no "vale" da distribuição em que há pouca incidência de valores. Assim, neste caso,
preferiremos quase sempre a moda como medida síntese.
6
Distribuição Bimodal
Para dados agrupados em classe, existe também uma fórmula para o cálculo
do valor modal, dada por
Mo = li +
�
�1
�1 +�2
�
� h
onde li é o limite inferior da classe modal (isto é, a classe de maior frequência); �1
é a diferença entre a frequência da classe modal e a frequência da classe anterior à
modal; �2 é a diferença entre a frequência da classe modal e a frequência da classe
posterior à modal; e h é a amplitude da classe modal.
Retomando o Exemplo 2 anterior, temos que a classe modal é dada por 103 ` 115,
pois é a de maior frequência (9 observações); li = 103; �1 = 9�8 = 1; �2 = 9�5 = 4;
e h = 115� 103 = 12. Assim a moda será dada por
Mo = 103 +
�
1
1 + 4
�
� 12 = 105; 4.
Relação Empírica entre Média, Mediana e Moda
A seguinte relação empírica em geral subsiste aproximadamente para os
conjuntos de dados observados:
�X �Mo = 3 � �X �Me� .
Essa expressão pode ser apresentada de diversas formas e indica geometri-
camente que a mediana se situa entre a média e a moda, sendo sua distância à moda
o dobro de sua distância à média (verique isso pela relação acima). Sua vericação
na prática tende a ser mais perfeita para conjunto maiores de dados, e sendo a moda
calculada com base em dados agrupados em classes de freqüências.
7
1.4 Quartis da Distribuição
Os quartis da distribuição são os três valores que dividem a distribuição em
quatro partes iguais. O primeiro quartil (Q1) é o valor da distribuição em que abaixo
dele há 25% da informação e acima dele há 75% da informação. O segundo quartil
(Q2) é precisamente a mediana da distribuição (o valor que divide a distribuição ao
meio). Finalmente o terceiro quartil (Q3) é o valor da distribuição em que abaixo
dele há 75% da informação e acima dele há 25% da informação.
Sejam x(1) � x(2) � x(3) � ::: � x(n), os dados ordenados em ordem cres-
cente.
O primeiro quartil (Q1) é denido como Q1 = x
(
1
4
(n+1))
.
O segundo quartil (Q2) é denido como Q2 = x
(
1
2
(n+1))
.
O terceiro quartil (Q3) é denido como Q3 = x
(
3
4
(n+1))
.
Lembrando que se as posições dos quartis acima não são valores inteiros,
então devemos fazer uma interpolação dos valores intermediários à posição. Vejamos
com o exemplo anterior.
Exemplo 4 Suponha uma amostra de 10 elementos de uma população cujos resul-
tados são f54; 2; 35; 5; 65; 27; 9; 14; 44; 20g. Então, ordenando os dados em ordem
crescente, temos 2; 5; 9; 14; 20; 27; 35; 44; 54; 65. Como n = 10, temos
Q1 = x( 11
4
) = x(2;75)
Com isso, o primeiro quartil se situa entre x(2) e x(3) com uma interpolação de 0; 75
entre eles. Assim, temos
Q1 = x(2) + 0; 75�
�
x(3) � x(2)
�
= 5 + 0; 75� (9� 5)
Q1 = 8
O segundo quartil é dado por
Q2 = x( 11
2
) = x(5;5)
Com isso, o segundo quartil se situa entre x(5) e x(6) com uma interpolação de 0; 5
entre eles. Assim, temos
Q2 = Me = x(5) + 0; 5�
�
x(6) � x(5)
�
= 20 + 0; 5� (27� 20)
8
Q2 = 23; 5,
que é o resultado encontrado para a mediana.
Finalmente, o terceiro quartil é dado por
Q3 = x( 33
4
) = x(8;25)
Com isso, o terceiro quartil se situa entre x(8) e x(9) com uma interpolação de 0; 25
entre eles. Assim, temos
Q3 = x(8) + 0; 25�
�
x(9) � x(8)
�
= 44 + 0; 25� (54� 44)
Q3 = 46; 5.
Para valores agrupados em classe, temos a seguinte fórmula para o k-ésimo
quartil (k = 1; 2; 3):
Qk = li +
�
k � n
4
� fac
fQk
�
� h
onde li é o limite inferior da classe do k-ésimo quartil (isto é, a classe em que se
situa a informação de posição k� n
4
); n é o número de observações, fac é a frequência
acumulada anterior à classe do k-ésimo quartil; fQk é a frequência da classe do k-
ésimo quartil; e h é a amplitude da classe do k-ésimo quartil. Retomando o Exemplo
2 anterior, temos que a classe do primeiro quartil é aquela que contém a observação
na posição 30
4
= 7; 5, ou seja, a classe 79 ` 91, pois esta contém as informações
ordenadas da posição 4 à posição 8. Assim, temos
Q1 = 79 +
�
1� 30
4
� 3
5
�
� 12 = 89; 8.
O segundo quartil é a mediana já calculada anteriormente, isto é, Q2 = Me =
101; 5.
Finalmente, a classe do terceiro quartil é aquela que contém a observação na
posição 3� 30
4
= 22; 5, ou seja, a classe 103 ` 115, pois esta contémas informações
ordenadas da posição 17 à posição 25. Assim, temos
Q3 = 103 +
�
3� 30
4
� 16
9
�
� 12 = 111; 67.
Poderíamos então perguntar: Para que servem os quartis da distribuição?
Temos uma dupla resposta a esta pergunta: serve para reconhecer os dados
atípicos da distribuição, os chamados outliers e para construir um importante gráco
estrutural da distribuição chamado Box-Plot. Vejamos os dois casos agora.
9
1.4.1 Reconhecimento dos Outliers (ou Dados Discrepantes)
Para reconhecimento dos outliers da distribuição, precisamos obter o primeiro
e o terceiro quartis da distribuição (Q1 e Q3).
Dene-se a amplitude interquartílica da distribuição (IQ) como IQ = Q3 �Q1.
Outliers da distribuição são os valores fora do intervalo
�
Q1 � 32IQ; Q3 + 32IQ
�
.
Vejamos um exemplo concreto:
Exemplo 5 As vendas de uma determinada loja em 27 dias observados são dadas
a seguir: 28, 43, 48, 51, 43, 30, 72, 44, 48, 33, 45, 37, 37, 42, 27, 47, 42, 23, 46,
39, 20, 45, 38, 19, 17, 35, 45.
Colocando os dados (n = 27) em ordem temos: 17, 19, 20, 23, 27, 28, 30, 33,
35, 37, 37, 38, 39, 42, 42, 43, 43, 44, 45, 45, 45, 46, 47, 48, 48, 51, 72.
Temos
Q1 = x( 28
4
) = x(7) = 30,
Q2 = Me = x( 28
2
) = x(14) = 42 e
Q3 = x( 84
4
) = x(21) = 45.
Assim
IQ = Q3 �Q1 = 45� 30 = 15.
O intervalo dos valores típicos é dado por�
Q1 � 3
2
IQ; Q3 +
3
2
IQ
�
=
�
30� 3
2
� 15; 45 + 3
2
� 15
�
= [7; 5; 67; 5]
Assim vemos que o conjunto de dados possui um único outlier, o de valor 72,
valor esse considerado atípico e passível de uma análise mais minuciosa. Poderíamos
perguntar: Que dia foi esse? Há explicações plausíveis para esse valor à luz de algum
fator?
Há toda uma teoria sosticada na Estatística para o tratamento dos outliers, mas
está fora de nosso escopo ir a fundo nessas questões, visto que nosso curso é voltado
para uma primeira inserção no universo da estatística.
1.4.2 Construção do Box-Plot
Uma alternativa pictográca do histograma da distribuição é o Box-Plot. En-
quanto o histograma tem uma representação da distribuição numa perspectiva frontal,
o box-plot se assemelha a uma visão panorâmica de cima da distribuição.
O Box-Plot é um gráco que contém os quartis da distribuição, os valores
mínimos e máximos da distribuição que não são outliers e nalmente os outliers. O
gráco abaixo, referente aos dados sobre vendas tratados no exemplo 5, representa
10
os quartis (30, 42 e 45) que denem a caixa (box) que contém 50% da informação
central dos dados coletados; os valores mínimos e máximos não-atípicos (17 e 51) e
o valor do outlier (72) em asterisco.
Box-Plot
Observe que de 30 (Q1) a 42 (Me) há 25% da informação e de 42 (Me) a 45
(Q3) também há 25% da informação, e que o segundo intervalo tem menor amplitude
que o primeiro. Portanto, o histograma deve ser mais alto no segundo intervalo que
no primeiro, indicando que há uma assimetria da distribuição. (Embora tratemos o
estudo da assimetria das distribuições em aulas posteriores, você consegue visualizar
isso?)
Exercício 1 Dados A = f24; 26; 28; 30; 32; 34; 36g e B = f15; 20; 25; 30; 35; 40; 45g,
determine suas médias aritméticas, suas medianas e suas modas e diga se, com base
nelas, é possível diferenciar os dois conjuntos de dados.
Exercício 2 Dado o conjunto A = f85; 82; 97; 88; 89; 97; 89; 93; 88; 97; 96; 97; 98; 93; 97g
determine sua média aritmética, sua mediana e sua moda.
Exercício 3 Um geógrafo está interessado em estudar a idade de trabalhadores no
campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10
trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.
Pede-se:
(a) A média das idades.
(b) A moda das idades.
(c) A mediana das idades.
(d) Os possíveis outliers.
Exercício 4 Dê uma situação prática onde você acha que a mediana é uma medida
mais apropriada do que a média.
Exercício 5 Esboce um histograma onde a média e a mediana coincidem. Existe
alguma classe de histogramas onde isto sempre acontece?
11
Exercício 6 Num caso em que você esteja sintetizando o conjunto de dados em uma
única medida de posição ou tendência central, qual dentre elas (média, mediana ou
moda) você adotaria nos casos abaixo, justicando (em alguns casos mais de uma
escolha é possível):
(a) A distribuição é praticamente simétrica e unimodal.
(b) A distribuição é praticamente simétrica e bimodal.
(c) A distribuição é fortemente assimétrica.
Exercício 7 Quer-se estudar o número de erros de impressão de um livro. Para
isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de
erros por página:
Erros Frequência
0 25
1 20
2 3
3 1
4 1
(a) Qual o número médio de erros por página?
(b) E o número mediano?
(c) Qual é a moda?
(d) Se o livro tem 500 páginas, como você estimaria o total de erros esperado no
livro?
(e) Quais os quartis das distribuição? Há evidência de dados atípicos (outliers)?
(f) Faça num papel milimetrado o Box-Plot para os dados coletados.
Exercício 8 Uma amostra de idades de 100 indivíduos foi retirada de uma certa
população e sua distribuição de frequências em classes é dada por
Idades Frequência
20 ` 30 10
30 ` 40 16
40 ` 50 27
50 ` 60 32
60 ` 70 15
Obtenha a média, a mediana, a moda e os quartis da distribuição.
2 Medidas de Variabilidade
Enquanto as medidas de posição procuram sintetizar o conjunto de dados em al-
guns valores situados entre dados coletados, as medidas de dispersão buscam avaliar
quão dispersos (ou esparsos) são os dados coletados. Isso é de fundamental im-
portância, pois podemos ter dois conjuntos de dados com as mesmas medidas de
12
posição, mas com dispersões diferentes, fazendo com que os valores qualitativos
dessas medidas de posição sejam também diferentes.
Há uma piada irônica que diz que o estatístico é o prossional que dirá que
uma pessoa, ao se sentar numa cadeira com duas placas de metal, uma aquecida a
100�C e outra resfriada a �40�C, estará em média confortável, pois a temperatura
média é de
�40� + 100�
2
= 30�C! Na verdade, o verdadeiro estatístico jamais diria
isso, pois ele não toma decisões apenas pela média, mas na dispersão dos dados em
torno da média. Uma cadeira com duas placas de metal, uma aquecida a 35�C e
outra a 25�C, também tem temperatura média de 30�C, mas há menos dispersão da
temperatura nessa cadeira que na outra. Assim, embora quantitativamente iguais,
os dois valores de 30�C não são qualitativamente equivalentes. Há portanto que se
avaliar a variabilidade dos dados coletados, a m de tecer conclusões adequadas.
Diversas são as medidas de variabilidade, mas estudaremos apenas as mais
importantes e frequentes no trabalho do estatístico.
2.1 Amplitude Total
A Amplitude Total (A) é denida como a diferença entre o maior e o menor
valor observado, x(n) e x(1), respectivamente. Assim
A = x(n) � x(1).
Como se trata de uma medida bruta (pois só leva em consideração os dois
valores extremais do conjunto de dados), ela é usada mais frequentemente apenas
para auxiliar na construção do histograma, como visto anteriormente. Mais relevante
para a análise estatística é a variância, que deniremos a seguir.
2.2 Variância
A variância representa a média das distâncias quadráticas entre cada valor
observado e a média do conjunto dos dados. Vimos anteriormente que a média das
distâncias orientadas entre cada valor observado e a média do conjunto dos dados é
sempre nula. Portanto a média das distâncias orientadas nada nos informa sobre a
dispersão dos dados. A ideia portanto é elevar ao quadrado as distâncias, pois nesse
caso as somas quadráticas não se anulam, a menos que todo valor observado seja
igual à média, isto é, os dados são todos iguais em valor.
Seja uma amostra representada por fx1; x2; x3; :::; xng de n observações numé-
ricas, retirada deuma população hipotética de N elementos cujos resultados (não-
observados) são fX1; X2; X3; :::; XNg.
A variância da população (�2) é denida como �2 =
PN
i=1 (Xi � �)2
N
,
13
com � a média da população.
A variância da amostra (S2) é denida como S2 =
Pn
i=1
�
xi � �Xn
�2
n� 1 ,
com �Xn a média da amostra.
Aqui também vale ressaltar que a variância da população (�2) não é obser-
vada na maioria das vezes e, portanto, é um parâmetro a ser estimado. A variância
da amostra (S2), ao contrário, é obtida através dos dados coletados e usada para
se estimar a variância da população. Portanto a variância da amostra é um valor
aleatório, pois depende da amostra que foi retirada.
A essa altura você deve estar se perguntando por que na fórmula da variância
da amostra dividimos por n�1 ao invés de n, como expresso na fórmula da variância
da população. Os estatísticos fazem isso, pois como S2 é um valor aleatório (cada
amostra pode gerar uma variância amostral diferente), gostaríamos de "acertar" em
média o valor da variância da população. Se dividíssemos por n, pode-se mostrar
por métodos probabilísticos avançados que a variância da amostra não acertaria em
média a variância da população. A correção adequada matematicamente é dividir
por n� 1, daí a fórmula um pouco diferente. Claro que se a amostra é grande (por
exemplo, maior do que 30 observações), dividir por n ou por n � 1 não fará muita
diferença, mas se a amostra é pequena esse fator de correção faz toda a diferença!
As fórmulas acima podem ser reescritas abrindo o quadrado dos binômios
como
�2 =
PN
i=1X
2
i
N
� �2 e
S2 =
Pn
i=1 x
2
i � n �X2n
n� 1 .
(Verique isso você mesmo(a).)
Propriedades da Variância
(1) Multiplicando-se todos os valores de uma variável por uma constante, a
variância do conjunto ca multiplicada pelo quadrado dessa constante.
Para ver isso, suponha que fx1; x2; x3; :::; xng tenha média �Xn.e variância
S2. Lembre agora que o conjunto fkx1; kx2; kx3; :::; kxng terá média k �Xn. Assim a
14
variância desse novo conjunto é dada porPn
i=1
�
kxi � k �Xn
�2
n� 1 =
Pn
i=1 k
2
�
xi � �Xn
�2
n� 1
= k2
"Pn
i=1
�
xi � �Xn
�2
n� 1
#
= k2S2
Ou seja a nova variância é k2S2.
(2) Somando-se ou subtraindo-se uma constante a todos os valores de uma var-
iável, a variância não se altera.
Para ver isso, suponha que fx1; x2; x3; :::; xng tenha média �Xn.e variância S2.
Lembre agora que o conjunto fk + x1; k + x2; k + x3; :::; k + xng terá média k+ �Xn.
Assim a variância desse novo conjunto é dada porPn
i=1
�
(k + xi)�
�
k + �Xn
��2
n� 1 =
Pn
i=1
�
xi � �Xn
�2
n� 1
= S2
Assim, vemos que somar ou diminuir os dados por uma constante xada não
alterará a dispersão dos dados.
(3) Pelas fórmulas das variâncias tanto populacional quanto amostral, vemos
que a variância é sempre um número real não-negativo. Ela será nula, se e somente
se xi = �Xn, para todo i; portanto, se e somente se os dados são todos iguais. Caso
contrário, a variância será sempre estritamente positiva.
Novamente cabe ressaltar aqui que se os dados são apresentados em tabelas
de frequência, indicando que o valor xi ocorre fi vezes no conjunto de dados, com
f1+ f2+ :::+ fn = n, então a fórmula da variância amostral será naturalmente dada
por:
S2 =
Pn
i=1
�
xi � �Xn
�2
:fi
n� 1 .
Se os dados são apresentados em classes com as respectivas frequências da
classe, a fórmula acima também também expressa a variância amostral, com xi
representando agora o ponto médio da i-ésima classe e fi a frequência da i-ésima
classe.
2.3 Desvio-Padrão
Vimos que a variância é calculada elevando-se ao quadrado as observações.
Portanto se os dados são mensurados em metro, por exemplo, a variância será men-
surada em metro quadrado. Para retornar à medida original é preciso extrair a raiz
quadrada da variância. Esse valor é denominado desvio-padrão dos dados. Assim:
15
O desvio-padrão da população (�) é denida como � =
p
�2 =
rPN
i=1 (Xi � �)2
N
.
O desvio-padrão da amostra (S) é denida como S =
p
S2 =
sPn
i=1
�
xi � �Xn
�2
n� 1 .
Relação Empírica entre Desvio-Padrão e Amplitude
Na quase totalidade dos casos práticos temos:
A
6
< S <
A
3
.
Propriedades do Desvio-Padrão
(1) Somando-se ou subtraindo-se uma constante a cada valor de um conjunto
de dados, o desvio padrão não se altera. Isso decorre do fato de que somando-se ou
subtraindo-se uma constante a todos os valores de uma variável, a variância não se
altera. Portanto o desvio-padrão também não se alterará.
(2) Multiplicando-se ou dividindo-se por uma constante cada valor de um con-
junto, o desvio padrão também ca multiplicado ou dividido, respectivamente, pelo
módulo da constante.
Vimos que o conjunto fkx1; kx2; kx3; :::; kxng tem variância k2S2. Assim o
novo desvio-padrão será dado por
p
k2S2 = jkjS.
2.4 Coeciente de Variação
Nem sempre uma variância pequena (e consequentemente desvio-padrão pe-
queno) signica pouca dispersão. Tampouco uma variância grande é sempre indi-
cador de alta dispersão. Esses valores podem ser altos ou baixos devido à magnitude
dos dados observados. Se medimos observações em microscópio, por exemplo, ter-
emos fatalmente um valor numericamente baixo de variância, podendo no entanto
haver alta dispersão dos dados no nível microscópico. Da mesma maneira, ao medir
produto interno bruto em dólares do Brasil teremos valores observados de alta mag-
nitude, gerando variância grande, mas não necessariamente indicando alta dispersão.
Como então avaliar a dispersão adequadamente? A ideia é tomar o desvio-
padrão dos dados comparativamente à escala média dos dados. Tal medida é de-
nominada de Coeciente de Variação (CV ) e é denida como o quociente entre
o desvio-padrão e a média dos dados observados. É frequentemente expresso em
porcentagem. Assim temos:
16
CV =
S
�X
ou CV =
S
�X
� 100%.
Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao
seu valor médio. Assim, uma pequena dispersão absoluta pode ser, na verdade,
considerável quando comparada com a ordem de grandeza dos valores da variável e
vice-versa. Quando consideramos o coeciente de variação, enganos de interpretação
desse tipo são evitados. Quando o CV tem uma medida em percentual abaixo de
50%, dizemos que os dados são relativamente homogêneos; acima de 50% os dados
são considerados heterogêneos, mas caso o coeciente de variação seja superior a
100% dizemos que eles têm uma superdispersão.
Consideremos o seguinte problema para o cálculo de medidas de posição e
variabilidade.
Exemplo 6 Suponha duas amostras de preços de fechamento atingido por dois pa-
cotes de ações registrados em dez sextas-feiras consecutivas.
Ações A 56 56 57 58 61 63 63 67 67 67
Ações B 33 42 48 52 57 67 67 77 82 90
Pede-se:
(a) Obtenha as médias, as medianas e as modas dos dois conjuntos de dados.
(b) Obtenha as amplitudes totais dos dois conjuntos de dados.
(c) Obtenha as variâncias dos dois conjuntos de dados.
(d) Obtenha os desvios-padrão dos dois conjuntos de dados.
(e) Obtenha os coecientes de variação dos dois conjuntos de dados.
Sejam �XA e �XB as médias, MeA e MeB as medianas e MoA e MoB as modas.
Então temos:
�XA =
56 + 56 + :::+ 67 + 67
10
=
615
10
= 61; 5
�XB =
33 + 42 + :::+ 82 + 90
10
=
615
10
= 61; 5
MeA =
61 + 63
2
= 62
MeB =
57 + 67
2
= 62
MoA = 67
MoB = 67
Portanto os dois conjuntos têm as mesmas medidas de posição pedidas.
Vejamos agora as amplitudes totais nos dois conjuntos:
AA = 67� 56 = 11
AB = 90� 33 = 57
17
Assim, vemos que as Ações B têm maior amplitude que as Ações A.
A m de preparar os cálculos das medidas de dispersão montaremos duas tabelas
com as seguintes colunas:
Ações A xi � �XA
�xi � �XA
�2
56 56� 61; 5 = �5; 5 30; 25
56 56� 61; 5 = �5; 5 30; 25
57 57� 61; 5 = �4; 5 20; 25
58 58� 61; 5 = �3; 5 12; 25
61 61� 61; 5 = �0; 5 0; 25
63 63� 61; 5 = 1; 5 2; 25
63 63� 61; 5 = 1; 5 2; 25
67 67� 61; 5 = 5; 5 30; 25
67 67� 61; 5 = 5; 5 30; 25
67 67� 61; 5 = 5; 5 30; 25P10
i=1 xi = 615
P10
i=1
�
xi � �XA
�
= 0
P10
i=1
�
xi � �XA
�2
= 188; 50
Ações B xi � �XB
�
xi � �XB
�2
33 33� 61; 5 = �28; 5 812; 25
42 42� 61; 5 = �19; 5 380; 25
48 48� 61; 5 = �13; 5 182; 25
52 52� 61; 5 = �9; 5 90; 25
57 57� 61; 5 = �4; 5 20; 25
67 67� 61; 5 = 5; 5 30; 25
67 67� 61; 5 = 5; 5 30; 25
77 77� 61; 5 = 15; 5 240; 25
82 82� 61; 5 = 20; 5 420; 25
90 90� 61; 5 = 28; 5 812; 25P10
i=1 xi = 615
P10
i=1
�
xi � �XB
�
= 0
P10
i=1
�
xi � �XB
�2
= 3:018; 50
Assim, temos as seguintes variâncias amostrais nos dois conjuntos:
S2A =
P10
i=1
�
xi � �XA
�2
10� 1 =
188; 50
9
= 20; 944:::
S2B =
P10
i=1
�
xi � �XB
�2
10� 1 =
3:018; 50
9
= 335; 3888:::
Os respectivos desvios-padrão são:
SA =
p
20; 944::: �= 4; 5765
SB =
p
335; 3888::: �= 18; 3136
18
Finalmente os coecientes de variação nos dois grupos são dados por:
CVA =
SA
�XA
=
4; 5765
61; 5
�= 0; 0744
ou
CVA �= 7; 44%
CVB =
SB
�XB
=
18; 3136
61; 5
�= 0; 2978
ou
CVB �= 29; 78%
Finalmente, concluímos que embora os dois conjuntos tenham medidas de posição
equivalentes, há maior variabilidade, e consequentemente mais incerteza, nas Ações
B do que nas Ações A.
Exercício 9 Esboce os histogramas de três variáveis (X, Y e Z) com a mesma
média aritmética, mas com variâncias ordenadas em ordem crescente. Em qual
histograma, a média tem maior valor qualitativo para sintetizar o conjunto de dados?
Exercício 10 Um geógrafo está interessado em estudar a idade de trabalhadores no
campo de uma dada região. Para isto ele seleciona uma amostra aleatória de 10
trabalhadores, obtendo as seguintes idades: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24.
Pede-se:
(a) A amplitude total dos dados.
(b) A variância do conjunto de dados.
(c) O desvio-padrão do conjunto de dados.
(d) O coeciente de variação do conjunto de dados. O conjunto parece ser ho-
mogêneo ou heterogêneo?
Exercício 11 Quer-se estudar o número de erros de impressão de um livro. Para
isso escolheu-se uma amostra de 50 páginas, encontrando-se o seguinte número de
erros por página:
Erros Frequência
0 25
1 20
2 3
3 1
4 1
(a) Calcule a variância da amostra.
(b) Calcule o desvio-padrão da amostra.
(c) Calcule o coeciente de variação da amostra. O conjunto parece ser homogê-
neo ou heterogêneo?
19
Exercício 12 Um órgão do governo do estado está interessado em determinar padrões
sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um
levantamento em 10 cidades, foram obtidos os valores (codicados) da tabela abaixo:
Cidade A B C D E F G H I J
Investimento 20 16 14 8 19 15 14 16 19 18
Pede-se:
(a) A média dos investimentos.
(b) A moda.
(c) A mediana.
(d) O desvio-padrão.
(e) O coeciente de variação.
(f) Diagnosticar se há dados discrepantes (outliers).
Exercício 13 Durante um ano, foram coletados os índices pluviométricos mensais
de uma certa região, cujos dados encontram-se na tabela abaixo.
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Índice 69 53 41 46 50 40 41 40 42 38 42 46
Pede-se:
(a) O índice pluviométrico médio no ano.
(b) A variância e o desvio-padrão do índice pluviométrico.
(c) O coeciente de variação.
Exercício 14 Suponha que você esteja interessado em avaliar qual de dois exper-
imentadores (A e B) faz mensurações mais precisas ao microscópio. Para isso,
cada experimentador faz 10 mensurações, resultando nas seguintes médias e variân-
cias: �XA = 0; 1, S2A = 0; 009404, �XB = 0; 4, S
2
A = 0; 02. Utilizando uma medida
estatística apropriada, qual dos experimentadores você diria ser mais preciso?
Exercício 15 Uma amostra de idades de 100 indivíduos foi retirada de uma certa
população e sua distribuição de frequências em classes é dada por
Idades Frequência
20 ` 30 10
30 ` 40 16
40 ` 50 27
50 ` 60 32
60 ` 70 15
Obtenha a variância, o desvio-padrão e o coeciente de variação das idades dos
indivíduos da amostra.
Exercício 16 (Fórum de Discussões) Proponha uma atividade prática em sala
de aula de coleta de dados com a nalidade de descrever os resultados obtidos por
meio de medidas de centralidade e de dispersão.
20