Buscar

MedEstat

Prévia do material em texto

1
Estatística descritiva 
 
Tabelas (forma de dispor dados numéricos) 
 
Quadros (forma utilizada principalmente para exibir formas esquemáticas) – 
Componentes e diferenças entre eles. 
 
Gráfico (Forma geométrica de expor os dados) – Pode ser retângulos (barras 
ou colunas); setores circulares (setograma, pizza ou torta); áreas; linhas; 
dispersão – pontos – ou ainda curvas que representem modelos e/ou 
equações. 
 
Representação gráfica – Quais os principais tipos de gráficos e sua indicação. 
 
 
Medidas Estatísticas 
 
Medidas de Tendência Central ou de posição; 
Medidas separatrizes; 
Medidas de dispersão. 
 
Medidas de tendência central 
Média 
Mediana 
Moda 
 
Média 
Média Aritmética 
Média Geométrica 
Média Ponderada 
 
Média Aritmética 
Para a população e para a amostra 
Para dados simples 
Para dados tabulados 
Para dados tabulados grupados em classes 
 
Mediana 
Para dados simples 
Número de observações impares 
Número de observações pares 
Para dados tabulados 
Número de observações impares 
Número de observações pares 
Para dados tabulados grupados em classes 
 
Moda 
Para dados simples 
Para dados tabulados 
Para dados tabulados grupados em classes 
 2
 
Medidas separatrizes 
Quartis 
Decis 
Centis ou percentis 
 
Medidas de dispersão 
Amplitude total 
Variância 
Desvio padrão 
 
Outras medidas 
Coeficiente de variação 
Erro padrão da média 
 
Análise exploratória de dados: 
 
Esta análise utiliza parte da estatística descritiva, sendo composta de: 
 
Histograma - Gráfico que melhor representa uma distribuição de freqüências. 
Box-plot – Gráfico que mostra os quartis, assim como a presença, ou não, de 
outliers suaves e extremos, (representados respectivamente por 
círculos cheios e vazados). 
Determinação de outliers suaves e extremos 
 
 3
Medidas e tendência central ou de posição 
 
Como os dados observados tendem a agruparem-se em torno dos valores 
centrais da distribuição, estas medidas receberam esta denominação. 
 
Média - Trata-se de uma medida que busca determinar um valor próximo ao 
centro de uma distribuição, representando o conjunto de dados. A depender da 
situação, a média poderá ser aritmética (a mais utilizada), geométrica ou 
harmônica. 
 
Quando um fenômeno ocorre de forma proporcional, por exemplo, em relação 
ao tempo ou os dados não apresentam discrepância, utiliza-se a média 
aritmética, como por exemplo, altura de seres humanos e vegetais ou lucros de 
uma agência de viagem num semestre. 
 
Quando os dados apresentam comportamento exponencial em relação ao 
tempo, tais como crescimento de uma população bacteriana ou velocidade de 
um avião na pista de decolagem, utiliza-se a média geométrica. 
 
A média harmônica é utilizada quando determinado fenômeno apresenta 
relação inversa em função do tempo, tais como velocidade média de um 
automóvel em determinados trechos de um deslocamento ou variação do 
estoque de determinado produto em função do tempo. 
 
Por ser mais utilizada, a média aritmética terá enfoque especial no presente 
curso. 
 
Média aritmética para a população e para a amostra. Para um melhor 
entendimento, convencionou-se a utilização de simbologia padronizada para 
representação da média quando se está trabalhando com uma população - 
parâmetro - ou com uma amostra - estimativa. 
 
De forma geral a média é uma medida resultante da divisão da soma de todos 
os valores atribuídos a uma variável pelo número de observações de um 
conjunto de dados, isto é, número de valores que foram atribuídos à própria 
variável. 
n
X
M
n
XXX
M
n
i
i
n
∑
=
=⇒
+++
=
121 ...
 
 
Para a população, simboliza-se a média a partir da letra grega “mi” (µ) e o 
número de observações, neste caso a população, com a letra (N) maiúscula, 
pertencente ao nosso alfabeto. 
 
N
X
N
i
i∑
=
=
1µ 
 
 4
Para a amostra, simboliza-se a média a partir de uma letra do nosso alfabeto, 
com uma barra acima dela. Geralmente simboliza-se a partir das letras X ou Y, 
mas por uma questão de facilitar a identificação, algumas pessoas preferem 
utilizar a letra inicial da característica mensurada. Exemplo: Peso médio (P) 
com a barra sobre a letra. O número de observações é simbolizado pena letra 
(n) minúscula. 
n
X
X
n
i
i∑
=
=
1
 
 
A média para dados simples, que não estão acompanhados de freqüências, é 
calculada de forma simples e objetiva, a saber: 
 
X = {2; 5; 6; 7} ⇒ 0,5
4
7652
=
+++
=X 
 
Quando os dados se repetem, isto é, vem acompanhado de freqüências, o 
processo é o mesmo, mas a simbologia, conforme alguns autores modifica um 
pouco, mesmo significando a mesma coisa, a saber: 
 
X = {1; 1; 2; 2; 3; 3; 3; 5; 5; 5} ou, de forma tabular, o mesmo conjunto de dados 
apresenta o seguinte formato: 
 
Xi fi 
1 2 
2 2 
3 3 
5 3 
 
O cálculo da média, por motivos práticos e organizacionais, geralmente é feito 
de forma tabular. Sendo assim, ao relacionar cada valor à sua respectiva 
freqüência, a simbologia da fórmula da média é: 
∑
∑
=
=
=
n
i
i
n
i
ii
f
fX
X
1
1
 
 
E as operações são efetuadas da seguinte forma: 
Xi fi Xifi 
1 2 2 
2 2 4 
3 3 9 
5 3 15 
- 10 30 
 
0,3
10
30
==X 
 5
Quando os dados estão tabulados e grupados em classes, como é o caso de 
uma distribuição de freqüências, o cálculo da média ocorre da seguinte forma: 
Xi fi Pm ou CC Xi*fi = PM*fi 
150|--156 5 153 765 
156|--162 4 159 636 
162|--168 19 165 3135 
168|--174 18 171 3078 
174|--180 14 177 2478 
180|--186 12 183 2196 
186|--192 4 189 756 
Σ 76 - 13044 
 
63,171
76
13044
==X 
 
O peso médio de todas as pessoas submetidas a uma pesquisa é de 55,855 
Kg. Um grupo tem peso médio 50,5 Kg e o outro, de 65,8 Kg. Quais os 
percentuais de pessoas de cada grupo submetidas à pesquisa? 
Resposta: 
%.35100%655,9943,15
8,6565805,505,5585
100
)100(*8,65*5,50855,55
%.100)(
100
*8,65*5,50855,55
=−=⇒=⇒=
⇒−+=⇒
−+
=
=+⇒
+
=
XYXX
XXXX
YXYX
 
 
PROPRIEDADES DA MÉDIA ARITMÉTICA 
 
1ª. Propriedade: A soma algébrica dos afastamentos (ou desvios, ou 
resíduos) de um conjunto de números tomados em relação à média é nula. 
Para dados isolados: 
Xi di = (Xi – Média) 
2 2 - 5 = -3 
5 5 - 5 = 0 
6 6 - 5 = 1 
7 7 - 5 = 2 
Média = 5 Σdi = 0 
 
Para dados tabulados: 
Xi fi Xifi di = Xi - X difi = (xi - X )fi 
1 2 2 1 - 3 = -2 -2 x 2 = -4 
2 2 4 2 - 3 = -1 -1 x 2 = -2 
3 3 9 3 - 3 = 0 0 x 3 = 0 
5 3 15 5 - 3 = 2 2 x 3 = 6 
Σ 10 30 0 
X = 3,0 
 6
 
 
Para dados tabulados grupados em classes: 
Estaturas fi Pm ou CC di = xi - X difi = (xi- X )fi 
150|--156 5 153 153 -171,63 = -18,63 -18,63 x 5 = -93,2 
156|--162 4 159 159 - 171,63 = -12,63 -12,63 x 4 = -50,5 
162|--168 19 165 165 - 171,63 = -6,63 -6,63 x 19 = -126,0 
168|--174 18 171 171 - 171,63 = -0,63 -0,63 x 19 = -11,3 
174|--180 14 177 177 - 171,63 = 5,37 5,37 x 14 = 75,1 
180|--186 12 183 183 - 171,63 = 11,37 11,37 x 12 = 136,4 
186|--192 4 189 189 - 171,63 = 17,37 17,37 x 4 = 69,5 
Σ 76 0 
X = ΣXi/Σfi = 13044/76 = 171,63, onde Xi = PM ou CC. 
 
2ª PROPRIEDADE: Somando-se ou subtraindo-se uma constante a todos os 
valores de um conjunto de informações, a média aritmética ficará somada ou 
subtraída dessa constante. 
X = {2; 5; 6; 7}; X = 5. K = 6. Nova média = 5 + 6 = 11. 
 
3ª PROPRIEDADE: Se multiplicarmos ou dividirmos todas as informações por 
uma constante, a média aritmética também ficará multiplicada ou dividida por 
essa constante. 
X = {2; 5; 6; 7}; X = 5. K = 6. Nova média = 5 x 6 = 30. 
 
4ª PROPRIEDADE: A soma dos quadrados dos desvios tomados em relação à 
média aritmética é um mínimo.X = {2; 5; 6; 7}; X = 5. K = 4. 
 
Xi (Xi - X ) (xi - X )2 (Xi - K) (Xi - K)2 
2 -3 9 -2 4 
5 0 0 1 1 
6 1 1 2 4 
7 2 4 3 9 
 Σ 14 18 
 
Média Geométrica: Simples e Ponderada: 
 
Na passagem de um procedimento aritmético para um geométrico, deve-se 
observar que as somas se transformam em produtos, as subtrações em 
divisões, os produtos se transformam em potenciação e as divisões, em 
radiciação. 
 
A média geometria é utilizada quanto temos crescimento exponencial, por 
exemplo, quando o procedimento aritmético não nos fornece resultados 
considerados suficientes. As médias, assim como as aritméticas, podem ser 
simples ou ponderadas. 
 
 7
Conceitualmente, a média geométrica é a raiz nésima do produtório de n 
números. 
 
No caso da média geométrica simples, tem-se: 
 
n
n
i
ig
n
i
i
XX
n
X
X C
1
1
=
=
=⇔=
∑
 
 
Exemplo ilustrativo: O crescimento bacteriano, por unidade de tempo, foi: 
X:{10; 100; 1000}. Calcular a média geométrica do crescimento 
 
( ) ( ) [ ]
[ ] ( )[ ] .10010loglog2)log(321
3
1)log(
1000log100log10log
3
1log1000*100*10log)log(
:
.1001000*100*10
2
3
3
===⇒=⇒++=
∴++=⇒=
==
gggg
gg
g
XantiXXX
XX
OU
X
 
 
No caso da média geométrica ponderada, parte-se do mesmo princípio, a 
saber: 
 
∑
=⇔= =
=
=
=
∑
∑ n
i
i i
f n
i
f
ign
i
i
n
i
ii
XX
f
fX
X 1
1
1
1
C
 
 
 
 
 
 
 
Exemplo ilustrativo: Calcular a média geométrica, a partir dos seguintes dados: 
 
Xi fi 
10 2 
100 4 
1000 2 
- 8 
 
 8
( ) ( )
( ) [ ]
( ) [ ] ( ) ( )
( ) .10010]log[log
2log16*
8
1log3*22*41*2
8
1log
1000log*2100log*410log*2
8
1log
1000*100*10loglog1000*100*10
2
8 2428 242
=⇒==
⇒=⇒=⇒++=
⇒++=
⇒=⇒=
ggg
ggg
g
gg
XXantiX
XXX
X
XX
 
 
Média Harmônica 
 
Conceitualmente, a média harmônica é o inverso da média aritmética dos 
inversos dos valores. É muito utilizada quando estudamos fenômenos que 
apresentam grandezas inversamente proporcionais. 
 
Dada uma variável X, cujos valores atribuídos a ela sejam: X: {X1; X2; ...; Xn} , a 
média harmônica dos valores da variável X é: 
 
∑
=
=⇒
+++
=
n
i i
h
n
h
X
nX
n
XXX
X
121
11
...
11
1
 
 
Exemplo ilustrativo: Um trator percorre a distância de A para B a 20 Km/h. 
Volta, em seguida, percorrendo o mesmo caminho, com velocidade de 40 
Km/h. Qual a velocidade média do trator em todo o percurso? 
 
./6667,26
40
1
20
1
2 hKmXX hh =⇒
+
=
 
 
A média harmônica ponderada segue o mesmo princípio, com a diferença que, 
neste caso, ao invés do inverso dos valores, são colocadas suas respectivas 
freqüências. 
 
∑
∑
∑
=
=
=
=⇒
+++
=
n
i i
i
n
i
i
h
n
i
i
n
n
h
X
f
f
X
f
X
f
X
f
X
fX
1
1
1
2
2
1
1
...
1
 
 
Exemplo ilustrativo: Um trator percorre a distância de 20 Km, a uma 
velocidade de 25Km/h. Em seguida, percorre mais 35Km a 40 Km/h, mais outra 
distância de 30 Km a 45 Km/h. Qual a velocidade média do trator em todo o 
percurso? 
 
 9
./2989,36
45
30
40
35
25
20
303520 hKmXX hh =⇒
++
++
=
 
 
Geral: Dado um conjunto de valores positivos e diferentes de zero, a média 
harmônica será menor ou igual à média geométrica e esta menor ou 
igual à média aritmética ( )XXX GH ≤≤ . 
 
Mediana: Trata-se de uma medida que divide uma distribuição em duas partes 
iguais, sendo 50% dos valores antes dela e 50% dos valores após ela. 
Também é considerada uma medida separatriz. 
 
Para dados isolados: 
 
Número de observações ímpares: 
Encontrar o elemento mediano: Valor ordinal, que determina a localização da 
mediana. Emd = 
0
2
1





 +n
 
 
Exemplo: X = {2; 5; 7; 9; 13; 15; 22} ⇒ Emd = (7 + 1)/2 = 4° elemento. A 
mediana é: md = 9. 
 
Número de observações pares: Há dois elementos medianos. Emd = 
0
2





 n
 e 
Emd = 
0
1
2






+
n
. 
 
Exemplo: X = {2; 5; 7; 9; 10; 16} ⇒ Emd = 6/2 = 3° elemento e Emd = 6/2 + 1 = 
4° elemento. A mediana é: (7 + 9)/2 = 8. 
 
Para dados tabulados: 
 
Número de observações impares: 
Xi fi Fi 
2 2 2 
4 5 7 
5 8 15 
7 6 21 
8 4 25 
Σ 25 
 
Emd = (25 + 1)/2 = 13°elemento. A mediana é: md = 5 . 
 
X = {2; 2; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 7; 7; 7; 7; 7; 7; 8; 8; 8; 8} 
 
 
 10
Número de observações pares: 
Xi fi Fi 
2 5 5 
4 4 9 
5 6 15 
7 8 23 
8 3 26 
Σ 26 
Emd = 26/2 = 13° elemento e Emd = 26/2 + 1 = 14° el emento. 
A mediana é: md = (5 + 5)/2 = 5. 
 
X = {2; 2; 2; 2; 2; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8} 
 
 
Para dados tabulados grupados em classes: 
Xi fi Fi 
0 |------- 2 27 27 
2 |------- 4 16 43 
4 |------- 6 34 77 
6 |------- 8 17 94 
8 |-------| 10 16 110 
 110 
 
Neste caso a mediana é uma interpolação feita a partir da classe onde se 
encontra o elemento mediano, chamada classe mediana. Emd = (n/2)° = 110/2 
= 55° elemento da distribuição. 
 
 
 
hf
FEmddmd
XdmdX
XX
imd
iANT *lim
lim2*
34
43554355
2
344355
46
4377
−
+=
∴+=⇒
−
=⇒
−
=⇒
−
=
−
−
 
A mediana é calculada a partir da seguinte fórmula: hf
FEmdlimd
imd
iANT
*




 −
+= 
 A classe mediana é: 4 |------- 6. O limite inferior desta classe é 4. A amplitude 
da classe é: 2 = (LS - li). A freqüência simples absoluta (fi) da classe mediana 
é: 34. Fi até a classe anterior à classe mediana é: 43. 
 11
 
O valor da mediana é: .7,42*
34
43554 =⇒


 −
+= mdmd 
Moda: 
 
Tanto para valores isolados quanto para valores tabulados, a moda é 
determinada pela simples observação do valor que mais se repete. Quando é 
um só valor, o conjunto de dados é chamado uni modal. Quando acontece de 
ter mais de um valor que se repete com mais freqüência, o conjunto de dados 
poderá ser considerado bi modal, tri modal ou poli modal. 
 
Moda para dados Simples 
 
X = {2; 2; 3; 3; 3; 5; 5; 5; 5; 5; 7; 7; 7; 8; 8} 
 
Neste caso, a moda é: mo = 5. 
 
X = {2; 2; 3; 3; 3; 4; 4; 4; 6; 6} 
 
Neste caso, a moda é: mo = 3 e mo = 4. Este conjunto de dados é bimodal. 
 
Obs.: Caso a arrumação dos dados estivesse de forma tabulada, a moda seria 
a mesma, observando-se a maior repetição a partir das freqüências simples 
absolutas. 
 
Moda para dados tabulados: 
 
 
 12
 
A partir do histograma, pode-se entender a concepção da moda de Kzuber, a 
saber: mo = limo + x. 
 
xh
x
CD
AB
−
= 
 
Aplicando-se uma das propriedades da proporção, em que a soma do 
antecedente com o conseqüente está para o antecedente, tem-se: 
 
h
CDAB
AB
x
x
h
AB
CDAB
x
xhx
AB
CDAB
*
+
=⇒=
+
⇒
−+
=
+
 
 
Devemos lembrar que AB = AE – BE = fimo – fiANT e que CD = CF – DF = fimo – 
fiPOST. Assim: 
 
hfff
fflmxlmo
hfff
ff
xhffff
ff
x
iPOSTiANTimo
iANTimo
imoimo
iPOSTiANTimo
iANTimo
iPOSTimoiANTimo
iANTimo
*)(*20 Como
*)(*2*
+−
−
+=⇒+=
+−
−
=⇒
−+−
−
=
 
 
Moda para dados tabulados, grupados em classes, segundo processo de 
Czuber (Mais utilizada). 
 
( )
( )[ ] hfff
ff
imohlmo
iPOSTiANTimo
iANTimo
imoimo *
*2
*
21
1
+−
−
+=⇒
∆+∆
∆
+= . 
Exemplo: 
Xi Fi 
0 |------- 2 27 
2 |------- 4 16 
4 |------- 6 34 
6 |------- 8 17 
8 |------- 10 16 
 110 
 
A classe modal é: 4 |------- 6. O limite inferior da classe modal é: 4. A amplitude 
é: (6 - 4) = 2. Afreqüência simples absoluta da classe modal é: 34. A 
freqüência simples absoluta da classe anterior à classe modal é: 16. A 
freqüência simples absoluta da classe posterior à classe modal é: 17. 
 
A moda é: ( ) .03,52*171634*2
16344 =⇒





+−
−
+= momo 
 
Medidas Separatrizes - São medidas utilizadas quando se quer dividir uma 
distribuição de dados em n partes iguais, onde, dependendo do número de 
partes, poderá receber uma denominação especial, tais como, para n = 4, 
quartis, para n = 10, decis e n = 100, centis ou percentis. 
 13
 
Quartis: (Qi) São três medidas que dividem uma distribuição em quatro partes 
iguais. 
 
( )3;2;1* =⇒−+= ih
qf
FEq
qlQ
ii
iANTi
iii 
 
Onde: liqi = limite inferior da classe onde se encontra o quartil; Eqi = Elemento 
quartil; fiqi = freqüência simples absoluta da classe onde se encontra o 
quartil; FiANT = Freqüência acumulada abaixo de até a classe anterior à 
classe onde se encontra o quartil; h = amplitude da classe. 
 
Obs.: Desta media em diante, o enfoque será sempre dado em relação a dados 
tabulados grupados em classes. 
 
 
Para calcular os quartis é necessário determinar o elemento quartil, valor 
ordenado que localiza em que classe encontra-se o quartíl que se está 
calculando. 
 
( ) . ;3;2;1
4
*
0
ãodistribuiçdaelementosdenúmeroniniEqi ==⇒





= 
 
Exemplo de cálculo de quartis: 
 
Xi fi Fi Eqi Classe 
150|--156 5 5 
156|--162 4 9 
162|--168 19 28 Eq1 = 19° q 1 
168|--174 18 46 Eq2 = 38° q 2 
174|--180 14 60 Eq3 = 57° q 3 
180|--186 12 72 
186|--192 4 76 
Σ 76 - - - 
 
71,1786*
14
4657174
33,1716*
18
2838168
16,1656*
19
919162
3
2
1
=
−
+=
=
−
+=
=
−
+=
Q
Q
Q
 
 
Estes valores indicam que até 25% dos elementos da distribuição encontram-
se até o valor 165,16. 50% encontram-se até o valor 171, 33. 75%, até o valor 
178,71 e os 25% restantes, a partir do valor 178,71. 
 
 14
Decis: Os decis são nove valores que dividem uma distribuição em dez partes 
iguais. O princípio é o mesmo utilizado no cálculo dos quartis. Estes valores 
são simbolizados por (Di). 
 
( )9;...;2;1 
10
*
 *
0
=





=
−
+= iniEdh
df
FEdlidiD i
ii
iANTi
i 
 
Centis ou percentis: São 99 valores que dividem uma distribuição em 100 
partes iguais. Simboliza-se como (Ci). 
 
( )99;...;2;1 
100
*Ec *
0
i =





=
−
+= inih
cf
FEc
clC
ii
iANTi
iii 
 
Relações entre mediana, quartis, decis e centis ou percentis. 
 
A mediana é igual ao segundo quartil, ao quinto decil e ao qüinquagésimo centil 
ou percentil. .5052 CDQmd === 
 
A partir do cálculo dos quartis é possível plotar um gráfico chamado de box-plot 
(diagrama em caixas), que permite visualizar se os dados encontram-se 
concentrados ou dispersos em cada quantil, além de identificar os dados 
discrepantes conhecidos como outlier (valor extremo). Observar em seguida 
um exemplo de box-plot com presença de outlier. 
 
222222N =
X3X2X1
40
30
20
10
4
9
 
 
 
A determinação de um outlier ocorre a partir da identificação após cálculo de 
relações entre os quartis. Ao calcular o valor da diferença entre o terceiro e o 
primeiro quartis, chamado de (D), D = Q3 - Q1. Os outliers considerados suaves 
 15
são os valores que superam Q3 em 1,5 D a 3D, ou estão 1,5D a 3D abaixo de 
Q1. Os outliers extremos são escores que excedem Q1 em mais de 3D ou estão 
a mais de 3D abaixo de Q1. 
 
 
 
• = Outlier Suave. ° = Outlier extremo 
 
Determinação de outliers: 
 
D = Q3 – Q1 
 
Suaves 



+
−
DQ
DQ
*5,1
*5,1
3
1
 
 
Extremos 



+
−
DQ
DQ
*3
*3
3
1
 
 
No caso da distribuição que serve de exemplo ilustrativo, em que Q1 = 165,16 e 
Q3 = 178,71, os outliers seriam identificados da seguinte forma: D = Q3 - Q1 = 
13,55. Outliers suaves: Q3 + 1,5D = 199,035 a Q3 + 3D = 219,36. E, também, 
abaixo de Q1 em 1,5D = 144,835 a 3D = 124,51. Os outliers extremos estão 
mais de 3D abaixo de Q1 ou mais de 3D acima de Q3. Assim, serão outliers 
valores abaixo de 124,51 ou acima de 219,36. 
 
Numa análise, quando os outliers são identificados devem ser retirados para 
que não mascarem os cálculos das medidas obtidas a partir de cálculos, pois 
podem ser erros de anotação, digitação, observações obtidas de amostras a 
partir de leituras equivocadas de aparelhos, informações não fidedignas, etc. 
 
Medidas de dispersão: As medidas de dispersão permitem verificar a 
variabilidade dos dados e sua distribuição em torno de uma medida de 
tendência central como a média. 
 
Amplitude total: Consiste na diferença entre o maior e o menor valor 
observados. AT = XMÁX - XMÍN. AT = 191 - 150 = 41. 
 
Desvio médio: Trata-se de uma medida de dispersão onde, para evitar que a 
soma algébrica dos desvios tomados em relação à média seja nula, obtém-se 
os valores absolutos ou modulares destes desvios e divide-se a soma destes 
 16
valores pelo número de observações. Normalmente não é uma medida muito 
utilizada. 
 
∑
∑
=
=
−
=
n
i
i
n
i
ii
f
fXX
dm
1
1
 
 
Variância: Consiste no quociente entre a soma dos quadrados dos desvios, 
tomados em relação à média e o número de observações (N), quando é 
calculada para a população (σ2X) e no quociente entre a soma dos quadrados 
dos desvios, tomados em relação à média e o número de graus de liberdade (n 
- 1), quando é calculada para uma amostra (s2X). 
 
( ) ( )
(amostra) 
1
 )(população 1
2
21
2
2
−
−
=
−
=
∑∑
==
n
fXX
s
N
fXX
n
i
ii
X
N
i
ii
Xσ 
 
Da fórmula acima, chamada fórmula teórica, pode-se mostrar como chegar da 
fórmula de cálculo da variância, conforme demonstração a seguir: 
 
( ) ( )
1
1
2
1
2
 ;constante) de (soma *
1
2
1
2
1
1
2
2
2
2
1
2
1
1
2
2
1
1
1
1
2
1
2
11
2
1
2
2
−






−
=⇒
⇒
−






+






−
⇒
−












+












−
⇒
⇒===
⇒
−






+−
⇒
−
−
=
∑
∑
∑∑
∑
∑
∑
∑
∑
∑
∑
∑∑∑
=
=
==
=
=
=
=
=
=
===
n
n
X
X
n
n
X
n
n
X
X
n
n
X
nX
n
X
X
n
X
XCtenCte
n
XnXXX
n
XX
n
i
in
i
i
X
n
i
i
n
i
in
i
i
n
i
in
i
i
n
i
in
i
i
n
i
i
n
i
i
n
i
i
n
i
i
X
σ
σ
 
 
 
 
 
 
 
 
 
 
 17
Exemplo de aplicação do cálculo da variância 
Estaturas fi (PM) = Xi Xi2 Xi*fi Xi2*fi 
150|--156 5 153 23.409 765 117.045 
156|--162 4 159 25.281 636 101.124 
162|--168 19 165 27.225 3.135 517.275 
168|--174 18 171 29.241 3.078 526.338 
174|--180 14 177 31.329 2.478 438.606 
180|--186 12 183 33.489 2.196 401.868 
186|--192 4 189 35.721 756 142.884 
Σ 76 13.044 2.245.140 
 
( )
0357895,85
176
76
044.13140.245.2
1
2
2
1
2
1
1
1
2
2
=
−
−
=⇒
−






−
=
∑
∑
∑
∑
=
=
=
=
Xn
i
i
n
i
i
n
i
iin
i
ii
X s
f
f
fX
fX
s 
 
 
Avaliação e demonstração da tendenciosidade da estimativa da variância. O 
que é correto, dividir por (n) ou (n - 1)? 
 
Dada uma população com as seguintes características: � �é��� � 	
���â
��� � ��
�
. Dela 
é retirada uma amostra: {X1,X2, ..., Xn}. Será que ��� � ∑�������
�
� é um estimador 
viesado para σ2? 
 
�
�Σ(Xi - X )
2
 = 
�
�Σ(Xi - µ + µ - X )
2
 = 
�
�Σ{(Xi - µ) + ( X - µ)
2 } = ��Σ{(Xi - µ)
2
 - 2(Xi - 
µ)( X - µ) + ( X - µ)2 } = �� [Σ(Xi - µ)
2
 - 2Σ(Xi - µ)( X - µ) + Σ( X - µ)2]. 
Como: Σ Constante = n* Constante, então: Σ(Xi - µ) = ΣXi - n µ . Como: 
n
X
X i∑= ⇒ ΣXi = n X . 
Devemos lembrar, ainda, que: -2 Σ(Xi - µ)*( X - µ) ∴ -2(n*Xi – n*µ)*( n* X - 
n*µ) ∴ -2n( X – µ)* ( X – µ) ∴ -2n( X – µ)2. 
 
�
� E[Σ(Xi - µ)
2
 – 2n( X - µ)2 + n( X - µ)2] ∴ �� E[Σ(Xi - µ)
2
 – n( X - µ)2] ∴ 
 
 18
�
� [Σ[E(Xi - µ)
2] – nE( X - µ)2] ∴ �� [ΣV(Xi) – n 
���� 
� ] ∴ 
�
� [nV(Xi) – V(Xi)] ∴ 
��������� 
� É um estimador viesado para σ
2
. Para neutralizar o viés, deve-se 
fazer: ������ * 
�
����� * 
���� ⇒ 
���� ⇔ σ2. Então: ��� �
∑��������
��� . Este valor, n – 1, 
é denominado Graus de Liberdade. 
 
Assim, demonstra-se que 
( )
1
2
2
−
−
=
∑
n
XX
s
i
X é um estimador não tendencioso 
de 2Xσ . 
 
Conceito teórico de Graus de Liberdade (g.l.): 
 
Os g.l. correspondem ao número total de observações menos o número de 
restrições impostas na análise dos dados. Por exemplo, na análise de 
observações, o número de g.l. associados ao desvio padrão é n - 1 quando se 
impõe a restrição de que a soma dos desvios em relação à média é nula. 
Sejam as observações 4, 5, 6, 7 e 8, com média 6 e desvios -2, -1, 0, 1, 2. A 
soma dos desvios é nula e o número de graus de liberdade é 4, porque 
tomadas quatro observações, a última é fixa para que a soma dos desvios seja 
nula. De um modo geral, o número de graus de liberdade corresponde ao 
número de observações menos o número de parâmetros fixados, isto é, cada 
parâmetro adiciona uma restrição. Assim, a variância é calculada quando se 
fixa a média das observações e, portanto os graus de liberdade são n - 1. Há 
casos em que o número de g.l. é diferente de n - 1, como no estudo da 
regressão, em que são fixados a média e o coeficiente de regressão linear 
antes do cálculo dos desvios da regressão com n - 2 graus de liberdade. 
 
Desvio Padrão: Consiste na raiz quadrada da variância, possibilitando 
comparar a dispersão de um conjunto de dados com a medida de tendência 
central, como no caso da média, com a mesma unidade. Assim como a 
variância, pode ser calculado para a população (σX) ou para a amostra (sX). 
 
(amostra) )(População 22 XXXX ss == σσ 
 
Para o exemplo ilustrativo que estamos acompanhando, o cálculo do desvio 
padrão será: 221485,90357895,85 ==Xσ . 
 
Tão importante quanto a variância e o desvio padrão são suas propriedades, 
fundamentais para o estudo da Estatística. As propriedades serão apenas 
citadas, devido ao enfoque rápido do curso. 
 
 
Propriedades do desvio padrão e da variância 
 
 19
1) O desvio-padrão é maior que o desvio médio; 
 
2) somando-se ou subtraindo-se uma constante qualquer a cada elemento de 
um conjunto de dados, o desvio padrão não se altera. (a mesma propriedade 
serve para a variância); 
 
3) Se multiplicarmos ou dividirmos uma constante qualquer a cada elemento de 
um conjunto de dados, o desvio padrão ficará multiplicado ou dividido por esta 
constante. (no caso da variância, fica multiplicado ou dividido pelo quadrado da 
constante); 
 
4) quando os dados estiverem agrupados em classe, a soma dos produtos das 
freqüências pelos quadrados dos desvios, em relação à média aritmética, é 
menor que a soma dos produtos das freqüências pelo quadrado dos desvios 
em relação a outro valor qualquer; 
 
5) 68% dos elementos entre os valores, média mais ou menos o desvio padrão, 
isto quando tratarmos de uma distribuição normal, e 95% dos elementos estará 
entre a média mais ou menos duas vezes o desvio padrão. 
 
Houve um aumento de 5% nos valores. De quanto foi o aumento da variância? 
Resposta: 
5% = 5/100) = 0,05% + 100% = (100/100) = 1 ⇔ (ao que já existia antes do 
aumento) ⇒ montante = 1+0,05 = 1,05. Como a variância utiliza a unidade 
elevada ao quadrado ⇒ (1,05)2 = 1,1025. Como se deseja obter o aumento, 
não o montante ⇒ 1,1024 – 1 = 0,1025 ⇔10,25%. Este foi o aumento 
percentual da variância. 
 
Houve um aumento de 10% Na variância. De quanto foi o aumento nos valores 
da distribuição? 
Resposta: 
10% = 10/100 = 0,1 +100% = (100/100) = 1 ⇔ (ao que já existia antes do 
aumento) ⇒ montante = 1+0,1 = 1,1. Como os valores estão numa unidade 
simples, ao contrário da variância, cujos valores são elevados ao quadrado ⇒ 
1,1 = 1,0488. Como se deseja obter o aumento, não o montante ⇒ 1,0488 – 1 
– 0,0488 = 4,88%. Este foi o aumento percentual dos valores. 
 
Coeficiente de Variação (CV): Consiste numa medida de dispersão relativa. É 
importante também saber quanto os dados variaram em relação à média, por 
exemplo. Neste caso, faz-se uma relação entre o valor da média e do desvio 
padrão, tomando a média como base, a saber. 
 
X _____________ 100% 
σX _____________ C.V.% 
 
( )percentual em dado 100*.. ⇒=
X
VC Xσ 
 
No exemplo ilustrativo, o cálculo do coeficiente de variação é: 
 20
 
%.37,5..100*
63,171
221485,9
.. =⇒= VCVC 
 
Uma observação relevante deve ser feita, já que o coeficiente de variação 
permite comparações entre vários conjuntos de dados, por ser adimensional, 
mostrando em qual percentual do valor da média a variabilidade dos dados 
consistiu. 
 
Classificação de uma distribuição quanto à simetria 
 
Conforme a distribuição apresente relação entre as medidas de posição {média 
(µ), mediana (md) e moda (mo)}, ela poderá ser simétrica ou assimétrica. A 
classificação é a seguinte: 
 
 
 
1 – Simétrica, pois µ = md = mo; 
 
2 – Assimétrica à direita ou assimétrica positiva, pois mo < md < µ; 
 
3 – Assimétrica à esquerda ou assimétrica negativa, pois µ < md < mo. 
 
Quanto ao achatamento ou curtose, as distribuições podem ser classificadas 
em: 
 
 
 
1 – Platicúrtica; 
 
2 – Mesocúrtica; 
 
3 – Leptocúrtica. 
 
 21
Outra medida importante é o erro padrão da média, que será comentada em 
capítulos subseqüentes, mas que já poderá ser conhecida a partir deste 
momento. 
 
Erro padrão da média, a partir do desvio padrão populacional, sem fator de 
correção: 
 
 
n
X
X
σ
σ = 
 
 
Erro padrão da média, a partir do desvio padrão populacional, com fator de 
correção: 
 
1
*
−
−
=
N
nN
n
X
X
σ
σ 
 
Erro padrão da média, a partir do desvio padrão amostral, sem fator de 
correção: 
 
 
n
s
s XX = 
 
 
Erro padrão da média, a partir do desvio padrão amostral, com fator de 
correção: 
 
1
*
−
−
=
N
nN
n
s
s XX 
 
Erro padrão da proporção, a partir da estimativa da proporção, sem fator de 
correção: 
 
 
n
qp
sX
ˆˆ
= 
 
 
Erro padrão da proporção, a partir da estimativa da proporção, com fator de 
correção: 
 
1
*
ˆˆ
−
−
=
N
nN
n
qp
sX 
 
 
 22
Padronização de dados 
 
Muitas técnicas estatísticas necessitam que os dados estejam padronizados 
para que sejam aplicadas, pois eliminam o efeito de escala. Existem alguns 
tipos de padronização, mas um dos mais utilizados é o que subtrai cada valor 
individual da média e, em seguida, divide-se o resultado pelo desvio padrão, a 
saber: 
X
i
DOiPADRONIZA
s
XX
x
−
= 
Neste caso, obtém-se um conjunto de dados em que a média é zero e a 
variância é igual a um. 
 
Dado o conjunto de dados 
 
134 160 156 168 176 178 162 181 172 168 
146 156 169 178 162 160 163 168 162 172 
148 167 170 153 171 166 188 156 160 182 
153 163 180 175 175 176 176 182 158 161 
160 143 172 167 170 179 179 170150 175 
152 151 162 173 180 174 197 187 188 174 
170 150 163 174 161 167 192 179 178 150 
 
Em que a média e a variância são: 
 





=
=
=
2611,12
3346,150
6857,167
2
X
X
S
S
X
 
 
Graficamente a representação deste conjunto de dados seria da forma abaixo: 
 
 
 
 
Com a padronização dos dados, e a conseqüente retirada do efeito de escala, 
teríamos: 
0
50
100
150
200
250
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
 23
 
-2,7474 -0,6268 -0,9531 0,0256 0,6781 0,8412 -0,4637 1,0859 0,3519 0,0256 
-1,7687 -0,9531 0,1072 0,8412 -0,4637 -0,6268 -0,3822 0,0256 -0,4637 0,3519 
-1,6055 -0,0559 0,1888 -1,1977 0,2703 -0,1375 1,6568 -0,9531 -0,6268 1,1675 
-1,1977 -0,3822 1,0043 0,5965 0,5965 0,6781 0,6781 1,1675 -0,7900 -0,5453 
-0,6268 -2,0133 0,3519 -0,0559 0,1888 0,9228 0,9228 0,1888 -1,4424 0,5965 
-1,2793 -1,3609 -0,4637 0,4334 1,0043 0,5150 2,3908 1,5752 1,6568 0,5150 
0,1888 -1,4424 -0,3822 0,5150 -0,5453 -0,0559 1,9830 0,9228 0,8412 -1,4424 
 
Em que a média e a variância são: 
 




=
=
=
1
1
0
2
X
X
S
S
X
 
 
 
Graficamente, ficaria distribuído conforme segue: 
 
 
 
 
 
-4,0000
-3,0000
-2,0000
-1,0000
0,0000
1,0000
2,0000
3,0000
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

Continue navegando