Logo Passei Direto
Buscar
Material

Prévia do material em texto

Antonio F. Beraldo 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Estatística Descritiva 
V.3 – 2013 
Estatística I 
 
Estatística Descritiva
Antonio Fernando Beraldo
Departamento de Estatística
ICE — UFJF
Revisão e digitação
Ana Darc da Silva
Elisa Lancini Nogueira
Lucas Silva Novais
Marcelle Souza Pinto
Mirela Rigolon Valinote
Raphael de Freitas Saldanha
Rosiany Grosman
Stéfani Ferreira
Vanessa Castro Abreu
Victor Lopes Costa Serra
Versão 3 — 2013
Apresentação
Esta Apostila é o primeiro volume de um conjunto de textos preparados para os
alunos dos cursos de Graduação e Pós-Graduação que possuem disciplinas de Estatística
em sua grade curricular. Os textos abordam os seguintes temas:
Apostila Conteúdo
I Estatística Descritiva
II Cálculo de Probabilidades
III Amostragem, Inferência e Testes Estatísticos
IVa Metodologia do Trabalho Científico
IVb Elaboração e Apresentação de Trabalhos Científicos
V Análise Estatística de Dados
VI Tópicos Especiais de Estatística Aplicada
Em cada capítulo das Apostilas procuramos sintetizar os conteúdos, em textos breves
de exposição dos conceitos, seguidos de exemplos de aplicações das fórmulas.
Outros materiais didáticos, referenciados no corpo das Apostilas, estão disponí-
veis no site do Professor:
http://www.ufjf.br/antonio_beraldo
A. F. Beraldo iii
http://www.ufjf.br/antonio_beraldo
Agradecimentos
Este é um trabalho que reflete a experiência - e aprendizagem - do ensino de
Estatística e a valiosíssima contribuição dos alunos nestes 21 anos de atividades na
Universidade Federal de Juiz de Fora, como também a prática da aplicação da Estatística
em dezenas de dissertações e teses de mestrandos e doutorandos de diversas IES do País.
Sem esta contribuição, este trabalho não existiria.
Em destaque, agradeço ao estímulo das professoras doutoras Martha de Oliveira
Guerra e Vera Maria Peters, do Centro de Biologia da Reprodução; à paciência abnegada
de Renata Márcia de Figueiredo, PhD, pela revisão do texto básico da edição inicial
(1998);
A todos os alunos que, com suas críticas e sugestões, me ensinaram o como, o quando
e o quê.
Este trabalho é dedicado, in memoriam, a meu pai.
Wilson João Beraldo
(1918 - 1994)
A. F. Beraldo v
Sumário
Sumário vi
1 Introdução à Estatística 1
1.1 O Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos . . . . . . . . . 21
2 Medidas Estatísticas de Tendência Central 31
2.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . 33
2.1.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.4 Média Harmônica . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.5 Propriedades da Média Aritmética . . . . . . . . . . . . . . . . . 38
2.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4 Ponto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3 Medidas Estatísticas de Dispersão 45
3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Desvios e Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Coeficiente de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4 Estatística em Grandes Conjuntos: Distribuições de Frequências 61
4.1 Frequências Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência . . . . 67
4.3 Frequências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4 Frequências Relativas Acumuladas e a Ogiva de Galton . . . . . . . . . . 75
5 Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão 81
5.1 Cálculo da Média: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Cálculo da Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Cálculo da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
vi A. F. Beraldo
SUMÁRIO
5.3.1 Roteiro para o cálculo da mediana . . . . . . . . . . . . . . . . . . 90
5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação . . 94
5.5 Exemplos Comentados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6 Estatística em Grandes Conjuntos: Medidas de Posição 103
6.1 Cálculo de Quartis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . 109
6.2 Determinação Gráfica das Separatrizes . . . . . . . . . . . . . . . . . . . 114
6.3 Determinação Gráfica de intervalos . . . . . . . . . . . . . . . . . . . . . 118
7 Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose 121
7.1 Simetria e Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.3 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8 Introdução à Análise Exploratória de Dados 141
8.1 Fundamentos da Análise Exploratória . . . . . . . . . . . . . . . . . . . . 141
8.2 Determinação dos Quartis: . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.3 Cálculo das Cercas e o Box-Plot . . . . . . . . . . . . . . . . . . . . . . . 148
A. F. Beraldo vii
1 Introdução à Estatística
A Estatística é um conjunto de métodos que, utilizando procedimentos matemáti-
cos, visa conhecer e descrever a realidade que nos cerca, analisar seus fenômenos
naturais e sociais e organizar e fornecer informações de apoio às Ciências. A
Estatística é uma das Matemáticas, assim como a Geometria, a Trigonometria e o
Cálculo Integral. E não há, na vida contemporânea, praticamente nenhum setor de
atividade humana em que não faça uso da Estatística.
Os verbos da Estatística são:
Contar
Contar é o processo matemático mais primitivo para se conhecer a realidade.
Provavelmente, o processo de contagem começou há muitos milhares de anos atrás, junto
com a descoberta do fogo e com o desenvolvimento das primeiras habilidades de caça.
Segundo os especialistas1, o homem primitivo contava até 2 – acima desta quantidade,
deveria existir um gesto para significar “muitos” (até hoje, algumas tribos primitivas
contam no máximo até 3). Depois, talvez com auxílio dos dedos das mãos, formou-se
aos poucos o sistema decimal. Com a evolução cultural e tecnológica, alguns povos
adotaram sistemas diferentes, como o vintesimal (múltiplos de vinte2) e o sexagesimal3.
Em pinturas rupestres e inscrições talhadas em pedras, vemos como nossos antepassados
enumeravam os objetos do seu mundo – pedaços da sua “realidade”: membros do
grupo, produtos agrícolas, animais domesticados, a caça abatida, etc. Mas, quando esta
“realidade” se torna muito numerosa (muitas pessoas, muitos bens, rebanhos maiores),
a contagem de seus componentes passa a ser bem mais trabalhosa.
A Estatística começou quando o homem precisou enumerar (recensear) seus bens,
seus rebanhos, a colheita e os exércitos. Estas informações sempre foram vitais para
os reis e governantes, e as contagens eram feitas periodicamente, a seu mando. Temos
notícias de levantamentos feitos na China, 2.000 anos a.C., na Bíblia (informações sobre
o contingente de soldados e armas do povo judeu), dos recenseamentos no Império
1Ver Boyer, História da Matemática, Ed. Edgar Blucher Ltda/USP, São Paulo, 1976.
2Como os franceses dizem “oitenta”?
3A “contagem” do tempo é feita, até hoje, neste sistema. Veja também as medidas utilizadas na
trigonometria.
A. F. Beraldo 1
1. Introdução à Estatística
Romanomais realista,
mais robusta1 e mais precisa a grandeza dispersão nas amostras. O desvio padrão é o
resultado de uma operação matemática chamada raiz média quadrática dos desvios.
De uma forma mais prática, para calcular o desvio padrão é melhor calcular antes, outra
estatística chamada variância. Por enquanto, não se preocupe com o que significa a
variância, mas saiba que é uma estatística muito importante, intensamente utilizada em
análises mais avançadas em Estatística.
Definição: A variância é a média dos quadrados dos desvios em relação à média.
1Você se lembra do que é robustez, em Estatística?
A. F. Beraldo 49
3. Medidas Estatísticas de Dispersão
A variância é notada por s2 (a letra “s”, minúscula, elevada ao quadrado). A fórmula
da variância é a seguinte:
s2 =
∑i=n
i=1 d
2
i
n− 1 (3.3)
O desvio padrão é a raiz quadrada da variância. Sua fórmula, portanto, é:
s =
√
s2 (3.4)
Seja o conjunto do exemplo anterior, A = {0, 3, 2, 7, 8, 4}. A média do conjunto,
X = 4, e os desvios foram calculados, conforme a tabela 3.3.
Tabela 3.3: Desvios dos elementos do conjunto
xi di
0 −4
3 −1
2 −2
7 +3
8 +4
4 0
Σ 0
50 A. F. Beraldo
3.3 Variância e Desvio Padrão
Montamos mais uma coluna, à direita, para conter os valores dos quadrados dos
desvios:
Tabela 3.4: Cálculo dos quadrados dos desvios
xi di d2
0 −4 16
3 −1 1
2 −2 4
7 +3 9
8 +4 16
4 0 0
Σ 0 46
A variância, então, será:
s2 =
∑i=n
i=1 d
2
i
n− 1 = 46
5 = 9, 2
O desvio padrão será:
s =
√
s2 =
√
9, 2 = 3, 03
Comentários
1. A dispersão dos elementos de um conjunto é uma espécie de “propriedade” dos
conjuntos, assim como as figuras geométricas planas possuem área, e as figuras em
três dimensões possuem volume.
2. Leia novamente a Propriedade IV da média aritmética. É por consequência desta
propriedade que utilizamos a variância.
3. Você deve estar perguntando: por que, afinal, não utilizamos a variância, apenas,
sem mais esta medida do desvio padrão? A resposta é a seguinte:
Suponha que estamos analisando as notas de uma turma, em que foram atribuídos
“pontos” aos alunos, numa escala de 0 a 10. Então, podemos ter alunos com 0
ponto, 1, 2 ou 3 pontos, e assim por diante, até alunos com 10 pontos.
Ao calcularmos a média das notas dos alunos, encontramos, por exemplo, o valor
6,8. Isto quer dizer que a média da turma é 6,8 pontos.
A. F. Beraldo 51
3. Medidas Estatísticas de Dispersão
Ao calcularmos as Medidas de Dispersão, temos: desvios di calculados em pontos,
desvio médio calculado em pontos, e a variância em pontos ao quadrado (!).
Ora, esta unidade de medida, “pontos ao quadrado”, não existe! Para voltarmos à
unidade original, temos que extrair a raiz quadrada da variância - que é justamente
o desvio padrão, cuja unidade é pontos... Agora, estamos sossegados.
4. A maioria dos autores faz uma distinção entre o cálculo da variância e do desvio
padrão referindo-se a amostras ou aos elementos do conjunto Universo (ou popu-
lação). Adotam expressões de cálculo ligeiramente diferentes para s2(variância de
amostras) e para σ2 (variância de populações)2. As fórmulas são:
Para amostras:
s2 =
∑
d2
n− 1 (3.5)
Para populações:
σ2 =
∑
d2
N
(3.6)
Onde d2 é a expressão “quadrado do desvio”(di = xi − X), e n e N são,
respectivamente, os tamanhos da amostra e da população, N >> n. O desvio
padrão é calculado da mesma forma, seja para amostras, seja para populações:
s =
√
s2 para amostras e σ =
√
σ2 para populações.
Esta diferença não representa muito em termos de resultado, para n ou N
superiores a 30. Daí que utilizaremos, nesta apostila, o denominador n − 1 para
amostras de tamanho inferior a 30, e n, para amostras com tamanho maior ou
igual a 30. Para populações, a mesma regra.
Se aplicássemos a fórmula da variância com n, ao invés de n− 1 no denominador,
os resultados seriam: s2 = 7, 67 e s = 2, 67. O erro cometido seria de 14%, para
menos, no desvio padrão. Isto ocorreu porque o tamanho do conjunto é muito
pequeno, 6 elementos apenas.
2Os motivos técnicos para esta distinção serão discutidos na Apostila III, Amostragem, Inferência
de Testes
52 A. F. Beraldo
3.4 Coeficiente de variação
Outra fórmula para o cálculo da variância pode ser deduzida da expressão que
utilizamos. É a seguinte:
s2 =
∑i=n
i=1 d
2
i
n
−X2 (3.7)
Você pode utilizar qualquer uma das expressões, dependendo da sua comodidade.
3.4 Coeficiente de variação
O coeficiente de variação (CV) é a razão entre o desvio padrão e a média do conjunto.
Sua fórmula, portanto, é
CV = s
X
(3.8)
No exemplo atual, calculamos a média X = 4, 0 e o desvio padrão S = 3, 03. O
coeficiente de variação será dado por
CV = s
X
= 3, 03
4, 0 = 0, 7575
Nota: Na prática, expressamos o valor do CV em porcentagem. O CV calculado
acima será, então, CV = 76%.
Comentários
1. As Medidas de Dispersão que estudamos analisam a disposição dos elementos
amostrais em relação à média. Nas amostras, os elementos podem estar distantes
da média (dispersos), ou concentrados em torno desta Estatística (caso das amos-
tras homogêneas), ou mesmo esta disposição pode ser irregular, com uma parte
da amostra concentrada e a outra dispersa. Novamente temos que aprofundar
a análise destas Estatísticas, assim como fizemos com as Medidas de Tendência
Central.
2. A Amplitude fornece uma ideia preliminar de como está a dispersão, a grosso modo,
na amostra. Se a variável estatura dos indivíduos é que está sendo medida, uma
amostra A com Amplitude R(A) = [1, 68m, 1, 72m] deve ter, teoricamente, uma
A. F. Beraldo 53
3. Medidas Estatísticas de Dispersão
dispersão de valores menor do que uma amostra B, com R(B) = [1, 60m, 1, 92m]
- a “faixa de valores possíveis” em A é menor do que em B. Mas este é apenas o
começo da nossa análise.
3. Os Desvios e o Desvio Médio, como vimos, são medidas um tanto imperfeitas.
Mesmo assim, é conveniente dispor os desvios dos elementos em uma tabela
- os desvios muito grandes em relação à média podem indicar a existência de
“outliers"3. Outlier, em Estatística, é o nome que se dá ao elemento ou elementos
que se distanciam exageradamente da média, ou da regularidade do conjunto. A
existência de outliers causa uma grande elevação das Medidas de Dispersão, como
veremos a seguir.
4. Você deve ter em mente que só o estudo de muitos conjuntos e muitas distribuições
de valores irá fornecer a você uma boa ideia do que é um desvio padrão “alto” ou
“baixo”. Isto depende da variável em estudo. As peças de um motor fabricado
em série, por exemplo, saem da linha de montagem com as medidas praticamente
iguais, se a máquina estiver bem calibrada e lubrificada. Os desvios padrões das
medidas “tendem” a zero, e só um exame muito minucioso irá apontar as diferenças
(mínimas) existentes entre elas. Quanto maior a regularidade e qualidade dos
processos de fabricação, menores serão os coeficientes de variação encontrados. A
regulamentação dos padrões de qualidade, as normas ISO 9000 e outras, utilizam
os desvios padrões e os escores padronizados para fixar os limites de tolerância das
medidas dos produtos industriais.
5. Com outras variáveis, principalmente as adotadas nas áreas das Ciências Econô-
micas, Humanas e da Saúde, devemos estar preparados para encontrar desvios
padrões tão altos que chegam a descaracterizar a média dos dados coletados. Mas
a Estatística possui ferramentas que solucionam estes problemas. A Apostila III
traz algumas destas ferramentas.
6. A variância, o desvio padrão e o coeficiente de variação são utilizados em todos
os casos, para medir a dispersão em relação à média. No momento, não se
preocupe com a variância - esta estatística é de extrema importância, e será objeto
de estudos mais adiante. Mas neste ponto concentremo-nos no desvio padrão
e no coeficiente de variação. Neste primeiro contato, normalmente o aluno não
consegue visualizar o que seja (ou o que é medido) pelo desvio padrão. Vamos
tentar esclarecer, através do exemplo seguinte:
3Outlier é uma palavra da língua inglesa, pronuncia-se “áut-laiar”. Na linguagem comum, significa
“alguémque não reside na cidade onde trabalha ou estuda, ou ocupa um cargo administrativo”. Também
é empregue para significar “parte separada do todo”. Em Estatística, há um significado diferente: valor
fora da “regularidade” do conjunto.
54 A. F. Beraldo
3.4 Coeficiente de variação
Exemplo 3.1. Imagine que estamos estudando a variável “peso”, expressa em
quilos, de um conjunto de 17 pessoas. Este conjunto é o seguinte:
A1 = {68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68}
Então, todas as pessoas em A1 possuem 68 kg. A média do conjunto, assim como
sua mediana, é igual a 68 kg. Como não há variação, o desvio padrão é igual a 0,
e o coeficiente de variação é igual a 0%. O conjunto é absolutamente uniforme e
regular. Vamos modificar o conjunto, alterando os 2 primeiros e os dois últimos
elementos, montando o conjunto A2:
A2 = {66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70}
A média e a mediana continuam iguais a 68, e agora, a moda pode ser calculada,
e é também igual a 68. O conjunto não é mais tão regular, dada a introdução
de elementos iguais a 66 kg e 70 kg, que possuem desvios -2 kg e +2 kg,
respectivamente. O desvio padrão, que reflete estas alterações, passa a ser de
1,00 kg. O CV passa a ser de 1,5 %.
Figura 3.4: Conjunto A1 e A2, respectivamente
Alteramos ainda mais o conjunto original, e montamos o conjunto A3:
A3 = {64, 64, 66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70, 72, 72}
As Medidas de Tendência Central (média, moda e mediana) permanecem as
mesmas: 68 kg. O desvio padrão e o coeficiente de variação crescem para 2,24
kg e 3,3%.
A. F. Beraldo 55
3. Medidas Estatísticas de Dispersão
Continuamos a alterar o conjunto inicial, montando os conjuntos A4, A5 e A6,
conforme quadro a seguir:
Tabela 3.5: Conjuntos A
Elemento (i) A1 A2 A3 A4 A5 A6
1 68 66 64 62 60 58
2 68 66 64 64 62 62
3 68 68 66 64 64 62
4 68 68 66 66 66 66
5 68 68 68 66 66 66
6 68 68 68 66 66 66
7 68 68 68 68 68 68
8 68 68 68 68 68 68
9 68 68 68 68 68 68
10 68 68 68 68 68 68
11 68 68 68 68 68 68
12 68 68 68 70 70 70
13 68 68 68 70 70 70
14 68 68 70 70 70 70
15 68 68 70 72 72 74
16 68 70 72 72 74 74
17 68 70 72 74 76 78
Média 68 68 68 68 68 68
Moda Não há 68 68 68 68 68
Mediana 68 68 68 68 68 68
Amplitude 0 4 8 12 16 20
Desvio
padrão
0,00 1,00 2,24 3,16 4,00 4,80
Coef. de
Variação
0,0% 1,5% 3,3% 4,7% 5,9% 7,1%
Repare que à medida em que vamos alterando os valores do conjunto, as Estatís-
ticas de Tendência Central permanecem as mesmas, mas as Medidas de Dispersão
aumentam de valor.
56 A. F. Beraldo
3.4 Coeficiente de variação
Representando graficamente estas alterações, percebemos como a regularidade do
conjunto vai diminuindo a cada alteração:
Figura 3.5: Conjunto A4
Na Figura 3.5, conjunto A4, os elementos começam a se espalhar mais, o que
aumenta as medidas de dispersão.
Figura 3.6: Conjunto A6
Na Figura 3.6, conjunto A6, os valores estão ainda mais dispersos. O coeficiente
de variação sobe para 7,1%.
As alterações que fizemos no conjunto provocaram um aumento na dispersão e,
consequentemente, nas suas medidas: desvio padrão e coeficiente de variação.
A. F. Beraldo 57
3. Medidas Estatísticas de Dispersão
7. Foi dito que a existência de outliers acarreta uma grande elevação nas medidas de
dispersão. Imagine que alguém tivesse cometido um erro na coleta de dados do
conjunto do exemplo anterior, e que o último elemento, ao invés de ter 78 kg, foi
anotado como se tivesse 128 kg4. A representação do conjunto é a seguinte:
Figura 3.7: Outliers
As estatísticas passam a ser as seguintes:
Média 71
Moda 68
Mediana 68
Amplitude 70
Desvio padrão 15,25
Coef.de Variação 21, 5%
Note que a média foi “puxada” para cima, mas a mediana permanece a mesma
(lembre-se que a mediana é a Medida de Tendência Central mais robusta). Mas o
desvio padrão e o coeficiente de variação triplicaram de valor.
4Na verdade, este elemento com 128 kg não é tão discrepante. Mais tarde, na parte de Análise
Exploratória de Dados, você irá aprender a identificar com maior precisão os outliers em uma
distribuição.
58 A. F. Beraldo
3.5 Propriedades da variância
3.5 Propriedades da variância
Propriedade I
Seja um conjunto A, de valores numéricos, definido como:
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA e variância S2
A
Seja um conjunto B, definido como B = {x1 + k, x2 + k, x3 + k, · · · , xn + k} =
{xi + k}n, e com média XB e variância S2
B.
A variância S2
B será igual à variância S2
A.
Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores
de um conjunto, a variância do conjunto não se altera.
Propriedade II
Seja um conjunto A, de valores numéricos, definido como
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA e variância S2
A.
Seja um conjunto B, definido como
B = {x1 · k, x2 · k, x3 · k, · · · , xn · k} = {xi · k}n,(sendo k uma constante diferente
de zero) e com média XB e variância S2
B.
A variância S2
B será igual à variância S2
Ak
2.
Assim, se multiplicarmos (ou dividirmos) por uma constante k(k 6= 0),
a todos os valores de um conjunto, a nova variância será a variância
do conjunto original, multiplicada (ou dividida) pelo quadrado desta
constante (k2).
Propriedade III
Seja um conjunto A, de valores numéricos, definido como
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA e variância S2
A. Sejam um outro
conjunto B = {y1, y2, y3, · · · , yn} cujos valores são definidos como Y = aX + b .
Pelas Propriedades I e II, acima, temos que
S2
B = a2S2
A
A. F. Beraldo 59
4 Estatística em Grandes Conjuntos:
Distribuições de Frequências
Até agora, temos estudado conjuntos de tamanho pequeno, com poucos elementos.
São amostras que se prestam bem à apresentação dos conceitos de Medidas de Tendência
Central (média, moda, mediana) e de Dispersão (variância, desvio padrão, etc.). No
entanto, em muitos dos nossos trabalhos é feita a análise estatística de conjuntos bem
maiores, com 300, 400, 500 elementos - às vezes muito mais do que isso.
Grandes conjuntos são os que possuem mais de 30 elementos. Em termos práticos, a
diferença está na maneira de tratar matematicamente as duas categorias. É obvio que,
à medida que o conjunto aumenta de tamanho, teremos maior trabalho com os cálculos
e com a organização dos dados – é o que estudaremos nas páginas seguintes.
4.1 Frequências Simples
Uma vez extraída a amostra de elementos do Universo, passamos a processar seus
dados, para obter as informações que descrevem esta amostra. Estas informações são
essencialmente numéricas, ou seja, procuramos obter medidas estatísticas que irão
aumentar nosso nível de conhecimento sobre a amostra (e, em um estágio posterior, nos
informar sobre o Universo).
Suponha que estamos fazendo uma pesquisa em um bairro da cidade, procurando
nos informar sobre a variável renda familiar de seus moradores. Foram entrevistadas
aleatoriamente 120 pessoas, todas moradoras do bairro. As respostas foram anotadas à
medida que se entrevistavam os moradores, e os resultados (chamados dados brutos)
estão a seguir (em Salários Mínimos, ou SM):
A. F. Beraldo 61
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
8,2 3,2 4,1 5,1 5,1 5,3 9,5 11,2
1,2 1,1 1,7 2,8 4,3 3,5 3,5 4,0
5,7 7,0 7,0 5,9 6,0 7,0 8,4 8,4
8,2 3,4 3,2 3,2 3,4 3,8 13,7 14,2
21,4 15,9 5,2 5,7 6,5 7,8 7,8 7,5
2,0 2,2 12,6 12,7 19,3 20,7 24,2 4,4
4,0 3,9 3,8 6,2 6,7 6,8 6,4 6,2
6,3 7,8 7,7 7,4 8,3 8,0 7,2 7,3
9,2 10,4 10,1 9,4 12,0 11,4 11,2 12,0
11,6 9,9 9,1 11,0 10,6 10,6 1,6 1,1
3,0 2,8 1,6 2,4 1,5 4,2 4,1 3,8
3,9 1,7 2,4 2,0 3,3 3,3 4,1 4,2
15,0 14,7 13,5 8,4 11,0 16,4 16,8 16,2
1,5 5,5 6,3 3,3 2,7 3,4 2,0 2,0
2,8 3,7 5,7 5,6 4,0 3,0 2,0 4,0
Figura 4.1: Dados brutos
Os dados dispostos na figura 4.1 não apresentam qualquer organização. Ainda não
temos ideia de qual será a média ou a moda da renda familiar na amostra, ou como
está sua dispersão. O passo seguinte é aumentar o nível de informação sobre a amostra,
dispondo os dados em ordem crescente, formando um conjunto chamado Rol:
1,11,1 1,2 1,5 1,5 1,6 1,6 1,7
1,7 2,0 2,0 2,0 2,0 2,0 2,2 2,4
2,4 2,7 2,8 2,8 2,8 3,0 3,0 3,2
3,2 3,2 3,3 3,3 3,3 3,4 3,4 3,4
3,5 3,5 3,7 3,8 3,8 3,8 3,9 3,9
4,0 4,0 4,0 4,0 4,1 4,1 4,1 4,2
4,2 4,3 4,4 5,1 5,1 5,2 5,3 5,5
5,6 5,7 5,7 5,7 5,9 6,0 6,2 6,2
6,3 6,3 6,4 6,5 6,7 6,8 7,0 7,0
7,0 7,2 7,3 7,4 7,5 7,7 7,8 7,8
7,8 8,0 8,2 8,2 8,3 8,4 8,4 8,4
9,1 9,2 9,4 9,5 9,9 10,1 10,4 10,6
10,6 11,0 11,0 11,2 11,2 11,4 11,6 12,0
12,0 12,6 12,7 13,5 13,7 14,2 14,7 15,0
15,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2
Figura 4.2: Rol
Agora já podemos verificar qual é o menor valor (1,1 SM) e o maior valor (24,2 SM).
No entanto, mesmo colocados em ordem, no rol, os dados ainda exigem um bom esforço
para entendermos o que se passa na amostra. O nível de informação ainda está muito
baixo, e pode (e deve) ser melhorado se classificarmos estes dados, dividindo a amostra
62 A. F. Beraldo
4.1 Frequências Simples
em faixas de renda. Numa primeira tentativa, vamos dividir os dados nas seguintes
faixas de renda: de 1 a 3 SM, de 3 a 5 SM, de 5 a 7 SM, e assim por diante, até uma
faixa de 23 a 25 SM. Esta divisão é arbitrária, poderíamos ter dividido as classes de
3 em 3 SM, de 5 em 5 SM, etc. Mas esta é, como dissemos, uma primeira tentativa.
Começamos a montar uma tabela, em que na primeira coluna colocamos a divisão que
adotamos (as faixas de renda):
Tabela 4.1: Divisão em faixas de renda
Faixas de Renda (*)
1 a 3
3 a 5
5 a 7
7 a 9
9 a 11
11 a 13
13 a 15
15 a 17
17 a 19
19 a 21
21 a 23
23 a 25
(*) em Salários Mínimos (SM)
Na tabela 4.1, estão dispostos, na primeira coluna, os intervalos que identificam as
faixas de rendas. Estes intervalos são chamados classes, e são limitados à esquerda e à
direita. Cada classe possui então dois limites: o Limite Inferior e o Limite Superior.
As classes são contadas de cima para baixo: 1a classe, de 1 a 3 SM (limite inferior 1,
limite superior 3); 2a classe, de 3 a 5 SM (limite inferior 3, limite superior 5), e assim por
diante, até a última classe (12a classe), de 23 a 25 SM (limite inferior 23, limite superior
25). Prosseguimos, então, contando quantos elementos da amostra pertencem a
cada uma das faixas. Por exemplo, a primeira faixa:
Neste ponto, surge uma dúvida: e se na amostra existir um elemento com renda
familiar exatamente igual a 3 SM? Este elemento pertence à faixa “1 a 3 SM” ou à faixa
“3 a 5 SM”? Temos que adotar um critério, uma “condição de pertinência”. Este critério
pode ser um dos seguintes:
1. Classes fechadas à esquerda. a classe “1 a 3” conteria todos os elementos entre 1
e 3 SM, incluindo o elemento com 1 SM e excluindo o elemento com 3 SM.
A. F. Beraldo 63
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,7
1,7 2,0 2,0 2,0 2,0 2,0 2,2 2,4
2,4 2,7 2,8 2,8 2,8 3,0 3,0 3,2
3,2 3,2 3,3 3,3 3,3 3,4 3,4 3,4
3,5 3,5 3,7 3,8 3,8 3,8 3,9 3,9
4,0 4,0 4,0 4,0 4,1 4,1 4,1 4,2
4,2 4,3 4,4 5,1 5,1 5,2 5,3 5,5
5,6 5,7 5,7 5,7 5,9 6,0 6,2 6,2
6,3 6,3 6,4 6,5 6,7 6,8 7,0 7,0
7,0 7,2 7,3 7,4 7,5 7,7 7,8 7,8
7,8 8,0 8,2 8,2 8,3 8,4 8,4 8,4
9,1 9,2 9,4 9,5 9,9 10,1 10,4 10,6
10,6 11,0 11,0 11,2 11,2 11,4 11,6 12,0
12,0 12,6 12,7 13,5 13,7 14,2 14,7 15,0
15,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2
Figura 4.3: Contagem dos elementos da primeira faixa de renda
2. Classes fechadas à direita: a classe “1 a 3” conteria todos os elementos entre 1 e
3 SM, incluindo o elemento com 3 SM e excluindo o elemento com 1 SM – foi o
critério que adotamos, veja o Quadro 4.3.
A notação que empregamos, para indicar se as classes são fechadas à esquerda ou
à direita, é a seguinte ( a e b são os limites inferiores e superiores das classes):
a ` b Classes fechadas à esquerda: inclui todos os elementos entre a e b, exceto
os elementos iguais a b.
a a b Classes fechadas à direita: inclui todos os elementos entre a e b, exceto
os elementos iguais a a.
A partir da adoção de um destes critérios, podemos partir para o passo seguinte,
que é a contagem dos elementos pertencentes às classes. O resultado desta conta-
gem é chamado de f, ou frequência simples (ou, ainda, frequência absoluta). As
frequências das classes são colocadas na segunda coluna da tabela, que passa a se
chamar Distribuição de Frequências da variável:
64 A. F. Beraldo
4.1 Frequências Simples
Tabela 4.2: Distribuição de Frequências da Renda Familiar do Bairro X
Classes de Renda f
1 —| 3 23
3 —| 5 28
5 —| 7 22
7 —| 9 15
9 —| 11 11
11 —| 13 8
13 —| 15 5
15 —| 17 4
17 —| 19 0
19 —| 21 2
21 —| 23 1
23 —| 25 1
Σ 120
Note que adotamos o critério de “classes fechadas à direita”. Poderíamos ter
adotado outro critério, e as frequências das classes poderiam ser diferentes.
Comentários
1. Foi dito que a divisão em classes é feita por “tentativas”. E isto é verdade,
nas primeiras vezes que fazemos este trabalho. À medida que se adquire certa
experiência, fica mais fácil determinar em quantas classes iremos dividir o conjunto
de dados coletados, se as classes terão tamanho igual ou diferente, etc.
2. Alguns autores adotam fórmulas empíricas para determinar em quantas classes
iremos dividir o conjunto de dados. O número de classes NC pode ser calculado
pelas seguintes expressões:
NC = 1 + 3, 3 log n
ou
NC =
√
n
Onde “n” é o tamanho do conjunto de dados. Você pode escolher qualquer uma
destas fórmulas, mas, voltando ao Comentário 1, sua experiência é que irá indicar
o melhor NC. Aqui se fazem duas recomendações: não se deve dividir o rol em
menos de 5 classes. Assim, o número de classes deve ser maior ou igual a 5.
Outra: procure utilizar o maior número de classes possível (sem exageros, é claro
- na prática, trabalhamos com no máximo 10 a 12 classes, na maioria das vezes).
A. F. Beraldo 65
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
3. As classes não precisam, necessariamente, possuir o mesmo tamanho. Caso seja
preciso, você pode variar os tamanhos (amplitudes) das classes, atendendo a
alguma condição especial. A exigência que se faz é que o limite inferior de
uma classe tem que ser igual ao limite superior da classe anterior (com
uma exceção, como se verá nos exercícios resolvidos), ou seja, os intervalos de
classe se dispõem de forma contínua.
4. Há algum tempo atrás, havia uma preocupação em dividir a amostra de forma
a não deixar nenhuma classe com frequência igual a 0. Atualmente, não há esta
preocupação, e é até recomendável que as classes tenham amplitudes iguais, não
importando se alguma classe não contém elementos amostrais (f = 0). De certa
forma, este procedimento auxilia a entender ainda melhor a amostra.
5. O mais importante é que a tabela de Distribuição de Frequências forneça uma boa
ideia do que está ocorrendo na amostra, para a variável em estudo.
Recapitulando:
Um conjunto de 120 elementos, com os valores da variável Renda Familiar, medida
em salários mínimos (SM), foi dividido em classes (faixas) de renda, de amplitudes
(tamanhos) iguais. Adotou-se o critério de “fechada a direita”(a a b). Contaram-se
quantos elementos (quantas rendas familiares) pertenciam a cada classe, colocando-se o
resultado na segunda coluna, das frequências simples (f).
Tabela 4.3: Distribuição de Frequências da Renda Familiar do Bairro X
66 A. F. Beraldo
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência
4.2 Frequências Relativas, o Histograma e os
Polígonos de Frequência
Em Estatística, muito raramente se trabalha com as frequências simples para descrever-
se a amostra. Prefere-se, e é mais cômodo, trabalhar com as chamadas frequências
relativas, fr, que exprimem o percentual de elementos dentro de cada classe.
Cada classe tem a sua frequência relativa, que é calculada pela fórmula:
fr = f∑
f
× 100 (4.1)
que pode ser escrita desta forma:
fr = f
n
× 100 (4.2)
Onde n = ∑
f , e n é chamado tamanho da amostra (é o número de entrevistas
que foram feitas). No exemplo da Tabela 4.3, n = 120.
A frequência relativa é expressa em percentuais, como foi dito. Por exemplo,
a frequência relativa da primeira classe (1a 3) é calculada assim:
fr= f
n
× 100 = 23
120 × 100 = 19, 2
O número 19,2 é lido como 19,2 porcento. Em muitos livros e artigos, princi-
palmente de origem dos EUA ou da Europa, você vai encontrar a frequência relativa
expressa em decimais, e não em percentagem. Por exemplo, 19,2 (%) é escrito 0,192. A
fórmula de cálculo das frequências relativas é escrita, então, como:
fr = f∑
f
= f
n
(4.3)
A. F. Beraldo 67
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
Calculando as frequências relativas para todas as classes, temos:
Tabela 4.4: Distribuição de Frequências da Renda Familiar do Bairro X
Classes de Renda f fr
1 —| 3 23 19,2
3 —| 5 28 23,3
5 —| 7 22 18,3
7 —| 9 15 12,5
9 —| 11 11 9,2
11 —| 13 8 6,7
13 —| 15 5 4,2
15 —| 17 4 3,3
17 —| 19 0 0,0
19 —| 21 2 1,7
21 —| 23 1 0,8
23 —| 25 1 0,8
Σ 120 100,0
Na prática, não se coloca o símbolo % após o valor das frequências relativas, nem
as palavras explicando o que quer dizer cada coluna. A tabela da Distribuição de
Frequências, como manda a norma, fica da seguinte forma:
Como se “lê” este tipo de tabela?
• Esta tabela é chamada distribuição de frequências. Na primeira coluna da
tabela estão, obrigatoriamente, as classes: 1 a 3, 3 a 5, 5 a 7, etc. Uma classe
é sempre identificada por dois números, significando um intervalo numérico. Por
exemplo, a classe 1 a 3 lê-se “intervalo de 1 a 3 salários mínimos”. Os números
que identificam a classe são chamados limite inferior e limite superior da classe.
Na classe 1 a 3, o limite inferior é 1, o limite superior é 3; na classe 3 a 5, o limite
inferior é 3, e o superior é 5, e assim por diante.
• Na segunda coluna estão as frequências simples (f). Uma frequência simples é o
número de elementos da amostra pertencente a cada classe. É o resultado de uma
contagem. Assim, na classe 1a 3, temos 23 elementos; na classe 3 a 5, temos 28
elementos; na classe 5 a 7, temos 22 elementos, e assim por diante.
• Na terceira coluna estão as frequências relativas (fr). Uma frequência relativa
é o percentual de cada classe em relação ao total da amostra. Assim, na classe
1 a 3, temos 23 elementos, que equivalem a 19, 2% da amostra; na classe 3 a 5,
temos 28 elementos, que representam 23, 3% da amostra; na classe 5 a 7, temos
22 elementos, que representam 18, 3% da amostra, e assim por diante.
68 A. F. Beraldo
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência
O nível de informação sobre a amostra aumentou bastante: agora, já sabemos com
segurança muita coisa sobre a amostra (e até tabelamos nossos dados). Sabemos
qual a classe mais numerosa e a menos numerosa, e quanto cada classe representa
percentualmente, sobre o total da amostra.
Podemos aumentar ainda mais o conhecimento sobre a amostra, utilizando um
excelente recurso de representação de dados: os gráficos. Um gráfico bastante utilizado
para representar distribuições de frequências é o Histograma de Frequências:
Figura 4.4: Histograma de frequências
Figura 4.5: Histograma de frequências
A. F. Beraldo 69
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
Outro tipo de histograma muito utilizado é o Histograma de Frequências Relativas.
A construção do gráfico é mesma, apenas mudando, no eixo vertical, de frequências
absolutas (f) para frequências relativas (fr):
Figura 4.6: Histograma de frequências relativas
Porém, um histograma mais completo apresenta dois eixos verticais: um para as
frequências simples (f), outro para as frequências relativas (fr). Veja a seguir:
Figura 4.7: Histograma de frequências absolutas e relativas
Outro tipo de gráfico também é muito utilizado para representar uma distribuição de
frequências. Trata-se do Polígono de Frequências Relativas, que é traçado unindo-se
70 A. F. Beraldo
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência
por segmentos de reta (poligonais) os pontos médios das bases superiores dos retângulos
do Histograma:
Figura 4.8: Polígono de frequências
Ao final do processo, obtemos a poligonal fechada que é a imagem da distribuição de
frequência:
Figura 4.9: Polígono de frequências relativas
A. F. Beraldo 71
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
Costuma-se, também, traçar o Polígono de Frequências Relativas sem o Histograma,
com os segmentos de reta unindo os pontos (x, y), onde x é ponto médio das classes e y
a frequência relativa das classes:
Figura 4.10: Polígono de frequências relativas
72 A. F. Beraldo
4.3 Frequências Acumuladas
4.3 Frequências Acumuladas
Aumentando mais o nível de informações sobre a amostra, introduzimos mais uma
estatística: a Frequência Acumulada (F). A Frequência Acumulada de uma classe é a
soma das frequências absolutas, desde a primeira classe até aquela classe. Para montar
a coluna das Frequências Acumuladas, proceda da seguinte forma:
1. Na primeira classe, repita a frequência simples da classe:
Tabela 4.5: Distribuição de Frequências da Renda Familiar do Bairro X
2. Em seguida, faça a soma deste valor com a frequência absoluta da segunda classe:
Tabela 4.6: Distribuição de Frequências da Renda Familiar do Bairro X
A. F. Beraldo 73
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
3. Repita a operação para as demais classes:
Tabela 4.7: Distribuição de Frequências da Renda Familiar do Bairro X
Note que a última Frequência Acumulada tem que ser igual ao tamanho da amostra.
Os valores na coluna das Frequências Acumuladas nos dão a seguinte informação: a
Frequência Acumulada de uma classe é a quantidade de elementos existentes na amostra,
desde o limite inferior da primeira classe até o limite superior da classe considerada.
Podemos escrever desta forma:
Fk =
i=k∑
i=1
fi (4.4)
Ou seja, a Fk, frequência acumulada da classe k é a soma das frequências simples
desde a primeira classe até a k-ésima classe.
74 A. F. Beraldo
4.4 Frequências Relativas Acumuladas e a Ogiva de Galton
4.4 Frequências Relativas Acumuladas e a Ogiva de
Galton
De maneira análoga à das Frequências Acumuladas, montamos a coluna das Frequên-
cias Relativas Acumuladas Fr, tendo por base a coluna das Frequências Relativas:
1. Na primeira classe, repita a sua frequência relativa:
Tabela 4.8: Distribuição de Frequências da Renda Familiar do Bairro X
2. Em seguida, faça a soma deste valor com a frequência relativa da segunda classe:
Tabela 4.9: Distribuição de Frequências da Renda Familiar do Bairro X
A. F. Beraldo 75
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
3. Repita a operação para as demais classes:
Tabela 4.10: Distribuição de Frequências da Renda Familiar do Bairro X
Note que a última Frequência Relativa Acumulada tem que ser igual a 100%.
Os valores na coluna das Frequências Relativas Acumuladas nos dão a seguinte
informação: a Frequência Relativa Acumulada de uma classe é o percentual de
elementos existentes na amostra, desde o limite inferior da primeira classe até o
limite superior da classe considerada. Podemos escrever desta forma:
Frk =
i=k∑
i=1
fri (4.5)
Ou seja, a Frk, frequência relativa acumulada da classe k é a soma das frequências
relativas desde a primeira classe até a k-ésima classe.
Para representar os valores destas duas estatísticas (F e Fr), utilizamos o Polígono
de Frequências Acumuladas (Ogiva de Galton), que se constrói da seguinte forma:
1. Traçam-se os eixos cartesianos, com dois eixos verticais. No primeiro eixo vertical,
à esquerda, colocamos a escala para os valores de F, começando obrigatoriamente
do zero e crescendo até n (tamanho do conjunto, neste exemplo igual a 120).
No segundo eixo vertical, à direita, colocamos os valores percentuais, começando
também do 0 e crescendo até 100% - com intervalos (escala) de 10% em 10%.
76 A. F. Beraldo
4.4 Frequências Relativas Acumuladas e a Ogiva de Galton
2. No eixo horizontal colocamos os valores dos limites das classes. Neste eixo não é
obrigatório começar-se do valor zero, mas devemos colocar o sinal de “quebra de
escala”, se for o caso.
Figura 4.11: Eixos cartesianospara o traçado do polígono de frequências acumuladas
3. O Polígono de Frequências Acumuladas é uma linha suave, cujo ponto de
origem é dado pelas coordenadas (x, y), sendo x o limite inferior da primeira
classe, e y igual a zero.
Figura 4.12: Marcação do primeiro ponto do polígono de frequências acumuladas
A. F. Beraldo 77
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
4. O segundo ponto do polígono é dado por: limite superior da primeira classe,
frequência acumulada da primeira classe.
Figura 4.13: Marcação de pontos no polígono de frequências acumuladas
5. Para os demais pontos, que representam os limites superiores das classes, a
ordenada é a frequência acumulada da classe.
Figura 4.14: Marcação de pontos no polígono de frequências acumuladas
78 A. F. Beraldo
4.4 Frequências Relativas Acumuladas e a Ogiva de Galton
Ao terminar de marcar os pontos, trace uma linha suave unindo-os:
Figura 4.15: Polígono de frequências acumuladas (Ogiva de Galton)
A. F. Beraldo 79
5 Estatística em Grandes Conjuntos:
Medidas de Tendência Central e Dispersão
Em Estatística, muitas vezes as amostras são bem maiores, formando conjuntos de
100, 300, 600 elementos ou mais, muito mais. Neste caso, utilizamos as Distribuições
de Frequências, não só para o que foi explicado no Capítulo 4, mas também para
calcular as Estatísticas de Tendência Central e as demais estatísticas. Os conceitos
de Tendência Central (média, moda e mediana) são os mesmos que foram apresentados
para as amostras de tamanho pequeno. Este capítulo introduz novas fórmulas, que são
adaptações de cálculo quando o tamanho maior dos conjuntos torna difícil ou trabalhoso
a utilização das fórmulas que foram estudadas no Capítulo 2.
5.1 Cálculo da Média:
Vamos exemplificar o cálculo da média para grandes amostras utilizando a distri-
buição de frequências a seguir (a mesma com que estamos trabalhando no Capítulo
4).
Tabela 5.1: Classes de renda
Classes de Renda f
1 —| 3 23
3 —| 5 28
5 —| 7 22
7 —| 9 15
9 —| 11 11
11 —| 13 8
13 —| 15 5
15 —| 17 4
17 —| 19 0
19 —| 21 2
21 —| 23 1
23 —| 25 1∑
120
Montamos uma terceira coluna, onde estão os valores de uma estatística chamada
ponto médios da classe (x). Cada classe possui o seu ponto médio, que é calculado pela
fórmula :
A. F. Beraldo 81
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
x = LI + LS
2 (5.1)
Onde x é o ponto médio da classe, LI é o limite inferior da classe e LS o limite
superior da classe. O ponto médio, portanto, é a média dos limites das classes. A
tabela passa a ter, então, mais esta coluna:
Tabela 5.2: Classes de renda
Classes de Renda f x
1 —| 3 23 2
3 —| 5 28 4
5 —| 7 22 6
7 —| 9 15 8
9 —| 11 11 10
11 —| 13 8 12
13 —| 15 5 14
15 —| 17 4 16
17 —| 19 0 18
19 —| 21 2 20
21 —| 23 1 22
23 —| 25 1 24∑
120
O conceito de ponto médio é o seguinte: após a elaboração da distribuição
de frequências, os dados originais da amostra são abandonados. Sabe-se quantos
elementos pertencem a cada classe (frequências simples da classe), mas não se sabe mais
quais eram estes elementos. O ponto médio representa toda a classe - imagina-se
que a classe está concentrada em seu ponto médio, que é o valor característico da
classe. A partir disto, pode-se assumir que, no exemplo acima, todos os 23 elementos da
primeira classe são iguais a 2; todos os 28 elementos da segunda classe são iguais a 4, e
assim por diante. É o mesmo que dizer que as 23 famílias da primeira classe, que tem
renda entre 1 e 3 SM, tem uma renda média de 2 SM; que as 28 famílias da segunda
classe, que tem renda entre 3 e 5 SM, tem renda média de 4 SM, e assim por diante.
É claro que esta é uma simplificação, um artifício de cálculo que fazemos para estimar,
primeiramente, a média de cada classe, e, depois, a média de todo o conjunto.
Esta é uma das razões pelas quais se deve dividir uma amostra no maior número
de classes possível, fazendo que a amplitude das classes seja a menor possível -
82 A. F. Beraldo
5.1 Cálculo da Média:
isto diminui o “erro” (imprecisão) em tomar toda a classe pelo seu ponto médio, que é
a média dos limites.
A fórmula da média para distribuições de frequências (dados grupados) é a seguinte:
X =
∑i=k
i=1 fixi
n
(5.2)
Onde X é a média,fi e xi são as frequências e os pontos médios das classes e n é o
tamanho da amostra,(n = ∑i=n
i=1 fi) , na qual k é número de classes da distribuição de
frequência.
Para obter o numerador da fórmula ∑ fi.xi ,utilizamos uma quarta coluna, na qual
vão estar os resultados dos produtos frequência vezes o ponto médio das classes:
Tabela 5.3: Cálculo dos produtos Frequência × ponto médio
A. F. Beraldo 83
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
Finalmente, calculamos a média:
X =
∑i=k
i=l fixi
n
= 836
120 = 6, 97 ∼= 7, 0
Comentários
Esta fórmula é a fórmula da média ponderada (veja Capítulo 2). O que se fez
foi assumir que toda uma classe está concentrada no seu ponto médio, e utilizar
as frequências das classes como pesos, ou ponderações dos pontos médios. Veja a
semelhança entre as duas expressões:
Xp =
∑
xipi∑
pi
Média ponderada
X =
∑
fixi
n
Média para distribuições de frequência
No Histograma de Frequência da distribuição, vemos a posição da média:
Figura 5.1: Histograma de Frequências Absolutas e Relativas, mostrando a média
aritmética da distribuição
84 A. F. Beraldo
5.1 Cálculo da Média:
Outra fórmula para o cálculo da média utiliza as frequências relativas, ao invés das
frequências absolutas. A expressão é :
X =
i=k∑
i=1
fri.xi (5.3)
Tabela 5.4: Cálculo dos produtos Frequência Relativa × ponto médio
A. F. Beraldo 85
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
5.2 Cálculo da Moda
A moda de uma distribuição de frequências pode ser calculada através de dois
métodos. Um, o método de King, que fornece uma moda “grosseira”, e outro, o
método de Czuber, que fornece uma moda mais precisa. Ambos os métodos se
referem a uma classe modal, que é a classe de maior frequência da distribuição.
Por exemplo, considere a distribuição a seguir:
Tabela 5.5: Determinação da classe modal
A classe modal é a classe 3 a 5, que é a que possui a maior frequência.
Partimos do princípio de que as distribuições de frequência que apresentam diferentes
frequências de classes possuem pelo menos uma moda e que esta moda, pelo próprio
conceito da medida, deve pertencer à classe modal, isto é, deve ser um número entre o
limite inferior e o limite superior da classe modal.
Pelo método de King, a moda de uma distribuição de frequências é o ponto médio
da classe modal:
X̂king = LIk + LSk
2 (5.4)
Onde Linfk e Lsupk são os limites inferior e superior da classe modal.
86 A. F. Beraldo
5.2 Cálculo da Moda
Para a distribuição acima, a moda de King será:
X̂king = LIk + LSk
2 = 3 + 5
2 = 4 (5.5)
Comentários
A moda de King é uma aproximação da moda verdadeira. É chamada, por alguns
autores, de moda “grosseira”, não sendo muito utilizada. No entanto, fornece uma boa
indicação do valor da moda real.
A moda, segundo o método de Czuber, é calculada através da seguinte fórmula:
X̂ = LIk +
(
DA
DA+DP
)
Ampk (5.6)
Onde:
LIk é o limite inferior da classe modal;
DA diferença entre a frequência da classe modal e a frequência da classe anterior;
DP diferença entre a frequência da classe modal e a frequência da classe posterior;
Ampk amplitude da classe modal.
A. F. Beraldo 87
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
Calculando a moda de Czuber para a distribuição dada, teremos:
Tabela 5.6: Cálculo da moda de Czuber
Aplicando na fórmula, temos:
X̂ = LIk +
(
DA
DA+DP
)
Ampk = 3 +
( 5
5 + 6
)
.2 = 3, 9
Comentários
1. Deve-se ter em mente que o cálculo da moda, pelo método de Czuber, só pode ser
aplicado a distribuições unimodais. Assume-se que a amostra possui uma, e
apenas uma moda e que esta moda pertence à classe de maior frequência.
2. No caso de nos depararmos com distribuiçõesque aparentam possuir mais de uma
moda, não aplicamos o processo de Czuber.
88 A. F. Beraldo
5.3 Cálculo da Mediana
5.3 Cálculo da Mediana
A mediana, em distribuições de frequências, é calculada pela fórmula
X̃ = LIm +
(
Pos(X̃)− Fant
f
)
Ampm (5.7)
Onde:
X̃ é o valor da mediana.
LIm Limite inferior da classe que contém a mediana
Pos(X̃) Posição da mediana
Fant Frequência acumulada da classe da posição anterior à classe que contém a mediana.
Ampm Amplitude (tamanho) da classe que contém a mediana.
A posição ( Pos(X̃)) da mediana é calculada através da fórmula Pos(X̃) = n/2, na
qual n é o tamanho da amostra. Em alguns livros você encontrará a seguinte fórmula,
que também é válida:
Pos(X̃) = (n+ 1)
2
A. F. Beraldo 89
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
5.3.1 Roteiro para o cálculo da mediana
Seja a distribuição de frequências com a qual estamos trabalhando:
Tabela 5.7: Cálculo da mediana
Classes de Renda f
1 —| 3 23
3 —| 5 28
5 —| 7 22
7 —| 9 15
9 —| 11 11
11 —| 13 8
13 —| 15 5
15 —| 17 4
17 —| 19 0
19 —| 21 2
21 —| 23 1
23 —| 25 1∑
120
1o passo O tamanho n da amostra é 120. A partir deste valor, calculamos a posição
da mediana:
Pos(X̃) = n/2 = 120/2 = 60
Note que não arredondamos os valores encontrados para as posições. As posições
para a mediana podem ser números inteiros (quando n é par), ou decimais (quando
n é impar). Por exemplo, se n fosse igual a 121, teríamos
Pos(X̃) = n/2 = 121/2 = 60, 5
Não se deve arredondar este valor para 61.
90 A. F. Beraldo
5.3 Cálculo da Mediana
2o passo Calcula-se a coluna das frequências acumuladas (F):
Tabela 5.8: Cálculo da mediana
Classes de Renda f F
1 —| 3 23 23
3 —| 5 28 51
5 —| 7 22 73
7 —| 9 15 88
9 —| 11 11 99
11 —| 13 8 107
13 —| 15 5 112
15 —| 17 4 116
17 —| 19 0 116
19 —| 21 2 118
21 —| 23 1 119
23 —| 25 1 120∑
120
3o passo Identifica-se a classe que contém a mediana. A classe que contém a mediana é
aquela cuja a frequência acumulada (F) é a primeira frequência acumulada maior
ou igual à posição da mediana. Neste exemplo, a primeira frequência acumulada
(F) maior ou igual à posição da mediana (60,0) é F = 73.
Tabela 5.9: Cálculo da mediana
A frequência acumulada F = 73, correspondente à classe 5 a 7, é a primeira frequência
acumulada com valor igual a superior a 60,0, que é a posição da mediana. Portanto, a
classe que contém a mediana será classe 5 a 7. Em outras palavras, a mediana terá um
valor entre 5 e 7 (valor que calcularemos a seguir).
A. F. Beraldo 91
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
4o passo Uma vez encontrada a classe à qual pertence a mediana, podemos aplicar os
dados na fórmula para encontrar o valor da mediana:
X̃ = LIm +
(
Pos(X̃)− Fant
f
)
Ampm = 5 +
(60− 51
22
)
2 = 5, 8
Outra maneira de calcular a mediana seria através do polígono de frequência acu-
mulada. A partir do valor de 50% no eixo dos percentuais, trace uma horizontal até
encontrar a curva. Do ponto que esta horizontal encontrou a curva, trace uma reta
vertical até encontrar o eixo das classes. Onde esta vertical encontrar o eixo será o
ponto que contém o valor da mediana. Veja a figura a seguir:
Figura 5.2: Determinação gráfica da mediana
92 A. F. Beraldo
5.3 Cálculo da Mediana
Comentários
Neste capítulo foram apresentadas fórmulas empíricas para o cálculo das Medidas
de Tendência Central em distribuições de frequência. Assim, fizemos suposições a priori
para o cálculo destas medidas, uma vez que, como você deve estar lembrando, não
dispomos mais dos dados originais – e sim da distribuição de frequências.
• Para calcular a média, partimos da suposição que os valores pertencentes a cada
classe poderiam ser substituídos pelo ponto médio x.
• Para calcular a moda, a premissa foi de que a distribuição possuía moda, e esta
pertencia à classe de maior frequência, chamada classe modal.
• Para calcular a mediana, a suposição foi que os valores dentro da classe da mediana
distribuem-se linearmente. A fórmula do cálculo da mediana, na verdade, é uma
espécie de “regra de três”.
Assim, os valores que encontramos para estas medidas são valores estimados,
mas que se aproximam bastante dos valores reais, pelo menos no caso da média e
da mediana, como você pode conferir no quadro a seguir:
Quadro 1: Comparação entre valores estimados e reais das Medidas de Tendência Central
Medida Valor estimado Valor real
Média 6,97 6,92
Mediana 5,8 5,8
Moda 3,9 2,0
Para a média e a mediana, o erro foi desprezível ou nulo. Já no caso da moda, o
erro foi muito grande. As fórmulas empíricas “funcionam” muito bem – têm uma
precisão muito boa – quando:
√
No caso da média, quando o número de classes é grande (mais de 10 classes,
p. ex.), o que acarreta intervalos de classe menores, com os pontos médios
tornando-se valores característicos bem mais precisos das classes;
√
No caso da mediana, quando o tamanho do conjunto é grande (mais de 100
elementos, p. ex.);
√
No caso da moda, quando a frequência modal (frequência da classe modal) for
elevada (mais de 50%, p. ex.).
A. F. Beraldo 93
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
5.4 Cálculo da Variância, do Desvio Padrão e do
Coeficiente de Variação
O cálculo das Medidas de Dispersão para pequenos conjuntos é muito fácil, como
vimos. Torna-se mais trabalhoso quando trabalhamos com amostras maiores, n > 30.
Vamos continuar com a nossa planilha de cálculo, na qual estamos trabalhando desde o
cálculo de Medidas de Tendência Central para grandes conjuntos (em distribuições de
frequências). A distribuição de frequências com a qual estamos trabalhando é a seguinte:
Tabela 5.10: Distribuição de Frequências da Renda Familiar do Bairro X
Classes de Renda f
1 —| 3 23
3 —| 5 28
5 —| 7 22
7 —| 9 15
9 —| 11 11
11 —| 13 8
13 —| 15 5
15 —| 17 4
17 —| 19 0
19 —| 21 2
21 —| 23 1
23 —| 25 1∑
120
(*) em Salários Mínimos (SM)
Para pequenos conjuntos, o processo de cálculo da variância consistia em calcular
os desvios di dos elementos xi dos conjuntos, para depois elevá-los ao quadrado1. A
variância foi definida como uma espécie de “média” dos quadrados dos desvios:
s2 =
∑i=n
i=1 d
2
i
n− 1 (5.8)
Para o cálculo da variância em distribuições de frequência, assume-se que o ponto
médio xi das classes representa (ou substitui) todos os valores originais da amostra,
pertencentes àquela classe. Então, para a tabela 5.1, convenciona-se que a primeira
1Advertência: não prossiga no estudo deste Capítulo sem que o assunto “Dispersão em Pequenos
Conjuntos” (Capítulo 3) esteja muito bem compreendido!
94 A. F. Beraldo
5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação
classe, de 1 a 3 SM,contendo 23 elementos, possui todos os seus elementos iguais a 2 SM
(ponto médio da classe)2.
Assim, na primeira classe teremos 23 elementos iguais a 2 SM, na segunda classe
teremos 28 elementos iguais a 4 SM, na terceira classe teremos 22 elementos iguais a 6
SM, e assim por diante. Dizendo de outra forma, assume-se que todos os 23 elementos
da primeira classe se concentram em torno do valor 2 SM, os 28 elementos da segunda
classe se concentram no valor 4 SM, etc.
A frequência da classe é, por assim dizer, o número de repetições do ponto médio.
Lembrando da definição básica de dispersão, a estatística desvio (di) passa a se referir
não mais aos elementos do conjunto, mas aos pontos médios das classes. Assim, o desvio
passa a ser definido como o Desvio da Classe – distância do ponto médio da classe à
média da distribuição de frequência:
di = xi −X (5.9)
Onde di é o Desvio da Classe, xi é o ponto médio da classe eX a média da distribuição
de frequência. Então, os desvios dos elementos pertencentes a cada classe passam a ser
tantos quanto for a frequência de cada classe. Por exemplo, na primeira classe teremos
23 elementos iguais a 2 SM, e 23 desvios iguais a –5 SM (di = xi −X3,di = 2− 7 = −5
SM) na segunda classe teremos 28 elementos iguais a 4 SM, e 28 desvios iguais a –3 SM,
na terceiraclasse teremos 22 elementos iguais a 6 SM, e 22 desvios iguais a –1 SM, e
assim por diante.
Daí, que a fórmula da variância, para distribuições de frequência, é adaptada para
s2 =
∑i=k
i=1 fid
2
i
n
(5.10)
Onde di é o Desvio da Classe, fi é a frequência da classe e n o tamanho do conjunto4.
2Esta mesma premissa é usada no cálculo da média em distribuições de frequência. Como você
deve estar lembrando, após montarmos uma distribuição de frequência para um coleção de dados, estes
dados originais são abandonados e passamos a trabalhar apenas com a “imagem” da amostra, que é a
distribuição de frequências.
3Lembrar que a média desta distribuição de frequências é igual a 7 SM (aprox.) – vide capítulo
anterior.
4Lembrando que n =
∑
fi
A. F. Beraldo 95
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
Comentários
Note que o denominador da expressão de cálculo das variâncias é n, e não
n−1. Torna-se irrelevante, agora, uma vez que estamos trabalhando com conjuntos bem
maiores e tanto faz dividirmos o numerador, que será um número “bem grande”, por n
ou por n− 1.
O processo de cálculo é o seguinte:
1. Calculamos a média aritmética da distribuição de frequência, conforme descrito
no capítulo anterior. Vamos adotar o valor de X = 7, 0
2. Em seguida, montamos mais uma coluna, a dos desvios di:
Tabela 5.11: Cálculo da variância
Classes de Renda f xi di
1 —| 3 23 2 −5
3 —| 5 28 4 −3
5 —| 7 22 6 −1
7 —| 9 15 8 1
9 —| 11 11 10 3
11 —| 13 8 12 5
13 —| 15 5 14 7
15 —| 17 4 16 9
17 —| 19 0 18 11
19 —| 21 2 20 13
21 —| 23 1 22 15
23 —| 25 1 24 17∑
120
96 A. F. Beraldo
5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação
3. A seguir, montamos a coluna dos quadrados dos desvios, d2
i
Tabela 5.12: Cálculo da variância
Classes de Renda f xi di d2
i
1 —| 3 23 2 −5 25
3 —| 5 28 4 −3 9
5 —| 7 22 6 −1 1
7 —| 9 15 8 1 1
9 —| 11 11 10 3 9
11 —| 13 8 12 5 25
13 —| 15 5 14 7 49
15 —| 17 4 16 9 81
17 —| 19 0 18 11 121
19 —| 21 2 20 13 169
21 —| 23 1 22 15 225
23 —| 25 1 24 17 289∑
120
4. Finalmente, multiplicamos os valores desta última coluna pelas frequências das
classes(fd2
i ):
Tabela 5.13: Cálculo da variância
Classes de Renda f xi di d2
i fd2
i
1 —| 3 23 2 −5 25 575
3 —| 5 28 4 −3 9 252
5 —| 7 22 6 −1 1 22
7 —| 9 15 8 1 1 15
9 —| 11 11 10 3 9 99
11 —| 13 8 12 5 25 200
13 —| 15 5 14 7 49 245
15 —| 17 4 16 9 81 324
17 —| 19 0 18 11 121 0
19 —| 21 2 20 13 169 338
21 —| 23 1 22 15 225 225
23 —| 25 1 24 17 289 289∑
120 2584
Note o valor 2.584, da última célula à direita, embaixo, da tabela. Este valor é
igual a ∑ fd2
i . A fórmula da variância, como vimos, é:
s2 =
∑i=k
i=1 fid
2
i
n
A. F. Beraldo 97
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
Já temos, portanto, o numerador da fórmula. Completando o cálculo, vem:
s2 =
∑i=k
i=1 fid
2
i
n
= 2584
120 = 21, 5
O desvio padrão é a raiz quadrada da variância:
s =
√
s2 (5.11)
s =
√
s2 =
√
21, 5 = 4, 6
O coeficiente de variação é dado por
CV = s
X
(5.12)
CV = s
X
= 4, 6
7 = 0, 66 ou 66%
Comentários
1. Você deve ter notado que as fórmulas para o cálculo das Medidas de Dispersão
mudaram muito pouco, de conjuntos pequenos para grandes conjuntos. Os
conceitos são exatamente os mesmos: procuramos caracterizar a dispersão ou
concentração dos elementos amostrais em torno da média. E estas Medidas de
Dispersão vão nos informar sobre vários aspectos da distribuição dos elementos
amostrais.
2. No cálculo da variância, o numerador da fórmula é mesmo “n”, uma vez que não
faz sentido o substituirmos por n − 1, já que estamos trabalhando com grandes
amostras, com n > 30.
3. Nos livros mais antigos, você encontrará uma série de artifícios matemáticos para
o cálculo das Medidas de Tendência Central e de dispersão em distribuições de
98 A. F. Beraldo
5.5 Exemplos Comentados
frequência. São bastante engenhosos e facilitam muito as operações, mas, atual-
mente, com as planilhas de cálculo e pacotes estatísticos em microcomputadores,
estes artifícios tornaram-se obsoletos. Por isso, não trataremos destes processos
nesta apostila.
5.5 Exemplos Comentados
Exemplo 5.1. Vamos utilizar as seguintes distribuições de frequência para ilustrar e
comentar as Medidas de Dispersão:
DF A
Classes f
0 —| 2 6
2 —| 4 12
4 —| 6 22
6 —| 8 35
8 —| 10 50
10 —| 12 35
12 —| 14 22
14 —| 16 12
16 —| 18 6∑
200
DF B
Classes f
0 —| 2 1
2 —| 4 10
4 —| 6 20
6 —| 8 30
8 —| 10 78
10 —| 12 30
12 —| 14 20
14 —| 16 10
16 —| 18 1∑
200
DF C
Classes f
0 —| 2 0
2 —| 4 3
4 —| 6 12
6 —| 8 25
8 —| 10 120
10 —| 12 25
12 —| 14 12
14 —| 16 3
16 —| 18 0∑
200
Todas as DF’s possuem um tamanho n = 200, e média X = 9.
A análise será feita a partir dos histogramas de frequência, a seguir
Figura 5.3: Histograma da distribuição A
A distribuição A possui frequências em todas as classes. O desvio padrão é igual a
3,6, e o CV é igual a 0,40, ou 40%.
A. F. Beraldo 99
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e
Dispersão
Figura 5.4: Histograma da distribuição B
A distribuição B também possui frequências em todas as classes, mas note que houve
um aumento na frequência da classe central, de 50 para 78, e uma consequente diminuição
nas frequências das outras classes. O desvio padrão cai para 2,9 e o CV cai para 0,32
(ou 32%).
Aumentando ainda mais a frequência da classe central, de 78 para 120, ocorre uma
concentração maior de valores nesta classe, e uma diminuição das frequências das classes
mais afastadas, tanto à esquerda quanto à direita da classe central. Isto acarreta uma
diminuição tanto no desvio padrão quanto no CV:
Figura 5.5: Histograma da distribuição C
O desvio padrão da distribuição C cai para 2,0, e o CV cai para 0,22.
Notar que o histograma da distribuição mostra a coluna da classe central com uma
diferença cada vez maior, na altura (frequência da classe). Utilizando o polígono de
frequência e colocando as três distribuições no mesmo gráfico, temos a figura seguinte:
100 A. F. Beraldo
5.5 Exemplos Comentados
Figura 5.6: Polígonos de Frequência das distribuições A, B e C
Observar, na figura acima, que quanto maior a concentração na classe central, menor
o desvio padrão e o CV.
A. F. Beraldo 101
6 Estatística em Grandes Conjuntos:
Medidas de Posição
No decorrer dos últimos capítulos, vimos como obter informações sobre o conjunto,
a partir dos dados das suas medidas. Já sabemos calcular as Medidas de Tendência
Central (média, moda, mediana), já possuímos uma boa ideia de como está a dispersão
(variância, desvio padrão , coeficiente de variação) e aprofundamos nosso conhecimento
sobre grandes conjuntos, utilizando distribuições de frequências e os gráficos associados
(Histograma, Polígonos de frequência simples e de frequência acumulada). Estas
informações são muito úteis quando os dados estão concentrados em torno da média,
com baixos coeficientes de variação e quando a distribuição é unimodal, o que torna as
Medidas de Tendência Central boas caracterizadoras da amostra.
No entanto, algumas distribuições não seguem esta configuração: são distribuições
cujas amplitudes possuem intervalos muito extensos, o que produz médias e as outras
Medidas de Tendência Central não-características, além de fornecer elevados Desvios
Padrões e Coeficientes de Variação. Nosso conhecimento, diante destes tipos de distri-
buições, revela-se insatisfatório. Precisamos de mais informações sobre a amostra, para
poder tomar decisões. É o caso, por exemplo, de termos que lidar com a variável IDADE
de uma população. Pesquisando esta variável de forma generalizada, em uma cidade,
iremos descobrir que as idades variam desde o valor “zero ano” (os recém-nascidos), até
os 90 ou 100 anos (em alguns lugares, até bem mais que isso). Ao tabularmos os valores
desta variável, as idades coletadas irão pertencer às classes de 0 a 10 anos, 10 a 20 anos,
20 a 30 anos, e assim por diante, até uma última classe, digamos, dos 100 aos 110 anos.
Em seguida, calcularíamos a média - por exemplo,22,3 anos de idade. O que quer dizer
este número? Apenas isto: a média de idade é de 22,3 anos. E mais nada. O desvio
padrão e o coeficiente de variação, com certeza, iriam invalidar esta média como medida
característica da população. Mesmo a mediana e a moda seriam inócuas - por ter a
população uma gama de idades que vai do 0 aos 110 anos.
Outro exemplo: a variável RENDA. Em um país como o nosso, em que a distribuição
de renda era, em 2003, a segunda pior do mundo, falar-se de “renda média” ou de “renda
mediana” não acrescenta nada ao conjunto de informações que necessitamos. No Brasil,
temos casos até de “renda negativa”, e uma forte concentração de renda nas classes
econômicas mais abastadas.
A. F. Beraldo 103
6. Estatística em Grandes Conjuntos: Medidas de Posição
Para muitas outras variáveis, ocorre o mesmo problema. Variáveis tais como as
estudadas em Educação Física, Economia, Ciências Sociais, Ciências Humanas, etc.,
carecem que estudemos com maior profundidade o seu comportamento. Em síntese, são
variáveis cuja evolução não é regular e existe pouca concentração de dados em torno
da média. Mais informações sobre estas variáveis podem ser obtidas com o cálculo das
Separatrizes.
Uma Separatriz é uma estatística, ou seja, um número único, que divide uma
distribuição de valores em duas partes. É como se fosse um limite, uma fronteira. Já
conhecemos uma separatriz, a mediana. A mediana é o valor que separa um conjunto de
valores, dispostos em ordem crescente (ou decrescente) de forma que 50% da distribuição
estejam abaixo da mediana, e os outros 50% acima da mediana. Podemos dizer, então,
que a mediana é o valor que divide uma distribuição de valores numéricos em duas
metades.
Existem outras separatrizes importantes para auxiliar a compreender e descrever o
comportamento de uma variável. Neste capítulo, estudaremos as separatrizes, a partir
da Distribuição de Frequência da tabela 1.1 – Notas de um Concurso, a seguir:
Tabela 6.1: Notas de um concurso
Classes de Notas f
0 —| 10 21
10 —| 20 36
20 —| 30 50
30 —| 40 30
40 —| 50 28
50 —| 60 26
60 —| 70 20
70 —| 80 17
80 —| 90 12
90 —| 100 10
Σ 250
A tabela acima mostra dados de uma prova a que foram submetidos 250 inscritos em
um concurso. Teoricamente, as notas vão de “mais de zero” até 100.
104 A. F. Beraldo
Calculando as Medidas de Tendência Central e dispersão, temos:
Tabela 6.2: Estatísticas
Estatística
Média 40,7
Mediana 36,0
Moda 24,1
Desvio padrão 24,9
CV 61%
Note que o desvio padrão de quase 25 pontos e um coeficiente de variação de 61%
invalida a média como caracterizadora do conjunto. A frequência modal, em torno de
20%, também é insuficiente para adotarmos a moda como valor característico. Parece
que ficamos no mesmo lugar, em termos de nível de informação sobre esta variável. O
Histograma de frequência está na figura a seguir:
Figura 6.1: Histograma de Frequências das Notas do Concurso
A. F. Beraldo 105
6. Estatística em Grandes Conjuntos: Medidas de Posição
Continuando a nossa análise, observando o gráfico, verificamos que há uma região de
concentração em torno dos 25 pontos. Mas qual será o número de pontos que delimita
as 25% piores notas? E qual foi a “nota de corte” dos 10% primeiros colocados?
Todas estas informações são importantes para aumentarmos o nível de conheci-
mento sobre este conjunto, e, em alguns conjuntos, informações mais significativas do
que as medidas calculadas anteriormente. Estas estatísticas são as Separatrizes, cujo
conceito é dado a seguir:
Uma Separatriz é um valor que divide um conjunto numérico ordenado de forma
crescente, em duas partes complementares.
As Separatrizes mais utilizadas são os Quartis e os Percentis, que são definidos a
seguir:
Quartis – um Quartil é um valor que divide o conjunto de valores da amostra em
duas partes, sendo:
Quartil Nome Definição
Q1 Primeiro Quartil Divide os valores ordenados em duas partes: 25%
da amostra está abaixo do Q1, 75% acima do Q1.
Q2 Segundo Quartil Divide os valores ordenados em duas partes: 50%
da amostra está abaixo do Q2, 50% acima do Q2.
Q3 Terceiro Quartil Divide os valores ordenados em duas partes: 75%
da amostra está abaixo do Q3, 25% está acima do
Q3.
Veja a figura seguinte:
Figura 6.2: Quartis
106 A. F. Beraldo
Outra separatriz muito utilizada é oPercentil. Percentis também dividem a amostra
em duas partes, segundo a seguinte proporção (percentis mais utilizados):
Percentil Nome Definição
P10 Décimo
Percentil
Divide os valores ordenados em duas partes: 10%
da amostra está abaixo do P10,90% acima do P10.
P90 Nonagésimo
Percentil
Divide os valores ordenados em duas partes: 90%
da amostra está abaixo do P90, 10% acima do P90.
Veja a figura abaixo:
Figura 6.3: Percentis
Por analogia, podemos definir qualquer percentil a partir do conceito:
Pn n-ésimo percentil: Divide a amostra ordenada em duas partes, n% da amostra
abaixo do Pn
Comentários
Você pode entender a palavra “quartil” como “quarta parte”, assim como “percentil”
como “centésima parte”. Assim, o primeiro quartil, Q1, pode ser considerado a “primeira
quarta parte”, o segundo quartil Q2, a “primeira mais a segunda quarta parte” e o Q3
como a “primeira mais a segunda mais a terceira quarta parte”. O décimo percentil P10,
seria as “dez primeiras centésimas partes”, e assim por diante.
A. F. Beraldo 107
6. Estatística em Grandes Conjuntos: Medidas de Posição
As separatrizes têm uma fórmula única:
SEP = LIsep +
(
POS(sep)− Fant
fsep
)
Ampsep (6.1)
Onde:
SEP Valor da separatriz
LIsep Limite inferior da classe que contém a separatriz
POS(sep) Posição da separatriz
Fant Frequência acumulada da classe anterior que contém a separatriz
fsep Frequência simples da classe que contém a separatriz
Ampsep Amplitude da classe que contém a separatriz
Pela fórmula acima, pode-se ver que o valor da separatriz depende da classe a que
pertence, e da sua posição POS(sep). As posições das principais separatrizes são as
seguintes:
Separatriz Posição
Q1 n/4
Q2 n/2
Q3 3n/4
P10 n/10
P90 9n/10
Onde n, tamanho da amostra, n = ∑
f .
108 A. F. Beraldo
6.1 Cálculo de Quartis e Percentis
6.1 Cálculo de Quartis e Percentis
Vamos calcular o Q1, primeiro quartil, das notas do concurso conforme a distribuição
da Tabela 6.3, que reproduzimos a seguir:
Tabela 6.3: Notas de um concurso
Classes de Notas f
0 —| 10 21
10 —| 20 36
20 —| 30 50
30 —| 40 30
40 —| 50 28
50 —| 60 26
60 —| 70 20
70 —| 80 17
80 —| 90 12
90 —| 100 10
Σ 250
O roteiro de cálculo é o seguinte:
1. Calcula-se a posição da separatriz:: a posição do Q1 é n/4, onde n é o tamanho
do conjunto (ou do total de candidatos). O valor de n é 250, donde calculamos a
posição do Q1 como 250/4 = 62, 5
POS(Q1) = 62, 5
Atenção: não arredondar o valor da posição da separatriz – POS(sep).
A. F. Beraldo 109
6. Estatística em Grandes Conjuntos: Medidas de Posição
2. Montamos a coluna das Frequências acumuladas (F):
Tabela 6.4: Notas de um concurso
Classes de Notas f F
0 —| 10 21 21
10 —| 20 36 57
20 —| 30 50 107
30 —| 40 30 137
40 —| 50 28 165
50 —| 60 26 191
60 —| 70 20 211
70 —| 80 17 228
80 —| 90 12 240
90 —| 100 10 250
Σ 250
3. Na coluna das frequências acumuladas (F), localizamos a primeira frequência
acumulada cujo valor seja maior ou igual ao da posição da separatriz:
Tabela 6.5: Notas de um concurso
110 A. F. Beraldo
6.1 Cálculo de Quartis e Percentis
4. Localizada a classe que contém a separatriz, calculamos o seu valor, aplicando na
fórmula:
SEP = LIsep +
(
POS(sep)− Fant
fsep
)
Ampsep
Que, para o primeiro quartil, fica:
Q1 = LIQ1 +
(
POS(Q1)− Fant
fQ1
)
AmpQ1
Em que, aplicando os valores dos termos da expressão, temos:
Q1 = 20 +
(62, 5− 57
50
)
10 = 21, 1
Efetuando os cálculos, obtemos Q1 = 21, 1 anos.
O mesmo procedimento pode ser aplicado para as demais separatrizes. Calculamos
suas posições, sem arredondar os valores:
Separatriz Posição Cálculo da posição Posição da separatriz
Q2 n/2 250/2 = 125, 0 POS(Q2) = 125, 0
Q3 3n/4 3× 250/4 = 187, 5POS(Q3) = 187, 5
P10 n/10 250/10 = 25, 0 POS(P10) = 25, 0
P90 9n/10 9× 250/10 = 225 POS(P90) = 225, 0
As classes que contém as separatrizes são:
Tabela 6.6: Notas de um concurso
A. F. Beraldo 111
6. Estatística em Grandes Conjuntos: Medidas de Posição
Em seguida, calculamos os valores estimados das separatrizes. Inicialmente, os
quartis Q2 e Q3:
Q2 = 30 +
(125− 107
30
)
10 = 36, 0
Q3 = 50 +
(187, 5− 165
26
)
10 = 58, 6
Em seguida, os percentis P10 e P90:
P10 = 10 +
(25− 21
36
)
10 = 11, 1
P90 = 70 +
(225− 211
17
)
10 = 78, 2
Os valores das separatrizes, portanto, são os seguintes:
Separatriz Valor
Q1 21,1
Q2 36,0
Q3 58,7
P10 11,1
P90 78,2
Assim, 10% dos candidatos conseguiram até 11,1 pontos no exame; 25% dos candida-
tos fizeram até 21,1 pontos; a metade dos candidatos conseguiu fazer até 36 pontos; 75%
dos candidatos fizeram até 58,6 pontos, e 90% dos candidatos fizeram até 78,2 pontos.
Veja a ilustração a seguir:
112 A. F. Beraldo
6.1 Cálculo de Quartis e Percentis
Figura 6.4: Quartis e Percentis do conjunto
A. F. Beraldo 113
6. Estatística em Grandes Conjuntos: Medidas de Posição
6.2 Determinação Gráfica das Separatrizes
Utilizando o polígono de frequências acumuladas temos outra maneira de localizar a
posição e o valor de separatrizes. Veja a seguir:
No polígono de frequência acumulada a seguir, temos dois eixos verticais. O primeiro,
à esquerda, contém as frequências acumuladas. O segundo eixo, à direita, é a divisão
percentual da população acumulada – o que pode ser entendido como percentis (divisão
por 100). Para se determinar o Q2, por exemplo, procura-se, no eixo da direita, o valor
de 50%, que é a posição do Q2:
Figura 6.5: Determinação gráfica do Q2
A partir da marca “50%” no eixo das Fr, traçamos uma reta A que encontra a curva
(a ogiva do polígono de frequências acumuladas) em P.
114 A. F. Beraldo
6.2 Determinação Gráfica das Separatrizes
Figura 6.6: Determinação gráfica do Q2, ou “mediana”
Podemos ver que o valor determinado graficamente está bem próximo ao valor
calculado do Q2 (36,0). De forma análoga, determinamos os valores do Q1 e do Q3,
a partir das posições 25% e 75%. Veja a seguir:
A. F. Beraldo 115
6. Estatística em Grandes Conjuntos: Medidas de Posição
Figura 6.7: Determinação dos quartis (Q1 e Q3)
116 A. F. Beraldo
6.2 Determinação Gráfica das Separatrizes
Os passos foram os seguintes:
• A partir do eixo vertical à direita (Fr) e das posições percentuais das separatrizes
(25% e 75%, respectivamente), traçamos linhas paralelas ao eixo horizontal do
gráfico;
• Estas linhas encontram a ogiva nos pontos A e B;
• A partir dos pontos A e B, traçamos outras retas verticais, até o eixo das classes
(eixo horizontal). Onde estas retas encontrarem este eixo está os valores do Q1 e
Q3.
A seguir, a determinação gráfica das separatrizes para os dados deste exemplo:
Figura 6.8: Separatrizes determinadas graficamente
No exemplo acima, localizamos a posição e o valor de diversas separatrizes, utilizando
o método descrito anteriormente. É claro que a precisão da determinação do valor da
A. F. Beraldo 117
6. Estatística em Grandes Conjuntos: Medidas de Posição
separatriz depende muito da acuidade do desenho e do traçado das linhas. Embora não
se consiga uma precisão absoluta, esta determinação gráfica fornece uma boa ideia dos
valores.
6.3 Determinação Gráfica de intervalos
Na Ogiva de Galton encontramos outro recurso muito utilizado: a determinação
gráfica de intervalos. Por exemplo, neste conjunto que estamos estudando, qual será a
quantidade de candidatos que obteve notas abaixo de 45? E o número de candidatos
com notas acima de 85? Veja a seguir como determinar estes valores:
Para determinar o número de candidatos com notas abaixo de 45: no eixo horizontal
do gráfico, a partir do valor 45, trace uma reta vertical até encontrar a curva:
Figura 6.9: Determinação Gráfica de intervalos
118 A. F. Beraldo
6.3 Determinação Gráfica de intervalos
Em seguida, pelo ponto P, trace uma reta paralela ao eixo horizontal:
Figura 6.10: Determinação Gráfica de intervalos
Os valores encontrados são, aproximadamente, 148 candidatos, equivalentes a apro-
ximadamente 59% do total.
A. F. Beraldo 119
6. Estatística em Grandes Conjuntos: Medidas de Posição
E quantos candidatos tiraram notas acima de 85? Primeiro, utilizando o mesmo
método, encontre o número de candidatos com notas abaixo de 85:
Figura 6.11: Determinação Gráfica de intervalos
São, aproximadamente, 235 candidatos, cerca de 94% do total. Então, o número de
candidatos com notas acima de 85 é igual a 250-235, ou seja, 15 candidatos.
120 A. F. Beraldo
7 Estatística em Grandes Conjuntos:
Medidas de Assimetria e Curtose
7.1 Simetria e Assimetria
As Distribuições de Frequências podem ser analisadas também em relação à sua
simetria, que pode ser entendida como a comparação da densidade de frequência entre
as duas partes, quando dividimos a distribuição pela média. Seja, por exemplo, a
distribuição a seguir:
Tabela 7.1: Distribuição de Frequências
Classes f
00 —| 10 12
10 —| 20 18
20 —| 30 25
30 —| 40 15
40 —| 50 8
50 —| 60 5
60 —| 70 3
70 —| 80 2
Σ 88
A. F. Beraldo 121
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
O Histograma de frequência correspondente é o seguinte:
Figura 7.1: Histograma
A média da distribuição é X = 28. Se dividirmos a distribuição em duas partes, a
primeira abaixo da média e a segunda acima da média, podemos considerar a distribuição
desta forma:
Tabela 7.2: Notas de um concurso
Temos, portanto, uma densidade de frequência maior na parte anterior à média.
Ditos de outra forma existem mais elementos, na amostra, com valores inferiores
à média. Veja a figura a seguir:
122 A. F. Beraldo
7.1 Simetria e Assimetria
Figura 7.2: Histograma
Nesta situação diz-se que a distribuição é assimétrica positiva (mais elementos
amostrais inferiores à média). Numa situação oposta, com mais elementos amostrais
superiores à média, diremos que a distribuição é assimétrica negativa. Podemos ter
uma situação de equilíbrio, com o mesmo número de elementos amostrais acima e abaixo
da média: é um caso de simetria.
A. F. Beraldo 123
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Comentários
Figura 7.3: Histograma de distribuição simétrica
Você pode fazer uma analogia entre a assimetria de uma distribuição e o equilíbrio
ou desequilíbrio das densidades de freqüência representadas pelas barras do histograma
da distribuição. Na figura 7.3, acima, temos uma distribuição simétrica, que equilibra-
se perfeitamente sobre um balanço, sem pender para nenhum dos lados. As massas se
distribuem igualmente nos lados direito e esquerdo do histograma, simétricas em relação
à média.
Figura 7.4: Histograma de distribuição assimétrica positiva
Na figura 7.4, temos uma distribuição assimétrica positiva. O histograma “pesa”
mais do lado esquerdo do balanço, e causa um desequilíbrio, representado pela seta.
124 A. F. Beraldo
7.1 Simetria e Assimetria
Figura 7.5: Histograma de distribuição assimétrica negativa
Ocorre o contrário, na 7.5. As massas estão mais “pesadas” na direita do histograma,
e o desequilíbrio é indicado pela seta. Temos então uma distribuição assimétrica
negativa.
Na prática, para sabermos a assimetria da distribuição, verificamos o sinal da seguinte
diferença:
Sinal(Assimetria) = X − X̃ (7.1)
As situações que podemos encontrar são as seguintes:
X − X̃ > 0 Média maior que a mediana Assimetria positiva
X − X̃ = 0 Média igual à mediana Simetria
X − X̃mediana)
126 A. F. Beraldo
7.1 Simetria e Assimetria
No caso de simetria, há uma coincidência entre média, moda e mediana. Para
distribuições unimodais, fortemente assimétricas, temos as seguintes relações entre as
Medidas de Tendência Central:
Figura 7.9: Distribuição assimétrica positiva: X̂ X̃ > X
A. F. Beraldo 127
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
7.2 Medidas de Assimetria
A assimetria de uma distribuição pode ser medida, através de uma estatística cha-
mada coeficiente de assimetria, CA. Existem várias fórmulas para o seu cálculo. Na
que adotaremos nesta apostila, o CA é chamado segundo coeficiente de assimetria
de Pearson, e a fórmula é a seguinte:
CA =
3
(
X − X̃
)
s
(7.2)
O resultado é adimensional e assume o valor zero quando a distribuição é simétrica
(X̃ = X).Esta fórmula permite comparar duas distribuições, verificando qual é mais
assimétrica. O CA apresenta, mais comumente, valores entre ±1. Valores máximos são:
−3 ≤ CA ≤ 3
Outra fórmula para calcular a assimetria de uma distribuição é dada por:
α3 = m3
s3 =
∑n
1
(
xi −X
)3(
n− 1
)
s3
(7.3)
Onde α3 (alfa-três) é o coeficiente de assimetria, m3 é o Momento Centrado na média
de terceira ordem e s3 é o cubo do desvio padrão. Não se preocupe, por enquanto, com o
que seja este “momento de 3a ordem” - momentos são explicados na apostila Estatística
VI - Tópicos Especiais em Estatística.
128 A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.1.
Classes f
0 —| 2 3
2 —| 4 7
4 —| 6 12
6 —| 8 17
8 —| 10 27
10 —| 12 24
12 —| 14 20
110
Figura 7.11: Histograma
Média = X =
∑
fxi
n
= 970
110 = 8, 82 ∼= 8, 8
Mediana = ?
Pos
(
X̃
)
= n
2 = 110
2 = 55
Classe da mediana => 8 |– 10
A. F. Beraldo 129
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
X̃ = LI
X̃
+
Pos
(
X̃
)
− Fant
f
Amp
X̃
= 8 +
(55− 39
27
)
× 2
= 8 +
(16
27
)
(2) = 8 + 1, 185 = 9, 185 ∼= 9, 2
Cálculo do desvio padrão
Classes f x d d2 fd2
0 —| 2 3 1 −7, 8 61,1 183,4
2 —| 4 7 3 −5, 8 33,9 237,0
4 —| 6 12 5 −3, 8 14,6 174,9
6 —| 8 17 7 −1, 8 3,3 56,2
8 —| 10 27 9 0,2 0,0 0,9
10 —| 12 24 11 2,2 4,8 114,2
12 —| 14 20 13 4,2 17,5 349,8
110 1116,4
s2 = 10, 1
s = 3, 2
CV = 36, 1%
Cálculo do Coeficiente de Assimetria
CA =
3
(
X − X̃
)
S
=
3
(
8, 8− 9, 2
)
3, 2 =
3
(
− 0, 4
)
3, 2 = −0, 375
130 A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.2.
Classes f
0 —| 2 3
2 —| 4 5
4 —| 6 9
6 —| 8 17
8 —| 10 20
10 —| 12 24
12 —| 14 32
110
Figura 7.12: Histograma
Média = X =
∑
fxi
n
= 1042
110 = 9, 473 ∼= 9, 5
Mediana = ?
Pos
(
X̃
)
= n
2 = 110
2 = 55
Classe da mediana => 10 |– 12
A. F. Beraldo 131
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
X̃ = LI
X̃
+
Pos
(
X̃
)
− Fant
f
Amp
X̃
= 10 +
(55− 54
24
)
× 2
= 10 +
( 1
24
)
(2) = 10 + 0, 083 = 10, 083 ∼= 10, 1
Cálculo do desvio padrão
Classes f x d d2 fd2
0 —| 2 3 1 −8, 5 71,8 215,4
2 —| 4 5 3 −6, 5 41,9 209,5
4 —| 6 9 5 −4, 5 20,0 180,0
6 —| 8 17 7 −2, 5 6,1 103,9
8 —| 10 20 9 −0, 5 0,2 4,5
10 —| 12 24 11 1,5 2,3 56,0
12 —| 14 32 13 3,5 12,4 398,1
110 1167,4
s2 = 10, 6
s = 3, 3
CV = 34, 4%
Cálculo do Coeficiente de Assimetria
CA =
3
(
X − X̃
)
S
=
3
(
9, 5− 10, 1
)
3, 3 =
3
(
− 0, 6
)
3, 3 = −0, 545
Concluímos, portanto, que sendo as duas distribuições assimétricas negativas, a DF
8.2 é mais assimétrica do que a DF 8.1.
132 A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.3.
Classes F
0 —| 2 6
2 —| 4 16
4 —| 6 20
6 —| 8 26
8 —| 10 20
10 —| 12 16
12 —| 14 6
110
Figura 7.13: Histograma
Pelo próprio formato do histograma, podemos perceber a simetria do conjunto. De
fato, calculando as medidas média e mediana, temos:
Média = X =
∑
fxi
n
= 770
110 = 7, 0
Mediana = ?
Pos
(
X̃
)
= n
2 = 110
2 = 55
Classe da mediana => 6 |– 8
A. F. Beraldo 133
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
X̃ = LI
X̃
+
Pos
(
X̃
)
− Fant
f
Amp
X̃
= 6 +
(55− 42
26
)
× 2
= 6 +
(13
26
)
(2) = 6 + 1, 0 = 7, 0
CA =
3
(
X − X̃
)
S
=
3
(
7, 0− 7, 0
)
s
=
3
(
0
)
s
= 0, 0
O que confirma nossa percepção.
Exemplo 7.4.
Classes f
0 —| 2 25
2 —| 4 20
4 —| 6 18
6 —| 8 16
8 —| 10 15
10 —| 12 10
12 —| 14 6
110
Figura 7.14: Histograma
134 A. F. Beraldo
7.3 Curtose
Média =X =
∑
fxi
n
= 610
110 = 5, 545 ∼= 5, 5
Mediana = ?
Pos
(
X̃
)
= n
2 = 110
2 = 55
Classe da mediana => 4 |– 6
X̃ = LI
X̃
+
Pos
(
X̃
)
− Fant
f
Amp
X̃
= 4 +
(55− 45
18
)
× 2
= 4 +
(10
18
)
(2) = 4 + 1, 1111 = 5, 1111 ∼= 5, 1
Cálculo das Medidas de Dispersão:
Classes f x d d2 fd2
0 —| 2 25 1 −4, 5 20,7 516,5
2 —| 4 20 3 −2, 5 6,5 129,6
4 —| 6 18 5 −0, 5 0,3 5,4
6 —| 8 16 7 1, 5 2,1 33,9
8 —| 10 15 9 3, 5 11,9 179,0
10 —| 12 10 11 5,5 29,8 297,5
12 —| 14 6 13 7,5 55,6 333,4
110 1495,3
s2 = 13, 6
s = 3, 7
CV = 66, 5%
Cálculo do coeficiente de assimetria
CA =
3
(
X − X̃
)
S
=
3
(
5, 5− 5, 1
)
3, 7 =
3
(
0, 4
)
3, 7 = 0, 32
7.3 Curtose
Curtose é o mesmo que “achatamento” de uma distribuição, representada pelo seu
polígono de Frequência. As distribuições, quanto à Curtose, podem ser leptocúrticas,
mesocúrticas ou platicúrticas, como se vê na figura a seguir:
A. F. Beraldo 135
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Figura 7.15: Curtose
Como se pode ver na figura acima, dos polígonos de Frequência que representam
três distribuições, a mais achatada é a platicúrtica (do grego platys, largo, achatado). A
menos achatada, ou mais pontiaguda é a leptocúrtica (do grego leptos, fino, delgado).
Entre as duas, a distribuição mesocúrtica.
A Curtose de uma distribuição também pode ser medida, através da estatística
Coeficiente de Curtose, CC. Uma de suas fórmulas é a empírica
CC = Q3 −Q1
2
(
P90 − P10
) (7.4)
Onde Q3 e Q1 são quartis e P90 e P10 são percentis. O CC também é adimensional,
sendo que o valor de CC = 0,263 identifica uma distribuição mesocúrtica. Valores
de CC menores que 0,263 identificam distribuições leptocúrticas; valores de CC
maiores que 0,263 identificam distribuições platicúrticas.
Uma fórmula mais sofisticada para o cálculo do Coeficiente de Curtose de uma
distribuição é dada por:
α4 = m4
s4 =
∑n
1
(
xi −X
)4(
n− 1
)
s4
(7.5)
136 A. F. Beraldo
7.3 Curtose
Onde α4 (alfa-quatro) é o Coeficiente de Curtose, m4 é o Momento de Quarta Ordem
e s4 é o desvio padrão, elevado à quarta potência. Como já foi dito, os momentos serão
explicados na apostila Estatística VI. Veja os exemplos a seguir:
Exemplo 7.5.
Sejam as três distribuições de Frequência a seguir, calculadas sobre os conjuntos A, B e
C:
Classes fA fB fC
0 —| 2 12 5 1
2 —| 4 20 18 3
4 —| 6 25 28 12
6 —| 8 31 43 113
8 —| 10 25 28 12
10 —| 12 20 18 3
12 —| 14 12 5 1
Σ 145 145 145
A. F. Beraldo 137
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Os polígonos de Frequência das distribuições são os seguintes:
Figura 7.16: Polígonos de frequência
As posições das separatrizes são:
Separatriz Posição Posição
P10 Pos(P10) = n
10 14,5
Q1 Pos(Q1) = n
4 36,25
Q3 Pos(Q3) = 3n
4 108,75
P90 Pos(P90) = 9n
10 130,5
Montando as colunas das Frequências acumuladas:
Classes fA FA fB FB fC FC
0 —| 2 12 12 5 5 1 1
2 —| 4 20 32 18 23 3 4
4 —| 6 25 57 28 51 12 16
6 —| 8 31 88 43 94 113 129
8 —| 10 25 113 28 122 12 141
10 —| 12 20 133 18 140 3 144
12 —| 14 12 145 5 145 1 145
Σ 145 145 145
138 A. F. Beraldo
7.3 Curtose
Cálculo das Separatrizes:
Conjunto A
P10 = 2 +
(14, 5− 12
20
)
× 2 = 2, 25
Q1 = 4 +
(36, 25− 32
25
)
× 2 = 4, 34
Q3 = 8 +
(108, 75− 88
25
)
× 2 = 9, 66
P90 = 10 +
(130, 5− 113
20
)
× 2 = 11, 75
Conjunto B
P10 = 2 +
(14, 5− 5
18
)
× 2 = 3, 1
Q1 = 4 +
(36, 25− 23
28
)
× 2 = 4, 95
Q3 = 8 +
(108, 75− 94
28
)
× 2 = 9, 05
P90 = 10 +
(130, 5− 122
18
)
× 2 = 10, 9
Conjunto C
P10 = 4 +
(14, 5− 4
12
)
× 2 = 5, 75
Q1 = 6 +
(36, 25− 16
113
)
× 2 = 6, 4
Q3 = 6 +
(108, 75− 16
113
)
× 2 = 7, 6
A. F. Beraldo(população e extensão territorial)4, das coletas de dados feitas pelos árabes
no século VIII. Ainda na Idade Média, Carlos Magno, rei dos francos e Imperador
do Ocidente, organizou o Estado a partir da contagem de seus súditos e de suas
propriedades. Guilherme, o Conquistador, ordenou a elaboração do Domesday Book,
um curioso catálogo dos bens do reino5 (Inglaterra, 1085-6) e de sua produção, para
fins de coleta de impostos. Como se pode ver, a Estatística sempre foi associada ao
Estado (daí seu nome). Ainda na Inglaterra, mas no séc. XVII temos o trabalho de
um dos primeiros “demógrafos”, John Graunt, (1620-1674) que pesquisou o crescimento
da população de Londres, a proporção entre os sexos das crianças e dos adultos, e a
causa da morte de milhares de pessoas nas várias tabelas do livro Natural and Political
Observations Made upon the Bills of Mortality (1662), que surpreende pela atualidade
e pela metodologia6.
Censos demográficos são realizados a cada 10 anos desde 1790 nos EUA, desde 1791
na França, e desde 1801 na Grã Bretanha. No Brasil em 1872, foi realizado o primeiro
recenseamento nacional no país, o qual recebeu o nome de Recenseamento da População
do Império do Brasil. Depois deste e até 1940, novas operações censitárias sucederam-se
em 1890, 1900 e 1920. Em 1910 e em 1930, não foram realizados os recenseamentos7
4Os habitantes do Império Romano tinham que responder ao census na sua cidade de origem, e a
punição para quem fugisse ou não respondesse era a pena de morte. Segundo a Bíblia, os pais de Jesus,
Maria e José, tiveram que empreender uma viagem de Nazaré, na Galiléia, até Belém, na Judéia, para
responder ao Censo ordenado por César.
5Está na Internet, transposto para o inglês de hoje: http://www.domesdaybook.co.uk/index.
html. Se você lê bem em inglês, divirta-se.
6Veja o site http://www.edstephan.org/Graunt/graunt.html.
7Veja: http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html
2 A. F. Beraldo
http://www.domesdaybook.co.uk/index.html
http://www.domesdaybook.co.uk/index.html
http://www.edstephan.org/Graunt/graunt.html
http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html
A seguir, um histograma de frequência mostra a composição percentual da
população brasileira segundo o Censo de 2010:
Figura 1.1: População Brasileira Urbana (2010) distribuição percentual por faixas etárias
Fonte: Pirâmide Etária, disponível em
http://www.ibge.gov.br/censo2010/piramide_etaria/index.php
Segundo o IBGE, o Censo Demográfico de 2010 contou uma população de 190.732.694
pessoas (Nov/2010). Cada 1% no gráfico acima corresponde a cerca de 1,9 milhões de
habitantes. Em 10 anos, a população aumentou em quase 21 milhões de habitantes,
ou seja, grosso modo, cresceu, em média, 4 habitantes por minuto (diferença entre
nascimentos e mortes). No entanto, a taxa de crescimento está declinando: segundo o
Banco Mundial, deve passar dos atuais 0,9 para 0,24 em meados deste século.
No país, como um todo, as proporções eram, em 2010, de 48,3% do sexo masculino
e de 51,7% do sexo feminino, ou seja, havia 1,07 brasileira para cada brasileiro. A
proporção masculino/feminino é maior na Região Norte (0,97) e menor na Região
Nordeste (0,91).
A. F. Beraldo 3
http://www.ibge.gov.br/censo2010/piramide_etaria/index.php
1. Introdução à Estatística
Medir
Alguns fenômenos não são “contáveis” são mensuráveis. As técnicas de medir, cuja
história se confunde com a história da Ciência, foram amplamente desenvolvidas pela
Estatística. A Estatística tem a sua maneira própria de medir, e suas próprias medidas,
chamadas estatísticas: média, moda, variância, desvio padrão, números-índices ...
A Estatística mede, por exemplo, a dispersão (ou concentração) de elementos de um
conjunto em torno de um elemento central; a probabilidade da ocorrência de defeitos
em um produto industrial; a relação entre o nível de renda de uma população e seu
consumo de alimentos; a evolução das taxas de mortalidade de indivíduos acometidos de
doenças; a posição de um elétron em torno do núcleo do átomo; a classificação provável de
determinado candidato num concurso vestibular (entre milhares de candidatos); o efeito
da propaganda nas vendas de um determinado produto; a audiência de um programa de
televisão; a intenção de votos em um candidato a prefeito...
Um bom exemplo do que seja calcular uma medida estatística sobre uma grande
massa de dados é o cálculo do valor do PIB – Produto Interno Bruto, soma das riquezas
produzidas pela indústria, agropecuária e serviços, durante um determinado período. É
um dos principais indicadores econômicos de um país, e sua evolução, ano a ano, revela
o comportamento de sua economia. O cálculo do PIB, no entanto, não é tão simples.
Imagine que o IBGE queira calcular a riqueza gerada por um artesão. Ele cobra, por
uma escultura, de madeira, R$ 30. No entanto, não é esta a contribuição dele para o
PIB. Para fazer a escultura, ele usou madeira e tinta. Não é o artesão, no entanto, que
produz esses produtos – ele teve que adquiri-los da indústria. O preço de R$ 30 traz
embutido os custos para adquirir as matérias-primas para seu trabalho. Assim, se a
madeira e a tinta custaram R$ 20, a contribuição do artesão para o PIB foi de R$ 10,
não de R$ 30. Os R$ 10 foram a riqueza gerada por ele ao transformar um pedaço de
madeira e um pouco de tinta em uma escultura. O IBGE precisa fazer esses cálculos
para toda a cadeia produtiva brasileira. Ou seja, ele precisa excluir da produção total de
cada setor as matérias-primas que ele adquiriu de outros setores. Depois de fazer esses
cálculos, o instituto soma a riqueza gerada por cada setor, chegando à contribuição de
cada um para a geração de riqueza e, portanto, para o crescimento econômico8.
8Adaptado de Folha On Line http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544.
shtml
4 A. F. Beraldo
http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544.shtml
http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544.shtml
Figura 1.2: Evolução percentual do Produto Interno Bruto – Brasil
Fonte: Indicadores Econômicos do Banco Central do Brasil
O PIB (Produto Interno Bruto) do Brasil, em 2010, foi de 3,675 trilhões de reais,
um crescimento de cerca de 7,5%.. O PIB per capita, foi de cerca de R$ 19 mil, um
crescimento de 6,5% sobre 20099.
9http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\
-com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp
A. F. Beraldo 5
http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\-com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp
http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\-com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp
1. Introdução à Estatística
Classificar
Classificar é quase uma decorrência natural dos processos de contar e de medir.
Medidas estatísticas conduzem à colocação dos fenômenos (e de suas variáveis10) em
classes. Classificar pode ser entendido como categorizar (colocar em categorias - A,
B, C, D ...) ou ordenar (colocar em postos: 1o lugar, 2o lugar 3o lugar, etc.). A
Estatística possui também suas medidas especiais de classificação, como as separatrizes
e os escores padronizados, entre outras. Estes processos vêm desde o século XVII, com
os estudos de Estatística Demográfica, de John Graunt, até a Análise Exploratória de
Tukey, com suas técnicas modernas de análise de dados numéricos.
Na figura a seguir, um exemplo de aplicação da Estatística Descritiva:
Figura 1.3: Distribuição percentual das classes econômicas, segundo a metodologia da
ABEP
Fonte: Associação Brasileira de Empresas de Pesquisa, Brasil, 2009.
10Variáveis são os valores produzidos na ocorrência de um fenômeno. Este é um assunto importante,
que será abordado muitas vezes durante este curso.
6 A. F. Beraldo
Segundo os critérios da ABEP, as classes econômicas, em termos de poder aquisitivo,
têm a seguinte renda média:
Tabela 1.1: Classes Econômicas - Brasil - 2008
Classe Média em R$
Econômica do poder aquisitivo
A1 14.366139
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
P90 = 8 +
(130, 5− 129
12
)
× 2 = 8, 25
Coeficientes de Curtose
Conjunto A
CC = Q3 −Q1
2(P90 − P10) = 9, 66− 4, 34
2(11, 75− 2, 25) = 0, 28 Platicúrtica
Conjunto B
CC = Q3 −Q1
2(P90 − P10) = 9, 05− 4, 95
2(10, 9− 3, 1) = 0, 263 Mesocúrtica
Conjunto C
CC = Q3 −Q1
2(P90 − P10) = 7, 6− 6, 4
2(8, 25− 5, 75) = 0, 24 Leptocúrtica
140 A. F. Beraldo
8 Introdução à Análise Exploratória de
Dados
8.1 Fundamentos da Análise Exploratória
A Análise Exploratória de Dados é um conjunto de técnicas estatísticas de descrição
de conjuntos e teste de hipóteses1,elaborada, entre outros, por John Tukey, em 1977 -
daí a associação que se faz com seu nome e esta parte da Estatística. A Estatística
Descritiva, ao lidar com os elementos amostrais, procura separar a amostra em faixas,
ou classes, e contar os valores que se encontram em cada classe, montando as tabelas
de Distribuição de Frequências como foi estudado nos Capítulos 4 a 7. A partir da
elaboração desta tabela, os dados amostrais originais são “abandonados”, e passamos a
estudar a amostra a partir de sua “imagem organizada”, a Distribuição de Frequências.
Esta técnica, apesar de bastante cômoda e eficiente, de alguma forma deixa escapar
informações importantes que, numa análise mais aprofundada, deveriam auxiliar em
nossas conclusões. A proposta de Tukey, de larga utilização na atualidade, supre estas
deficiências. A Análise Exploratória de Dados, na parte da descrição de conjuntos, tem
as seguintes características:
1. Os dados amostrais coletados não são abandonados, mas sim dispostos em uma
nova forma de organização, chamada Diagrama Ramo-Folha. Este diagrama
oferece muitas vantagens, como:
a Cálculo preciso das modas, medianas e Medidas de Posição reais, sem necessitar
de fórmulas empíricas;
b Visualização imediata do histograma de Frequências da distribuição, apreen-
dendo mais rapidamente as situações de Assimetria e Curtose;
c Maior clareza na redistribuição de dados nos intervalos de classes.
2. Há uma ênfase na apresentação visual das informações, com a utilização do Box-
Plot2.
1Veja a apostila Estatística III
2Utilizamos aqui a palavra na língua inglesa, uma vez que sua tradução para “Gráfico-Caixa”,
infelizmente, não conseguiu entrar para o jargão técnico da Estatística em nosso país.
A. F. Beraldo 141
8. Introdução à Análise Exploratória de Dados
3. O enfoque é sobre a mediana e as Medidas de Posição (quartis e percentis), em
detrimento da média, como Medidas de Tendência Central.
4. Como Medidas de Dispersão, utilizamos mais a distância entre quartis, e outras,
que serão definidas neste capítulo, ao invés da variância e do desvio padrão.
É claro que não deve deixar de lado as técnicas tradicionais da Estatística Descritiva,
que continuam valiosas e indispensáveis para o entendimento do conjunto, principal-
mente se este for de tamanho muito grande, com centenas e centenas de elementos.
Consideramos a Análise Exploratória um formidável avanço na Estatística, e você deve
estar preparado para se valer de todas as técnicas que puder dominar. Estudamos esta
nova técnica através do exemplo seguinte:
Para estudar a distribuição de idades dos moradores de um bairro, foi feita uma
amostragem aleatória de 100 pessoas, e os resultados estão neste rol:
Figura 8.1: Rol
142 A. F. Beraldo
8.1 Fundamentos da Análise Exploratória
Se fôssemos tratar esta coleção de dados com técnicas da Estatística Descritiva,
iríamos dividir a amostra em classes, estabelecer os critérios de inclusão, computar as
ocorrências e montar a tabela da distribuição de Frequências. Não é o que se faz na
Análise Exploratória. Aqui, o processo é o seguinte:
1. Verifica-se o tipo de números da distribuição: se são valores discretos ou contínuos,
se são expressos em dezenas, centenas ou milhares, se há decimais, etc. No nosso
exemplo, são variáveis quantitativas não-contínuas, ou discretas (idade das
pessoas), podendo ser tratadas como dezenas: dezena 01, dezena 34, dezena 86,
etc.; .
2. Identificamos o menor e o maior valor da distribuição. No exemplo, a menor idade
encontrada foi 1, a maior foi 94.
3. A partir dessas considerações, montamos a seguinte “tabela”:
Figura 8.2: Diagrama Ramo-Folha
Estes valores 0, 10, 20, etc. significam o seguinte: na linha “0”, colocaremos as
idades que vão de 0 a 9 anos; na linha “10”, colocaremos as idades de 10 a 19, e
assim por diante. Este é a construção de um Diagrama Ramo-Folha, e estes
valores 0, 10, 20, etc., são os Ramos.
A. F. Beraldo 143
8. Introdução à Análise Exploratória de Dados
4. Nas linhas dos ramos, colocaremos as idades constantes da amostra - não a
Frequência, mas o próprio valor do conjunto, da seguinte forma: ao encontrarmos
na amostra a idade 45, iremos escrever o valor 5 no ramo 40, uma vez que 45
é igual a 40+5. Se encontramos a idade 18, escrevemos no ramo 10 o valor 8
(18 = 10 + 8), e assim por diante. Estes valores são chamados de folhas, estando
ligados aos “ramos”. O diagrama Ramo-Folha fica desta maneira:
Figura 8.3: Diagrama Ramo-Folha
Os dados dispostos no Diagrama Ramo-Folha são dados reais, os mesmos exis-
tentes na amostra. Não há a necessidade de cálculo do ponto médio, nem de supor
uma linearidade dos dados dentro das classes. Outra vantagem do diagrama é,
como dissemos, a visualização imediata do histograma, cujas colunas são formadas
pelas “folhas”. Veja a figura a seguir:
Figura 8.4: Diagrama Ramo-Folha
Na Análise Exploratória de Dados não há preocupação com médias ou com as
Medidas de Dispersão em torno da média, como a variância e o desvio padrão. As
medidas mais importantes são as medidas de posição - os quartis, que serão
calculadas a seguir.
144 A. F. Beraldo
8.2 Determinação dos Quartis:
8.2 Determinação dos Quartis:
Os quartis não são calculados, isto é, não há uma fórmula empírica para seu cálculo,
como foi feito no Capítulo 7. Os quartis são localizados no diagrama ramo-folha, a
partir da suas posições, que são dadas pelas expressões:
Quartil Posição
Primeiro Quartil POS(Q1) = n+1
4
Segundo Quartil POS(Q2) = n+1
2
Terceiro Quartil POS(Q3) =
3
(
n+1
)
4
Nas fórmulas acima, n é o tamnho do conjunto. No exemplo que estamos estudando,
as posições serão:
Primeiro Quartil:
POS(Q1) =
(
n+ 1
)
4 = 101
4 = 25, 25
Segundo Quartil:
POS(Q2) = n+ 1
2 = 101
2 = 50, 5
Terceiro Quartil:
POS(Q3) =
3
(
n+ 1
)
4 = 303
4 = 75, 75
As posições são fracionárias. Isto indica que tanto o Q1 quanto o Q2 e o Q3 serão
as médias dos valores amostrais ocupando os postos anterior e posterior aos postos
calculados3. Veja a figura a seguir:
3Notar a preocupação no cálculo de valores reais. Define-se exatamente a posição do primeiro
quartil como a metade da distância entre a posição do primeiro elemento amostral (1o) e a posição da
mediana que, por definição, ocupa a posição central do conjunto ordenado. Da mesma forma, a posição
do terceiro quartil é a metade da distância entre a posição da mediana e a posição do último elemento
amostral.
A. F. Beraldo 145
8. Introdução à Análise Exploratória de Dados
Figura 8.5: Quartis
Calculando a média dos valores, temos:
Q1 = 17 + 17
2 = 17, 0
Q2 = 31 + 32
2 = 31, 5
Q3 = 50 + 50
2 = 50, 0
Portanto, os valores das separatrizes são:
Q1 = 17, 0
Q2 = X̃ = 31, 5
Q3 = 50, 0
Estes valores serão necessários para a construção do Box-Plot, um gráfico específico
para este tipo de análise.
146 A. F. Beraldo
8.2 Determinação dos Quartis:
Comentários
1. Você pode entender melhor o cálculo das Separatrizes se visualizar a distribuição
desta forma: Imagine que os valores deste exemplo estejam colocados em ordem
crescente:
Figura 8.6: Postos
A mediana, tal como foi calculada, ocupa o 50,5o lugar, e tem o valor de 31,5. Tanto
esta posição quanto este valor da mediana “não existem”, isto é são arbitrados em
função da definição da mediana - valor que ocupa a posição central de um conjunto
ordenado. A mediana, portanto, divide o conjunto em dois subconjuntos,cada um
com 50 elementos:
Figura 8.7: Postos
Se você imaginar que o Q1 seja uma espécie de “mediana” do subconjunto de
valores abaixo da mediana, e que o Q3 seja a “mediana” do subconjunto de valores
acima da mediana, as posições do Q1 e do Q3 são facilmente deduzidas:
Para o Q1, temos: POS(Q1) =
(
n+1
)
2 = 50+1
2 = 25, 5 , ou seja, a posição do
Q1 é também arbitrada, é a média dos valores que ocupam o 25o e o 26o lugar:
Q1 = 17+17
2 = 17.
De forma análoga, encontramos a POS(Q3), igual a 75,5. E o seu valor, Q3 = 50.
2. Pelo raciocínio acima, você pode deduzir que:
Quando o conjunto possui um tamanho n par, as posições da mediana, do Q1 e do
Q2 são arbitradas.
A. F. Beraldo 147
8. Introdução à Análise Exploratória de Dados
Quando o tamanho n for ímpar, a posição mediana é “real” (e não arbitrada), uma
vez que n+1
2 é inteiro e par, se n é ímpar. Da mesma forma, as posições dos quartis
serão “reais”.
8.3 Cálculo das Cercas e o Box-Plot
Para completar a descrição do conjunto, e para o desenho do Box-Plot, precisaremos
calcular mais algumas medidas estatísticas
AIQ: Amplitude interquartílica (Distância entre quartis) = Q3 −Q1
CEI: Cerca externa inferior = Q1 − 3AIQ
CII: Cerca interna inferior = Q1 − 1, 5AIQ
CIS: Cerca interna superior = Q3 + 1, 5AIQ
CES: Cerca externa superior = Q3 + 3AIQ
No exemplo que estudamos, temos:
AIQ = 50,0 - 17,0 = 33,0 anos
CII = 17 - 1,5x33 = -32,5, ou seja, 0 (já que não existe idade negativa)
CEI = 17 - 3x33 = -82, ou seja, 0.
CIS = 50 + 1,5x33 = 99,5 anos
CES = 50 + 3x33 = 149 anos
Precisaremos, também, das seguintes medidas:
VAI: Valor adjacente inferior : é o menor valor do conjunto, que ainda é maior
ou igual à CII = 1 ano
VAS: Valor adjacente superior: é o maior valor da amostra, que ainda é menor
ou igual à CIS = 94 anos
Verificamos se há valores discrepantes. Estes são os valores amostrais que
estão entre as cercas. No exemplo estudado, não há valores discrepantes.
148 A. F. Beraldo
8.3 Cálculo das Cercas e o Box-Plot
Verificamos se há valores mais que discrepantes (outliers): são os valores
amostrais abaixo da CEI ou acima da CES. Em nosso exemplo não há valores
mais que discrepantes. (Veja exemplo comentado)
Calculados estes valores, traçamos o box-plot, que tem o seguinte aspecto:
Figura 8.8: Box-Plot
A “caixa” é limitada pelo Q1 e pelo Q3. A linha dentro caixa é a mediana (Q2). Os
traços, superior e inferior, são ligados à caixa por uma linha vertical - estes traços são as
marcas dos valores adjacentes (VAI e VAS). Se houvessem valores discrepantes ou
mais que discrepantes, seriam representados individualmente por pontos acima e abaixo
das marcas de valores adjacentes (veja o exemplo 8.1).
Com estas medidas, conseguimos descrever a disposição dos dados da amostra. A
tendência central é medida pela mediana e os quartis.
A Amplitude Interquartílica (AIQ) é a distância entre Q1 e Q3, e indica a dispersão
da amostra, na região central da distribuição - contém 50% dos valores do conjunto.
Divide-se em duas regiões: a primeira entre Q1 e a mediana, a segunda entre a mediana
e Q3. Comparando-se a área destas duas regiões (a área do “box” - retângulo) temos
outra boa indicação da dispersão. Esta ideia é complementada com a verificação da
existência de valores discrepantes e muito discrepantes (outliers).
A. F. Beraldo 149
8. Introdução à Análise Exploratória de Dados
Valores discrepantes são os que pertencem à região entre a CEI e o VAI, ou entre
a VAS e a CES.
Valores mais que discrepantes estão abaixo da CEI ou acima da CES. (acima da
distância Q3 + 3AIQ, ou abaixo de Q1 - 3AIQ).
As regiões (intervalos de dados dentro do conjunto) são as seguintes
Figura 8.9: Regiões do Box-Plot
• Região Central: Entre o Q1 e o Q3.
• Região dos Dados Regulares: Entre o VAI e o VAS.
• Região dos Dados Discrepantes: Entre a CEI e o VAI , e entre o VAS e a CES
• Região dos Dados mais que discrepantes: abaixo da CEI ou acima da CES
150 A. F. Beraldo
8.3 Cálculo das Cercas e o Box-Plot
As informações principais fornecidas pelo box plot são as seguintes:
Figura 8.10: Elementos do Box-Plot
Comentários
Os sinais que representam Valores Discrepantes ou mais que Discrepantes variam
muito, de acordo com o software utilizado. Nesta apostila, adotamos a seguinte
convenção:
+ Valores Discrepantes (entre o VAI e a CEI, e entre o VAS e a CES)
• Valores mais que Discrepantes (abaixo da CEI e acima da CES).
A. F. Beraldo 151
8. Introdução à Análise Exploratória de Dados
Exemplo 8.1. Seja o conjunto a seguir:
Figura 8.11: Diagrama Ramo-Folha
O diagrama Ramo-Folha é o seguinte:
Figura 8.12: Diagrama Ramo-Folha
As posições dos quartis são as seguintes:
Primeiro Quartil:
Pos(Q1) = n+ 1
4 = 99
4 = 24, 75
Segundo Quartil:
Pos(Q2) = n+ 1
2 = 99
2 = 49, 5
Terceiro Quartil:
Pos(Q3) = 3(n+ 1)
4 = 297
4 = 74, 25
152 A. F. Beraldo
8.3 Cálculo das Cercas e o Box-Plot
Localizando os quartis no diagrama Ramo-Folha, temos:
Figura 8.13: Quartis no Diagrama Ramo-Folha
Portanto, os valores dos Quartis e das demais estatísticas são:
Q1 = 39, 0 Q2 = X̃ = 49, 0 Q3 = 59, 0
AIQ Cerca Externa Inferior Q3 −Q1 = 59, 0− 39, 0 = 20, 0
CEI Cerca Interna Inferior Q1 − 3AIQ = 39, 0− 3× 20 = 39, 0− 60 = −21
CII Cerca Interna Superior Q1 − 1, 5AIQ = 39, 0− 1, 5× 20 = 39, 0− 30, 0 = 9, 0
CIS Cerca Externa Superior Q3 + 1, 5AIQ = 59, 0 + 1, 5× 20 = 59, 0 + 30, 0 = 89, 0
CES Cerca Externa Superior Q3 + 3AIQ = 59, 0 + 3× 20 = 59, 0 + 60, 0 = 119, 0
VAI Valor adjacente inferior 12
VAS Valor adjacente superior 87
Outliers Valores discrepantes inferiores 1
Valores discrepantes superiores 91, 92, 95 e 100
A. F. Beraldo 153
8. Introdução à Análise Exploratória de Dados
O Box-Plot é o seguinte:
Figura 8.14: Box-Plot
Notar o sinal “+” simbolizando os valores discrepantes (outliers).
154 A. F. Beraldo
Diagramação em LATEX, composta em Latin Modern.
Versão 3 — 2013
Gerado em 22 de outubro de 2013.
	Sumário
	Introdução à Estatística
	O Método Estatístico
	Atributos e Variáveis: a Natureza dos dados Estatísticos
	Medidas Estatísticas de Tendência Central
	Média
	Média Aritmética
	Média Aritmética Ponderada
	Média Geométrica
	Média Harmônica
	Propriedades da Média Aritmética
	Moda
	Mediana
	Ponto Médio
	Medidas Estatísticas de Dispersão
	Amplitude
	Desvios e Desvio Médio
	Variância e Desvio Padrão
	Coeficiente de variação
	Propriedades da variância
	Estatística em Grandes Conjuntos: Distribuições de Frequências
	Frequências Simples
	Frequências Relativas, o Histograma e os Polígonos de Frequência
	Frequências Acumuladas
	Frequências Relativas Acumuladas e a Ogiva de Galton
	Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
	Cálculo da Média:
	Cálculo da Moda
	Cálculo da Mediana
	Roteiro para o cálculo da mediana
	Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação
	Exemplos Comentados
	Estatística em Grandes Conjuntos: Medidas de Posição
	Cálculo de Quartis e Percentis
	Determinação Gráfica das Separatrizes
	Determinação Gráfica de intervalos
	Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
	Simetria e Assimetria
	Medidas de Assimetria
	Curtose
	Introdução à Análise Exploratória de Dados
	Fundamentos da Análise Exploratória
	Determinação dos Quartis:
	Cálculo das Cercas e o Box-PlotA2 8.099
B1 4.558
B2 2.327
C1 1.391
C2 933
D 618
E 403
Fonte: http://www.abep.org
Relacionar
A Estatística estuda os relacionamentos entre os fenômenos, no tempo e no espaço.
Através de um conjunto de medidas estatísticas, procura-se determinar se existe uma
correlação (ou interdependência) entre duas ou mais variáveis e, se esta relação existir,
se é forte ou fraca. Pode-se investigar, por exemplo, a relação existente entre a
escolaridade de uma população e a incidência de uma determinada doença; a correlação
entre o número de animais predadores em um lugar e os tipos de presas existentes nesta
região; o rendimento escolar de alunos e seu quociente de inteligência; o número de
acidentes de trânsito e a quantidade de veículos em circulação...
Veja, a seguir, um exemplo de correlação entre dois atributos de um grupo de pessoas:
peso e estatura.
Figura 1.4: Pesos e estaturas médias de 100 indivíduos do sexo masculino
A. F. Beraldo 7
http://www.abep.org
1. Introdução à Estatística
Figura 1.5: Curva de correlação entre os pesos e as estaturas médias de 100 indivíduos
do sexo masculino
Os dois gráficos acima mostram o estudo da correlação entre pesos e estatura de 100
estudantes de um colégio da cidade. Na figura 1.4 estão os dados colocados no gráfico,
e, na figura 1.5, a curva de correlação – uma espécie de ajustamento ideal entre o peso
e estatura, a equação da curva de correlação e a estatística R2 - “r ao quadrado” - que
mostra o grau de correlação linear entre as duas variáveis. Quanto mais próximo de
R2 = 1, 0; melhor a correlação entre os valores das duas variáveis.
8 A. F. Beraldo
Comparar
Comparar grandezas é uma das áreas onde mais se aplicam os processos estatísticos.
São as estatísticas chamadas números-índices, entre outras, de larga utilização na
Economia, nas Ciências Sociais, na Medicina, na Administração Pública, etc. Ao
comparar valores destas grandezas entre diversos países ou regiões, em épocas diferentes,
procura-se, desta forma, medir a evolução destas grandezas - o que fornece os parâmetros
para o planejamento governamental das políticas sociais e econômicas, entre muitos
outros exemplos.
Figura 1.6: IDH-M das quatro melhores e quatro piores cidades, Brasil, 2000
Fonte: PNUD - Atlas do Desenvolvimento Humano, 2008.
O IDH, Índice de Desenvolvimento Humano, é uma estatística elaborada e calculada
pela ONU (PNUD), que leva em consideração dados sobre a Educação, Saúde e Renda
per capita de uma região (cidade, estado, país) em determinado ano. Quanto mais
próximo de 1, melhor a situação do país com relação a estas variáveis. Quanto mais
próximo de zero, pior. O IDH do Brasil é de 0,699 (2010) que o coloca em 73o lugar entre
os 169 países pesquisados. Os maiores valores do IDH (2010) foram os da, pela ordem,
Noruega, Austrália, Nova Zelândia, Estados Unidos e Irlanda. Os piores índices são dos
países Zimbábue, República Democrática do Congo, Níger, Mali e Burkina Faso11.
11http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\
-paises-no-idh-2010.html
A. F. Beraldo 9
http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\-paises-no-idh-2010.html
http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\-paises-no-idh-2010.html
1. Introdução à Estatística
Prever
As técnicas de previsão estatística (forecasting), baseadas no Cálculo de Probabilida-
des, constituem o ferramental básico dos Sistemas de Apoio às Decisões. Principalmente
a Análise de Séries Temporais (onde os fenômenos se relacionam diretamente com o
passar do tempo), que talvez seja o ramo da Estatística de maior desenvolvimento nos
últimos anos. A previsão estatística, conjugada com as técnicas de correlação e de
comparação, auxilia no planejamento das ações e no desenvolvimento das empresas, das
instituições governamentais e de tecnologia - de prognósticos do comportamento das
carteiras de ações na Bolsa de Valores ao lançamento de satélites espaciais. Uma parte
importante da previsão estatística é a Atuária, ou Cálculo Atuarial, que trata dos
cálculos de seguros (de vida, de acidentes, de doenças, etc.), tendo por base o Cálculo
de Probabilidades.
A seguir, gráficos mostrando a evolução de duas medidas estatísticas muito impor-
tantes em Demografia e nas Políticas Públicas em Saúde: Expectativa de Vida, a Taxa
de Natalidade, e a Taxa de Fecundidade (Fonte: Censo 2000 e PNAD 200312).
Figura 1.7: Expectativa de Vida ao Nascer
12PNAD é a abreviação de Pesquisa Nacional por Amostragem Domiciliar. É uma pesquisa feita
pelo IBGE com periodicidade menor do que o Censo, e é utilizada para acompanhar a evolução de
algumas estatísticas.
10 A. F. Beraldo
Figura 1.8: Expectativa de Vida ao Nascer (Reta de Regressão)
Figura 1.9: Expectativa de Vida ao Nascer (Previsão)
A. F. Beraldo 11
1. Introdução à Estatística
Inferir
Inferir é o processo estatístico em que se estima o valor de uma medida da população
(chamada parâmetro13) a partir do valor desta mesma medida, calculada sobre uma
Amostra retirada da população. Por exemplo, queremos saber qual é a taxa de
fertilidade (número de filhos por mulher) da população do Brasil. Em outras palavras,
desejamos saber o parâmetro “número de filhos por mulher”. Esta população é muito
numerosa (em torno de 60 milhões de mulheres). Sorteamos, então, uma Amostra
de 2.400 mulheres desta população e, com os dados desta amostra, calculamos duas
estatísticas14: a média e o desvio-padrão15. A partir destas estatísticas, dizemos
(por exemplo) que a taxa de fertilidade atual no Brasil está “em torno” de 2,8 filhos
por mulher. Ou seja, estimamos o valor do parâmetro de uma população a partir de
estatísticas amostrais.
Figura 1.10: Inferir
13Parâmetro: É o valor de uma medida, referente a população.
14Estatística: É o valor de uma medida referente à amostra.
15Média e desvio-padrão são medidas que estudamos no Capítulo 2 desta Apostila.
12 A. F. Beraldo
Testar
Testes Estatísticos são processos de verificação da igualdade ou desigualdade entre
duas ou mais medidas - entre valores esperados (ou previstos) e valores ocorridos, por
exemplo, ou entre estatísticas de dois ou mais conjuntos, separados no tempo ou no
espaço. Pode se testar estatisticamente a eficiência de um processo (uma dieta, por
exemplo), ou a eficácia de uma ação (um método de aprendizagem), as diferenças entre
os resultados de dois ou mais tipos de tratamentos médicos (a cura pela sugestão, pela
alopatia ou pela homeopatia). A seguir, uma ilustração de uma pesquisa experimental
onde se testa a eficácia de um medicamento em um grupo de pessoas.
Figura 1.11: Pesquisa experimental
Na figura 1.11, um experimento científico que consiste em analisar os efeitos de
uma droga. São dois grupos de pessoas. O primeiro grupo, chamado de Estudo, ou
Experimental, recebe a droga; o segundo grupo, chamado de grupo de Controle, não
recebe a droga, mas um composto inócuo, chamado Placebo. A Estatística fornece
recursos para avaliar os efeitos da droga administrada, comparando as variações entre
os dois grupos, e verificando se a droga produz realmente o efeito que se espera.
A. F. Beraldo 13
1. Introdução à Estatística
Modelar
O que faz um cliente do supermercado tomar a decisão de comprar um produto de
determinada marca, e não de outra? Quais são os fatores de risco de alguém tornar-se
diabético? Em crianças em processo de alfabetização, o que facilita e o que dificulta a
aprendizagem? Tomada de decisões, incidência de doenças e processos de aprendizagem
são exemplos de fenômenos complexos que ocorrem, associados – ou determinados –
por vários “fatores”. Saber quais são os fatores mais importantes, qual o impacto de
associação de fatores, e quais as consequências de realçarmos um ou mais fatores são
alguns aspectos da análise de modelos multivariados.
Cuidado para não confundir rendimento escolar com aprendi-
zagem. Rendimento escolar é o que é apurado nas provas,
trabalhos, atividades, etc (nota é uma variável objetiva,
quantitativa). Aprendizagemé uma variável latente (veja
mais em “Variáveis latentes”, página 28).
Suponha que estamos pesquisando os fatores que interferem no rendimento escolar
dos alunos da última série do ensino médio. O simpático menino da figura acima, que faz
parte do grupo pesquisado pode ser “descrito” pelas suas variáveis: sexo, idade, condição
econômica familiar, constituição da família (pais casados, pais separados, pais em união
estável, etc.), escolaridade dos pais, relação idade/série, número de repetências, e muitos
outros atributos. E, é claro, as variáveis referentes às notas (rendimento escolar).
Modelo é a representação estruturada de um fenômeno a partir de hipóteses de
relacionamento de suas variáveis. Por exemplo,
Figura 1.12: Fatores em um modelo
14 A. F. Beraldo
Um modelo é uma simplificação – uma representação esquemática -, de como
percebemos os fenômenos. Matematicamente, escrevemos
Y = B1x1 +B2x2 +B3x3 + · · ·+BnXn
Exemplificando (bem superficialmente): Pense no fenômeno da aprendizagem. Con-
sidere que aprender determinado assunto está relacionado (associado) com as variá-
veis “horas de estudo”, “material didático” (quantidade e qualidade), “capacidade do
professor”, “escolaridade dos pais”, “simpatia com a matéria”, entre outras. Estas
são as variáveis, que aparecem no modelo como x1, x2, x3, . . . , xn Cada variável está
multiplicada por um B, que mede a importância que atribuímos a esta variável. Os
valores de B1, B2, B3, . . . , Bn podem ser altos, baixos, ou mesmo nulos, conforme seu
“peso”.
Considere, por fim, que podemos medir esta “aprendizagem” por meio de exames
(provas, testes) que, bem elaborados, pontuam (quantificam) esta “aprendizagem”. Os
valores obtidos nos testes são os valores de Y . Assim, podemos correlacionar Y com as
variáveis, que no nosso modelo, favorecem ou são obstáculos para a “aprendizagem”.
A. F. Beraldo 15
1. Introdução à Estatística
1.1 O Método Estatístico
Imagine o conjunto de moradores do Bairro B: são pessoas que tem os mais diversos
atributos – idade, estado civil, naturalidade, renda, etc. –, que desejamos conhecer.
No entanto, todos estes moradores possuem pelo menos um atributo em comum:
são pessoas residentes no Bairro B.
Figura 1.13: O conjunto Universo
Para efeito de análise estatística, estes moradores do Bairro B são agrupados em um
conjunto que denominamos Universo, notado pelo símbolo Ω. Pertencem ao conjunto
Universo todas as pessoas que possuem este atributo: moradores do Bairro B. Estão
“fora” do Universo todas as pessoas que não possuem este atributo. Os demais atributos
dos moradores podem ser descritos por um conjunto de valores denominado variável.
Assim, temos as variáveis sexo, idade, estado civil, renda, etc.
Assume-se, para efeito de estudo, que estas variáveis são aleatórias, ou seja,
seus valores não são influenciados por nenhum fator externo16. As variáveis de um
conjunto Universo (e o próprio conjunto Universo) são descritas por medidas chamadas
parâmetros. Por exemplo, as variáveis idade, renda, escolaridade (medida em anos de
estudo) tem, cada uma, os parâmetros média (µ), variância (σ2), desvio-padrão (σ);
as variáveis sexo, escolaridade (medida em nível de ensino) e naturalidade, tem, cada
uma, o parâmetro proporção (π).
16O conceito de variável aleatória é explicado em profundidade na Apostila II – Cálculo de
Probabilidades.
16 A. F. Beraldo
1.1 O Método Estatístico
Um parâmetro é uma medida de uma variável do conjunto Universo, e recebem
como símbolo, as letras do alfabeto grego.
Um conjunto Universo é suposto de tamanho infinito, ou finito. Mesmo sendo
de tamanho finito, sempre partimos do princípio que estes conjuntos têm um tamanho
muito grande – um número muito grande de elementos. Este “tamanho muito grande”
torna extremamente difícil, senão impossível, a obtenção destes parâmetros. Para
estudarmos o Universo, dispomos de dois métodos principais: o Censo e o Método
Estatístico.
Censo, ou recenseamento é o processo de coleta de dados em que todo o conjunto
universo é pesquisado. Todos os elementos do conjunto são estudados, um a um, e o
censo só termina quando todo o conjunto universo for abrangido. Censos são trabalhosos,
demorados, dispendiosos e, por isso mesmo, são realizados apenas por instituições oficiais
e por órgãos do governo. Censos demográficos são realizados de dez em dez anos,
quando uma grande quantidade de recenseadores é recrutada para coletar dados sobre a
população, através de questionários. Desta forma, podemos medir a evolução de dados
como a população das cidades e do meio rural, as taxas de natalidade e mortalidade, as
características da etnia, o credo religioso, as migrações internas, etc.
Figura 1.14: O Censo
A. F. Beraldo 17
1. Introdução à Estatística
Portanto, o Censo17 é uma investigação extensiva a todos os elementos do Universo,
e também intensiva, pois, na oportunidade da realização de um Censo, são coletados
dados sobre centenas de variáveis, como “características gerais da população, educa-
ção, migração, nupcialidade, trabalho, famílias e domicílios (...) informações sobre a
população residente por sexo, cor ou raça, religião, categorias de incapacidade ou defi-
ciência física ou mental, nível educacional, movimentos migratórios, situação conjugal,
ocupação, rendimento de trabalho, tamanho da família e condições habitacionais, entre
outros aspectos, para o total do Brasil, grandes regiões e unidades da federação (...)
comentários sobre as características selecionadas em cada um dos temas e as diferenças
regionais observadas, notas e anexos contendo a Classificação de Religiões, desenvolvida
pelo IBGE e o Instituto Superior de Estudos da Religião - ISER, e a Classificação
Nacional de Atividades Econômicas - Domiciliar.”18
O Método Estatístico foi desenvolvido para obtermos o valor estimado dos
parâmetros, a partir das medidas de um subconjunto do Universo chamado Amostra.
Este método consiste nos seguintes passos:
1. O conjunto Universo é tratado de forma que cada um, e todos os seus
elementos, têm a mesma probabilidade de serem sorteados. Este processo é chamado de
homogeneização do Universo. Em seguida, alguns elementos do Universo são sorteados
para compor um subconjunto chamado amostra (ω):
17Para se ter uma ideia da magnitude do problema do Censo em um país como o nosso, com seus 8,5
milhões de km2, O Censo 2010 custou em torno de 1,4 bilhão de reais. Os 240 mil recenseadores, com
seus GPS, visitaram 58 milhões de domicílios, em 5.565 cidades, e coletaram dados sobre os mais de
190 milhões de brasileiros. A coleta de dados foi feita não mais em formulários de papel, mas por meio
de 220 mil palmtops e netbooks, em cerca de 314 mil setores censitários. Os dados foram transmitidos
à central do IBGE via web. Foram duas modalidades de questionários: o “básico”, com 16 perguntas,
e o “amostra”, com 81 perguntas, aplicados em 7 milhões de domicílios, sorteados dentro do universo.-
Entre as novidades deste censo foi a inclusão do item “união homossexual” entre as 20 opções de grau
de parentesco com o responsável pelo domicílio, e o mapeamento das cerca de 210 línguas faladas no
país (http://www.ibge.gov.br/censo2010/). Um censo é uma espécie de corrida contra o tempo, em
termos de atualização de números. Por exemplo, desde que você começou a ler esta nota de rodapé, já
nasceram mais de 6 brasileiros (o ritmo estimado é de 4,2 nascimentos/minuto).
18Veja http://www.ibge.gov.br/censo/divulgacao_impresso.shtm
18 A. F. Beraldo
http://www.ibge.gov.br/censo2010/
http://www.ibge.gov.br/censo/divulgacao_impresso.shtm
1.1 O Método Estatístico
Figura 1.15: Universo e Amostra
A extração dos elementos do Universo que irão compor a Amostra é um processo
que recebe o nome de Amostragem. A Amostragem consiste em uma série de técnicas
cuja finalidade é fazer com que os princípios de aleatoriedade sejam respeitados.
A Amostra, por ter um tamanho muito inferior ao tamanho do Universo, pode
ser observada em sua totalidade (ao contrário do Universo). Estas “observações”são
chamadas medidas estatísticas, ou, mais simplesmente, estatísticas (veja o quadro a
seguir).
A. F. Beraldo 19
1. Introdução à Estatística
Figura 1.16: Estatística e Parâmetros
Uma estatística é uma medida descritiva de uma variável da amostra, e recebe
como símbolo, uma letra do alfabeto latino.
Após o cálculo das estatísticas, prossegue-se com um outro processo estatístico:
a Inferência, que consiste no cálculo dos parâmetros (populacionais) a partir das
estatísticas (amostrais).
População =⇒ Parâmetro.
Amostra =⇒ Estatística.
20 A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
Portanto, há uma correspondência entre as medidas amostrais (estatísticas) e as
medidas populacionais (parâmetros). Esta correspondência é expressa da seguinte
maneira:
Parâmetro = Estatística ± Margem de erro
A margem de erro pode ser interpretada como a diferença existente entre as
medidas de uma amostra e as do universo de onde foi extraída. Cada estatística
possui a sua margem de erro. A margem de erro é função:
• Do Nível de Confiança com que se está trabalhando;
• Do tamanho da amostra, n;
• Das condições do Universo (infinito ou finito), e da dispersão de seus valores;
• Do tipo de amostragem que foi realizado (com reposição ou sem reposição).
Todas estas condições serão extensamente estudadas na Apostila Estatística III.
1.2 Atributos e Variáveis: a Natureza dos dados
Estatísticos
Na seção anterior, falamos de atributos, que seriam algo como as qualidades ou
características que todos os elementos de um Universo (e das amostras dele extraídas)
possuiriam. Estes atributos são uma espécie de característica comum aos elementos
do Universo. Por exemplo, seja o Universo Ω1 constituído por todos os alunos das
universidades brasileiras. O atributo em comum destes elementos do Universo é “estar
matriculado em algum curso de alguma universidade brasileira”. Seja um subconjunto
deste Universo Ω1, que chamaremos de Ω2, formado por elementos que pertencem às
universidades federais. Seu atributo comum é “estar matriculado em algum curso de
alguma universidade federal brasileira”. Seja, outra vez, outro subconjunto do Universo
Ω2, que chamaremos de Ω3, que consiste nos estudantes da UFJF. Seu atributo em
comum é: “estar matriculado em algum curso da UFJF”. A figura a seguir ilustra a
disposição destes conjuntos:
Continuemos com o conjunto Ω3: “alunos matriculados em algum curso da UFJF”.
Além deste atributo comum, estes elementos do Universo Ω3 possuem diversas ca-
racterísticas: curso em que estão matriculados, nível do curso, idade, sexo, estado
A. F. Beraldo 21
1. Introdução à Estatística
Figura 1.17: Conjuntos universo
civil, estatura, peso, naturalidade, classe social, classe econômica, número de matrícula,
pontuação no vestibular, tipo de moradia em Juiz de Fora, e muitas, muitas outras.
Estas características, daqui por diante, passam a se chamar variáveis.
Uma variável é uma característica dos elementos do Universo (e da Amostra) que
pode ser valorada.
Por exemplo, a variável “curso em que estão matriculados”. Pode assumir os
“valores” Arquitetura, Direito, Medicina, Psicologia, Administração, tantos quantos
forem os cursos oferecidos pela UFJF. A variável “nível do curso” pode assumir os
valores Graduação, Especialização, Mestrado, Doutorado... A variável “idade” pode
assumir valores que vão de, digamos, 16 anos até 70 anos. A variável “estatura” pode
assumir valores, digamos, de 1,00m a 2,30m. E assim por diante.
O domínio da variável (tipo de valores que a variável pode assumir) é que determina
o tipo da variável.
22 A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
Estes podem ser:
Figura 1.18: Variáveis
Uma variável é dita quantitativa ou numérica quando assume exclusivamente
valores numéricos (que representam quantidades). São discretas quando estes valores
pertencem ao conjunto dos Naturais (N), mais o zero ( v ∈: 0, 1, 2, 3, 4, 5, . . . ). Geral-
mente, estes valores são resultado de um processo de contagem.
Uma variável é quantitativa (ou numérica) contínua quando pode assumir valores
pertencentes ao conjunto dos Reais, (v ∈ R). Geralmente, estes valores são resultado de
uma medição.
Uma variável é dita qualitativa, categórica ou nominal, quando pode assumir
apenas valores não-numéricos (palavras, sinais, ou números que não representam quan-
tidades). Será dicotômica se seu domínio conter apenas dois valores, será politômica
se o seu domínio conter mais de dois valores.
No exemplo que estudamos, a variável idade é quantitativa discreta. Pode assumir
os valores 16, 17, 18, ... , 70. A variável estatura é quantitativa contínua, podendo
assumir qualquer valor entre 1,00m e 2,30m: 1,01m, 1,02m, 1,03m, ... , 2,29m, 2,30m.
A variável sexo é qualitativa (ou nominal) dicotômica, podendo assumir os
valores “masculino” ou “feminino” . O curso em que o aluno está matriculado é
uma variável qualitativa politômica, que pode assumir os valores “Engenharia”,
“Medicina”, “Direito”, “Enfermagem”, etc.
Classificação quanto a natureza
Algumas vezes uma mesma característica do Universo pode ser estudada por mais de
uma variável. Por exemplo, a classificação econômica dos moradores de um bairro: pes-
A. F. Beraldo 23
1. Introdução à Estatística
quisando por domicílio, podemos simplesmente perguntar qual é o rendimento familiar
mensal dos moradores do domicílio; podemos estimar esta renda perguntando o valor da
conta de energia elétrica; podemos perguntar quais e quantos eletrodomésticos existem
no domicílio, e a escolaridade dos moradores..., enfim, existem várias formas de conseguir
dados sobre esta característica, cada um deles apurado através de uma variável.
As variáveis são também tipificadas segundo sua Natureza, ou Nível de Mensu-
ração. Esta é uma categorização muito útil na descrição de amostras, mas requer um
estudo mais apurado, quando precisamos decidir qual tipo de variável é mais adequado
(e qual variável é a mais adequada) para descrevermos determinada característica de um
Universo19.
Variável nominal: O nível mais baixo de informação é o das variáveis nominais
dicotômicas que, como vimos, podem assumir apenas dois valores, opostos e comple-
mentares: sim ou não, ligado ou desligado, defeituoso ou não defeituoso. Em seguida,
temos as variáveis nominais politômicas, que podem assumir mais de dois valores.
Por exemplo, estado civil: solteiro, casado, união estável, separado, divorciado, viúvo,
outros.
Variável nominal ordinal: É uma variável nominal politômica cujos valores podem
ser colocados em ordem de intensidade (ou de freqüência, ou de gravidade, entre outras
qualificações). Por exemplo, as respostas à questão:
Em relação à reserva de vagas nas universidades federais (política de cotas), você:
� Discorda totalmente;
� Discorda;
� Não sei avaliar;
� Concorda;
� Concorda totalmente.
Variável intervalar: É uma variável quantitativa, em que os valores estão dispostos
em uma escala, e os intervalos entre os pontos da escala são fixos e iguais. Por exemplo,
19Esta é uma tarefa muito complexa. Uma boa parte do tempo de planejamento das pesquisas deve
ser dedicada a este processo. Veja Apostila IV – Metologia de Pesquisa
24 A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
as escalas de temperatura, como a escala Celsius20: 0◦C corresponde ao “ponto do gelo” e
100◦C que corresponde ao “ponto de ebulição” da água, medidos pela coluna de mercúrio
de um termômetro. Estes dois pontos foram convencionados, e a distância entre eles foi
dividida em cem partes, e variação da temperatura entre 10◦C e 15◦C é a mesma que
entre 15◦C e 20◦CȮutro aspecto a considerar é que o valor de 0◦C não significa que “não
há” temperatura, e sim, que “a temperatura é de 0◦C ”.
É importante notar que um corpo a 60◦C não é “duas vezes mais quente” que um
corpo a 30◦C. Temperatura é variável intervalar e “quente” (ou “frio”) é valor de uma
variável nominal ordinal.
Variável de razão: São as variáveis cujosvalores são múltiplos ou submúltiplos de
uma unidade convencionada, podendo haver uma correspondência linear (como no caso
das variáveis estatura, peso, tempo, valores monetários) ou não-linear (exponencial ou
logarítmica). No caso de uma variável de razão, o valor 0 (zero) corresponde a “ausência
de”, e não uma convenção, como é o caso das variáveis intervalares.
Em casos que a evolução dos valores é linear, como por exemplo, as medidas
de comprimento (estatura, distância). A unidade é o metro, e, se dizemos que “o
comprimento de uma sala de aula é de 8m”, estamos falando que “o comprimento da
sala é de 8 x 1m” (oito vezes um metro). O mesmo vale para peso, tempo, volume, área,
e outras.
Há casos em que a correspondência não é linear, ou quando o intervalo entre dois
pontos de uma escala não é fixo. Por exemplo, as escalas que utilizam logaritmos, como
as escalas Richter21 – intensidade de terremotos, e a escala de decibéis – intensidade
do som e do ruído. Dizer que um terremoto alcançou 4 graus na escala Richter não
significa que sua intensidade foi duas vezes a de um terremoto de “grau 2”, e sim, a 100
vezes a de um terremoto grau 2. No caso da escala de ruídos, a intensidade do ruído é
medida em decibéis (dB), sendo que a variação de 1 dB corresponde a uma variação de
10 vezes na potência do som ou do ruído.
20Anders Celsius (1701-1744), astrônomo e cientista sueco. Curiosamente, quando foi inventada, a
escala Celsius era “ao contrário”: 0◦C correspondia ao “ponto de ebulição” e 100◦C ao “ponto do gelo”
da água. Depois de sua morte, a escala passou a ter o sentido e direção atual.
21Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseram
em 1935 a escala de medida sismográfica que, no começo, tinha a finalidade de medir unicamente os
terremotos que se produziram na Califórnia (EUA). A escala Richter corresponde ao logaritmo da
amplitude das ondas a 100 km do epicentro. Era graduada de 1 a 9, mas, depois de tremores que
ultrapassam o grau 9, é, uma “escala aberta” (sem limite superior).
A. F. Beraldo 25
1. Introdução à Estatística
Exemplo 1.1. Propaganda de carro: destacamos as variáveis:
Figura 1.19: Características de um automóvel
Notar que as variáveis dados de razão sempre se referem a uma base: o melhor
exemplo está no preço do carro, fornecido tanto em reais quanto em dólares.
Comentários:
1. Discretas ou Contínuas? Notar que as variáveis numéricas discretas podem ser
tratadas como se fossem contínuas. Um dos problemas que são resolvidos pela
Estatística, como foi dito, é o de efetuar contagens em conjuntos muito grandes.
Mesmo para estes conjuntos (o número de analfabetos no país, por exemplo), o
resultado desta contagem pode ser calculado com uma precisão razoável, usando
um método estatístico chamado Estimação. Sem entrar em detalhes, neste
momento, podemos dizer que estimar uma quantidade é calcular um intervalo
numérico em que o valor mais provável de uma medida esteja nele contido.
Note que escrevemos “intervalo numérico”, ou seja, a grosso modo, “entre dois
números”. Diz-se que uma pessoa tem entre 120.000 a 140.000 fios de cabelo,
isto é, ela tem entre 120 mil e 140 mil fios de cabelo. Este resultado é obtido
assim: divide-se a área total do couro cabeludo do cidadão em quadradinhos de
área igual, digamos, 1 cm2 de área. Para simplificar, vamos supor que o couro
cabeludo contenha 1.000 quadradinhos. Sorteia-se uma série de quadradinhos,
digamos, uns trinta quadradinhos. Em cada quadradinho sorteado conta-se o
número de fios de cabelo, e calcula-se amédia de “fios de cabelo por quadradinho”.
Calcula-se também outra estatística, chamada desvio padrão, que é, por assim
26 A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
dizer, a “faixa de variação” da média. Se a média foi de 290 fios de cabelo por
quadradinho, e o desvio padrão de 50 fios de cabelo por quadradinho, dizemos que
o número de “fios de cabelo, por quadradinho”, está entre 240 e 340. Como são
1.000 quadradinhos, dizemos que a pessoa possui entre 240.000 e 340.000 fios de
cabelo. Note que “número de fios de cabelo” é, a priori, uma variável numérica
discreta. Quando seu valor se torna muito grande, dá-se a ela um tratamento de
variável numérica contínua.
2. Variáveis Categóricas Dicotômicas: este tipo de variável também é muito
utilizado pela Estatística. Dissemos que ela pode assumir os valores S e N (sim
e não). Estendendo o raciocínio, podemos dizer que esta variável pode assumir
dois valores, opostos e complementares, e que são mutuamente excludentes,
ou seja: a variável possui dois estados, que não podem ocorrer simultaneamente.
Por exemplo: “cara” ou “coroa”, no lançamento de uma moeda; “masculino” ou
“feminino”, no nascimento de uma criança; “ligado” ou “desligado”, para um
aparelho elétrico. Notar que muitas vezes atribui-se um valor “numérico” aos
estados da variável, como, por exemplo, 1 para “ligado” e 0 para “desligado”.
Deve-se prestar atenção a este caso, porque, apesar de termos valores numéricos,
estes apenas simbolizam os estados da variável, que deve continuar sendo entendida
e tratada como variável categórica, e não como variável numérica.
3. Por outro lado, podemos substituir as categorias de uma variável qualitativa por
números, se esta variável qualitativa possui um caráter hierárquico ou ordinal, ou
mesmo de graduação em nível ou intensidade. Por exemplo, em uma pesquisa de
opinião pública a respeito do presidente da república, as respostas possíveis são:
“ótimo”, “bom”, “regular”, “ruim” ou “péssimo” (variáveis qualitativas). Devido
ao alto grau de subjetividade nesta conceituação, pode-se substituir a pergunta da
pesquisa por outra: “Qual nota, numa escala de 0 a 10, você daria ao Presidente
da República?”. Com este procedimento, tenta-se tornar a pesquisa mais objetiva,
com a utilização de variáveis quantitativas. O inverso pode também ser utilizado:
as famílias de um bairro podem ter uma classificação sócio-econômica A, B, C, D
ou E (variável qualitativa) conforme sua renda familiar (variável quantitativa).
4. Muitas vezes você encontrará variáveis qualitativas identificadas por números.
Por exemplo, em um questionário acerca do estado civil de um elemento amostral,
pode-se identificar “solteiro” por “01”, “casado” por “02”, “divorciado” por “03”,
etc. É preciso não confundir este valores, digamos, pseudo-numéricos, com valores
de uma variável quantitativa. Estado civil é uma variável qualitativa e deve
ter o tratamento correspondente, adequado. Outro exemplo: no seu número de
matrícula, consta, digamos, o dígito “04” - que corresponde ao curso no qual você
A. F. Beraldo 27
1. Introdução à Estatística
está matriculado. Apesar de ser um número, estes dígitos representam variáveis
qualitativas.
5. Atributos e Variáveis: Tempos atrás, fazia uma distinção entre atributos e variá-
veis. Atributo era uma espécie de característica do elemento amostral que “pouco
ou nada variava”, como sexo, naturalidade, data de nascimento, e outras. Já a
variável seria uma característica que se alterava mais frequentemente.
Variáveis latentes
Até agora, falamos apenas de variáveis objetivas, como peso, estatura, sexo,
classe econômica. São variáveis cujos valores podem ser diretamente apurados, seja
por questionários e entrevistas, seja pela observação dos coletores de dados, seja por
instrumentos apropriados de medição. Existe, no entanto, um outro extenso grupo de
variáveis que não são passíveis de serem medidas direta e objetivamente, mas cujos
valores (ou “estados”) são estimados - são as chamadas variáveis latentes, muito
comuns em Psicologia, Ciências Sociais, Educação, Economia e Administração. Alguns
exemplos: Qualidade de Vida, Satisfação do Consumidor, Nível de Participação Política,
Nível de Aprendizagem, Inteligência, Aptidão Física...
Por exemplo, como medir algo que convencionamos chamar de Qualidade de Vida?
Deve-se, primeiro, definir o quê seja “Qualidade Vida”, e de quem: da população em
geral, dos jovens,das mulheres, dos deficientes físicos? O que seria Aptidão Física?
A definição do significado de uma variável latente é feita a partir de estudos teóricos,
muitas vezes acompanhados de pesquisas qualitativas. Esta definição é chamada de
constructo, e procura desmembrar a variável latente em uma série de variáveis cujos
valores podem ser obtidos de forma direta. Veja o exemplo 1.2 a seguir:
Exemplo 1.2. Uma pesquisa dos alunos do curso de Ciências Sociais procurou medir o
Nível de Satisfação dos moradores do Bairro Alfa. “Nível de Satisfação” é uma variável
latente, como foi dito, e não pode ser medida direta e objetivamente.
A equipe resolveu, então, elaborar um constructo em que a variável Qualidade de Vida
foi segmentada nos fatores Saúde, Educação, Segurança, Transporte, Lazer, Comércio,
e Vizinhança, cuja avaliação foi feita pelos respondentes a um questionário aplicado a
600 moradores do bairro.
Por exemplo, o fator Saúde foi medida pela avaliação feita pelos respondentes, em
questões como:
28 A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
Em relação ao atendimento do Posto de Saúde, você está:
� Totalmente Insatisfeito
� Insatisfeito
� NSA – Não Sei Avaliar
� Satisfeito
� Totalmente Satisfeito
As respostas eram pontuadas de 1 a 5. A pontuação de cada fator foi a soma
das pontuações das questões a ele relativas. A menor pontuação de um fator, por
respondente, era 5, a maior, 25 pontos. Foi utilizada a mediana como medida de
tendência central22 de cada fator.
Adicionalmente, adotou-se o seguinte critério:
• Entre 5 e 10 pontos – Fator mal avaliado
• Entre 11 e 18 pontos – Fator avaliado como “regular”
• Entre 19 e 25 pontos – Fator bem avaliado
Veja um dos resultados da pesquisa no gráfico a seguir. Avalie cada fator segundo o
critério dado.
Figura 1.20: Resultados da pesquisa (dados fictícios)
22A mediana e demais medidas de tendência central são estudadas no próximo capítulo.
A. F. Beraldo 29
2 Medidas Estatísticas de Tendência Central
Medidas de Tendência Central procuram caracterizar um conjunto de n dados
numéricos por apenas um valor. Esta parece ser uma tendência natural das pessoas:
quando se têm uma série de valores procura-se um valor “médio”, pelo qual se identifica
o conjunto. É muito comum se ouvirem frases do tipo “os aluguéis estão em torno de
R$ 250,00”, ou “são meninos na faixa de 12 anos”, ou ainda “o jogador faz cerca de 2
gols por partida”. Expressões como “em torno”, “cerca de”, “na faixa de”, ou ainda “em
média”, traduzem esta tentativa de adotar-se um valor único para identificar um
conjunto de valores
A Estatística possui um conjunto de Medidas de Tendência Central que, conforme
o caso, fornecem este valor único, característico dos dados existentes na amostra.
Tenha em mente que estamos tratando apenas de variáveis quantitativas. Variáveis
qualitativas serão abordadas em outra parte desta Apostila.
As Medidas de Tendência Central que estudaremos nesta parte serão a média, a
moda, a mediana e o ponto médio. Existem outras estatísticas de tendência central
que serão citadas, quando necessário.
2.1 Média
2.1.1 Média Aritmética
Definição: A média, ou média aritmética, de um conjunto de n valores numéricos é
definida como a razão entre a soma destes valores e o tamanho do conjunto.
Seja um conjunto A de n valores numéricos, descrito como
A = {x1, x2, x3, · · · , xn}
Define-se sua média aritmética, ou simplesmente, média, notada por X
A. F. Beraldo 31
2. Medidas Estatísticas de Tendência Central
X =
∑
xi
n
(2.1)
Onde: X é a média aritmética do conjunto, n é o tamanho (número de elementos)
do conjunto.
Exemplo 1.1 Seja o conjunto A = {1, 2, 4, 8, 0, 3}. Sua média será:
X =
∑
xi
n
= 1 + 2 + 4 + 8 + 0 + 3
6 = 18
6 = 3, 0
Note que o elemento 0 “entra” na conta, no somatório de xi.
Exemplo 1.2 Seja o conjunto B = {8,−2, 5, 6,−4, 2, 2,−1}. Sua média será:
X =
∑
xi
n
= 8− 2 + 5 + 6− 4 + 2 + 2− 1
8 = 16
8 = 2, 0
Note que elementos com sinal negativo mantêm o sinal, no somatório.
Exemplo 1.3: Seja o conjunto C = {1, 2, 4, 3, 2, 2, 2, 3, 2, 1, 2}. Sua média será:
X =
∑
xi
n
= 1 + 2 + 4 + 3 + 2 + 2 + 2 + 3 + 2 + 1 + 2
11 = 24
11 = 2, 18
Note que a média pode ser fracionária, ou seja, pode assumir um valor que, à primeira
vista, pode parecer absurdo, como é o caso de “1,3 filhos por casal”, ou “0,96 gols por
partida”.
Comentários
1. Note que “média” é um termo técnico, matemático. Devemos diferenciar o conceito
que temos, no cotidiano, da palavra “média”. Quando dizemos que uma pessoa
possui estatura média, na linguagem do dia-a-dia, não-técnica, queremos dizer
que ela não é alta nem baixa. Quando dizemos que um aluno “está na média”,
queremos dizer que suas notas situam-se em torno de uma “nota média”, adotada
32 A. F. Beraldo
2.1 Média
pela escola ou pelo curso que frequenta. Isto é bem diferente do conceito que
acabamos de estudar.
2. A média de um conjunto nem sempre poderá ser adotada como valor característico
deste conjunto. Conjuntos muito irregulares (com valores extremos) também
possuem média, mas esta pode não caracterizar o conjunto. Por exemplo, se numa
prova aplicada a uma turma de alunos a metade dos alunos tirou nota 3 e a outra
metade tirou nota 7, a média será 5. No entanto:
a Nenhum aluno tirou nota 5;
b Se você disser “esta é uma turma nota 5”, estará superestimando metade da
turma (a que tirou nota 3) e subestimando a outra metade (a que tirou nota
7).
2.1.2 Média Aritmética Ponderada
A média aritmética ponderada é aplicável quando um conjunto de valores possui
elementos que se repetem. Por exemplo, o conjunto A:
A = {1, 1, 5, 5, 5, 6, 6}
No conjunto acima, o elemento 1 repete-se duas vezes, o elemento 5 repete-se três
vezes e o elemento 6 repete-se duas vezes. Diz-se, então, que o elemento 1 tem peso 2
(duas repetições), o elemento 5 tem peso 3 e o elemento 6 tem peso 2. Ao calcularmos
a média do conjunto teríamos:
X =
∑
xi
n
= 1 + 1 + 5 + 5 + 5 + 6 + 6
7 = 29
7 = 4, 14
Podemos simplificar as operações, fazendo
X =
∑
xi
n
= (1× 2) + (5× 3) + (6× 2)
7 = 29
7 = 4, 14
Ao invés de somar 1 + 1, preferimos fazer 1 × 2; ao invés de somar 5 + 5 + 5,
calculamos 5 ×3 . O mesmo com 6 + 6 substituído por 6 × 2. O resultado é o mesmo,
mas o número de operações ficou reduzido - é mais prático calcular assim. No exemplo
acima o conjunto é pequeno (7 elementos). Em conjuntos maiores, a praticidade de
A. F. Beraldo 33
2. Medidas Estatísticas de Tendência Central
utilizar-se a multiplicação dos elementos por seus pesos fica bem mais evidente. De uma
forma geral, introduzimos a média aritmética ponderada XP , dada por:
XP =
∑j=k
j=1 xjpj∑j=k
j=1 pj
(2.2)
onde xj são os elementos repetidos do conjunto, e pj são os pesos(número de vezes
em que os elementos ocorrem no conjunto). Veja o exemplo a seguir:
Seja A = {4, 4, 4, 5, 5, 7, 7, 7, 7, 3, 3, 2, 2, 2, 2, 2, 6} . Calculando a média de A, optamos
por utilizar a média ponderada:
XP =
∑
xi × pi∑
pi
= (4× 3) + (5× 2) + (7× 4) + (3× 2) + (2× 5) + (6× 1)
3 + 2 + 4 + 2 + 5 + 1
= 72
17 = 4, 24
Nota: as propriedades da média aritmética se aplicam igualmente à média aritmética
ponderada.
2.1.3 Média Geométrica
Seja um conjunto A de n valores numéricos, descrito como:
A = {x1, x2, x3, · · · , xn}
Define-se a sua média geométrica como:
XG = n
√
x1x2x3 · · ·xn (2.3)
ou seja, a média geométrica do conjunto, XG,é a raiz n-ésima do produtório dos
elementos xi do conjunto.
Por exemplo: seja o conjunto A = {1, 4, 5, 6, 3}. Sua média geométrica é dada por
34 A. F. Beraldo
2.1 Média
XG = n
√
x1.x2.x3. · · · .xn = 5
√
1× 4× 5× 6× 3 = 5
√
360 = 3, 245
Lembre-se que:
1. No conjunto dos Reais, R, não existe raiz par de número negativo.
2. Se você estiver utilizando calculadoras que possuem a função xy, a expressão acima
para o cálculo da média geométrica pode ser reescrita como:
XG = (x1 × x2 × x3 × · · · × xn) 1
n
3. Se você estiver utilizando logaritmos, a expressão do cálculo da média geométrica
passa a ser:
logXG =1
n
(
log x1 + log x2 + log x3 + ...+ log xn
)
2.1.4 Média Harmônica
Seja um conjunto A de n valores numéricos, descrito como
A = {x1, x2, x3, · · · , xn}
Define-se sua média harmônica como:
XH = n∑i=n
i=1
1
xi
(2.4)
A. F. Beraldo 35
2. Medidas Estatísticas de Tendência Central
Por exemplo, seja o conjunto A = {3, 4, 6, 2}. Sua média harmônica XH é dada por
XH = n∑ 1
xi
= 4
1
3 + 1
4 + 1
6 + 1
2
= 4
15
12
= 3, 20
Nota: Como você deve ter notado, ao analisar a fórmula de cálculo da média
harmônica, esta não existe no campo real se:
1. Existir pelo menos um elemento do conjunto igual a zero.
2. O somatório ∑ 1
xi
for igual a zero.
Nota: A partir deste ponto, iremos utilizar a notação X para as médias aritméticas
Simples e Ponderadas, XG para a média geométrica e XH para a média harmônica.
Comentários
1. Aplicação das Médias Geométrica e Harmônica:
A média geométrica deve ser utilizada quando os valores do conjunto estão colo-
cados em alguma forma de progressão geométrica ou quando os valores mostram
a evolução exponencial de uma grandeza. É muito utilizada quando os valores
da amostra são números índices. A média geométrica é aplicada, por exemplo,
no cálculo das médias de taxas: de inflação, de preços, de juros, de evolução
de índices econômicos, etc. É bastante utilizada, também, em Demografia e em
Epidemiologia.
A média harmônica é aplicada em taxas ou coeficientes por quantidades fixas,
como, por exemplo, nos índices utilizados em saúde pública: óbitos por 10.000
habitantes, incidência de uma doença por 1.000 habitantes, etc.
2. Se um conjunto possui apenas valores positivos, temos sempre a seguinte relação:
X ≥ XG ≥ XH
Os casos de igualdade entre as médias referem-se a conjuntos com valores iguais.
Para exemplificar esta relação, utilizamos o conjunto formado pelos números 1, 2, 4.
36 A. F. Beraldo
2.1 Média
Sua média aritmética é dada por:
X =
∑
xi
n
= 1 + 2 + 4
3 = 2, 3
A média geométrica é dada por:
XG = 3
√
1× 2× 4 = 3
√
8 = 2
A média harmônica é dada por:
XH = 3
1
1 +
1
2 +
1
4
= 3
4 + 2 + 1
4
= 3
1, 75 = 1, 71
3. Você pode ver que as médias Harmônicas e Geométricas não são tão afetadas
pela existência de valores extremos no conjunto.
4. As médias aritméticas são diretamente afetadas pelos próprios valores do con-
junto. Lembre-se que a média aritmética é o resultado de uma operação matemá-
tica que envolve tanto o número de elementos do conjunto (denominador) quanto
o somatório destes valores (numerador).
5. Vantagens do uso da média:
• A média é a Estatística de Tendência Central de mais fácil compreensão. É
utilizada de forma generalizada, na Estatística Descritiva e na Inferencial;
• A média sempre pode ser calculada em conjuntos numéricos;
• Pode ser tratada algebricamente. Por exemplo, se um conjunto muito grande
de valores é subdividido, as médias dos subconjuntos podem ser combinadas,
para fornecer a média do conjunto original.
6. Desvantagens do uso da média:
• Como seu valor pode ser distorcido pela presença de elementos extremos no
conjunto, há de se fazer uma verificação na distribuição destes valores, para
julgar se a média é boa ou ruim para caracterizar o conjunto.
A. F. Beraldo 37
2. Medidas Estatísticas de Tendência Central
2.1.5 Propriedades da Média Aritmética
Propriedade I
Seja um conjunto A, de valores numéricos, definido como
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA.
Seja um conjunto B, definido como
B = {x1 + k, x2 + k, x3 + k, · · · , xn + k} = {xi + k}n, (sendo k uma constante) e
com média XB.
A média XB será igual a XA + k.
Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de um
conjunto, a nova média será a média do conjunto original somada (ou diminuída)
a esta constante K.
Propriedade II
Seja um conjunto A, de valores numéricos, definido como
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA.
Seja um conjunto B, definido como
A = {x1 · k, x2 · k, x3 · k, · · · , xn · k} = {xi · k}n, e com média XB.
(sendo k uma constante diferente de zero)
A média XB será igual a XA × k.
Propriedade III
Seja um conjunto A, de valores numéricos, definido como
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA.
Sejas as diferenças (ou desvios) di = xi − XA (diferença entre cada elemento do
conjunto em relação à média). Temos que:
i=n∑
i=1
di = 0
Ou seja, a soma algébrica dos valores das diferenças dos elementos em relação à
média do conjunto é sempre nula.
38 A. F. Beraldo
2.2 Moda
Propriedade IV
Seja um conjunto A, de valores numéricos, definido como
A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA.
Sejam as diferenças (ou desvios) di = xi − V (diferença de cada elemento do
conjunto em relação a um valor V qualquer.
Temos que ∑i=n
i=1 d
2
i é um mínimo quando V = XA
2.2 Moda
Definição: A moda de um conjunto de valores numéricos é o valor de maior
frequência dentro do conjunto.
Assim, um conjunto pode possuir uma moda apenas, ou pode possuir mais de uma
moda, ou pode não possuir moda. Para que um conjunto possua moda, é necessário
que:
1. Existam valores repetidos no conjunto;
2. No conjunto, existam um ou mais valores que se repitam mais vezes do que os
demais.
A moda é notada por X̂. A frequência da moda, ou das modas, é chamada
frequência modal
(
fk
)
.
Exemplo: Seja o conjunto A = {1, 3, 4, 5, 5, 8, 5}. Sua moda X̂ = 5, a frequência
modal
(
fk
)
= 3 (o elemento 5 repete-se mais do que os demais, e repete-se 3 vezes).
Exemplo: Seja o conjunto B = {1, 3, 4, 5, 5, 8, 4}. Suas modas são X̂ = 5 e X̂ = 4, e
frequência modal
(
fk
)
= 2 (os elementos 5 e 4 repetem-se mais do que os demais, sendo
2 vezes cada).
Exemplo: Seja o conjunto C = {1, 1, 4, 5, 5, 4}. Este conjunto não possui moda.
Apesar de haver repetição de valores, nenhum valor do conjunto repete-se mais
vezes que os demais.
Exemplo: Seja o conjunto D = {1, 1, 1, 1, 1, 1}. Este conjunto não possui moda.
Apesar de haver repetição do valor 1, nenhum valor do conjunto repete-se mais do que
os demais. Apesar disto, é óbvio que o valor 1 é o valor característico do conjunto.
A. F. Beraldo 39
2. Medidas Estatísticas de Tendência Central
Comentários
1. A moda não é muito considerada pelos estatísticos uma vez que ela pode não
ocorrer ou, o que é pior, pode existir mais de uma moda na amostra. Desta forma,
ficaríamos em dúvida de qual dos valores da moda usar - lembre-se que uma medida
de tendência central tem que ser um valor único.
2. Muitos alunos tendem a procurar “sub-modas” na distribuição, quando há elemen-
tos com frequência próxima à frequência modal. Isto não é correto. A moda terá
a maior frequência dentro do conjunto.
3. Outro erro muito comum é, quando a distribuição possui duas modas, inventar-se
uma “moda média”, que seria o valor médio entre as modas. Esta “moda média”
não existe.
4. Mesmo que a moda possa não ser utilizada como Medida de Tendência Central (no
caso de duas ou mais modas, por exemplo), ela não perde sua utilidade. As modas
fornecem indícios que existem vários pontos de concentração na amostra, o que
pode caracterizar um conjunto formado por vários subconjuntos - e é assim que a
amostra deve ser analisada.
5. A moda é diretamente afetada pelo número de repetições dos elementos do
conjunto.
6. Vantagens da moda:
a Quando a frequência modal é alta (por exemplo, 50% do conjunto), a moda
passa a ser o valor “típico” do conjunto;
b A moda não é afetada por valores extremos do conjunto;
c Ao contrário da média, se um conjunto possui moda(s), esta(s) pertence(m)
necessariamente ao conjunto.
7. Desvantagens da moda
a A moda pode não existir;
b O conjunto pode ser bimodal ou polimodal
c A frequência modal é muito baixa (poucas repetições), o que torna a moda não
característica do conjunto.
40 A. F. Beraldo
2.3 Mediana
2.3 Mediana
Definição: A mediana é o valor central de um conjunto ordenado.
A mediana é notada por X̃.
Seja o conjunto A = {1, 4, 6, 3, 9}. Para calcular sua mediana, temos que ordenar o
conjunto (vide definição acima). Ordenado, oconjunto passa a ser:
A′ = {1, 3,4, 6, 9}
O valor central (no “meio” do conjunto) é o elemento 4. Portanto, a mediana deste
conjunto é X̃ = 4.
Em conjuntos pequenos, de tamanho ímpar, é fácil determinar a mediana. Se o
conjunto possui n elementos e n é ímpar, a mediana ocupa a posição central (n+ 1)/2.
No exemplo acima, como o conjunto possui 5 elementos, a mediana está na 3a posição,
pois (5 + 1)/2 = 3.
Figura 2.1: Conjunto de tamanho ímpar
No entanto, em conjuntos pequenos, de tamanho par, temos duas posições centrais:
Figura 2.2: Conjunto de tamanho par
A. F. Beraldo 41
2. Medidas Estatísticas de Tendência Central
Neste caso, a mediana será a média dos dois valores centrais. Por exemplo, seja
o conjunto B = {1, 0, 3, 5, 4, 9, 2, 1}. O conjunto ordenado será:
B′ = {0, 1, 1, 2, 3, 4, 5, 9}
Os valores centrais são 2 e 3. Portanto, a mediana deste conjunto é X̃ = (2 + 3)/2 =
2, 5
Comentários
1. A mediana é considerada a Medida de Tendência Central mais robusta, uma vez
que não sofre a desvantagem da média de se alterar devido à presença de valores
extremos.
2. Como se vê, o valor da mediana depende apenas de sua posição. Logicamente, se
o tamanho do conjunto é alterado, a mediana pode deslocar-se para cima ou para
baixo.
3. Vantagens da mediana:
a A mediana, por ser independente dos valores do conjunto, pode ser calculada
mesmo para conjuntos abertos;
b Sua robustez.
4. Desvantagens da mediana:
a A mediana não é característica do conjunto se a distribuição de valores for
bimodal ou polimodal (áreas de concentração diferentes);
b Se um conjunto for de tamanho par, a mediana terá que ser “inventada”, em
uma posição arbitrada 1.
1Não consideremos isto uma desvantagem. Mesmo que a mediana não pertença ao conjunto, sua
finalidade como medida de tendência central ou de posição não se perde. Sempre saberemos que 50%
dos valores do conjunto estão abaixo da mediana, e 50% acima dela. É isso que importa.
42 A. F. Beraldo
2.4 Ponto Médio
2.4 Ponto Médio
Definição: O ponto médio de um conjunto é a média entre o maior valor e o menor
valor do conjunto.
O ponto médio é notado por x . A expressão de cálculo é
x = Maior valor + Menor valor
2 (2.5)
Por exemplo, seja o conjunto A = {3, 8, 1, 9, 4}. Seu ponto médio, x, é dado por
x = Maior valor + Menor valor
2 = 9 + 1
2 = 10
2 = 5, 0
A. F. Beraldo 43
3 Medidas Estatísticas de Dispersão
Até aqui estudamos as Medidas de Tendência Central. Procuramos um valor único
que represente todo um conjunto numérico. Com a determinação deste valor, seja ele
a média, a moda ou a mediana, aumentamos ainda mais o nível de conhecimento que
possuímos sobre a amostra. Prosseguindo nosso estudo; vamos adotar a Média como
Medida de Tendência Central (por mais imperfeita que possa ser esta medida), e verificar
como os demais elementos do conjunto se dispõem em torno da média.
Na prática, podemos obter amostras regulares, com a maioria de seus elementos
concentrados em torno da média, ou irregulares, com valores dispersos, distantes
da média. Alguns conjuntos são extremamente regulares, como as medidas de peças
fabricadas em série, em indústrias com um bom controle de qualidade. Outros, ao
contrário, são bastante heterogêneos como, por exemplo, as idades dos habitantes de
uma cidade - temos desde recém-nascidos até pessoas de idade bem avançada.
Figura 3.1: Conjunto A
No conjunto A, os elementos da amostra se concentram de maneira quase uniforme,
em torno da região central (em cinza). Existem alguns elementos, inclusive, dentro da
área cinzenta. Se imaginarmos que esta área cinzenta representa a Medida de Tendência
Central (no caso, a média), teremos um conjunto de pouca dispersão em torno da média.
A. F. Beraldo 45
3. Medidas Estatísticas de Dispersão
Figura 3.2: Conjunto B
Ao contrário, no conjunto B, os elementos da amostra se afastam da região central,
estando dispersos por todas as regiões da amostra. Uns poucos elementos se encontram
próximos a esta região central; o restante dos elementos da amostra se distribui irregu-
larmente. Comparando as duas ilustrações, formamos um conceito, ainda que visual, de
uma grandeza chamada dispersão.
3.1 Amplitude
Amplitude (R) é simplesmente a distância entre o maior valor e o menor valor de um
conjunto de dados. Por exemplo, a Amplitude do conjunto A = {1, 3, 5, 5, 5, 8} é igual
a R = 8− 1 = 7.
Outra forma de mostrar a Amplitude de um conjunto é a que utiliza a notação da
teoria dos conjuntos: [a, b] significando um intervalo fechado, sendo a o menor valor e b
o maior valor. Para o exemplo acima, teremos R = [1, 8].
46 A. F. Beraldo
3.2 Desvios e Desvio Médio
3.2 Desvios e Desvio Médio
O nosso problema, agora que já temos uma ideia visual do que seja concentração
ou dispersão, é quantificar esta dispersão em torno da média. Na ilustração ao lado,
mostramos uma tentativa de quantificação desta grandeza. Medimos a distância entre
cada elemento da amostra e a média do conjunto. Esta distância é chamada de desvio
de um elemento, que notaremos por di. Assim, cada elemento da amostra poderá ter
seu desvio calculado em relação à média. É uma medida ainda bem primitiva, mas já é
um começo.
Figura 3.3: Desvios
Exemplificando, seja o conjunto A = {0, 3, 2, 7, 8, 4}. A média deste conjunto é
X =
∑
xi
n
= 0 + 3 + 2 + 7 + 8 + 4
6 = 24
6 = 4, 0
Os desvios dos elementos são calculados pela fórmula:
di = xi −X (3.1)
A. F. Beraldo 47
3. Medidas Estatísticas de Dispersão
Onde di é o desvio de um elemento xi e X é a média do conjunto. Calculando os
desvios dos elementos do conjunto, temos:
Tabela 3.1: Desvios dos elementos do conjunto
xi di
0 0− 4 = −4
3 −1
2 −2
7 +3
8 +4
4 0
Σ 0
Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorrem
quando os elementos são menores que a média; desvios positivos acontecem quando os
elementos são maiores do que a média; desvios nulos ocorrem quando os elementos são
coincidentes com a média. Assim, podemos ter:
di > 0 o que indica que xi > X , ou que o elemento xi está acima da média X
di = 0 o que indica que xi = X , ou que o elemento xi coincide com a média X
di

Mais conteúdos dessa disciplina