Apostila_Estatstica_Descritiva_2020

•
UFSJ

pedro romerio alkimim
10/06/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 69 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 69 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 69 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatisitica

5.354 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
1
ESTATÍSTICA DESCRITIVA
PROFª: LUCIANE TEIXEIRA PASSOS GIAROLA
2020
2
CAPÍTULO 1: O QUE É ESTATÍSTICA
O que é Estatística? Porque estudar Estatística? Em que seu estudo
pode auxiliar?
A Estatística está presente no nosso cotidiano. Veja as frases a seguir:
“Setenta por cento dos 1.500 danos à espinha dorsal em menores de
idade resultam de acidentes de carro e 68% dos feridos não estavam
usando o cinto de segurança” (Larson e Farber, 2010).
“Considerando as próximas eleições para presidente do Brasil, o
candidato A tem 41% das intenções de voto, com uma margem de erro de
2% para mais ou para menos”.
Tais informações são baseadas na coleta de dados.
Denomina-se por dados a um (ou mais) conjunto de valores,
numéricos ou não. Dados consistem em informações que vêm de
observações, contagens, medições ou respostas. Na busca pela
compreensão de dados, surgiu a Estatística.
Estatística é a ciência que coleta, organiza, analisa e interpreta dados
para a tomada de decisões em qualquer área do conhecimento. Técnicas
estatísticas são utilizadas nas mais diversas áreas da atividade humana:
• Medicina: diagnóstico, prognóstico, ensaios clínicos;
• Genética: estudos da cura de doenças;
• Epidemiologia: estudos de dados de saúde;
• Agricultura: experimentação agrícola
• Indústria: controle de qualidade, previsão de demanda,
gerenciamento eficiente, mercado e finanças;
• Governo: disseminação da informação, políticas de decisão,
serviços públicos;
• Economia: técnicas econométricas e análises de séries temporais;
• Pesquisa: artes, arqueologia, ciências agrárias, ciências exatas,
ciências sociais, literatura, meio ambiente, mercado, petróleo;
• Direito: evidência estatística, teste de DNA, investigação criminal;
Principais atuações da Estatística:
• Bioestatística: estatística aplicada às ciências da vida;
• Biometria: aspectos estatísticos e matemáticos da Biologia;
• Demografia: estudo da população humana e sua evolução no
tempo;
• Econometria: estudo de problemas econômicos combinando
métodos estatísticos e matemáticos com teoria econômica;
• Epidemiologia: campo da medicina que trata do estudo de dados na
área da saúde;
3
• Sociometria: estudo de problemas sociais através da Estatística
O crescimento e desenvolvimento da Estatística foram impulsionados
pelo avanço das técnicas computacionais. Foram desenvolvidos diversos
pacotes estatísticos utilizados no meio acadêmico, em indústrias, bancos,...,
tais como Minitab, Splus, SPSS, SAS, Sisvar, R, Biostat, Eviews,
Estatística, Origin,...
O trabalho da estatística envolve a análise exploratória do conjunto
de dados (estatística descritiva) a modelagem (probabilidade, regressão,..)
do mesmo e a tomada de decisões (inferência) em situações de incerteza.
Assim, a estatística pode ser dividida em:
• Estatística Descritiva: conjunto de técnicas destinadas a descrever e
resumir os dados a fim de tirar conclusões a respeito de características
de interesse. Através dela obtem-se a maior quantidade possível de
informações que permitam indicar modelos que expliquem o conjunto
de dados ou que permitam tomar decisões a cerca do problema em
questão (medidas de posição, variabilidade, assimetria e técnicas
gráficas).
• Probabilidade: teoria matemática utilizada para se estudar a
incerteza associada a fenômenos aleatórios.(modelos probabilísticos)
• Inferência Estatística: técnicas que possibilitam a extrapolação, a
um grande conjunto de dados (população), das informações e
conclusões obtidas a partir de um subconjunto de valores (amostra).
Dessa forma, a Estatística busca descrever a população de forma
mais fidedigna possível.
Figura1: Estatística na prática (Chiann, 2017 [1])
4
CAPÍTULO 2: INTRODUÇÃO À AMOSTRAGEM
2.1 INTRODUÇÃO
Quando se deseja estudar uma ou mais características (variáveis)
de uma população, nem sempre é possível fazer um levantamento da
população por completo. Isso ocorre por diversas razões, tais como: a
população é infinita, os custos de coleta das informações para toda a
população são muito altos, o tempo de coleta é muito grande
inviabilizando a pesquisa, deseja-se analisar características da
população para as quais é necessário submeter as unidades
observacionais a testes destrutivos. Daí surge a necessidade de se
investigar apenas uma parte da população, através da coleta de uma
amostra, de modo que os resultados possam ser inferidos (generalizados)
o mais legitimamente possível para os resultados da população total,
caso esta fosse observada (censo).
A amostragem apresenta vantagens em relação ao censo1. Como
os dados são referentes a uma parte da população, a amostragem é
mais barata que o censo. A Pesquisa Nacional por Amostragem de
domicílios (PNAD) é feita pelo Instituto Brasileiro de Geografia e
Estatística (IBGE) em menos de 1% das residências. Os institutos de
pesquisa avaliam a opinião pública em pesquisas de mercado utilizando
poucos milhares de pessoas e em certos casos até mesmo algumas
centenas de consumidores (Muniz & Abreu, 1999).
A amostragem também apresenta maior rapidez que o censo em
decorrência do menor volume de dados. Também a utilização de uma
equipe bem treinada e equipamento sofisticado para obtenção dos dados
pode ser necessária e isto pode inviabilizar o censo. Nesse sentido, em
situações nas quais o censo é inviável, a amostragem pode ser utilizada,
dado sua flexibilidade.
Em decorrência da possibilidade de trabalhar com uma equipe de
melhor nível, mais bem treinada e ainda de se poder acompanhar melhor
a coleta e a tabulação dos dados, em virtude da redução do volume de
trabalho, a amostragem pode proporcionar maior exatidão nos resultados
(Muniz & Abreu, 1999). Mas, como selecionar essa amostra?
Para a seleção das amostras de tal forma que elas sejam
representativas da população é necessário a utilização de técnicas
específicas denominadas Técnicas de Amostragem. Assim, o problema
da amostragem consiste em “escolher” uma amostra que represente a
1 Censo: Estudo de todos os elementos da população.
5
população. Existem dois caminhos diferentes no processo de
amostragem para se determinar uma amostra: amostragem probabilística
e amostragem não probabilística.
Quando se planeja uma pesquisa por amostragem, considera-se
que todas as amostras possíveis da população tem probabilidade
diferente de zero de serem selecionadas. Assim, a seleção da amostra é
feita de modo aleatório, permitindo a aplicação da teoria da Probabilidade
Estatística e a obtenção de uma estimativa do erro amostral. Nesse caso,
diz-se que a amostragem é probabilística.
Em situações nas quais restrições práticas impedem que a
seleção da amostra seja totalmente aleatória, obtém-se amostras não
probabilísticas. A amostragem não probabilística é a amostragem
subjetiva, ou por julgamento, na qual a variabilidade amostral não pode
ser estabelecida com precisão.
O uso da Amostragem só não é interessante quando:
� população pequena: não há necessidade de utilizar técnicas estatísticas,
pois neste caso é aconselhável realizar o censo. (Análise de toda a
população);
� característica de fácil mensuração:talvez a população não seja tão
pequena, mas a variável que se quer observar é de tão fácil mensuração,
que não compensa investir num plano de amostragem. Por exemplo,
para verificar a porcentagem de funcionários favoráveis à mudança no
horário de um turno de trabalho, podemos entrevistar toda a população
no próprio local de trabalho. Esta atitude pode ser politicamente mais
recomendável.
� necessidade de alta precisão: a cada dez anos o IBGE realiza um Censo
Demográfico para estudar diversas característica da população brasileira.
Dentre estas características têm-se o número de habitantes do país, que
é fundamental para o planejamento do país. Desta forma, o número de
habitantes precisa ser avaliado com grande precisão e, por isto, se
pesquisa toda a população.
2.2 CONCEITOS BÁSICOS
Amostragem: Estudo da relações existentes entre a amostra e a
população de onde foi extraída. A amostragem é utilizada usualmentecom
o objetivo de estimar parâmetros da população, como por exemplo a média
(µ) e a variância (σ2) ou a proporção (p) de uma determinada característica.
A estimação com base nas propriedades estatísticas dos estimadores.
População (universo do estudo): Conjunto de elementos com uma ou
mais características em comum.
6
Amostra: Parte da população em que o estudo será conduzido. Um
exemplo é um grupo de tamanho n=130 dos estudantes da UFSJ, os
quais foram escolhidos por sorteio.
Figura 1: Ilustração de uma população e três amostras possíveis.
EXEMPLOS:
a) Considere uma pesquisa para estudar os salários dos
500 funcionários de uma empresa. Seleciona-se uma
amostra de 36 indivíduos, e anotam-se os seus salários.
População:
Amostra:
Variável:
b) Deseja-se estudar a proporção de indivíduos na cidade A que são
favoráveis a certo projeto governamental. Uma amostra de 200
pessoas é sorteada e a opinião de cada uma é registrada como sendo
a favor ou contra o projeto.
População:
Amostra:
Variável:
c) O interesse é investigar a duração de vida de um novo tipo de
lâmpada, pois acredita-se que ela tenha uma duração maior do que as
fabricadas atualmente. Então, 100 lâmpadas do novo tipo são
deixadas acesas até queimarem. A duração em horas de cada
lâmpada é registrada.
População:
Amostra:
Variável:
7
Se o conjunto de dados é uma população ou uma amostra
depende do contexto da vida real, da proposta da pesquisa.
Parâmetro: Valor desconhecido associado a uma característica da
população. a média (µ) e a variância (σ2) ou a proporção (p).
Estimador: Função que estima o valor de um parâmetro baseando-se nas
observações de uma amostra. As expressões:
( )
n
x
p
N
Xx
S
N
x
X i
i
i
i
=
−
−
==
∑∑
,
1
,
2
2
são respectivamente estimadores da média (µ), da variância (σ2) e da
proporção (p).
Estimativa: Valor obtido pelo estimador para os dados de uma amostra.
Inferência estatística: Consiste em concluir sobre a população com base
nos dados obtidos na amostra. È importante salientar que inferências em
estudos de amostragem são feitas sempre considerando a margem de
erro.
8
CAPÍTULO 3: ESTATÍSTICA DESCRITIVA - RESUMO DE
DADOS
3.1VARIÁVEIS E SUAS CLASSIFICAÇÕES
Uma variável é qualquer característica associada a uma população,
conforme já mencionado anteriormente. Ao coletar um conjunto de dados,
para cada elemento associa-se o resultado de uma característica. O
resultado da característica (variável sob estudo) é o que se chama de
realização da variável. A realização de uma variável pode ser uma
qualidade/ atributo ou um número resultante de uma contagem ou
mensuração. De acordo com sua realização a variável é classificada como
qualitativa ou quantitativa, conforme o esquema abaixo:
NOMINAL
(sem ordenação)
QUALITATIVA
(Atributo ou qualidade)
ORDINAL
(ordenação)
VARIÁVEL
DISCRETA
QUANTITATIVA (Contagem; enumerável)
(Numérica)
CONTÍNUA
(intervalo de números reais)
Para exemplificar, considere o levantamento sobre alguns aspectos
socioeconômico dos empregados da seção de orçamentos da Companhia
MB, dados na Tabela 1 abaixo. Este conjunto de dados será utilizado ao
longo do texto.
9
Tabela 1: Aspectos socioeconômicos dos 36 empregados da seção de
orçamentos da Companhia MB
no Estado
civil
Grau de
instrução
no de
filhos
Idade
Anos
Região de
procedência
Salário
(X salários
mínimos)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Casado
Casado
Fundamental
Fundamental
Fundamental
Médio
Fundamental
Fundamental
Fundamental
Fundamental
Médio
Médio
Médio
Fundamental
Médio
Fundamental
Médio
Médio
Médio
Fundamental
Superior
Médio
Médio
Médio
Fundamental
Superior
Médio
Médio
Fundamental
Médio
Médio
Médio
Superior
Médio
Superior
Superior
Médio
Superior
-
1
2
-
-
0
-
-
1
-
2
-
-
3
0
-
1
2
-
-
1
-
-
0
2
2
-
0
5
2
-
1
3
-
2
3
26
32
36
20
40
28
41
43
34
23
33
27
37
44
30
38
31
39
25
37
30
34
41
26
32
35
46
29
40
35
31
36
43
33
48
42
Interior
Capital
Capital
Outro
Outro
Interior
Interior
capital
capital
outro
interior
capital
outro
outro
interior
outro
capital
outro
interior
interior
outro
capital
outro
outro
interior
outro
outro
interior
interior
capital
outro
interior
capital
capital
capital
interior
4.00
4.56
5.25
5.73
6.26
6.66
6.86
7.39
7.59
7.44
8.12
8.46
8.74
8.95
9.13
9.35
9.77
9.80
10.53
10.76
11.06
11.59
12.00
12.79
13.23
13.60
13.85
14.69
14.71
15.99
16.22
16.61
17.26
18.75
19.40
23.30
Fonte: Bussab & Morettin (2007)
10
As variáveis como número de filhos, salário (expresso como fração do
salário mínimo), idade (medida em anos e meses), apresentam como
possíveis resultados números resultantes de uma contagem ou mensuração,
logo, estas variáveis são chamadas de variáveis quantitativas. A
realização da variável número de filhos apresenta valores que formam um
conjunto finito ou enumerável de números, e que resultam de uma
contagem. Assim, essa variável é classificada como variável quantitativa
discreta. Já as variáveis salário e idade apresentam valores que pertencem
a um intervalo de números reais e que resultam de uma mensuração. Então,
essas variáveis são classificadas como variáveis quantitativas contínuas.
As variáveis Grau de instrução, Estado civil e Região de procedência,
apresentam como possíveis resultados uma qualidade (ou atributo) do
indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis
qualitativas. Para as variáveis estado civil e região de procedência não
existe nenhuma ordenação nos possíveis resultados e, por isso, essas
variáveis são chamadas variáveis qualitativas nominais. Já para a
variável Grau de instrução existe uma ordem natural nos seus resultados e,
por isso, ela é classificada como variável qualitativa ordinal.
Outros exemplos:
• Variável qualitativa:
a) Nominal: sexo (gênero), cor dos olhos, raça.
b) Ordinal: classe social, meses do ano.
• Variável quantitativa:
a) Discreta: número de carros, número de equipamentos defeituosos.
b) Contínua: peso, altura, tempo (de vida)/duração de um
equipamento.
3.2 DISTRIBUIÇÕES DE FREQUÊNCIA
O objetivo da estatística é descrever uma população da forma mais
fidedigna possível. É sabido que se deve coletar dados, isto é, retirar uma
amostra, de uma população para estudar e compreender características de
interesse sobre ela, estudar o comportamento de uma variável através de
suas realizações.
Na maioria dos casos, o conjunto de dados é formado por uma grande
massa de dados. Então, deve-se procurar sintetizar ao máximo a
informação nele existente, a fim de facilitar o manuseio, visualização,
análise dos dados e compreensão da “situação problema”.
Como realizar este estudo (descrição) de forma eficiente? Uma
maneira é construir tabelas e gráficos que permitam uma melhor
11
visualização do problema em questão, além de subsidiar trabalhos
estatísticos posteriores. Para isso, utiliza-se a distribuição de frequências.
Pode-se também sintetizar as informações calculando algumas medidas
numéricas como: média, mediana, desvio padrão, entre outras.
É importante salientar que para cada tipo de variável existem técnicas
apropriadas para resumir as informações. No entanto, será visto que
técnicas usadas num caso, podem ser adaptadas para outros casos.
3.2.1 Representação da variável qualitativa
Considere a variável qualitativa nominal “estado civil”, do exemplo
anterior. Deseja-se dispor o conjunto de realizações desta variável de modo
resumido a fim de se ter uma idéia global sobre elas, ou seja, de sua
distribuição.
A melhor forma de resumir os dados (informações) desta variável é
apresentando o número de ocorrências (freqüência) das possíveis
realizações (categorias) desta variável. Este número pode ser registrado
através de 5 tipos de freqüência:• Freqüência absoluta (ni) – Número de casos ocorridos em cada
categoria
• Freqüência relativa (fi) – Número de casos de uma categoria em
relação a todas as ocorrências (total de observações - n); indica a
proporção de cada categoria. São úteis na comparação de resultados
de duas pesquisas distintas, pois envolvem o mesmo total.
i
i
n
f
n
=
• Freqüência percentual(100fi) – é a freqüência relativa multiplicada
por cem (100); indica a porcentagem.
• Freqüência acumulada(Ni) – é a soma da frequência da categoria
e de todas as categorias que a antecedem; indica quantos elementos
estão abaixo de um certo valor.
• Porcentagem acumulada(100Fi) – é a soma da freqüência
percentual da categoria e de todas as categorias que a antecedem;
indica qual porcentagem de elementos estão abaixo de um certo valor.
Os resultados são registrados em uma tabela. De uma maneira geral
uma tabela deve conter os seguintes componentes:
• Título – deve trazer informação sobre o conteúdo existente na tabela,
sendo opcional a descrição do local e forma de coleta dos dados.
• Cabeçalho – local onde deve-se especificar as variáveis em estudo e
suas características (freqüências);
12
• Corpo – são as colunas e as sub-colunas onde são anotados os
dados apurados, podendo ter entrada: simples, dupla ou múltipla.
• Coluna indicadora – local onde são anotadas as classes da variável
em questão;
• Linha de totais – linha na qual quantificam-se os totais;
• Rodapé – são anotadas todas as informações que venham a
esclarecer a interpretação da tabela; local reservado para se colocar
a fonte dos dados e, quando necessário, a legenda. (Rocha, 2015).
Assim, vamos tomar os dados da Tabela 1 e construir sua
distribuição de frequências (Tabela 2).
Título
Tabela 2: Distribuição de freqüências dos 36 empregados da
seção de orçamentos da Companhia MB, segundo a região de procedência.
Cabeçalho
Corpo
Linha de totais
Coluna indicadora
Se a variável for qualitativa ordinal você deve escrever as
categorias respeitando sua ordem natural. Considere a variável Grau de
instrução nos dados da Tabela 1.
Tabela 3: Frequências e Porcentagens dos 36 empregados da seção de
Orçamentos da Companhia MB segundo o Grau de Instrução.
Grau de Instrução Frequência (ni) Proporção (fi) Porcentagem
(100fi)
Fundamental 12 0,3333 33,33
Médio 18 0,5000 50,00
Superior 6 0,1667 16,67
Total 36 1,0000 100,00
Fonte: Bussab & Morettin (2007)
Região de procedência ni fi 100 fi
Capital 11 0,306 30,6
Interior 12 0,333 33,3
Outra 13 0,361 36,1
Total 36 1,000 100,0
13
Pode-se utilizar a proporção para comparar a variável Grau de
instrução para empregados da seção de orçamentos da companhia MB com
a mesma variável para todos os empregados da Companhia. Considerando
que a empresa tenha 2000 empregados e que sua distribuição de
freqüências está dada na Tabela 4, não se pode comparar diretamente as
colunas das freqüências das Tabelas 3 e 4. Mas, pode-se fazer isso com as
colunas das porcentagens dessas tabelas, pois as freqüências estão
reduzidas a um mesmo total.
Tabela 4: Frequências e porcentagens dos 2000 empregados da
Companhia MB, segundo o Grau de Instrução.
Grau de Instrução Frequência (ni) Porcentagem
(100fi)
Fundamental 650 32,50
Médio 1020 51,00
Superior 330 16,50
Total 2000 100,00
Fonte: Bussab & Morettin (2007)
Pode-se atribuir valores numéricos aos atributos de uma variável
qualitativa e, posteriormente, analisá-los da mesma forma que é feito com
as variáveis quantitativas discretas, desde que seja possível a interpretação.
Se a variável possui apenas dois atributos, atribuímos o valor zero (0) para
uma categoria e o valor um (1) para a outra categoria. Neste caso, a
variável é denominada dicotômica e diz-se que ela possui duas realizações:
sucesso e fracasso.
3.2.2 Representação da variável quantitativa discreta
É feita de maneira ordenada, de forma semelhante às qualitativas.
Basta definir as categorias, contar a frequência em cada uma delas e dispor
esta informação em uma tabela. Um exemplo é dado na Tabela 5 para a
variável número de filhos.
Tabela 5: Frequências e porcentagens dos empregados da seção de
orçamentos da Companhia MB, segundo o número de filhos.
Nº de filhos (Zi) Frequência (ni) Porcentagem (100fi)
0 04 20
1 05 25
2 07 35
3 03 15
5 01 05
Total 20 100
Fonte: Bussab & Morettin (2007)
14
Na distribuição de frequências das variáveis discretas não existe perda
dos dados originais. Essa distribuição é adequada quando o número de
elementos distintos da série de dados é pequeno. Quando o número de
elementos distintos for grande é preferível fazer a distribuição através de
intervalos, como é feito com as variáveis quantitativas contínuas.
3.2.3 Representação da variável quantitativa contínua
Uma variável quantitativa contínua é obtida por meio de uma medição e,
portanto, pode assumir qualquer valor dentro de uma escala real. Para
construir a distribuição de frequências deste tipo de variável, não se tem
definidas as categorias como nos exemplos anteriores. Assim, constroem-se
faixas ou classes dentro das quais os dados serão alocados (agrupados). As
classes são intervalos, geralmente semi-abertos à direita, de números reais.
Este procedimento provoca perda de informação.
Mas quantas e quais classes devem ser construídas? Bussab &
Morettin (2007) afirmam que esta escolha é arbitrária, depende da
familiaridade do pesquisador. Se for construído um pequeno número de
classes, a informação ficará bem resumida, mas a perda de informação será
grande. Por outro lado, se for construído um grande número de classes, não
se perde tanta informação, mas se perde no objetivo de resumir os dados.
Os autores sugerem a construção de 5 a 15 classes de mesma amplitude
(comprimento dos intervalos).
Considerando a variável salário nos dados da Tabela 1, construiu-se
uma possível distribuição de frequências, considerando 5 classes de
amplitude 4. Veja a Tabela 6.
Tabela 6: Frequências e Porcentagens dos 36 empregados da seção de
orçamentos da Companhia MB por faixa de salário.
Classe de salários Frequência (ni) Porcentagem (100fi)
4,00 |- 8,00 10 27,78
8,00 |-12,00 12 33,33
12,00 |- 16,00 8 22,22
16,00 |- 20,00 5 13,89
20,00 |- 24,00 1 2,78
Total 36 100,00
Fonte: Bussab & Morettin (2007)
Na Tabela 7 a seguir, são apresentadas as frequências acumuladas.
15
Tabela 7: Distribuição de frequências acumuladas da variável Salário.
Classe de
salários
Frequência
(ni)
Frequência
Acumulada
(Ni)
Porcentagem
(100fi)
Porcentagem
Acumulada
(100Fi)
4,00 |- 8,00 10 10 27,78 27,78
8,00 |-12,00 12 22 33,33 61,11
12,00 |- 16,00 8 30 22,22 83,33
16,00 |- 20,00 5 35 13,89 97,22
20,00 |- 24,00 1 36 2,78 100,00
Total 36 - 100,00 -
Fonte: Bussab & Morettin (2007)
A frequência acumulada que aparece na segunda linha da Tabela 8,
cujo valor é 22, indica que 22 dos 36 empregados ganham até 12 salários.
O mesmo ocorre com a porcentagem acumulada: 61,11% dos 36
empregados ganham até 12 salários.
Para facilitar e de certa forma padronizar a construção das classes,
Fonseca e Martins (1996) apresentam uma regra prática descrita passo a
passo a seguir:
• Passo 1 - Definir o número de classes (k):
� Em se tratando de uma população finita : 05 < k < 20.
� Em se tratando de amostra:
� Se o tamanho da amostra for menor que 100 ( n < 100): k n≈
� Se n ≥ 100, k ≈ 1+ 3,22logn;
• Passo 2 – Calcular amplitude total dos dados(R);
R = xmáx – xmín
• Passo 3 – Calcular a amplitude de classe (c);
R
c
k
=
Obs: Arredondar para cima, utilizando sempre o mesmo número de
casas decimais dos dados.
• Passo 4 – Encontrar os Limites das classes
� 1a Classe
� Limite Inferior (LI1 ) é menor valor observado no conjunto de
dados ou um valor um pouco inferior)
� Limite Superior = Limite inferior + amplitude de classe.
(LS1 = LI1+c)
16
� 2a Classe
� LI2 = LS1 e LS2 = LI2 + c
� 3a Classe
� LI3 = LS2 e LS3 = LI3 + c, e assim por diante.
•Passo 5 – Contagem dos elementos pertencentes a cada classe;
(Frequência absoluta)
•Passo 6 – Cálculo das frequências relativas, percentuaise
acumuladas.
EXEMPLO: Mediu-se a pluviosidade durante os últimos 30 anos em
São João del Rei. Os dados encontram-se na Tabela 8. Com base nos
dados brutos construa a distribuição de frequências para este caso.
Tabela 8: Índice de pluviosidade nos últimos 30 anos em São João del
Rei.
Fonte: dados hipotéticos (Rocha, 2015)
• Passo 1 - Definir o número de classes (k):
População finita⇒ Escolher 05 < k < 20 ⇒ k = 6 classes
• Passo 2 – Calcular amplitude total dos dados(R);
R = xmáx – xmín = 43,5 – 13,5 = 30
• Passo 3 – Calcular a amplitude de classe (c);
30
5
6
R
c
k
= = =
• Passo 4 – Encontrar os Limites das classes
� 1a Classe
LI1 = xmín = 13,5
 
15,2 14,6 27,9 24,9 20,0 43,5 
23,4 17,8 26,9 30,8 19,9 36,8 
25,1 42,0 35,2 15,6 25,5 29,7 
30,1 30,1 22,1 24,4 28,7 35,0 
28,0 25,3 31,8 31,0 28,3 13,5 
 
17
LS1 = LI1+c = 13,5 + 5 =18,5
� 2a Classe
LI2 = LS1= 18,5 e LS2 = LI2 + c = 18,5 + 5 = 23,5
� 3a Classe
LI3 = LS2 = 23,5 e LS3 = LI3 + c = 23,5 + 5 = 28,5 , e assim por
diante.
•Passo 5 – Cálculo da frequência absoluta.
•Passo 6 – Cálculo das frequências relativas, percentuais e
acumuladas.
Tabela 9 - Distribuição de frequências da pluviosidade anual para os
últimos 30 anos em SJDR.
Fonte: Dados hipotéticos (Rocha, 2015).
É possível, e às vezes necessário, construir classes de amplitudes
diferentes. Nesses casos, espera-se um maior número de elementos nas
classes com maior amplitude. Por isso, é importante considerar a
concentração de elementos por unidade da variável, isto é, a densidade de
frequência de cada classe ( )i in c . Assim, pode-se afirmar com segurança
qual a classe que possui maior concentração de dados. Para mais
informações sobre classes de amplitudes desiguais veja Bussab & Morettin,
2007.
Pluviosidade ni Ni fi 100 fi (%) 
13,5 |- 18,5 5 5 0,167 16,7 
18,5 |- 23,5 4 9 0,133 13,3 
23,5 |- 28,5 9 18 0,300 30,0 
28,5 |- 33,5 7 25 0,233 23,3 
33,5 |- 38,5 3 28 0,100 10,0 
38,5 |-| 43,5 2 30 0,067 6,3 
Total 30 - 1,000 100,0 
 
18
EXERCÍCIOS:
1) A Tabela abaixo mostra o índice de massa corpórea de 24 pessoas
que fizeram inscrição para um programa de condicionamento físico. Faça
a distribuição de frequências para os dados dessa tabela.
2) As autoridades tomaram uma amostra de tamanho 50 dos 270
quarteirões que compõe a região e foram encontrados os seguintes
números de casas por quarteirão:
Construa a tabela de distribuição de frequências.
3.2.4 Análise Bidimensional
Frequentemente estamos interessados em estudar mais de uma
variável. No exemplo dos empregados da seção de orçamentos da
Companhia MB são registradas informações de 6 variáveis (estado civil,
número de filhos, grau de instrução, região de procedência, idade, salário),
conforme a Tabela 1. Nesses casos, é comum estudar o comportamento
conjunto de duas ou mais variáveis. Para isso, o primeiro passo é construir
a tabela da distribuição de frequências, denominada tabela de dupla
entrada (para duas variáveis), tabela de associação, tabela de contingência
ou distribuição conjunta de frequências.
Como exemplo, considere as variáveis grau de instrução e região de
procedência na Tabela 1. Abaixo, na Tabela 9, encontra-se a distribuição
conjunta de frequências dessas variáveis.
16,4 19,1 20,9 22,0 24,9 27,6 29,4 32,6
17,5 19,3 21,3 23,7 25,1 28,2 30,9 34,6
18,3 20,6 21,9 24,8 26,7 28,4 31,5 37,9
2 2 3 10 13 14 15 15 16 16
18 18 20 21 22 22 23 24 25 25
26 27 29 29 30 32 36 42 44 45
45 46 48 52 58 59 61 61 61 65
66 66 68 75 78 80 89 90 92 97
19
Tabela 10: Distribuição conjunta de frequências das variáveis grau de
instrução e região de procedência.
Observe que existem diferentes tipos de total: total por grau de
instrução, total por região de procedência e o total geral.
Também podemos fazer a distribuição das frequências relativas,
como foi feito para o caso univariado. Aqui existem três possibilidades de
expressar a proporção de cada casela:
a) em relação ao total geral;
b) em relação ao total de cada linha e
c) em relação ao total de cada coluna.
A escolha depende do objetivo do problema em estudo. Veja as
Tabelas 11 e 12 a seguir.
Tabela 11: Distribuição conjunta das proporções em relação ao total geral
das duas variáveis em estudo.
Tabela 12: Distribuição conjunta das proporções em relação aos totais de
cada coluna das variáveis em estudo.
Grau de instrução Fundamental Médio Superior Total
Região de
Procedência
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total 12 18 6 36
Grau de instrução Fundamental Médio Superior Total
Região de
Procedência
Capital 11% 14% 6% 31%
Interior 8% 19% 6% 33%
Outra 14% 17% 5% 36%
Total 33% 50% 17% 100%
Grau de instrução Fundamental Médio Superior Total
Região de
Procedência
Capital 33% 28% 33% 31%
Interior 25% 39% 33% 33%
Outra 42% 33% 34% 36%
Total 100% 100% 100% 100%
20
Analogamente, também podemos construir a distribuição das
proporções em relação ao total das linhas. Faça isso como exercício!
3.3 GRÁFICOS
Os gráficos constituem um complemento importante da apresentação
tabular. Além de permitir uma visualização imediata da distribuição dos
valores observados, que informa sobre a variabilidade da variável, eles
servem para apresentar resultados de modo fácil, rápido, mais objetivo e
interessante, investigar a relação entre duas variáveis (diagrama de
dispersão), “ajustar” um modelo aos dados (por exemplo, uma reta), avaliar
a qualidade de um ajuste (adequacidade do modelo: gráfico de resíduos).
Para construir um gráfico de forma eficiente, três pontos são
importantes:
• Simplicidade - deve-se optar em fazer o mais simples
possível;
• Clareza - ter o cuidado de não resumir omitindo
informações importantes;
• Veracidade - é extremamente importante retratar a
realidade e traçar o gráfico em uma escala apropriada.
Em se tratando de variáveis qualitativas ou quantitativas discretas
podemos construir gráficos de colunas, setores e linhas. Já para variáveis
quantitativas contínuas temos os polígonos de frequência, ogivas de Galton
e histogramas. Os gráficos de dispersão são utilizados apenas para
variáveis quantitativas, sejam elas discretas ou contínuas.
3.3.1 Gráficos de colunas/barras:
Estes gráficos são a representação de uma tabela (ou série) por meio
de retângulos verticais (colunas) ou horizontais (barras), nos quais em
uma das coordenadas são representadas as categorias da variável em
estudo e na outra a frequência (absoluta, relativa ou percentual) relacionada
a cada classe. Os retângulos devem seguir a um padrão como: distância
entre eles, largura, estética, etc.
Considerando a variável Grau de instrução para os dados da Tabela 1
referente ao exemplo dos 36 empregados da Companhia MB, a Figura 4
apresenta o gráfico de colunas para a referida variável.
21
Figura 4: Gráfico de colunas para a variável qualitativa Grau de Instrução.
Tabela 13: Distribuição de frequência das formas de treinamento dos
empregados, adotados pela indústria brasileira.
Formas 100 fi
Educação básica 20
Empresas clientes ou fornecedoras 19
Consultores/instituições 40
Fora do processo do trabalho 40
“On the job” 78
Não realiza 11
Considerando-se os dados da Tabela 13 acima, pode-se construir o
gráfico de barras apresentado na Figura 5 abaixo.
22
Figura 5: Formas de Treinamento dos empregados
Considere agora a variável número de filhos cujos valores são
apresentados na Tabela 1. O gráfico de colunas para esta variável
encontra-se na Figura 6.
Figura 6: Gráfico em colunas para a frequência do número de filhos dos 36
empregados da Companhia MB.
Também podem ser construídos gráficos de barras ou colunas
compostas, como na Figura 7.
23
Figura 7: Gráfico de colunas compostas para uso da concorrência em
relação ao porte (tamanho) da empresa.
3.3.2 Gráficos de setores:
Este gráfico é empregado sempre que se deseja ressaltar a
participação de uma parte no todo. O todo é representado por um círculo,
que fica dividido em tantos setores quantas são as partes. Os setores são
tais que suas áreas são, respectivamente, proporcionaisaos dados.
Obtém-se cada setor por meio de uma regra de três simples e direta,
lembrando que o total corresponde a 360o.
A Figura 8 abaixo apresenta o gráfico de setores para a variável
qualitativa Grau de Instrução.
24
Figura 8: Gráfico de setores para a variável grau de instrução.
Considerando-se a cidade de São João del Rei e a Universidade
Federal de São João del Rei, a Tabela 14 apresenta a distribuição de
frequências dos locais na cidade preferidos pelos alunos da UFSJ para
estagiar.
Tabela 14: Locais preferidos pelos alunos da UFSJ para estagiar
O gráfico de setores para esta variável é apresentado na Figura 10
abaixo. Para construir este gráfico foi necessário encontrar quanto da fatia
do círculo (qual tamanho de setor) correspondia a cada local. Isso foi feito
utilizando-se regras de 3.
Regras de 3
100 % ------- 360 o
69 % ------ X
X = 248,4o
100 % ------ 360 o
18 % ------ Y
Y = 64,8o
100 % ------ 360 o
7 % ------ Z
Z = 25.2o
100 % ----- 360 o
6 % ----- W
W = 21,6o
LOCAL 100fi (%) 
Indústria 
Bancos 
Comércio 
Outros 
69 
18 
 7 
 6 
Total 100 
 
25
Figura 9: Gráfico de setor para os locais preferidos pelos alunos da UFSJ
para estagiar
3.3.3 Gráficos de Linhas:
É comum ver este tipo de gráfico na mídia. No caso de variáveis
quantitativas ele é formado por uma linha traçada pela união de pontos que
surgem da associação dos valores da variável em estudo com valores de
outra variável, por exemplo, o tempo. Na Tabela 15 encontram-se valores
de vendas de uma companhia hipotética nos anos de 1980 a 1986. A Figura
10 apresenta o gráfico para os valores desta tabela.
Tabela 15: Vendas da Companhia Alfa – 1980 à 1986
ANO VENDAS (em milhões)
1980 230
1981 260
1982 380
1983 300
1984 350
1985 400
1986 460
Fonte: Rocha, 2015.
26
Figura 10: Gráfico de linha para a variável “Total de vendas Cia Alfa”.
Para as variáveis qualitativas, o gráfico possui tantas linhas quantas
forem as categorias da variável. A Figura 11 apresenta o gráfico de linha
para a variável qualitativa opinião dos paulistanos sobre a pena de morte no
Brasil.
Figura 11: Gráfico de linha para a variável “Opinião dos paulistanos sobre a
adoção da pena de morte no Brasil”.
Quando a variável é do tipo quantitativa contínua, esse gráfico é
construído a partir dos pontos médios das classes e recebe a denominação
de polígono de frequências
No caso de se desejar representar as frequências acumuladas, os
segmentos são traçados a partir dos limites superiores das classes (Rocha,
2015). Nesse caso o gráfico é denominado Ogiva de Galton.
27
3.3.4 Gráficos de dispersão:
Os gráficos de dispersão são formados por pontos, constituem uma
“nuvem” de pontos e são construídos para variáveis quantitativas discretas.
Podem ser unidimensionais ou bidimensionais. Nos gráficos
unidimensionais os valores da variável são representados por pontos ao
longo de uma reta provida de uma escala. Valores repetidos são indicados
por um número que indica as repetições (Figura 12 (a)) ou “empilhados” um
em cima do outro (Figura 12 (b)). Também pode-se representar o ponto
mais alto da pilha (Figura 12 (c)).
Figura 12: Gráficos de dispersão unidimensionais para a variável
quantitativa discreta número de filhos do exemplo dos 36 empregados da
Companhia MB (Bussab &Morettin, 2007)
Os diagramas de dispersão bidimensionais são gráficos nos quais
pontos no espaço cartesiano XY são usados para representar
simultaneamente os valores de duas variáveis quantitativas medidas em
cada elemento do conjunto de dados. É usado principalmente para
visualizar a relação/associação entre duas variáveis.
28
Exemplo: Pesquisadores desejam encontrar uma maneira de
conhecer o peso de ursos marrom através de uma medida mais fácil de se
obter do que a direta (carregar uma balança para o meio da selva e colocar
os ursos em cima dela) como, por exemplo, uma medida de comprimento
(altura, perímetro do tórax, etc.). O problema estatístico aqui é encontrar
uma variável que tenha uma relação forte com o peso, de modo que, a partir
de seu valor medido, possa ser “calculado” o valor peso indiretamente,
através de uma equação matemática. O primeiro passo para encontrar esta
variável é fazer o diagrama de dispersão das variáveis candidatas (eixo
horizontal) versus o peso (eixo vertical), usando os pares de informações de
todos os ursos. Você pode tentar as variáveis: idade, altura, comprimento
da cabeça, largura da cabeça, perímetro do pescoço e perímetro do tórax.
Na Figura 13 é mostrada a relação entre peso e altura e entre peso e
perímetro do tórax, respectivamente. (Shimakura, 2012)
Figura 13: Diagrama de dispersão da altura versus o peso (a) e do
perímetro do tórax versus o peso (b) dos ursos marrom.
3.3.5 Histogramas:
Quando se trata de variáveis contínuas, a construção de gráfico de
barras ou colunas fica difícil. Pode-se utilizar o artifício de aproximar a
variável contínua por uma variável discreta, considerando-se que cada
classe (intervalo) fica representada pelo seu ponto médio. Nesse caso, para
cada ponto médio é construída uma coluna (barra) de comprimento (largura)
igual à freqüência. Porém, esse procedimento gera perda de informação.
Uma alternativa é construir um gráfico de barras contíguas (retângulos
justapostos), com bases (colocadas no eixo x) proporcionais aos intervalos
das classes e a área de cada retângulo proporcional à respectiva frequência
relativa (fi.). Este gráfico é denominado histograma. Assim, a soma das
áreas dos retângulos, isto é, a área do histograma, é igual à soma das
frequências relativas, ou seja, 1! Para isso, é necessário que a altura de
29
cada retângulo seja proporcional à densidade de frequência de cada classe
if
c
 
 
 
, sendo c a amplitude de classe.
Exemplo: Considerando a variável salário no banco de dados da
Tabela 1, construa o histograma. A distribuição de frequências desta
variável é dada na Tabela 7.
Figura 14: Histograma da variável S: salários.
Também é possível construir histograma para variáveis agrupadas
em classes de amplitudes desiguais. Para saber mais sobre isso consulte
Bussab & Morettin, 2007.
Interpretação de um histograma
A simples observação da disposição do histograma permite algumas
conclusões. Primeiro quanto à forma. É possível perceber se a distribuição
é simétrica, assimétrica, ou se ela parece com a curva de Gauss (Normal),
Qui-quadrado, entre outras. Veja a Figura 15.
30
Figura 15: Diferentes tipos de Histogramas quanto à
simetria/assimetria.
Outra importante informação é a dispersão do conjunto de dados. É
possível perceber pela comparação de dois histogramas qual dos dois
possui maior dispersão (Figura 16).
Figura 16: Comparação de Histogramas quanto à dispersão.
31
Histograma alisado
Considerando novamente a variável salário e sua distribuição de
frequências absolutas, dada na Tabela 16 (amplitude de classe igual a 2),
construiu-se o histograma dado na Figura 17.
Tabela 16: Distribuição de frequências absolutas para a variável salário,
considerando-se classes de amplitude 2.
Classe de salários Frequências (ni)
4,00 |- 6,00 4
6,00 |- 8,00 6
8,00 |- 10,00 8
10,00 |- 12,00 4
12,00 |- 14,00 5
14,00 |- 16,00 3
16,00 |- 18,00 3
18,00 |- 20,00 2
20,00 |- 22,00 0
22,00 |- 24,00 1
Total 36
Figura 17: Histograma para a variável S: salário, com amplitude de
classe igual a 2.
32
Foi possível diminuir a amplitude dos intervalos de classe porque o
número de observações era grande. Assim, obteve-se um histograma
menos irregular que gera uma curva mais suave, denominada histograma
alisado. Essa curva permite avaliar melhor o tipo de comportamento que se
espera para a distribuição de uma dada variável. Os pontos nos quais a
curva é mais alta correspondem a uma maior densidade de observações.
Esse gráfico é apresentado na Figura 18, que permite observar que,
conforme aumenta o salário, a densidade de frequência vai diminuindo.
Figura 18: Histograma alisado para a variável S: salário (Bussab &
Morettin, 2007).
33
EXERCÍCIOS PROPOSTOS:1. Nas situações descritas a seguir, identifique a população, a amostra e
a variável a ser estudada classificando-a:
a) Deseja-se investigar o peso real de pacotes de café, enchidos
automaticamente por uma máquina. Para isso sorteou-se 100 pacotes
e mediu-se seus pesos.
b) Para investigar a “honesticidade” de uma moeda, ela foi lançada 50
vezes e o número de caras observadas foi contado. Deseja-se obter
um possível modelo através do qual seja possível calcular a
probabilidade de se obter um determinado número de caras em função
da quantidade de lançamentos.
2. Um laboratório de fertilidade analisou 60 amostras de solo
determinando o teor de cálcio existente em cada uma delas. O
resultado desta análise está apresentado na tabela abaixo:
Tabela- Teor de Cálcio encontrado nas amostras de solo.
Lab Ca Lab Ca Lab Ca Lab Ca
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7.97
5.28
3.33
5.82
6.31
5.51
5.70
6.05
6.67
7.48
3.08
6.70
5.27
2.25
5.04
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
3.39
3.65
5.47
5.72
8.84
5.75
3.38
5.36
5.99
5.70
4.66
5.45
7.41
5.07
1.96
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
5.62
4.94
2.31
6.45
4.77
3.29
4.66
5.30
7.24
5.28
4.93
5.96
6.56
4.67
6.10
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
5.07
6.22
3.39
4.19
4.83
5.36
7.70
5.80
3.80
5.62
7.68
6.37
8.42
5.04
4.80
Fonte: Campos (1998)
34
Pede-se:
a) Classifique a variável.
b) Construa a distribuição de frequências.
c) Construa a distribuição de frequências acumuladas e suas respectivas
Ogivas de Galton.
3. Identifique, para cada tabela de distribuição de frequências, a
amplitude de classe, os pontos médios das classes, os limites das
classes, a frequência relativa, e a frequência acumulada.
a) b)
Ausências xi c ni fi Ni Ausências xi c ni fi Ni
0 |- 6
6 |- 12
12 |- 18
18 |- 24
24 |- 30
39
41
38
40
42
0 |- 10
10 |- 20
20 |- 30
30 |- 40
40 |- 50
22
40
71
44
23
c) d)
Pesos xi c ni fi Ni Pesos xi c ni fi Ni
0,0 |- 2,0
2,0 |- 4,0
4,0 |- 6,0
6,0 |- 8,0
8,0 |- 10,0
20
32
49
31
18
0,0 |- 5,0
5,0 |- 10,0
10,0 |- 15,0
15,0 |- 20,0
20,0 |- 25,00
60
58
61
62
59
4. Faça os respectivos histogramas para as tabelas do exercício anterior
e interprete-os quanto à simetria e quanto à dispersão. Utilize
tecnologia para a construção do gráfico.
5. Foi feito um estudo para determinar como as pessoas obtêm
empregos. A tabela que segue relaciona dados de 400 pessoas
escolhidas aleatoriamente. Os dados se baseiam em resultados do
Centro Nacional de Estratégias de Carreira Americano.
35
Tabela: Formas de obtenção de empregos
Fontes de trabalho dos que responderam a pesquisa Freqüência
(ni)
Anúncios tipo “ procura-se ”
Firmas de pesquisas
Rádio e televisão
Envio de correspondência em massa
56
44
280
20
Utilizando a tecnologia:
a) Construa um gráfico de colunas. Qual seria a abordagem mais
eficiente para uma pessoa que deseja um emprego?
b) Construa um gráfico de setores para os dados do exercício acima.
Indique qual dos gráficos, coluna ou setor, melhor apresenta a
importância relativa das fontes de trabalho.
6. Com base na tabela a seguir e utilizando tecnologia construa:
a) Seu histograma;
b) Polígono de frequências;
c) Ogiva de Galton.
Tabela: Distribuição de frequência com dados agrupados
Classe ni
39,5 |- 44,5
44,5 |- 49,5
49,5 |- 54,5
54,5 |- 59,5
59,5 |- 64,5
64,5 |- 69,5
69,5 |- 74,5
3
8
16
12
7
3
1
Total 50
36
7. Durante o mês de setembro de certo ano, o número de acidentes por
dia em certo trecho de rodovia apresentou a seguinte estatística:
2 0 1 2 3 1 6 1 0 0
1 2 2 1 2 0 1 4 2 3
0 1 0 2 1 2 4 1 1 1
Represente os gráficos adequados para esses dados e interprete-os.
8. Considere os dados da tabela abaixo, sobre venda de bebidas leves.
Tabela: Distribuição de frequência da venda de bebidas leves
Classe ni fi
Cola
Limão
Laranja
Uva
Cereja
Outras
600
200
100
50
40
10
0,60
0,20
0,10
0,05
0,04
0,01
Total 50 1,00
Fonte: Stevenson (1981)
Construa um gráfico de setores e um de barras. Compare-os e diga
qual deles é o mais adequado.
9. O município de São João Del - Rei, recebeu uma verba de
R$ 1.000.000,00 do governo federal para ser aplicada pela atual
administração. Depois de algumas reuniões os recursos foram
divididos conforme a tabela abaixo. Construa o gráfico mais adequado
e interprete-o.
37
Tabela: Porcentagens da verba destinada a cada setor.
Setores 100 fi (%)
Administração
Educação
Saúde
Obras públicas
Segurança
19
28
30
18
5
Total 100,0
10. Os limites de especificação para o comprimento de uma peça são 20 e
21 mm. Uma amostra de 40 peças, tomada no mês de agosto, forneceu
os valores apresentados na tabela dada em seguida. Outra amostra de
50 peças, tomada no mês de setembro, forneceu os valores
apresentados na segunda tabela. Utilizando tecnologia, faça um
histograma para cada amostra. Trace os limites de especificação,
compare e discuta. Todos os valores dados nas tabelas acima
correspondem a parte decimal de 20 mm
Comprimento, em milímetros, de uma peça – Amostra tomada em Agosto
14 77 16 99 12 25 30 14 14 25
43 51 16 41 65 23 18 38 22 25
18 38 25 49 35 25 40 29 27 62
58 19 72 72 25 11 49 40 31 20
16 48 64 18 52 60 53 60 95 40
Comprimento, em milímetros, de uma peça – Amostra tomada em
Setembro
11. Abaixo encontram-se os dados referentes ao número de dias em que
20 pacientes ficaram hospitalizados. Utilizando tecnologia, construa
uma distribuição de frequências e um histograma de frequências para
32 73 49 62 51 59 60 35
65 78 64 62 27 56 52 49
26 57 59 50 47 53 47 60
57 61 38 60 41 55 53 59
58 21 77 38 46 83 58 52
38
esses dados usando 6 classes. Descreva a forma do histograma como
simétrico, uniforme, assimétrico negativo, assimétrico positivo.
6 9 7 14 4 5 6 8 4 11 10 6 8 6 5 7 6 6 3 11
39
CAPÍTULO 4: MEDIDAS RESUMO
Neste capítulo serão estudadas medidas de posição e dispersão. Tais
medidas servem para descrever o conjunto de dados, resumi-lo utilizando
valores que sejam representativos da série.
4.1 MEDIDAS DE POSIÇÃO
As medidas de posição, também chamadas medidas de locação, são:
mínimo, máximo, moda, mediana e média.
4.1.1 Mínimo e máximo
O mínimo (min) é a medida que corresponde à menor observação do
banco de dados e o máximo (máx) à maior observação. Para se encontrar
estas medidas é necessário ordenar o banco de dados. Medidas nas quais
é necessário essa ordenação são denominadas estatísticas de ordem.
Exemplo: Considere o conjunto de dados a seguir referente a uma dada
variável x:
X: 4, 5, 4, 6, 5, 8, 4
Ordenando, tem-se: 4, 4, 4, 5, 5, 6, 8.
min(X) = 4, máx(X) =8
4.1.2 Moda
É a realização mais frequente do conjunto de valores observados.
Pode ser utilizada tanto para dados quantitativos quanto para dados
qualitativos (nominais e ordinais).
Considere o exemplo dos 36 funcionários da Companhia MB. Para a
variável número de filhos, a moda é “2”, pois é a observação mais frequente,
são 7 funcionários que possuem 2 filhos (Tabela 6). Para a variável Grau de
instrução, cuja distribuição de frequências encontra-se na Tabela 3, a moda
é “ensino médio”.
A distribuição dos dados pode ser amodal, bimodal,
trimodal,...Considere duas variáveis, B e C, cujas distribuições são dadas
abaixo.
B: 1, 2, 3, 4, 5 C: 2, 3, 2, 4, 5, 4
O conjunto B é amodal e o conjunto C é bimodal (modas: 2 e 4).
40
4.1.3 Média
É a soma das observações dividida pela quantidade delas. Por
exemplo, para o conjunto de dados 3, 4, 7, 8, 8, a média é 6
((3+4+7+8+8)/5). Esta medida só pode ser obtida para variáveis
quantitativas.
Sejam x1, ..., xn n observações da variável X. A média é dada por:
Considerando a variável número de filhos e denominando de Z, abaixo
é apresentada a sua distribuição de frequências.
Tabela 1: Distribuição de frequências dos 20 empregados casados da
seção de orçamentos da Companhia MB, segundo o número de filhos.
Número de filhos (zi) ni fi
0 4 0,20
1 5 0,252 7 0,35
3 3 0,15
5 1 0,05
Total 20 1
Utilizando a fórmula dada anteriormente, pode-se, a partir da segunda
coluna da Tabela 15, calcular o número médio de filhos por empregado:
Também é possível calcular a média utilizando-se a terceira coluna da
Tabela 15, isto é, as frequências relativas:
Formalizando, se tivermos ni observações da variável X iguais a xi:
se fi=ni/n for a frequência relativa:
A média é uma medida afetada por valores extremos.
1
1
... 1 nn
i
i
x x
x x
n n =
+ +
= = ∑
1 1
1
... 1 kk k
i i
i
n x n x
x n x
n n =
+ +
= = ∑
1
k
i i
i
x f x
=
=∑
4.0 5.1 7.2 3.3 1.5
1,65
20
z
+ + + +
= =
4 5 7 3 1
.0 .1 .2 .3 .5 1,65
20 20 20 20 20
z = + + + + =
41
( )
2
P Px xq p − +
+
=
4.1.4 Separatrizes
A Média pode não ser uma medida adequada para representar um
conjunto de dados, pois é afetada por valores extremos e sozinha não dá
ideia da simetria ou assimetria da distribuição. Existem medidas de posição
mais resistentes, que não são afetadas por valores extremos, e que
informam sobre a simetria ou não da distribuição dos dados. Essas medidas
são denominadas separatrizes.
Separatrizes são valores que dividem a distribuição em um certo
número de partes iguais. Uma separatriz é também denominada Quantil de
ordem p ou p quantil (q(p).O p quantil é uma medida de posição tal que
100p% das observações sejam menores que q(p), sendo p uma proporção
qualquer, 0<p<1. A mediana por exemplo, é um quantil que deixa 50% das
observações à sua esquerda, isto é, med = q(0,5). Alguns quantis em
particular recebem nomes específicos, de acordo com a quantidade de
partes em que o conjunto de dados é dividido:
q(0,25): 1º Quartil = 25º Percentil
q(0,50): 2º Quartil = 50º Percentil = 5º Decil (Mediana)
q(0,75): 3º Quartil = 75º Percentil
q(0,40): 4º Decil
q(0,95): 95º Percentil.
Para calcular um quantil é necessário primeiro ordenar o conjunto de
dados e saber a posição desse quantil. A mediana, por exemplo, é o quantil
que ocupa a posição central do conjunto de dados, ou seja,
( 1)
0,50.( 1)
2
n
n
+
= + , sendo n o tamanho da amostra. De modo geral, o p
quantil ocupa a posição p.(n+1) do conjunto de dados ordenados. Devido à
necessidade de ordenação, estas medidas só podem ser obtidas para
dados quantitativos ou qualitativos ordinais. Neste último caso é importante
observar se a medida obtida faz sentido e é interpretável.
Após obter a posição do p quantil, calcula-se seu valor: se sua posição
for um número inteiro k, então q(p) = xk; senão, se a posição P não for um
número inteiro, considere P- e P+ os inteiros respectivamente abaixo e
acima de P e tome
Exemplo: Considere o conjunto de dados abaixo e encontre os
quartis.
1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
42
O conjunto de dados já está ordenado, assim vamos encontrar a posição
dos quartis e depois os seus respectivos valores.
1º Quartil:
• Posição: .( 1) 0, 25.(10 1) 2,75p n + = + =
• Valor: 2 3
2 2,1
( ) (0,25) 2,05
2 2 2
P P
x xx x
q p q− +
++ +
= ⇒ = = =
2º Quartil(Mediana):
• Posição: .( 1) 0,50.(10 1) 5,5p n + = + =
• Valor: 5 6
3 3,1
(0,50) 3,05
2 2
x x
q
+ +
= = =
3º Quartil:
• Posição: .( 1) 0,75.(10 1) 8, 25p n + = + =
• Valor: 8 9
3,7 6,1
(0,75) 4,9
2 2
x x
q
+ +
= = =
Quando a posição do quantil é inferior à posição do menor valor do
conjunto de dados x1, assume-se que esse quantil é a primeira observação
(x1). Analogamente, quando a posição do quantil é superior à posição do
maior valor observado no conjunto de dados xn , assume-se que este quantil
é o último valor observado (xn). Outra observação importante é que
diferentes quantis podem assumir o mesmo valor.
Considerando o exemplo anterior, abaixo são calculados alguns
percentis.
1º e 2º Percentis:
• Posição:
1
2
: .( 1) 0,01.(10 1) 0,11
: .( 1) 0,02.(10 1) 0,22
P p n
P p n
+ = + =
+ = + =
• Valor:
1
1
(0,01) 1,9
(0,02) 1,9
q x
q x
= =
= =
43
50º e 52º Percentis:
• Posição:
50
52
( ) : 5,5
: .( 1) 0,52.(10 1) 5,72
P mediana
P p n + = + =
• Valor:
5 6
5 6
3 3,1
(0,50) 3,05
2 2
3 3,1
(0,52) 3,05
2 2
x x
q
x x
q
+ +
= = =
+ +
= = =
98º e 99º Percentis:
• Posição:
98
99
: .( 1) 0,98.(10 1) 10,78
: .( 1) 0,99.(10 1) 10,89
P p n
P p n
+ = + =
+ = + =
• Valor:
10(0,98) (0,99) 7,7q q x= = =
As separatrizes são muito utilizadas em Estatística, principalmente
em distribuições assimétricas.
4.1.5 Avaliação de simetria
Os quartis q(0,25)=q1, q(0,50)=q2 e q(0,75)=q3 são medidas de
posição resistentes, isto é, são pouco afetadas por mudanças em
pequenas porções dos dados. Por isso, juntamente com x1 e xn, eles são
importantes para se ter ideia da simetria da distribuição dos dados.
Quando a distribuição dos dados é aproximadamente simétrica:
Fonte: Bussab & Morettin (2007)
A medida q2 – x(1) é denominada dispersão inferior (di) e a medida
x(n)-q2, dispersão superior (ds).Quando a distribuição é aproximadamente
simétrica, essas medidas são aproximadamente iguais. Além disso, para
dados simétricos a distância entre a mediana e medidas cujas posições são
simétricas é aproximadamente igual, isto é,
2 (1) ( ) 2
2 1 3 2
1 (1) ( ) 3
1 3 1 3
( )
( )
( )
( ) , .
n
n
a q x x q
b q q q q
c q x x q
d distâncias entre mediana e q q menores do que distâncias entre os extremos q e q
− ≈ −
− ≈ −
− ≈ −
44
( ) ( 1 )(0,5) (0,5)i n iq x x q+ −− = −
Se os quantis da direita estão mais afastados da mediana do que os
da esquerda, dizemos que a distribuição dos dados é assimétrica à direita.
Caso contrário, dizemos que é assimétrica à esquerda. A Figura 1 ilustra
uma distribuição simétrica e a Figura 2 ilustra distribuições assimétricas.
Figura 1: Distribuição simétrica: normal ou gaussiana.
Figura 2: Distribuições assimétricas.
45
Exemplo: Considere o conjunto de dados de populações de municípios
brasileiros dado em Bussab & Morettin (2007). Este conjunto de dados
pode ser obtido na página do professor Pedro (Morettin, 2020). Tome os 15
maiores valores, os quais encontram-se ordenados abaixo:
84,7 < 92,4 < 101,8 < 102,3 < 116 < 119,4 < 129,8 < 135,8 < 151,6 < 187,7
< 201,5 < 210,9 < 224,6 < 556,9 < 988,8
Calculando-se os quantis, obtém-se (faça os cálculos!):
q(0,25)=102,3 q(0,50)=135,8 q(0,75)=210,9
As cinco medidas (x1, q1, q2 q3 e xn) e as distâncias entre elas são
ilustradas na Figura 3. Nela, é possível perceber a assimetria da distribuição
Figura 3: Quantis e distâncias para as 15 maiores populações dos
municípios.
Abaixo, são apresentadas as avaliações de diferentes distribuições no
que se refere à simetria e dispersão pelos quartis (Figura 4).
Figura 4: Avaliação da assimetria e dispersão pelos quartis (Reis &
Lino, 2020)
46
4.2 MEDIDAS DE DISPERSÃO
Suponha que para preencher uma única vaga existente em uma
empresa, os candidatos foram submetidos a testes e agrupados em três
grupos (1, 2, 3), de acordo com as notas obtidas. As notas em cada grupo
são variáveis representadas por X, Y e W
Grupo 1 (X): 3,4,5,6,7
Grupo 2 (Y):1,3,5,7,9
Grupo 3 (W): 5,5,5,5,5
A empresa necessita saber em qual dos quatro grupos deve contratar.
Um critério poderia ser contratar no grupo de maior média, mas
Um segundo critério poderia ser então, considerar a moda ou a
mediana. Porém, os grupos 1 e 2 são amodais e a mediana é 5 para os três
grupos.
Então, pode-se escolher contratar no grupo que apresentou notas
mais homogêneas, isto é, o grupo que apresentou menor dispersão das
notas. Na Figura 5, podemos observar que os dados não estão igualmente
distribuídos. Geometricamente é possível perceber que o Grupo 2
apresenta maior dispersão dos dados e o Grupo 3 menor. Porém,
precisamos de uma avaliação objetiva dessa distribuição. As medidas de
posição estudadas, como se pôde observar não são capazes de avaliar a
dispersão dos dados e distinguir um grupo do outro.
Figura 5: Representação gráfica dos dados de cada grupo (Chiann,
2017 [1] )
5x y w= = =
47
Como as medidas de posição não informam sobre a variabilidade dos
dados, é necessário utilizar medidas que resumam a variabilidadede um
conjunto de observações e que permitam a comparação entre conjuntos de
diferentes valores. Estas medidas são denominadas medidas de dispersão.
Serão estudadas as seguintes medidas de dispersão: amplitude, variância,
desvio padrão, coeficiente de variação e distância interquartílica.
4.2.1 Amplitude (A)
A amplitude é obtida subtraindo-se o menor valor observado do maior:
A = xmax-xmín.
Considerando-se o exemplo anterior, tem-se:
Grupo 1: AX = 7 - 3 = 4
Grupo 2: Ay = 9 - 1 = 8
Grupo 3: Aw = 5 - 5 = 0
O grupo mais heterogêneo é o Grupo 2, pois possui maior amplitude; o
mais homogêneo é o Grupo 3.
4.2.2 Variância
A Variância mede a dispersão dos dados em torno de sua média. A
notação para a variância populacional é σ2 e ela é obtida por:
Considerando o exemplo dado na seção anterior , referente à
contratação de candidato, são calculadas abaixo as variâncias para os
grupos 1 e 2 .
De acordo com essa medida, no grupo 1 as notas são mais
homogêneas que no grupo 2.
Considere agora que para preencher uma única vaga existente em
uma empresa, 50 candidatos foram submetidos a provas sobre
conhecimentos específicos de interesse da empresa. Três destes
candidatos destacaram-se e foram selecionadas seis notas de cada um
deles, as quais estão descritas na Tabela 2 abaixo:
( ) ( ) ( ) ( )
2
2 2 2
1 22 1
...
n
i
ni
x x
x x x x x x
n n
σ =
−
− + − + + −
= =
∑
2 2 2 2 2
2
2 2 2 2 2
2
(3 5) (4 5) (5 5) (6 5) (7 5)
2
5
(1 5) (3 5) (5 5) (7 5) (9 5)
8
5
σ
σ
− + − + − + − + −
= =
− + − + − + − + −
= =
48
Tabela 2: Distribuição das notas
Candidato Provas
1 2 3 4 5 6
A 7,0 7,5 8,0 8,0 8,5 9,0
B 6,0 7 8,0 8,0 9,0 10,0
C 7,5 8 8,0 8,0 8,0 8,5
Neste caso, temos uma amostra de 3 candidatos. A variância é então
denotada por S2 e calculada por:
Assim, tem-se:
• Candidato A:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
2 2 2 2 2 22
2 2 2 2 2 2
1
(7 7,5 8 8 8,5 9) 8
6
1
7 8 7,5 8 8 8 8 8 8,5 8 9 8
5
1 2,5
1 0,5 0 0 0,5 1 0,5
5 5
x
s
= + + + + + =
 = − + − + − + − + − + − = 
 = − + − + + + + = = 
• Candidato B:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
2 2 2 2 2 22
2 2 2 2 2 2
1
(6 7 8 8 9 10) 8
6
1
6 8 7 8 8 8 8 8 9 8 10 8
5
1
1 0,5 0 0 0,5 1 2
5
x
s
= + + + + + =
 = − + − + − + − + − + − = 
 = − + − + + + + = 
Exercício: calcule a média e a variância para o candidato C.
Alternativamente, pode-se calcular a variância utilizando-se as
fórmulas:
( )2
2 1
1
n
i
i
x x
s
n
=
−
=
−
∑
( ) ( )
( )
2 22
1
2
22
1 1
1
1
1 1
1
n
i
i
n n
i i
i i
s x n x
n
s x x
n n
=
= =
 
= − 
−  
   
= −  −    
∑
∑ ∑
49
Utilizando a primeira fórmula acima vamos calcular a variância
para o candidato A:
Exercício: utilizando as fórmulas acima calcule a variância para os
candidatos B e C.
A dimensão da variância corresponde ao quadrado da dimensão
dos dados, o que pode gerar problemas de interpretação. Por isso,
muitas vezes trabalha-se com sua raiz.
4.2.3 Desvio Padrão
O desvio padrão é a raiz da variância. Ele indica em média qual será o
“erro” (desvio) cometido ao substituir cada observação pela média.
Considere a variável quantitativa discreta “número de filhos” cuja
distribuição de frequências é dada na Tabela 5 do capítulo 3. Abaixo
encontram-se os valores da média, variância e desvio padrão para essa
variável.
Considere agora, o exemplo dos três candidatos (A, B e C),
selecionados entre 50, para preencher uma vaga em uma empresa. Abaixo
encontram-se os valores das variâncias das notas obtidas por cada
candidato e seus respectivos desvio padrão.
4.0 5.1 7.2 3.3 1.5 33
1,65
20 20
z
+ + + +
= = =
2 2 2 2 2
2 4.( 1,65) 5.( 0,65) 7.(0,35) 3.(1,35) 1.(3,35) 1,528
20
σ
− + − + + +
= =
( )
( ) ( ) { } { }
2 2 2 2 2 2 2
1
2 22 2
1
7 7,5 8 8 8,5 9
49 56,25 64 64 72,25 81 3865
1 1 1 2,5
3865 6.8 3865 384 0,5
1 5 5 5
n
i
i
n
i
i
x
s x n x
n
=
=
= + + + + + =
= + + + + + =
 
= − = − = − = = 
−  
∑
∑
2 2
2 2
2 2
0,5 0,5 0,71
2,0 2,0 1, 41
0,1 0,1 0,32
A A
B B
C C
s s s
s s s
s s s
= ⇒ = = =
= ⇒ = = =
= ⇒ = = =
2 1,528 1,24σ σ= = =
50
A variância e o desvio padrão são afetados por valores extremos, isto
é, não são medidas resistentes. Eles são boas medidas se a distribuição
dos dados é aproximadamente normal. Além disso, não são medidas
adequadas quando se quer comparar a dispersão de diferentes conjuntos
de dados.
4.2.4 Coeficiente de Variação
Para comparar dois conjuntos de dados quanto à sua variabilidade
pode-se usar o coeficiente de variação (CV). O CV é uma medida de
dispersão que expressa a variabilidade dos dados em relação a sua média
de forma percentual. Sua expressão será dada por
Exemplo 1: Imagine uma situação referente ao número de documentos
falsificados que aparecem em um determinado setor da prefeitura e o valor
arrecadado por hora de um tipo de multa em reais. Os dados se encontram
na Tabela 3. Em qual das duas variáveis ocorre maior variabilidade ou
variação?
Tabela 3: Medidas para documentos falsificados e multas
Documentos Falsificados (Nº) Multa (reais)
Média 22 800
Desvio Padrão 5 100
Utilizando o desvio padrão para comparar a variabilidade você pode, a
princípio, considerar que a multa apresenta maior variabilidade, já que tem
maior desvio padrão. Calculando, então, o coeficiente de variação teremos
os valores apresentados a seguir:
5
.100 .100 22,7%
22
100
.100 .100 12,5%
800
DOC
MULTA
s
CV
x
s
CV
x
= = =
= = =
Perceba então, que estávamos concluindo erroneamente que a multa
é mais variável que o número de documentos falsificados, além de termos
cometido o disparate de comparar numericamente duas variáveis
expressas em unidades diferentes. Portanto, o número de documentos
falsificados apresentou maior dispersão do que a multa, já que seu
coeficiente de variação foi maior, mudando, assim, a conclusão anterior.
.100%
s
CV
x
=
51
Exemplo 2: Considere medidas referentes à Altura e ao Peso de
alunos (Tabela 4)
Tabela 4: Medidas estatísticas para a Altura e o Peso de alunos
Média Desvio padrão Coeficiente de
Variação
Altura 1,143m 0,063m 5,5%
Peso 50Kg 6Kg 12%
Conclusão: Os alunos são, aproximadamente, duas vezes mais
dispersos quanto ao peso do que quanto à altura.
Exemplo 3: Considere a Altura (em cm) de uma amostra de recém
nascidos e de uma amostra de adolescentes (Tabela 5)
Tabela 5: Medidas descritivas para Altura de recém nascidos e
adolescentes.
Média Desvio padrão Coeficiente de
Variação
Recém
Nascidos
50 6 12%
Adolescentes 160 16 10%
Conclusão: Em relação às médias, as alturas dos adolescentes e dos
recém-nascidos apresentam variabilidade quase iguais.
4.2.5 Distância Interquartílica
Outra medida muito utilizada em Estatística é a distância interquartílica,
ou Intervalo-Interquartil, que é obtida tomando-se a diferença entre o
terceiro quartil e o primeiro quartil:
(0, 75) (0, 25)qd q q= − .
A distância interquartílica é uma medida de dispersão alternativa ao
desvio padrão.
Exemplo: Considere o conjunto de dados abaixo utilizado
anteriormente como exemplo no cálculo de quartis.
1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
52
Os quartis obtidos foram: q1 = 2,05; q2 = 3,05; q3 = 4,9. Assim, a
distância interquartílica é dada por:
(0, 75) (0, 25) 4,9 2, 05 2,85qd q q= − = − = .
4.3 MEDIDAS DE POSIÇÃO E DISPERSÃO PARA
DADOS AGRUPADOS
Quando se trata de variáveis contínuas, a distribuição de frequências é
feita agrupando-se os dados em classes. Este procedimento gera perda de
informação e não se sabe ao certo o valor observado. Assim, para obter
medidas de posição e dispersão para os dados agrupados utiliza-se uma
aproximação. Para a obtenção da média, moda e variância consideramos
que o valor observado corresponde ao ponto médio da classe e
procedemos da mesma maneira que nas variáveis quantitativas discretas.
Já para a obtenção das separatrizes utilizamos regras de três.
Considere a variável salário (S) nos dados da Tabela 1 do capítulo 3. A
Tabela 5 apresenta a distribuiçãode frequências desta variável e indica o
ponto médio de cada classe .
Tabela 5: Distribuição de frequências dos 36 empregados da seção de
orçamentos da Companhia MB, segundo os salários.
Classe de
salários
Ponto médio
(si)
ni fi 100 Fi%
4 |- 8 6 10 0,278 27,8
8 |- 12 10 12 0,333 61,1
12 |- 16 14 8 0,222 83,3
16 |- 20 18 5 0,139 97,2
20 |- 24 22 1 0,028 100
Total 36 1
Quando os dados são agrupados, para calcular a mediana utilizamos
regra de três. Veja:
( ) 10,
10.6 ... 1.22
11,22
36
mo S
s
≈
+ +
≈ =
2 2 2 2 2
2
2
10.(6 11,22) 12.(10 11,22) 8.(14 11,22) 5.(18 11,22) 1.(22 11,22)
36
19,40
19,40 4,4
σ
σ
σ
− + − + − + − + −
=
=
= =
53
2
2
2
8 12 8
22,2% 33,3%
[ 8].33,3 4.22,2
22,2
8 .4 10,67
33,3
q
q
q
− −
=
− =
= + =
Dessa forma obtém-se uma aproximação para o valor da mediana.
Observe que no cálculo acima foi considerada a distância entre a mediana e
8. Outras regras de três poderão ser feitas e você obterá valores próximos
de 10,67 para a mediana. Por exemplo, pode-se considerar a distância
entre a mediana e 12, entre 4 (início do primeiro intervalo) e a mediana,
entre a mediana e 24 (fim do último intervalo), entre outros.
A informação dos dados agrupados pode ser comunicada por tabela,
como feito anteriormente, ou por histogramas. O cálculo das medidas não
muda. Veja o histograma (Figura 6) para a variável salário, cuja informação
é a mesma da Tabela 5, e vamos calcular a mediana.
Figura 6: Histograma para a variável salário dos 36 empregados da
seção de orçamentos da Companhia MB.
A mediana deve corresponder ao valor da abcissa que divide a área
ao meio, ou seja, que deixa 50% de área à sua esquerda. Como a primeira
classe abrange 28% da área, faltam 22% até a mediana, ou seja, a mediana
é um valor entre 8 e 12. Utilizando proporcionalidade tem-se:
(0,50) 8 12 8
22% 33%
33 22
[ (0,50) 8]. 4.
100 100
22
(0,50) 8 .4 10,67
33
q
q
q
− −
=
− =
= + =
54
Vamos calcular também o primeiro quartil, q(0,25). Este valor
corresponde a 25% de área e, portanto, encontra-se na 1ª classe.
Exercício: calcule o terceiro quartil, q(0,75).
Veja outro exemplo. Considere as notas de 200 alunos dadas na
Tabela 6 abaixo e calcule os quartis e o segundo decil.
Tabela 6: Notas de 200 alunos e suas frequências absolutas
Notas ni
0 |- 2 28
2 |- 4 40
4 |- 6 50
6 |- 8 65
8 |- 10 17
Total 200
Para encontrar os quartis, é necessário obter as porcentagens
acumuladas. Isto está feito na Tabela 7.
Tabela 7: Notas de 200 alunos e suas frequências absolutas
Notas ni fi 100fi % 100fi %
Acumulada
0 |- 2 28 0,140 14,0 14,0
2 |- 4 40 0,200 20,0 34,0
4 |- 6 50 0,250 25,0 59,0
6 |- 8 65 0,325 32,5 91,5
8 |- 10 17 0,085 8,5 100,0
Total 200 1 100
O 1º quartil (q(0,25)) é a medida tal que 25% dos dados encontram-se
à sua esquerda, então, ele é um valor que se encontra na segunda classe (2
|- 4), já que a primeira contém apenas 14% dos dados. Entre a observação
2 e o q(0,25) tem-se 11% das observações. Assim,
(0, 25) 2 4 2
11% 20%
11
(0, 25) 2 .2 3,1
20
q
q
− −
=
= + =
O segundo quartil, q(0,50), encontra-se na terceira classe, logo,
(0,25) 4 8 4
25% 28%
25
(0,25) 4 .4 7,57
28
q
q
− −
=
= + =
55
(0,50) 4 6 4
16% 25%
16
(0,50) 4 .2 5,28
25
q
q
− −
=
= + =
O terceiro quartil, q(0,75), está na quarta classe, portanto,
(0,75) 6 8 6
16% 32,5%
16
(0,50) 6 .2 6,98
32,5
q
q
− −
=
= + =
O segundo decil, q(0,20), é encontrado na segunda classe:
(0,20) 2 4 2
6% 20%
6
(0, 20) 2 .2 2,6
20
q
q
− −
=
= + =
4.4 BOX PLOT
Também chamado de Desenho Esquemático ou Box & Whisker Plot, o
Box – Plot é um gráfico que apresenta os quartis, além do mínimo e o
máximo valor observado dentro de limites de especificação. Além de avaliar
facilmente os valores típicos, permite avaliar a assimetria, a dispersão e os
dados discrepantes de conjuntos de dados referentes à variáveis
quantitativas. Ele é formado basicamente por um retângulo, representando
a mediana e os quartis, e duas linhas que se estendem do menor valor
observado até o retângulo e deste até o maior valor observado,
considerando-se dois limites, superior e inferior. O limite superior (LS) é
dado por
3 1,5 qLS q d= +
e o limite inferior (LI) por
1 1,5 qLI q d= −
Os valores do conjunto de dados que se encontram entre os dois
limites são denominados valores adjacentes. Valores fora desses limites,
isto é, valores maiores que LS ou menores que LI, são denominados
valores discrepantes. Eles correspondem a pontos exteriores, observações
destoantes das demais que podem ou não ser o que se chama outliers ou
valores atípicos. Do ponto de vista estatístico um outlier pode ser um
produto de um erro de observação ou de arredondamento.
56
4.3.1 Como traçar o Box Plot.
Primeiramente calcula-se os valores da Mediana, 1º Quartil (Inferior) e
3º Quartil (Superior). Traçam-se dois retângulos (duas caixas): uma
representa a “distância” entre a Mediana e o 1º Quartil, e o outro a
“distância” entre o 3º Quartil e a Mediana. A partir dos quartis 1 e 3 são
desenhadas linhas verticais até os últimos valores não discrepantes, tanto
abaixo quanto acima. A Figura 7 ilustra a construção do Box Plot.
Figura 7: Construção do Box Plot (Chiann, 2017 [2]).
4.3.2 Interpretação do Box PLot
Como dito anteriormente, o Box Plot dá Ideia da posição, dispersão,
assimetria, caudas e dados discrepantes. A posição central é dada pela
mediana e a dispersão pela distância interquartílica dq. A assimetria é
avaliada de acordo com a posição dos três quartis. O comprimento das
caudas da distribuição é dado pelo comprimento das linhas que vão do
retângulo até os valores mais remotos e pelos valores atípicos. A Figura 8
abaixo ilustra a forma da distribuição de acordo com o Box Plot.
57
Fonte: Chiann, 2017 [2].
Exemplo1- (Reis, 2016) Sejam as alturas de homens adultos a seguir.
142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170
172 173 173 173 174 174 177 178 179 180 181 181 183 183 184 198 204
205
Construir o diagrama em caixas e analisar os resultados.
Resolução:
1) Ordenar os dados: já estão ordenados.
2) Calcular Mediana, Quartis Inferior e Superior
Mediana (Md)
• Posição: .( 1) 0,5.(35 1) 18p n + = + =
• Valor: 18(0,50) 172q x cm= =
1º Quartil (q1)
• Posição: .( 1) 0, 25.(35 1) 9p n + = + =
• Valor: 9(0,25) 166q x cm= =
3º Quartil: (q3)
58
• Posição: .( 1) 0,75.(35 1) 27p n + = + =
• Valor: 27(0,75) 180q x cm= =
3)Identificar os extremos: superior = 205 cm inferior = 142 cm.
4) q3 - Md=180 -172=8 cm; Md – q1 = 172 - 166 = 6 cm.
5) Valores discrepantes: obtidos pelos limites LS e LI.
• 3 1 180 166 14qd q q= − = − =
• 1 1,5 166 1,5.14 145qLI q d= − = − =
• 3 1,5 180 1,5.14 201qLS q d= + = + =
6) Construir o gráfico ( Figura 9)
Figura 9: Box-Plot para altura de homens adultos (Reis, 2016)
Na Figura 9 pode ser observada uma ligeira assimetria à direita, pois a
distância entre q3 e a mediana é maior que a distância entre q1 e a mediana,
a distância entre xn e a mediana (33) é maior que a distância entre x1 e a
mediana (30). Observa-se também a presença de valores discrepantes,
tanto acima quanto abaixo. No que se refere à dispersão, não há um padrão
para comparação.
Exemplo 2: Na Figura 10, são apresentados 36 tempos de
sobrevivência (em dias) e o Box Plot para este conjunto de dados.
Observa-se que:
• a distância (8) entre q3 e a mediana é menor que a distância
(11,25) entre q1 e a mediana;
• a distância (74,5) entre xn (x36 = 116) e a mediana é maior que
a distância (23,5) entre x1 e a mediana;
59
• a distância (66,5) entre xn e q3 é maior que a distância (12,25)
entre q1 e x1.
Assim, a distribuição do conjunto é assimétrica à direita.
Figura 10: Dados de tempo de sobrevivência e Box Plot (Chiann, 2017
[2]).
No gráfico podem ser observados dois valores discrepantes. Eles
podem ser provenientes de um erro ou representar de fato algo que é real.
Se confirmado que eles são provenientes de um erro, pode-se
desconsiderá-los e refazer os cálculos sem esses dois dados atípicos.
Nessecaso observa-se que:
• a distância entre q3 (47,5) e a mediana (39,5) é menor que a
distância entre q1 (29,5) e a mediana;
• a distância entre xn (x34 = 61) e a mediana é igual à distância
entre x1 e a mediana;
• a distância (13,5) entre xn e q3 é maior que a distância (11,5)
entre q1 e x1.
Assim, desconsiderando-se os valores discrepantes, a distribuição dos
dados não apresenta assimetria tão acentuada quanto antes, podendo-se
dizer que é aproximadamente simétrica.
60
A construção de um Box Plot pode ser feita utilizando tecnologia.
Existem diversos softwares e aplicativos para tal finalidade. O mesmo vale
para a distribuição de frequências, os diversos tipos de gráficos, as medidas
de posição e dispersão. Como sugestão, menciono o “Excel” e o
“LibreOffice Calc” para uso em computadores e os aplicativos “Estatística” e
“Calculadora de Estatística”
4.4TRANSFORMAÇÕES
Muitos procedimentos estatísticos pressupõem normalidade ou
simetria do conjunto de dados. Mas, em muitas situações essa
pressuposição não é atendida e existe a possibilidade de valores atípicos.
Uma alternativa para resolver o problema e obter dados mais
aproximadamente simétricos e uma distribuição próxima da normal é
transformá-los por alguma função. As principais transformações são:
( )
, 0
ln( ), 0
, 0
p
p
p
x se p
x x se p
x se p
 >

= =
 − <
Na prática, utiliza-se mais de uma transformação; para cada valor de p
obtém-se gráficos para os dados originais e para os dados transformados e
escolhe o valor de p mais adequado, isto é, escolhe-se a transformação que
torna os dados mais simétricos.
Para distribuições assimétricas à direita, toma-se valores de p tais que
0<p<1, pois valores grandes de x decrescem mais, relativamente a valores
pequenos. Analogamente, para distribuições assimétricas à esquerda,
toma-se p>1.
Considere os dados de populações do CD-Municípios e tome alguns
valores de p: 0, 1/4, 1/3, ½. A Figura 11 abaixo apresenta os histogramas
para os dados transformados. Observa-se que p = 0 (transformação
logarítmica) e p = 1/3 (transformação raiz cúbica) fornecem distribuições
mais próximas de uma distribuição simétrica.
61
Figura 11: Histogramas para os dados Cd – Municípios transformados
(Bussab & Morettin, 2007)
62
EXERCÍCIOS PROPOSTOS:
(Larson e Farber, 2010)
Nos exercícios 1 a 4, encontre a média, a moda e a mediana dos
dados, se possível. Se quaisquer dessas medidas não puderem ser
encontradas explique o porquê.
1. Os pontos médios por jogo marcados por cada time durante a temporada
regular de 2006.
19,6 18,2 22,1 18,8 16,9 26,7 23,3 14,9
26,6 19,9 19,1 18,8 16,7 26,7 23,2 20,7
16,2 17,6 24,1 25,8 19,8 22,2 10,5 24,9
22,1 30,8 18,6 20,9 22,9 13,2 20,2 19,2
2. As respostas de uma amostra de 1040 pessoas que foram perguntadas
se a qualidade do ar em sua comunidade está melhor ou pior do que
estava 10 anos atrás.
Melhor: 346 Pior: 450 Igual: 244.
3. A altura (em polegadas) de 18 estudantes do sexo feminino durante uma
aula de educação física.
Altura (em polegadas) Frequência (ni)
60 |- 63 4
63 |- 66 5
66 |- 69 8
69 |- 72 1
4. As distâncias (em jardas) para nove buracos de um jogo de golf são
listadas.
336 393 408 522 147 504 177 375 360
a) Encontre a média e a mediana dos dados
b) Converta as distâncias para pés. Refaça a parte (a).
c) Compare as medidas encontradas na parte (b) com os resultados na
parte (a). O que se pode notar?
d) Use os resultados da parte (c) para explicar o conjunto de dados
fornecido se as distâncias são medidas em polegadas.
5. Um serviço de teste ao consumidor obteve as seguintes milhas por galão
em cinco testes de desempenho com três tipos de carros compactos.
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5
Carro A 28 32 28 30 34
Carro B 31 29 31 29 31
Carro C 29 32 28 32 30
63
a) O fabricante do carro A quer anunciar que seu carro teve o melhor
desempenho no teste. Que medida da tendência central – média,
moda ou mediana – deveria ser usada para essa afirmação?
Explique.
b) O fabricante do carro B quer anunciar que seu carro teve o melhor
desempenho no teste. Que medida da tendência central – média,
moda ou mediana – deveria ser usada para essa afirmação?
Explique.
c) O fabricante do carro C quer anunciar que seu carro teve o melhor
desempenho no teste. Que medida da tendência central – média,
moda ou mediana – deveria ser usada para essa afirmação?
Explique.
6. Estudantes em uma aula de psicologia experimental realizaram uma
pesquisa sobre a depressão como sinal de estresse. Um teste foi
administrado com uma amostra de 30 estudantes. As notas são
fornecidas
44 51 11 90 76 36 64 37 43 72 53 62 36 74 51
72 37 28 38 61 47 63 36 41 22 37 51 46 85 13
a) Encontre a média e a mediana
b) Descreva a forma da distribuição das notas, justificando.
7. Encontre a amplitude, a média, a variância, o desvio padrão e o
coeficiente de variação do conjunto de dados populacional abaixo:
15 24 17 19 20 18 20 16 21 23 17 18 22 14
8. Encontre a amplitude, a média, a variância, o desvio padrão e o
coeficiente de variação do conjunto de dados amostral abaixo:
28 25 21 15 7 14 9 27 21 24 14 17 16.
9. Você está se candidatando a um emprego em duas empresas. A
empresa A oferece salários iniciais com µ = $31.000 e σ = $1.000. A
empresa B oferece salários iniciais com µ = $31.000 e σ = $5.000. Em
qual empresa você mais provavelmente conseguiria uma oferta de
$33.000 ou mais?
64
10.Abaixo são apresentados os Box Plot para dois conjuntos de dados,
ambos com mediana de 165. Um tem desvio padrão de 16 e o outro de
24. Qual é qual? Explique seu raciocínio.
11.Observe os gráficos a seguir:
(i) (ii) (iii)
a) Sem calcular, determine qual conjunto de dados tem o maior desvio
padrão amostral. Qual tem o menor desvio padrão amostral?
Explique.
b) Quais as semelhanças entre os conjuntos de dados? E as
diferenças?
65
12.Observe os gráficos a seguir:
(i) (ii) (iii)
a) Sem calcular, determine qual conjunto de dados tem o maior desvio
padrão amostral. Qual tem o menor desvio padrão amostral?
Explique.
b) Quais as semelhanças entre os conjuntos de dados? E as
diferenças?
13.Os resultados de uma amostra aleatória do número de animais de
estimação em certa região são mostrados no histograma. Estime a média
amostral e o desvio padrão amostral do conjunto de dados.
14.A tabela seguinte mostra as alturas (em polegadas) e pesos (em libras)
dos membros de um time de basquete. Encontre o coeficiente de
variação para cada conjunto de dados. O que se pode concluir?
Alturas Pesos
72 180
74 168
68 225
76 201
74 189
69 192
72 197
79 162
70 174
69 171
66
77 185
73 210
15.Uma amostra dos salários anuais (em milhares de dólares) dos
funcionários de uma empresa é listada a seguir.
42 36 48 51 39 39 42 36 48 33 39 42 45
a) Encontre a média amostral e o desvio padrão amostral
b) Cada funcionário na amostra recebe 5% de aumento. Encontre a
média amostral e o desvio padrão amostral para o conjunto de dados
revisados.
c) Para calcular o salário mensal, divida cada salário original por 12.
Encontre a média amostral e o desvio padrão amostral para o
conjunto de dados revisados.
d) O que se pode concluir com os resultados de (a), (b) e (c)?
16.A altura (em polegadas) de 18 estudantes do sexo feminino durante uma
aula de educação física foi dada no exercício 4. Calcule a variância, o
desvio padrão e o coeficiente de variação para estes dados considerando
que:
a) Trata-se de uma população
b) Trata-se de uma amostra.
17.Encontre os três quartis e construa o Box Plot para os dados a seguir:
2 7 1 3 1 2 8 9 9 2 5 4 7 3 7 5 4 7 2 3 5 5
9 5 6 3 9 3 4 9 8 8 2 3 9 5
18.Os gols marcados por jogo por um time de futebol representam o
primeiro quartil para todos os times da liga. O que podemos concluir
sobre os gols marcados pelo time por jogo?
19. Observe o Box Plot a seguir, referente a notas dos testes de 15
funcionários matriculados em um curso de treinamento.
67
a) Qual a entrada mínima?
b) Qual a entrada máxima?
c) Identifique o primeiro, o segundo e o terceiro quartil.
d)