Buscar

ANA_MUL_COMP_ACE_2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 224 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 224 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 224 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Análise multivariada 
de dados para gestão 
e negócios
Rita de Cássia Marques Lima de Castro
AN
ÁL
IS
E 
M
UL
TI
VA
RI
AD
A 
DE
 D
AD
OS
 P
AR
A 
GE
ST
ÃO
 E
 N
EG
ÓC
IO
S
Dados Internacionais de Catalogação na Publicação (CIP)
(Simone M. P. Vieira - CRB 8a/4771)
Castro, Rita de Cássia Marques Lima de
  Análise multivariada de dados para gestão e negócios / Rita de Cássia 
Marques Lima de Castro. – São Paulo : Editora Senac São Paulo, 2022. 
(Série Universitária)
  Bibliografia.
  e-ISBN 978-85-396-3751-5 (ePub/2022)
  e-ISBN 978-85-396-3752-2 (PDF/2022)
  1. Análise de dados 2. Estatística 3. Metodologia de pesquisa  
I. Título II. Série.
22-1719t CDD – 001.422
 COM018000 
Índice para catálogo sistemático:
1. Análise de dados 001.422
M
at
er
ia
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
ANÁLISE MULTIVARIADA 
DE DADOS PARA GESTÃO 
E NEGÓCIOS 
Rita de Cássia Marques Lima de Castro
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
Administração Regional do Senac no Estado de São Paulo
Presidente do Conselho Regional
Abram Szajman
Diretor do Departamento Regional
Luiz Francisco de A. Salgado
Superintendente Universitário e de Desenvolvimento
Luiz Carlos Dourado
M
at
er
ia
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Editora Senac São Paulo
Conselho Editorial
Luiz Francisco de A. Salgado 
Luiz Carlos Dourado 
Darcio Sayad Maia 
Lucila Mara Sbrana Sciotti 
Luís Américo Tousi Botelho
Gerente/Publisher
Luís Américo Tousi Botelho
Coordenação Editorial/Prospecção
Dolores Crisci Manzano 
Ricardo Diana
Administrativo
grupoedsadministrativo@sp.senac.br
Comercial
comercial@editorasenacsp.com.br
Acompanhamento Pedagógico
Otacília da Paz
Designer Educacional
Hágara Rosa da Cunha Araújo
Revisão Técnica
Maria Carolina Cassino Carneiro da Cunha
Revisão de Texto
Maitê Zickuhr
Projeto Gráfico
Alexandre Lemes da Silva 
Emília Corrêa Abreu
Capa
Antonio Carlos De Angelis
Editoração Eletrônica
Sidney Foot Gomes
Ilustrações
Sidney Foot Gomes
Imagens
Adobe Stock Photos
E-book
Rodolfo Santana
Proibida a reprodução sem autorização expressa.
Todos os direitos desta edição reservados à
Editora Senac São Paulo
Rua 24 de Maio, 208 – 3o andar 
Centro – CEP 01041-000 – São Paulo – SP
Caixa Postal 1120 – CEP 01032-970 – São Paulo – SP
Tel. (11) 2187-4450 – Fax (11) 2187-4486
E-mail: editora@sp.senac.br 
Home page: https://www.editorasenacsp.com.br
© Editora Senac São Paulo, 2022
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
Sumário
Capítulo 1
Introdução, coleta e organização 
de dados, 7
1 Introdução, coleta e organização de 
dados, 8
2 Conceito de variável: diferenças 
entre dados quantitativos e 
qualitativos, 10
3 Organização de dados em 
tabelas, 15
4 Distribuição de frequências: 
sem intervalos de classe e com 
intervalos de classe, 20
5 Aplicações à área de gestão e 
negócios, 26
Considerações finais, 28
Referências, 30
Capítulo 2
Medidas de centralidade e de 
ordenamento, 33
1 Análise do IDH e as medidas de 
centralidade, 34
2 Média, 37
3 Moda, 42
4 Mediana, 45
5 Quartis, decis e percentis, 48
6 Aplicações das medidas de 
centralidade e de ordenamento à 
área de gestão e negócios, 52
Considerações finais, 54
Referências, 56
Capítulo 3
Medidas de variabilidade, 59
1 Mudança: algo “constante” em 
nossa vida, 60
2 Amplitude, 63
3 Variância e desvio-padrão, 65
4 Coeficiente de variação, 75
5 Mais aplicações, 78
Considerações finais, 80
Referências, 81
Capítulo 4
Representações gráficas 
estatísticas, 85
1 A importância das representações 
gráficas estatísticas, 86
2 Gráficos de linha, 88
3 Histogramas e polígonos de 
frequências, 92
4 Gráfico de setores, 97
5 Gráfico de ramo e folhas, 98
6 Boxplot, 100
7 Aplicações, 103
Considerações finais, 105
Referências, 107
Capítulo 5
Probabilidade, 111
1 Medindo a incerteza, 112
2 Experimento aleatório, espaço 
amostral, eventos, 114
3 Definição e cálculo elementar de 
probabilidade, 116
4 Teorema da soma e do produto, 123
5 Árvore de probabilidades, 130
6 Probabilidade condicional, 132
Considerações finais, 134
Referências, 135
Capítulo 6
Distribuições de probabilidade 
discretas e contínuas, 137
1 A utilidade de compreender 
modelos matemáticos, 138
2 Variáveis aleatórias, 139
3 Distribuição de probabilidade 
binomial, 144
4 Distribuição de probabilidade de 
Poisson, 147
5 Distribuição de probabilidade 
contínua, 149
Considerações finais, 162
Referências, 164
Anexo I - Distribuição Normal 
Padrão, 166
6 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Capítulo 7
Correlação e regressão linear, 169
1 Compreender o entorno para tomar 
decisões mais assertivas e fazer 
previsões, 170
2 Correlação linear: conceito e 
diagrama de dispersão, 171
3 Cálculo do coeficiente de correlação 
linear, 178
4 Regressão linear, 182
Considerações finais, 192
Referências, 194
Capítulo 8
Estimação pontual, média, 
desvio-padrão e proporção 
populacional, 197
1 Os desafios da estimação, 198
2 População: amostra e principais 
métodos de coleta de amostra, 199
3 Estimação, 209
4 Parâmetros: média, desvio-padrão e 
proporção, 217
Considerações finais, 223
Referências, 224
Sobre a autora, 229
7
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
Análise multivariada de dados: como o próprio nome sugere, o con-
teúdo desta obra se destina a instruir como trabalhar estatisticamente 
com dados de maneira a poder, após a análise dos dados obtidos e 
mediante a aplicação de ferramentas e técnicas, tomar decisões mais 
assertivas. 
O termo “multivariada” indica que são várias características (variá-
veis) a serem analisadas, como ocorre na maioria das vezes em que 
observamos os fatos e os fenômenos ao nosso redor e queremos es-
tudar esses fenômenos para tentar compreendê-los melhor, identificar 
algo que nos permita tomar decisões ou fazer associações entre essas 
características observadas para chegarmos a alguma conclusão.
Capítulo 1
Introdução, coleta 
e organização 
de dados
8 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Esta será uma caminhada bem interessante, pois trataremos de algo 
muito prático e que trará conhecimentos importantes para dar suporte 
à análise estatística de situações que ocorrem no dia a dia organiza-
cional e pessoal, permitindo assim interpretar fenômenos e fazer pro-
jeções para o futuro a partir de resultados obtidos pela observação e 
análise dos dados. 
Especificamente neste capítulo, serão apresentados o conceito de 
variável e a distinção entre dados quantitativos e qualitativos; também 
vamos aprender o que são tabelas de frequências, como organizar da-
dos em tabelas de frequências, bem como o que são classes e de que 
modo realizar a distribuição de frequências sem intervalos de classe e 
com intervalos de classe. Ademais, todos esses elementos de compo-
sição de aprendizagem serão aplicados na área de gestão e negócios, 
realizando-se, assim, o importante binômio entre teoria e prática.
Ao final deste capítulo, será possível compreender os tipos de variáveis 
com que trabalhamos para a tomada de decisões e identificar as formas 
de organização dos dados em tabelas de distribuições de frequências.
1 Introdução, coleta e organização de dados
A análise multivariada de dados é um dos elementos essenciais para 
tomarmos decisões. Ela faz parte da estatística, ciência que trata da cole-
ta, organização, análise e interpretação de dados (FREUND, 2006), visan-
do compreender melhor os fenômenos para reduzir a incerteza na toma-
da de decisões. Por que a estudamos? Porque a incerteza é parte da vida 
humana e a tomada de decisões, também. Em qualquer profissão e na 
própria vida pessoal somos confrontados com lacunas nas informações 
que temos sobre certos fenômenos e precisamos tomar decisões com 
base nos dados que conseguimos obter, seja de eventos que já ocorre-
ram sobre certos fenômenos, seja da observação dos fenômenos e apli-
cação de técnicas estatísticas que nos permitam comparar fenômenos, 
9Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
com o intuito de descobrir alguma relação entre eles, influências, se há 
causas e consequências, e se podemos prever o que vai ocorrer futu-
ramente com base nos dados que temos (BUSSAB; MORETTIN, 2006). 
Tudo isso, claro, sabendo das limitações de nossas previsões.
Para ilustrar como é importante saber analisar dados, vamos a dois 
exemplos: 
 • Você trabalha em uma organização que atua com educação e 
seu serviço é analisar pedidos de bolsas de estudos. O gestor 
precisa decidir para quem conceder bolsas, visto que os recur-
sos são escassos e há muitos candidatos. Um dos critérios 
para tomada de decisão é o desempenho acadêmico pregresso. 
Você coletará dados de notas, fará anotações a respeito, e or-
ganizará os dados coletados para análise de desempenho. Com 
base nesses dados, a decisão da gestão se dará quanto a quem 
vai receber a bolsa de estudos.
 • Você precisa decidir onde investir um prêmio monetário que rece-
beu por desempenho. Com base nos dados que são publicados na 
Bolsa de Valores, analisará que ações estão tendo bom desempe-
nho para escolher, mediante critérios como tempo de resgate, re-
torno médio que a ação trouxe nos últimos meses e valor mínimo 
a ser aplicado, em qual ou quais empresas aplicará seu dinheiro. 
Se sua análise de dados for eficiente, terá mais chances de tomar 
uma decisão que lhe traga mais possibilidade de obter ganhos.
Pois bem, posto isso, podemos compreender quão importante é sa-
ber analisar dados, a nossa matéria-prima para a tomada de decisão. 
Lembrando que dados são elementos que nos servirão para resolver 
um problema, isto é, são o ponto de partida da análise. Da combinação 
de dados com um contexto temos as informações, e destas, geraremos 
o conhecimento, que é uma informação que sofre um tratamento, um 
processamento que gera uma ação para mudança (CASTRO, 2017). A 
10 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
análise multivariada de dados, então, será uma ferramenta poderosa na 
geração de conhecimento.
2 Conceito de variável: diferenças entre 
dados quantitativos e qualitativos 
Analisemos esta situação:
Anabel Florência trabalha em uma empresa que abrirá uma acade-
mia de ginástica no bairro Vida Ativa. Para definir quais atividades ofer-
tar e qual o horário de funcionamento, Anabel fez uma pesquisa sobre 
as características das pessoas que moram no bairro. Procurou identifi-
car: idade, se a pessoa trabalha e/ou estuda, períodos de horários livres 
(manhã/tarde/noite), quais os esportes ou atividades físicas de prefe-
rência e sua renda salarial mensal em quantidade de salários-mínimos. 
O que são esses elementos que Anabel analisará? São características 
relacionadas a essas pessoas. Em estatística, chamamos essas carac-
terísticas de variáveis. 
Variável é, portanto, uma característica de um elemento que quere-
mos analisar. E os dados? Eles são “fatos e números coletados, anali-
sados e sintetizados para apresentação e interpretação” (ANDERSON et 
al., 2019, p. 5); os dados são, pois, aquilo que coletamos e registramos 
sobre uma variável observada. Os dados são a nossa matéria-prima 
para podermos gerar informações. No exemplo, Anabel Florência co-
letou dados de 14 pessoas; o primeiro respondente informou: tenho 20 
anos, trabalho e estudo, tenho livre o período da noite, gosto de natação 
e tenho renda de 3 salários-mínimos; o segundo disse que tem 25 anos, 
trabalha e estuda, tem horário livre à noite, gosta de musculação e tem 
renda de 2 salários-mínimos.
Larson e Farber (2010) destacam que os dados são gerados por 
meio de nossas observações, bem como mediante contagens que 
11Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
realizamos, ou medições, ou são fruto de respostas que coletamos em 
pesquisas, como no caso aqui exemplificado. 
PARA PENSAR 
Sendo os dados a nossa matéria-prima para gerar informação e conhe-
cimento, você já refletiu sobre a importância de nos debruçarmos sobre 
as características, isto é, as variáveis que queremos escolher para le-
vantar e posteriormente organizar e analisar? Se não as escolhermos 
adequadamente, obteremos dados que não nos servirão ou resultarão 
em uma análise inadequada do fenômeno. 
 
Tendo em mente a importância do assunto, é hora de ampliarmos o 
conhecimento acerca dos dados para trabalharmos com eles de forma 
mais adequada.
Os dados são classificados em dois tipos: os que podem ser medi-
dos em “uma escala numérica natural” e os que não podem (MCCLAVE; 
BENSON; SINCICH, 2009, p. 11; TAKAHASHI, 2010). Chamamos aos da-
dos que não podem ser medidos de dados categóricos ou qualitativos 
(lembre-se da ideia de categoria, de qualidade ou atributo que um ele-
mento tem ou não; isso facilita a associação entre as palavras categóri-
cos – categoria e qualitativos – qualidade). Já os dados que podem ser 
medidos são chamados de numéricos ou quantitativos.
Como podemos identificar se os dados podem ou não ser medidos? 
Podem ser medidos os dados que possibilitam que nós os dividamos 
de forma igual, como, por exemplo, a altura das pessoas. Note que as 
alturas podem ser medidas, por exemplo,em escala de centímetros – 
e esses centímetros são unidades igualmente divididas (exemplo: 155 
cm, 156 cm, 157 cm, etc.); o mesmo raciocínio vale para a escala de 
altura em metros. Logo, podemos medir alturas. 
12 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Agora, usando um exemplo bem interessante adaptado de Takahashi 
(2010), o que ocorre com níveis de proficiência em uma língua? Podemos 
ter vários níveis como básico, intermediário e avançado, mas o exigido 
em cada nível tem igual complexidade? 
Para termos evidência de que não são complexidades que variam 
“igualmente” de nível para nível, comparemos três níveis: se o nível avan-
çado exige, hipoteticamente, um conhecimento de vocabulário entre 10 
mil e 15 mil palavras; o nível intermediário um vocabulário de 5 mil pala-
vras e o nível básico, por sua vez, um vocabulário de 500 palavras, o que 
identificamos? Que os níveis de exigência de vocabulário não variam 
igualmente de nível para nível; assim, não podemos medir esses da-
dos, nem podemos fazer cálculos matemáticos com esse tipo de dado 
(LARSON; FARBER, 2010). 
Agora, vamos aprender mais algumas classificações dos dados. 
Os dados qualitativos podem ser ordenados ou não. Os que podem 
ser ordenados, isto é, organizados seguindo uma ordem, são chamados 
de dados qualitativos ordinais. Um exemplo muito comum é o nível de 
escolaridade das pessoas. A ordem dos níveis é, em geral: I – ensino 
fundamental, II – ensino médio, III – ensino superior. Também podemos 
citar: a ordem dos meses no ano; os estágios do ciclo de vida de um 
produto (introdução, crescimento, maturidade, declínio); o ciclo de vida 
dos seres humanos (infância, adolescência, fase adulta, velhice), etc. 
Já os dados qualitativos que não podem ser ordenados são cha-
mados de dados qualitativos nominais. Exemplo: cor dos olhos/dos 
cabelos; gênero; estado civil (solteiro/casado/divorciado/viúvo); tipo 
sanguíneo (A; B; AB; O); “sim” ou “não” como alternativas a perguntas 
(p. ex.: pratica esportes? Sim/não; é vegano? Sim/não). É comum en-
contrarmos pesquisas e questionários em que as categorias dos dados 
aparecem associadas a um número, por exemplo: “Você é: 1 – solteiro; 
2 – casado; 3 – divorciado; 4 – viúvo”, mas esses números são apenas 
códigos para facilitar a tabulação. Não podemos fazer operações mate-
máticas com esses dados (FREUND, 2006).
13Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
Os dados quantitativos, por sua vez, são classificados em discretos 
ou contínuos. Dados discretos são aqueles que formam um conjunto 
de elementos que nós podemos enumerar e que são finitos como, por 
exemplo, número de filhos – note que uma pessoa pode não ter filhos, 
que representaremos por zero, ou pode ter um, dois, três, quatro filhos…; 
não há possibilidade de classificação intermediária entre cada catego-
ria: ou a pessoa não tem filhos, ou tem um, ou dois, ou três… Os dados 
quantitativos discretos são finitos ou infinitos, e são associados a um 
conjunto enumerável de elementos (um conjunto que pode ser conta-
do). Portanto, os dados quantitativos discretos são obtidos, de forma 
geral, mediante ações em que contamos esses elementos.
Dados quantitativos contínuos, como o nome indica, são aqueles em 
que os valores observados podem pertencer a “um intervalo de números 
reais” (BUSSAB; MORETTIN, 2006, p. 10). Esses dados têm origem em 
processos de medidas (nos quais determinamos grandezas, ou exten-
sões, ou alturas, e comparamos os resultados tomando por base uma 
unidade padrão) e, nessa ação de medir, poderemos encontrar resulta-
dos diversos, não apenas números inteiros. Por isso dizemos que da-
dos contínuos fazem parte de um intervalo de números reais (os quais 
abrangem os números naturais, os inteiros, os decimais, os racionais 
e os irracionais). Um exemplo que evidencia bem essa ideia é a altura 
ou a massa de indivíduos. No caso da massa, podemos ter registros de 
50 kg, 50,4 kg, 51,3 kg, 55,899 kg, 56 kg, 57,55 kg, 58,9 kg, etc.; o mes-
mo critério de medição vale para altura, para comprimentos de peças 
produzidas, para velocidades… Em todos esses casos, poderemos ter 
dados inteiros e fracionários, e encontrar registros em qualquer ponto 
de um determinado intervalo. Usando o exemplo das massas dos indiví-
duos, se registramos os dados de sete indivíduos, no intervalo de 50 kg 
a 59 kg, poderemos encontrar dados em qualquer ponto desse interva-
lo. Observando na reta numérica fica simples identificar:
14 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Figura 1 – Dados contínuos na reta numérica
Intervalo de dados registrados nas
observações de massa dos indivíduos
50
50 kg
51 52 53 54 55 56 57 58 59
50,4 kg 51,3 kg 55,8999 kg 57,55 kg 58,9 kg56 kg
Veja que interessante: como estudado, os dados quantitativos dis-
cretos são obtidos, de forma geral, mediante ações em que contamos 
esses elementos; já os dados quantitativos contínuos são obtidos por 
meio de medições. Logo, podemos dizer que dados quantitativos vêm 
de ações de contagem, de mensuração ou, ainda, de alguma operação 
envolvendo matemática como, por exemplo, quando calculamos por-
centagens em que as respostas a determinada questão foram dadas 
com relação ao total de respostas dadas (DOANE; SEWARD, 2008).
IMPORTANTE 
Sabe por que é relevante compreender essas diferenças entre os tipos 
de dados? Porque para cada tipo de dado há técnicas estatísticas mais 
recomendadas que outras para se analisar os dados da forma mais ade-
quada e, ao conhecermos essas diferenças, poderemos escolher melhor 
quais técnicas usar. Ademais, também poderemos, em certos casos, 
conceder a dados qualitativos valores numéricos – códigos, como de-
nominam Freund (2006) e McClave, Benson e Sincich (2009) – para tra-
balharmos esses dados com técnicas de análise voltadas ao exame de 
variáveis quantitativas, aprimorando nosso poder de análise e interpre-
tação de dados (BUSSAB; MORETTIN, 2006).
 
Lembre-se de que os dados são atrelados à classificação das vari-
áveis. As variáveis qualitativas nominais ou ordinais lidam com dados 
não numéricos; já as variáveis quantitativas, discretas ou contínuas, li-
dam com dados numéricos.
15Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
3 Organização de dados em tabelas
Quando coletamos dados, para que possamos ter uma compreensão 
melhor e mais adequada de como eles se distribuem – se há algum dado 
que aparece mais vezes que os outros, se há algo que chama a nossa 
atenção e pode nos ajudar na tomada de decisão – precisamos orga-
nizá-los e, depois, aplicar as técnicas de contagem, quando for o caso, 
para facilitar nossa análise. No caso dos dados de Anabel Florência, se 
você tentasse analisar o que foi coletado sem fazer nada, apenas con-sultando as respostas das pessoas, encontraria com facilidade algum 
elemento para tomar decisões? Não. É por isso que construímos tabe-
las com os dados sobre as variáveis. Em geral, colocamos as variáveis 
como títulos das colunas e, nas linhas, inserimos os dados coletados:
Tabela 1 – Dados da pesquisa realizada por Anabel Florência
REGISTROS IDADE TRABALHA ESTUDA
PERÍODOS DE 
HORÁRIOS 
LIVRES (MANHÃ/
TARDE/NOITE)
 ESPORTES OU 
ATIVIDADES 
FÍSICAS DE 
PREFERÊNCIA
RENDA SALARIAL 
MENSAL EM 
QUANTIDADE DE 
SALÁRIOS- 
-MÍNIMOS
1 20 sim sim noite natação 3
2 25 sim sim noite musculação 2
3 33 sim sim noite yoga 3
4 23 sim sim noite natação 4
5 45 sim não manhã pilates 4
6 32 sim sim noite dança 4
7 33 sim sim noite natação 5
8 27 sim não manhã hidroginástica 6
9 24 sim sim noite musculação 6
10 68 não não manhã/tarde hidroginástica 4
⃪ Variáveis
Dados
(cont.)
16 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
REGISTROS IDADE TRABALHA ESTUDA
PERÍODOS DE 
HORÁRIOS 
LIVRES (MANHÃ/
TARDE/NOITE)
 ESPORTES OU 
ATIVIDADES 
FÍSICAS DE 
PREFERÊNCIA
RENDA SALARIAL 
MENSAL EM 
QUANTIDADE DE 
SALÁRIOS- 
-MÍNIMOS
11 59 não não manhã/noite hidroginástica 3
12 26 não sim manhã/tarde pilates 4
13 27 sim sim noite musculação 3
14 32 sim sim noite natação 2
Dados
Ao analisar os dados organizados no formato de tabelas, fica mais fácil 
identificar que a maioria dos 14 entrevistados por Anabel Florência traba-
lha e estuda e tem disponibilidade para praticar atividades físicas à noite. 
Entretanto, para termos mais precisão na análise, organizaremos os da-
dos, registrando quantas vezes a variável assume certo valor na pesquisa 
feita por Anabel. O número de vezes que cada variável assume certo valor 
é chamado de frequência absoluta simples de cada valor. Em estatística, 
representamos a frequência pelo símbolo fi, em que a letra f representa a 
palavra frequência e a letra i representa a quantidade de elementos.
Como fazer? Vamos construir tabelas para cada variável. 
Primeiramente, ordene cada variável de forma crescente ou decrescente 
– é mais comum a crescente. Quando organizamos os dados em uma 
sequência ordenada, damos a essa sequência o nome de “rol”. Vamos 
exemplificar com uma das variáveis que Anabel escolheu para sua pes-
quisa: a que indica esportes ou atividades físicas de preferência. Temos 
o seguinte rol: dança, hidroginástica, hidroginástica, hidroginástica, mus-
culação, musculação, musculação, natação, natação, natação, natação, 
pilates, pilates, yoga. Aqui, listamos os dados, preservando a identidade 
de cada dado encontrado. Como ressalta Freund (2006), estamos rear-
ranjando os dados, sem modificá-los. A seguir, partimos para registrar a 
frequência com que esses dados apareceram – para tanto, contamos o 
número de vezes que cada dado aparece e registramos em uma tabela:
⃪ Variáveis
17Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
Tabela 2 – Variável: atividade física de preferência
TIPO DE ATIVIDADE FÍSICA DE PREFERÊNCIA FREQUÊNCIA (FI)
dança 1
hidroginástica 3
musculação 3
natação 4
pilates 2
yoga 1
Total 14
A essa frequência de cada dado damos o nome de frequência ab-
soluta simples. A preferência de atividade física que mais aparece re-
gistrada na pesquisa é a natação, com quatro escolhas, seguida de hi-
droginástica e musculação, com três escolhas cada. Para sabermos o 
que essas escolhas representam, comparativamente, vamos dividir o 
total de cada frequência absoluta pelo total de respostas – ao resultado, 
damos o nome de frequência relativa simples, que representamos por 
Fr. Podemos, ainda, deixar os resultados dessas frequências relativas 
expressos em porcentual, bastando multiplicar as frequências relativas 
por 100. Por exemplo, ao calcularmos a frequência relativa da preferên-
cia por dança: dividimos o 1, que representa a frequência com que essa 
atividade foi escolhida (no caso, uma pessoa escolheu dança), pelo total 
de respostas (14) e encontramos 0,0714. Para a hidroginástica, dividi-
mos 3 por 14 e encontramos 0,2143, e assim sucessivamente.
Tabela 3 – Atividade física de preferência com frequência relativa e resultados em porcentagem
TIPO DE ATIVIDADE 
FÍSICA DE 
PREFERÊNCIA
FREQUÊNCIA 
ABSOLUTA 
SIMPLES (fi)
FREQUÊNCIA 
RELATIVA 
SIMPLES (Fr)
FREQUÊNCIA RELATIVA 
SIMPLES EM PORCENTAGEM 
(%)
dança 1 0,0714 7,14%
hidroginástica 3 0,2143 21,43%
musculação 3 0,2143 21,43%
(cont.)
18 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
TIPO DE ATIVIDADE 
FÍSICA DE 
PREFERÊNCIA
FREQUÊNCIA 
ABSOLUTA 
SIMPLES (fi)
FREQUÊNCIA 
RELATIVA 
SIMPLES (Fr)
FREQUÊNCIA RELATIVA 
SIMPLES EM PORCENTAGEM 
(%)
natação 4 0,2857 28,57%
pilates 2 0,1429 14,29%
yoga 1 0,0714 7,14%
Total 14 1 100%
O que concluímos? Que natação foi a atividade física que teve mais 
registros de preferência das pessoas que responderam à pesquisa de 
Anabel Florência, e essa atividade corresponde a 28,57% do total de 
respostas. Em seguida, empataram em preferência as modalidades hi-
droginástica e musculação, cada qual com 21,43% das escolhas. Se a 
academia, por exemplo, tiver de optar por quais atividades físicas ofe-
recer, considerando os recursos que tem, e que pode, neste momento, 
oferecer até três modalidades, quais deveria escolher? Ela daria priori-
dade para esportes que envolvam água – pois natação e hidroginástica 
tiveram registros de interesse –, e musculação, que junto com a hidrogi-
nástica foi a segunda maior procura, só perdendo para natação. 
IMPORTANTE 
Os dados, quando organizados e devidamente trabalhados estatistica-
mente, nos trazem preciosas informações e nos permitem tomar de-
cisões de forma mais assertiva. Por isso, tenha sempre em mente os 
objetivos de sua organização e seus propósitos quando for estruturar 
o planejamento de sua pesquisa para obter dados e extrair deles as 
informações de que necessita.
 
Se quiséssemos extrair mais informações dos dados, por exem-
plo, saber quais as atividades físicas que, em conjunto, alcançam 50% 
das respostas de preferência, o que faríamos? Poderíamos somar as 
19Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
frequências relativas em porcentagem, dado que se solicita encontrar 
porcentual de respostas de preferência, e ir acumulando as respostas 
em uma coluna que denominaremos frequência absoluta acumulada e 
representaremos por Fac.
Como calculamos: copiamos o resultado da primeira frequência em 
uma coluna ao lado; na linha seguinte, somamos o resultado da primeira 
frequência com o da segunda frequência e assim sucessivamente. Os 
resultados vão sendo acumulados até chegar a 1, no caso das frequên-
cias relativas, dado que a soma das partes dará o todo, que é represen-
tado pelo 1, significando um inteiro.Se somarmos frequências relativas 
expressas em porcentual, o final deverá dar 100%, também indicando a 
totalidade (soma dos porcentuais de cada frequência).
Tabela 4 – Atividade física de preferência (tabela completa de distribuição de frequências)
TIPO DE 
ATIVIDADE 
FÍSICA DE 
PREFERÊNCIA
FREQUÊNCIA 
ABSOLUTA 
SIMPLES (fi)
FREQUÊNCIA 
RELATIVA 
SIMPLES (Fr)
FREQUÊNCIA 
RELATIVA 
SIMPLES EM 
PORCENTAGEM 
(%)
FREQUÊNCIA 
RELATIVA 
ACUMULADA 
(Fac)
FREQUÊNCIA 
RELATIVA 
ACUMULADA EM 
PORCENTAGEM 
(FRac)
dança 1 0,0714 7,14% 0,0714 7,14%
hidroginástica 3 0,2143 21,43% 0,2857 28,57%
musculação 3 0,2143 21,43% 0,5000 50,00%
natação 4 0,2857 28,57% 0,7857 78,57%
pilates 2 0,1429 14,293% 0,9286 92,86%
yoga 1 0,0714 7,14% 1,0000 100,00%
Total 14 1 100,00%    
PARA SABER MAIS 
No capítulo 1 do livro de Larson e Farber há tabelas com exemplos de da-
dos e cálculos que podemos fazer para cada tipo de variável. Quer se apro-
fundar? Consulte: Estatística aplicada (LARSON; FARBER, 2010, p.11-12).
 
20 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
4 Distribuição de frequências: sem 
intervalos de classe e com intervalos de 
classe
Quando montamos tabelas com os resultados de nossas pesquisas 
e apresentamos os dados que coletamos ordenados e contados con-
forme o número de vezes que foram observados na pesquisa, denomi-
namos essa apresentação de uma distribuição de frequência sem inter-
valos de classe. Um exemplo é a apresentação feita dos resultados da 
pesquisa para a abertura da academia, realizada por Anabel Florência, 
em que se mostram as contagens obtidas de cada tipo de atividade 
física de preferência. 
Já quando agrupamos os dados coletados em subconjuntos e so-
mamos as frequências absolutas de cada dado que faz parte de cada 
subconjunto, dizemos que estamos apresentando uma distribuição de 
frequências com intervalos de classe. Classes, portanto, são intervalos 
que definimos para agrupar as respostas obtidas (dados) de alguma 
variável, e elas representam junções dessas respostas. A partir disso, 
surge a dúvida: mas para que agrupamos dados em intervalos de clas-
se? Que vantagens há em fazer isso?
Antes de responder à questão, refletiremos sobre alguns pontos.
Quando temos poucos dados, podemos trabalhar com eles expres-
sando cada frequência observada em uma linha específica; mas é pos-
sível que tenhamos algumas distribuições nas quais, mesmo com pou-
cas observações registradas, as respostas estejam bem pulverizadas, 
não tendo quase variação entre as quantidades encontradas quando 
as contamos. Um exemplo está nas respostas de idades que foram co-
letadas na pesquisa de Anabel Florência: se tomarmos as idades dos 
respondentes e organizarmos um rol, temos: 20, 23, 24, 25, 26, 27, 27, 
32, 32, 33, 33, 45, 59, 68. Uma tabela inicial desta variável, em que ape-
nas agrupamos os dados fazendo a distribuição de frequências sem 
21Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
intervalos de classe, traria pouca informação para a análise porque, 
com exceção das idades 27, 32 e 33 anos, que aparecem duas vezes, 
todas as demais só aparecem uma vez. 
Convenhamos, ainda, que na maior parte das vezes trabalhamos com 
muitos dados e sua distribuição pode se tornar muito pulverizada e exten-
sa, o que torna a análise menos eficiente para tomar decisões, pois, dada 
a pulverização e quantidade de dados para verificar, não conseguimos 
encontrar algum padrão ou informação que nos ajude a compreender 
o conjunto, a identificar se há, por exemplo, concentração de respostas 
em algum grupo específico, se nos dados obtidos há preponderância de 
algum “comportamento” dos dados (p. ex.: há mais concentração de pes-
soas jovens no grupo de respondentes? Em que grupo de faixa etária há 
mais pessoas?). Para que se consiga interpretar melhor os dados, pode-
mos, então, agrupá-los em classes.
Quando juntamos as respostas em classes, perdemos os detalhes, 
mas ganhamos em concisão e compreensão dos dados (COSTA NETO, 
2002; FREUND, 2006) – e aqui está a chave para entendermos a impor-
tância de usar a distribuição de frequências com intervalos de classe. 
Como afirma Freund (2006), o preço que se paga por perder a informação 
original, a de cada dado em si, é recompensado por obtermos, na junção 
dos dados, mais condições de interpretar o que estamos analisando. 
4.1 Como definir o número de classes
Para este tipo de agrupamento de dados, precisamos decidir quan-
tas classes diferentes usaremos e o intervalo (de onde para onde) cada 
classe deve cobrir ou ir (FREUND, 2006; LEVIN; RUBIN, 1994). É reco-
mendável dividir o intervalo por igual, ou seja, a largura do intervalo do 
início de uma classe até o início da classe formada deve ser a mesma 
para todas as classes. Se escolhermos um intervalo de largura 5, por 
exemplo, vamos compor as classes agrupando cada limite inferior e 
superior de 5 em 5. Note que se as classes ficassem iguais e a largura 
22 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
dos intervalos (que é chamada de amplitude de classe) ficasse diferente 
entre as classes, teríamos uma distribuição muito mais difícil de inter-
pretar do que com intervalos iguais. 
O número de classes depende do número de dados (observações) 
e do intervalo dos dados coletados. Quanto mais pontos de dados ou 
quanto maior o intervalo dos dados, mais classes são necessárias para 
dividir os dados. Exemplo: se tivermos 20 observações, não faria sentido 
montarmos 20 classes; poderíamos montar, por exemplo, 4 classes, com 
largura 5 de intervalo; ou 5 classes, com largura 4 de intervalo. Em suma, 
Bussab e Morettin (2006) ressaltam que a escolha da quantidade de clas-
ses pode derivar do conhecimento que temos sobre os dados; Freund 
(2006) afirma ser raro encontrar menos do que 5 e mais do que 15 clas-
ses e, de forma geral, recomenda-se manter intervalos constantes. 
IMPORTANTE 
Mesmo havendo algumas diferenças entre os autores quanto à deter-
minação do número de classes, há consenso de que: 
• A escolha das classes é uma ação importante e requer reflexão.
• Ao determinar a quantidade de classes e construir os intervalos, 
devemos nos certificar de que cada valor observado ou medido 
tem de estar contido em uma classe e em apenas uma classe.
 
Para representar na tabela a informação de que cada valor obser-
vado ou medido está contido em uma classe e apenas em uma clas-
se, usaremos a notação matemática para intervalos e aplicaremos a 
de intervalo fechado à esquerda e aberto à direita. Vamos recordar o 
que isso significa? Se temos uma sequência de números, por exemplo, 
10, 20, 30, 40, 50 e escrevemos: 10 |---- 20, isto quer dizer que o nosso 
intervalo contém o 10 e todos os números que vêm depois dele e vão 
até antes de 20; o 20 não faz parte dessa classe. Na classe seguinte, 
23Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplinacorrespondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
escrevemos 20 |---- 30 e isso quer dizer que o nosso intervalo contém o 
número 20 e todos os números que vêm depois do 20 e vão até antes 
de 30, e o 30 não faz parte dessa classe. Há outras representações para 
intervalos, como por exemplo: [10;20[; [20; 30[; e assim sucessivamente. 
O colchete fechado à esquerda, antes do número 10, representa o in-
tervalo fechado à esquerda; o colchete aberto após o número 20 indica 
que o número 20 não está contido nesse primeiro intervalo, como na 
notação anterior. 
Para definir o número de classes em que agruparemos os dados, 
podemos usar métodos estatísticos. No quadro 1, a seguir, são apre-
sentados os mais comuns.
Quadro 1 – Métodos para calcular o número de classes
NO DE 
OBSERVAÇÕES 
(DADOS 
COLETADOS OU 
MEDIDOS)
COMO CALCULAR O NÚMERO DE 
CLASSES 
(VAMOS CHAMAR O NÚMERO 
DE CLASSES DE K E O TOTAL DE 
OBSERVAÇÕES REALIZADAS DE N)
EXEMPLOS NUMÉRICOS:
Menor ou igual 
a 25
1. Usar em torno de 4 a 5 classes
k = 4 ou k = 5
2. Calcular a diferença entre 
o maior valor encontrado nos 
dados observados e/ou medidos 
e o menor valor encontrado nos 
dados observados e/ou medidos 
(denominamos essa diferença de 
amplitude total – AT)
3. Dividir o resultado encontrado pelo 
número de classes (k) para encontrar 
o intervalo da classe, que será 
denominado h:
h = AT/k
4. Definir os limites das classes, 
conforme o resultado encontrado na 
etapa anterior.
Para um no de observações (n): 14 (como no 
exemplo da pesquisa de Anabel Florência 
quanto à variável idade)
k = 5
Maior valor observado = 68 anos
Menor valor observado = 20 anos
Diferença entre o maior e o menor valor 
observados = 68 – 20 = 48 anos (AT)
h = AT/k
h = 48/5 = 9,6 – arredondando para 10
4. Definindo os limites das classes, 
teríamos:
20 |--- 30
30 |--- 40
40 |--- 50
50 |--- 60
60 |--- 70
(cont.)
24 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
NO DE 
OBSERVAÇÕES 
(DADOS 
COLETADOS OU 
MEDIDOS)
COMO CALCULAR O NÚMERO DE 
CLASSES 
(VAMOS CHAMAR O NÚMERO 
DE CLASSES DE K E O TOTAL DE 
OBSERVAÇÕES REALIZADAS DE N)
EXEMPLOS NUMÉRICOS:
Maior que 25 
(opção 1)
1. Extrair a raiz quadrada do total de 
observações realizadas (chamaremos 
de n o total de observações 
realizadas)
k = n
2. Calcular a diferença entre 
o maior valor encontrado nos 
dados observados e/ou medidos 
e o menor valor encontrado nos 
dados observados e/ou medidos 
(denominamos essa diferença de 
amplitude total – AT)
3. Dividir o resultado encontrado pelo 
número de classes (k) para encontrar 
o intervalo da classe, denominado h:
h = AT/k
4. Definir os limites das classes, 
conforme o resultado encontrado na 
etapa anterior. 
Pensando que Anabel Florência realize uma 
segunda etapa de sua pesquisa, visando 
colher mais respostas de seu público-alvo, e 
obtenha 55 respostas;
Para um no de observações (n): 55
k = 55 = 7,416
Podemos arredondar, para facilitar os 
cálculos: k = 8
2. Nesse exemplo, consideremos que o 
maior valor observado ainda se manteve na 
idade de 68 anos e o menor valor observado 
também foi mantido em 20 anos. Então, 
temos: 68 – 20 = 48
3. 48/8 = 6 (intervalo de classe)
4. Definindo os limites das classes, 
teríamos:
20 |--- 26
26 |--- 32
32 |--- 38
38 |--- 44
44 |--- 50
50 |--- 56
56 |--- 62
62 |--- 70
Maior que 
25 (opção 
2 – fórmula de 
Sturges)
Aplicar a fórmula de Sturges: no de 
classes será igual ao resultado desta 
fórmula:
k = 1 + 3,22 · log n
No exemplo: n = 55
k = 1 + 3,22 · log n
k = 1 + 3,22 · log 55
k = 1 + 3,22 · 4,007
k = 8,22 
E os passos seguintes seriam iguais aos 
anteriores. Se arredondarmos para 9, as 
classes ficariam:
2. AT = 48 (mesmos dados: 68 anos; 20 anos)
3. 48/9 = 5,33 – arredondando: 6 e teríamos 
as mesmas classes que encontramos na 
opção 1
Fonte: adaptado de Castro e Silva; Fernandes; Almeida (2015); Costa Neto (2002); Clark; Downing (2012); Doane; Seward 
(2008); Freund (2006); Larson; Farber (2010); Levin; Rubin (1994).
25Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
E a distribuição de frequência de cada classe? Basta somar os re-
sultados obtidos na pesquisa de cada frequência absoluta simples dos 
dados correspondentes a cada classe que definimos. No exemplo da 
pesquisa de Anabel com os 14 dados observados sobre a idade dos res-
pondentes, como ficaria? Usando a regra para menos de 25 dados ob-
servados, montaremos cinco classes. Os dados originais com o apon-
tamento das idades dos respondentes, distribuídos em rol, são estes: 
Figura 2 – Frequência de cada classe
20, 23, 24, 25, 26, 27, 27, 32, 32, 33, 33, 45, 59, 68
Classe 1 Classe 2 Classe 3Classe 4 Classe 5
A primeira classe de idades é formada pela soma das frequências 
absolutas das idades de 20 a 27 anos, (1 + 1 + 1 + 1 + 1 + 2 = 7), a se-
gunda classe é a soma das idades de 32 e 33 anos (2+2, portanto 4); a 
terceira classe é representada pela frequência de 45 anos (= 1), a quarta 
classe pela frequência de 59 anos (= 1); a quinta classe pela frequência 
de 68 anos (= 1). Pode-se observar que nesta primeira pesquisa há uma 
preponderância de pessoas jovens, sendo que a classe que abrange de 
20 (inclusive) a 30 anos (exclusive, ou seja, até 29 anos) corresponde a 
7 dos 14 registros, isto é, 50% do total. 
Tabela 5 – Idade (tabela completa de distribuição de frequências com intervalos de classe)
CLASSE DE 
IDADES
FREQUÊNCIA 
ABSOLUTA 
SIMPLES (Fi)
FREQUÊNCIA 
RELATIVA 
SIMPLES (Fr)
FREQUÊNCIA 
RELATIVA 
SIMPLES EM 
PORCENTAGEM 
(%)
FREQUÊNCIA 
RELATIVA 
ACUMULADA 
(Fac)
FREQUÊNCIA 
RELATIVA 
ACUMULADA EM 
PORCENTAGEM 
(FRac)
20 |----- 
30
7 0,5000 50,00% 0,5000 50,00%
30|----
- 40
4 0,2857 28,57% 0,7857 78,57%
(cont.)
26 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
CLASSE DE 
IDADES
FREQUÊNCIA 
ABSOLUTA 
SIMPLES (Fi)
FREQUÊNCIA 
RELATIVA 
SIMPLES (Fr)
FREQUÊNCIA 
RELATIVA 
SIMPLES EM 
PORCENTAGEM 
(%)
FREQUÊNCIA 
RELATIVA 
ACUMULADA 
(Fac)
FREQUÊNCIA 
RELATIVA 
ACUMULADA EM 
PORCENTAGEM 
(FRac)
40 |----- 
50
1 0,0714 7,14% 0,8571 85,71%
50 |----- 
60
1 0,0714 7,14% 0,9286 92,86%
60 |----- 
70
1 0,0714 7,14% 1,0000 100,00%
 Totais 14 1 100,00%    
5 Aplicações à área de gestão e negócios
A análise multivariada de dados é uma ferramenta poderosa para a 
tomada de decisão e está presente no dia a dia da área de gestão e negó-
cios. Seja para realizar estudos exploratórios como compreender quem 
é o público-alvo potencial para um produto ou serviço que se quer lançar, 
seja para verificar o resultado da adoção de um novo processo produtivo, 
em termos de melhoria da qualidade, ou identificar preferências dos con-
sumidores, encontraremos sempre a aplicação de ferramental estatísti-
co para nos auxiliar a diminuir a incerteza e a decidir com mais precisão, 
ou menor margem de erro, a respeito de uma ação a ser realizada.Há uma profusão de dados que precisam ser inteligentemente tra-
balhados para que se tornem informações e estas possam gerar co-
nhecimento. E tudo isso parte de onde? Justamente, dos dados. A partir 
deles, tanto podemos apresentar resumos das observações feitas, que 
é um ramo da estatística descritiva; quanto generalizar os resultados 
que obtivemos para tomar decisões, que é a essência do que faz a in-
ferência estatística. Bussab e Morettin (2006), Doane e Seward (2008) 
e Anderson et al. (2019) apresentam diversos exemplos de aplicações 
estatísticas à área de gestão e negócios, como: 
27Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
 • Marketing: para identificar possíveis clientes para uma empresa 
de vendas on-line em um imenso banco de dados de milhões de 
registros; para realizar inúmeras pesquisas de mercado que po-
dem resultar em lançamento de produtos e serviços ou em apri-
moramentos nos já existentes; para avaliar a eficiência de cam-
panhas promocionais; para identificar demandas futuras, para 
administrar o relacionamento com os clientes, estruturando pro-
cessos de customer relationship manager (CRM), etc.
 • Economia: para a tomada de decisões sobre onde investir, como 
distribuir os recursos a serem investidos, de forma a alcançar 
uma otimização de resultados; para prever a inflação futura com 
base em informações presentes; para criar modelos de previsão 
dos mais diversos.
 • Administração: na tomada de decisão administrativa para pre-
ver quanto comprar semanalmente, dado que se trabalha com 
estoques e quando estes são imensos, uma compra feita desne-
cessariamente pode implicar perda de lucratividade, má gestão 
dos recursos, ineficiência; para verificar se mantemos ou não um 
fornecedor que nos entregou um lote com defeito (será que isso 
foi apenas um problema pontual? Será que podemos continuar 
comprando desse fornecedor?).
 • Gestão pública: a estatística auxilia para a tomada de decisão 
de quais políticas públicas devem ser implementadas, ao permi-
tir a identificação de características da população (por exemplo, 
o censo brasileiro) e as necessidades de determinadas regiões. 
Além disso, a estatística subsidia o gestor público na análise das 
políticas públicas que foram adotadas em termos de eficiência 
das ações, o que poderíamos denominar de gestão pública ou 
políticas públicas baseadas em evidências.
 • Contabilidade: em auditoria, pode-se aplicar o ferramental esta-
tístico para identificar se há erros ou fraudes (consulte box “Na 
28 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
prática” a seguir) e qual é a proporção de problemas. Para tanto, 
utiliza-se uma avaliação de parte de toda a documentação, até 
porque o volume de documentos pode ser imenso.
 • Aplicação de controle de qualidade no processo produtivo: o 
mesmo raciocínio vale quando queremos identificar como está 
o processo produtivo e aplicar controles de qualidade – pense se 
um fabricante de fósforos decidisse “testar” a qualidade de seus 
fósforos acendendo-os um a um: ele não teria produção para ven-
der; logo, testará uma parte do todo produzido. A estatística ajuda 
a encontrar qual a quantidade desse todo que deve ser medida 
para tirar conclusões em relação à totalidade, como nos lembram 
Bussab e Morettin (2006).
NA PRÁTICA 
Pereira e Nascimento realizaram um estudo com empresas que usam o 
serviço de auditoria com dados quantitativos e qualitativos. Com resul-
tados dispostos em diversas tabelas, os autores mostram, na prática, 
como a tabulação dos dados é importante para analisar os fenômenos, 
tirar conclusões e propor ações. Confira: “Um estudo sobre a atuação 
da auditoria interna na detecção de fraudes nas empresas do setor pri-
vado no Estado de São Paulo” (PEREIRA; NASCIMENTO, 2005). 
 
Considerações finais
Neste capítulo, vimos que variável é uma característica do elemento 
que estamos estudando, além de termos aprendido o que são dados, os 
fatos e os números que nós coletamos, analisamos e resumimos para 
que possam nos ajudar a interpretar ou tomar decisões.
Também estudamos o que são dados quantitativos e qualitativos as-
sociados às variáveis e pudemos distingui-los e entender a importância 
29Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
de saber as diferenças entre os tipos de dados, a fim de que as técnicas 
estatísticas mais recomendadas para cada dado sejam aplicadas, am-
pliando assim as possibilidades de fazer a análise dos dados de forma 
mais adequada. Compreendendo que os dados são a matéria-prima 
para gerar informação e conhecimento, refletimos sobre a relevância 
que há em planejar quais dados colher para que ao análise posterior 
desses dados saia a contento e auxilie na compreensão do que se está 
sendo observado, bem como na tomada de decisão.
Ao estudarmos sobre tabelas de frequências, que são representa-
ções da quantidade de vezes (frequência) de cada valor distinto que a 
variável assume no conjunto observado, foi ensinado como organizar 
dados nessas tabelas, destacando a relevância que há em organizar e 
trabalhar estatisticamente os dados, a fim de obter informações precio-
sas que ajudarão na tomada de decisões de forma mais assertiva. 
Em relação a classes, discorremos sobre como realizar distribuição 
de frequências sem intervalos de classe – ou seja, considerando os da-
dos coletados e organizados sem agrupá-los – e com intervalos de clas-
se, que é quando sintetizamos os dados obtidos em um subconjunto, 
ao qual chamamos classe. Ainda aprendemos que: quando resumimos 
os dados, podemos identificar com mais rapidez alguma diferença en-
tre os dados coletados; quando temos uma quantidade muito grande de 
dados, é aconselhável fazer esses agrupamentos para facilitar a análise 
de como são esses dados, como se “comportam” e se há alguma con-
centração de dados em determinada classe. Sendo assim, a escolha 
das classes é uma ação importante que requer reflexão e a aplicação 
de regras estatísticas, de modo que qualquer escolha que se faça para 
planejar a pesquisa e tratar dos dados deve levar em conta os objetivos 
dessa organização e seus propósitos.
Com a aplicação da teoria em exemplos da área de gestão e negó-
cios, foi possível realizar a associação entre teoria e prática, compre-
endendo os tipos de variáveis com que trabalhamos para a tomada 
de decisões e identificando as formas de organização dos dados em 
30 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
tabelas de distribuições de frequências. Deste modo, ampliou-se o co-
nhecimento com conteúdos importantes para tomar decisões de forma 
mais assertiva ou auxiliar a organização em que se atua no processo de 
tomada de decisões, tendo por base os dados coletados, organizados e 
analisados de forma científica.É a estatística ajudando a lidar com a in-
certeza que faz parte dos fenômenos do dia a dia. E isso é só o começo: 
nos próximos capítulos, seguiremos aprimorando nossa capacidade de 
análise para a tomada de decisão.
Referências
ANDERSON, David R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A.; CAMM, 
Jeffrey D.; COCHRAN, James J. Estatística aplicada à administração e 
economia. 8. ed. São Paulo: Cengage, 2019.
BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística básica. 5. ed. São Paulo: 
Saraiva, 2006.
CASTRO, Rita de C. M. L. de. Aprendizagem organizacional e gestão do 
conhecimento. São Paulo: Editora Senac São Paulo, 2017. (Série Universitária).
CASTRO E SILVA, Jorge L. de; FERNANDES, Maria W.; ALMEIDA, Rosa L. F. de. 
Estatística e probabilidade. 3. ed. Fortaleza: EdUECE, 2015.
CLARK, Jeffrey; DOWNING, Douglas. Estatística aplicada. 3. ed. Tradução: 
Alfredo A. de Faria. São Paulo: Saraiva, 2012.
COSTA NETO, Pedro L. de O. Estatística. 2. ed. São Paulo: Edgard Blücher, 2002.
DOANE, David P.; SEWARD, Lori E. Estatística aplicada à administração e à 
economia. Tradução: Solange Andreoni e Helena de Castro. Revisão técnica: 
Elisabeti Kira. São Paulo: McGraw-Hill, 2008.
FREUND, John E. Estatística aplicada: economia, administração e contabilidade. 
11. ed. Tradução: Claus Ivo Doering. São Paulo: Porto Alegre, 2006.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4. ed. Tradução: Luciane 
Ferreira Pauleti Vianna. São Paulo: Pearson Prentice Hall, 2010.
31Introdução, coleta e organização de dados
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
LEVIN, Richard; RUBIN, David S. Statistics for management. 6. ed. New Jersey: 
Prentice-Hall Inc., 1994.
MCCLAVE, James T.; BENSON, P. George; SINCICH, Terry. Estatística para 
administração e economia. 10. ed. Tradução: Fabrício Pereira Soares e 
Fernando Sampaio Filho. Revisão técnica: Galo Carlos Lopez Noriega. São 
Paulo: Pearson Prentice Hall, 2009.
PEREIRA, Anisio C.; NASCIMENTO, Weslley S. do. Um estudo sobre a atuação 
da auditoria interna na detecção de fraudes nas empresas do setor privado no 
estado de São Paulo. Revista Brasileira de Gestão de Negócios, São Paulo, v. 
7, n. 19, p. 46-56, set./dez. 2005. Disponível em: https://rbgn.fecap.br/RBGN/
article/download/49/42. Acesso em: 19 jan. 2022.
TAKAHASHI, Shin. Guia mangá de estatística. Tradução e revisão: Lis G. Regius. 
São Paulo: Novatec Editora; Tokyo: Ohmsha; São Francisco: No Starch Press, 
2010.
https://rbgn.fecap.br/RBGN/article/download/49/42
https://rbgn.fecap.br/RBGN/article/download/49/42
33
Capítulo 2
Medidas de 
centralidade e 
de ordenamento
Neste capítulo, estudaremos um tema bastante presente no cotidia-
no das organizações, em reportagens que lemos, em relatórios que ana-
lisamos e até em nosso dia a dia, em diversas situações simples como, 
por exemplo, o tempo médio que levamos para chegar a um lugar, re-
sultados recorrentes que obtemos sobre determinado fenômeno, um 
mesmo valor surgido após observação feita por certos períodos, etc. 
Já pensou sobre isso? Trata-se de medidas de centralidade e de or-
denamento, as quais muito nos auxiliam na análise do comportamento 
de um conjunto de dados e nos processos de tomada de decisão, ao 
conhecermos melhor como esses dados estão distribuídos. 
34 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Abordaremos aqui média, moda, mediana e algumas medidas que 
chamamos de separatrizes por nos permitirem delimitar subconjuntos 
de dados, após organizá-los e ordená-los, de modo a resumir assim o 
comportamento dos dados, o que facilita o entendimento do fenômeno 
ou da situação que é o nosso objeto de análise. 
Assim, ao final deste capítulo, você compreenderá o significado das 
medidas de centralidade e ordenamento visando à tomada de decisão 
em problemas aplicados à gestão e à área de negócios.
1 Análise do IDH e as medidas de 
centralidade
Começaremos este capítulo com um desafio. Waldir Ricardo, recém-
-ingressante no serviço público, atua no Distrito Federal. Sua gestora lhe 
pediu um relatório sucinto sobre como estão as unidades federativas 
do Brasil no tocante ao desenvolvimento humano. Ela questiona: como 
estamos, em média, em termos de desenvolvimento humano? Será que 
há algum valor mais frequente de Índice de Desenvolvimento Humano 
(IDH)? Qual o IDH que divide o conjunto de dados em dois grupos com 
a mesma quantidade de observações? Quais são as unidades federati-
vas que abarcam os 25% melhores resultados em IDH? Estarão esses 
resultados concentrados em alguma região do país? Essas questões 
são bem importantes para se identificar o panorama do IDH e, se for 
o caso, dependendo do resultado encontrado, recomendar ações de 
políticas públicas mais específicas para algumas unidades federativas, 
bem como consultar quais tiveram melhores índices de IDH para com-
preender o que estão fazendo para alcançar esse índices elevados. 
Como você faria para encontrar essas respostas? Enquanto reflete 
sobre o desafio, analisemos o que o funcionário fez. Waldir Ricardo con-
sultou o site do Instituto Brasileiro de Geografia e Estatística (BRASIL, 
2022) para identificar como estavam os IDHs de cada capital brasileira, 
35Medidas de centralidade e de ordenamento
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
medida que, como apresentado anteriormente, é relevante para que se 
tomem decisões de gestão e de adoção de políticas públicas que propi-
ciem a melhoria das condições de vida das sociedades. Por definição, 
IDH é “uma medida resumida do progresso a longo prazo em três di-
mensões básicas do desenvolvimento humano: renda, educação e saú-
de” (PNUD BRASIL, 2022, [s. p.], grifo nosso). O IDH varia de zero a um, 
sendo que quanto mais perto do zero no índice, mais a localidade em 
que o IDH foi medido tem condições ruins de desenvolvimento humano; 
por outro lado, quanto mais perto do um, melhor é o desenvolvimento 
do local. 
PARA PENSAR 
Algo chamou sua atenção no conceito de IDH? Já refletiu sobre como 
uma medida resumida, composta por um único número, pode ser repre-
sentativa de um conjunto de dados a tal ponto que se torne capaz de 
nos trazer informações que amparem a tomada de decisão? 
 
Recorde que, quando agrupamos os dados em classes, o fazemos 
para facilitar nossa compreensão sobre o comportamento daquele 
conjunto de dados referentes a determinada variável que estamos estu-
dando. Podemos, além de agrupar dados, calcular medidas que sejam 
representativas de um conjunto de dados – e as medidas de posição 
cumprem esse papel, ao nos trazer informações importantes sobre a 
variável estudada apresentando-nos um único valor que resume o com-
portamento daquele conjunto de dados (BUSSAB; MORETTIN, 2006). 
As medidas de posição também são conhecidas como medidas de 
tendência central, por descreverem o centro ou o meio dos dados que 
compõem o conjunto de observações que coletamos e registramos 
(FREUND, 2006), e, ainda, como medidas de localização – o que já nos 
direciona ao entendimento de que essas medidas têm alguma relação 
com uma localização em certo conjunto de dados ordenados.
36 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
mat
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
Pois bem, analisemos a tabela que Waldir Ricardo extraiu do site do 
IBGE. Os dados originais estão em ordem alfabética por nome de cada 
unidade federativa (UF). Qual a primeira ação a fazer? Ordenar os dados. 
Você pode fazer isso usando uma planilha eletrônica: na aba “classificar 
e filtrar”, escolhemos a opção “classificação personalizada”; clique em 
“meus dados contêm cabeçalhos”, classifique em valores de células por 
IDH (20101). Em “ordem”, escolha “do menor para o maior” e, se quiser, 
pode adicionar mais um nível na ordenação e escolher UF “de A a Z”, 
para que, após a classificação por IDH, as unidades federativas apare-
çam em ordem alfabética, que será a segunda classificação dos dados. 
Com a ordenação do menor IDH para o maior, a tabela ficará assim:
Tabela 1 – Índices de IDH por unidade federativa brasileira (ordenados do menor para o maior)
UF IDH (2010)
Alagoas 0,6310
Maranhão 0,6390
Pará 0,6460
Piauí 0,6460
Paraíba 0,6580
Bahia 0,6600
Acre 0,6630
Sergipe 0,6650
Pernambuco 0,6730
Amazonas 0,6740
Ceará 0,6820
(cont.)
1 Dados mais recentes levantados se referem ao último censo realizado pelo IBGE.
37Medidas de centralidade e de ordenamento
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
UF IDH (2010)
Rio Grande do Norte 0,6840
Rondônia 0,6900
Tocantins 0,6990
Roraima 0,7070
Amapá 0,7080
Mato Grosso 0,7250
Mato Grosso do Sul 0,7290
Minas Gerais 0,7310
Goiás 0,7350
Espírito Santo 0,7400
Rio Grande do Sul 0,7460
Paraná 0,7490
Rio de Janeiro 0,7610
Santa Catarina 0,7740
São Paulo 0,7830
Distrito Federal 0,8240
Fonte: adaptado de Brasil (2022).
2 Média
A média aritmética, ou simplesmente média, é a mais intuitiva das 
medidas (LEVIN; RUBIN, 1994); nós a usamos muito frequentemente e 
em diversas aplicações. A média de um determinado conjunto de ob-
servações de dados não agrupados em classes é o resultado da soma 
38 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
das observações dividida pela quantidade de observações. É comum 
encontrarmos uma notação matemática para a média como:
x n
xi
=
/
Em que a letra x com uma barra em cima (xis barra) representa a 
média do conjunto de dados observados, xi (xis índice i) indica cada 
elemento desse conjunto observado e o n representa a quantidade de 
elementos observados.
Qual o significado dessa medida? A média traz um valor que nós 
podemos esperar encontrar no conjunto de dados que observamos 
(TAKAHASHI, 2010); ela é o valor que poderia substituir todos os de-
mais valores da variável (COSTA, 2012). Note que, por isso, dizemos 
que a média é uma medida, um valor, que representa todo um conjunto 
de dados: ela “representa o valor ‘típico’” (MCCLAVE; BENSON; SINSICH, 
2009, p. 55) desse conjunto. 
Calculemos, agora, a média dos IDHs das unidades federativas do 
Brasil. Nosso rol de dados está assim: 0,6310; 0,6390; 0,6460; 0,6460; 
0,6580; 0,6600; 0,6630; 0,6650; 0,6730; 0,6740; 0,6820; 0,6840; 0,6900; 
0,6990; 0,7070; 0,7080; 0,7250; 0,7290; 0,7310; 0,7350; 0,7400; 0,7460; 
0,7490; 0,7610; 0,7740; 0,7830; 0,8240. 
No caso do IDH, temos 27 observações (27 IDHs registrados) e, ao 
fazer a soma desses IDHs, temos: 0,6310 + 0,6390 + 0,6460 + 0,6460 + 
0,6580 + 0,6600 + 0,6630 + 0,6650 + 0,6730 + 0,6740 + 0,6820 + 0,6840 + 
0,6900 + 0,6990 + 0,7070 + 0,7080 + 0,7250 + 0,7290 + 0,7310 + 0,7350 + 
0,7400 + 0,7460 + 0,7490 + 0,7610 + 0,7740 + 0,7830 + 0,8240 = 19,0220
Média IDH das unidades federativas do Brasil = 27 = 0,704519
,19 0220 ,M diaIDHdasunidadesfederativasdoBrasil 0 704519é = =
O que significa esse número obtido, 0,704519, que podemos arredon-
dar para 0,7045? Ele resume o conjunto de dados do IDH das unidades 
federativas do Brasil nos informando que, em média, o IDH delas está 
em torno de 0,7045. O resultado 0,7045 é o valor típico desse conjunto, o 
39Medidas de centralidade e de ordenamento
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
valor que o representa. Considerando que o IDH varia de zero a um e que 
quanto mais próximo de um, melhor é o desenvolvimento daquela locali-
dade em termos de educação, saúde e renda, podemos concluir que, em 
média, o IDH das unidades federativas do Brasil está mais próximo de 
um do que de zero, o que, convenhamos, é promissor, mas não é a única 
medida-resumo que devemos considerar para analisar esses dados.
Também é frequente calcularmos uma média aplicando aos elemen-
tos do conjunto observado diferentes pesos, que variarão conforme a 
importância que damos para a composição dessa média. A esse tipo de 
média, “cujas entradas têm pesos variados” (LARSON; FARBER, 2010, p. 
59), damos o nome de média ponderada. Um exemplo: a composição 
de uma média para aprovação em determinada disciplina obedece às 
seguintes regras: a prova vale 60% da nota final; os testes (quizzes) va-
lem 20% e uma produção textual individual vale 20%. Se as notas de um 
estudante foram: 7,0 na prova, 8,0 nos testes e 10,0 na produção textual, 
qual sua média? Basta calcular a composição de cada item aplicando o 
peso correspondente e somar os resultados, no caso: 
7,0 · 0,60 + 8,0 · 0,20 + 10,0 · 0,20 = 4,2 + 1,6 + 2,0 = 7,8
Podemos usar médias ponderadas em análises de portfólios finan-
ceiros, na avaliação de resultados de campanha de marketing e na iden-
tificação do nível de satisfação de usuários em serviços públicos ou pri-
vados, nos quais multiplicamos as notas pela frequência de respostas, 
além de muitas outras aplicações. 
PARA SABER MAIS 
Há vários tipos de média, além da aritmética e da ponderada, muito 
aplicadas à gestão. Fora elas, temos: média móvel, geométrica, harmô-
nica, etc. Amplie seus conhecimentos conhecendo os prós e contras de 
cada uma ao consultar o capítulo 4 do livro Estatística descritiva (DOA-
NE; SEWARD, 2014).
 
40 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
A média tem algumas propriedades que a faz ser bastante aplicada 
no dia a dia da análise de um conjunto de dados. Freund (2006, p. 60) 
resume essas características em cinco pontos que ele denomina “pro-
priedades notáveis”. Sumarizando-as: (1) “a média pode ser calculada 
para qualquer conjunto de dados numéricos”; logo, ela “sempre existe”; 
(2) como qualquer que seja o conjunto de dados numéricos que tiver-
mos sempre haverá apenas uma média, ela é “sempre única”; (3) a mé-
dia pode ser usada em diversas aplicações estatísticas; (4) a média tem 
se mostrado “relativamente confiável” por variar menos do que outras 
medidas quando fazemos cálculos de vários subconjuntos diferentesque podemos registrar de um determinado conjunto de dados; (5) a mé-
dia considera todos os elementos que fazem parte de um determinado 
conjunto de dados.
Mas atenção! Embora muito usada, não somente pela praticidade 
de cálculo, mas também por ser de fácil compreensão e grande apli-
cação, a média pode ser uma das medidas utilizadas para analisar um 
conjunto de dados, mas não deve ser a única. Por quê? Porque como 
ela é “afetada por todos os elementos do conjunto” (SILVA; BERTELLI; 
SILVEIRA, 2018, p. 40), a média sofre impacto quando há, em nosso 
conjunto de dados observados, algum dado que destoa dos demais em 
termos de comportamento, isto é, um dado que não seja representativo 
do conjunto (LEVIN; RUBIN, 1994; ANDERSON et al., 2019). 
Ilustrando: na coluna da esquerda da tabela 2, temos os cinco maio-
res salários de jogadores de futebol no Brasil em 2021, com o cálculo 
da média. Na coluna da direita, acrescentamos o salário de um jogador 
estrangeiro e calculamos a média. Note o que ocorre com a nova média. 
Isso se dá porque, vale lembrar, a média considera todos os elementos 
que fazem parte de um determinado conjunto de dados. Portanto, um só 
elemento que destoe de todo o conjunto trará grande variação na média.
41Medidas de centralidade e de ordenamento
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
Tabela 2 – Elementos do conjunto afetando a média
Dudu (Palmeiras): R$ 2,1 milhões Dudu (Palmeiras): R$ 2,1 milhões
Gabigol (Flamengo): R$ 1,6 milhão Gabigol (Flamengo): R$ 1,6 milhão
Kenedy (Flamengo): R$ 1,6 milhão Kenedy (Flamengo): R$ 1,6 milhão
William (Corinthians): R$ 1,5 milhão William (Corinthians): R$ 1,5 milhão
Diego Costa (Atlético Mineiro): R$ 1,3 milhão Diego Costa (Atlético Mineiro): R$ 1,3 milhão
Cristiano Ronaldo (Manchester United) – R$ 660 
milhões
Média: (2,1 + 1,6 + 1,6 + 1,5 + 1,3)/5 = 8,1/5 = 1,62 
milhão
Média: (2,1 + 1,6 + 1,6 + 1,5 + 1,3 + 660)/6 = 668,10/6 
= 111, 35 milhões
Fonte: adaptado de ALVES (2021) e CARVALHO (2021).
Um único elemento, com um salário muito maior, elevou a média de 
1,62 milhão de reais para 111,35 milhões de reais. Sendo assim, bus-
que sempre obter mais algumas medidas e aprender a observar os da-
dos, compreender sua distribuição de frequências e identificar como se 
comportam, usando mais de uma medida-resumo. 
IMPORTANTE 
Amplie seus conhecimentos sobre o uso da média aplicada na área de 
gestão e negócios com os artigos:
“Quando aplicar a média geométrica: principais exemplos” (JAVIER, 2021). 
“O uso da média móvel como indicador de tendência: do mercado fi-
nanceiro ao acompanhamento dos casos de covid-19” (SILVA FILHO; 
CAMPOS, 2021).
 
Aliás, que tal aproveitar o conhecimento adquirido sobre média e pes-
quisar os Índices de Desenvolvimento Humano (IDH) dos países, para 
identificar o que revelam as médias nesse tão importante quesito que 
considera educação, longevidade e renda como aspectos relevantes 
42 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
sobre as pessoas e sua qualidade de vida? O cálculo do IDH, inclusive, é 
mais um exemplo de uso da média na prática, utilizando-se do conceito 
de média geométrica. 
3 Moda
A moda é a observação mais frequente que encontramos mais de 
uma vez no conjunto de valores que foram objeto de nosso registro 
(FREUND, 2006; BUSSAB, MORETTIN, 2006); ela indica qual é a região 
em que encontramos a maior concentração de frequências ocorridas 
na distribuição (COSTA NETO, 2002). É o valor que está relacionado à 
frequência absoluta simples mais alta (COSTA, 2012).
Observando o rol do conjunto de dados dos IDH das unidades fede-
rativas do Brasil, temos:
Tabela 3 – Frequência absoluta simples (índices de IDH por estado brasileiro)
IDH (2010) FREQUÊNCIA ABSOLUTA SIMPLES (fi)
0,6310 1
0,6390 1
0,6460 2 ⃪ maior frequência absoluta
0,6580 1
0,6600 1
0,6630 1
0,6650 1
0,6730 1
0,6740 1
0,6820 1
(cont.)
43Medidas de centralidade e de ordenamento
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
IDH (2010) FREQUÊNCIA ABSOLUTA SIMPLES (fi)
0,6840 1
0,6900 1
0,6990 1
0,7070 1
0,7080 1
0,7250 1
0,7290 1
0,7310 1
0,7350 1
0,7400 1
0,7460 1
0,7490 1
0,7610 1
0,7740 1
0,7830 1
0,8240 1
Note que o valor 0,6460 aparece em duas observações. Logo, neste 
caso, dizemos que a moda – ou o valor mais frequente – desse conjun-
to de dados observados é 0,6460. 
Quando há uma única moda, denominamos nosso conjunto de da-
dos de unimodal. Todavia, pode haver casos em que mais de um va-
lor se repete no conjunto de dados observados. Se houver dois valores 
mais frequentes, com igual número de observações, dizemos que a 
distribuição apresenta duas modas, ou seja, é bimodal; se houver três, 
44 Análise multivariada de dados para gestão e negócios Ma
te
ria
l p
ar
a 
us
o 
ex
cl
us
ivo
 d
e 
al
un
o 
m
at
ric
ul
ad
o 
em
 c
ur
so
 d
e 
Ed
uc
aç
ão
 a
 D
is
tâ
nc
ia
 d
a 
Re
de
 S
en
ac
 E
AD
, d
a 
di
sc
ip
lin
a 
co
rre
sp
on
de
nt
e.
 P
ro
ib
id
a 
a 
re
pr
od
uç
ão
 e
 o
 c
om
pa
rti
lh
am
en
to
 d
ig
ita
l, s
ob
 a
s 
pe
na
s 
da
 L
ei
. ©
 E
di
to
ra
 S
en
ac
 S
ão
 P
au
lo
.
será trimodal. Bem, e se não houver nenhum valor que se repita? Neste 
caso, não há moda. Segundo Bussab e Morettin (2006), nesses casos a 
distribuição é amodal (“a” é um prefixo que significa “não”, “negação”: a 
modal = não há moda).
A moda traz como vantagem o fato de ser bem simples de ser en-
contrada: basta realizar a contagem da frequência dos valores observa-
dos, organizá-los e ordená-los, para identificar a existência de valores 
que trazem maior frequência absoluta e pronto: encontramos a moda. 
Outra vantagem é que ela pode ser identificada tanto em caso de valo-
res numéricos (no exemplo dos dados do IDH, o índice 0,6460) quanto 
em caso de valores categóricos ou atributos (p. ex.: no caso da pre-
ferência de atividade física na pesquisa realizada por Anabel Florence 
para abrir uma academia, a moda, ou valor mais frequente observado, 
foi a natação, com quatro observações).
Tabela 4 – Atividade física de preferência
TIPO DE ATIVIDADE FÍSICA 
DE PREFERÊNCIA
FREQUÊNCIA ABSOLUTA 
SIMPLES (fi)
dança 1
hidroginástica 3
musculação 3
natação 4 ⃪ maior frequência absoluta (moda)
pilates 2
yoga 1
Total 14
45Medidas de centralidade e de ordenamento
M
aterial para uso exclusivo de aluno m
atriculado em
 curso de Educação a Distância da Rede Senac EAD, da disciplina correspondente. Proibida a reprodução e o com
partilham
ento digital, sob as penas da Lei. ©
 Editora Senac São Paulo.
4 Mediana
A mediana é o valor central de um conjunto de dados observados, 
quando os ordenamos em valores, seguindo a ordem do menor para o 
maior (TAKAHASHI, 2010). Por ser o valor central, a mediana é um valor 
que apresenta antes e depois de si uma quantidade igual de dados da 
distribuição (COSTA, 2012).
Quando a quantidade de dados observados for ímpar, a mediana 
será exatamente o valor do elemento que fica no meio da distribuição 
ordenada dos dados, ou seja, ela será um valor do próprio conjunto de 
dados; agora, se a quantidade de dados observados for par, calculamos 
a mediana somando os dois valores que estão no centro da distribui-
ção

Outros materiais