Buscar

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 42 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

Análise de dados
Problema
O departamento de Recursos Humanos da empresa ABC deseja reade-
quar os salários de seus funcionários a partir de uma nova política de cargos e 
salários. A primeira providência do coordenador do departamento foi verifi-
car o perfil dos funcionários da empresa. 
Solicitou para um estudo preliminar a relação dos funcionários em que 
deveria constar algumas variáveis para esse primeiro estudo: ordem de con-
tratação, sexo, idade, salário e setor.
Um auxiliar administrativo apresentou o seguinte quadro como resultado:
Número de 
ordem Nome Sexo Idade
Salário 
(R$) Setor
1 A. L. Ferraz M 49 1.714,00 Oper.
2 R. Abreu M 48 1.701,00 Oper.
3 R. S. Reis M 64 1.589,00 Oper.
4 N. Farias F 37 1.418,00 Oper.
5 J. L. Jansen F 42 1.000,00 Aux. Adm.
6 U. S. Machado M 40 3.732,00 Téc.
7 F. Nogueira F 21 1.330,00 Oper.
8 M. Pinheiro F 33 1.307,00 Oper.
9 M. A. da Silva M 39 1.282,00 Oper.
10 P. A. B. Costa F 42 1.260,00 Oper.
11 H. F. Minho F 39 975,00 Aux. Adm.
12 N. M. de Lima M 32 1.256,00 Oper.
13 C. F. Loureiro M 22 1.185,00 Oper.
19
20
Análise de dados
Número de 
ordem Nome Sexo Idade
Salário 
(R$) Setor
14 M. E. M. Ferreira M 21 3.535,00 Téc.
15 J. A. Isaias F 37 2.956,00 Téc.
16 J. Martins F 24 1.179,00 Oper.
17 A. P. Ribeiro M 28 966,00 Aux. Adm.
18 L. C. Batista M 32 3.204,00 Adm.
19 A. F. dos Santos M 31 881,00 Aux. Adm.
20 C. A. Brandão F 38 3.080,00 Adm.
21 D. J. Feltrin M 23 2.872,00 Téc.
22 L. S. Prestes M 22 826,00 Aux. Adm.
23 J. L. Campos M 46 1.010,00 Oper.
24 S. I. Magalhães F 34 708,00 Aux. Adm.
25 P. R. Gonçalves M 47 2.960,00 Adm.
26 M. I. Machado M 42 2.797,00 Téc.
27 M. Paraná F 32 1.001,00 Oper.
28 U. V. Guimarães F 29 2.315,00 Adm.
29 E. M. Moreira M 41 5.572,00 Ger.
30 A. P. de Andrade M 30 2.372,00 Téc.
31 L. R. de Souza F 51 4.829,00 Ger.
32 R. T. Moraes F 23 1.826,00 Adm.
33 J. Pilloto M 20 540,00 Oper.
34 F. C. Lopes F 27 489,00 Oper.
35 C. A. Meier F 33 479,00 Oper.
36 H. O. Silveira F 22 1.904,00 Téc.
37 K. D. Almeida M 41 659,00 Aux. Adm.
38 M. J. D. Colares F 34 1.827,00 Téc.
39 R. F. L. Silvério M 24 472,00 Oper.
40 M. N. Messias F 20 640,00 Aux. Adm.
Análise de dados
21
Os dados apresentados foram organizados de forma a oferecer ao coorde-
nador do departamento de Recursos Humanos as informações que revelassem 
a distribuição dos salários segundo as variáveis: (I) número de ordem, no sen-
tido que o mais antigo na casa recebeu o número 1 e o mais novo o número 
40, não importando muito o tempo de contratação, uma vez que a empresa 
foi constituída há pouco tempo, (II) o sexo, (III) a idade, (IV) o salário e (V) 
o setor, dividindo os funcionários segundo as funções: operacional (Oper.), 
auxiliar administrativo (Aux. Adm.), técnico (Téc.), administrativo (Adm.) e ge-
rência (Ger.), sendo uma gerência técnica e outra administrativa.
O coordenador analisou a tabela e verificou imediatamente que os funcio-
nários mais antigos eram na sua maioria do setor operacional, exceto dois auxi-
liares administrativos. Observou também que poucos funcionários ganhavam 
menos do que R$1.000,00 e que havia uma pequena predominância de funcio-
nários do sexo masculino. Viu que o Reis de fato era o funcionário mais velho, 
com 64 anos, e que a empresa não tinha nenhum funcionário com menos de 20 
anos. Verificou também que ele próprio era o décimo oitavo contratado como 
também que entre os administradores era o mais antigo e que o seu salário 
era o maior comparado com seus pares, R$3.204,00. Concluiu, finalmente, que 
da forma como os dados foram apresentados estava com dificuldade de tirar 
maiores informações sobre a distribuição de cargos e salários.
Chamou um dos administradores e pediu que ele organizasse um pouco 
melhor os dados e que em termos gerais não importava o nome das pessoas. 
Foi prontamente atendido e recebeu o seguinte novo quadro:
Sexo Idade Setor Número de ordem
Salário
(R$)
Média salarial
M 41 Ger. 29 5.572,00
F 51 Ger. 31 4.829,00 5.200,50
M 40 Téc. 6 3.732,00
M 21 Téc. 14 3.535,00
F 37 Téc. 15 2.956,00
M 23 Téc. 21 2.872,00
M 42 Téc. 26 2.797,00
M 30 Téc. 30 2.372,00
22
Análise de dados
Sexo Idade Setor Número de ordem
Salário
(R$)
Média salarial
F 22 Téc. 36 1.904,00
F 34 Téc. 38 1.827,00 2.749,38
M 32 Adm. 18 3.204,00
F 38 Adm. 20 3.080,00
M 47 Adm. 25 2.960,00
F 29 Adm. 28 2.315,00
F 23 Adm. 32 1.826,00 2.677,00
M 49 Oper. 1 1.714,00
M 48 Oper. 2 1.701,00
M 64 Oper. 3 1.589,00
F 37 Oper. 4 1.418,00
F 21 Oper. 7 1.330,00
F 33 Oper. 8 1.307,00
M 39 Oper. 9 1.282,00
F 42 Oper. 10 1.260,00
M 32 Oper. 12 1.256,00
M 22 Oper. 13 1.185,00
F 24 Oper. 16 1.179,00
M 46 Oper. 23 1.010,00
F 32 Oper. 27 1.001,00
M 20 Oper. 33 540,00
F 27 Oper. 34 489,00
F 33 Oper. 35 479,00
M 24 Oper. 39 472,00 1.130,12
F 42 Aux. Adm. 5 1.000,00
F 39 Aux. Adm. 11 975,00
M 28 Aux. Adm. 17 966,00
Análise de dados
23
Sexo Idade Setor Número de ordem
Salário
(R$)
Média salarial
M 31 Aux. Adm. 19 881,00
M 22 Aux. Adm. 22 826,00
F 34 Aux. Adm. 24 708,00
M 41 Aux. Adm. 37 659,00
F 20 Aux. Adm. 40 640,00 831,88
Com o novo quadro pôde verificar uma série de novas informações, tais 
como média salarial e número de funcionários por categoria, e também que 
havia uma certa coerência dentro de cada categoria com relação ao tempo 
de serviço e salário, ou seja, funcionários mais antigos da mesma categoria 
recebiam salários maiores. Mas sobre sexo e idade e as suas relações com as 
demais informações ainda havia muita dificuldade em tirar conclusões.
Esse tipo de problema é colocado no dia a dia do tomador de decisões. 
Os dados individuais, por mais bem organizados que estejam, trazem poucas 
informações. É necessário que sejam sintetizados através de tabelas, gráficos 
e medidas que possam resumir a informação de uma forma agregada.
Conceitos fundamentais
A Estatística Descritiva, que mais modernamente, com a incorporação de 
novas técnicas, é chamada de Análise Exploratória de Dados, pode suprir a 
necessidade de uma primeira organização dos dados de forma a transfor-
má-los verdadeiramente em informação.
As técnicas utilizadas na exploração dos dados tiveram uma evolução 
muito grande com o advento da computação e particularmente de progra-
mas que facilitam essas tarefas. Para o senso comum, a Estatística resume-se 
a esse trabalho. Veremos nos capítulos seguintes que esse é somente um 
primeiro importante passo na organização das informações para aquisição 
do conhecimento de modo a auxiliar a tomada de decisões.
Fundamentalmente, a análise de dados compreende três frentes: orga-
nização de tabelas, construção de gráficos e síntese dos dados através do 
cálculo de medidas estatísticas.
24
Análise de dados
Variáveis quantitativas e categorizadas
Associadas a cada indivíduo, temos medidas e atributos que o definem. 
As medidas são características de variáveis quantitativas e os atributos são 
características de variáveis categorizadas ou qualitativas.
As variáveis quantitativas podem ser contínuas ou discretas. Elas são contí-
nuas quando entre dois quaisquer valores possam estar novos valores. As va-
riáveis quantitativas contínuas são frutos de medidas que podem ser expres-
sas pelos números reais. O salário dos empregados de uma empresa pode 
ser considerado uma variável contínua. As variáveis são discretas quando são 
fruto de contagem e podem ser expressas através de números inteiros, como 
a idade dos funcionários. Uma outra característica importante das variáveis 
quantitativas é que podemos fazer operações matemáticas com seus valores, 
como soma, subtração, multiplicação e divisão.
As variáveis categorizadas ou qualitativas são expressas em escalas ordinais, 
como é o caso da ordem em que os funcionários foram contratados, ou expres-
sas em categorias ou escalas nominais, como o sexo do funcionário ou o setor 
em que ele trabalha. Não se pode, nesse caso, fazer operações matemáticas.
Valor discrepante ou outlier
Um valor discrepante ou outlieré um valor que destoa do conjunto prin-
cipal dos dados.
Tabelas e quadros estatísticos
Existe uma pequena diferença entre quadro estatístico e tabela estatística. 
A tabela estatística é o resultado de alguma forma de resumo dos dados. 
As linhas à esquerda e à direita de uma tabela estatística nunca devem ser 
fechadas segundo as normas da ABNT. Elas são utilizadas para apresentação 
de resultados estatísticos e também como ferramenta de desenvolvimento 
de operações. Uma tabela bastante importante utilizada em estatística é a 
distribuição de frequências. 
Já o quadro serve para apresentação de dados, como os do exemplo, ou para 
apresentação de resultados-resumo, como um quadro de médias, por exemplo. 
O quadro pode ter seus limites à esquerda e à direita fechados por linhas.
Análise de dados
25
Apresentação gráfica
Os dados de uma tabela estatística podem ser apresentados através 
de gráficos estatísticos, devendo o tipo de gráfico ser compatível com a 
natureza dos dados. Os principais gráficos são: o gráfico de colunas ou de 
barras, o gráfico de setores ou pizza, o gráfico de bastões, o gráfico de linhas 
e o histograma. 
Existem, na análise exploratória de dados, algumas apresentações grá-
ficas que auxiliam a compreensão do comportamento dos dados, como 
o ramo e folhas, o esquema de cinco números e o diagrama de caixas ou 
Box-plot.
O detalhamento da utilização de cada tipo de gráfico será ainda assunto 
deste capítulo.
Medidas estatísticas
A utilização de medidas estatísticas serve para resumir os dados através de 
valores representativos. Existem quatro tipos de medidas utilizadas: medidas 
de posição, de dispersão, de assimetria e as de achatamento ou de curtose. 
As medidas de posição objetivam verificar pontos que representem o con-
junto de dados. Elas podem ser medidas de tendência central, como a média, 
por exemplo, que mostra em torno de que ponto os dados se concentram 
ou as separatrizes, que informam o valor em que os dados se dividem em 
quatro, dez ou cem partes.
As medidas de dispersão mostram a intensidade de concentração dos 
dados em torno de medidas de tendência central. As principais medidas de 
dispersão são a variância, o desvio-padrão e o coeficiente de variação.
As medidas de assimetria são utilizadas para verificar se os dados são simé-
tricos em relação a um valor central, e as de curtose para verificar se o gráfico 
de dados concentra-se em valores próximos ao eixo X ou se distanciam dele. 
Essas últimas medidas de achatamento são de menor interesse na análise de 
dados, e não serão tratadas neste livro.
26
Análise de dados
Variáveis categorizadas
As variáveis categorizadas são medidas de atributos, como sexo, grau de 
instrução, setor de trabalho, categoria profissional, preferência eleitoral etc. 
Os indivíduos estão relacionados a alguma categoria dentro de cada variá-
vel, como sexo e categoria dos empregados da empresa ABC.
Distribuição por sexo
A tabela e os gráficos abaixo apresentam a distribuição por sexo dos indi-
víduos da empresa ABC.
Tabela 1 – Sexo dos empregados da empresa ABC
Sexo Número Perc.
Fem. 19 47,5%
Masc. 21 52,5%
Total 40 100,0%
Um gráfico estatístico objetiva dar a impressão visual da representação 
dos dados. Os gráficos adequados para a representação dessa tabela são os 
de colunas ou de barras e o gráfico de setores.
Gráfico de colunas
Fem. Masc.
20
15
10
5
0
Sexo
Distribuição por sexo
Análise de dados
27
Gráfico de barras
Fem.
Masc.
20151050
Sexo
Distribuição por sexo
Número
Gráfico de setores
Distribuição por sexo
48%
Fem.
Masc.
52%
O gráfico de setores é útil quando queremos observar o valor relativo da 
participação de cada categoria no total.
Distribuição por categoria profissional
A tabela e os gráficos apresentam a distribuição dos indivíduos por cate-
goria profissional na empresa:
Tabela 2 – Categoria dos empregados da empresa ABC
Categoria Número Perc.
Gerência 2 5,0%
Adm. 5 12,5%
Téc. 8 20,0%
Aux. Adm. 8 20,0%
Oper. 17 42,5%
Total 40 100,0%
28
Análise de dados
Gráfico de colunas
8
6
4
2
0
Gerência
Categoria dos empregados da Empresa ABC
14
12
10
16
18
Adm. Téc. Aux. Adm. Oper.
N
úm
er
os
Gráfico de setores
Categoria dos empregados da Empresa ABC
20%
Gerência
Adm.42%
Téc.
Aux. Adm.
Oper.
5%
13%
20%
Análise de dados
29
Variáveis quantitativas
As variáveis quantitativas, sejam elas discretas ou contínuas, são apre-
sentadas através da chamada distribuição de frequências. Nos dois casos po-
demos construir distribuições de frequências, que, como o próprio nome 
indica, informam, através de tabelas, quais são os valores da variável e qual a 
frequência de ocorrência de dados para cada um desses valores.
No caso de variável contínua, ou mesmo de variável discreta com um 
grande número de possibilidades, é comum a construção de classes em que 
mais de um valor é contemplado.
Distribuição de frequências
Vamos estudar inicialmente o caso de uma variável discreta através da 
verificação da distribuição de frequências das idades dos funcionários. Pode 
ser de interesse saber qual é a distribuição de idade dos funcionários com 
menos de trinta anos. A tabela da distribuição de frequências corresponden-
te a esses dados será:
Distribuição de frequências dos 
funcionários com menos de 30 anos
Idade Freq.
20 2
21 2
22 3
23 2
24 2
25 0
26 0
27 0
28 1
29 1
Total 13
30
Análise de dados
O gráfico correspondente à distribuição de frequências dessas idades é o 
gráfico de bastões:
2
1,5
1
0,5
0
3,5
3
2,5
1 2 3 4 5 6 7 8 9 10
Diagrama ramo e folhas
Uma outra forma de representação gráfica utilizando as próprias idades é 
o chamado diagrama ramo e folhas, em que o ramo representa os algarismos 
relativos às dezenas e as folhas os algarismos relativos à unidade.
Ramo e folhas das idades dos 40 funcionários:
2 00112223344789
3 01222334477899
4 0112226789
5 1
6 4
Observe o aspecto da informação gráfica do diagrama ramo e folhas em 
analogia ao histograma apresentado na sequência. A vantagem de sua uti-
lização é que ele mostra o desenho da distribuição sem perder a informação 
detalhada.
Poderíamos, eventualmente, considerar a idade como uma variável ale-
atória contínua cuja representação está aproximada para os valores inteiros 
das idades. A rigor, a variável idade é mesmo contínua, porque podería-
mos medir o tempo de vida em anos, dias e mesmo segundos. Nesse caso, 
poderíamos construir classes entre certas idades de tal forma que elas repre-
sentassem um contínuo. 
Análise de dados
31
Histograma
A representação gráfica da tabela da distribuição de frequências, quando 
organizada em classes, recebe o nome de histograma. É um gráfico de colu-
nas adjacentes representando um contínuo.
Distribuição de frequência das idades
Idade Freq. Perc.
20 a 29 14 35,0%
30 a 39 14 35,0%
40 a 49 10 25,0%
50 a 59 1 2,5%
60 ou + 1 2,5%
Total 40 100,0%
Histograma
Idade
Distribuição de frequência das idades
20 a 29 anos
8
6
4
2
0
14
12
10
16
Fr
eq
.
30 a 39 anos
40 a 49 anos
50 a 59 anos
60 anos ou mais
1
32
Análise de dados
Distribuição dos salários
Salário (R$) Freq. Freq. rel.
Até 1.000,00 11 0,27
De 1.000,00 a 1.999,00 17 0,43
De 2.000,00 a 2.999,00 6 0,15
De 3.000,00 a 3.999,00 4 0,10
Acima de 4.000,00 2 0,05
Total 40 1,00
Histograma
Distribuição salarial
Até 100
8
6
4
2
0
14
12
10
16
Fr
eq
.
De 1.000 a 1.999
De 2.000 a 2.999
De 3.000 a 3.999
Acima de 4.000
Salários (R$)
1
18
Elementos de uma distribuição de frequências
A distribuição de frequências, como apresentada, é útil não só para apre-
sentação de dados, mas para análises um pouco mais aprofundadas. Vamos 
reapresentar a distribuição de frequências dos salários de uma maneira mais 
matematicamente formal.
Análise de dados
33
Salário (R$) Freq. Freq. rel.
X < 1.000,00 11 0,27
1.000,00 ≤ X < 2.000,00 17 0,43
2.000,00 ≤ X < 3.000,00 6 0,15
3.000,00 ≤ X < 4.000,00 4 0,10
X ≥ 4.000,00 2 0,05Total 40 1,00
Observe agora que a distribuição é apresentada como um contínuo. Não 
há descontinuidade entre R$1.999,00 e R$2.000,00, podemos, assim, ter a 
representação de qualquer valor como R$1.999,85, por exemplo.
Definimos cinco classes. O número de classes de uma distribuição de fre-
quências não deve ser muito grande. Em torno de cinco a oito classes é um 
número bastante razoável e elas devem ter igual amplitude. No nosso caso, 
como temos poucos valores acima de R$4.000,00 agregaremos todos esses 
valores na última classe. Cada uma delas tem um limite inferior de classe e um 
limite superior. A diferença entre o limite superior e o limite inferior chama-
mos de amplitude do intervalo de classe. 
Podemos ainda definir o ponto médio de cada classe. Esse valor será 
útil para a determinação das medidas estatísticas quando não tivermos os 
dados brutos. O ponto médio representará todos os valores da classe. Entre 
R$1.000,00 e R$2.000,00 temos 17 valores. Todos eles serão considerados 
como R$1.500,00. Perdemos um pouco em informação, mas ganhamos em 
poder de síntese.
A frequência relativa será uma aproximação de probabilidades. A proba-
bilidade de sortearmos um dos 40 funcionários e que esse sorteado per-
ceba um salário entre R$3.000,00 e R$4.000,00 será de 4/40 ou de 0,10. 
Formalmente, temos que P(3.000 ≤ X < 4.000) = 0,10. Podemos dizer, sem 
perder muito o rigor, que essa probabilidade é de 10%. A probabilidade de 
sortearmos um funcionário que ganhe menos do que R$2.000,00 pode ser 
definida como P(X < 2.000) = 28/40 = 0,70. Também P(X ≥ 2.000) = 12/40 = 
0,30. Observe que P(X < 2.000) + P(X ≥ 2.000) = 1, sempre que isso ocorre; 
dizemos que essas probabilidades são complementares.
34
Análise de dados
Se considerarmos a amplitude do intervalo de classe como a unidade, a 
probabilidade pode ser calculada como a área de cada retângulo, que terá 
como base o valor 1 e como altura a frequência relativa. Esse cálculo de pro-
babilidades através de áreas será fundamental quando tratarmos da inferên-
cia estatística.
Outro elemento importante em uma distribuição de frequências é a cha-
mada frequência acumulada. Até R$2.000,00, temos 28 elementos, como 
acabamos de ver. Até R$3.000,00, temos 34 elementos e assim por diante. 
Abaixo apresentamos a tabela completa da distribuição de frequências:
Salário (R$) Freq. Freq. rel. Ponto médio Freq. acumulada
X < 1.000,00 11 0,27 500 11
1.000,00 ≤ X < 2.000,00 17 0,43 1.500 28
2.000,00 ≤ X < 3.000,00 6 0,15 2.500 34
3.000,00 ≤ X < 4.000,00 4 0,10 3.500 38
X ≥ 4.000,00 2 0,05 4.500 40
Total 40 1,00
Uma outra aproximação que podemos fazer é suavizar a apresentação 
do histograma, construindo um novo gráfico que una os pontos médios das 
classes. Esse novo gráfico é chamado de polígono de frequências e estará pos-
sivelmente mais próximo dos dados reais. Veja que com esse polígono de 
frequências podemos determinar através do cálculo de áreas as probabili-
dades de qualquer intervalo, como, por exemplo, P(1.022,34 ≤ X < 3.087,53).
O polígono de frequências é apresentado na figura a seguir. Observe que 
a área abaixo do polígono é também igual à unidade e toda área que é re-
tirada do histograma é recolocada. Podemos verificar isso através de seme-
lhança de triângulos:
Análise de dados
35
Distribuição salarial
Até 100
8
6
4
2
0
14
12
10
16
Fr
eq
.
De 1.000 a 1.999
De 2.000 a 2.999
De 3.000 a 3.999
Acima de 4.000
Salários (R$)
18
Série temporal
Muitas variáveis são medidas a intervalos de tempo. O gráfico de linhas 
é a maneira mais adequada de apresentar a evolução de uma variável no 
tempo. O eixo X sempre será correspondente a uma escala de tempo.
Quando não há um número demasiadamente grande de pontos, a liga-
ção entre os pontos por segmentos de retas ajuda a visualizar o padrão de 
variação ao longo do tempo.
Suponha que no exemplo da empresa ABC os dados tivessem sido apre-
sentados pelo tempo de casa de cada funcionário. Uma possível organiza-
ção dos dados seria verificar quantos funcionários a empresa tinha em cada 
um de seus quatro anos de existência, conforme a tabela abaixo:
Número de funcionários por ano
Anos Funcionários
Ano 1 15
Ano 2 20
Ano 3 32
Ano 4 40
36
Análise de dados
Gráfico de linhas
Número de empregados por ano
20
15
10
5
0
35
30
25
40
Ano 1
45
Ano 2 Ano 3 Ano 4
.
Medidas estatísticas
O objetivo de sintetização das informações tem sido realizado até aqui atra-
vés de apresentação tabular e gráfica dos dados originais ou brutos. A forma 
de completar essa tarefa se dá através do cálculo das medidas estatísticas.
Trataremos de três tipos de medidas: (I) as de posição, (II) as de dispersão e 
(III) as de assimetria.
Medidas de posição
Trabalharemos aqui com dois tipos de medidas, as de tendência central e 
as separatrizes. 
As medidas de tendência central resumem os dados no centro da distri-
buição. São medidas de tendência central a média aritmética, a mediana e a 
moda. 
Análise de dados
37
A média aritmética
A média aritmética ou simplesmente média é uma das medidas mais im-
portantes da Estatística. Além de resumir os dados, ela servirá enormemente 
para os propósitos de estimação de características da amostra para a popu-
lação, pois possui as melhores propriedades de um estimador.
Ela é a soma dos dados dividida pelo número de observações, e sua ex-
pressão matemática é:
1 2
i=1
1 + + ... +
 = =å
n
n
i
x x x
x x
n n
Quando não houver conflito com outras expressões, apresentaremos 
=1
å
n
i
i
x simplesmente como Σ X.
A média aritmética representa o centro de gravidade dos dados. Alguns cuida-
dos, no entanto, devem ser tomados quando desejamos resumir os dados pelo 
valor de sua média. Ela é muito sensível a valores extremos. Um único valor muito 
grande ou muito pequeno pode mudar substancialmente o valor da média, po-
dendo ela perder sua representatividade. Esses valores extremos são chamados 
de valores discrepantes ou outliers e quando eles aparecem em um conjunto de 
dados devem receber um tratamento muito especial.
No nosso exemplo temos como valor da média das idades dos emprega-
dos da empresa ABC o valor 34 anos e a média dos salários é de R$1.791,20. 
Se considerarmos a idade de 64 anos como um outlier a nova média será 
de 33,2 anos, e se considerarmos os salários R$4.829,00 e R$5.572,00 como 
valores muito acima dos demais, teremos uma média salarial de R$1.611,76, 
quase R$200,00 de diferença com relação à primeira média.
No primeiro caso a diferença parece não ter sido de grande significância, 
mas para a média salarial essa diferença pode ser considerada importante, 
mesmo porque será um elemento importante na análise de cargos e salários. 
Retirar o salário dos dois gerentes no cálculo da média pode ser útil para a 
construção da nova política de cargos e salários.
Essa sensibilidade da média a valores extremos pode ser bem compreen-
dida com a seguinte ilustração. “Se coloco os pés próximos a uma área gelada 
e a cabeça próxima a uma área quente, a temperatura média do corpo será 
agradável”.
38
Análise de dados
A média ponderada
Se tivermos o seguinte conjunto de dados: (2, 2, 2, 2, 2, 3, 3, 4, 4, 4) e que-
remos calcular a sua média, a soma dos dados pode ser realizada da seguinte 
forma: (2 . 5) + (3 . 2) + (4 . 3) = 10 + 6 +12 = 28. Isso porque a frequência do 2 
é 5, a do 3 é 2 e a do 4 é 3. Observe que a soma das frequências é 10 (5 + 2 + 3), 
igual ao número de observações. Podemos expressar esse fato por:
 = å
å
Xf
X
f
Em que f é a frequência de cada X. Essa expressão representa a chamada 
média aritmética ponderada ou simplesmente a média ponderada. Os ponde-
radores são as frequências.
Esse cálculo é muito útil quando os dados são apresentados em uma dis-
tribuição de frequências em que X será o ponto médio de cada classe e a 
frequência será o ponderador. Se observarmos que a frequência relativa é 
igual à frequência dividida pelo número de observações, isto é f freq
frel
=
å
. ,podemos representar a média como:
 = . å relX X f
No cálculo da média ponderada das idades e dos salários, encontramos 
os seguintes valores para as médias, com o auxílio das tabelas a seguir. Idade 
média 34,75 anos e salário médio R$1.735,00.
Idade Ponto médio (X) frel ΣX frel
20 --- 30 24,5 0,35 8,575
30|--- 40 34,5 0,35 12,075
40|--- 50 44,5 0,25 11,125
50|--- 60 54,5 0,025 1,3625
60|---| 70 64,5 0,025 1,6125
 34,75
Análise de dados
39
Salário (R$) Ponto Médio (X) frel ΣX frel
X < 1.000,00 500 0,28 140
1.000,00 ≤ X < 2.000,00 1.500 0,43 645
2.000,00 ≤ X < 3.000,00 2.500 0,15 375
3.000,00 ≤ X < 4.000,00 3.500 0,1 350
X ≥ 4.000,00 4.500 0,05 225
1.735
Os valores encontrados para os dados brutos foram idade média de 34 
anos e salário médio de R$1.791,20. Os valores obtidos a partir da distribui-
ção de frequências sofreram pequenas alterações, principalmente o valor do 
salário médio, em razão de considerarmos o valor dos salários dos gerentes 
como R$4.500,00 na distribuição de frequências, quando de fato eles tinham 
valores bem superiores ao considerado.
Essas distorções costumam desaparecer quando retiramos os outliers do 
cálculo ou quando o número de observações for grande.
A mediana
A mediana é o valor que divide o rol em duas partes iguais. O rol é de-
finido como a sequência ordenada de dados. Por exemplo, para o seguinte 
conjunto de dados (2, 3, 7, 7, 9) a mediana é o número 7 que divide o rol em 
duas partes iguais.
Quando o número de dados é muito grande convém definir a posição da 
mediana antes de sua determinação. A posição da mediana será definida por 
PMed = (n + 1)/2. No exemplo acima, a posição da mediana será PMed = (5 + 1)/2 = 
6/2 =3, portanto, a mediana será o terceiro elemento do rol. O valor da media-
na será o do elemento que ocupa a terceira posição, nesse caso Med = 7.
No caso de “n” ser par, o procedimento é semelhante, define-se a posição 
da mediana e depois calcula-se a média aritmética dos dois números imedia-
tamente inferior e superior do valor da posição da mediana. No exemplo da 
empresa ABC, em que n = 40, teremos PMed = (40 +1)/2 = 41/2 = 20,5. A mediana 
será então a média entre os valores que ocupam a vigésima e a vigésima pri-
meira posições da variável em consideração.
40
Análise de dados
No nosso exemplo a idade mediana será Med = 33, porque X20 = X21 = 33. O 
salário mediano será Med = R$1.318,50, porque X20 = 1.307,00 e X21 = 1.330,00.
A mediana para dados agrupados
Uma forma aproximada de determinação da mediana para dados agru-
pados consiste em localizar inicialmente a classe que contém a mediana, com 
o auxílio da distribuição de frequências acumulada. Em seguida, tomar o 
ponto médio da classe mediana como um valor aproximado do verdadeiro 
valor da mediana. 
Observe na tabela a seguir que o vigésimo e o vigésimo primeiro va-
lores estão na segunda classe que contém do décimo segundo ao vigési-
mo oitavo elementos. Podemos, por simplicidade, determinar o valor da 
mediana como aproximadamente R$1.500,00, o valor do ponto médio da 
classe mediana.
Essa aproximação para esse caso foi bastante razoável, como podemos 
observar pela comparação do valor obtido nesse cálculo e o valor real deter-
minado pelos dados do rol. Quando a posição da mediana estiver muito pró-
xima de alguma dos limites da classe, uma interpolação deve ser realizada.
Salário (R$) Freq. Ponto médio Freq. acumulada
X < 1.000,00 11 500 11
1.000,00 ≤ X < 2.000,00 17 1.500 28
2.000,00 ≤ X < 3.000,00 6 2.500 34
3.000,00 ≤ X < 4.000,00 4 3.500 38
X ≥ 4.000,00 2 4.500 40
Total 40
A moda
A moda é o valor que ocorre com maior frequência. Para o conjunto de 
dados (2, 3, 3, 3, 4), a moda será o valor 3. Quando um conjunto tem uma só 
moda, ele é chamado de unimodal. Se tiver duas modas, de bimodal, e poli-
modal se tiver três modas, ou mais. Se o conjunto não tiver nenhuma moda 
será chamado de amodal.
Análise de dados
41
Separatrizes
As separatrizes são medidas que dividem um rol em duas partes pro-
porcionais a certos valores. A medida que separa os dados em duas partes 
iguais, ou em 50% e 50% é a mediana, como vimos a pouco.
Uma série de três medidas pode separar o rol em quatro partes iguais. 
Elas são chamadas de quartis. O primeiro quartil (Q1) separa o rol em 25% 
e 75%, o segundo quartil (Q2) é a própria mediana e o terceiro quartil (Q3) 
divide o rol em 75% e 25%.
Da mesma forma que a mediana, para os quartis devemos inicialmente 
calcular a sua posição para depois determinar o seu valor. A posição do quar-
til de ordem i, com i = 1..., 3 é dada por ( +1)=
4Qi
i n
P .
No nosso exemplo, se desejamos verificar o valor dos quartis para os sa-
lários, teremos PQ1 = (40 + 1)/4 = 10,25 e PQ13 = 3(40 +1 )/4 = 30,75, lembran-
do que o segundo quartil é a própria mediana. Então, verificando no rol de 
dados, teremos Q1 = R$987,50 e Q3 = R$2.584,50, uma vez que o décimo salá-
rio é de R$975,00 e o décimo primeiro de R$1.000,00 e que o trigésimo é de 
R$2.372,00 e o trigésimo primeiro de R$2.797,00. Esses são valores aproxima-
dos, mas podemos verificar que são aproximações bastante razoáveis. 
Podemos tambem definir um conjunto de nove medidas que separam 
o rol em 10 partes, chamadas de decis, e um conjunto de 99 medidas que 
separam o rol em 100 partes, chamadas de percentis. Bastando, para isso, 
determinar as posições de cada decil pela expressão i.(n + 1)/10 e de cada 
percentil por i.(n + 1)/100. É fácil verificar que o vigésimo quinto percentil, 
por exemplo, é o primeiro quartil.
Com base nas separatrizes, podemos construir duas representações que 
fazem parte também da chamada análise exploratória de dados, que são: o 
esquema de cinco números e o diagrama de caixa ou Box-plot.
42
Análise de dados
Esquema de cinco números
O esquema de cinco números consiste em apresentar os valores extre-
mos, os quartis e a mediana, conforme desenho a seguir:
Q1 Med Q3
Xmín Xmáx
Diagrama de caixa ou Box-plot 
O Box-plot, como é corriqueiramente conhecido, constitui-se de uma caixa 
ou um retângulo cujo valor à esquerda na caixa é o primeiro quartil, e o valor 
à direita na caixa é o terceiro quartil. Um traço no centro da caixa representa 
a mediana e os pontos extremos são mostrados fora da caixa. 
+---+---+---+---+---+---+---+---+---+---+---+---+ 
0 1 2 3 4 5 6 7 8 9 10 11 12
No exemplo acima, o primeiro quartil (Q1) é 7, a mediana é 8,5 e o terceiro 
quartil (Q3) é 9. Essas três medidas são utilizadas para a construção da caixa. 
A diferença entre o terceiro e o primeiro quartis é chamada de amplitude in-
terquartílica (Aiq). Qualquer valor abaixo de Q1 – 1,5 Aiq e acima de Q3 + 1,5 Aiq é 
considerado como outlier. No exemplo em foco Aiq = 9 – 7 = 2, então valores 
menores do que 7 – 2(1,5) = 4 e maiores que 7 + 2(1,5) = 10 são outliers.
O valor 5 no diagrama é o menor valor dos dados que não é outlier, e o 
valor 10 é o maior valor dos dados que também não é outlier. Marcamos 
esses dois pontos e os unimos à caixa por um traço. 
Podemos também definir outlier extremo como valores abaixo de Q1 – 3 Aiq e 
acima de Q3 + 3 Aiq . O valor 3,5 é um outlier, por ser menor do que 4 e o valor 
0,5 é um outlier extremo por ser menor do que 7 – 3(2) = 1. Não temos valores 
de outlier à direita. Marcamos então o outlier com um asterisco (*) e o outlier 
extremo com uma circunferência (°). 
Esse diagrama indica que temos um conjunto de dados com uma certa 
assimetria negativa. 
Análise de dados
43
Medidas de dispersão
Essas medidas são úteis para que possamos verificar o quanto os dados 
se dispersam, ou, mais comumente, o quanto eles se dispersam em torno da 
média. São medidas de variabilidade. Podemos dizer que dados com grande 
variabilidade representam um conjunto heterogêneo.
As três principais medidas de variabilidade são (I) a variância, (II) o desvio-
padrão e (III) o coeficiente de variação.
A variância
A variância mede a variabilidade média dosdesvios dos valores em torno 
da média ao quadrado. Pode ser representada por VAR(X) ou σ2. O quadrado é 
utilizado porque a média tem sempre a propriedade que a soma dos desvios 
em torno de si é igual a zero, ou seja, Σ(X – μ) = 0. Dessa forma, a variância 
pode ser definida como:
σ2 =
∑(X – μ)2
N
Quando tratamos de amostra em vez de população, N é substituído por 
(n – 1), cuja justificativa será apresentada no capítulo referente à Estimação, 
quando tratarmos de distribuições amostrais. Nesse caso substituímos σ2 
por S2. Então, para o caso de amostra, teremos:
S2 =
∑(X – X)2
n – 1
Uma forma alternativa de determinar o valor da variância, derivada da 
expressão acima, é dada por:
S2 = ∑X
2 – nX2
n – 1
ou
S2 =
∑X2 –
n – 1
(∑X)2
n
44
Análise de dados
A variância para dados agrupados pode ser determinada pela expressão:
S2 = ∑(X – X)
2
 . f
n – 1
Em que f é a frequência de cada classe, X o ponto médio de cada classe e 
X a média aritmética dos dados. Ou de forma alternativa por:
S2 =
∑X2 . f –
n – 1
(∑X . f )2
n
O desvio-padrão
Como a unidade da variância é sempre ao quadrado, a forma de represen-
tar uma medida de dispersão na mesma unidade dos dados é calculando a raiz 
quadrada da variância. Essa medida é chamada de desvio-padrão e é, como 
veremos, uma das medidas mais importantes da Estatística.
O coeficiente de variação
O desvio-padrão tem várias utilidades em Estatística. Uma delas é com-
parar a variabilidade entre dois conjuntos que têm a mesma média. Como o 
desvio-padrão não tem um significado físico mais bem definido, o seu valor 
será grande ou pequeno dependendo da dimensionalidade dos dados.
Um desvio-padrão pode ser irrisório ou imenso dependendo da dimen-
são dos dados que estamos tratando. Existe, no entanto, uma possibilidade 
de comparação da variabilidade entre dois conjuntos padronizando o valor 
do desvio-padrão pelo valor da média do conjunto de dados.
Ou seja, se igualarmos a média a 100 e fizermos uma regra de três simples, 
obteremos:
X 100
 S CV
Então,
CV = . 100%S
X
Análise de dados
45
CV é conhecido como o coeficiente de variação dos dados. Seu valor é 
dado em percentagem, o que possibilita uma informação mais intuitiva da 
variabilidade, e é a forma de comparar-se a heterogeneidade entre dois con-
juntos com médias diferentes.
Observe que os conjuntos A = {1, 2, 3}, B = {11, 12, 13} e C = {111, 112, 113} têm 
o mesmo desvio-padrão. Nos três casos o seu valor é igual a 1. No entanto, os 
valores dos coeficientes de variação são: CVA = 50%, CVB = 8,3% e CVC = 0,9%.
Verifique que esses resultados estão mesmo de acordo com a intuição. 
Se cada medida dessas for uma medida de distância aferida por algum apa-
relho, é muito menor o erro entre as medidas do conjunto C do que do 
conjunto A. 
Medidas de assimetria
Existem várias medidas para verificar se os dados são simétricos em 
torno de um valor central (a média) de um conjunto. A mais usual é a apre-
sentada abaixo:
A = 3 (média – mediana)
S
Se A < 0, dizemos que os dados têm assimetria negativa, caso contrário as-
simetria positiva. Se A = 0, o conjunto de dados é simétrico. O aspecto gráfico 
de dados simétricos e assimétricos é dado abaixo:
X = Md = MoMo Md X X Md Mo
assimetria positiva assimetria negativasimétrico
46
Análise de dados
Atividades de aplicação
1. Uma pesquisa realizada com fornecedores de uma determinada indús-
tria tinha por objetivo atualizar alguns dados importantes para o contro-
le financeiro e administrativo. As seguintes variáveis foram observadas: 
a) Nome da empresa
b) Idade da empresa
c) Faturamento anual
d) Número de funcionários
e) Localização (UF)
f) Área construída
Indique, para as variáveis acima, qual o tipo de cada uma delas.
2. Indique a letra adequada à coluna de acordo com as afirmativas abaixo:
a) Processo utilizado para selecionar elementos numa pesquisa 
ou estudo.
b) Uma das formas de apresentação de dados.
c) Medida observada a partir de uma característica da amostra.
d) Característica observada em estudos ou pesquisas.
e) Medida observada a partir de uma característica da população.
 Distribuição de frequências. )(
 Estatística. )(
 Amostragem. )(
 Parâmetro. )(
 Variável. )(
3. A diretoria de uma empresa, preocupada com a participação de seus 
membros nas reuniões ordinárias, fez um levantamento do número 
de faltas no último semestre. Os dados obtidos para os 48 membros 
participantes estão apresentados a seguir:
 2 0 0 4 3 0 0 1 0 0 1 1
 2 1 1 1 1 1 1 0 0 0 3 0
 0 0 2 0 0 1 1 2 0 2 0 0
 0 0 0 0 0 0 0 0 0 0 1 0
Análise de dados
47
a) Especifique o tipo de variável estudada, classificando-a.
b) Construa um diagrama de bastões.
c) Construa uma tabela de frequências.
d) Qual a proporção de membros que faltou no máximo a duas 
reuniões?
e) Determine as frequências relativas.
4. A distribuição de frequências abaixo apresenta os salários dos 120 fun-
cionários da empresa “A” .
Salários (em S. M.) fi (n.
o de funcionários)
0 ---- 5 52
5 |--- 10 38
10|--- 15 17
15|--- 20 8
20|---| 50 5
Total 120
 Determine:
a) A amplitude observada entre a 2.a e a 4.a classe.
b) O salário médio da 4.a classe de frequências.
c) A frequência acumulada da 3.a classe de frequências.
d) Quantos funcionários que recebe entre 5 e 15 salários mínimos?
e) Quantos funcionários que recebe pelo menos 10 salários mínimos?
5. Pesquisando-se o preço médio de fornos micro-ondas de diversas 
marcas em 28 lojas e pontos de venda em Curitiba, observou-se a se-
guinte distribuição:
Preço (R$) 192,00 220,00 240,00 255,00 262,00 280,00
Lojas 1 7 11 6 2 1
48
Análise de dados
a) Calcule o preço médio do produto.
b) Calcule o preço mediano.
6. Os dados abaixo apresentam as vendas semanais em classes de salá-
rios mínimos de vendedores de gêneros alimentícios:
Vendas semanais n.º de vendedores
20 – 30 2
30 – 40 10
40 – 50 18
50 – 60 50
60 – 70 70
70 – 80 30
80 – 90 18
90 – 100 2
 Total 200
a) Determine o número médio de vendas semanais.
b) Determine o desvio-padrão e o coeficiente de variação das vendas 
semanais.
7. Trinta embalagens plásticas de mel foram pesadas com precisão de 
decigramas. Os pesos, após convenientemente agrupados, fornece-
ram a seguinte distribuição de frequências (em gramas):
Xi 31,5 32,5 33,5 34,5 35,5 36,5
fi 1 5 11 8 3 2
 Determine: 
a) A média da distribuição dos pesos das embalagens.
b) A mediana dos pesos.
c) A moda dos pesos.
d) A variância dos dados.
Análise de dados
49
8. A tabela abaixo apresenta as taxas de juros do rotativo, cobradas pelos 
cartões de crédito, em determinado mês.
American Express 10,95 30 Horas Visa Gold 11,90 Federal Card Nac. 9,80
D
is
po
ní
ve
l e
m
: F
ol
ha
 d
e 
Sã
o 
Pa
ul
o/
Ca
de
rn
o 
D
in
he
iro
. 
Credicard Nac. 9,20 30 Horas Visa Int. 11,90 Federal Card Int. 9,80
Credicard Intern. 9,04 Ourocard Intern. 8,50 Federal Card Gold 9,50
Diners 10,70 BFB Gold 9,90 HSBC Open Card 10,50
Bradesco Nac. 10,32 BFB Intern. 9,90 HSBC Gold 5,90
Bradesco Intern. 10,22 Sudameris Classic 10,20
Bradesco Gold 9,53 Sudameris Gold 10,20
a) Qual a taxa média cobrada no mercado?
b) Qual a taxa mediana?
c) Qual o valor do desvio-padrão das taxas? O comportamento das 
taxas é homogêneo?
d) Existe algum cartão que possa ser considerado um outlier, supon-
do uma variação de 2 desvios da média?
9. A idade média dos candidatos a um determinado curso de aperfeiço-
amento sempre foi baixa, na ordem de 22 anos. Como esse curso foi 
planejado para atender a todas as idades, decidiu-se fazer uma cam-
panha de divulgação. Para verificar se a campanha foi ou não eficiente, 
fez-se um levantamento da idade dos candidatos à última promoção, 
e os resultados estão apresentados na tabela abaixo:
Idade Número de candidatos
18 – 20 18
20 – 22 12
22 – 26 10
26 – 30 8
30 – 36 2
 Baseando-se nesses resultados, você diria que a campanha produziu 
algum efeito (istoé, a idade média aumentou)?
50
Análise de dados
10. Os salários dos empregados da empresa “A” são 20% maiores que os da 
empresa “B”, para todos os empregados comparados individualmente. 
Com base nessa informação, podemos afirmar que:
a) O desvio-padrão dos empregados é o mesmo para ambas as 
empresas.
b) O desvio-padrão dos salários dos empregados da empresa “A” é 
20% maior do que o dos salários da empresa “B’.
c) O desvio-padrão dos salários dos empregados da empresa “A” é 
igual ao desvio-padrão dos salários dos empregados da empresa 
“B”, multiplicado pelo quadrado de 1,20 .
d) Não há elementos para se comparar o desvio-padrão dos salários 
dessas empresas.
Gabarito
1.
a) Qualitativa nominal.
b) Quantitativa contínua.
c) Quantitativa contínua.
d) Quantitativa discreta.
e) Qualitativa nominal.
f) Quantitativa contínua.
2. b, c, a, e, d.
3.
a) Variável quantitativa discreta, pois o número de faltas é dado por 
um valor inteiro.
Análise de dados
51
b) 
5
10
15
20
25
30
M
em
br
os
Diagrama de Bastões
Faltas
0
0 1 2 3 4
c)
Distribuição de frequências
Número de faltas Número de membros (f)
0 28
1 12
2 5
3 2
4 1
Total 48
d) No máximo duas reuniões é o mesmo que duas ou menos reuniões, 
logo será a soma das frequências de 0 + 1 + 2 dividido pelo total de 
casos.
 Proporção de no máximo 2 reuniões = 28 + 12 + 5
48
 = 0,9375 
ou 93,75%
52
Análise de dados
e) 
Distribuição das frequências relativas
Número de faltas Frequência relativa (fr)
0 0,583
1 0,250
2 0,104
3 0,042
4 0,021
Total 1
4. 
a) A amplitude entre a 2.ª e a 4.ª classes varia entre 5 (limite inferior 
da 2.ª classe) e 20 (limite superior da 4.ª classe), logo a Amplitude = 
20 – 5 = 15.
b) O salário médio da 4.ª classe é dado pela média entre 15 e 20, por-
tanto, o valor é 17,5.
c) A frequência acumulada da 3.ª classe será: 52 + 38 +1 7 = 107. 
d) O número de funcionários que recebem entre 5 e 15 salários míni-
mos será dado pela soma dos que ganham entre 5 e 10 mais os que 
recebem entre 10 e 15 s.m., portanto, 38 + 17 = 55 funcionários.
e) Pelo menos 10 s.m. é o mesmo que no mínimo 10 s.m. Sendo as-
sim, será a soma das frequências das classes a partir de 10 s.m. O 
resultado será 17 + 8 + 5 = 30. Outra forma de cálculo seria subtrair 
do total os que ganham menos de 10 s.m., ou seja, 120 – 90 = 30.
5. 
a) Este é um caso de média ponderada, sendo assim a fórmula para a 
resolução é:
 
= ∑
∑
Xf
X
f
 = + + + + +(192).1 (220).7 (240).11 (255).6 (262).2 (280).1
28
 
 = 6.706
28 
 239,50=X .
Análise de dados
53
b) Para obter o preço mediano do produto, é necessário verificar a 
posição da mediana, ou seja:
 
( 1)
2
+=Med
n
P , logo a 
(28 1)
14,5
2
+= =MedP , então a mediana será 
 a média entre os valores ordenados correspondentes às posi-
ções 14 e 15.
 Verificando na distribuição, temos os valores; XPos14 = 240,00 e 
XPos15 = 240,00. Portanto, como a média entre os valores será de 
240,00, a mediana será 240,00. 
6. 
a) Calcula-se o ponto médio das classes e obtém-se o resultado da 
média por meio da expressão:
 
12 480
62, 4
200
= = =∑
∑
Xf
X
f
Vendas (X) Freq (f) X.f
25 2 50
35 10 350
45 18 810
55 50 2 750
65 70 4 550
75 30 2 250
85 18 1 530
95 2 190
TOTAL 200 12 480
 Ou, de outra forma, utilizando a frequência relativa:
= ∴ = + + + =∑ 25.(0,01) 35.(0,05) ... 95.(0,01) 62, 4X XrelX .f
54
Análise de dados
Vendas (X) Freq (f) X.f F relativa X. Freq rel
25 2 50 0,01 0,25
35 10 350 0,05 1,75
45 18 810 0,09 4,05
55 50 2 750 0,25 13,75
65 70 4 550 0,35 22,75
75 30 2 250 0,15 11,25
85 18 1 530 0,09 7,65
95 2 190 0,01 0,95
TOTAL 200 12 480 1 62,4
b) Como o desvio-padrão é a raiz quadrada da variância, então pode-
mos calcular a variância através da expressão:
 
S2 =
n – 1
∑x2 . f – (∑x . f )
2
n
, em que precisamos obter os valores 
de ∑x2 . f 
X2 X2.f
625 1 250
1 225 12 250
2 025 36 450
3 025 151 250
4 225 295 750
5 625 168 750
7 225 130 050
9 025 18 050
∑ 813 800
 Logo, temos que a variância será:
Análise de dados
55
 
S2 =
199
813 800 –
(12 480)2 
200
 
= 176,12 e dessa forma o resultado do 
desvio-padrão será obtido por meio de:
 176,12 13,27= =S
 O coeficiente de variação será determinado por:
 
.100%= SCV
X
, onde 
13,27
.100% 21,3%
62, 4
= =CV
7.
a) X = ∑xf
30∑f
= (31,5).1 + (32,5) 5 + (33,5).11 + (34,5).8 + (35,5).3 + (36,5).2 =
 
30
1018= X = 33,93.
b) ( 1) (30 1)
2 2
+ += =Med
n
P = 15,5, logo, a mediana será a média entre os 
 valores de X na posição 15 e na posição 16. O resultado da mediana
 será dado por 
+
= =
33,5 33,5
Md 33,5
2
.
c) A moda é representada pelo valor de maior frequência, e nesse 
caso a Mo = 33,5.
d) A variância será expressa por: S2 =
n – 1
∑X2 . f – (∑X . f )
2
n , em que 
obtemos os valores dos somatórios na tabela: 
Xi i Xi.fi X
2 X2.fi
31,5 1 31,5 992,25 992,25
32,5 5 162,5 1 056,25 5 281,25
33,5 11 368,5 1 122,25 12 344,75
34,5 8 276,0 1 190,25 9 522,00
35,5 3 106,5 1 260,25 3 780,75
36,5 2 73,0 1 332,25 2 664,50
1 018,00 34 585,50
56
Análise de dados
 Logo:
 
 S2 =
29
34 585,5 –
(1 018)2
30
 
= 1,43
8.
a) x =
1
n
∑
n
i = 1
xi , em que
 
x =
1
19
(10,95 + 9,20 + 9,04 + ... + 10,50 + 5,90) =
187,96
19
= 9,89.
b) Após a ordenação dos valores, encontramos a posição da mediana 
 dada por ( 1) (19 1)
2 2
+ += =Med
n
P = 10, em que o valor de X na posição 
 10 corresponde a uma mediana igual a 9,9.
c) O desvio-padrão será obtido pela raiz quadrada da variância, logo, 
a variância é:
 S
2 =
n – 1
∑X2 – (∑X)
2
n
 e obtendo os somatórios através da 
tabela a seguir:
Taxas (X) X2
10,95 119,9025
9,2 84,64
9,04 81,7216
10,7 114,49
10,32 106,5024
10,22 104,4484
9,53 90,8209
11,9 141,61
Análise de dados
57
Taxas (X) X2
11,9 141,61
8,5 72,25
9,9 98,01
9,9 98,01
10,2 104,04
10,2 104,04
9,8 96,04
9,8 96,04
9,5 90,25
10,5 110,25
5,9 34,81
187,96 1 889,486
 
 Temos: S2 =
18
1 889,49 –
(187,96)2
19 = 1,67, logo o desvio-padrão 
 será dado pela 1,67 1,29= .
 Para verificarmos se o grupo de dados é homogêneo, calcula-
mos o coeficiente de variação (CV). Normalmente, grupos com 
dispersão relativa até 30% são considerados homogêneos. O 
 cálculo do coeficiente de variação é dado por: .100%= SCV
X 
∴
 1,29 .100% 13,07%
9,89
= =CV
Logo, as taxas cobradas no mercado são homogêneas.
d) Será considerado um cartão outlier aquele em que a taxa cobrada do 
rotativo exceda os limites de X ± 2S, ou seja, 9,89 ± 2.(1,29). Sendo 
assim, os limites estarão entre 7,31 e 12,47. Dessa forma, o único valor 
fora desse intervalo corresponde a 5,90 do cartão HSBC Gold.
58
Análise de dados
9. Utiliza-se o ponto médio das classes como valor de X na classe (obser-
ve que as classes têm amplitudes diferentes) e através da expressão
 X =
∑Xf
∑f
 obtém-se a média das idades. Então, 
 
X =
19.(18) + 21.(12) + 24.(10) + 28.(8) + 33.(2)
50
= 22,48
 Logo, a campanha não surtiu efeito, pois a idade média permanece 
em torno de 22 anos.
10. B