Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Alejandro Donnangelo
Estatística
03
Sumário
CAPÍTULO 3 – Análise Exploratória ..................................................................................05
Introdução ....................................................................................................................05
3.1 Medidas de posição e dispersão ................................................................................05
3.1.1 Medidas de posição central ..............................................................................06
3.1.2 Média, mediana, moda e distribuição ...............................................................10
3.1.3 Medidas de dispersão ......................................................................................12
3.2 Representações gráficas ............................................................................................16
3.2.1 O que é um dado discrepante? .........................................................................17
3.2.2 Diagrama boxplot ...........................................................................................18
Síntese ..........................................................................................................................23
Referências Bibliográficas ................................................................................................24
03
05
Capítulo 3 
05
Introdução
A partir deste estudo, você vai explorar o fabuloso universo da análise de dados. Você sabe como 
se organizam os dados coletados depois que o pesquisador define seus objetivos e confecciona 
o projeto de pesquisa? Durante a análise exploratória de dados, identificamos padrões e ten-
dências e extraímos informações ocultas de conjuntos de dados. Ao passo que um leigo enxerga 
apenas números em tabelas extensas e figuras incompreensíveis, o analista encontra respostas, 
faz descobertas e transmite informações de forma prática e objetiva. E você? Consegue identifi-
car as informações relevantes ao observar uma dessas tabelas?
Ao longo deste capítulo, você conhecerá algumas ferramentas que permitem resumir informações 
fazendo uso de medidas de posição central. Compreenderá os conceitos de média, mediana e 
moda e sua aplicabilidade na análise exploratória de dados. Fique atento, pois muitos conceitos 
podem parecer banais, mas, na verdade, todos são muito importantes. Procure fixar bem o con-
teúdo: leia com atenção e, se necessário, releia o material. 
Muitas vezes, você pode pensar que uma simples olhada em tabelas e quadros dispensa qualquer 
análise estatística. Isso é normal, pois, a fim de exemplificar cálculos e aplicação das metodolo-
gias apresentadas, criamos situações hipotéticas com pequenos conjuntos de dados. Isso facilita 
muito a interpretação de dados e permite que você construa conhecimento enquanto tira suas 
próprias conclusões. Mas lembre-se de que, na vida real, lidamos com grandes conjuntos de 
dados, em que nada é tão óbvio assim. E é justamente nesse momento que todo o conhecimento 
transmitido nesta disciplina faz a diferença para o profissional do serviço social. Nesse ponto, 
suas conclusões serão mais respeitadas e suas interpretações de trabalhos alheios, melhor com-
preendidas e avaliadas.
Para tanto, você verá aspectos da distribuição de dados e alguns gráficos muito utilizados para sin-
tetizar informações. Não espere encontrar, neste estudo, soluções computacionais para cálculos, 
análises ou representações gráficas. Mas você deve saber que, atualmente, é praticamente impos-
sível sequer pensar em realizar análise de dados sem recorrer a algum tipo de software estatístico.
Bons estudos!
3.1 Medidas de posição e dispersão
Você já aprendeu a confeccionar tabelas e gráficos, certo? Também sabe que estas são ferra-
mentas úteis para organizar e apresentar visualmente os resultados de uma pesquisa, dando uma 
ideia inicial do fenômeno observado, concorda? Mas vamos supor que, agora, você deve ser 
mais preciso em sua descrição e dizer qual é a tendência ou o comportamento típico do fenôme-
no que está estudando. Como você faria? Por exemplo, para saber a longevidade das pessoas de 
um país, você pode calcular a média da expectativa de vida de sua população. Por outro lado, 
para saber a variação típica da expectativa de vida dessas pessoas em torno da média, pode-se 
calcular o desvio padrão. Dessa forma, terá uma ideia da expectativa de vida por meio de um só 
valor referente à média, mas também uma pista de quanto de fato você pode confiar nesse valor 
para resumir os dados. Com medidas de posição e dispersão (média, mediana, desvio padrão), é 
possível descrever as principais tendências de um determinado fenômeno de estudo. Quer saber 
mais? Leia a seguir.
Análise Exploratória
06 Laureate- International Universities
Estatística
3.1.1 Medidas de posição central
As medidas de posição central de um conjunto de dados resumem em um só valor numérico 
qual é o centro de sua distribuição de valores. Da mesma forma que existem muitos tipos de 
fenômenos na natureza que podem ser medidos, existem muitos tipos diferentes de dados com 
distribuições de valores diferentes e, portanto, existem medidas de posição central apropriadas 
para cada uma delas. Você entenderá porque a média é indicada para dados que possuem va-
lores que estão próximos uns aos outros, portanto, próximos da posição central. Saberá também 
que a mediana é mais apropriada em casos em que existem valores atípicos que se distanciam 
muito da maior parte dos demais valores do conjunto de dados. 
Essas medidas podem ser calculadas a partir de dados amostrais e de dados populacionais, mas, 
tanto para amostras quanto para populações, as equações e os princípios estatísticos são muito 
similares. Para começar, conheça a seguir a medida de tendência central mais utilizada, a média. 
Média aritmética simples
A média aritmética é uma medida de tendência central calculada a partir de todos os dados de 
uma amostra ou de uma população. Antes de defini-la melhor, relembre o conceito de somatório.
O somatório de uma série de valores ∑ (letra sigma maiúscula do alfabeto grego) é representado 
por: 
n
∑
i=p
 i
Essa notação matemática representa o somatório de n valores ordenados variando de i=p até n, 
em que p representa o limite inferior da série e n o limite superior. Nesse caso, a letra i representa 
o índice ou posição do valor dentro da série. O índice é sempre apresentado subscrito à direita 
do valor ou variável. Por exemplo, dado um conjunto de dados h={21, 52, 53, 54, 65, 76, 87, 98}, 
a soma de todos os elementos pode ser representada por:
9
∑
i=1
 hi
O que significa que estamos somando os elementos de índice 1 a 9 (soma 2+5+5+5+6+7+8+9), 
nesse caso, todos os elementos do conjunto. De forma análoga, para representar a soma dos 
valores localizados entre o 2º e o 7º elemento da variável x={23, 33, 43, 53+ 63, 73, 83 e 93} 
escrevemos:
7
∑
i=2
 x3
Ou seja, o somatório dos elementos da variável x variando da posição i=2 até a posição i=7. É 
importante dizer que o índice raramente é explicitado quando são apresentados os valores que 
uma variável pode assumir. O índice é uma forma de identificar ou dar nome aos elementos de 
um conjunto. 
07
Vamos tomar outro exemplo: a soma do 5º até o 25º elemento de um conjunto de dados da 
variável x, representada por ∑ 25i=5 xi , equivale a:
25
∑
i=5
 xi = x5 + x6 + x7 ...+ x25
É importante que você não confunda o índice de uma determinada variável x com o valor que 
essa variável pode assumir. O índice indica apenas a posição de um determinado elemento den-
tro de um conjunto de dados. 
NÃO DEIXE DE VER...
Para fixar melhor a notação de somatório, você pode acessar o vídeo Somatório, no site 
Kuadro, disponível no endereço: <http://kuadro.querobolsa.com.br/videoaula/mate-matica/probabilidade-e-estatistica/somatorio>.
Agora, retome a discussão sobre a média. O valor da média é o resultado do somatório de todos 
os valores de uma determinada variável divido pelo número de elementos. Uma das característi-
cas da média é que esta possui a mesma unidade dimensional dos dados.
A média amostral é geralmente representada por x. No caso de quadros e tabelas em que há 
muitas variáveis, é comum o emprego de outras letras para representar a média amostral. Por 
exemplo, as variáveis tempo, volume e cor podem ser representadas por t, v e c respectivamente. 
A média da população é denotada pela letra grega m (mi). 
Você pode entender a média como o ponto de equilíbrio de um conjunto de valores. Imagine que 
você possui um eixo horizontal no qual são posicionados pesos de um quilo (1 kg) para cada 
dado observado de acordo com o seu valor em uma determinada escala de distância do ponto 
de referência inicial. A posição exata do único ponto onde se pode colocar um apoio que susten-
te todo em equilíbrio é o local que corresponde à média aritmética dos dados (BARBETTA, 2014).
A média aritmética simples de um conjunto de n valores de uma variável x é dada por: 
x =
x1 + x2 + x3 + ... + xn =
∑ n
i=1 xi
n n
Com base no exposto, você poderia dizer se está se referindo à média amostral ou à populacio-
nal? Lembre-se sempre de que o número de elementos da população é representado pela letra 
N e da amostra pela letra n.
Veja outro exemplo: em um programa de pós-graduação em serviço social, os professores dese-
jam saber qual é a produtividade científica de seus laboratórios e de seus pesquisadores em ter-
mos de artigos publicados. Foi realizado um levantamento dos artigos publicados por professor 
no período de 2010 até 2014. Os dados obtidos são apresentados na Tabela 1. 
08 Laureate- International Universities
Estatística
Professor
Publicações 
em 2010
Publicações 
em 2011
Publicações 
em 2012
Publicações 
em 2013
Publicações 
em 2014
Silas 2 3 7 6 8
Petros 6 4 4 6 3
Salete 5 5 3 10 10
Marius 1 3 2 4 5
Helena 1 4 7 5 3
Charles 4 0 5 3 1
Tabela 1 – Artigos científicos publicados anualmente pelos professores de um pro-
grama de pós-graduação em serviço social no período de 2010 a 2014.
Fonte: Elaborada pelo autor, 2015.
Para descrever a produtividade anual de artigos de cada professor, calcule a média anual das 
publicações de cada professor. Para o professor Silas, por exemplo, a produtividade média anual 
é dada por:
x =
∑ 5
i=1 pi =
2+3+7+6+8
=
26
= 5,2 artigos
5 5 5
Da mesma forma, podemos calcular a produtividade média dos demais pesquisadores do pro-
grama. Agora vamos calcular a produtividade média anual do professor Petros.
x =
∑ 5
i=1 pi =
6+4+4+6+3
=
23
= 4,6 artigos
5 5 5
Parece que Silas tem publicado, em média, mais artigos que Petros. Que tal calcular as médias 
para os demais professores? Aproveite essa questão para exercitar seu conhecimento. 
A média pode não ser a medida mais apropriada para resumir a tendência central de um con-
junto de dados. Nos casos, verifica-se a presença de valores extremos ou discrepantes, também 
chamados de outliers, a média geralmente é deslocada da região central. Nesse caso, você não 
poderia confiar na média para resumir os dados. Retome o exemplo dos artigos publicados por 
professores do programa de pós-graduação. Suponha que, em 2010, o professor Silas tenha pu-
blicado 30 artigos em vez de 2 artigos e veja, a seguir, como o valor da média pode ser alterado.
x =
∑ 5
i=1 pi =
30+3+7+6+8
=
54
= 10,8 artigos por ano
5 5 5
O valor da média foi alterado de 5,2 para 10,8 publicações por ano. Observe que o valor da 
média agora não descreve adequadamente a tendência central dos dados, e isso pode levar o 
pesquisador inexperiente a uma interpretação distorcida da realidade. Tente entender melhor 
esse aumento súbito no valor da média: descobriu-se que o professor Petros realizou uma viagem 
de pós-doutorado e colaborou com muitos colegas da universidade que o acolheu. Em função 
disso, o valor da média que resume seu desempenho aumentou consideravelmente. Agora que 
você conheceu melhor o fenômeno que originou os dados, pode ponderar se, de fato, essa mé-
dia será realmente útil para resumir o desempenho dos professores. 
09
É por isso que você deve tomar muito cuidado quando fala e quando ouve falar em médias. Essa 
medida pode não ser o melhor descritor da posição central de um conjunto de dados e, muitas 
vezes, pode distorcer o verdadeiro significado das informações.
No vídeo O Prazer da Estatística (The Joy of Stats, 2010), em um comentário bem-humorado, o 
palestrante Hans Rosling diz que, em média, nenhum sueco tem duas pernas. Este é um dos casos 
típicos nos quais a média proporciona uma informação um tanto distorcida. Muitos suecos não 
possuem uma perna e muitos outros nem mesmo duas pernas. Mas dado que ninguém possui três 
pernas, o cálculo da média do número de pernas por habitante na Suécia é de aproximadamente 
1,9 pernas por cidadão. 
Nascido na Suécia em 1948, o médico e professor Hans Rosling é também conhecido 
como o “guru” da estatística moderna. Por meio de recursos gráficos e palestras anima-
das, Rosling traduz a monotonia dos dados estatísticos de maneira cativante e divertida, 
possibilitando aos leigos a compreensão de um assunto comumente dominado por 
especialistas. Saiba mais sobre Hans Rosling acessando o endereço: <https://www.ted.
com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen?language=pt-br>.
VOCÊ O CONHECE?
Importante, você deve se lembrar de que a média é muito influenciada por valores discrepantes e, 
quando temos distribuições assimétricas, essa medida deve ser utilizada com cautela. Para esses ca-
sos, outras medidas de posição central podem ter mais utilidade. Você já ouviu falar da mediana?
Mediana
Dado um conjunto de dados ordenados, a mediana corresponde ao valor do elemento central. 
Em outras palavras, a mediana divide a distribuição de dados em duas partes iguais de acordo 
com os índices dos elementos. Dado que essa medida de tendência central leva em consideração 
índices e não valores, ela não se altera com a presença de outliers.
A mediana da amostra e a da população são comumente representadas por e respectiva-
mente. O cálculo da mediana para um conjunto ímpar de dados de uma variável x é dado por:
 = x(n+1/2)
Tomando como exemplo os dados referentes às publicações do programa de pós-graduação, 
calcule a mediana das publicações do professor Petros. Primeiramente coloque os dados em 
ordem crescente de valores:
x1 = 3, x2 = 4, x3 = 4, x4 = 6, x5 = 6.
Utilizando a fórmula da mediana para n=ímpar, temos: 
 = x(5+1/2) = x(3) = 4
Para um número par de elementos, mediana continua sendo o valor que se encontra exatamente 
no ponto central da distribuição dos dados:
 =
x(n/2) + x(n/2+1)
2
10 Laureate- International Universities
Estatística
Por exemplo, o cálculo da mediana do conjunto de valores (n=8) x={5,7,8,11,12,13,14,15} 
corresponde a:
 =
x(4) + x(5) =
11+12
= 11,5
2 2
Você se lembra da viagem realizada pelo professor Petros na qual ele publicou 30 artigos em 
um único ano? De fato, este foi um ano atípico e os dados mostram que, no Brasil, o seu ritmo 
de publicações é bem menos intenso. Você viu que uma média de 10,8 artigos publicados por 
ano pode não refletir o verdadeiro rendimento acadêmico desse professor e, portanto, resolveu 
calcular a mediana. O resultado obtido foi 4 artigos por ano. E agora, qual dos dois valores 
você acha que melhor representa o rendimento acadêmico do professor Petros? Dado que você 
identificou um valor atípico e que tem informações a respeito desse valor, parece que a mediana 
pode representar melhor o rendimento dos professores. Outra estratégiapoderia ser retirar o 
valor atípico e tentar novamente utilizar a média.
3.1.2 Média, mediana, moda e distribuição
Outro descritor que pode ser utilizado para resumir os dados é a moda. A moda é igual ao va-
lor, ou intervalo de valores, mais frequente em um conjunto de dados. A moda é muito fácil de 
identificar em histogramas e polígonos de frequência, bastando apenas localizar o ponto mais 
alto da função ou o retângulo mais alto. 
As distribuições de frequência obtidas em pesquisas e trabalhos no âmbito do serviço social ra-
ramente são 100% simétricas. Se o grau de assimetria for muito grande, então a média já não 
resumirá nosso conjunto de dados de forma correta. 
Em distribuições simétricas (figura 1-b), a média, a moda e a mediana são iguais. Já distribuições 
assimétricas possuem médias deslocadas na direção da cauda mais longa, e a mediana tende a 
permanecer entre a média e a moda (figuras 1-a e 1-c). 
(a) Inclinação negativa
μ μ~
(c) Inclinação positiva
μ μ~
(b) Simétrica
μ = μ~
Figura 1 – Três distribuições populacionais e suas respectivas medidas de ten-
dência central. A posição da moda é indicada pelas setas.
Fonte: Adaptada de Devore, 2014
Quando se deve realmente usar a média ou a mediana ou até mesmo a moda como medida de 
posição central? O coeficiente de assimetria de Pearson vai dizer se essa distribuição pode ser 
considerada simétrica, assimétrica moderada ou assimétrica forte (AMARO; SILVESTRE; FERNAN-
DES, 2009). O coeficiente de assimetria de Pearson (A) é dado pela razão da diferença entre a 
média (x) e a mediana ( ) pelo desvio padrão (S):
A =
x – 
S
11
A classificação do grau de assimetria é dada pelo módulo de A:
A < 0,15 = distribuição simétrica;
0,15 ≤ A < 1,00 = distribuição assimétrica moderada;
A ≥ 1 = disribuição assimétrica forte. 
Karl Pearson foi um cientista e matemático inglês precursor das disciplinas de estatística 
e bioestatística. Pearson (Londres, 1857-1936) também se destacou como historiador e 
é tido como um dos grandes pensadores de sua época. Sua obra teve grande influência 
nos trabalhos de Albert Einstein (VILLEGAS, 2009).
VOCÊ O CONHECE?
Quartil, decil e percentil
A fim de obter medidas de localização que descrevam melhor uma distribuição de valores, 
podemos dividir os dados em mais de duas partes iguais. Da mesma forma que a mediana, os 
quartis, decis e percentis são medidas de posição que dividem os dados, porém de forma mais 
detalhada. Os quartis dividem o conjunto de dados em quatro partes iguais, os decis em dez 
partes iguais e os percentis em cem partes iguais, o que nos dá três quartis, nove decis e 99 
percentis, respectivamente. 
O primeiro quartil separa os primeiros 25% dos dados dos 75% restantes, o segundo quartil se-
para os primeiros 50% dos dados dos 50% maiores, ou seja, divide a série no meio assim como 
a mediana, e o terceiro quartil divide os 75% primeiros valores dos 25% maiores que restam. De 
forma análoga, o primeiro decil divide os primeiros 10% dos valores da distribuição dos 90% 
maiores, o segundo divide os primeiros 20% dos 80% superiores e assim por diante. Da mesma 
maneira, o primeiro percentil divide os primeiros 1% dos dados dos 99% maiores. 
O cálculo dos quartis, decis e percentis pode ser realizado a partir das três equações dadas a 
seguir, sendo n o número de dados da amostra; i o índice nesse caso do quartil; PQ, quartil; PD, 
decil e PC, percentil:
PQi =


n 
 × i , PDi =


n 
 × i , PCi =


n 
 × i4 10 100
Veja um exemplo: para uma distribuição de 1.000 valores, a posição do 3º quartil, do 9º decil 
e do 20º percentil serão, respectivamente:
PQ3 =


1.000 
 × 3=750 , PD9 =


1.000 
 × 9=900 , PC20 =


1.000 
 × 20=2004 10 100
Após calcular a posição dos quartis, decis e percentis, localiza-se na tabela de dados ordenados 
qual é o índice do elemento. Veja que as equações anteriores fornecem a posição (i) do elemento 
na qual ocorre a divisão dos dados. Suponha que, no exemplo anterior, ao calcular o percentil, 
verificamos que, no elemento cujo índice i=200, a variável assume um valor igual a 10 mil. En-
tão, o valor do 20º percentil será 10 mil. Com esse resultado, sabe-se que, nos dados, 20% dos 
valores encontram-se abaixo de 10 mil e 80% acima de 10 mil. Suponha agora que o resultado 
do cálculo do 3º quartil, que lhe fornece um índice ou posição igual a 750, fosse o elemento 
12 Laureate- International Universities
Estatística
cujo valor é 10 mil. Nesse caso, dado que os quartis dividem a distribuição em 4 partes iguais, 
você saberia que 75% dos valores estão abaixo de 10 mil e que 25% dos valores estão acima 
de 10 mil.
Em caso de valores fracionados, utiliza-se a média dos elementos mais próximos. Por exemplo, 
no caso da posição 1,5, você fará a média dos valores do primeiro elemento com o segundo. 
De forma similar, no caso da posição 12,5, fará a média dos valores do décimo segundo e do 
décimo terceiro elementos.
NÃO DEIXE DE VER...
A videoaula do professor Matusalém Martins sobre quartis e percentis lhe ajudará a 
fixar este conteúdo. O vídeo pode ser acessado no endereço <https://www.youtube.
com/watch?v=szKwOaWY-Nk>.
Média aparada
A média é muito sensível a um outlier único, e a mediana é insensível à presença de muitos 
outliers. Como essas características extremas das duas medidas são indesejáveis em uma análise 
mais precisa, podemos utilizar uma medida que não é tão excludente dos extremos quanto a 
mediana nem tão permissiva quanto a média. Essa medida é chamada de média aparada. Uma 
média aparada é uma medida intermediária entre a média e mediana; nela, escolhemos qual 
é o percentil de valores que desejamos desprezar nos extremos superior e inferior do conjunto 
de dados. Por exemplo, uma média aparada de 20% significa que estamos calculando a média 
desprezando os 20% superiores e 20% inferiores da distribuição de dados, obtendo, então, a 
média do restante.
Saiba como usar as médias aparadas no artigo A média aparada assimétrica como 
indicador de tendência da inflação, de Marques e Mota (2000), no qual os autores 
apontam esse método como indicadores de tendência de inflação.
NÓS QUEREMOS SABER!
3.1.3 Medidas de dispersão
As medidas de posição não são suficientes para descrever o comportamento de uma série de 
valores e também se faz necessário entender como esses valores variam em torno de um valor 
central. A medida de dispersão e variabilidade dos dados mais simples a ser utilizada é a ampli-
tude. Veja a seguir.
Amplitude
A amplitude (A) total, ou como também é chamada, o range, é a diferença entre o maior e o 
menor valor do conjunto de dados. A amplitude da distribuição de uma variável x com extremos 
inferior (xn) e superior (x1) é dada por:
A = xn – x1
13
Suponha que, em um terminal rodoviário urbano, é computado o número de pessoas que utili-
zam três linhas de ônibus e que os embarques ocorrem de hora em hora. O gerente da empresa 
solicita um relatório técnico que lhe auxilie em algumas tomadas de decisão. A Tabela 2 apre-
senta os registros de embarques em um período de 13 horas para três linhas de ônibus, linha 1, 
linha 2 e linha 3.
Hora Embarques linha1 Embarques linha2 Embarques linha3
1 5 20 5
2 10 29 53
3 7 25 53
4 8 22 55
5 9 25 54
6 14 22 56
7 35 23 55
8 44 26 55
9 70 28 52
10 18 29 57
11 50 29 50
12 44 30 70
13 65 22 50
Tabela 2 – Registro do número de embarques em 3 linhas de ônibus por um período de 13 horas.
Fonte: Elaborada pelo autor, 2015.
Comece pela linha 1. Primeiramente, ordene os dados do menor para o maior valor:
5 7 8 9 10 14 18 35 44 44 50 65 70
E então aplique a equação A = xn – x1, como n=13, temos que A = x13 – x1 = 70 – 5, assim a 
linha 1 apresenta uma amplitude A = 65 embarques. Ocálculo da amplitude para o número 
de embarques das linhas 2 e 3 é A=10 e A=65, respectivamente. Fica claro que a linha 2 apre-
senta menor variabilidade do que a linha 1 ao longo das 13 horas. Isso significa que os dados 
referentes ao número de embarques da linha 2 são muito mais homogêneos, apresentam pouca 
variabilidade. Mas a amplitude não diz muito sobre o que acontece entre os extremos. Veja que 
a distribuição de dados das linhas 1 e 3 possui a mesma amplitude, mas a variabilidade na dis-
tribuição da linha 3, na verdade, é muito menor. O gerente da empresa de transporte não ficou 
muito satisfeito com o relatório apresentado e pede ao técnico que forneça mais informações 
sobre os embarques na plataforma. Vamos tentar descrever melhor a variabilidade dos dados?
Desvio médio
Suponha que, em uma determinada empresa, há 1 mil empregados e que cada um deles tem 
3 filhos. Não importa o setor ou o salário. Todos têm 3 filhos. Nesse caso, qualquer cálculo da 
média do número de filhos teria como resultado o número 3, e o desvio de cada valor em relação 
à média seria zero. Por outro lado, se apenas 10 funcionário tivessem 4 filhos, e 10 funcionários 
tivessem 2 filhos, a média ainda seria um valor muito próximo de 3 (3,02). A média por si só 
não diz muito a respeito dos dados e se faz necessário ter uma ideia de quão longe da média se 
encontram nossos dados. Para isso, pode-se calcular o desvio de cada valor em relação à média. 
14 Laureate- International Universities
Estatística
x1 – x, x2 – x, x3 – x, ... , xn – x
A partir de então, você teria outros 1.000 valores referentes aos desvios de cada valor. Isso seria 
pouco prático, de modo que vamos resumir essa informação calculando a média dos desvios. O 
problema é que a média da soma dos desvios sempre será igual a zero. Isso acontece por-
que, ao somar os desvios negativos (abaixo da média) e os desvios positivos (acima da média), 
os valores se anulam. Para evitar esse problema, antes de efetuar a soma, vamos elevar cada 
desvio ao quadrado. Lembre-se de que o resultado de qualquer número negativo elevado a uma 
potência par será sempre um número positivo. Agora sim você pode mensurar quanto, em média, 
os dados se distanciam de um valor central. Esse valor é conhecido como variância.
Variância
A variância representa a média dos desvios quadráticos de um conjunto de dados em relação à 
média. Lembre-se de que você não está interessado em conhecer o desvio de cada um dos da-
dos, mas, sim, em obter um valor que possa resumir os desvios quadráticos de todos os dados. 
Por isso, calculou uma média. Para o cálculo da variância, precisará primeiramente calcular os 
desvios quadráticos de cada um dos valores em relação a um valor central, ou seja, a distância 
de cada elemento em relação à média do conjunto:
(x1 – x)
2,(x2 – x)
2,(x3 – x)
2, ... ,(xn – x)
2
Agora sim você pode resumir os valores individuais e obter a média dos desvios quadráticos de 
todo o conjunto de dados, de modo que vai dividir o total da soma pelo número de elementos do 
conjunto de dados. A variância da população (σ2) é igual ao somatório dos desvios quadráticos 
dividido pelo número de elementos do conjunto de dados. 
σ2 =
∑ n
i=1 (xi – x)
2
N
Ok, você já tem uma informação que resume a variabilidade dos dados em torno de um valor 
central. Para que possa obter essa informação nas mesmas unidades dos dados originais, extraia 
a raiz quadrada dessa média. Esse valor é conhecido como desvio padrão. Para o cálculo da 
variância da amostra, o denominador deve ser n - 1. 
Ao calcular estatísticas sobre uma amostra, tem-se interesse em generalizar os dados para toda 
a população. Ao substituir o denominador N por n - 1, você obterá um valor mais aproximado 
da variância populacional. Dizemos que o cálculo da variância amostral possui n - 1 graus de 
liberdade.
Estatística aplicada à química: dez dúvidas comuns, de Passari, Soares e Bruns (2011), 
no qual os autores apresentam de forma detalhada a influência dos graus de liberdade 
no cálculo de estatísticas. Boa leitura!
NÃO DEIXE DE LER...
15
Desvio padrão
O desvio padrão é o resultado da raiz quadrada da variância e, no caso da população, é repre-
sentado pela letra grega sigma (σ): 
σ = σ2 = 
∑ n
i=1 (xi – x)
2
N
Para o cálculo do desvio padrão da amostra, o denominador deve ser n - 1.
A seguir, tome novamente o exemplo do transporte público, só que nesse momento se quer des-
crever como é a variação média do número de passageiros que embarcam nas 13 chegadas e 
partidas. Comece pela linha 1.
O primeiro passo é calcular a média da série de valores, 
x =
∑ 13
i=1 xi =
5+10+7+8...+65
=
379
, simplificando o resultado na primeira casa decimal, 
13 12 12
temos que x = 31,6 a cada hora.
O segundo passo é calcular os desvios em relação à média. Para organizarmos os cálculos, uti-
lizamos a Tabela 3 com os dados levantados e mais duas colunas adicionais, uma com desvios 
em relação à média e outra com os desvios quadráticos.
Hora Quantidade de passageiros 
que embarcam no terminal
Desvio em relação 
à média
Desvio quadrático 
em relação à média
1 5 -24.2 583.4
2 10 -19.2 366.9
3 7 -22.2 490.8
4 8 -21.2 447.5
5 9 -20.2 406.2
6 14 -15.2 229.6
7 35 5.8 34.2
8 44 14.8 220.4
9 70 40.8 1668.4
10 18 -11.2 124.4
11 50 20.8 434.6
12 44 14.8 220.4
13 65 35.8 1284.9
Tabela 3 – Embarques no terminal e desvios em relação à média.
Fonte: Elaborada pelo autor, 2015.
16 Laureate- International Universities
Estatística
Agora que temos todos os desvios quadráticos, podemos calcular a variância:
S2 =
∑ n
i=1 (xi – x)
2
= 500.9
n
O desvio padrão é dado por:
σ = s2 = 500.9 = 22,4
Mas como interpretar esses valores? Pois bem, a conclusão é que o número de passageiros por 
viagem na linha 1 é, em média, igual a 29,2 pessoas, e que a variação média em torno desse 
valor central é σ =22,4. Dependendo do horário, podemos observar 29,2 (±22,4) embarques. 
O desvio padrão da linha 3 é σ =14,7 e da linha 2 σ =3,3. Ou seja, o número de embarques 
na linha 3 é mais homogêneo mesmo apresentando a mesma amplitude que a linha 1. Podemos 
imaginar que o gerente da empresa, ao receber essa informação, entende que o relatório enviado 
pelo técnico agora está mais consistente e que apresenta informações relevantes sobre os embar-
ques na plataforma. Esta é uma situação hipotética para efeitos apenas ilustrativos. Se um estudo 
similar fosse levado a cabo, deveria ser realizado um delineamento experimental adequado.
A fim de melhorar os serviços da empresa e otimizar os custos, será necessário identificar os perí-
odos nos quais o fluxo de passageiros é, em média, mais intenso na linha 1. Aproveite essa tarefa 
como exercício. A partir da média, construa dois grupos: “muito intenso” e “pouco intenso”. Para 
cada um dos grupos, calcule a média, a variância e o desvio padrão. A partir desse novo relató-
rio, será possível montar uma estratégia para melhor atender os passageiros sem comprometer 
os custos da empresa?
As estatísticas da amostra e os parâmetros da população não são representados da mesma forma. 
O quadro apresenta a notação utilizada para estatísticas da amostra e parâmetros da população.
Amostra População
Número de elementos n N
Variância S2 σ2
Desvio padrão S σ
Quadro 1 – Notação utilizada para estatísticas da amostra e parâmetros da população.
Fonte: Elaborado pelo autor, 2015.
3.2 Representações gráficas
Você aprendeu como é possível realizar uma coleta de dados. Muito bem, depois de finaliza-
dos os processos de amostragem, o pesquisador possui um montante de dados para analisar. E 
agora, que caminho seguir? Já é possível apresentar algum resultado? Antes de tecer qualquer 
suposição a respeito do seu fenômeno de estudo, você começará a explorar os dados.Nesse 
ponto, é importante que você se atenha apenas às informações que podem ser extraídas dos 
dados sem tirar conclusões precipitadas ou distorcidas. A seguir, você verá o passo a passo de 
como proceder.
17
3.2.1 O que é um dado discrepante?
Dados discrepantes são valores atípicos que interferem na simetria de nossas distribuições. Mas 
como saber se um determinado dado é discrepante ou não? Barbetta (2014) apresenta a seguin-
te forma de cálculo para identificação de valores discrepantes:
Primeiramente calcula-se o desvio entre quartis, restando o quartil superior menos o quartil in-
ferior (DQ = Qs - Qi). Qualquer valor acima de DQ*1,5 + Qs pode ser considerado um dado 
discrepante. De forma análoga, qualquer valor abaixo de DQ*1,5-Qi também pode ser consi-
derado um valor discrepante. A Figura 2 mostra uma distribuição simétrica e uma distribuição 
assimétrica delimitadas pelos intervalos quartílicos. As linhas pontilhadas representam os valores 
DQ*1,5 acima e abaixo dos quartis superior e inferior, respectivamente. O ponto isolado à direi-
ta da distribuição assimétrica representa um valor discrepante.
25%
25%
25%
25%
25%
25%
25%
25%
Qi QsQi Qs
Figura 2 – Distribuições simétrica (esquerda) e assimétrica (direita) e seus respectivos intervalos interquartíli-
cos. As duas distribuições foram divididas em 4 partes iguais. A linha reta representa o intervalo DQ=Qs-Qi, 
as linhas pontilhadas representam as distâncias DQ*1,5 além de Qi e Qs e o ponto isolado representa um 
dado discrepante. Repare como 50% dos dados encontram-se entre o quartil inferior e o quartil superior.
Fonte: Adaptada de Barbetta (2014).
Uma vez identificados, o que fazer com dados discrepantes? Antes de responder a essa pergunta, 
tente descobrir por que motivo nossos dados apresentam esse tipo de valores. Uma das causas 
muito recorrentes é algum tipo de erro de coleta, inserção ou processamento de dados. Digamos 
que, ao estudar a temperatura média das salas de uma maternidade, você encontre um valor 
de 125°C. Muito provavelmente, o valor correto é 25°C, mas, devido a um erro de digitação ou 
processamento, esse valor acabou aparecendo nos dados. Nesse caso, o certo é eliminar esse 
valor e refazer as análises. 
Outra causa recorrente é falha no equipamento de coleta. O termômetro da maternidade apre-
sentou uma falha e, para um determinado instante, registrou uma temperatura incorreta. Falhas 
também podem ocorrer ao registrar ou responder perguntas de um questionário. Também nesses 
casos é comum retirar os valores discrepantes. 
Por outro lado, dados atípicos não são necessariamente sinônimo de erro. Digamos que um 
aquecedor muito potente foi posicionado por alguns instantes logo abaixo do termômetro da 
maternidade no momento do registro. Ou que o entrevistado realmente possui uma característica 
diferenciada em relação aos demais entrevistados. Nesses casos, os dados podem permanecer 
com os demais ou podem ser retirados e analisados separadamente. Também existe a possibi-
lidade de descarte, caso seja do interesse do pesquisador. Independentemente do motivo que 
originou esses dados atípicos e do destino que lhes será outorgado, é sempre importante dedicar-
-lhes um pouco de atenção e deixar registrada sua ocorrência. Lembre-se: outliers podem ser 
descartados, analisados separadamente ou mantidos com o restante dos dados originais.
18 Laureate- International Universities
Estatística
3.2.2 Diagrama boxplot
Tome como exemplo um estudo hipotético que visa a descrever o estado de saúde dos funcioná-
rios de uma determinada empresa. A fim de obter um panorama geral da saúde dos funcionários, 
os agentes de serviço social levaram em conta uma série de aspectos, entre os quais o consumo 
de qualquer tipo de medicamento que os funcionários ingerem por ano. Cem funcionários res-
ponderam um questionário, no qual foi computado o número total de ingestões de medicamen-
tos por ano. As medidas descritivas dos dados coletados são apresentadas no Quadro 2. 
Extremo 
inferior
Quartil 
inferior Mediana Média Desv. P.
Quartil 
superior
Extremo 
superior
35 55 60 60 7 64 75
Quadro 2 – Medidas descritivas referentes aos dados de consu-
mo de medicamentos pelos funcionários da empresa.
Fonte: Elaborado pelo autor, 2015.
Já é possível identificar algumas características dos dados coletados. Agora você sabe que todos 
os funcionários ingeriram algum tipo de medicamento e que o número mínimo é de 35 inges-
tões. Também é possível observar que aqueles que mais consumiram medicamentos o fizeram 
75 vezes. Dado os valores dos quartis inferior e superior, fica claro que 50% dos funcionários 
consumiram medicamentos 55 a 64 vezes, que 25% dos funcionários consumiram medicamentos 
entre 35 e 55 vezes e, ainda, vemos que outros 25% consumiram medicamentos entre 64 e 75 
vezes no último ano.
Como a média e a mediana apresentam o mesmo valor, nossa distribuição de dados é simétrica, 
portanto, é possível estimar um consumo médio de 60 ingestões (±7) no último ano. A discussão, 
nesse momento, não gira em torno de um valor aceitável de ingestões de medicamentos pelos 
funcionários em um determinado intervalo de tempo. 
A seguir, observe os dados sob outra perspectiva. Os dados referentes ao consumo de medicamen-
tos pelos funcionários nos últimos 365 dias encontram-se resumidos no histograma da Figura 3.
35
0
5
10
15
20
25
30
40 45 50 55 60 65 70 75
Consumo anual de medicamentos pelos funcionários da empresa
Ingestão de qualquer medicamento
Fr
eq
uê
nc
ia
 (f
un
ci
on
ár
io
s)
Figura 3 – Histograma gerado a partir dos dados de consumo total de medi-
camentos pelos funcionários da empresa durante o último ano.
Fonte: Elaborada pelo autor, 2015.
19
Um histograma permite ter uma ideia mais clara a respeito da distribuição dos dados. O gráfico 
mostra que a distribuição é unimodal e que, portanto, os dados decrescem a partir de um único 
pico. Lembre-se de que, no caso de distribuições bimodais ou multimodais, medidas descritivas 
como médias devem ser utilizadas com muita cautela. Nossa distribuição é simétrica em torno 
de um valor central, muito embora haja uma tendência com uma cauda um pouco mais longa à 
esquerda. Em função dessa tendência, podemos pressupor a existência de dados discrepantes. 
Ainda, a relação entre a frequência e os extremos descreve uma curva muito próxima de uma 
curva gaussiana, sendo este último aspecto muito importante para o cálculo de probabilidades.
Uma informação interessante é que aproximadamente 20 funcionários consumiram medicamen-
tos entre 65 e 70 vezes. Essa informação poderia ter sido extraída dos dados calculando os decis, 
porém de uma forma muito menos explicativa.
Você viu que os funcionários consomem medicamentos, em média, 60 vezes ao ano. 
Isso resulta, em média, 1,16 ingestões de medicamentos por semana. Ou, ainda, 15 
ingestões trimestrais. Você acredita que essas médias podem ser úteis para descrever o 
comportamento dos funcionários em relação ao consumo de medicamentos? De fato 
não, pois nossa unidade de tempo é o ano. Imagine funcionários que consomem em 
média 60 medicamentos ao ano, mas em uma semana. Esses indivíduos não aparecem 
nos dados. Para tal, deveríamos calcular médias semanais. Cuidado com médias!
NÓS QUEREMOS SABER!
Com base nas informações extraídas a partir do histograma e de algumas medidas descritivas, 
foi possível obter um panorama da relação dos funcionários com o consumo de medicamentos 
durante o período avaliado. Agora vamos apresentar outra forma gráfica muito utilizada para 
descrever o comportamento de dados.
O boxplot ou diagrama de caixas é um gráfico muito utilizado para resumir características como 
centro, dispersão, extensão dos desvios em relação à simetria e dados discrepantes (DEVORE, 
2014). Vamos dar umaolhada na estrutura desse tipo de gráfico. Um retângulo representa o 
intervalo entre o quartil inferior e o quartil superior que contém 50% dos dados mais próximos do 
centro da distribuição. O retângulo é dividido de forma transversal pela mediana que separa a 
distribuição em duas partes contendo 50% dos dados. Em alguns casos, quando a média é utili-
zada em detrimento da mediana, deve haver uma indicação na legenda ou na própria figura que 
contém o gráfico. De forma geral, diagramas de caixas utilizam a mediana por não ser sensível 
a dados discrepantes. 
Das extremidades do retângulo, partem duas retas que se estendem até os limites superior e infe-
rior da distribuição ou DQ*1,5 além dos quartis inferior e superior. Neste último caso, os outliers 
são representados por pontos ou asteriscos. A Figura 4 apresenta um gráfico do tipo boxplot do 
consumo de medicamentos pelos funcionários da empresa objeto de nosso estudo. 
20 Laureate- International Universities
Estatística
40
In
ge
st
õe
s 
po
r a
no
50
60
70
Consumo anual de medicamentos
Figura 4 – Boxplot referente ao consumo de medicamentos por fun-
cionários de uma empresa pelo período de um ano.
Fonte: Elaborada pelo autor, 2015.
A caixa nos mostra que 50% dos dados se distribuem em torno do valor 60. A mediana encontra-
-se no meio da caixa indicando uma distribuição simétrica, e as linhas pontilhadas (bigodes) 
mostram caudas nem muito longas nem muito estreitas. Caudas relativamente curtas e distri-
buição simétrica nos permitem utilizar o valor da média igual a 60 como medida de tendência 
central. Os bigodes representam 25% acima e abaixo do intervalo interquartílico que delimita 
50% dos dados centrais, e uma pequena circunferência indica que há um dado discrepante à 
esquerda (abaixo) da distribuição. Esta é uma das características mais importantes de um gráfico 
de caixas. Ele nos fornece uma informação visual muito clara sobre a existência de dados discre-
pantes e sua relação com os demais valores de nosso conjunto de dados. 
Em função da simplicidade e da relevância das informações fornecidas, gráficos de caixa tam-
bém podem ser muito úteis para comparar dois ou mais conjuntos de dados. Vamos supor que a 
empresa ficou muito satisfeita com a pesquisa sobre a saúde de seus funcionários e publicou os 
resultados. Outra empresa ficou muito interessada e contratou a equipe de serviço social, mas, 
dessa vez, para um monitoramento por um período de 6 anos. Medidas descritivas referentes ao 
resultado do monitoramento no primeiro e segundo ano encontram-se no Quadro 3. 
Extremo 
inferior
Quartil 
inferior Mediana Média Desv. P.
Quartil 
superior
Extremo 
superior
Ano 1 36 72 81 81 14 89 130
Ano 2 0 80 84 76 26 88 99
Quadro 3 – Medidas descritivas referentes ao monitoramento de saú-
de dos funcionários realizado por um período de 6 anos.
Fonte: Elaborado pelo autor, 2015.
A partir do Quadro 3, você pode ver que os extremos do ano 1 apresentam valores mais elevados 
do que ano 2. O intervalo interquartílico do ano 1 é maior, portanto, no ano 1, a distribuição de 
50% dos dados em torno da mediana deve ser maior. O ano 2 apresenta um grau de assimetria 
com cauda mais longa à esquerda. Veja que a mediana é 8 unidades maior que a média. A mé-
dia dos dois conjuntos de dados nos diz que o consumo de medicamentos foi um pouco maior no 
primeiro ano. Você concorda? Vamos dar uma olhada no boxplot dos dados (Figura 5).
21
1
0
20
40
60
In
ge
st
õe
s 
po
r a
no 80
10
0
12
0
2
Consumo anual de medicamentos
Figura 5 – Gráficos boxplot referentes ao monitoramento da saúde de funcionários de uma empresa.
Fonte: Elaborada pelo autor, 2015.
A partir dos gráficos, fica mais fácil comparar os dois conjuntos de dados. Lembre-se de que o 
valor da média de consumo no ano 1 é maior, mas, de acordo com o gráfico, o consumo parece 
ter aumentado. De fato, o valor da mediana do ano 2 (=84) é um pouco maior que o valor da 
mediana do ano 1 (=81). No gráfico, fica fácil entender que a média foi influenciada por um 
conjunto de dados discrepantes com valores muito baixos. Parece que algumas pessoas no ano 2 
não consumiram remédio algum, mas uma grande quantidade de funcionários aumentou o con-
sumo de medicamentos. Se desconsiderarmos os outliers, a dispersão dos dados no segundo ano 
é muito menor, portanto, indica que há maior uniformidade no comportamento dos funcionários 
em relação ao consumo de medicamentos.
A Figura 6 apresenta os gráficos de caixa referentes aos 6 anos de monitoramento da saúde dos 
funcionários de uma empresa fictícia. Aproveite a interpretação dos resultados como exercício. 
1
0
50In
ge
st
õe
s 
po
r a
no
10
0
15
0
2 3 4 5 6
Consumo anual de medicamentos
Figura 6 – Gráficos de caixa referentes ao monitoramento da saúde de funcionários de uma empresa.
Fonte: Elaborada pelo autor, 2015.
22 Laureate- International Universities
Estatística
Neste tópico, você aprendeu algumas ferramentas gráficas que auxiliam na interpretação de 
conjuntos de dados. Uma das principais regras da estatística é: coloque seus dados no gráfico 
(THURMAN, 2014). Lembre-se de que uma imagem diz mais do que mil palavras; que muitos 
detalhes podem passar despercebidos em planilhas; e que textos saltam aos olhos quando apre-
sentados na forma de gráficos. Na estatística, um é pouco, dois é bom e três é melhor ainda. 
Sendo assim, procure apresentar seus dados de várias formas. Faça cálculos e apresente seus 
resultados na forma de gráficos, quadros, esquemas e tabelas. Dessa forma, você verá que é 
possível realizar descobertas incríveis. Uma boa descrição dos dados também permite realizar 
ajustes, identificar e corrigir erros antes de tornar público nosso trabalho.
Qual é o software mais indicado para análises de dados? Atualmente há muitos sof-
twares que oferecem a possibilidade de analisar dados. Claramente, cada um deles 
apresenta vantagens e desvantagens. O software “R” constitui uma ferramenta com-
putacional robusta e cada vez mais utilizada em todo o mundo. Esse tipo de software 
apresenta certo grau de dificuldade para iniciantes, mas, se houver um pouco de per-
sistência, você realmente ficará surpreso com as possibilidades que o software oferece. 
E mais, é gratuito. Para mais informações, acesse o site: <http://www.r-project.org/>.
NÓS QUEREMOS SABER!
23
Síntese
Você concluiu este capítulo, em que:
•	 conheceu as principais ferramentas estatísticas que permitem descrever distribuições em 
relação a medidas de posição central e dispersão de dados;
•	 entendeu que, no âmbito da estatística, a notação matemática está muito presente, 
conforme você viu na breve revisão de somatório;
•	 aprendeu a calcular as medidas de posição mais recorrentes em estudos estatísticos a 
partir de alguns exemplos;
•	 viu que, de acordo com a forma da distribuição de dados e com a ocorrência de dados 
atípicos, é preferível utilizar uma ou outra medida de posição central, compreendendo 
que médias são mais indicadas quando temos distribuições simétricas, ao passo que a 
moda e a mediana são mais indicadas para distribuições assimétricas de caudas longas;
•	 aprendeu a identificar, a partir do coeficiente de assimetria de Pearson, quando uma 
distribuição é – ou não – assimétrica, bem como seu grau de assimetria, entendendo que 
isso também pode ser feito de forma preliminar por meio de gráficos, como polígonos de 
frequências, histogramas e gráficos de caixas;
•	 reconheceu o cálculo de amplitude como uma forma preliminar de entender a distribuição 
de dados, e também que é possível obter maior detalhamento por meio do cálculo de 
quartis, decis e percentis;
•	 conheceu algumas técnicas que permitem explicar a distribuição dos dados em torno 
de valores centrais, além dosconceitos de desvio que representam a distância de cada 
elemento em relação à média, variância, que é o desvio quadrático, e desvio padrão, que 
é a raiz quadrada da variância; 
•	 estudou a metodologia objetiva para a identificação de dados discrepantes e como esses 
dados podem influenciar distribuições e medidas de posição central. Também viu que, na 
presença de outliers, o pesquisador deve ter cuidado na interpretação dos dados e que, 
em alguns casos, é importante remover esses outliers e tornar a fazer as análises;
•	 por fim, aprendeu que uma das regras básicas da estatística é sempre plotar os dados. 
Gráficos fornecem informações de forma muito clara e ilustrativa e, por isso, foram 
apresentados alguns gráficos que permitem descrever as medidas apresentadas ao longo 
do capítulo. Finalizamos com o gráfico de barras, que fornece informações relevantes a 
respeito da distribuição, range, mediana e quartis de um conjunto de dados. Os conceitos 
abordados constituem a base da análise de dados e são imprescindíveis para qualquer 
profissional da área do serviço social, que cada vez mais é impelido a confeccionar e 
interpretar informações na forma de estatísticas e representações gráficas.
Síntese
24 Laureate- International Universities
Referências
AMARO, A.; SILVESTRE, C.; FERNANDES, L. Estatística descritiva. O segredo dos dados. 1. 
ed. Lisboa: Editora Lulu, 2009. 114 p.
BARBETTA, P. A. Estatística aplicada às ciências sociais. ed. 9. Florianópolis: UFSC, 2014.
DEVORE, J. L. Probabilidade e estatística para engenharia e ciências. 6. ed. São Paulo: 
Cengage Learning, 2011.
HOEL, P. G. Estatística elementar. São Paulo: Atlas, 1980.
KIRSTEN, J. T.; ALVES, V.; PEREIRA, W. Estatística para as ciências sociais: teoria e aplicações. 
São Paulo: Saraiva, 1980.
KUADRO. Videoaula: somatório. Vídeo, 4’30’’. Disponível em: <http://kuadro.querobolsa.
com.br/videoaula/matematica/probabilidade-e-estatistica/somatorio>. Acesso em: 26 jun. 
2015.
MARQUES, C. R.; MOTA, J. M. A média aparada assimétrica como indicador de tendência da 
inflação. Banco de Portugal, Boletim económico, set. 2000. Disponível em: <http://www.
bportugal.pt/pt-PT/BdP%20Publicaes%20de%20Investigao/AB200005_p.pdf>. Acesso em: 29 
jun. 2015.
PASSARI, L. M. Z. G.; SOARES, P. K.; BRUNS, R. E. Estatística aplicada à química: dez dúvidas 
comuns. Química Nova, São Paulo, v. 34, n. 5, p. 888-892, ago. 2001.
ROSLING, H. O prazer da estatística. Documentário, 59’22’’. Disponível em: <https://www.
youtube.com/watch?v=xLr68J2yDJ8>. Acesso em: 5 jul. 2015.
SPIEGEL, M. R. Estatística. 3. ed. São Paulo: Makron Books (Coleção Schaum), 1993. 639 p.
THURMAN, P. W. Estatística. São Paulo: Editora Saraiva, 2014.
VILLEGAS, M. A. G. Karl Pearson, el creador de la estadística matemática. In: Historia de la 
probabilidad y la estadística (IV). Huelva: Universidad de Huelva, 2009.
Bibliográficas

Mais conteúdos dessa disciplina