Buscar

Estatística Descritiva para Ciência de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 35 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística descritiva para ciência de 
dados
Apresentação
Atualmente, vive-se na era da informação e cercado de dispositivos conectados que geram grandes 
volumes de dados diariamente. Esses dados estão presentes na rotina das empresas, que cada vez 
mais buscam por metodologias que sejam capazes de armazená-los e processá-los em busca de 
informações para agregar valor a um negócio. Com isso, a ciência de dados, área do conhecimento 
voltada para o estudo e a análise dos dados com o objetivo de detectar padrões e extrair 
informações, tem sido aplicada nos setores de produção, vendas, marketing, comunicação, 
financeiro e jurídico de empresas de diferentes ramos.
Para a análise dos dados, os cientistas de dados usam a estatística como uma das principais 
ferramentas. Na etapa inicial, a estatística descritiva permite avaliar a posição das variáveis por 
meio de métricas como moda, média, mediana, mínimo, máximo e quartis. Além disso, é possível 
analisar a dispersão das variáveis utilizando indicadores como variância, desvio padrão, coeficiente 
de variação, intervalo interquartil e amplitude. Outro recurso muito importante é a análise da 
distribuição de frequência das variáveis por meio de gráficos e tabelas.
Nesta Unidade de Aprendizagem, você vai estudar a correlação entre estatística e ciência de dados, 
entender conceitos sobre distribuição de frequência e variáveis e aprender a interpretar e explicar 
medidas em estatística descritiva.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Descrever a correlação entre estatística e ciência de dados.•
Analisar os conceitos de variáveis e distribuição de frequência.•
Explicar as medidas em estatística descritiva.•
Desafio
Segundo a Agência Nacional de Energia Elétrica (ANEEL), atualmente a taxa de aumento médio no 
preço de energia elétrica por ano é de aproximadamente 2%. Devido a esse constante aumento do 
preço da energia, alguns consumidores começaram a pensar em soluções para reduzir o custo da 
conta de energia elétrica. Investir em um sistema de energia solar é uma opção que exige alto 
investimento inicial e que começa a ter retorno depois de alguns anos. Monitorar o consumo de 
grupos de equipamentos e tentar fazer uma otimização do tempo de uso para gerar economia pode 
ser uma boa opção para quem não quer fazer um alto investimento.
Você, como especialista em estatística descritiva, foi contratado por uma empresa de pequeno 
porte para analisar o perfil de consumo dos equipamentos. O dono da empresa dividiu as cargas em 
três grupos distintos, utilizou medidores que coletavam as informações a cada minuto, fez a coleta 
dos dados por dois dias seguidos e salvou os dados de consumo de energia em um arquivo do Excel 
(consumo.xlsx). 
 
Dados consumo de energia
Faça a estatística descritiva dos três grupos de equipamentos utilizando o Excel ou outro software 
de sua preferência. Apresente as análises de posição (média, moda, mediana e quartis 1.o e 3.o) e 
de dispersão (amplitude, variância, desvio padrão e coeficiente de variação) para os três grupos.
Em seguida, com a finalidade de explicar as medidas da estatística descritiva à empresa, você 
deverá explicar:
a) Qual grupo de aparelhos apresenta maior média de consumo energético?
b) Qual grupo apresenta maior coeficiente de variação?
c) Qual grupo apresenta maior amplitude de energia?
d) Qual grupo permanece mais tempo desligado, ou seja, sem consumir energia? Como você chegou 
a essa conclusão?
https://statics-marketplace.plataforma.grupoa.education/sagah/5cac1cc1-d936-4654-ad06-b3567e1e71fb/5899cf71-3d16-4e41-9da6-869dadb3bccf.xlsx
Infográfico
Atualmente, vive-se a 4.a Revolução Industrial, que é marcada por 
vários dispositivos interconectados gerando e armazenando grandes quantidades de dados a todo 
instante. Isso torna comum trabalhar 
com conjunto de dados cujas variáveis contêm milhares de observações, o que torna impossível 
aplicar os conceitos de estatística descritiva sem o uso de ferramentas computacionais.
No Infográfico a seguir, você vai conhecer o R, o Minitab e o LibreOffice Calc, ferramentas 
computacionais amplamente utilizadas para análise estatística de conjuntos de dados, e seus 
comandos básicos.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/91971b82-4ae8-418c-a14d-20595e72ae36/bc12fd15-ba27-4a26-b73b-90970f0f0a59.png
Conteúdo do livro
A ciência de dados é uma área do conhecimento multidisciplinar que vem sendo cada vez mais 
utilizada por empresas ligadas a diversos setores da economia. Esse aumento de demanda 
relacionado à ciência de dados foi impulsionado não só pelos bons resultados que impactaram nos 
moldes operacionais das empresas, mas também pela evolução da tecnologia, que permite gerar e 
armazenar grandes quantidades de dados.
Responsável por todas as etapas que envolvem o ciclo do uso de dados para agregar conhecimento 
em diversos setores empresariais, a ciência de dados inicia esse ciclo interpretando o problema e 
vai até o retorno de informações obtidas a partir dos dados. Entre as ferramentas utilizadas pela 
ciência de dados, a estatística descritiva é uma das principais, tendo um papel fundamental nas 
etapas de processamento de dados e análise dos resultados.
No capítulo Estatística descritiva para ciência de dados, da obra Introdução à ciência de dados, você 
vai ver a correlação entre estatística e ciência de dados, os conceitos de variáveis e distribuição de 
frequência e as métricas utilizadas em estatística descritiva.
Boa leitura.
 
INTRODUÇÃO 
A CIÊNCIA 
DE DADOS 
Talysson Manoel de Oliveira Santos 
Estatística descritiva 
para ciência de dados
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
  Descrever a correlação entre estatística e ciência de dados.
  Analisar os conceitos de variáveis e distribuição de frequência.
  Explicar as medidas em estatística descritiva.
Introdução
Atualmente, a ciência de dados é uma das áreas do conhecimento mais 
valorizadas por empresas de diferentes ramos de atuação. Entre as fer-
ramentas utilizadas por essa área, os métodos advindos da estatística 
figuram como os principais, tendo um papel fundamental nas etapas 
de processamento de dados e análise dos resultados. 
De forma geral, a estatística é a ciência que apresenta métodos 
próprios para coletar, apresentar e interpretar adequadamente con-
juntos de dados, sejam eles qualitativos ou quantitativos. A estatística 
descritiva — cujo objetivo básico é o de sintetizar um conjunto de 
observações de uma variável — permite que se tenha uma visão global 
sobre a posição e a dispersão desses valores por meio do uso de tabelas, 
gráficos e medidas descritivas.
Neste capítulo, você vai estudar sobre a importância da ciência 
de dados e o motivo pelo qual essa área vem sendo cada vez mais 
solicitada por empresas ligadas a diversos setores da economia. Você 
também vai ler sobre a importância da estatística para a ciência de 
dados, assim como os conceitos de variáveis e distribuição de frequên
cia. Por fim, você vai conhecer as medidas em estatística descritiva e 
ver como extrair informações de tabelas e gráficos que vão auxiliar na 
tomada de decisões a partir dos dados.
1 O que é ciência de dados e como 
se correlaciona com a estatística?
Nas últimas décadas, a tecnologia tem passado por rápidas e constantes 
evoluções. Na Primeira Revolução Industrial, entre 1760 e 1840, o desen-
volvimento da máquina a vapor impulsionou o progresso da indústria têxtil 
e de ferro. Entre 1850 e 1945, a Segunda Revolução Industrial alavancou 
a indústria química, elétrica, de petróleo e de aço. Na Terceira Revolu-
ção, os computadores tiveram a sua capacidade aumentada e tornaram-se 
acessíveis, impactando profundamente na sociedade e nas empresas. Na 
atualidade, estamos vivendo a Quarta Revolução Industrial,na qual diver-
sos dispositivos conectados geram grandes volumes de dados diariamente 
(AMARAL, 2016). 
Por volta de 1980, armazenar dados era um grande desafio, que custava 
caro: cerca de 200 dólares a cada 1 MB. Hoje o avanço tecnológico nos 
permite armazenar grandes quantidades de dados a um preço baixo (AMA-
RAL, 2016). Em função dessa mudança, organizações públicas e privadas 
começaram a buscar metodologias capazes de armazenar e processar essa 
quantidade abundante de dados, a fim de obter informações. Isso mudou 
a maneira de operar das empresas, tornando-as mais ágeis na tomada de 
decisões sustentadas por informações extraídas dos dados (SHARDA; 
DELEN; TURBAN, 2019).
Com essa constante evolução nos moldes operacionais das empresas e a 
busca de informações para agregar valor a um negócio, a ciência de dados 
cresceu muito. Isso ocorreu porque essa área é a responsável por todas as 
etapas do uso de dados, conforme ilustra a Figura 1.
Estatística descritiva para ciência de dados2
Figura 1. Etapas do uso de dados que são atribuições da ciência 
de dados.
Fonte: Adaptada de Amaral (2016).
O primeiro passo realizado pela ciência de dados surge de uma demanda. É 
importante pensar em todas as variáveis que fazem parte do processo e no tipo 
de informação que se deseja extrair. Após entender o problema e determinar 
o tipo de informação desejada e as variáveis que fazem parte do processo, é 
hora de iniciar o segundo passo: coletar os dados. Os dados obtidos nesse passo 
podem ser comprados de empresas especializadas em vendê-los, produzidos ou 
simplesmente coletados de algum banco de dados com acesso aberto.
Os dados coletados são então armazenados. A etapa de armazenamento é 
responsável por garantir a recuperação e a duplicação dos dados. Além disso, 
permite que eles sejam analisados no futuro, mantém informações sigilosas 
em segurança e otimiza o espaço utilizado (AMARAL, 2016).
3Estatística descritiva para ciência de dados
É nas etapas de processar os dados e explorar os resultados que surge 
a correlação entre estatística e ciência de dados. Nessas etapas, o obje-
tivo é buscar e aplicar metodologias adequadas para encontrar padrões, 
extrair informações e interpretar os resultados obtidos a partir da análise 
dos dados. Entre as metodologias mais utilizadas está a estatística, que 
pode ser definida como parte da matemática aplicada que estuda maneiras 
de organizar, descrever e interpretar dados de forma sistemática (SILVA; 
GRAMS; SILVEIRA, 2018). Nos passos seguintes, o cientista de dados é 
responsável por comunicar os resultados e retornar informações para a 
etapa de entendimento do problema.
A estatística é uma ferramenta da ciência de dados que se divide em três 
grandes áreas (SILVA; GRAMS; SILVEIRA, 2018):
  estatística descritiva;
  inferência estatística;
  estatística probabilística.
A estatística descritiva é a primeira etapa da análise de dados, ou 
seja, é responsável por descrever e resumir os dados por meio de gráficos, 
tabelas e números. A estatística inferencial interpreta os indicadores da 
estatística descritiva para inferir eventos prováveis, fundamentados pelas 
características dos dados. A estatística probabilística analisa a proba-
bilidade de um evento ocorrer e atribui o grau de incerteza associado à 
sua ocorrência.
Na próxima seção, você vai aprender a analisar conceitos de variáveis e 
distribuição de frequência, que são termos comuns da estatística descritiva.
2 Conceitos de variáveis e distribuição 
de frequência
A estatística descritiva está ligada à análise inicial dos dados. A partir do 
seu uso, é possível avaliar como as observações se distribuem, onde estão 
concentradas e como estão em termos de associação e dispersão (ZABALA, 
2020). Na sequência, você vai aprender conceitos de variáveis e de métodos 
descritivos, que são a base para análises estatísticas mais avançadas.
Estatística descritiva para ciência de dados4
Variáveis
Variável é uma característica de interesse que é mensurada em cada indivíduo 
da população. Os seus valores variam entre os indivíduos, podendo ser numé-
ricos ou não numéricos. As variáveis quantitativas são as características que 
podem ser medidas utilizando valores numéricos, como número de alunos na 
classe de cálculo ou peso de uma pessoa. As variáveis qualitativas representam 
as características não numéricas dentro de um conjunto de interesse, como 
marca, modelo de veículos e gênero (ZABALA, 2020).
As variáveis quantitativas podem ser classificadas como contínuas ou discretas:
  Variáveis contínuas – características mensuráveis que assumem valores 
em uma escala contínua, podendo ser valores não inteiros (como peso, 
altura, tempo e pressão arterial).
  Variáveis discretas – características mensuráveis que assumem apenas 
valores inteiros, ou seja, discretos (como número de filhos e número 
de jogadores).
As variáveis qualitativas podem ser classificadas como ordinais ou nominais:
  Variáveis ordinais – existe uma ordenação para as categorias. Exem-
plos de variáveis ordinais são escolaridade (1º, 2º, 3º grau), estágio da 
gravidez (inicial, intermediário, final) e mês (janeiro, fevereiro, ..., 
novembro, dezembro).
  Variáveis nominais – não existe uma ordenação para as categorias 
(como religião, raça, cor preferida, time de futebol favorito).
Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por 
exemplo, quando a variável idade informa apenas a faixa etária (25 a 30 anos, 50 a 55 
anos...), ela é qualitativa ordinal. Outro ponto importante é que nem sempre uma variável 
representada por números é quantitativa. Exemplos disso são o número do telefone 
de uma pessoa, o número da casa, o número da identidade e o sexo do indivíduo, 
quando registrado em uma planilha como 1 para masculino e 2 para feminino. 
5Estatística descritiva para ciência de dados
Distribuição de frequência
Você já viu que as variáveis de um processo se dividem em quatro tipos. Como 
os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas, 
eles devem receber tratamentos diversos. Portanto, você vai estudar agora as 
ferramentas (tabelas e gráfi cos) mais adequadas para a análise de frequência 
de cada tipo de dados.
Para os dados de natureza qualitativa, é usual fazer uma tabela de 
frequência, como mostra o Quadro 1. Nesse quadro, são apresentadas as 
frequências de ocorrência de cada um dos sexos no total de 103 entrevis-
tados em uma pesquisa de satisfação do consumidor feita por uma loja de 
eletrodomésticos. 
Sexo Frequência absoluta Frequência relativa (%)
Feminino 62 60,2 
Masculino 41 39,8
Total de participantes 103 100
 Quadro 1. Distribuição de frequências dos entrevistados conforme o sexo 
Observe que, no Quadro 1, cada categoria da variável sexo (feminino, 
masculino) é representada em uma linha. A coluna de frequência absoluta 
mostra a contagem de entrevistados em cada categoria, e a coluna de fre-
quência relativa mostra o percentual que as contagens representam no total 
de entrevistados. 
Para variáveis do tipo qualitativa ordinal, as linhas da tabela de frequên-
cias devem ser dispostas na ordem existente para as categorias. O Quadro 
2 mostra a distribuição de frequências dos entrevistados segundo o mês 
de observação, que é uma variável qualitativa ordinal. Para essa análise, 
é possível acrescentar mais duas colunas com as frequências acumuladas 
(absoluta e relativa). Frequências acumuladas mostram a quantidade de 
clientes entrevistados até cada mês.
Estatística descritiva para ciência de dados6
Mês de 
observação 
Frequência 
absoluta 
Frequência 
relativa (%)
Frequência 
absoluta 
acumulada 
Frequência 
relativa 
acumulada (%)
Fevereiro 19 18,45 19 18,45
Março 6 5,82 25 24,27
Abril 6 5,82 31 30,09
Maio 11 10,69 42 40,78
Junho 23 22,33 65 63,11
Julho 20 19,42 85 82,53
Agosto 18 17,47 103 100
Total 103 100 --- ---
 Quadro 2. Distribuição de frequências dos entrevistados em função do mês deobservação 
A frequência absoluta se refere à quantidade de entrevistados em cada mês; a 
frequência acumulada, à quantidade total entrevistada até determinado mês. Por 
exemplo, no mês de fevereiro, 19 pessoas responderam à pesquisa de satisfação. 
Em março, outras seis pessoas foram entrevistadas. Logo, a frequência acumulada 
de março indica que, até esse mês, um total de 25 pessoas já foram entrevistadas 
(19 em fevereiro, mais seis em março). A partir do Quadro 2, você pode observar 
que a maior frequência de participação na pesquisa ocorreu nos últimos três 
meses: de fevereiro a maio, apenas 40,78% do total de pessoas entrevistadas já 
haviam participado; os outros 59,22% participaram de junho a agosto. 
Com o intuito de tornar a análise de distribuição de frequência mais fácil 
de visualizar, você pode utilizar também os gráficos. Os mais comuns para a 
análise de distribuição de frequência de variáveis qualitativas são os gráficos 
de setores (popularmente conhecidos como gráficos de pizza) e os histogramas, 
que são a representação gráfica em colunas ou em barras (REIS; REIS, 2002). 
A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências 
do total de entrevistados segundo sexo. Na Figura 3, o uso do histograma para a 
distribuição de frequências dos entrevistados em função do mês de observação. 
7Estatística descritiva para ciência de dados
Figura 2. Gráfico de distribuição dos entrevistados quanto ao sexo. 
Figura 3. Gráfico de distribuição dos entrevistados por mês. 
À medida que a complexidade das análises aumenta, como quando é ne-
cessário comparar vários grupos com relação às variáveis que têm muitas 
categorias, as vantagens do uso da representação gráfica ficam ainda mais 
evidentes. 
Estatística descritiva para ciência de dados8
Se você quiser usar o gráfico de setores para comparar a distribuição de frequências 
de uma mesma variável em N grupos, então você vai precisar de N gráficos de setores. 
Já o histograma permite fazer esse tipo de comparação com apenas um gráfico. Se for 
comparar uma variável entre dois ou mais grupos de número de observações diferentes, 
use a frequência relativa de cada grupo para a construção do gráfico e a comparação.
Quando se trata de uma variável discreta que assume poucos valores, a forma 
de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais. É 
como se cada valor que a variável discreta assume fosse uma classe, e que existe 
uma ordem natural nessas classes (REIS; REIS, 2002). Veja o exemplo a seguir.
A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento 
do número de filhos por família em uma localidade específica. Para isso, 25 famílias 
informaram o número de filhos. Com as informações coletadas, você pode fazer uma 
análise completa a partir da tabela de distribuições de frequência mostrada no Quadro 
3, e do histograma que consta na Figura 4.
Número de 
filhos
Frequência 
absoluta
Frequência 
relativa (%)
Frequência relativa 
acumulada (%)
0 1 4,0 4,0
1 3 12,0 16,0
2 7 28,0 44,0
3 10 40,0 84,0
4 2 8,0 92,0
5 2 8,0 100
Total 25 100 ---
 Quadro 3. Distribuição de frequências do número de filhos por família em uma localida-
de (25 famílias) 
9Estatística descritiva para ciência de dados
Figura 4. Distribuição de frequência do número de filhos por família em uma localidade.
Analisando a distribuição de frequência (Figura 4), é possível concluir 
que a maioria das famílias (40%) tem três filhos. A frequência acumulada 
mostra que 84% das famílias entrevistadas possuem de zero a três filhos, e 
apenas 16% possuem de quatro a cinco filhos. Só uma família entre as 25 
entrevistadas não tem filhos. O histograma deixa claras as afirmações feitas 
a partir da tabela e evidencia que a maior concentração de frequência é de 
famílias que têm dois ou três filhos.
Quando você trabalhar com uma variável quantitativa discreta que 
pode assumir muitos valores distintos, ou quando a variável for qualitativa 
contí-nua, é impraticável tentar construir uma tabela ou fazer a 
representação em gráficos considerando cada valor como uma categoria. A 
solução é agrupar os valores em classes que representam faixas de valores 
com certa amplitude (ZABALA, 2020). De acordo com Scott (1979), a escolha 
do número de classes (k sc) e o tamanho das classes (hsc) estão condicionados à 
amplitude dos valores a serem representados, da quantidade de observações 
disponíveis no conjunto de dados e do desvio padrão amostral:
Estatística descritiva para ciência de dados10
onde:
n = número de observações (ou amostras);
s = desvio padrão amostral;
max(x) = maior valor observado; 
min(x) = menor valor observado.
A altura de 100 alunos de uma escola do ensino médio foi coletada. Sabendo que o 
desvio das amostras de altura é s = 0,066, que a altura máxima é 1,80, e que a altura 
mínima é 1,50, determine o tamanho e a quantidade de classes para representar a 
distribuição de frequência de altura dos alunos.
hsc= 3,5*0,066/100^(1/3) hsc= 0,05
ksc= (1,80-1,50)/0,05 ksc= 6
Após encontrar o comprimento do intervalo e o número de classes, basta montar a 
tabela de distribuições de frequência e preenchê-la de acordo com os dados, como 
mostra o Quadro 4.
Número 
de filhos
Frequência 
absoluta
Frequência 
relativa (%)
Frequência 
relativa 
acumulada (%)
1,5 1,55 9 9,0 9,0
1,55 1,60 14 14,0 23,0
1,60 1,65 17 17,0 40,0
1,65 1,70 19 19,0 59,0
1,70 1,75 33 33,0 92,0
1,75 1,80 8 8,0 100
Total 100 100 ---
 Quadro 4. Distribuição de frequências de altura dos alunos do ensino médio 
11Estatística descritiva para ciência de dados
Na atualidade, há muitos dados sendo gerados a todo instante, e é comum trabalhar 
com conjuntos de dados em que as variáveis contêm milhares de observações. Portanto, 
é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas 
computacionais. Atualmente, uma das linguagens de programação mais utilizadas é 
o Python. Saiba mais sobre como usar o Python consultando o livro Data Science do 
zero: Primeiras regras com o Python de Joel Grus.
3 Medidas em estatística descritiva
A estatística descritiva é a etapa inicial para descrever e resumir os dados. 
A seguir, você vai aprender a usar e interpretar as métricas da estatística 
descritiva, que se dividem em duas partes: medidas para análise de posição e 
medidas para análise de dispersão.
Medidas de posição
A média de uma variável é dada pela soma de todas as observações, dividida 
pelo número de observações. Pela facilidade de cálculo e de entendimento, é a 
medida de tendência central mais conhecida e usada (REIS; REIS, 2002). Portanto,
onde n é o número de observações no conjunto de dados, e xi é o valor da 
i-ésima observação desse conjunto.
A mediana de um conjunto de dados é definida como sendo o valor maior 
que 50% dos dados dispostos em ordem crescente, ou seja, é o valor central 
para um conjunto de observações ordenadas. A mediana é conhecida também 
como segundo quartil (ZABALA, 2020). Para um conjunto de n observações, 
a mediana ocupa a posição (n + 1)/2 dos valores ordenados.
A moda é o valor que ocorre com maior frequência para uma variável. Para 
uma tabela de frequência composta por classes que representam intervalos, a 
classe de maior frequência é chamada de classe modal. Se existe apenas uma 
moda, a distribuição é conhecida como unimodal; se existem duas modas, 
bimodal; se existem três modas, trimodal. Quando existem quatro ou mais 
modas, trata-se de uma distribuição multimodal. 
Estatística descritiva para ciência de dados12
Dado um conjunto de observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4], calcule a média, a mediana 
e a moda do conjunto.
Média: = 4,55
Mediana: valores ordenados – 2, 3, 4, 4, 4, 5, 5, 6, 8. Mediana = 4.
Moda: o valor mais frequente. Moda = 4.
A média é uma medida influenciada pela presença de valores extremos em 
um conjunto de dados, isto é, se no meio das observações há um valor muito 
menorque os demais, esse valor vai fazer a média tender na sua direção. O 
mesmo ocorre para um valor muito grande. Já a mediana não é tão influen-
ciada por esses valores extremos (ou outliers), visto que o seu cálculo consiste 
em ordenar os valores e, a partir disso, determinar a mediana (REIS; REIS, 
2002). A moda também tem as suas vantagens. Quando a variável apresenta 
distribuições bimodais ou multimodais, a moda pode representar melhor a 
posição dos dados do que a média e a mediana.
Os quartis ou separatrizes deixam k * 100% das observações abaixo deles 
na amostra ordenada. Os casos mais comuns são os seguintes (ZABALA, 2020):
  o primeiro quartil deixa 25% das amostras ordenadas abaixo, ou seja, 
é o valor maior do que 25% das observações ordenadas;
  o segundo quartil é a mediana;
  o terceiro quartil é o valor maior do que 75% das observações ordenadas.
Um método simples para calcular os quartis de forma aproximada pode 
seguir os seguintes passos (ZABALA, 2020):
  ordene os dados de forma crescente;
  L = k * n. Se L não é inteiro, arredonde-o para o maior inteiro mais 
próximo. O valor do quartil é o L-ésimo valor, a contar do menor. Se L 
é inteiro, o quartil é a média entre o L-ésimo e o (L + 1)-ésimo termo, 
a contar do menor.
Geralmente, os softwares calculam os quartis usando interpolação.
13Estatística descritiva para ciência de dados
Com o conjunto de observações 15, 5, 3, 8, 10, 2, 7, 11, 12, calcule os quartis 0,25 e 0,75.
1. Ordene os dados: 2, 3, 5, 7, 8, 10, 11, 12, 15.
2. Para 0,25, L= 2,25; para 0,75, L= 6,75.
3. O primeiro quartil é 5, e o terceiro quartil é 11.
Medidas de dispersão
A amplitude de uma variável é dada pela diferença do valor máximo pelo 
valor mínimo.
A variância avalia o quanto, em média, os dados variam ao quadrado em re-
lação à média. Trata-se de uma das principais medidas de dispersão em estatística 
(ZABALA, 2020). A variância amostral pode ser calculada da seguinte forma:
O desvio padrão amostral (S) é a raiz quadrada da variância amostral. 
Usa-se o desvio padrão porque a interpretação da sua grandeza é mais intuitiva, 
uma vez que a unidade de medida é a mesma da variável x (ZABALA, 2020). 
O coeficiente de variação (CV) é uma medida de dispersão relativa. Essa 
métrica exprime a variabilidade em relação à média, eliminando o efeito da 
magnitude dos dados (DAVILA, [201-?]). É extremamente útil para comparar 
duas ou mais variáveis com unidades de medidas diferentes (PETERNELLI, 
[2013]). O CV pode ser calculado da seguinte forma:
Estatística descritiva para ciência de dados14
Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria 
nos restaurantes, a fim de apurar possíveis irregularidades na venda dos seus 
produtos. Na última vistoria, os agentes coletaram o peso de 10 bifes que eram 
vendidos como bife de 200 gramas. Os dados coletados são mostrados a seguir. 
X = [170 175 180 185 190 195 200 200 200 205].
Faça uma análise estatística para verificar se há irregularidades com os bifes 
vendidos pelo restaurante.
  Média = (170+175+180+185+190+195+200+200+205)/10 Média = 190
  A = 205 – 170 = 35g
  Variância = [ (170-190)^2 + (175-190)^2 + (180-190)^2+ (185-190)^2 + (190-190)^2 
+ (195-190)^2 + (200-190)^2 + (200-190)^2 + (205-190)^2 ] / (10 – 1) Variância 
= 144,44
  Desvio padrão = 12,02
  Coeficiente de variação = 12,02 / 190 CV = 0,06
Dentro do processo de produção de determinado produto, é normal o peso ou 
outra medida de quantidade variar um pouco. Porém, analisando os resultados 
para esse caso específico, visto que os bifes apresentam média de peso igual a 190 
gramas e desvio padrão de 12 gramas, é possível concluir que a maioria dos clientes 
estão sendo lesados. Portanto, no que diz respeito ao controle de qualidade, os 
bifes não apresentam um padrão bom.
Neste capítulo, você estudou sobre a importância da ciência de dados 
nos moldes operacionais atuais das empresas e como a estatística descritiva 
é uma ferramenta importante no processo de extração de informações a 
partir dos dados. Além disso, você leu sobre os tipos de variáveis que 
podem estar presentes no conjunto de informações de um processo, bem 
como a importância da análise da distribuição de frequência dos dados. 
Por fim, você viu como interpretar as medidas em estatística descritiva e 
extrair informações de tabelas e gráficos que permitem tomar decisões a 
partir dos dados.
15Estatística descritiva para ciência de dados
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de 
Janeiro: Alta Books, 2016.
DAVILA, V. H. L. Estatística descritiva. Campinas: IME-UNICAMP, [201-?]. Disponível em: 
https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 27 abr. 2020.
PETERNELLI, L. A. Estatística descritiva. In: INF 162. São Paulo: EACH USP, [2013]. Disponível 
em: http://www.each.usp.br/rvicente/Paternelli_Cap2.pdf. Acesso em: 27 abr. 2020.
REIS, E. A.; REIS, I. A. Análise descritiva de dados. Belo Horizonte: UFMG, 2002. Disponível 
em: http://www.est.ufmg.br/portal/arquivos/rts/rte0202.pdf. Acesso em: 27 abr. 2020.
SCOTT, D. W. On optimal and data-based histograms. Biometrika, v. 66, n. 3, Dec. 1979. 
Disponível em: http://www.jstor.org/stable/2335182?origin=JSTOR-pdf . Acesso em: 
27 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão 
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
SILVA, J. S. F.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre: Sagah, 2018.
ZABALA, F. Estatística clássica no RStudio. Porto Alegre: [S. n.], 2020. Disponível em: http://
www.estatisticaclassica.com/ecnrs.pdf. Acesso em: 27 abr. 2020.
Leitura recomendada
GRUS, J. Data Science do zero: primeiras regras com o Python. Rio de Janeiro: Alta 
Books, 2018.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a 
rede é extremamente dinâmica; suas páginas estão constantemente mudando de 
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade 
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
Estatística descritiva para ciência de dados16
Dica do professor
Atualmente, é comum trabalhar com conjunto de dados cujas variáveis contêm milhares de 
observações. Essa análise de grandes volumes de dados torna necessário utilizar ferramentas 
computacionais para aplicar os conceitos de estatística descritiva. Entre as ferramentas 
computacionais, o Python é uma linguagem de programação amplamente utilizada na Ciência de 
Dados.
Na Dica do Professor, você vai aprender alguns comandos básicos para fazer a estatística descritiva 
de grandes conjuntos de dados utilizando o Python, que é uma linguagem de programação gratuita, 
com uma infinidade de recursos e compatível com diferentes sistemas operacionais, como Linux e 
Windows.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/2e1333c3830139c242b47f3bb4c7b217
Exercícios
1) Diversos materiais na Internet definem a ciência de dados como responsável apenas pelo 
processamento de dados. Entretanto, ela é responsável por outras etapas extremamente 
importantes para o uso de dados. Qual alternativa mostra a sequência correta de todas as 
etapas do ciclo da ciência de dados?
A) Entender o problema, coletar os dados, processar os dados, explorar as informações dos 
resultados e comunicar os resultados.
B) Entender o problema, coletar os dados, processar os dados, explorar as informações dos 
resultados, comunicar os resultados e fornecer feedback.
C) Entender o problema, coletar os dados, armazenar os dados, processar os dados, explorar as 
informações dos resultados, comunicar os resultados e fornecer feedback.
D) Coletar os dados, armazenar os dados, processar os dados, explorar as informações dosresultados, comunicar os resultados e fornecer feedback.
E) Coletar os dados, entender o problema, processar os dados, armazenar os dados, explorar as 
informações dos resultados, comunicar os resultados e fornecer feedback.
2) O uso da ciência de dados vem se tornando comum nos últimos anos. Apesar disso, ainda 
existem pessoas que expressam de forma errada a correlação entre estatística e ciência de 
dados.
Qual é a explicação correta sobre a correlação entre estatística e ciência de dados?
A) São iguais. Ambas têm como objetivo analisar os dados.
B) A ciência de dados é um método utilizado pela estatística descritiva.
C) A estatística é utilizada para processar os dados, e a ciência de dados é responsável por 
interpretar os resultados da estatística.
D) A estatística é uma ferramenta da ciência de dados e é utilizada nas etapas de coleta e 
processamento de dados.
E) A estatística é uma ferramenta da ciência de dados e é utilizada nas etapas de processar os 
dados e explorar as informações dos resultados.
3) Um questionário geral visando a analisar um grupo de pessoas com acompanhamento 
nutricional foi desenvolvido, composto pelas variáveis sexo, peso, altura, número de filhos, 
telefone e mês de início do acompanhamento. Classifique a classe de cada variável e assinale 
a alternativa que representa a sequência correta.
A) Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, 
qualitativa nominal e qualitativa ordinal.
B) Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, 
quantitativa discreta e qualitativa ordinal.
C) Qualitativa ordinal, quantitativa contínua, quantitativa contínua, quantitativa discreta, 
qualitativa nominal e qualitativa ordinal.
D) Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa contínua, 
qualitativa nominal e qualitativa ordinal.
E) Qualitativa nominal, quantitativa contínua, quantitativa discreta, quantitativa discreta, 
qualitativa nominal e qualitativa ordinal.
Em uma escola no interior de São Paulo, é comum que o professor de Educação Física faça a 
medição de altura dos alunos no início do ano letivo e faça uma comparação entre as alturas 
medidas. Para isso, o professor mediu a altura de 100 alunos e montou uma tabela com a 
distribuição de frequência de altura.
O que é possível concluir a partir da tabela?
4) 
A) A maioria dos alunos tem entre 1,65 e 1,70m de altura. A minoria dos alunos tem entre 1,50 e 
1,55m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
B) A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 
1,80m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
C) A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,50 e 
1,55m. Do total de alunos, 92% têm entre 1,50 e 1,70m.
D) A maioria dos alunos tem entre 1,65 e 1,70m de altura. A minoria dos alunos tem entre 1,75 e 
1,80m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
E) A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 
1,80m. Do total de alunos, 40% têm entre 1,50 e 1,70m.
5) A estatística descritiva é responsável pela etapa inicial de análise de dados. Por meio de suas 
métricas, é possível analisar a posição das variáveis e analisar a dispersão. 
Escolha a alternativa que melhor explica as medidas em estatística descritiva.
Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a 
soma de todas as observações dividida pelo número total de observações. A mediana é o 
valor que a variável assume com maior frequência. A moda, também conhecida como 2.o 
quartil, indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) 
A) 
indica um valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) 
indica um valor em que 75% das amostras ordenadas são menores. A amplitude e o 
coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o 
valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de 
dispersão relativa, que elimina o efeito da magnitude dos dados.
B) Média, mediana, moda e amplitude são medidas para análise de posição. A média é a soma de 
todas as observações dividida pelo número total de observações. A moda é o valor que a 
variável assume com maior frequência. A mediana, também conhecida como 2.o quartil, indica 
um valor que é maior que 50% das amostras ordenadas. A amplitude é dada pela diferença 
entre o valor máximo e o valor mínimo da variável. Os quartis (1.o e 3.o) e o coeficiente de 
variação são medidas de dispersão. O 1.o quartil (25%) indica um valor em que 25% das 
amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor em que 75% das 
amostras ordenadas são menores. O coeficiente de variação é uma medida de dispersão 
relativa, que elimina o efeito da magnitude dos dados.
C) Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a 
soma de todas as observações dividida pelo número total de observações. A moda é o valor 
que a variável assume com maior frequência. A mediana, também conhecida como 2.o quartil, 
indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) indica um 
valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor 
em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação 
são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor 
mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que 
considera o efeito da magnitude dos dados.
D) Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a 
soma de todas as observações dividida pelo número total de observações. A moda é o valor 
que a variável assume com maior frequência. A mediana, também conhecida como 2.o quartil, 
indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) indica um 
valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor 
em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação 
são medidas de dispersão. A amplitude é o valor máximo que a variável assume. O coeficiente 
de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a 
soma de todas as observações dividida pelo número total de observações. A moda é o valor 
que a variável assume com maior frequência. A mediana, também conhecida como 2.o quartil, 
indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) indica um 
valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor 
em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação 
são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor 
E) 
mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina 
o efeito da magnitude dos dados.
Na prática
O café pertence ao gênero Coffea da família Rubiaciae, e, entre as diversas espécies existentes, as 
principais do ponto de vista agroeconômico são a Coffea arabica (café arábica) e a Coffea canephora 
(café robusta). No Brasil, seu cultivo é considerado um dos mais tradicionais da agricultura, sendo, 
por isso, uma das principais commodities que contribuem com o PIB e com a movimentação da 
economia do País. O Brasil é o maior produtor, sendo responsável por cerca de um terço da 
produção mundial. Além disso, é também o maior exportador e o segundo maior consumidor da 
bebida. Os cafés produzidos na Região das Matas de Minas podem ser chamados de cafés de 
qualidade, por apresentarem diversidade de sabores e atributos e por terem sido premiados em 
concursosnacionais e internacionais.
Dada a importância da Região das Matas de Minas na produção cafeeira e a crescente demanda por 
cafés de qualidade, torna-se importante o estudo da análise da influência dos fatores do ambiente e 
da origem genética da planta sobre a qualidade da bebida produzida. Assim, é possível identificar os 
cafés produzidos na região pelo seu potencial de qualidade em consequência das características 
ambientais oferecidas pelo local e potencializar os lucros.
Neste Na Prática, você vai ver um estudo de caso que utilizou a estatística descritiva como uma das 
ferramentas para investigar a qualidade dos cafés da Região das Matas de Minas em função da 
variedade, da altitude e da orientação da encosta da montanha.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/0d47f8fe-3131-4268-8d66-87945d2d5ff4/7fc5c72a-41ed-4578-9075-a8f805051f99.png
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/46446091-9ee0-4389-821c-1cbbdb111871/6af64fa2-2b68-4576-84ab-9d5d7da9500f.png
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Estatística Aplicada à Administração e Economia
Doane, David P.; Seward, Lori E
Conteúdo interativo disponível na plataforma de ensino!
Estatística descritiva — gráficos e tabelas para uma variável
Confira este vídeo explicativo sobre a aplicação de estatística descritiva na análise de um banco de 
dados utilizando o Excel.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Estatísticas descritivas no R — Tabelas
Veja, no vídeo a seguir, o uso do software R para aplicação da estatística descritiva em conjuntos de 
dados.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Introdução à análise exploratória de dados com Python
Confira, neste artigo científico, o uso da linguagem Python para análise de estatística descritiva e 
para figuras de distribuição de frequência das variáveis. O Python atualmente está entre as 
linguagens mais utilizadas pelos cientistas de dados do meio empresarial e acadêmico.
https://www.youtube.com/embed/hHkYlMIEBFU
https://www.youtube.com/embed/jZvQ4N0nuDY
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.researchgate.net/publication/336778766_Introducao_a_Analise_Exploratoria_de_Dados_com_Python

Outros materiais