Buscar

Livro Introdução a Ciencia de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

INTRODUÇÃO 
A CIÊNCIA 
DE DADOS 
Talysson Manoel de Oliveira Santos 
Estatística descritiva 
para ciência de dados
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
  Descrever a correlação entre estatística e ciência de dados.
  Analisar os conceitos de variáveis e distribuição de frequência.
  Explicar as medidas em estatística descritiva.
Introdução
Atualmente, a ciência de dados é uma das áreas do conhecimento mais 
valorizadas por empresas de diferentes ramos de atuação. Entre as fer-
ramentas utilizadas por essa área, os métodos advindos da estatística 
figuram como os principais, tendo um papel fundamental nas etapas 
de processamento de dados e análise dos resultados. 
De forma geral, a estatística é a ciência que apresenta métodos 
próprios para coletar, apresentar e interpretar adequadamente con-
juntos de dados, sejam eles qualitativos ou quantitativos. A estatística 
descritiva — cujo objetivo básico é o de sintetizar um conjunto de 
observações de uma variável — permite que se tenha uma visão global 
sobre a posição e a dispersão desses valores por meio do uso de tabelas, 
gráficos e medidas descritivas.
Neste capítulo, você vai estudar sobre a importância da ciência 
de dados e o motivo pelo qual essa área vem sendo cada vez mais 
solicitada por empresas ligadas a diversos setores da economia. Você 
também vai ler sobre a importância da estatística para a ciência de 
dados, assim como os conceitos de variáveis e distribuição de frequên
cia. Por fim, você vai conhecer as medidas em estatística descritiva e 
ver como extrair informações de tabelas e gráficos que vão auxiliar na 
tomada de decisões a partir dos dados.
1 O que é ciência de dados e como 
se correlaciona com a estatística?
Nas últimas décadas, a tecnologia tem passado por rápidas e constantes 
evoluções. Na Primeira Revolução Industrial, entre 1760 e 1840, o desen-
volvimento da máquina a vapor impulsionou o progresso da indústria têxtil 
e de ferro. Entre 1850 e 1945, a Segunda Revolução Industrial alavancou 
a indústria química, elétrica, de petróleo e de aço. Na Terceira Revolu-
ção, os computadores tiveram a sua capacidade aumentada e tornaram-se 
acessíveis, impactando profundamente na sociedade e nas empresas. Na 
atualidade, estamos vivendo a Quarta Revolução Industrial, na qual diver-
sos dispositivos conectados geram grandes volumes de dados diariamente 
(AMARAL, 2016). 
Por volta de 1980, armazenar dados era um grande desafio, que custava 
caro: cerca de 200 dólares a cada 1 MB. Hoje o avanço tecnológico nos 
permite armazenar grandes quantidades de dados a um preço baixo (AMA-
RAL, 2016). Em função dessa mudança, organizações públicas e privadas 
começaram a buscar metodologias capazes de armazenar e processar essa 
quantidade abundante de dados, a fim de obter informações. Isso mudou 
a maneira de operar das empresas, tornando-as mais ágeis na tomada de 
decisões sustentadas por informações extraídas dos dados (SHARDA; 
DELEN; TURBAN, 2019).
Com essa constante evolução nos moldes operacionais das empresas e a 
busca de informações para agregar valor a um negócio, a ciência de dados 
cresceu muito. Isso ocorreu porque essa área é a responsável por todas as 
etapas do uso de dados, conforme ilustra a Figura 1.
Estatística descritiva para ciência de dados2
Figura 1. Etapas do uso de dados que são atribuições da ciência 
de dados.
Fonte: Adaptada de Amaral (2016).
O primeiro passo realizado pela ciência de dados surge de uma demanda. É 
importante pensar em todas as variáveis que fazem parte do processo e no tipo 
de informação que se deseja extrair. Após entender o problema e determinar 
o tipo de informação desejada e as variáveis que fazem parte do processo, é 
hora de iniciar o segundo passo: coletar os dados. Os dados obtidos nesse passo 
podem ser comprados de empresas especializadas em vendê-los, produzidos ou 
simplesmente coletados de algum banco de dados com acesso aberto.
Os dados coletados são então armazenados. A etapa de armazenamento é 
responsável por garantir a recuperação e a duplicação dos dados. Além disso, 
permite que eles sejam analisados no futuro, mantém informações sigilosas 
em segurança e otimiza o espaço utilizado (AMARAL, 2016).
3Estatística descritiva para ciência de dados
É nas etapas de processar os dados e explorar os resultados que surge 
a correlação entre estatística e ciência de dados. Nessas etapas, o obje-
tivo é buscar e aplicar metodologias adequadas para encontrar padrões, 
extrair informações e interpretar os resultados obtidos a partir da análise 
dos dados. Entre as metodologias mais utilizadas está a estatística, que 
pode ser definida como parte da matemática aplicada que estuda maneiras 
de organizar, descrever e interpretar dados de forma sistemática (SILVA; 
GRAMS; SILVEIRA, 2018). Nos passos seguintes, o cientista de dados é 
responsável por comunicar os resultados e retornar informações para a 
etapa de entendimento do problema.
A estatística é uma ferramenta da ciência de dados que se divide em três 
grandes áreas (SILVA; GRAMS; SILVEIRA, 2018):
  estatística descritiva;
  inferência estatística;
  estatística probabilística.
A estatística descritiva é a primeira etapa da análise de dados, ou 
seja, é responsável por descrever e resumir os dados por meio de gráficos, 
tabelas e números. A estatística inferencial interpreta os indicadores da 
estatística descritiva para inferir eventos prováveis, fundamentados pelas 
características dos dados. A estatística probabilística analisa a proba-
bilidade de um evento ocorrer e atribui o grau de incerteza associado à 
sua ocorrência.
Na próxima seção, você vai aprender a analisar conceitos de variáveis e 
distribuição de frequência, que são termos comuns da estatística descritiva.
2 Conceitos de variáveis e distribuição 
de frequência
A estatística descritiva está ligada à análise inicial dos dados. A partir do 
seu uso, é possível avaliar como as observações se distribuem, onde estão 
concentradas e como estão em termos de associação e dispersão (ZABALA, 
2020). Na sequência, você vai aprender conceitos de variáveis e de métodos 
descritivos, que são a base para análises estatísticas mais avançadas.
Estatística descritiva para ciência de dados4
Variáveis
Variável é uma característica de interesse que é mensurada em cada indivíduo 
da população. Os seus valores variam entre os indivíduos, podendo ser numé-
ricos ou não numéricos. As variáveis quantitativas são as características que 
podem ser medidas utilizando valores numéricos, como número de alunos na 
classe de cálculo ou peso de uma pessoa. As variáveis qualitativas representam 
as características não numéricas dentro de um conjunto de interesse, como 
marca, modelo de veículos e gênero (ZABALA, 2020).
As variáveis quantitativas podem ser classificadas como contínuas ou discretas:
  Variáveis contínuas – características mensuráveis que assumem valores 
em uma escala contínua, podendo ser valores não inteiros (como peso, 
altura, tempo e pressão arterial).
  Variáveis discretas – características mensuráveis que assumem apenas 
valores inteiros, ou seja, discretos (como número de filhos e número 
de jogadores).
As variáveis qualitativas podem ser classificadas como ordinais ou nominais:
  Variáveis ordinais – existe uma ordenação para as categorias. Exem-
plos de variáveis ordinais são escolaridade (1º, 2º, 3º grau), estágio da 
gravidez (inicial, intermediário, final) e mês (janeiro, fevereiro, ..., 
novembro, dezembro).
  Variáveis nominais – não existe uma ordenação para as categorias 
(como religião, raça, cor preferida, time de futebol favorito).
Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por 
exemplo, quando a variável idade informa apenas a faixa etária (25 a 30 anos, 50 a 55 
anos...), ela é qualitativa ordinal. Outro ponto importante é que nem sempre uma variável 
representada por números é quantitativa. Exemplos dissosão o número do telefone 
de uma pessoa, o número da casa, o número da identidade e o sexo do indivíduo, 
quando registrado em uma planilha como 1 para masculino e 2 para feminino. 
5Estatística descritiva para ciência de dados
Distribuição de frequência
Você já viu que as variáveis de um processo se dividem em quatro tipos. Como 
os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas, 
eles devem receber tratamentos diversos. Portanto, você vai estudar agora as 
ferramentas (tabelas e gráfi cos) mais adequadas para a análise de frequência 
de cada tipo de dados.
Para os dados de natureza qualitativa, é usual fazer uma tabela de 
frequência, como mostra o Quadro 1. Nesse quadro, são apresentadas as 
frequências de ocorrência de cada um dos sexos no total de 103 entrevis-
tados em uma pesquisa de satisfação do consumidor feita por uma loja de 
eletrodomésticos. 
Sexo Frequência absoluta Frequência relativa (%)
Feminino 62 60,2 
Masculino 41 39,8
Total de participantes 103 100
 Quadro 1. Distribuição de frequências dos entrevistados conforme o sexo 
Observe que, no Quadro 1, cada categoria da variável sexo (feminino, 
masculino) é representada em uma linha. A coluna de frequência absoluta 
mostra a contagem de entrevistados em cada categoria, e a coluna de fre-
quência relativa mostra o percentual que as contagens representam no total 
de entrevistados. 
Para variáveis do tipo qualitativa ordinal, as linhas da tabela de frequên-
cias devem ser dispostas na ordem existente para as categorias. O Quadro 
2 mostra a distribuição de frequências dos entrevistados segundo o mês 
de observação, que é uma variável qualitativa ordinal. Para essa análise, 
é possível acrescentar mais duas colunas com as frequências acumuladas 
(absoluta e relativa). Frequências acumuladas mostram a quantidade de 
clientes entrevistados até cada mês.
Estatística descritiva para ciência de dados6
Mês de 
observação 
Frequência 
absoluta 
Frequência 
relativa (%)
Frequência 
absoluta 
acumulada 
Frequência 
relativa 
acumulada (%)
Fevereiro 19 18,45 19 18,45
Março 6 5,82 25 24,27
Abril 6 5,82 31 30,09
Maio 11 10,69 42 40,78
Junho 23 22,33 65 63,11
Julho 20 19,42 85 82,53
Agosto 18 17,47 103 100
Total 103 100 --- ---
 Quadro 2. Distribuição de frequências dos entrevistados em função do mês de observação 
A frequência absoluta se refere à quantidade de entrevistados em cada mês; a 
frequência acumulada, à quantidade total entrevistada até determinado mês. Por 
exemplo, no mês de fevereiro, 19 pessoas responderam à pesquisa de satisfação. 
Em março, outras seis pessoas foram entrevistadas. Logo, a frequência acumulada 
de março indica que, até esse mês, um total de 25 pessoas já foram entrevistadas 
(19 em fevereiro, mais seis em março). A partir do Quadro 2, você pode observar 
que a maior frequência de participação na pesquisa ocorreu nos últimos três 
meses: de fevereiro a maio, apenas 40,78% do total de pessoas entrevistadas já 
haviam participado; os outros 59,22% participaram de junho a agosto. 
Com o intuito de tornar a análise de distribuição de frequência mais fácil 
de visualizar, você pode utilizar também os gráficos. Os mais comuns para a 
análise de distribuição de frequência de variáveis qualitativas são os gráficos 
de setores (popularmente conhecidos como gráficos de pizza) e os histogramas, 
que são a representação gráfica em colunas ou em barras (REIS; REIS, 2002). 
A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências 
do total de entrevistados segundo sexo. Na Figura 3, o uso do histograma para a 
distribuição de frequências dos entrevistados em função do mês de observação. 
7Estatística descritiva para ciência de dados
Figura 2. Gráfico de distribuição dos entrevistados quanto ao sexo. 
Figura 3. Gráfico de distribuição dos entrevistados por mês. 
À medida que a complexidade das análises aumenta, como quando é ne-
cessário comparar vários grupos com relação às variáveis que têm muitas 
categorias, as vantagens do uso da representação gráfica ficam ainda mais 
evidentes. 
Estatística descritiva para ciência de dados8
Se você quiser usar o gráfico de setores para comparar a distribuição de frequências 
de uma mesma variável em N grupos, então você vai precisar de N gráficos de setores. 
Já o histograma permite fazer esse tipo de comparação com apenas um gráfico. Se for 
comparar uma variável entre dois ou mais grupos de número de observações diferentes, 
use a frequência relativa de cada grupo para a construção do gráfico e a comparação.
Quando se trata de uma variável discreta que assume poucos valores, a forma 
de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais. É 
como se cada valor que a variável discreta assume fosse uma classe, e que existe 
uma ordem natural nessas classes (REIS; REIS, 2002). Veja o exemplo a seguir.
A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento 
do número de filhos por família em uma localidade específica. Para isso, 25 famílias 
informaram o número de filhos. Com as informações coletadas, você pode fazer uma 
análise completa a partir da tabela de distribuições de frequência mostrada no Quadro 
3, e do histograma que consta na Figura 4.
Número de 
filhos
Frequência 
absoluta
Frequência 
relativa (%)
Frequência relativa 
acumulada (%)
0 1 4,0 4,0
1 3 12,0 16,0
2 7 28,0 44,0
3 10 40,0 84,0
4 2 8,0 92,0
5 2 8,0 100
Total 25 100 ---
 Quadro 3. Distribuição de frequências do número de filhos por família em uma localida-
de (25 famílias) 
9Estatística descritiva para ciência de dados
Analisando a distribuição de frequência (Figura 4), é possível concluir 
que a maioria das famílias (40%) tem três filhos. A frequência acumulada 
mostra que 84% das famílias entrevistadas possuem de zero a três filhos, e 
apenas 16% possuem de quatro a cinco filhos. Só uma família entre as 25 
entrevistadas não tem filhos. O histograma deixa claras as afirmações feitas 
a partir da tabela e evidencia que a maior concentração de frequência é de 
famílias que têm dois ou três filhos.
Quando você trabalhar com uma variável qualitativa discreta que pode 
assumir muitos valores distintos, ou quando a variável for qualitativa contí-
nua, é impraticável tentar construir uma tabela ou fazer a representação em 
gráficos considerando cada valor como uma categoria. A solução é agrupar 
os valores em classes que representam faixas de valores com certa amplitude 
(ZABALA, 2020). De acordo com Scott (1979), a escolha do número de classes 
(k sc) e o tamanho das classes (hsc) estão condicionados à amplitude dos valores 
a serem representados, da quantidade de observações disponíveis no conjunto 
de dados e do desvio padrão amostral:
 
Figura 4. Distribuição de frequência do número de filhos por família em uma localidade.
Estatística descritiva para ciência de dados10
onde:
n = número de observações (ou amostras);
s = desvio padrão amostral;
max(x) = maior valor observado; 
min(x) = menor valor observado.
A altura de 100 alunos de uma escola do ensino médio foi coletada. Sabendo que o 
desvio das amostras de altura é s = 0,066, que a altura máxima é 1,80, e que a altura 
mínima é 1,50, determine o tamanho e a quantidade de classes para representar a 
distribuição de frequência de altura dos alunos.
hsc= 3,5*0,066/100^(1/3) hsc= 0,05
ksc= (1,80-1,50)/0,05 ksc= 6
Após encontrar o comprimento do intervalo e o número de classes, basta montar a 
tabela de distribuições de frequência e preenchê-la de acordo com os dados, como 
mostra o Quadro 4.
Número 
de filhos
Frequência 
absoluta
Frequência 
relativa (%)
Frequência 
relativa 
acumulada (%)
1,5 1,55 9 9,0 9,0
1,55 1,60 14 14,0 23,0
1,60 1,65 17 17,0 40,0
1,65 1,70 19 19,0 59,0
1,70 1,75 33 33,0 92,0
1,75 1,80 8 8,0 100
Total 100 100 ---
 Quadro 4. Distribuição de frequências de altura dos alunos do ensino médio 
11Estatística descritiva para ciência de dados
Naatualidade, há muitos dados sendo gerados a todo instante, e é comum trabalhar 
com conjuntos de dados em que as variáveis contêm milhares de observações. Portanto, 
é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas 
computacionais. Atualmente, uma das linguagens de programação mais utilizadas é 
o Python. Saiba mais sobre como usar o Python consultando o livro Data Science do 
zero: Primeiras regras com o Python de Joel Grus.
3 Medidas em estatística descritiva
A estatística descritiva é a etapa inicial para descrever e resumir os dados. 
A seguir, você vai aprender a usar e interpretar as métricas da estatística 
descritiva, que se dividem em duas partes: medidas para análise de posição e 
medidas para análise de dispersão.
Medidas de posição
A média de uma variável é dada pela soma de todas as observações, dividida 
pelo número de observações. Pela facilidade de cálculo e de entendimento, é a 
medida de tendência central mais conhecida e usada (REIS; REIS, 2002). Portanto,
onde n é o número de observações no conjunto de dados, e xi é o valor da 
i-ésima observação desse conjunto.
A mediana de um conjunto de dados é definida como sendo o valor maior 
que 50% dos dados dispostos em ordem crescente, ou seja, é o valor central 
para um conjunto de observações ordenadas. A mediana é conhecida também 
como segundo quartil (ZABALA, 2020). Para um conjunto de n observações, 
a mediana ocupa a posição (n + 1)/2 dos valores ordenados.
A moda é o valor que ocorre com maior frequência para uma variável. Para 
uma tabela de frequência composta por classes que representam intervalos, a 
classe de maior frequência é chamada de classe modal. Se existe apenas uma 
moda, a distribuição é conhecida como unimodal; se existem duas modas, 
bimodal; se existem três modas, trimodal. Quando existem quatro ou mais 
modas, trata-se de uma distribuição multimodal. 
Estatística descritiva para ciência de dados12
Dado um conjunto de observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4], calcule a média, a mediana 
e a moda do conjunto.
Média: = 4,55
Mediana: valores ordenados – 2, 3, 4, 4, 4, 5, 5, 6, 8. Mediana = 4.
Moda: o valor mais frequente. Moda = 4.
A média é uma medida influenciada pela presença de valores extremos em 
um conjunto de dados, isto é, se no meio das observações há um valor muito 
menor que os demais, esse valor vai fazer a média tender na sua direção. O 
mesmo ocorre para um valor muito grande. Já a mediana não é tão influen-
ciada por esses valores extremos (ou outliers), visto que o seu cálculo consiste 
em ordenar os valores e, a partir disso, determinar a mediana (REIS; REIS, 
2002). A moda também tem as suas vantagens. Quando a variável apresenta 
distribuições bimodais ou multimodais, a moda pode representar melhor a 
posição dos dados do que a média e a mediana.
Os quartis ou separatrizes deixam k * 100% das observações abaixo deles 
na amostra ordenada. Os casos mais comuns são os seguintes (ZABALA, 2020):
  o primeiro quartil deixa 25% das amostras ordenadas abaixo, ou seja, 
é o valor maior do que 25% das observações ordenadas;
  o segundo quartil é a mediana;
  o terceiro quartil é o valor maior do que 75% das observações ordenadas.
Um método simples para calcular os quartis de forma aproximada pode 
seguir os seguintes passos (ZABALA, 2020):
  ordene os dados de forma crescente;
  L = k * n. Se L não é inteiro, arredonde-o para o maior inteiro mais 
próximo. O valor do quartil é o L-ésimo valor, a contar do menor. Se L 
é inteiro, o quartil é a média entre o L-ésimo e o (L + 1)-ésimo termo, 
a contar do menor.
Geralmente, os softwares calculam os quartis usando interpolação.
13Estatística descritiva para ciência de dados
Com o conjunto de observações 15, 5, 3, 8, 10, 2, 7, 11, 12, calcule os quartis 0,25 e 0,75.
1. Ordene os dados: 2, 3, 5, 7, 8, 10, 11, 12, 15.
2. Para 0,25, L= 2,25; para 0,75, L= 6,75.
3. O primeiro quartil é 5, e o terceiro quartil é 11.
Medidas de dispersão
A amplitude de uma variável é dada pela diferença do valor máximo pelo 
valor mínimo.
A variância avalia o quanto, em média, os dados variam ao quadrado em re-
lação à média. Trata-se de uma das principais medidas de dispersão em estatística 
(ZABALA, 2020). A variância amostral pode ser calculada da seguinte forma:
O desvio padrão amostral (S) é a raiz quadrada da variância amostral. 
Usa-se o desvio padrão porque a interpretação da sua grandeza é mais intuitiva, 
uma vez que a unidade de medida é a mesma da variável x (ZABALA, 2020). 
O coeficiente de variação (CV) é uma medida de dispersão relativa. Essa 
métrica exprime a variabilidade em relação à média, eliminando o efeito da 
magnitude dos dados (DAVILA, [201-?]). É extremamente útil para comparar 
duas ou mais variáveis com unidades de medidas diferentes (PETERNELLI, 
[2013]). O CV pode ser calculado da seguinte forma:
Estatística descritiva para ciência de dados14
Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria 
nos restaurantes, a fim de apurar possíveis irregularidades na venda dos seus 
produtos. Na última vistoria, os agentes coletaram o peso de 10 bifes que eram 
vendidos como bife de 200 gramas. Os dados coletados são mostrados a seguir. 
X = [170 175 180 185 190 195 200 200 200 205].
Faça uma análise estatística para verificar se há irregularidades com os bifes 
vendidos pelo restaurante.
  Média = (170+175+180+185+190+195+200+200+205)/10 Média = 190
  A = 205 – 170 = 35g
  Variância = [ (170-190)^2 + (175-190)^2 + (180-190)^2+ (185-190)^2 + (190-190)^2 
+ (195-190)^2 + (200-190)^2 + (200-190)^2 + (205-190)^2 ] / (10 – 1) Variância 
= 144,44
  Desvio padrão = 12,02
  Coeficiente de variação = 12,02 / 190 CV = 0,06
Dentro do processo de produção de determinado produto, é normal o peso ou 
outra medida de quantidade variar um pouco. Porém, analisando os resultados 
para esse caso específico, visto que os bifes apresentam média de peso igual a 190 
gramas e desvio padrão de 12 gramas, é possível concluir que a maioria dos clientes 
estão sendo lesados. Portanto, no que diz respeito ao controle de qualidade, os 
bifes não apresentam um padrão bom.
Neste capítulo, você estudou sobre a importância da ciência de dados 
nos moldes operacionais atuais das empresas e como a estatística descritiva 
é uma ferramenta importante no processo de extração de informações a 
partir dos dados. Além disso, você leu sobre os tipos de variáveis que 
podem estar presentes no conjunto de informações de um processo, bem 
como a importância da análise da distribuição de frequência dos dados. 
Por fim, você viu como interpretar as medidas em estatística descritiva e 
extrair informações de tabelas e gráficos que permitem tomar decisões a 
partir dos dados.
15Estatística descritiva para ciência de dados
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de 
Janeiro: Alta Books, 2016.
DAVILA, V. H. L. Estatística descritiva. Campinas: IME-UNICAMP, [201-?]. Disponível em: 
https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 27 abr. 2020.
PETERNELLI, L. A. Estatística descritiva. In: INF 162. São Paulo: EACH USP, [2013]. Disponível 
em: http://www.each.usp.br/rvicente/Paternelli_Cap2.pdf. Acesso em: 27 abr. 2020.
REIS, E. A.; REIS, I. A. Análise descritiva de dados. Belo Horizonte: UFMG, 2002. Disponível 
em: http://www.est.ufmg.br/portal/arquivos/rts/rte0202.pdf. Acesso em: 27 abr. 2020.
SCOTT, D. W. On optimal and data-based histograms. Biometrika, v. 66, n. 3, Dec. 1979. 
Disponível em: http://www.jstor.org/stable/2335182?origin=JSTOR-pdf . Acesso em: 
27 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão 
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
SILVA, J. S. F.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre: Sagah, 2018.
ZABALA, F. Estatística clássica no RStudio. Porto Alegre: [S. n.], 2020. Disponível em: http://
www.estatisticaclassica.com/ecnrs.pdf. Acessoem: 27 abr. 2020.
Leitura recomendada
GRUS, J. Data Science do zero: primeiras regras com o Python. Rio de Janeiro: Alta 
Books, 2018.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a 
rede é extremamente dinâmica; suas páginas estão constantemente mudando de 
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade 
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
Estatística descritiva para ciência de dados16

Outros materiais