Estatística Descritiva para Ciência de Dados

Artes

Renato Rodrigues

em 20/03/2023

Conteúdos escolhidos para você

42 pág.

Bioestatística: Conceitos e Aplicações

FAEL

378 pág.

Estatistica Pratica para Cientistas de Dados

55 pág.

Capitulo 1-2 estatistica descritiva 2022.1 lagp da Pedra

52 pág.

Estatística-Aplicada-às-Finanças-1-P

UERJ

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a méd...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a média

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

UniCesumar

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

42 pág.

Bioestatística: Conceitos e Aplicações

FAEL

378 pág.

Estatistica Pratica para Cientistas de Dados

55 pág.

Capitulo 1-2 estatistica descritiva 2022.1 lagp da Pedra

52 pág.

Estatística-Aplicada-às-Finanças-1-P

UERJ

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a méd...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a média

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

UniCesumar

Prévia do material em texto

Estatística descritiva para ciência de
dados
Apresentação
Atualmente, vive-se na era da informação e cercado de dispositivos conectados que geram grandes
volumes de dados diariamente. Esses dados estão presentes na rotina das empresas, que cada vez
mais buscam por metodologias que sejam capazes de armazená-los e processá-los em busca de
informações para agregar valor a um negócio. Com isso, a ciência de dados, área do conhecimento
voltada para o estudo e a análise dos dados com o objetivo de detectar padrões e extrair
informações, tem sido aplicada nos setores de produção, vendas, marketing, comunicação,
financeiro e jurídico de empresas de diferentes ramos.
Para a análise dos dados, os cientistas de dados usam a estatística como uma das principais
ferramentas. Na etapa inicial, a estatística descritiva permite avaliar a posição das variáveis por
meio de métricas como moda, média, mediana, mínimo, máximo e quartis. Além disso, é possível
analisar a dispersão das variáveis utilizando indicadores como variância, desvio padrão, coeficiente
de variação, intervalo interquartil e amplitude. Outro recurso muito importante é a análise da
distribuição de frequência das variáveis por meio de gráficos e tabelas.
Nesta Unidade de Aprendizagem, você vai estudar a correlação entre estatística e ciência de dados,
entender conceitos sobre distribuição de frequência e variáveis e aprender a interpretar e explicar
medidas em estatística descritiva.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Descrever a correlação entre estatística e ciência de dados.•
Analisar os conceitos de variáveis e distribuição de frequência.•
Explicar as medidas em estatística descritiva.•
Desafio
Segundo a Agência Nacional de Energia Elétrica (ANEEL), atualmente a taxa de aumento médio no
preço de energia elétrica por ano é de aproximadamente 2%. Devido a esse constante aumento do
preço da energia, alguns consumidores começaram a pensar em soluções para reduzir o custo da
conta de energia elétrica. Investir em um sistema de energia solar é uma opção que exige alto
investimento inicial e que começa a ter retorno depois de alguns anos. Monitorar o consumo de
grupos de equipamentos e tentar fazer uma otimização do tempo de uso para gerar economia pode
ser uma boa opção para quem não quer fazer um alto investimento.
Você, como especialista em estatística descritiva, foi contratado por uma empresa de pequeno
porte para analisar o perfil de consumo dos equipamentos. O dono da empresa dividiu as cargas em
três grupos distintos, utilizou medidores que coletavam as informações a cada minuto, fez a coleta
dos dados por dois dias seguidos e salvou os dados de consumo de energia em um arquivo do Excel
(consumo.xlsx).

Dados consumo de energia
Faça a estatística descritiva dos três grupos de equipamentos utilizando o Excel ou outro software
de sua preferência. Apresente as análises de posição (média, moda, mediana e quartis 1.o e 3.o) e
de dispersão (amplitude, variância, desvio padrão e coeficiente de variação) para os três grupos.
Em seguida, com a finalidade de explicar as medidas da estatística descritiva à empresa, você
deverá explicar:
a) Qual grupo de aparelhos apresenta maior média de consumo energético?
b) Qual grupo apresenta maior coeficiente de variação?
c) Qual grupo apresenta maior amplitude de energia?
d) Qual grupo permanece mais tempo desligado, ou seja, sem consumir energia? Como você chegou
a essa conclusão?
https://statics-marketplace.plataforma.grupoa.education/sagah/5cac1cc1-d936-4654-ad06-b3567e1e71fb/5899cf71-3d16-4e41-9da6-869dadb3bccf.xlsx
Infográfico
Atualmente, vive-se a 4.a Revolução Industrial, que é marcada por
vários dispositivos interconectados gerando e armazenando grandes quantidades de dados a todo
instante. Isso torna comum trabalhar
com conjunto de dados cujas variáveis contêm milhares de observações, o que torna impossível
aplicar os conceitos de estatística descritiva sem o uso de ferramentas computacionais.
No Infográfico a seguir, você vai conhecer o R, o Minitab e o LibreOffice Calc, ferramentas
computacionais amplamente utilizadas para análise estatística de conjuntos de dados, e seus
comandos básicos.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/91971b82-4ae8-418c-a14d-20595e72ae36/bc12fd15-ba27-4a26-b73b-90970f0f0a59.png
Conteúdo do livro
A ciência de dados é uma área do conhecimento multidisciplinar que vem sendo cada vez mais
utilizada por empresas ligadas a diversos setores da economia. Esse aumento de demanda
relacionado à ciência de dados foi impulsionado não só pelos bons resultados que impactaram nos
moldes operacionais das empresas, mas também pela evolução da tecnologia, que permite gerar e
armazenar grandes quantidades de dados.
Responsável por todas as etapas que envolvem o ciclo do uso de dados para agregar conhecimento
em diversos setores empresariais, a ciência de dados inicia esse ciclo interpretando o problema e
vai até o retorno de informações obtidas a partir dos dados. Entre as ferramentas utilizadas pela
ciência de dados, a estatística descritiva é uma das principais, tendo um papel fundamental nas
etapas de processamento de dados e análise dos resultados.
No capítulo Estatística descritiva para ciência de dados, da obra Introdução à ciência de dados, você
vai ver a correlação entre estatística e ciência de dados, os conceitos de variáveis e distribuição de
frequência e as métricas utilizadas em estatística descritiva.
Boa leitura.

INTRODUÇÃO
A CIÊNCIA
DE DADOS
Talysson Manoel de Oliveira Santos
Estatística descritiva
para ciência de dados
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
 Descrever a correlação entre estatística e ciência de dados.
 Analisar os conceitos de variáveis e distribuição de frequência.
 Explicar as medidas em estatística descritiva.
Introdução
Atualmente, a ciência de dados é uma das áreas do conhecimento mais
valorizadas por empresas de diferentes ramos de atuação. Entre as fer-
ramentas utilizadas por essa área, os métodos advindos da estatística
figuram como os principais, tendo um papel fundamental nas etapas
de processamento de dados e análise dos resultados.
De forma geral, a estatística é a ciência que apresenta métodos
próprios para coletar, apresentar e interpretar adequadamente con-
juntos de dados, sejam eles qualitativos ou quantitativos. A estatística
descritiva — cujo objetivo básico é o de sintetizar um conjunto de
observações de uma variável — permite que se tenha uma visão global
sobre a posição e a dispersão desses valores por meio do uso de tabelas,
gráficos e medidas descritivas.
Neste capítulo, você vai estudar sobre a importância da ciência
de dados e o motivo pelo qual essa área vem sendo cada vez mais
solicitada por empresas ligadas a diversos setores da economia. Você
também vai ler sobre a importância da estatística para a ciência de
dados, assim como os conceitos de variáveis e distribuição de frequên
cia. Por fim, você vai conhecer as medidas em estatística descritiva e
ver como extrair informações de tabelas e gráficos que vão auxiliar na
tomada de decisões a partir dos dados.
1 O que é ciência de dados e como
se correlaciona com a estatística?
Nas últimas décadas, a tecnologia tem passado por rápidas e constantes
evoluções. Na Primeira Revolução Industrial, entre 1760 e 1840, o desen-
volvimento da máquina a vapor impulsionou o progresso da indústria têxtil
e de ferro. Entre 1850 e 1945, a Segunda Revolução Industrial alavancou
a indústria química, elétrica, de petróleo e de aço. Na Terceira Revolu-
ção, os computadores tiveram a sua capacidade aumentada e tornaram-se
acessíveis, impactando profundamente na sociedade e nas empresas. Na
atualidade, estamos vivendo a Quarta Revolução Industrial,na qual diver-
sos dispositivos conectados geram grandes volumes de dados diariamente
(AMARAL, 2016).
Por volta de 1980, armazenar dados era um grande desafio, que custava
caro: cerca de 200 dólares a cada 1 MB. Hoje o avanço tecnológico nos
permite armazenar grandes quantidades de dados a um preço baixo (AMA-
RAL, 2016). Em função dessa mudança, organizações públicas e privadas
começaram a buscar metodologias capazes de armazenar e processar essa
quantidade abundante de dados, a fim de obter informações. Isso mudou
a maneira de operar das empresas, tornando-as mais ágeis na tomada de
decisões sustentadas por informações extraídas dos dados (SHARDA;
DELEN; TURBAN, 2019).
Com essa constante evolução nos moldes operacionais das empresas e a
busca de informações para agregar valor a um negócio, a ciência de dados
cresceu muito. Isso ocorreu porque essa área é a responsável por todas as
etapas do uso de dados, conforme ilustra a Figura 1.
Estatística descritiva para ciência de dados2
Figura 1. Etapas do uso de dados que são atribuições da ciência
de dados.
Fonte: Adaptada de Amaral (2016).
O primeiro passo realizado pela ciência de dados surge de uma demanda. É
importante pensar em todas as variáveis que fazem parte do processo e no tipo
de informação que se deseja extrair. Após entender o problema e determinar
o tipo de informação desejada e as variáveis que fazem parte do processo, é
hora de iniciar o segundo passo: coletar os dados. Os dados obtidos nesse passo
podem ser comprados de empresas especializadas em vendê-los, produzidos ou
simplesmente coletados de algum banco de dados com acesso aberto.
Os dados coletados são então armazenados. A etapa de armazenamento é
responsável por garantir a recuperação e a duplicação dos dados. Além disso,
permite que eles sejam analisados no futuro, mantém informações sigilosas
em segurança e otimiza o espaço utilizado (AMARAL, 2016).
3Estatística descritiva para ciência de dados
É nas etapas de processar os dados e explorar os resultados que surge
a correlação entre estatística e ciência de dados. Nessas etapas, o obje-
tivo é buscar e aplicar metodologias adequadas para encontrar padrões,
extrair informações e interpretar os resultados obtidos a partir da análise
dos dados. Entre as metodologias mais utilizadas está a estatística, que
pode ser definida como parte da matemática aplicada que estuda maneiras
de organizar, descrever e interpretar dados de forma sistemática (SILVA;
GRAMS; SILVEIRA, 2018). Nos passos seguintes, o cientista de dados é
responsável por comunicar os resultados e retornar informações para a
etapa de entendimento do problema.
A estatística é uma ferramenta da ciência de dados que se divide em três
grandes áreas (SILVA; GRAMS; SILVEIRA, 2018):
 estatística descritiva;
 inferência estatística;
 estatística probabilística.
A estatística descritiva é a primeira etapa da análise de dados, ou
seja, é responsável por descrever e resumir os dados por meio de gráficos,
tabelas e números. A estatística inferencial interpreta os indicadores da
estatística descritiva para inferir eventos prováveis, fundamentados pelas
características dos dados. A estatística probabilística analisa a proba-
bilidade de um evento ocorrer e atribui o grau de incerteza associado à
sua ocorrência.
Na próxima seção, você vai aprender a analisar conceitos de variáveis e
distribuição de frequência, que são termos comuns da estatística descritiva.
2 Conceitos de variáveis e distribuição
de frequência
A estatística descritiva está ligada à análise inicial dos dados. A partir do
seu uso, é possível avaliar como as observações se distribuem, onde estão
concentradas e como estão em termos de associação e dispersão (ZABALA,
2020). Na sequência, você vai aprender conceitos de variáveis e de métodos
descritivos, que são a base para análises estatísticas mais avançadas.
Estatística descritiva para ciência de dados4
Variáveis
Variável é uma característica de interesse que é mensurada em cada indivíduo
da população. Os seus valores variam entre os indivíduos, podendo ser numé-
ricos ou não numéricos. As variáveis quantitativas são as características que
podem ser medidas utilizando valores numéricos, como número de alunos na
classe de cálculo ou peso de uma pessoa. As variáveis qualitativas representam
as características não numéricas dentro de um conjunto de interesse, como
marca, modelo de veículos e gênero (ZABALA, 2020).
As variáveis quantitativas podem ser classificadas como contínuas ou discretas:
 Variáveis contínuas – características mensuráveis que assumem valores
em uma escala contínua, podendo ser valores não inteiros (como peso,
altura, tempo e pressão arterial).
 Variáveis discretas – características mensuráveis que assumem apenas
valores inteiros, ou seja, discretos (como número de filhos e número
de jogadores).
As variáveis qualitativas podem ser classificadas como ordinais ou nominais:
 Variáveis ordinais – existe uma ordenação para as categorias. Exem-
plos de variáveis ordinais são escolaridade (1º, 2º, 3º grau), estágio da
gravidez (inicial, intermediário, final) e mês (janeiro, fevereiro, ...,
novembro, dezembro).
 Variáveis nominais – não existe uma ordenação para as categorias
(como religião, raça, cor preferida, time de futebol favorito).
Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por
exemplo, quando a variável idade informa apenas a faixa etária (25 a 30 anos, 50 a 55
anos...), ela é qualitativa ordinal. Outro ponto importante é que nem sempre uma variável
representada por números é quantitativa. Exemplos disso são o número do telefone
de uma pessoa, o número da casa, o número da identidade e o sexo do indivíduo,
quando registrado em uma planilha como 1 para masculino e 2 para feminino.
5Estatística descritiva para ciência de dados
Distribuição de frequência
Você já viu que as variáveis de um processo se dividem em quatro tipos. Como
os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas,
eles devem receber tratamentos diversos. Portanto, você vai estudar agora as
ferramentas (tabelas e gráfi cos) mais adequadas para a análise de frequência
de cada tipo de dados.
Para os dados de natureza qualitativa, é usual fazer uma tabela de
frequência, como mostra o Quadro 1. Nesse quadro, são apresentadas as
frequências de ocorrência de cada um dos sexos no total de 103 entrevis-
tados em uma pesquisa de satisfação do consumidor feita por uma loja de
eletrodomésticos.
Sexo Frequência absoluta Frequência relativa (%)
Feminino 62 60,2
Masculino 41 39,8
Total de participantes 103 100
Quadro 1. Distribuição de frequências dos entrevistados conforme o sexo
Observe que, no Quadro 1, cada categoria da variável sexo (feminino,
masculino) é representada em uma linha. A coluna de frequência absoluta
mostra a contagem de entrevistados em cada categoria, e a coluna de fre-
quência relativa mostra o percentual que as contagens representam no total
de entrevistados.
Para variáveis do tipo qualitativa ordinal, as linhas da tabela de frequên-
cias devem ser dispostas na ordem existente para as categorias. O Quadro
2 mostra a distribuição de frequências dos entrevistados segundo o mês
de observação, que é uma variável qualitativa ordinal. Para essa análise,
é possível acrescentar mais duas colunas com as frequências acumuladas
(absoluta e relativa). Frequências acumuladas mostram a quantidade de
clientes entrevistados até cada mês.
Estatística descritiva para ciência de dados6
Mês de
observação
Frequência
absoluta
Frequência
relativa (%)
Frequência
absoluta
acumulada
Frequência
relativa
acumulada (%)
Fevereiro 19 18,45 19 18,45
Março 6 5,82 25 24,27
Abril 6 5,82 31 30,09
Maio 11 10,69 42 40,78
Junho 23 22,33 65 63,11
Julho 20 19,42 85 82,53
Agosto 18 17,47 103 100
Total 103 100 --- ---
Quadro 2. Distribuição de frequências dos entrevistados em função do mês deobservação
A frequência absoluta se refere à quantidade de entrevistados em cada mês; a
frequência acumulada, à quantidade total entrevistada até determinado mês. Por
exemplo, no mês de fevereiro, 19 pessoas responderam à pesquisa de satisfação.
Em março, outras seis pessoas foram entrevistadas. Logo, a frequência acumulada
de março indica que, até esse mês, um total de 25 pessoas já foram entrevistadas
(19 em fevereiro, mais seis em março). A partir do Quadro 2, você pode observar
que a maior frequência de participação na pesquisa ocorreu nos últimos três
meses: de fevereiro a maio, apenas 40,78% do total de pessoas entrevistadas já
haviam participado; os outros 59,22% participaram de junho a agosto.
Com o intuito de tornar a análise de distribuição de frequência mais fácil
de visualizar, você pode utilizar também os gráficos. Os mais comuns para a
análise de distribuição de frequência de variáveis qualitativas são os gráficos
de setores (popularmente conhecidos como gráficos de pizza) e os histogramas,
que são a representação gráfica em colunas ou em barras (REIS; REIS, 2002).
A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências
do total de entrevistados segundo sexo. Na Figura 3, o uso do histograma para a
distribuição de frequências dos entrevistados em função do mês de observação.
7Estatística descritiva para ciência de dados
Figura 2. Gráfico de distribuição dos entrevistados quanto ao sexo.
Figura 3. Gráfico de distribuição dos entrevistados por mês.
À medida que a complexidade das análises aumenta, como quando é ne-
cessário comparar vários grupos com relação às variáveis que têm muitas
categorias, as vantagens do uso da representação gráfica ficam ainda mais
evidentes.
Estatística descritiva para ciência de dados8
Se você quiser usar o gráfico de setores para comparar a distribuição de frequências
de uma mesma variável em N grupos, então você vai precisar de N gráficos de setores.
Já o histograma permite fazer esse tipo de comparação com apenas um gráfico. Se for
comparar uma variável entre dois ou mais grupos de número de observações diferentes,
use a frequência relativa de cada grupo para a construção do gráfico e a comparação.
Quando se trata de uma variável discreta que assume poucos valores, a forma
de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais. É
como se cada valor que a variável discreta assume fosse uma classe, e que existe
uma ordem natural nessas classes (REIS; REIS, 2002). Veja o exemplo a seguir.
A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento
do número de filhos por família em uma localidade específica. Para isso, 25 famílias
informaram o número de filhos. Com as informações coletadas, você pode fazer uma
análise completa a partir da tabela de distribuições de frequência mostrada no Quadro
3, e do histograma que consta na Figura 4.
Número de
filhos
Frequência
absoluta
Frequência
relativa (%)
Frequência relativa
acumulada (%)
0 1 4,0 4,0
1 3 12,0 16,0
2 7 28,0 44,0
3 10 40,0 84,0
4 2 8,0 92,0
5 2 8,0 100
Total 25 100 ---
Quadro 3. Distribuição de frequências do número de filhos por família em uma localida-
de (25 famílias)
9Estatística descritiva para ciência de dados
Figura 4. Distribuição de frequência do número de filhos por família em uma localidade.
Analisando a distribuição de frequência (Figura 4), é possível concluir
que a maioria das famílias (40%) tem três filhos. A frequência acumulada
mostra que 84% das famílias entrevistadas possuem de zero a três filhos, e
apenas 16% possuem de quatro a cinco filhos. Só uma família entre as 25
entrevistadas não tem filhos. O histograma deixa claras as afirmações feitas
a partir da tabela e evidencia que a maior concentração de frequência é de
famílias que têm dois ou três filhos.
Quando você trabalhar com uma variável quantitativa discreta que
pode assumir muitos valores distintos, ou quando a variável for qualitativa
contí-nua, é impraticável tentar construir uma tabela ou fazer a
representação em gráficos considerando cada valor como uma categoria. A
solução é agrupar os valores em classes que representam faixas de valores
com certa amplitude (ZABALA, 2020). De acordo com Scott (1979), a escolha
do número de classes (k sc) e o tamanho das classes (hsc) estão condicionados à
amplitude dos valores a serem representados, da quantidade de observações
disponíveis no conjunto de dados e do desvio padrão amostral:
Estatística descritiva para ciência de dados10
onde:
n = número de observações (ou amostras);
s = desvio padrão amostral;
max(x) = maior valor observado;
min(x) = menor valor observado.
A altura de 100 alunos de uma escola do ensino médio foi coletada. Sabendo que o
desvio das amostras de altura é s = 0,066, que a altura máxima é 1,80, e que a altura
mínima é 1,50, determine o tamanho e a quantidade de classes para representar a
distribuição de frequência de altura dos alunos.
hsc= 3,5*0,066/100^(1/3) hsc= 0,05
ksc= (1,80-1,50)/0,05 ksc= 6
Após encontrar o comprimento do intervalo e o número de classes, basta montar a
tabela de distribuições de frequência e preenchê-la de acordo com os dados, como
mostra o Quadro 4.
Número
de filhos
Frequência
absoluta
Frequência
relativa (%)
Frequência
relativa
acumulada (%)
1,5 1,55 9 9,0 9,0
1,55 1,60 14 14,0 23,0
1,60 1,65 17 17,0 40,0
1,65 1,70 19 19,0 59,0
1,70 1,75 33 33,0 92,0
1,75 1,80 8 8,0 100
Total 100 100 ---
Quadro 4. Distribuição de frequências de altura dos alunos do ensino médio
11Estatística descritiva para ciência de dados
Na atualidade, há muitos dados sendo gerados a todo instante, e é comum trabalhar
com conjuntos de dados em que as variáveis contêm milhares de observações. Portanto,
é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas
computacionais. Atualmente, uma das linguagens de programação mais utilizadas é
o Python. Saiba mais sobre como usar o Python consultando o livro Data Science do
zero: Primeiras regras com o Python de Joel Grus.
3 Medidas em estatística descritiva
A estatística descritiva é a etapa inicial para descrever e resumir os dados.
A seguir, você vai aprender a usar e interpretar as métricas da estatística
descritiva, que se dividem em duas partes: medidas para análise de posição e
medidas para análise de dispersão.
Medidas de posição
A média de uma variável é dada pela soma de todas as observações, dividida
pelo número de observações. Pela facilidade de cálculo e de entendimento, é a
medida de tendência central mais conhecida e usada (REIS; REIS, 2002). Portanto,
onde n é o número de observações no conjunto de dados, e xi é o valor da
i-ésima observação desse conjunto.
A mediana de um conjunto de dados é definida como sendo o valor maior
que 50% dos dados dispostos em ordem crescente, ou seja, é o valor central
para um conjunto de observações ordenadas. A mediana é conhecida também
como segundo quartil (ZABALA, 2020). Para um conjunto de n observações,
a mediana ocupa a posição (n + 1)/2 dos valores ordenados.
A moda é o valor que ocorre com maior frequência para uma variável. Para
uma tabela de frequência composta por classes que representam intervalos, a
classe de maior frequência é chamada de classe modal. Se existe apenas uma
moda, a distribuição é conhecida como unimodal; se existem duas modas,
bimodal; se existem três modas, trimodal. Quando existem quatro ou mais
modas, trata-se de uma distribuição multimodal.
Estatística descritiva para ciência de dados12
Dado um conjunto de observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4], calcule a média, a mediana
e a moda do conjunto.
Média: = 4,55
Mediana: valores ordenados – 2, 3, 4, 4, 4, 5, 5, 6, 8. Mediana = 4.
Moda: o valor mais frequente. Moda = 4.
A média é uma medida influenciada pela presença de valores extremos em
um conjunto de dados, isto é, se no meio das observações há um valor muito
menorque os demais, esse valor vai fazer a média tender na sua direção. O
mesmo ocorre para um valor muito grande. Já a mediana não é tão influen-
ciada por esses valores extremos (ou outliers), visto que o seu cálculo consiste
em ordenar os valores e, a partir disso, determinar a mediana (REIS; REIS,
2002). A moda também tem as suas vantagens. Quando a variável apresenta
distribuições bimodais ou multimodais, a moda pode representar melhor a
posição dos dados do que a média e a mediana.
Os quartis ou separatrizes deixam k * 100% das observações abaixo deles
na amostra ordenada. Os casos mais comuns são os seguintes (ZABALA, 2020):
 o primeiro quartil deixa 25% das amostras ordenadas abaixo, ou seja,
é o valor maior do que 25% das observações ordenadas;
 o segundo quartil é a mediana;
 o terceiro quartil é o valor maior do que 75% das observações ordenadas.
Um método simples para calcular os quartis de forma aproximada pode
seguir os seguintes passos (ZABALA, 2020):
 ordene os dados de forma crescente;
 L = k * n. Se L não é inteiro, arredonde-o para o maior inteiro mais
próximo. O valor do quartil é o L-ésimo valor, a contar do menor. Se L
é inteiro, o quartil é a média entre o L-ésimo e o (L + 1)-ésimo termo,
a contar do menor.
Geralmente, os softwares calculam os quartis usando interpolação.
13Estatística descritiva para ciência de dados
Com o conjunto de observações 15, 5, 3, 8, 10, 2, 7, 11, 12, calcule os quartis 0,25 e 0,75.
1. Ordene os dados: 2, 3, 5, 7, 8, 10, 11, 12, 15.
2. Para 0,25, L= 2,25; para 0,75, L= 6,75.
3. O primeiro quartil é 5, e o terceiro quartil é 11.
Medidas de dispersão
A amplitude de uma variável é dada pela diferença do valor máximo pelo
valor mínimo.
A variância avalia o quanto, em média, os dados variam ao quadrado em re-
lação à média. Trata-se de uma das principais medidas de dispersão em estatística
(ZABALA, 2020). A variância amostral pode ser calculada da seguinte forma:
O desvio padrão amostral (S) é a raiz quadrada da variância amostral.
Usa-se o desvio padrão porque a interpretação da sua grandeza é mais intuitiva,
uma vez que a unidade de medida é a mesma da variável x (ZABALA, 2020).
O coeficiente de variação (CV) é uma medida de dispersão relativa. Essa
métrica exprime a variabilidade em relação à média, eliminando o efeito da
magnitude dos dados (DAVILA, [201-?]). É extremamente útil para comparar
duas ou mais variáveis com unidades de medidas diferentes (PETERNELLI,
[2013]). O CV pode ser calculado da seguinte forma:
Estatística descritiva para ciência de dados14
Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria
nos restaurantes, a fim de apurar possíveis irregularidades na venda dos seus
produtos. Na última vistoria, os agentes coletaram o peso de 10 bifes que eram
vendidos como bife de 200 gramas. Os dados coletados são mostrados a seguir.
X = [170 175 180 185 190 195 200 200 200 205].
Faça uma análise estatística para verificar se há irregularidades com os bifes
vendidos pelo restaurante.
 Média = (170+175+180+185+190+195+200+200+205)/10 Média = 190
 A = 205 – 170 = 35g
 Variância = [ (170-190)^2 + (175-190)^2 + (180-190)^2+ (185-190)^2 + (190-190)^2
+ (195-190)^2 + (200-190)^2 + (200-190)^2 + (205-190)^2 ] / (10 – 1) Variância
= 144,44
 Desvio padrão = 12,02
 Coeficiente de variação = 12,02 / 190 CV = 0,06
Dentro do processo de produção de determinado produto, é normal o peso ou
outra medida de quantidade variar um pouco. Porém, analisando os resultados
para esse caso específico, visto que os bifes apresentam média de peso igual a 190
gramas e desvio padrão de 12 gramas, é possível concluir que a maioria dos clientes
estão sendo lesados. Portanto, no que diz respeito ao controle de qualidade, os
bifes não apresentam um padrão bom.
Neste capítulo, você estudou sobre a importância da ciência de dados
nos moldes operacionais atuais das empresas e como a estatística descritiva
é uma ferramenta importante no processo de extração de informações a
partir dos dados. Além disso, você leu sobre os tipos de variáveis que
podem estar presentes no conjunto de informações de um processo, bem
como a importância da análise da distribuição de frequência dos dados.
Por fim, você viu como interpretar as medidas em estatística descritiva e
extrair informações de tabelas e gráficos que permitem tomar decisões a
partir dos dados.
15Estatística descritiva para ciência de dados
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de
Janeiro: Alta Books, 2016.
DAVILA, V. H. L. Estatística descritiva. Campinas: IME-UNICAMP, [201-?]. Disponível em:
https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 27 abr. 2020.
PETERNELLI, L. A. Estatística descritiva. In: INF 162. São Paulo: EACH USP, [2013]. Disponível
em: http://www.each.usp.br/rvicente/Paternelli_Cap2.pdf. Acesso em: 27 abr. 2020.
REIS, E. A.; REIS, I. A. Análise descritiva de dados. Belo Horizonte: UFMG, 2002. Disponível
em: http://www.est.ufmg.br/portal/arquivos/rts/rte0202.pdf. Acesso em: 27 abr. 2020.
SCOTT, D. W. On optimal and data-based histograms. Biometrika, v. 66, n. 3, Dec. 1979.
Disponível em: http://www.jstor.org/stable/2335182?origin=JSTOR-pdf . Acesso em:
27 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
SILVA, J. S. F.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre: Sagah, 2018.
ZABALA, F. Estatística clássica no RStudio. Porto Alegre: [S. n.], 2020. Disponível em: http://
www.estatisticaclassica.com/ecnrs.pdf. Acesso em: 27 abr. 2020.
Leitura recomendada
GRUS, J. Data Science do zero: primeiras regras com o Python. Rio de Janeiro: Alta
Books, 2018.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.
Estatística descritiva para ciência de dados16
Dica do professor
Atualmente, é comum trabalhar com conjunto de dados cujas variáveis contêm milhares de
observações. Essa análise de grandes volumes de dados torna necessário utilizar ferramentas
computacionais para aplicar os conceitos de estatística descritiva. Entre as ferramentas
computacionais, o Python é uma linguagem de programação amplamente utilizada na Ciência de
Dados.
Na Dica do Professor, você vai aprender alguns comandos básicos para fazer a estatística descritiva
de grandes conjuntos de dados utilizando o Python, que é uma linguagem de programação gratuita,
com uma infinidade de recursos e compatível com diferentes sistemas operacionais, como Linux e
Windows.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/2e1333c3830139c242b47f3bb4c7b217
Exercícios
1) Diversos materiais na Internet definem a ciência de dados como responsável apenas pelo
processamento de dados. Entretanto, ela é responsável por outras etapas extremamente
importantes para o uso de dados. Qual alternativa mostra a sequência correta de todas as
etapas do ciclo da ciência de dados?
A) Entender o problema, coletar os dados, processar os dados, explorar as informações dos
resultados e comunicar os resultados.
B) Entender o problema, coletar os dados, processar os dados, explorar as informações dos
resultados, comunicar os resultados e fornecer feedback.
C) Entender o problema, coletar os dados, armazenar os dados, processar os dados, explorar as
informações dos resultados, comunicar os resultados e fornecer feedback.
D) Coletar os dados, armazenar os dados, processar os dados, explorar as informações dosresultados, comunicar os resultados e fornecer feedback.
E) Coletar os dados, entender o problema, processar os dados, armazenar os dados, explorar as
informações dos resultados, comunicar os resultados e fornecer feedback.
2) O uso da ciência de dados vem se tornando comum nos últimos anos. Apesar disso, ainda
existem pessoas que expressam de forma errada a correlação entre estatística e ciência de
dados.
Qual é a explicação correta sobre a correlação entre estatística e ciência de dados?
A) São iguais. Ambas têm como objetivo analisar os dados.
B) A ciência de dados é um método utilizado pela estatística descritiva.
C) A estatística é utilizada para processar os dados, e a ciência de dados é responsável por
interpretar os resultados da estatística.
D) A estatística é uma ferramenta da ciência de dados e é utilizada nas etapas de coleta e
processamento de dados.
E) A estatística é uma ferramenta da ciência de dados e é utilizada nas etapas de processar os
dados e explorar as informações dos resultados.
3) Um questionário geral visando a analisar um grupo de pessoas com acompanhamento
nutricional foi desenvolvido, composto pelas variáveis sexo, peso, altura, número de filhos,
telefone e mês de início do acompanhamento. Classifique a classe de cada variável e assinale
a alternativa que representa a sequência correta.
A) Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta,
qualitativa nominal e qualitativa ordinal.
B) Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta,
quantitativa discreta e qualitativa ordinal.
C) Qualitativa ordinal, quantitativa contínua, quantitativa contínua, quantitativa discreta,
qualitativa nominal e qualitativa ordinal.
D) Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa contínua,
qualitativa nominal e qualitativa ordinal.
E) Qualitativa nominal, quantitativa contínua, quantitativa discreta, quantitativa discreta,
qualitativa nominal e qualitativa ordinal.
Em uma escola no interior de São Paulo, é comum que o professor de Educação Física faça a
medição de altura dos alunos no início do ano letivo e faça uma comparação entre as alturas
medidas. Para isso, o professor mediu a altura de 100 alunos e montou uma tabela com a
distribuição de frequência de altura.
O que é possível concluir a partir da tabela?
4)
A) A maioria dos alunos tem entre 1,65 e 1,70m de altura. A minoria dos alunos tem entre 1,50 e
1,55m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
B) A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e
1,80m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
C) A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,50 e
1,55m. Do total de alunos, 92% têm entre 1,50 e 1,70m.
D) A maioria dos alunos tem entre 1,65 e 1,70m de altura. A minoria dos alunos tem entre 1,75 e
1,80m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
E) A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e
1,80m. Do total de alunos, 40% têm entre 1,50 e 1,70m.
5) A estatística descritiva é responsável pela etapa inicial de análise de dados. Por meio de suas
métricas, é possível analisar a posição das variáveis e analisar a dispersão.
Escolha a alternativa que melhor explica as medidas em estatística descritiva.
Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a
soma de todas as observações dividida pelo número total de observações. A mediana é o
valor que a variável assume com maior frequência. A moda, também conhecida como 2.o
quartil, indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%)
A)
indica um valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%)
indica um valor em que 75% das amostras ordenadas são menores. A amplitude e o
coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o
valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de
dispersão relativa, que elimina o efeito da magnitude dos dados.
B) Média, mediana, moda e amplitude são medidas para análise de posição. A média é a soma de
todas as observações dividida pelo número total de observações. A moda é o valor que a
variável assume com maior frequência. A mediana, também conhecida como 2.o quartil, indica
um valor que é maior que 50% das amostras ordenadas. A amplitude é dada pela diferença
entre o valor máximo e o valor mínimo da variável. Os quartis (1.o e 3.o) e o coeficiente de
variação são medidas de dispersão. O 1.o quartil (25%) indica um valor em que 25% das
amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor em que 75% das
amostras ordenadas são menores. O coeficiente de variação é uma medida de dispersão
relativa, que elimina o efeito da magnitude dos dados.
C) Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a
soma de todas as observações dividida pelo número total de observações. A moda é o valor
que a variável assume com maior frequência. A mediana, também conhecida como 2.o quartil,
indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) indica um
valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor
em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação
são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor
mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que
considera o efeito da magnitude dos dados.
D) Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a
soma de todas as observações dividida pelo número total de observações. A moda é o valor
que a variável assume com maior frequência. A mediana, também conhecida como 2.o quartil,
indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) indica um
valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor
em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação
são medidas de dispersão. A amplitude é o valor máximo que a variável assume. O coeficiente
de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.o e 3.o) são medidas para análise de posição. A média é a
soma de todas as observações dividida pelo número total de observações. A moda é o valor
que a variável assume com maior frequência. A mediana, também conhecida como 2.o quartil,
indica um valor que é maior que 50% das amostras ordenadas. O 1.o quartil (25%) indica um
valor em que 25% das amostras ordenadas são menores, e o 3.o quartil (75%) indica um valor
em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação
são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor
E)
mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina
o efeito da magnitude dos dados.
Na prática
O café pertence ao gênero Coffea da família Rubiaciae, e, entre as diversas espécies existentes, as
principais do ponto de vista agroeconômico são a Coffea arabica (café arábica) e a Coffea canephora
(café robusta). No Brasil, seu cultivo é considerado um dos mais tradicionais da agricultura, sendo,
por isso, uma das principais commodities que contribuem com o PIB e com a movimentação da
economia do País. O Brasil é o maior produtor, sendo responsável por cerca de um terço da
produção mundial. Além disso, é também o maior exportador e o segundo maior consumidor da
bebida. Os cafés produzidos na Região das Matas de Minas podem ser chamados de cafés de
qualidade, por apresentarem diversidade de sabores e atributos e por terem sido premiados em
concursosnacionais e internacionais.
Dada a importância da Região das Matas de Minas na produção cafeeira e a crescente demanda por
cafés de qualidade, torna-se importante o estudo da análise da influência dos fatores do ambiente e
da origem genética da planta sobre a qualidade da bebida produzida. Assim, é possível identificar os
cafés produzidos na região pelo seu potencial de qualidade em consequência das características
ambientais oferecidas pelo local e potencializar os lucros.
Neste Na Prática, você vai ver um estudo de caso que utilizou a estatística descritiva como uma das
ferramentas para investigar a qualidade dos cafés da Região das Matas de Minas em função da
variedade, da altitude e da orientação da encosta da montanha.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/0d47f8fe-3131-4268-8d66-87945d2d5ff4/7fc5c72a-41ed-4578-9075-a8f805051f99.png
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/46446091-9ee0-4389-821c-1cbbdb111871/6af64fa2-2b68-4576-84ab-9d5d7da9500f.png
Saiba +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Estatística Aplicada à Administração e Economia
Doane, David P.; Seward, Lori E
Conteúdo interativo disponível na plataforma de ensino!
Estatística descritiva — gráficos e tabelas para uma variável
Confira este vídeo explicativo sobre a aplicação de estatística descritiva na análise de um banco de
dados utilizando o Excel.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Estatísticas descritivas no R — Tabelas
Veja, no vídeo a seguir, o uso do software R para aplicação da estatística descritiva em conjuntos de
dados.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Introdução à análise exploratória de dados com Python
Confira, neste artigo científico, o uso da linguagem Python para análise de estatística descritiva e
para figuras de distribuição de frequência das variáveis. O Python atualmente está entre as
linguagens mais utilizadas pelos cientistas de dados do meio empresarial e acadêmico.
https://www.youtube.com/embed/hHkYlMIEBFU
https://www.youtube.com/embed/jZvQ4N0nuDY
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://www.researchgate.net/publication/336778766_Introducao_a_Analise_Exploratoria_de_Dados_com_Python

Estatística Descritiva para Ciência de Dados

Artes

Ferramentas de estudo

Conteúdos escolhidos para você

Análise de Dados

Bioestatística: Conceitos e Aplicações

Estatistica Pratica para Cientistas de Dados

Capitulo 1-2 estatistica descritiva 2022.1 lagp da Pedra

Estatística-Aplicada-às-Finanças-1-P

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a méd...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a média

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Análise de Dados

Bioestatística: Conceitos e Aplicações

Estatistica Pratica para Cientistas de Dados

Capitulo 1-2 estatistica descritiva 2022.1 lagp da Pedra

Estatística-Aplicada-às-Finanças-1-P

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a méd...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Uma empresa de auditoria interna realizou um levantamento completo de todas as notas fiscais processadas no último trimestre para identificar a média

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

Mais conteúdos dessa disciplina