Estatística descritiva usando Pandas e Numpy

•

UNIP

0

Ana

27/04/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise Exploratória de Dados

493 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1.
Pandas é uma biblioteca do Python que trabalha com funções estatísticas e matemáticas, auxiliando no processo de análise de dados.
Você, como cientista de dados, indica o uso dessa biblioteca, pois ela suporta, principalmente, quais estruturas de dados? Marque a resposta correta.
A.
Series e Dataframe.
Series e Dataframe são as duas principais estruturas de dados suportadas pelo Pandas. CSV e tabelas são tipos de dados que podem ser carregados através de um dataframe no Pandas. Array unidimensional é representado como uma Series no Pandas, e Array bidimensional também é suportado, chamado de Dataframe no Pandas. O Pandas suporta arquivos CSV com separação.
2.
Os dados são representados como caracteres estatísticos, ou seja, aspectos sobre as propriedades analisadas de cada um dos elementos da amostra. Esses elementos podem ser seres vivos ou objetos.
Quais são os dois tipos de dados existentes? Marque a alternativa correta.
B.
Qualitativo e quantitativo.
Os tipos de dados existentes são qualitativo e quantitativo. Nominal e ordinal são as classificações quanto ao nível de mensuração para os dados qualitativos. Intervalar e razão são as classificações quanto ao nível de mensuração para os dados qualitativos. Categóricos e atributos são sinônimos para dados qualitativos. Rótulos e categorias são utilizados pelo nível nominal de mensuração.
3.
Muitas vezes, quando é iniciada a análise de dados, deseja-se visualizar uma parte dos dados que está trabalhando para facilitar a montagem dos modelos estatísticos utilizados.
Qual é o comando utilizado para verificar algumas linhas iniciais da tabela, juntamente com os nomes das suas colunas? Escolha a opção certa.
C.
Head().
Info() é o comando utilizado para retornar a quantidade de colunas, o nome de cada coluna, a quantidade de informações de cada coluna não nula e o tipo de dado de cada coluna. O comando Tail() retorna as cinco últimas linhas do dataframe, com os nomes de cada coluna. O comando Head() retorna as cinco primeiras linhas do dataframe, com os nomes de cada coluna. O comando Mean() pode ser calculado de acordo com o eixo (linha ou coluna) e retorna a média aritmética. O comando Std() pode ser calculado de acordo com o eixo (linha ou coluna) e retorna o desvio padrão.
4.
Uma das grandes vantagens de utilizar a biblioteca Pandas para fazer análise dos dados é a facilidade no uso das funções estatísticas, pois existem diferentes funções. Alguns exemplos são funções que calculam a média, mediana, desvio padrão, variância, entre outras.
Qual é o comando utilizado para retornar um resumo estatístico do dataframe? Marque a alternativa correta.
D.
Describe().
O comando Shape() retorna a quantidade de linhas e colunas de um dataframe. O comando Quatile() retorna os valores dos quartis de um dataframe. O comando Info() é o comando utilizado para retornar a quantidade de colunas, o nome de cada coluna, a quantidade de informações de cada coluna não nula e o tipo de dado de cada coluna. O comando Describe() retorna um resumo estatístico do dataframe. O comando Var() retorna a variância de um dataframe.
5.
Fazer a análise de dados é uma tarefa trabalhosa. Por isso, atualmente, têm sido utilizadas muitas ferramentas que facilitam esse processo. Essas ferramentas apresentam a manipulação de dados, utilizando funções estatísticas e matemáticas, e até opções de visualização em algumas.
Qual função estatística é utilizada para verificar a dispersão dos dados? Marque a alternativa correta.
E.
Desvio padrão.
A função moda retorna o dado que aparece com maior frequência e não é uma medida de dispersão. A função quartil retorna os valores dos quartis e não é uma medida de dispersão. A mediana retorna o valor da variável que ocupa a posição central de um conjunto de n dados ordenados e não é uma medida de dispersão. A média retorna a média aritmética e não é uma medida de dispersão. O desvio padrão indica o quanto os dados estão afastados da média e é uma medida de dispersão.