Buscar

Análise exploratória de dados

Prévia do material em texto

1. 
Atualmente, cada vez mais se tem acesso a dados dos mais variados tipos e formatos e, além disso, a quantidade de dados com o acesso à informação vem aumentando. Para auxiliar na avaliação desses dados, existe um processo que é considerado a principal etapa da análise dos dados, onde deve-se organizar, resumir e aplicar alguns cálculos, com isso resumindo as informações em um formato visual adequado à visualização. Esse conceito se refere à/ao:
A. 
Análise exploratória de dados.
A análise exploratória de dados é o processo que deve organizar, resumir e aplicar cálculos, com isso resumindo as informações em um formato visual adequado à visualização. Big data é a área do conhecimento que estuda como tratar, analisar e obter informações a partir de conjuntos de dados grandes demais para serem analisados por sistemas tradicionais. Ciência de dados é uma área interdisciplinar, voltada para o estudo e análise de dados econômicos, financeiros e sociais, estruturados e não estruturados, que visa a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão. Analytics refere-se à possibilidade de utilizar dados, análises e raciocínio para seguir em um processo de tomada de decisão muito mais eficiente. Sabedoria agrega valor, o que requer o uso da função mental que chamamos de julgamento. Os valores éticos e estéticos que isso implica são inerentes ao ator e são únicos e pessoais.
2. 
A análise exploratória de dados é composta por várias etapas, cada uma desempenhando um papel fundamental para que a análise seja bem-sucedida. Na etapa de tratamento dos dados, existem problemas que denotam atenção. Na coleta de dados para uma análise sobre a fraude em cartões de crédito, por exemplo, nos valores de compra, na fatura de um cliente, surgem alguns que apresentam um grande afastamento dos demais valores da série.
Esse tipo de dado é conhecido como:
B. 
Outliers.
Univariado não se trata de um erro, mas de uma análise em apenas uma variável. São chamados outliers os dados que apresentam valores com um grande afastamento dos demais. Multivariado, da mesma forma do dado univariado, não se trata de um problema, mas quando se analisa um conjunto de variáveis juntas. Dados qualitativos e quantitativos não tratam de erros, mas da forma de representação do valor, ou seja, valores não numéricos e valores numéricos, respectivamente.
3. 
Ao aplicar pesquisas, cada vez mais tenta-se encontrar alguma ligação entre determinados fatos. Essas se referem à tendência de dois acontecimentos ocorrerem de forma sincronizada; quando um cliente compra pão todos os dias na mesma padaria, por exemplo, a tendência é que as variáveis “frequência diária de compra” e “satisfação com o pão” estejam relacionadas.
A essa relação se dá o nome de:​​​​​​​
C. 
Correlação.
A normalização de valores se refere a deixar todos os valores numéricos em uma escala comum sem distorcer as diferenças no intervalo. Análise univariada consiste em avaliar cada uma das variáveis isoladamente. A correlação se refere a dois acontecimentos que tendem a ocorrer de forma sincronizada. A análise multivariada estabelece relações entre duas ou mais variáveis. Outliers é um valor atípico, que apresenta um grande afastamento dos demais valores da série ou que é inconsistente.
4. 
Uma das características que facilita a interpretação e correlação dos dados na análise exploratória de dados é sua apresentação.
Indique qual das opções sugere um tipo de apresentação:​​​​​​​
D. 
Gráfico.
A listagem indica uma lista simples que não irá facilitar a correlação dos dados. A imagem é a representação visual de um objeto e não auxiliar na existência da correlação de dados. O esquema é estrutura mental que representa algum aspecto do mundo. O gráfico é a apresentação onde se consegue interpretar e entender as correlações existentes. O infográfico são textos visuais explicativos e informativos.
5. 
Um dos grandes problemas na análise exploratória de dados são os dados ausentes (missing values), que podem resultar em uma análise errada ou mesmo em problemas na utilização desses dados em algoritmos de machine learning. Existem algumas técnicas a serem utilizadas para imputação desses valores ausentes, a exemplo da média, da repetição do último valor, de uma regressão linear ou mesmo do descarte da informação.
Para que a técnica seja escolhida, porém, deve-se saber:​​​​​​​
E. 
O tipo do dado faltante.
A origem do dado se refere ao seu local de partida, porém não é importante para o preenchimento do dado faltante. O motivo do dado faltante é importante para saber o porquê de a informação estar faltando, mas não é útil para fazer o preenchimento. Os dados normalizados são importantes para deixar todos os valores numéricos na mesma escala comum, mas não são úteis para fazer o preenchimento de valores ausentes. O destino do dado serve para saber onde o dado será armazenado, mas também não é útil para fazer o preenchimento de valores ausentes. O tipo do dado faltante é a informação primordial para que se consiga fazer o preenchimento adequado do valor ausente.

Continue navegando