Buscar

p3_Preparação e Análise Exploratória de Dados (19364)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Avaliação Final (Objetiva) - Individual FLEX (Cod.:680839) 
Código da prova: 37702714 
Disciplina: Preparação e Análise Exploratória de Dados (19364) 
Período para responder: 02/10/2021 - 18/10/2021 
Peso: 3,00 
1 - Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de máquina, mineração
de dados e inteligência na Web, é necessário preparar dados de qualidade, processando os dados brutos. Para
Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do tempo total do projeto é dedicado à preparação de
dados: coleta de dados, combinar as diversas fontes de dados, agregações, transformações, limpeza de dados e "fatiar e
cortar em cubos". Essa atividade ainda envolve examinar a amplitude e profundidade dos dados para obter um
entendimento claro, além de transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). Com
base na importância da preparação de dados adequada, assinale a alternativa CORRETA:
FONTE: MASHANOVICH, N. Credit Scoping: Part 3 - Data Preparation and Exploratory Data Analysis. 2017.
Disponível em: https://www. 
worldprogramming.com/blog/credit_scoring_pt3. Acesso em: 25 maio 2021.
A ) O problema não precisa estar mapeado para fazer uso da preparação de dados.
B ) A preparação de dados é a chave para resolver o problema em questão mesmo quando não se sabe qual problema se
quer resolver.
C ) A preparação de dados é tão crucial que acontece até antes mesmo de se mapear o problema em questão.
D ) Após o problema mapeado a preparação de dados é a diferença entre o sucesso e o fracasso obtido.
2 - Algumas vezes, exibir somente as informações condensadas de um conjunto de dados é mais adequado do que
mostrar todas as informações em uma tabela. Nesse caso, devemos usar uma exibição de caule e folhas. Referente à
exibição de caule e folhas, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A exibição de caule e folhas é o objeto mais simples da EDA.
( ) A exibição de caule e folhas serve simplesmente para organizar os dados de uma maneira conveniente.
( ) As folhas são números em uma haste.
( ) A haste é uma linha com um valor.
Assinale a alternativa que apresenta a sequência CORRETA:
A ) F - F - V - F.
B ) F - F - V - V.
C ) V - F - V - V.
D ) F - V - F - V.
3 - O uso das técnicas de análise exploratória de dados objetiva procurar os dados para a estrutura ou a falta dela.
Algumas das técnicas são o uso de tabelas, sumário de cinco números, exibição de caule e folhas, exibição de scatterplot
matrix, exibição por outliers, entre outras técnicas. Referente às tabelas, classifique V para as sentenças verdadeiras e F
para as falsas:
( ) Uma tabela é o objeto mais complexo da EDA.
( ) Uma tabela consiste nos quartis maior, menor, mediano e superior e inferior.
( ) Uma tabela é o objeto mais simples da EDA.
( ) A tabela serve simplesmente para organizar os dados de uma maneira conveniente.
Assinale a alternativa que apresenta a sequência CORRETA:
A ) F - F - V - F.
B ) F - F - V - V.
C ) F - V - F - V.
D ) V - F - V - V.
4 - A limpeza de dados diz respeito a todo e qualquer tipo de tratamento que se realize sobre os dados escolhidos de
maneira que garanta a qualidade, ou seja, que se assegure a completude, veracidade e integridade dos fatos que aqueles
dados representem. Nesse sentido, analise as sentenças a seguir:
I- Informações ausentes, errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a não
comprometer a qualidade dos modelos de conhecimento a serem extraídos.
II- Valores com informações ausentes dificilmente aparecem em análises estatísticas sérias.
III- Um exemplo simples de limpeza de dados seria a definição de um intervalo de possíveis valores para um
determinado atributo.
Assinale a alternativa CORRETA:
A ) As sentenças II e III estão corretas.
B ) As sentenças I e III estão corretas.
C ) As sentenças I e II estão corretas.
D ) Somente a sentença I está correta.
5 - Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser feita no
conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode descobrir que poucos pontos de
dados influenciam o modelo de aprendizado de máquina em direção a um determinado resultado. Dados de baixa
qualidade ou dados ruins custam, a uma organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais
para suportar. Dados ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights
incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos
agradável do processo de ciência de dados. Portanto, a preparação de dados é necessária devido à presença de dados não
formatados do mundo real. Com base em como é composto a maioria dos dados do mundo real, classifique V para as
sentenças verdadeiras e F para as sentenças falsas: 
( ) A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados ruidosos e dados
inconsistentes. 
( ) Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na entrada de dados,
problemas técnicos com biometria e muito mais. 
( ) A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a existência de
duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes, como violação de restrições de
dados e muito mais. 
( ) A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um problema
tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito mais. 
Assinale a alternativa que apresenta a sequência CORRETA:
A ) F - F - V - F.
B ) V - V - F - F.
C ) F - V - V - V.
D ) V - F - V - V.
6 - Um conjunto de dados é uma coleção de valores, geralmente números quando quantitativos ou sequências de
caracteres se qualitativas. Os valores são organizados de duas maneiras, pertencendo a uma variável e a uma observação.
A semântica dos dados é fundamental na organização dos dados. Sobre essa observação, assinale a alternativa
CORRETA:
A ) A estrutura dos dados se refere aos caracteres apresentados.
B ) Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o
layout é diferente.
C ) A estrutura dos dados está relacionada com a coleção de seus valores.
D ) A estrutura dos dados diz respeito aos números que apresentamos.
7 - Existe uma análise exploratória de dados que tem como objetivo substituir a dispersão de pontos por uma smooth
curve. Cabe destacar que nesta técnica o efeito de suavização é meio drástico e ocorre uma sinalização. A curva
resultante da suavização pode ser uma linha reta, na qual muitas vezes um ajuste de mínimos quadrados locais pode ser
empregado nas curvas locais, y = f (x), um quadrático. O caractere local é frequentemente introduzido empregando um
kernel. Um segundo kernel pode ser introduzido para tornar a operação robusta/resistente. Desta forma, se reduz o
impacto de pontos com grandes resíduos. A qual técnica estamos nos referindo?
A ) Smoother.
B ) Residual Plots.
C ) Bag Plots.
D ) Exibição por Outliers.
8 - Dados organizados, ou seja, estruturados, proveem uma forma padronizada de vincular a estrutura de dados, isto é,
seu layout físico, com sua semântica, ou seja, com seu significado. Ao termos um conjunto de dados organizados,
conseguimos facilmente manipular, modelar e visualizar, possuindo uma estrutura específica. Portanto, é essencial
compreendermos estrutura e a sua semântica. Analise as questões referentes à estrutura de dados e assinale a alternativa
CORRETA:
A ) Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o
layout é diferente.
B ) A estrutura dos dados diz respeito aos números que apresentamos.
C ) A estrutura dos dados se refere aos caracteres apresentados.
D ) A estrutura dos dados estárelacionada com a coleção de seus valores.
9 - Existe uma técnica da análise exploratória de dados que é uma maneira conveniente de estudar a dispersão dos dados
bivariados. Na sua construção, é necessária uma mediana bivariada, análoga dos quartis e whiskers. Que técnica é essa?
A ) Exibição Scatterplot Matrix.
B ) Exibição por Outliers.
C ) Residual Plots.
D ) Bag Plots.
10 - Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de marketing
direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes existentes. Esse gerente
não sabe como resolver o problema, porém, ele sabe que a área de TI da empresa pode o auxiliar. Digamos que o
profissional de TI consiga identificar os dados relacionados com o problema que se referente aos dados estruturados,
semiestruturados e não estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos
de dados identificados e suas fontes, analise as sentenças a seguir: 
I- Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamento do problema. 
II- Na identificação do problema, podemos nos deparar com dados estruturados, dados semiestruturados, dados não
estruturados e também dados oriundos de redes sociais e de bases externas. 
III- Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da organização. 
IV- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de
texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. 
Assinale a alternativa CORRETA:
A ) Somente a sentença III está correta.
B ) As sentenças I e IV estão corretas.
C ) As sentenças I e II estão corretas.
D ) As sentenças II, III e IV estão corretas.

Continue navegando