Buscar

Avaliação I - Individual Preparação e Análise Exploratória de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Avaliação I - Individual Preparação e Análise Exploratória de Dados
1
Segundo Bi4all (2021, s.p), "sabia que em 2020, a cada minuto, foram publicadas 347 mil novas
Stories no Instagram, 147 mil fotos no Facebook e 41 milhões de mensagens foram trocadas no
WhatsApp?". Cabe destacar "que mais de 4,5 biliões de pessoas usam internet, enquanto os
utilizadores das redes sociais ultrapassaram já os 3,8 biliões com quase 60% da população mundial
online. Estes números ilustram bem a quantidade de dados que circulam no mundo, o que oferece
imensas oportunidades e desafios às empresas que transformam estes dados em valor para o
negócio" (BI4ALL, 2021, s.p.). Com base no volume de dados não significa qualidade de dados, analise
as sentenças a seguir:
I- A preparação de dados é essencial para todo e qualquer projeto que envolver a análise exploratória
de dados.
II- A qualidade do insumo interfere diretamente na qualidade do produto.
III- Quanto maior a quantidade de dados melhor será o produto final.
IV- A qualidade do produto final está diretamente relacionada a se ter o maior número possível de
informação.
Assinale a alternativa CORRETA: FONTE: BI4ALL. 2021: A Soberania dos dados. 2021. Disponível em:
https://www.bi4all.pt/noticias/blog/2021-a-soberania-dos-dados/. Acesso em: 25 maio 2021.
A) As sentenças I e II estão corretas.
B) As sentenças II e IV estão corretas.
C) As sentenças III e IV estão corretas.
D) As sentenças I e III estão corretas.
2 Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode
ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode
descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção
a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma organização,
média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má
qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e
é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa
menos agradável do processo de ciência de dados. Portanto, a preparação de dados é necessária
devido à presença de dados não formatados do mundo real. Com base em como é composto a
maioria dos dados do mundo real, classifique V para as sentenças verdadeiras e F para as sentenças
falsas:
( ) A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados
ruidosos e dados inconsistentes.
( ) Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na
entrada de dados, problemas técnicos com biometria e muito mais.
( ) A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a
existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes,
como violação de restrições de dados e muito mais.
( ) A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um
problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e
muito mais. Assinale a alternativa que apresenta a sequência CORRETA:
A) V - F - V - V.
B) F - V - V - V.
C) V - V - F - F.
D) F - F - V - F.
3 Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de
marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os
clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de
TI da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados
relacionados com o problema que se referente aos dados estruturados, semiestruturados e não
estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos
de dados identificados e suas fontes, classifique V para as sentenças verdadeiras e F para as sentenças
falsas.
( ) Somente as bases internas dizem respeito aos tipos de dados que são identificados no
mapeamento do problema.
( ) Na identificação do problema, podemos nos deparar com dados estruturados, dados
semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases
externas.
( ) Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da
organização.
( ) Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes,
como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado.
Assinale a alternativa que apresenta a sequência CORRETA:
A) F - V - V - V.
B) F - V - V - F.
C) F - F - V - F.
D) V - F - V - V.
4 Várias atividades precisam ser realizadas para transformar os dados brutos em informações
relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas
atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema,
limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística,
normalização e redução da dimensionalidade. Com relação à integração de dados, analise as
sentenças a seguir:
I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados.
II- É o processo de agregar valor aos dados existentes.
III- Consiste em eliminar ruídos, inconsistências e resolver problemas estruturais
IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence (BI) é gasto na preparação de
dados para serem analisados. Assinale a alternativa CORRETA:
A) Somente a sentença III está correta.
B) As sentenças I e IV estão corretas.
C) Somente a sentença II está correta.
D) Somente a sentença IV está correta.
5 Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a
identificação dos dados relacionados com ele. Esses dados podem ser internos e externos. Cabe
destacar que essa identificação inicial será o ponto de partida para fazer a coleta dos dados e a
integração em um conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados
identificados e suas fontes, analise as sentenças a seguir:
I- Os dados estruturados são oriundos de bancos de dados relacionais da organização.
II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes,
como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado.
III- As redes sociais e bases externas abertas não são relevantes no contexto da questão.
Assinale a alternativa CORRETA:
A) As sentenças I e II estão corretas.
B) As sentenças I e III estão corretas.
C) As sentenças II e III estão corretas.
D) Somente a sentença I está correta.
6 Os dados quantitativos podem ser classificados quando é possível realizar operações aritméticas.
Vamos exemplificar: quando é possível somar dois pesos ou duas temperaturas, peso e temperatura
são quantitativos. Dentro dos dados quantitativos, também conhecidos como dados numéricos, existe
um subnível de tipos de dados: dados discretos ou dados contínuos. Referente aos dados discretos,
classifique V para as sentenças verdadeiras e F para as falsas:
( ) São aqueles dados que assumem valores com casas decimais e que admitem que entre dois
números há uma infinidade de números quebrados.
( ) São dados que continuam indefinidamente.
( ) São dados quantitativos que não têm valores em casas decimais, como inteiros e naturais (1, 0, -5).
( ) São um número inteiro e não podem ser subdivididos em partes cada vez menores.
Assinale a alternativa que apresenta a sequência CORRETA:
A) V - F - V - V.
B) F - F - V - F.
C) F - V - F - V.
D) F - F - V - V.
7 Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de
máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade,
processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do
tempo total do projeto é dedicadoà preparação de dados: coleta de dados, combinar as diversas
fontes de dados, agregações, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa
atividade ainda envolve examinar a amplitude e profundidade dos dados para obter um
entendimento claro, além de transformar a quantidade de dados em qualidade de dados
(MASHANOVICH, 2017). Com base na importância da preparação de dados, classifique V para as
sentenças verdadeiras e F para as sentenças falsas.
( ) Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido.
( ) O problema não precisa estar mapeado para fazer uso da preparação de dados.
( ) A preparação de dados é a chave para resolver o problema em questão mesmo quando não se
sabe qual problema se quer resolver.
( ) A preparação de dados é um tópico crucial de pesquisa crucial após se mapear o problema em
questão.
Assinale a alternativa que apresenta a sequência CORRETA: FONTE: MASHANOVICH, N. Credit Scoping:
Part 3 - Data Preparation and Exploratory Data Analysis. 2017. Disponível em:
https://www.worldprogramming.com/blog/credit_scoring_pt3. Acesso em: 25 maio 2021.
A) F - V - V - V.
B) F - V - V - F.
C) V - F - F - V.
D) V - F - V - V.
8 Os atributos contêm informações sobre cada unidade de observação. Dependendo de quantos tipos
diferentes de informações são coletados de cada unidade, os dados podem ser univariados,
bivariados ou multivariados. Diante do exposto, classifique V para as sentenças verdadeiras e F para
as falsas:
( ) Os atributos podem ter formas e estruturas variadas, mas em um critério são todos iguais, ou seja,
os dados contêm informações e características que separam uma unidade ou observação das outras.
( ) Os valores que um atributo pode assumir são separados em tipo de dados e escala de medição.
( ) Atributo é o recurso, variável ou campo, que é uma propriedade ou característica de um objeto.
Assinale a alternativa que apresenta a sequência CORRETA:
A) V - V - V.
B) F - F - V.
C) V - F - V.
D) F - V - F.
9 A preparação de dados é a base da análise. A melhor maneira de acelerar o processo de análise é
reduzir o tempo de preparação de dados. Assim, pode-se dizer que, no contexto, a preparação de
dados significa manipulação de dados em um formato adequado para análise e processamento. Nesse
processo estão envolvidas etapas como de limpeza, integração, transformação, redução e
discretização. Referente à etapa da limpeza de dados, classifique V para as sentenças verdadeiras e F
para as falsas:
( ) O foco dessa etapa é resolver os conflitos de integração.
( ) Essa etapa visa reduzir o conjunto de dados por meio de estratégias, como de redução de
dimensionalidade de requisitos.
( ) Essa etapa se trata de corrigir os dados inconsistentes, preencher valores ausentes e suavizar
dados ruidosos.
( ) Nessa etapa, pode ocorrer de no conjunto de dados existirem muitas linhas que não possuam
valor para atributos de interesse, dados inconsistentes, registros duplicados ou algum outro erro
aleatório.
Assinale a alternativa que apresenta a sequência CORRETA:
A) F - V - F - V.
B) F - F - V - F.
C) F - F - V - V.
D) V - F - V - V.
10 A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem
incompletos, ou seja, devido à ausência de atributos de interesse, dados agregados, ausência de
valores; serem ruidosos, decorrentes de erros aleatórios; de valores aberrantes, também conhecidos
como outliers; e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse
sentido, existem algumas etapas no processos de preparação dos dados. Referente às etapas
envolvidas no processo, classifique V para as sentenças verdadeiras e F para as falsas:
( ) A Integração diz respeito a remover qualquer ruído dos dados, envolvendo a normalização,
agregação e generalização.
( ) A transformação visa resolver conflitos de dados ocorridos na integração de dados, bem como
tratar de manipular as redundâncias que podem existir.
( ) A redução visa reduzir o conjunto de dados por meio de estratégias, como de redução de
dimensionalidade de requisitos, agregação de cubos de dados e redução de numerosidade.
( ) A discretização ajuda a reduzir o tamanho dos dados para análise, muitas vezes dividindo atributos
contínuos em intervalos.
Assinale a alternativa que apresenta a sequência CORRETA:
A) F - F - V - F.
B) F - V - F - V.
C) F - F - V - V.
D) V - F - V - V.

Outros materiais