Buscar

Preparação de Dados para Análise

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 6 páginas

Prévia do material em texto

27/04/22, 09:57 Avaliação I - Individual
1/6
Prova Impressa
GABARITO | Avaliação I - Individual (Cod.:742465)
Peso da Avaliação 1,50
Prova 44295005
Qtd. de Questões 10
Acertos/Erros 9/1
Nota 9,00
Os dados identificados e integrados ao conjunto de dados nem sempre estão prontos para serem
utilizados. Portanto, é necessária uma etapa de preparação, na qual esse conjunto de dados será coletado,
limpado, normalizado e combinado, possibilitando, assim, que uma análise posterior seja realizada.
Dessa forma, podemos afirmar que a preparação de dados é necessária devido à presença de dados não
formatados do mundo real. Referente à forma como a maioria dos dados do mundo real é composta,
analise as sentenças a seguir: I- Dados imprecisos ou ausentes podem ocorrer devido a erro na entrada de
dados, problemas técnicos com biometria e muito mais. II- Dados ruidosos se devem aos motivos que
ocasionam a existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou
nomes, como violação de restrições de dados, entre outros. III- Dados inconsistentes podem ser um
problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados etc.
Assinale a alternativa CORRETA:
A Somente a sentença II está correta.
B As sentenças II e III estão corretas.
C As sentenças I e II estão corretas.
D Somente a sentença I está correta.
Volume de dados não significa qualidade de dados. Uma expressão usada é "Garbage in, Garbage
out", além de ser uma ameaça para o sucesso do projeto. Isso acontece pelo fato de a qualidade do
insumo ser uma peça fundamental na qualidade do produto. Dessa forma, podemos dizer que a
preparação de dados é:
A Essencial para todo e qualquer projeto que envolve a análise exploratória de dados.
B Não afeta a análise exploratória de dados, apesar de fazer parte do projeto.
C Faz parte do processo da análise exploratória de dados, porém não é algo essencial para o projeto
como um todo.
D Afeta minimamente a análise exploratória de dados dentro do projeto, devido ser uma parte
insignificante do projeto.
 VOLTAR
A+ Alterar modo de visualização
1
2
27/04/22, 09:57 Avaliação I - Individual
2/6
Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que
entre dois números há uma infinidade de números quebrados. Podemos exemplificar com o valor de Pi
(3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam
indefinidamente. Esses dados podem ser divididos em unidades cada vez menores. Referente aos dados
do tipo contínuo, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os dados contínuos
podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção. ( ) Uma variável, ou
atributo, é contínua se puder receber algum valor em um determinado intervalo. ( ) Exemplos de
variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc. Assinale a alternativa que
apresenta a sequência CORRETA:
A V - V - V.
B F - V - V.
C F - V - F.
D F - F - V.
Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria pode ser
feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados pode descobrir
que poucos pontos de dados influenciam o modelo de aprendizado de máquina em direção a um
determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma organização, média de
US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados ruins ou má qualidade dos
dados podem alterar a precisão dos insights ou podem ocasionar insights incorretos, e é por isso que a
preparação é de extrema importância, mesmo que consuma tempo e seja a tarefa menos agradável do
processo de ciência de dados. Portanto, a preparação de dados é necessária devido à presença de dados
não formatados do mundo real. Com base na maioria dos dados do mundo real, classifique V para as
sentenças verdadeiras e F para as sentenças falsas:
( ) A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por dados
ruidosos e dados inconsistentes.
( ) Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro na
entrada de dados, problemas técnicos com biometria e muito mais.
( ) A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a
existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes,
como violação de restrições de dados e muito mais.
( ) A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser um
problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e muito
mais.
Assinale a alternativa que apresenta a sequência CORRETA:
A F - F - V - F.
3
4
27/04/22, 09:57 Avaliação I - Individual
3/6
B F - V - V - V.
C V - V - F - F.
D V - F - V - V.
Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado de
máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade,
processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do
tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes de
dados, agregações, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa atividade ainda
envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro, além de
transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). 
Com base na importância da preparação de dados, classifique V para as sentenças verdadeiras e F para as
falsas:
( ) Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido.
( ) O problema não precisa estar mapeado para fazer uso da preparação de dados.
( ) A preparação de dados é a chave para resolver o problema em questão, mesmo quando não se sabe
qual problema se quer resolver.
( ) A preparação de dados é um tópico crucial de pesquisa crucial após se mapear o problema em
questão.
 
Assinale a alternativa que apresenta a sequência CORRETA:
FONTE: MASHANOVICH, N. Credit Scoping: Part 3 - Data Preparation and Exploratory Data
Analysis. 2017. Disponível em: https://www.worldprogramming.com/blog/credit_scoring_pt3. Acesso
em: 25 maio 2021.
A F - V - V - F.
B V - F - V - V.
C V - F - F - V.
D F - V - V - V.
Várias atividades precisam ser realizadas para transformar os dados brutos em informações
relevantes para a tomada de decisão, ou seja, na sabedoria necessária para as organizações. Essas
5
6
27/04/22, 09:57 Avaliação I - Individual
4/6
atividades dizem respeito à coleta, integração de dados, enriquecimento, entendimento do problema,
limpeza de dados ausentes, tratamento de dados ausentes, análise de outliers, análise estatística,
normalização e redução da dimensionalidade. Com relação à integração de dados, analise as sentenças a
seguir: I- Envolve combinar dados de diversas fontes e tipos em um único conjunto de dados. II- É o
processo de agregar valor aos dados existentes. III- Consiste em eliminar ruídos, inconsistências e
resolver problemas estruturais IV- Entre 50% e 90% do tempo dos funcionários de Business Intelligence
(BI) é gasto na preparação de dados para serem analisados. Assinale a alternativa CORRETA:
A Somente a sentença IV está correta.
B As sentenças I e IV estão corretas.
C Somente a sentença III está correta.
D Somente a sentença II está correta.
Segundo Bi4all (2021, s.p.), "sabia que em 2020, a cada minuto, foram publicadas 347 mil novas Stories
no Instagram, 147 mil fotos no Facebook e 41 milhões de mensagens foram trocadas no WhatsApp?".
Cabe destacar "que mais de 4,5 biliões de pessoas usam internet, enquanto os utilizadores das redes
sociais ultrapassaram já os 3,8 biliões com quase 60% da população mundial on-line. Estes números
ilustram bem a quantidade de dados que circulam no mundo, o que oferece imensas oportunidadese
desafios às empresas que transformam estes dados em valor para o negócio" (BI4ALL, 2021, s.p.). Com
base no volume de dados que não significa qualidade de dados, classifique V para as sentenças
verdadeiras e F para as sentenças falsas.
( ) A preparação de dados é essencial para todo e qualquer projeto que envolver a análise exploratória
de dados.
( ) A qualidade do insumo interfere diretamente na qualidade do produto.
( ) Quanto maior a quantidade de dados melhor será o produto final.
( ) A qualidade do produto final está diretamente relacionada a se ter o maior número possível de
informação. 
Assinale a alternativa que apresenta a sequência CORRETA:
FONTE: BI4ALL. 2021: A Soberania dos dados. 2021. Disponível em:
https://www.bi4all.pt/noticias/blog/2021-a-soberania-dos-dados/. Acesso em: 25 maio 2021.
 
A V - V - F - F.
B F - V - V - V.
C V - F - V - V.
D F V V F
7
27/04/22, 09:57 Avaliação I - Individual
5/6
D F - V - V - F.
Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas de
marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os clientes
existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI da empresa
pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados relacionados com o
problema que se referente aos dados estruturados, semiestruturados e não estruturados, bem como dados
de redes sociais e de bases externas. Com base nos diferentes tipos de dados identificados e suas fontes,
classifique V para as sentenças verdadeiras e F para as sentenças falsas:
( ) Somente as bases internas dizem respeito aos tipos de dados que são identificados no mapeamento
do problema.
( ) Na identificação do problema, podemos nos deparar com dados estruturados, dados
semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases externas.
( ) Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da
organização.
( ) Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes,
como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de mercado. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V - V.
B F - V - V - V.
C F - V - V - F.
D F - F - V - F.
A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. "O
volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história."
(SGB, 2019, s.p.). O estimado para o ano 2020 é que "[...] existirão cerca de 50 bilhões de dispositivos
conectados desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados
dobra a cada dois anos e a previsão é de que em 2020 sejam gerados 350 zettabytes de dados ou 35
trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume
de dados no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido,
qual é o tamanho de um ZB? FONTE: SGB. O que você precisa entender sobre dados para se tornar uma
organização Data Driven. 2019. Disponível em: http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-
sobre-dados-para-se-tornar-uma-organizacao-data-driven/. Acesso em: 11 set. 2020.
A Equivale a um trilhão de bytes.
B Equivale a um trilhão de gigabytes.
8
9
27/04/22, 09:57 Avaliação I - Individual
6/6
C Equivale a um trilhão de megabytes.
D Equivale a um trilhão de bits.
A necessidade do pré-processamento dos dados decorre do fato dos dados no mundo real serem
incompletos, ou seja, devido à ausência de atributos de interesse, dados agregados, ausência de valores;
serem ruidosos, decorrentes de erros aleatórios; de valores aberrantes, também conhecidos como outliers;
e pelas próprias inconsistências e discrepâncias nas codificações ou nos nomes. Nesse sentido, existem
algumas etapas no processos de preparação dos dados. Referente às etapas envolvidas no processo,
classifique V para as sentenças verdadeiras e F para as falsas: ( ) A Integração diz respeito a remover
qualquer ruído dos dados, envolvendo a normalização, agregação e generalização. ( ) A transformação
visa resolver conflitos de dados ocorridos na integração de dados, bem como tratar de manipular as
redundâncias que podem existir. ( ) A redução visa reduzir o conjunto de dados por meio de estratégias,
como de redução de dimensionalidade de requisitos, agregação de cubos de dados e redução de
numerosidade. ( ) A discretização ajuda a reduzir o tamanho dos dados para análise, muitas vezes
dividindo atributos contínuos em intervalos. Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V - V.
B F - F - V - F.
C F - V - F - V.
D F - F - V - V.
10
Imprimir

Outros materiais