Buscar

Big Data e Preparação de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

27/06/2022 10:51 Avaliação I - Individual
1/6
Prova Impressa
GABARITO | Avaliação I - Individual (Cod.:742465)
Peso da Avaliação 1,50
Prova 47088872
Qtd. de Questões 10
Acertos/Erros 10/0
Nota 10,00
Ter dados de diferentes tipos (variedade) é uma das características do Big Data. Esses dados 
podem ser tanto do tipo estruturado como do tipo não estruturado. Lembre-se: dado é tudo o que é 
observado ou conceituado. Em uma visão um tanto restrita, os dados são algo que pode ser medido. 
Diante do exposto, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) Os dados representam fatos ou algo que realmente ocorreu, que foi observado e medido. 
( ) Os dados podem resultar de observação passiva ou coleta ativa. 
( ) Os dados são observados em cada unidade e armazenados em um dispositivo eletrônico. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - V - V.
B V - F - V.
C F - V - F.
D F - F - V.
Em tecnologia da informação, temos os mais diferentes profissionais envolvidos em resolver 
problemas. Como engenheiro de dados, cientista de dados, analista de negócio, entre outros. As 
responsabilidades de cada um podem se intercalar no decorrer do projeto. Nesse sentido, o que se 
espera que um engenheiro de dados faça?
A Será o responsável por cuidar de como os dados serão armazenados e processados.
B Será o responsável por extrair o conhecimento dos dados e também utilizar o conhecimento
obtido para gerar relatórios de acordo com a necessidade das partes interessadas.
C Será o responsável por fazer a extração de conhecimento dos dados.
D Será o responsável por utilizar o conhecimento obtido para gerar relatórios de acordo com a
necessidade das partes interessadas.
Em computação, como reconhecimento de padrões, recuperação de informações, aprendizado 
de máquina, mineração de dados e inteligência na Web, é necessário preparar dados de qualidade, 
processando os dados brutos. Para Mashanovich (2017), pelo menos 70%, às vezes mais de 90% do 
tempo total do projeto é dedicado à preparação de dados: coleta de dados, combinar as diversas fontes 
de dados, agregações, transformações, limpeza de dados e "fatiar e cortar em cubos". Essa atividade 
ainda envolve examinar a amplitude e profundidade dos dados para obter um entendimento claro, 
 VOLTAR
A+ Alterar modo de visualização
1
2
3
27/06/2022 10:51 Avaliação I - Individual
2/6
além de transformar a quantidade de dados em qualidade de dados (MASHANOVICH, 2017). Com 
base na importância da preparação de dados, classifique V para as sentenças verdadeiras e F para as 
sentenças falsas. 
( ) Após o problema mapeado é a diferença entre o sucesso e o fracasso obtido. 
( ) O problema não precisa estar mapeado para fazer uso da preparação de dados. 
( ) A preparação de dados é a chave para resolver o problema em questão mesmo quando não se 
sabe qual problema se quer resolver. 
( ) A preparação de dados é um tópico crucial de pesquisa crucial após se mapear o problema em 
questão. 
Assinale a alternativa que apresenta a sequência CORRETA: 
FONTE: MASHANOVICH, N. Credit Scoping: Part 3 - Data Preparation and Exploratory Data 
Analysis. 2017. Disponível em: https://www.worldprogramming.com/blog/credit_scoring_pt3. 
Acesso em: 25 maio 2021.
A F - V - V - V.
B F - V - V - F.
C V - F - V - V.
D V - F - F - V.
Um gerente deseja conhecer o perfil dos clientes e dos possíveis clientes para criar campanhas 
de marketing direcionado. Os objetivos são aumentar a carteira de clientes da empresa e fidelizar os 
clientes existentes. Esse gerente não sabe como resolver o problema, porém, ele sabe que a área de TI 
da empresa pode o auxiliar. Digamos que o profissional de TI consiga identificar os dados 
relacionados com o problema que se referente aos dados estruturados, semiestruturados e não 
estruturados, bem como dados de redes sociais e de bases externas. Com base nos diferentes tipos de 
dados identificados e suas fontes, classifique V para as sentenças verdadeiras e F para as sentenças 
falsas. 
( ) Somente as bases internas dizem respeito aos tipos de dados que são identificados no 
mapeamento do problema. 
( ) Na identificação do problema, podemos nos deparar com dados estruturados, dados 
semiestruturados, dados não estruturados e também dados oriundos de redes sociais e de bases 
externas. 
( ) Nesta identificação, os dados estruturados são oriundos de bancos de dados relacionais da 
organização. 
( ) Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, 
como de arquivos de texto, imagem, áudio, vídeo, planilhas, além de pesquisas realizadas de 
mercado. 
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - F.
B F - F - V - F.
C F - V - V - V.
D V - F - V - V.
4
27/06/2022 10:51 Avaliação I - Individual
3/6
Segundo Bi4all (2021, s.p), "sabia que em 2020, a cada minuto, foram publicadas 347 mil novas 
Stories no Instagram, 147 mil fotos no Facebook e 41 milhões de mensagens foram trocadas no 
WhatsApp?". Cabe destacar "que mais de 4,5 biliões de pessoas usam internet, enquanto os 
utilizadores das redes sociais ultrapassaram já os 3,8 biliões com quase 60% da população mundial 
online. Estes números ilustram bem a quantidade de dados que circulam no mundo, o que oferece 
imensas oportunidades e desafios às empresas que transformam estes dados em valor para o negócio" 
(BI4ALL, 2021, s.p.). Com base no volume de dados não significa qualidade de dados, analise as 
sentenças a seguir: 
I- A preparação de dados é essencial para todo e qualquer projeto que envolver a análise exploratória 
de dados. 
II- A qualidade do insumo interfere diretamente na qualidade do produto. 
III-Quanto maior a quantidade de dados melhor será o produto final. 
IV-A qualidade do produto final está diretamente relacionada a se ter o maior número possível de 
informação. 
Assinale a alternativa CORRETA: 
FONTE: BI4ALL. 2021: A Soberania dos dados. 2021. Disponível em: 
https://www.bi4all.pt/noticias/blog/2021-a-soberania-dos-dados/. Acesso em: 25 maio 2021.
A As sentenças I e II estão corretas.
B As sentenças III e IV estão corretas.
C As sentenças II e IV estão corretas.
D As sentenças I e III estão corretas.
Os dados quantitativos podem ser classificados quando é possível realizar operações 
aritméticas. Vamos exemplificar: quando é possível somar dois pesos ou duas temperaturas, peso e 
temperatura são quantitativos. Dentro dos dados quantitativos, também conhecidos como dados 
numéricos, existe um subnível de tipos de dados: dados discretos ou dados contínuos. Referente aos 
dados discretos, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) São aqueles dados que assumem valores com casas decimais e que admitem que entre dois 
números há uma infinidade de números quebrados. 
( ) São dados que continuam indefinidamente. 
( ) São dados quantitativos que não têm valores em casas decimais, como inteiros e naturais (1, 0, 
-5). 
( ) São um número inteiro e não podem ser subdivididos em partes cada vez menores. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V - V.
B F - V - F - V.
C F - F - V - F.
D F F V V
5
6
27/06/2022 10:51 Avaliação I - Individual
4/6
D F - F - V - V.
Os atributos contêm informações sobre cada unidade de observação. Dependendo de quantos 
tipos diferentes de informações são coletados de cada unidade, os dados podem ser univariados, 
bivariados ou multivariados. Diante do exposto, classifique V para as sentenças verdadeiras e F para 
as falsas: 
( ) Os atributos podem ter formas e estruturas variadas, mas em um critério são todos iguais, ou 
seja, os dados contêm informações e características que separam uma unidade ou observação das 
outras. 
( ) Os valores que um atributo pode assumir são separados em tipo de dados e escala de medição. 
( ) Atributo é o recurso, variável ou campo, que é uma propriedade ou característicade um objeto. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - V - V.
B F - V - F.
C F - F - V.
D V - F - V.
Os cientistas de dados avaliam a adequação e a qualidade, identificando se alguma melhoria 
pode ser feita no conjunto de dados os resultados necessários. Por exemplo, um cientista de dados 
pode descobrir que poucos pontos de dados influenciam o modelo de aprendizado de máquina em 
direção a um determinado resultado. Dados de baixa qualidade ou dados ruins custam, a uma 
organização, média de US$ 13,5 milhões por ano, o que é um custo alto demais para suportar. Dados 
ruins ou má qualidade dos dados podem alterar a precisão dos insights ou podem ocasionar insights 
incorretos, e é por isso que a preparação é de extrema importância, mesmo que consuma tempo e seja 
a tarefa menos agradável do processo de ciência de dados. Portanto, a preparação de dados é 
necessária devido à presença de dados não formatados do mundo real. Com base em como é 
composto a maioria dos dados do mundo real, classifique V para as sentenças verdadeiras e F para as 
sentenças falsas: 
( ) A maioria dos dados do mundo real é composta por dados imprecisos (dados ausentes), por 
dados ruidosos e dados inconsistentes. 
( ) Existem muitos motivos para os dados ausentes não serem coletados continuamente como erro 
na entrada de dados, problemas técnicos com biometria e muito mais. 
( ) A presença de dados ruidosos (dados errôneos e outliers) se deve aos motivos que ocasionam a 
existência de duplicação de dados, entrada de dados humanos, contendo erros de códigos ou nomes, 
como violação de restrições de dados e muito mais. 
( ) A presença de inconsistências se deve as razões para a existência de dados ruidosos podem ser 
um problema tecnológico de gadget que coleta dados, um erro humano durante a entrada de dados e 
muito mais. 
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - V.
B V - V - F - F.
7
8
27/06/2022 10:51 Avaliação I - Individual
5/6
C V - F - V - V.
D F - F - V - F.
Os dados são transformados de dados brutos para informação e o conhecimento será extraído da 
informação que foi construída ao longo da preparação de dados. "O conhecimento são informações 
contextualizadas e baseadas em fatos. Por exemplo: um conjunto de informações relacionadas 
evidencia um perfil de cliente" (CAETANO, 2018, s.p.). A sabedoria necessária para que as empresas 
possam tomar decisões é adquirida por meio do conhecimento. Nesse contexto de dados, informação, 
conhecimento e sabedoria, analise as sentenças a seguir: 
I- Sabedoria são informações contextualizadas e baseadas em fatos. 
II- Conhecimento é o dado já processado. 
III- Dado é a informação bruta, que ainda não passou por processo e/ou organização para ser 
utilizada. 
IV- Informações são dados confiáveis, relevantes e enriquecidos. 
Assinale a alternativa CORRETA: 
FONTE: CAETANO, J. A. Preparação de dados. 2018. Disponível em: 
https://rapido.igti.com.br/products/pdd-class. Acesso em: 11 set. 2020.
A As sentenças I e III estão corretas.
B As sentenças II e IV estão corretas.
C As sentenças III e IV estão corretas.
D As sentenças I e II estão corretas.
A preparação de dados é a base da análise. A melhor maneira de acelerar o processo de análise é 
reduzir o tempo de preparação de dados. Assim, pode-se dizer que, no contexto, a preparação de 
dados significa manipulação de dados em um formato adequado para análise e processamento. Nesse 
processo estão envolvidas etapas como de limpeza, integração, transformação, redução e 
discretização. Referente à etapa da limpeza de dados, classifique V para as sentenças verdadeiras e F 
para as falsas: 
( ) O foco dessa etapa é resolver os conflitos de integração. 
( ) Essa etapa visa reduzir o conjunto de dados por meio de estratégias, como de redução de 
dimensionalidade de requisitos. 
( ) Essa etapa se trata de corrigir os dados inconsistentes, preencher valores ausentes e suavizar 
dados ruidosos. 
( ) Nessa etapa, pode ocorrer de no conjunto de dados existirem muitas linhas que não possuam 
valor para atributos de interesse, dados inconsistentes, registros duplicados ou algum outro erro 
aleatório. 
Assinale a alternativa que apresenta a sequência CORRETA:
A F - F - V - V.
B V - F - V - V.
9
10
27/06/2022 10:51 Avaliação I - Individual
6/6
C F - F - V - F.
D F - V - F - V.
Imprimir

Continue navegando