Buscar

N2 coleta e integração de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

• Pergunta 1 
1 em 1 pontos 
 
O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura Big Data, 
concentrando, por meio de uma ingestão de dados, todos os tipos de dados em formatos 
brutos, sem a realização de tarefas de processamento e análise, ou seja, é realizado apenas 
o armazenamento dos dados. 
Considerando o contexto apresentado sobre o conceito de Data Lake, analise as afirmativas 
a seguir: 
I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com transformação. 
II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou de bases 
relacionais, como o ERP e o CRM, por meio do ETL. 
III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em um Data 
Warehouse quanto em sistemas de análise como o BI. 
IV. O Data Lake recebe somente dados não estruturados de bancos de dados NoSQL, por 
meio de tecnologias como HDFS e Map Reduce. 
 Está correto o que se afirma em: 
 
Resposta Selecionada: 
I e II, apenas. 
Resposta Correta: 
I e II, apenas. 
Feedback 
da resposta: 
Resposta correta. A alternativa está correta, pois o Data Lake tem 
como função ingerir todos os tipos de dados, sejam eles 
transformados, como os relacionais, ou não transformados, como 
os dados NoSQL. Esses dados podem se originar de diversas 
fontes, como o Business Intelligence, ou de bases relacionais, 
como os ERPs e CRMs. 
 
 
• Pergunta 2 
1 em 1 pontos 
 
A SQL e similares, muito utilizadas no processamento stream de dados, por natureza, não 
são linguagens de programação procedural, como as linguagens de programação Java, C, 
C++ e outras, pois foram construídas para, basicamente, permitir a manutenção da estrutura 
de dados (metadados) e dar acesso aos dados de fato, permitindo operações de consulta, 
inserção, atualização e exclusão. 
Assinale a alternativa que justifica a diferença entre a linguagem SQL e a maioria das 
linguagens de programação. 
 
Resposta 
Selecionada: 
 
A SQL pode ser usada em conjunto com as linguagens 
externas e dar acesso aos dados de fato, permitindo operações 
de manutenção. 
Resposta 
Correta: 
 
A SQL pode ser usada em conjunto com as linguagens 
externas e dar acesso aos dados de fato, permitindo operações 
de manutenção. 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois a diferença entre 
a SQL e as linguagens de programação externa é que a SQL pode 
ser utilizada de maneira combinada, por meio de acessos em 
diferentes camadas, como interface, regras de negócio e banco de 
dados. Enquanto as linguagens externas tratam da programação 
de interfaceamento e regras de negócios, a SQL trata do acesso e 
da manipulação de dados na base de dados. 
 
 
• Pergunta 3 
1 em 1 pontos 
 
O Data Warehouse, ou Armazém de Dados, consolida as informações orientadas a assuntos 
das atividades organizacionais a partir de um grande volume de dados, favorecendo 
relatórios e análises de informações estratégicas de forma catalogada. Os dados do Data 
Warehouse são coletados de diversas fontes de dados, por meio de ETLs. 
As fontes das bases de dados dos Data Warehouse são originadas de: 
 
Resposta Selecionada: 
bases transacionais internas e externas. 
Resposta Correta: 
bases transacionais internas e externas. 
Feedback 
da resposta: 
Resposta correta. A alternativa está correta, pois o Data 
Warehouse coleta informações de bases transacionais internas e 
externas das organizações, podendo ser também de fontes não 
estruturadas, gerando dados para as bases multidimensionais, 
como os Data Marts. 
 
 
• Pergunta 4 
1 em 1 pontos 
 
Os Data Marts podem ingerir e ser ingeridos por um Big Data. A estrutura multidimensional 
de um Data Mart facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de 
forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Dentro de uma 
estrutura multidimensional, é possível realizar uma análise mais aprofundada das 
informações, por meio do cruzamento de dimensões e métricas. 
Considerando o contexto apresentado sobre as aplicações do Data Mart, analise as 
afirmativas a seguir: 
 I. O Data Mart é uma análise direta das bases relacionais. 
II. Após a criação dos cubos, os usuários, por meio de aplicativos específicos de leitura, 
podem destrinchar e detalhar as informações. 
III. Após a criação dos cubos, os usuários podem acessar diretamente o Data Mart, sem a 
necessidade de aplicativos de leitura. 
IV. Após a criação dos cubos, é necessário definir as dimensões e visões que deverão ser 
acessadas. 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
II e IV, apenas. 
 
Resposta Correta: 
II e IV, apenas. 
 
Feedback 
da 
resposta: 
Resposta correta. A alternativa está correta, pois as bases 
multidimensionais não realizam acesso direto a bases relacionais, 
necessitando de aplicativos específicos para a leitura e 
detalhamento das informações, bem como definir as dimensões e 
visões para criar as consultas. Somente após a criação do cubo 
multidimensional é possível acessar os dados e dimensões, por 
meio de aplicativos específicos de leitura. 
 
 
• Pergunta 5 
0 em 1 pontos 
 
Leia o excerto a seguir: 
“O objetivo do aprendizado máquina é derivar modelos preditivos a partir de dados atuais e 
históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém 
as devidas melhorias com uma excessiva quantidade de treinamento ou experiência. Tais 
resultados eficientes são alcançados por algoritmos específicos de aprendizado máquina”. 
 
 
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop: uma introdução para cientistas 
de dados. São Paulo: Novatec, 2016., p. 38. 
 
 
Com base no contexto apresentado e em seus estudos sobre o aprendizado de máquina, 
analise as afirmativas a seguir e verifique quais correspondem a algoritmos que atingem 
resultados mais eficientes. 
 
I. Aprendizado para um pequeno conjunto de dados e amplos domínios usando modelos 
treinados. 
II. Mineração de dados para domínios restritos e uso de modelos com base na experiência, 
por meio de um processo indutivo. 
III. Com acesso de grandes bases de conhecimento de treinamento, por meio de 
conhecimentos úteis e não triviais. 
IV. Aprendizado para um grande conjunto de dados relacionais e bases de conhecimento. 
V. Aprendizado para domínios muito restritos, usando modelos treinados a partir de um 
grande conjunto de dados. 
 
Está correto o que se afirma em: 
Resposta Selecionada: 
III e I, apenas. 
 
Resposta Correta: 
II e V, apenas. 
Feedback 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois não 
condiz com parâmetros de algoritmos para a maior eficiência 
esperada. O aprendizado envolve a generalização com base na 
experiência, e, para uma generalização ideal, o desempenho deve 
melhorar não apenas na repetição da mesma tarefa, mas, sim, em 
tarefas semelhantes do domínio, por meio de um viés indutivo. O 
aprendizado indutivo é aquele que utiliza a generalização a partir 
de um conjunto de exemplos. 
 
 
• Pergunta 6 
0 em 1 pontos 
 
A linguagem de programação SQL é uma linguagem interna aos SGBDs. Essa linguagem 
sempre estará atuando em conjunto com as linguagens de programação para aplicações 
como Java, C# ou PHP, por exemplo. A linguagem SQL é a linguagem universal para a 
comunicação com SGBDs, e, por isso, as aplicações implementam simplesmente as 
interfaces de apoio para os procedimentos de acordo com a particularidade de cada SGBD. 
A respeito da linguagem de programação SQL, analise as afirmativas a seguir e assinale V 
para a(s) Verdadeira(s) e F para a(s) Falsa(s). 
I. ( ) A SQL é utilizada somente por desenvolvedores de aplicações que armazenam e 
validam dados, em razão da necessidade do conhecimento das programações lógica e 
relacional. 
II. ( ) Projetos de banco de dados mal construídos e consultas SQL superficiais sem o 
cuidado de um especialista representam o maiorgargalo de performance em uma aplicação, 
pois consomem memória e processador em excesso. 
III. ( ) As aplicações que usam o banco de dados não só como armazenador de dados, mas, 
também, como uma camada por baixo da aplicação, com a utilização de princípios como 
integridade dos dados, validação, controle de acesso e segurança, fornecem um ambiente 
altamente eficaz e profissional. 
IV. ( ) A SQL, igualmente a outras linguagens de programação, sofre grande alteração ao 
longo do tempo, sendo que deve haver um entendimento teórico e prático constante para 
garantir uma habilidade a longo prazo. 
Assinale a alternativa que apresenta a sequência correta. 
 
Resposta Selecionada: 
V, F, F, F. 
Resposta Correta: 
F, V, V, F. 
 
Feedback 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois não 
condiz com as características da SQL. Lembre-se de que a 
linguagem SQL é uma linguagem de manipulação de banco de 
dados e pode ser utilizada em combinação com uma variedade de 
linguagens externas e, por isso, ela sofre poucas modificações, 
além de exigir um cuidado na definição de consultas relacionais. 
 
 
• Pergunta 7 
0 em 1 pontos 
 
Leia o excerto a seguir: 
“Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. Porém, 
quando falamos em Big Data, estamos assumindo que, além de termos um grande volume 
de dados, devido às grandes proporções, eles não podem ser tratados como métodos 
tradicionais, para isso devem ser executados alguns passos, tais como a obtenção, 
armazenamento, sistematização e análise de dados”. 
MORAIS, I. S. et al . Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: 
SAGAH, 2018, p. 45-46. 
 
Nesse sentido, em função da diversidade de fontes, quantidade e tipos de dados, assinale a 
alternativa que apresenta as cinco vertentes que definem a performance de um conceito Big 
Data. 
 
Resposta 
Selecionada: 
 
Propriedades estruturais, em que os dados podem ser criados, 
duplicados, alterados, eliminados e normalizados. 
 
Resposta 
Correta: 
 
Volume, velocidade, variedade, veracidade e valor. 
Feedback 
da 
resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois você 
deve associar as vertentes do Big Data a um conjunto de 
tecnologias, processos e práticas que permite à empresa realizar a 
análise de dados, tomar decisões ou até mesmo gerenciar 
atividades de forma muito mais eficiente. Associe a necessidade 
de informação da empresa com o conceito de Big Data e suas 
características. Lembre-se da diferença entre as propriedades 
ACID (atomicidade, consistência, isolamento, durabilidade e 
confiabilidade) e CAP (consistência, disponibilidade e tolerância a 
falhas) e dos 4 Vs (volume, velocidade, veracidade e valor); cada 
qual está associado às determinadas arquiteturas de ingestão de 
dados, armazenamento, processamento e visualização dos dados. 
 
 
• Pergunta 8 
0 em 1 pontos 
 
Leia o excerto a seguir: 
“O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e 
instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo 
fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache 
Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias 
que lidam com formas de uso e tratamento de dados”. 
 
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14. 
 
A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e 
F para a(s) Falsa(s). 
I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de 
dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a 
analisar eventos passados, a entender as atividades atuais e a prever resultados futuros. 
II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza 
todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados 
relacionais em uma única base de dados de grande volume e poder de processamento. 
III. ( ) É um framework 
de código aberto para o processamento e armazenamento de dados em larga escala, 
com cluster de máquinas organizadas em uma máquina mestre e várias escravas, 
promovendo soluções em uma única plataforma. 
IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, 
formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System 
(HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase. 
Assinale a alternativa que apresenta a sequência correta. 
Resposta Selecionada: 
F, V, V, V. 
Resposta Correta: 
V, F, V, V. 
Feedback 
da 
resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois não 
condiz com as características de um ecossistema 
Hadoop . Lembre-se de que o ecossistema Hadoop é constituído 
de diversas tecnologias que fazem com que a ingestão de dados, 
seu armazenamento, processamento e visualização sejam tratados 
de forma eficiente para a tomada de decisão organizacional. 
 
 
• Pergunta 9 
0 em 1 pontos 
 
Observe a figura abaixo e leia o excerto a seguir: 
 
Figura - Esquema do stream de dados com captura, ingestão, processamento e análise 
desses dados 
Fonte: Adaptada de Pereira (2019, p. 105). 
“O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar e analisar 
os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de dados contínuo, o 
processamento se dá pela captura de um trecho, conhecido como janela. Uma vez 
coletados, esses dados são processados sequencialmente e forma incremental, registro por 
registro ou em uma janela que desliza com base no tempo”. 
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 104. 
 
A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s) 
Verdadeira(s) e F para a(s) Falsa(s). 
I. ( ) O processo de captura de dados na janela é conhecido como ingestão de dados, o que 
possibilita o processamento e a realização da análise de dados. 
II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma relacional) ou 
classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma 
coleção de objetos. 
III. ( ) O stream 
é um conjunto de dados gerados em tempo real e, diferentemente do envio em lotes, tem 
relação com o processo de envio de registros de dados de forma contínua, à medida que os 
dados são gerados. 
 
IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que são utilizados 
por diferentes tipos de transmissão de conteúdos. 
Assinale a alternativa que apresenta a sequência correta. 
Resposta Selecionada: 
V, F, F, F. 
Resposta Correta: 
V, F, V, V. 
Feedback 
da 
resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois não 
condiz com a definição de stream. Lembre-se de que o 
stream de dados é o processo como um todo, que gera a 
possibilidade de análise de uma diversidade de fonte de dados, 
como dispositivos diferentes, e com uma variedade grande de 
formatos. O stream de dados se encontra em um fluxo contínuo 
(constante) de dados, em que início e fim não são vistos, e que 
dados estruturados, semiestruturados e não estruturados podem 
ser ingeridos para análise e processamento dentro de 
um Pipeline de dados. 
 
 
• Pergunta 10 
0 em 1 pontos 
 
Leia o excerto a seguir: 
“Fast Data nada mais é do que processar os dados com alta velocidade, maior do que a de 
um Big Data, a ponto de possibilitar uma ação em tempo real, adaptada ao perfil do cliente, 
tornando esse esforço mais assertivo e exclusivo, aproveitando as oportunidades em tempo 
hábil. [...] [Os Fast Data] estão se tornando fundamentais para as estratégias 
de marketing de empresas de diferentes setores. Um dos maiores e-commerce do Brasil já 
usa o Fast Data há algum tempo”. 
DIAS, A. et al. 
Aplicação doFast Data do Marketing do comércio atual. Revista Unifenas . v. 11, n. 1, p. 1-
9, 2016, p. 4. Disponível em: http://revistas.unifenas.br/index.php/RE3C/article/view/161/106 . 
Acesso em: 2 out. 2020. 
Considerando o contexto apresentado sobre o Fast Data, analise as afirmativas a seguir: 
I. Em uma arquitetura Fast Data, a aquisição ou ingestão de dados necessita de uma forma 
assíncrona para evitar contrapressão (dados gerados mais rapidamente do que são 
consumidos). 
II. Em uma arquitetura Fast Data, usar paralelismo no processo de transformação dos dados 
antes do processamento de limpeza e eliminação de duplicação de dados é um fator não 
usual. 
III. A arquitetura Fast Data se utiliza de processo de ingestão de dados em tempo real, 
dentro de um processo de aquisição, armazenamento, processamento e visualização de 
dados. 
IV. Na etapa de armazenamento em uma arquitetura Fast Data (Data Storage Layer - 
camada de armazenamento de dados), é necessário pensar na utilização de normalizações 
de banco de dados. 
Está correto o que se afirma em: 
 
Resposta Selecionada: 
III e IV, apenas. 
Resposta Correta: 
I e III, apenas. 
Feedback 
da resposta: 
Sua resposta está incorreta. A alternativa está incorreta, pois não 
condiz com as afirmativas selecionadas. Quando se fala em 
arquitetura Fast Data, deve-se lembrar dos procedimentos de 
otimização em termos de custo e uso dos recursos, a fim de se 
 
http://revistas.unifenas.br/index.php/RE3C/article/view/161/106
obter uma melhor eficiência na ingestão de dados em tempo real. 
Existem técnicas, métodos específicos e propriedades necessárias 
para uma ingestão, por exemplo de stream processing, em que há 
um fluxo contínuo de dados que devem ser ingeridos para 
o pipeline de dados. 
 
 
	 Pergunta 1
	 Pergunta 2
	 Pergunta 3
	 Pergunta 4
	 Pergunta 5
	 Pergunta 6
	 Pergunta 7
	 Pergunta 8
	 Pergunta 9
	 Pergunta 10

Continue navegando