N2 Coleta e Integração de Dados TENTATIVA 1

•

ESTÁCIO

2

0

2

0

Ivan S

17/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.761 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

COLETA E INTEGRAÇÃO DE DADOS
N2 Tentativa 1
· Pergunta 1
1 em 1 pontos

Leia o excerto a seguir:
“O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14.
A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros.
II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento.
III. ( ) É um framework
de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma.
IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o mecanismo Hadoop é uma ferramenta de análise de dados constituída de diversas outras ferramentas, formando um ecossistema de etapas de ingestão, armazenamento, processamento e visualização de dados. A afirmativa II é falsa, pois o Hadoop é escrito em linguagem Java e não realiza uma centralização dos dados ingeridos, mas, sim, uma descentralização de dados. A afirmativa III é verdadeira, pois o Hadoop é considerado um framework Open Source, que tem como objetivo o processamento e o armazenamento de dados ingeridos de diversas fontes de dados e os clusterizando em diversos servidores. A afirmativa IV é verdadeira, pois o Hadoop é um ecossistema, ou seja, uma integração de diversos módulos de sistema de arquivos.

· Pergunta 2
0 em 1 pontos

Os Data Marts podem ingerir e ser ingeridos por um Big Data. A estrutura multidimensional de um Data Mart facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Dentro de uma estrutura multidimensional, é possível realizar uma análise mais aprofundada das informações, por meio do cruzamento de dimensões e métricas.
Considerando o contexto apresentado sobre as aplicações do Data Mart, analise as afirmativas a seguir:
I. O Data Mart é uma análise direta das bases relacionais.
II. Após a criação dos cubos, os usuários, por meio de aplicativos específicos de leitura, podem destrinchar e detalhar as informações.
III. Após a criação dos cubos, os usuários podem acessar diretamente o Data Mart, sem a necessidade de aplicativos de leitura.
IV. Após a criação dos cubos, é necessário definir as dimensões e visões que deverão ser acessadas.
Está correto o que se afirma em:

Resposta Selecionada:
II e III, apenas.
Resposta Correta:
II e IV, apenas.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois deve-se observar que os Data Marts são bases multidimensionais, não relacionais e que possuem características de acesso específicas para acessar as informações, diferentemente dos bancos de dados relacionais, que necessitam de um gerenciador de banco de dados para acesso e manipulação de dados.

· Pergunta 3
0 em 1 pontos

A SQL e similares, muito utilizadas no processamento stream de dados, por natureza, não são linguagens de programação procedural, como as linguagens de programação Java, C, C++ e outras, pois foram construídas para, basicamente, permitir a manutenção da estrutura de dados (metadados) e dar acesso aos dados de fato, permitindo operações de consulta, inserção, atualização e exclusão.
Assinale a alternativa que justifica a diferença entre a linguagem SQL e a maioria das linguagens de programação.

Resposta Selecionada:
A SQL deve ser usada separadamente das linguagens externas, pois cada uma foi construída para uma funcionalidade específica.
Resposta Correta:
A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois é necessária uma integração das camadas de interface e negócio com a camada de banco de dados, de maneira universal. Para que isso ocorra, é pertinente que a SQL seja programável e acessível em diversas linguagens de programação externa.

· Pergunta 4
1 em 1 pontos

Leia o excerto a seguir:
“O Big Data pode ser caracterizado por seu volume, onde são gerados petabytes de dados a cada dia. E estima-se que este volume dobre a cada 18 meses. Variedade também, pois estes dados vêm de sistemas estruturados (hoje são a minoria) e não estruturados (a imensa maioria) gerados por e-mail, mídias sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos, apresentações estilo powerpoint, imagens instantâneas, sensores, etiquetas RFID, câmeras de vídeos etc.”.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2019, p. 39.
Nesse sentido, em função da diversidade de fontes e da quantidade e tipos de dados, uma alta capacidade de dados reflete em um alto custo do dimensionamento do Big Data. Esse procedimento pode ser solucionado por meio do:

Resposta Selecionada:
aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores ( cluster) por meio da técnica de sharding.
Resposta Correta:
aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores (cluster) por meio da técnica de sharding.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, para a solução de problemas de capacidade de armazenamento e processamento em um Big Data, a fragmentação dos dados por meio da técnica sharding
faz que o armazenamento se expanda horizontalmente (particionamento horizontal). A técnica sharding utiliza o conceito de banco de dados distribuídos, em que os dados são partilhados em vários servidores, denominados cluster.

· Pergunta 5
1 em 1 pontos

Leia o excerto a seguir:
“O objetivo do aprendizado máquina é derivar modelos preditivos a partir de dados atuais e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as devidas melhorias com uma excessiva quantidade de treinamento ou experiência. Tais resultados eficientes são alcançados por algoritmos específicos de aprendizado máquina”.
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop: uma introdução para cientistas de dados. São Paulo: Novatec, 2016., p. 38.
Com base no contexto apresentado e em seus estudos sobre o aprendizado de máquina, analise as afirmativas a seguir e verifique quais correspondem a algoritmos que atingem resultados mais eficientes.
I. Aprendizado para um pequeno conjunto de dados e amplos domínios usando modelos treinados.
II. Mineração de dados para domíniosrestritos e uso de modelos com base na experiência, por meio de um processo indutivo.
III. Com acesso de grandes bases de conhecimento de treinamento, por meio de conhecimentos úteis e não triviais.
IV. Aprendizado para um grande conjunto de dados relacionais e bases de conhecimento.
V. Aprendizado para domínios muito restritos, usando modelos treinados a partir de um grande conjunto de dados.
Está correto o que se afirma em:

Resposta Selecionada:
II e V, apenas.
Resposta Correta:
II e V, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, dentro de um processo de aprendizagem de máquina, para derivar modelos preditivos e obter uma maior eficiência de aprendizagem, é necessário que os algoritmos utilizem uma menor quantidade de domínios, com modelos treinados, e um grande conjunto de dados da base. Além dos domínios restritos, a eficiência é obtida por meio do uso de processos que utilizam modelos indutivos com base na experiência, fazendo, assim, predições do que irá acontecer com base no que já aconteceu.

· Pergunta 6
1 em 1 pontos

Dentro do conceito de Business Intelligence (inteligência nos negócios), cada camada de um Data Warehouse ou Data Mart representa um tipo de informação de uma base multidimensional que pode ser ingerida para um Big Data ou ingerir dados de outras fontes de dados.
O cubo de dados é a representação da multidimensionalidade dessas informações. Portanto, os Data Marts são:

Resposta Selecionada:
criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos.
Resposta Correta:
criados, de forma personalizada, para facilitar as extensivas pesquisas por assuntos específicos.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois os bancos multidimensionais, como o Data Warehouse e o Data Mart, foram criados para facilitar as extensivas pesquisas por assuntos específicos. A estrutura multidimensional facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Após a criação do cubo Data Mart, os usuários, por meio de aplicativos específicos de leitura, podem destrinchar e detalhar as informações por meio da adição de dimensões, cruzando-as para visualização.

· Pergunta 7
1 em 1 pontos

Leia o excerto a seguir:
“A principal abstração de um SPS [Sistemas de Processamento Stream ] é o data stream. Um stream é um fluxo contínuo e ilimitado de dados que chega em determinada ordem; a taxa de chegada dos dados pode ser fixa ou imprevisível; e os dados podem ser estruturados, semiestruturados ou não estruturados. Cada item de um stream é chamado de tupla, evento ou mensagem, geralmente composto por um conjunto de pares de chave/valor. Tuplas de um mesmo data stream possuem o mesmo data schema, que descreve as colunas e seus respectivos tipos de dados”. (CHAKRAVARTHY, 2009 apud BORDIN et al. , 2016, p. 4)
BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERAD2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020.
Considerando o contexto apresentado sobre o SPS (Stream Processing Systems ou Sistema de Processamento Stream), analise as afirmativas a seguir:
I. Os Data Streams são produzidos por entidades externas denominadas fontes de dados, por exemplo a IoT (Internet das Coisas).
II. Os dados produzidos são consumidos (ingeridos) pelo SPS para processamento, por meio de um componente chamado de fonte ( source ).
III. As aplicações de Data Stream não se limitam a um processamento em memória, pois podem ser processadas em discos, já que precisam produzir resultados rápidos.
IV. Aos operadores que recebem os Data Streams se aplica um processamento ou função de filtragem, junção, agregação, mineração, álgebra relacional etc.
Está correto o que se afirma em:

Resposta Selecionada:
I, II e IV, apenas.
Resposta Correta:
I, II e IV, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta com relação à afirmativa I, pois os Data Streams são advindos de fontes externas diversas e com tipos de dados estruturados, semiestruturados e não estruturados, principalmente de fontes de dispositivos como televisores, geladeiras e equipamentos conectados à internet. Com relação à afirmativa II, os dados são ingeridos por um SPS, de forma que todos os dados são recebidos de fontes denominadas “fonte source”, que podem ser a internet, documentos, dispositivos etc. Com relação à afirmativa IV, os operadores estão relacionados à máquina de processamento da camada Data Processing Layer, que realiza as funções diversas de filtragem, álgebra relacional à junção (sumarização de tuplas), agregação (coleção e sumarização), mineração de dados (aprendizado máquina) e outras funções de processamento.

· Pergunta 8
0 em 1 pontos

Leia o excerto a seguir:
“Segundo Kabakus e Kara (2017), bancos de dados relacionais (RDBMS) se baseiam no modelo ACID (Atomicity, Consistency, Isolation, Durability) para garantir a consistência e manter a integridade dos dados, enquanto os bancos NoSQL partem do princípio BASE (Basically Available, Soft-state, Eventually consistent) para atingir melhor desempenho, disponibilidade e escalabilidade”.
ROCKENBACH, D. et al . Estudo comparativo de bancos de dados NoSQL. Revista Eletrônica Argentina-Brasil de Tecnologias da Informação e da Comunicação , [S.l.], v. 1, n. 8, abr. 2018. Disponível em: https://revistas.setrem.com.br/index.php/reabtic/article/view/286/131. Acesso em: 22 set. 2020.
Diante do contexto apresentado sobre os modelos estruturados e não estruturados, analise as afirmativas a seguir:
I. A propriedade isolamento do modelo ACID implica que as mudanças parciais realizadas por uma transação devem ser desfeitas se a transação abortar.
II. O termo NoSQL é, geralmente, interpretado como Not only SQL e tem como finalidade transmitir a ideia de que muitas aplicações precisam de sistemas diferentes dos sistemas SQL relacionais tradicionais para ampliar suas necessidades de gerenciamento de dados.
III. A maioria dos sistemas NoSQL é de bancos de dados distribuídos ou sistemas de armazenamento distribuído com foco no armazenamento de dados semiestruturados, alto desempenho, disponibilidade e replicação de dados e escalabilidade, ao contrário da ênfase em consistência imediata de dados, linguagens de consultas poderosas, como é o caso da SQL, e armazenamento de dados estruturados.
IV. Os Sistemas Gerenciadores de Banco de Dados (SGBDs) asseguram que as transações obedeçam a determinadas propriedades. As propriedades mais importantes e mais difundidas são as propriedades BASE (Basically Available, Soft-state, Eventually consistent).
Está correto o que se afirma em:

Resposta Selecionada:
I e IV, apenas.
Resposta Correta:
II e III, apenas.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as afirmativas selecionadas. É importante lembrar que os SGBDs estão relacionados às propriedades ACID (Atomicity, Consistency, Isolation, Durability), enquanto os bancos NoSQL estão relacionados às propriedades BASE (Basically Available, Soft-state, Eventually consistent).

· Pergunta 9
1 em 1 pontos

Leia o excerto a seguir:
“O particionamento de dados é a forma de fragmentar ou particionar em diferentes meios físicos. A forma de armazenamento de dados utilizando sistemas distribuídos é um formato comum quando se trata de Big Data. O particionamento permite que tabelas e índices de um banco de dados sejam subdivididos em partes menores individuais. Cada parte do projeto é chamada de partição. Uma partição tem o seu próprionome e pode ter suas próprias características de armazenamento”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 17.
A respeito do particionamento de dados, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Da perspectiva de um administrador de banco de dados, um objeto particionado possui várias partes que podem ser gerenciadas coletiva ou individualmente.
II. ( ) Por meio do particionamento, uma tabela pode ser acessada por um aplicativo, pois suas relações serão perdidas.
III. ( ) O particionamento pode reduzir muito o custo total de propriedade de dados, por meio de uma abordagem de arquivamento em camadas para manter as informações relevantes.
IV. ( ) A ideia do particionamento de objetos como tabelas é utilizar-se de uma chave de particionamento, cujo conjunto de colunas determina em qual partição uma linha ficará.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o particionamento dos dados em partes menores tem a finalidade de efetuar um melhor gerenciamento. A afirmativa II é falsa, pois uma tabela em um banco de dados, que é um objeto, pode ser acessada por qualquer aplicativo, não perdendo suas propriedades. A afirmativa III é verdadeira, visto que o particionamento é considerado uma ferramenta de otimização em termos de custo, pois reduz o tempo de acesso, mantendo informações prioritárias e mais importantes. A afirmativa IV é verdadeira, pois o particionamento usa uma técnica que separa um conjunto de colunas (campos) associadas a determinadas linhas (registros) e define uma chave de partição.

· Pergunta 10
0 em 1 pontos

Leia o excerto a seguir:
“Fast Data nada mais é do que processar os dados com alta velocidade, maior do que a de um Big Data, a ponto de possibilitar uma ação em tempo real, adaptada ao perfil do cliente, tornando esse esforço mais assertivo e exclusivo, aproveitando as oportunidades em tempo hábil. [...] [Os Fast Data] estão se tornando fundamentais para as estratégias de marketing de empresas de diferentes setores. Um dos maiores e-commerce do Brasil já usa o Fast Data há algum tempo”.
DIAS, A. et al.
Aplicação do Fast Data do Marketing do comércio atual. Revista Unifenas . v. 11, n. 1, p. 1-9, 2016, p. 4. Disponível em: http://revistas.unifenas.br/index.php/RE3C/article/view/161/106 . Acesso em: 2 out. 2020.
Considerando o contexto apresentado sobre o Fast Data, analise as afirmativas a seguir:
I. Em uma arquitetura Fast Data, a aquisição ou ingestão de dados necessita de uma forma assíncrona para evitar contrapressão (dados gerados mais rapidamente do que são consumidos).
II. Em uma arquitetura Fast Data, usar paralelismo no processo de transformação dos dados antes do processamento de limpeza e eliminação de duplicação de dados é um fator não usual.
III. A arquitetura Fast Data se utiliza de processo de ingestão de dados em tempo real, dentro de um processo de aquisição, armazenamento, processamento e visualização de dados.
IV. Na etapa de armazenamento em uma arquitetura Fast Data (Data Storage Layer - camada de armazenamento de dados), é necessário pensar na utilização de normalizações de banco de dados.
Está correto o que se afirma em:

Resposta Selecionada:
III e IV, apenas.
Resposta Correta:
I e III, apenas.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as afirmativas selecionadas. Quando se fala em arquitetura Fast Data, deve-se lembrar dos procedimentos de otimização em termos de custo e uso dos recursos, a fim de se obter uma melhor eficiência na ingestão de dados em tempo real. Existem técnicas, métodos específicos e propriedades necessárias para uma ingestão, por exemplo de stream processing, em que há um fluxo contínuo de dados que devem ser ingeridos para o pipeline de dados.