solucao-N2-COLETA E INTEGRAÇÃO DE DADOS

•

ESTÁCIO

0

cesar martins

14/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.752 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

BIG DATA - N2 - COLETA E INTEGRAÇÃO DE DADOS – FMU - 2021
· Pergunta 1
1 em 1 pontos

O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura Big Data, concentrando, por meio de uma ingestão de dados, todos os tipos de dados em formatos brutos, sem a realização de tarefas de processamento e análise, ou seja, é realizado apenas o armazenamento dos dados.
Considerando o contexto apresentado sobre o conceito de Data Lake, analise as afirmativas a seguir:
I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com transformação.
II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou de bases relacionais, como o ERP e o CRM, por meio do ETL.
III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em um Data Warehouse quanto em sistemas de análise como o BI.
IV. O Data Lake recebe somente dados não estruturados de bancos de dados NoSQL, por meio de tecnologias como HDFS e Map Reduce.
Está correto o que se afirma em:

Resposta Selecionada:
I e II, apenas.
Resposta Correta:
I e II, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois o Data Lake tem como função ingerir todos os tipos de dados, sejam eles transformados, como os relacionais, ou não transformados, como os dados NoSQL. Esses dados podem se originar de diversas fontes, como o Business Intelligence, ou de bases relacionais, como os ERPs e CRMs.

· Pergunta 2
1 em 1 pontos

Leia o excerto a seguir:
“O objetivo do aprendizado máquina é derivar modelos preditivos a partir de dados atuais e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as devidas melhorias com uma excessiva quantidade de treinamento ou experiência. Tais resultados eficientes são alcançados por algoritmos específicos de aprendizado máquina”.
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop: uma introdução para cientistas de dados. São Paulo: Novatec, 2016., p. 38.
Com base no contexto apresentado e em seus estudos sobre o aprendizado de máquina, analise as afirmativas a seguir e verifique quais correspondem a algoritmos que atingem resultados mais eficientes.
I. Aprendizado para um pequeno conjunto de dados e amplos domínios usando modelos treinados.
II. Mineração de dados para domínios restritos e uso de modelos com base na experiência, por meio de um processo indutivo.
III. Com acesso de grandes bases de conhecimento de treinamento, por meio de conhecimentos úteis e não triviais.
IV. Aprendizado para um grande conjunto de dados relacionais e bases de conhecimento.
V. Aprendizado para domínios muito restritos, usando modelos treinados a partir de um grande conjunto de dados.
Está correto o que se afirma em:

Resposta Selecionada:
II e V, apenas.
Resposta Correta:
II e V, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, dentro de um processo de aprendizagem de máquina, para derivar modelos preditivos e obter uma maior eficiência de aprendizagem, é necessário que os algoritmos utilizem uma menor quantidade de domínios, com modelos treinados, e um grande conjunto de dados da base. Além dos domínios restritos, a eficiência é obtida por meio do uso de processos que utilizam modelos indutivos com base na experiência, fazendo, assim, predições do que irá acontecer com base no que já aconteceu.

· Pergunta 3
1 em 1 pontos

Observe a figura abaixo e leia o excerto a seguir:
Figura - Esquema do stream de dados com captura, ingestão, processamento e análise desses dados
Fonte: Adaptada de Pereira (2019, p. 105).
“O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar e analisar os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de dados contínuo, o processamento se dá pela captura de um trecho, conhecido como janela. Uma vez coletados, esses dados são processados sequencialmente e forma incremental, registro por registro ou em uma janela que desliza com base no tempo”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 104.
A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) O processo de captura de dados na janela é conhecido como ingestão de dados, o que possibilita o processamento e a realização da análise de dados.
II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma coleção de objetos.
III. ( ) O stream
é um conjunto de dados gerados em tempo real e, diferentemente do envio em lotes, tem relação com o processo de envio de registros de dados de forma contínua, à medida que os dados são gerados.
IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que são utilizados por diferentes tipos de transmissão de conteúdos.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois, quando uma parte do stream é capturada, é feita uma ingestão de dados que passa para um processamento de dados (operações de filtro, junção, agregação etc.). A afirmativa II é falsa, pois o stream de dados não é o mesmo que as instâncias da relação de tabelas, mas é considerado o processo de captura na janela de um fluxo de dados ou os dados de registros capturados em tempo real. A afirmativa III é verdadeira, pois o stream é a aquisição dos registros de dados em fluxo contínuo, diferentemente da aquisição em lotes. A afirmativa IV é verdadeira, pois os dados de stream são um conjunto de dados estruturados, não estruturados e semiestruturados e advêm de diversas fontes para serem tratados (processados).

· Pergunta 4
0 em 1 pontos

Leia o trecho a seguir:
“A quantidade de dispositivos somada aos diversos formatos de arquivos e a necessidade de extrair valor dos mesmos mostraram a limitação dos modelos relacionais, que serviam bem para o tratamento de dados estruturados, mas não possibilitam o tratamento de dados semiestruturados ou não estruturados. Esse motivo foi um dos principais motivadores da busca de ferramentas NoSQL, que trabalham com bancos de dados não relacionais”.
GALDINO, N. Big Data: ferramentas e aplicabilidade. In: Simpósio de Excelência em Gestão e Tecnologia, 13., 2016, Rio de Janeiro. Anais eletrônicos [...]. Rio de janeiro: AEDB, 2016. Disponível em: https://www.aedb.br/seget/arquivos/artigos16/472427.pdf . Acesso em: 22 set. 2020.
Considerando as limitações das bases relacionais com relação à diversidade de fontes de dados na atualidade – como páginas web , documentos, log e aplicações – e, consequentemente, dos tipos de dados gerados, assinale a alternativa que apresenta propriedades que devem ser atendidas por uma arquitetura Big Data, de acordo com o modelo de negócio.

Resposta Selecionada:
Todas as propriedades ACID (Atomicidade, Consistência, Isolamento e Durabilidade) devem atender a um comportamento de dados em uma arquitetura Big Data.
Resposta Correta:
Duas propriedades CAP (consistência, disponibilidade e tolerância a falhas) devem ser utilizadas, dependendo do cenário de negócio a ser aplicado.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as afirmativas selecionadas. Deve-se associar os bancos de dados com os tipos de dados e suas propriedades. Os bancos de dados relacionais possuem fortes propriedades estruturais de consistência; já os bancos de dados NoSQL possuem uma maior flexibilização de tipos de dados. Nesse sentido, a fonte de dados a qual o Big Data irá ingerir pode conter diferentes tipos de dados; contudo, é necessário lembrar que as propriedades de um banco de dados relacional são diferentes das propriedades de um Big Data.· Pergunta 5
1 em 1 pontos

Leia o excerto a seguir:
“O Big Data pode ser caracterizado por seu volume, onde são gerados petabytes de dados a cada dia. E estima-se que este volume dobre a cada 18 meses. Variedade também, pois estes dados vêm de sistemas estruturados (hoje são a minoria) e não estruturados (a imensa maioria) gerados por e-mail, mídias sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos, apresentações estilo powerpoint, imagens instantâneas, sensores, etiquetas RFID, câmeras de vídeos etc.”.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2019, p. 39.
Nesse sentido, em função da diversidade de fontes e da quantidade e tipos de dados, uma alta capacidade de dados reflete em um alto custo do dimensionamento do Big Data. Esse procedimento pode ser solucionado por meio do:

Resposta Selecionada:
aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores ( cluster) por meio da técnica de sharding.
Resposta Correta:
aumento da capacidade de armazenamento e do processamento de um conjunto de dados que são fragmentados em pequenas partições, em que os dados são distribuídos para vários servidores (cluster) por meio da técnica de sharding.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, para a solução de problemas de capacidade de armazenamento e processamento em um Big Data, a fragmentação dos dados por meio da técnica sharding
faz que o armazenamento se expanda horizontalmente (particionamento horizontal). A técnica sharding utiliza o conceito de banco de dados distribuídos, em que os dados são partilhados em vários servidores, denominados cluster.

· Pergunta 6
1 em 1 pontos

Leia o excerto a seguir:
“O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14.
A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros.
II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento.
III. ( ) É um framework
de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma.
IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o mecanismo Hadoop é uma ferramenta de análise de dados constituída de diversas outras ferramentas, formando um ecossistema de etapas de ingestão, armazenamento, processamento e visualização de dados. A afirmativa II é falsa, pois o Hadoop é escrito em linguagem Java e não realiza uma centralização dos dados ingeridos, mas, sim, uma descentralização de dados. A afirmativa III é verdadeira, pois o Hadoop é considerado um framework Open Source, que tem como objetivo o processamento e o armazenamento de dados ingeridos de diversas fontes de dados e os clusterizando em diversos servidores. A afirmativa IV é verdadeira, pois o Hadoop é um ecossistema, ou seja, uma integração de diversos módulos de sistema de arquivos.

· Pergunta 7
1 em 1 pontos

Leia o excerto a seguir:
“ Spark Streaming é um sistema distribuído stateful de stream processing . A diferença-chave desta plataforma está na forma em como lidar com os data streams. [...] Os batches são tratados como um Resilient Distributed Datasets (RDDs), que é uma estrutura onde os dados estão em memória e podem ser recuperados sem a necessidade de replicação. Um grafo de linhagem (lineage graph) das operações aplicadas é mantido para que o dado possa ser construído. Isto é possível porque as computações são deterministas. Esses grafos de linhagem darão origem a grafos RDD, contendo o fluxo das execuções”.
BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERAD2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020.
Considerando o contexto apresentado sobre o Spark Stream, analise as afirmativas a seguir:
I. O Spark Stream é um framework
de código proprietário, o qual agrupa streams de lotes em um determinado intervalo de tempo, tratando a coleção de lotes com RDDs (Resilient Distributed Datasets).
II. O Spark Stream utiliza computação distribuída, facilitando a criação de fluxos de processamento, sendo tolerante a falhas. Cada stream é dividido em lotes, e cada lote é um RDD (Resilient Distributed Dataset).
III. Após receber os streams , o resultado do Spark Stream é formar lotes que são armazenados em um banco de dados (Data Storage Layer), podendo ser utilizados para visualização.
IV. O Spark Stream se utiliza de particionamento de streams , cluster dinâmico, de processamento microbatches , com operadores nativos, determinísticos e de linguagem de programação Java, Scala e Python.
Está correto o que se afirma em:

Resposta Selecionada:
I, III e IV, apenas.
Resposta Correta:
I, III e IV, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta com relação à afirmativa I, pois o S park Stream recebe os dados de diversas fontes de dados, como streams, e os divide em lotes processados em memória; cada lote é considerado um dataset e permanece em memória. Com relação à afirmativa III, referente à saída do Spark Stream, os lotes são gerados pela divisão do stream na qual o Spark Stream realiza a fragmentação e o armazenamento para futura visualização. Com relação à afirmativa IV, o Spark Stream possui características de cluster dinâmico, em que a carga de trabalho é dinamicamente equilibrada à de microbatches ou microlotes, ou seja, à divisão dos streams em pequenos lotes.

· Pergunta 8
1 em 1 pontos

Leia o excerto a seguir:
“O particionamento de dados é a forma de fragmentar ou particionar em diferentes meios físicos. A forma de armazenamento de dados utilizando sistemas distribuídos é um formato comum quando se trata de Big Data. O particionamento permite que tabelas e índices de um banco de dados sejam subdivididos em partes menores individuais. Cada parte do projeto é chamada de partição. Uma partição tem o seu próprio nome e pode ter suas próprias características de armazenamento”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 17.
A respeito do particionamento de dados, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Da perspectiva de um administrador de banco de dados, um objeto particionadopossui várias partes que podem ser gerenciadas coletiva ou individualmente.
II. ( ) Por meio do particionamento, uma tabela pode ser acessada por um aplicativo, pois suas relações serão perdidas.
III. ( ) O particionamento pode reduzir muito o custo total de propriedade de dados, por meio de uma abordagem de arquivamento em camadas para manter as informações relevantes.
IV. ( ) A ideia do particionamento de objetos como tabelas é utilizar-se de uma chave de particionamento, cujo conjunto de colunas determina em qual partição uma linha ficará.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o particionamento dos dados em partes menores tem a finalidade de efetuar um melhor gerenciamento. A afirmativa II é falsa, pois uma tabela em um banco de dados, que é um objeto, pode ser acessada por qualquer aplicativo, não perdendo suas propriedades. A afirmativa III é verdadeira, visto que o particionamento é considerado uma ferramenta de otimização em termos de custo, pois reduz o tempo de acesso, mantendo informações prioritárias e mais importantes. A afirmativa IV é verdadeira, pois o particionamento usa uma técnica que separa um conjunto de colunas (campos) associadas a determinadas linhas (registros) e define uma chave de partição.

· Pergunta 9
1 em 1 pontos

Leia o excerto a seguir:
“O OLAP (Online Analytical Processing - processamento analítico on-line ) é um termo utilizado para descrever a análise de dados complexos. Nas mãos dos trabalhadores especializados, as ferramentas OLAP empregam a capacidade de computação distribuída”.
ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados. 7. ed. São Paulo: Pearson Education do Brasil, 2018, p. 1-2.
Diante do contexto sobre a ferramenta OLAP, analise as afirmativas a seguir:
I. Realiza análises que requerem mais armazenamento e poder de processamento.
II. São bancos de dados distribuídos ou sistemas de armazenamento distribuído com foco no armazenamento de dados semiestruturados, alto desempenho, disponibilidade e replicação de dados e escalabilidade.
III. Corresponde a um processo de extração, transformação e leitura após o armazenamento de forma catalogada no armazém de dados.
IV. Efetua um processo de processamento de transações em tempo real, que incluem inserções, atualizações e exclusões, além de requisitos de consultas, que correspondem a informações das diversas áreas organizacionais internas, como marketing , vendas, estoque e faturamento de uma organização.
Está correto o que se afirma em:

Resposta Selecionada:
I, apenas
Resposta Correta:
I, apenas
Comentário da resposta:
Resposta correta. A alternativa está correta, pois somente a afirmativa I está correta. O OLAP realiza um processamento de forma distribuída, e não de forma centralizada; entretanto, não é considerado um banco de dados distribuído. O processo de extração, transformação e leitura após o armazenamento é denominado ETL, e não OLAP. Já o processamento de transações organizacionais é denominado OLTP, e não OLAP.

· Pergunta 10
1 em 1 pontos

Leia o excerto a seguir:
“Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. Porém, quando falamos em Big Data, estamos assumindo que, além de termos um grande volume de dados, devido às grandes proporções, eles não podem ser tratados como métodos tradicionais, para isso devem ser executados alguns passos, tais como a obtenção, armazenamento, sistematização e análise de dados”.
MORAIS, I. S. et al . Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: SAGAH, 2018, p. 45-46.
Nesse sentido, em função da diversidade de fontes, quantidade e tipos de dados, assinale a alternativa que apresenta as cinco vertentes que definem a performance de um conceito Big Data.

Resposta Selecionada:
Volume, velocidade, variedade, veracidade e valor.
Resposta Correta:
Volume, velocidade, variedade, veracidade e valor.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois as propriedades de um Big Data estão relacionadas ao grande volume de dados, graças à internet, à computação móvel e à facilidade de criação e armazenamento de dados; são advindas de diversas fontes (variedade) internas ou externas da organização; são executadas em tempo real (velocidade), com a veracidade (dados verdadeiros) de fontes confiáveis; e possuem valor (utilidade ao usuário), pois nada adianta uma grande quantidade de informações se estas não forem úteis para a tomada de decisão organizacional.