N2 Coleta e Integração de Dados TENTATIVA 2

•

ESTÁCIO

Ivan S

17/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Procedimentos de Coleta de Dados

57 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

COLETA E INTEGRAÇÃO DE DADOS
N2 Tentativa 2
· Pergunta 1
1 em 1 pontos

Leia o excerto a seguir:
“Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. Porém, quando falamos em Big Data, estamos assumindo que, além de termos um grande volume de dados, devido às grandes proporções, eles não podem ser tratados como métodos tradicionais, para isso devem ser executados alguns passos, tais como a obtenção, armazenamento, sistematização e análise de dados”.
MORAIS, I. S. et al . Introdução a Big Data e Internet das Coisas (IoT). Porto Alegre: SAGAH, 2018, p. 45-46.
Nesse sentido, em função da diversidade de fontes, quantidade e tipos de dados, assinale a alternativa que apresenta as cinco vertentes que definem a performance de um conceito Big Data.

Resposta Selecionada:
Volume, velocidade, variedade, veracidade e valor.
Resposta Correta:
Volume, velocidade, variedade, veracidade e valor.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois as propriedades de um Big Data estão relacionadas ao grande volume de dados, graças à internet, à computação móvel e à facilidade de criação e armazenamento de dados; são advindas de diversas fontes (variedade) internas ou externas da organização; são executadas em tempo real (velocidade), com a veracidade (dados verdadeiros) de fontes confiáveis; e possuem valor (utilidade ao usuário), pois nada adianta uma grande quantidade de informações se estas não forem úteis para a tomada de decisão organizacional.

· Pergunta 2
1 em 1 pontos

Leia o excerto a seguir:
“O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando empresas e instituições passaram a compreender e a desenvolver tecnologias para trabalhar com o novo fenômeno da era da informação. Dessa revolução surgiram soluções como o Apache Hadoop, criado pela Apache Foundation, uma fundação responsável por várias tecnologias que lidam com formas de uso e tratamento de dados”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 14.
A respeito do ecossistema Hadoop, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e
F para a(s) Falsa(s).
I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar informações de dados históricos e de fluxo de informações em tempo real. Essas ferramentas ajudam a analisar eventos passados, a entender as atividades atuais e a prever resultados futuros.
II. ( ) É uma plataforma de software em linguagem de programação Python, que centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e bases de dados relacionais em uma única base de dados de grande volume e poder de processamento.
III. ( ) É um framework
de código aberto para o processamento e armazenamento de dados em larga escala, com cluster de máquinas organizadas em uma máquina mestre e várias escravas, promovendo soluções em uma única plataforma.
IV. ( ) É composto por um conjunto de módulos integrados de computação distribuída, formando um ecossistema de pipeline de dados, como o Hadoop Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari, Cassandra e Spark e HBase.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o mecanismo Hadoop é uma ferramenta de análise de dados constituída de diversas outras ferramentas, formando um ecossistema de etapas de ingestão, armazenamento, processamento e visualização de dados. A afirmativa II é falsa, pois o Hadoop é escrito em linguagem Java e não realiza uma centralização dos dados ingeridos, mas, sim, uma descentralização de dados. A afirmativa III é verdadeira, pois o Hadoop é considerado um framework Open Source, que tem como objetivo o processamento e o armazenamento de dados ingeridos de diversas fontes de dados e os clusterizando em diversos servidores. A afirmativa IV é verdadeira, pois o Hadoop é um ecossistema, ou seja, uma integração de diversos módulos de sistema de arquivos.

· Pergunta 3
1 em 1 pontos

Observe a figura abaixo e leia o excerto a seguir:
Figura - Esquema do stream de dados com captura, ingestão, processamento e análise desses dados
Fonte: Adaptada de Pereira (2019, p. 105).
“O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar e analisar os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de dados contínuo, o processamento se dá pela captura de um trecho, conhecido como janela. Uma vez coletados, esses dados são processados sequencialmente e forma incremental, registro por registro ou em uma janela que desliza com base no tempo”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p. 104.
A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) O processo de captura de dados na janela é conhecido como ingestão de dados, o que possibilita o processamento e a realização da análise de dados.
II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados ou uma coleção de objetos.
III. ( ) O stream
é um conjunto de dados gerados em tempo real e, diferentemente do envio em lotes, tem relação com o processo de envio de registros de dados de forma contínua, à medida que os dados são gerados.
IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que são utilizados por diferentes tipos de transmissão de conteúdos.
Assinale a alternativa que apresenta a sequência correta.

Resposta Selecionada:
V, F, V, V.
Resposta Correta:
V, F, V, V.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois, quando uma parte do stream é capturada, é feita uma ingestão de dados que passa para um processamento de dados (operações de filtro, junção, agregação etc.). A afirmativa II é falsa, pois o stream de dados não é o mesmo que as instâncias da relação de tabelas, mas é considerado o processo de captura na janela de um fluxo de dados ou os dados de registros capturados em tempo real. A afirmativa III é verdadeira, pois o stream é a aquisição dos registros de dados em fluxo contínuo, diferentemente da aquisição em lotes. A afirmativa IV é verdadeira, pois os dados de stream são um conjunto de dados estruturados, não estruturados e semiestruturados e advêm de diversas fontes para serem tratados (processados).

· Pergunta 4
1 em 1 pontos

Leia o excerto a seguir:
“A principal abstração de um SPS [Sistemas de Processamento Stream ] é o data stream. Um stream é um fluxo contínuo e ilimitado de dados que chega em determinada ordem; a taxa de chegada dos dados pode ser fixa ou imprevisível; e os dados podem ser estruturados, semiestruturados ou não estruturados. Cada item de um stream é chamado de tupla, evento ou mensagem, geralmente composto por um conjunto de pares de chave/valor. Tuplas de um mesmo data stream possuem o mesmo data schema, que descreve as colunas e seus respectivos tipos de dados”. (CHAKRAVARTHY, 2009 apud BORDIN et al. , 2016, p. 4)
BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERAD2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020.
Considerando o contexto apresentado sobre o SPS (Stream Processing Systems ou Sistema de Processamento Stream), analise as afirmativas a seguir:
I. Os Data Streams são produzidos por entidades externas denominadas fontes de dados, por exemplo a IoT (Internet das Coisas).
II. Os dados produzidos são consumidos(ingeridos) pelo SPS para processamento, por meio de um componente chamado de fonte ( source ).
III. As aplicações de Data Stream não se limitam a um processamento em memória, pois podem ser processadas em discos, já que precisam produzir resultados rápidos.
IV. Aos operadores que recebem os Data Streams se aplica um processamento ou função de filtragem, junção, agregação, mineração, álgebra relacional etc.
Está correto o que se afirma em:

Resposta Selecionada:
I, II e IV, apenas.
Resposta Correta:
I, II e IV, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta com relação à afirmativa I, pois os Data Streams são advindos de fontes externas diversas e com tipos de dados estruturados, semiestruturados e não estruturados, principalmente de fontes de dispositivos como televisores, geladeiras e equipamentos conectados à internet. Com relação à afirmativa II, os dados são ingeridos por um SPS, de forma que todos os dados são recebidos de fontes denominadas “fonte source”, que podem ser a internet, documentos, dispositivos etc. Com relação à afirmativa IV, os operadores estão relacionados à máquina de processamento da camada Data Processing Layer, que realiza as funções diversas de filtragem, álgebra relacional à junção (sumarização de tuplas), agregação (coleção e sumarização), mineração de dados (aprendizado máquina) e outras funções de processamento.

· Pergunta 5
1 em 1 pontos

Leia o excerto a seguir:
“O objetivo do aprendizado máquina é derivar modelos preditivos a partir de dados atuais e históricos. De acordo com as premissas, um algoritmo realiza o aprendizado quando obtém as devidas melhorias com uma excessiva quantidade de treinamento ou experiência. Tais resultados eficientes são alcançados por algoritmos específicos de aprendizado máquina”.
BENGFORT, B.; KIM, J. Analítica de dados com Hadoop: uma introdução para cientistas de dados. São Paulo: Novatec, 2016., p. 38.
Com base no contexto apresentado e em seus estudos sobre o aprendizado de máquina, analise as afirmativas a seguir e verifique quais correspondem a algoritmos que atingem resultados mais eficientes.
I. Aprendizado para um pequeno conjunto de dados e amplos domínios usando modelos treinados.
II. Mineração de dados para domínios restritos e uso de modelos com base na experiência, por meio de um processo indutivo.
III. Com acesso de grandes bases de conhecimento de treinamento, por meio de conhecimentos úteis e não triviais.
IV. Aprendizado para um grande conjunto de dados relacionais e bases de conhecimento.
V. Aprendizado para domínios muito restritos, usando modelos treinados a partir de um grande conjunto de dados.
Está correto o que se afirma em:

Resposta Selecionada:
II e V, apenas.
Resposta Correta:
II e V, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois, dentro de um processo de aprendizagem de máquina, para derivar modelos preditivos e obter uma maior eficiência de aprendizagem, é necessário que os algoritmos utilizem uma menor quantidade de domínios, com modelos treinados, e um grande conjunto de dados da base. Além dos domínios restritos, a eficiência é obtida por meio do uso de processos que utilizam modelos indutivos com base na experiência, fazendo, assim, predições do que irá acontecer com base no que já aconteceu.

· Pergunta 6
1 em 1 pontos

A SQL e similares, muito utilizadas no processamento stream de dados, por natureza, não são linguagens de programação procedural, como as linguagens de programação Java, C, C++ e outras, pois foram construídas para, basicamente, permitir a manutenção da estrutura de dados (metadados) e dar acesso aos dados de fato, permitindo operações de consulta, inserção, atualização e exclusão.
Assinale a alternativa que justifica a diferença entre a linguagem SQL e a maioria das linguagens de programação.

Resposta Selecionada:
A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção.
Resposta Correta:
A SQL pode ser usada em conjunto com as linguagens externas e dar acesso aos dados de fato, permitindo operações de manutenção.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois a diferença entre a SQL e as linguagens de programação externa é que a SQL pode ser utilizada de maneira combinada, por meio de acessos em diferentes camadas, como interface, regras de negócio e banco de dados. Enquanto as linguagens externas tratam da programação de interfaceamento e regras de negócios, a SQL trata do acesso e da manipulação de dados na base de dados.

· Pergunta 7
1 em 1 pontos

Leia o excerto a seguir:
“Fast Data nada mais é do que processar os dados com alta velocidade, maior do que a de um Big Data, a ponto de possibilitar uma ação em tempo real, adaptada ao perfil do cliente, tornando esse esforço mais assertivo e exclusivo, aproveitando as oportunidades em tempo hábil. [...] [Os Fast Data] estão se tornando fundamentais para as estratégias de marketing de empresas de diferentes setores. Um dos maiores e-commerce do Brasil já usa o Fast Data há algum tempo”.
DIAS, A. et al.
Aplicação do Fast Data do Marketing do comércio atual. Revista Unifenas . v. 11, n. 1, p. 1-9, 2016, p. 4. Disponível em: http://revistas.unifenas.br/index.php/RE3C/article/view/161/106 . Acesso em: 2 out. 2020.
Considerando o contexto apresentado sobre o Fast Data, analise as afirmativas a seguir:
I. Em uma arquitetura Fast Data, a aquisição ou ingestão de dados necessita de uma forma assíncrona para evitar contrapressão (dados gerados mais rapidamente do que são consumidos).
II. Em uma arquitetura Fast Data, usar paralelismo no processo de transformação dos dados antes do processamento de limpeza e eliminação de duplicação de dados é um fator não usual.
III. A arquitetura Fast Data se utiliza de processo de ingestão de dados em tempo real, dentro de um processo de aquisição, armazenamento, processamento e visualização de dados.
IV. Na etapa de armazenamento em uma arquitetura Fast Data (Data Storage Layer - camada de armazenamento de dados), é necessário pensar na utilização de normalizações de banco de dados.
Está correto o que se afirma em:

Resposta Selecionada:
I e III, apenas.
Resposta Correta:
I e III, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta. A afirmativa I está correta, pois a forma assíncrona evita uma contrapressão entre a aquisição e o consumo, sendo que, em uma comunicação síncrona, os dados podem ser gerados mais rapidamente do que são consumidos. A afirmativa III está correta, pois o Fast Data trabalha com uma ingestão de dados em real time
para uma tomada de decisão mais eficiente – é o caso de informações de compras em um site de comércio eletrônico, em que as decisões devem ser tomadas com maior velocidade.

· Pergunta 8
1 em 1 pontos

Os Data Marts podem ingerir e ser ingeridos por um Big Data. A estrutura multidimensional de um Data Mart facilita a pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica, dependendo dos recursos da ferramenta de leitura do cubo. Dentro de uma estrutura multidimensional, é possível realizar uma análise mais aprofundada das informações, por meio do cruzamento de dimensões e métricas.
Considerando o contexto apresentado sobre as aplicações do Data Mart, analise as afirmativas a seguir:
I. O Data Mart é uma análise direta das bases relacionais.
II. Após a criação dos cubos, os usuários, por meio de aplicativos específicos de leitura, podem destrinchar e detalhar as informações.
III. Após a criação dos cubos, os usuários podem acessar diretamente o Data Mart, sem a necessidade de aplicativos de leitura.
IV. Após a criação dos cubos, é necessário definir as dimensões e visões que deverão ser acessadas.
Está correto o que se afirma em:

Resposta Selecionada:
II e IV, apenas.
RespostaCorreta:
II e IV, apenas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois as bases multidimensionais não realizam acesso direto a bases relacionais, necessitando de aplicativos específicos para a leitura e detalhamento das informações, bem como definir as dimensões e visões para criar as consultas. Somente após a criação do cubo multidimensional é possível acessar os dados e dimensões, por meio de aplicativos específicos de leitura.

· Pergunta 9
0 em 1 pontos

Leia o excerto a seguir:
“ Spark Streaming é um sistema distribuído stateful de stream processing . A diferença-chave desta plataforma está na forma em como lidar com os data streams. [...] Os batches são tratados como um Resilient Distributed Datasets (RDDs), que é uma estrutura onde os dados estão em memória e podem ser recuperados sem a necessidade de replicação. Um grafo de linhagem (lineage graph) das operações aplicadas é mantido para que o dado possa ser construído. Isto é possível porque as computações são deterministas. Esses grafos de linhagem darão origem a grafos RDD, contendo o fluxo das execuções”.
BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20. Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERAD2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set. 2020.
Considerando o contexto apresentado sobre o Spark Stream, analise as afirmativas a seguir:
I. O Spark Stream é um framework
de código proprietário, o qual agrupa streams de lotes em um determinado intervalo de tempo, tratando a coleção de lotes com RDDs (Resilient Distributed Datasets).
II. O Spark Stream utiliza computação distribuída, facilitando a criação de fluxos de processamento, sendo tolerante a falhas. Cada stream é dividido em lotes, e cada lote é um RDD (Resilient Distributed Dataset).
III. Após receber os streams , o resultado do Spark Stream é formar lotes que são armazenados em um banco de dados (Data Storage Layer), podendo ser utilizados para visualização.
IV. O Spark Stream se utiliza de particionamento de streams , cluster dinâmico, de processamento microbatches , com operadores nativos, determinísticos e de linguagem de programação Java, Scala e Python.
Está correto o que se afirma em:

Resposta Selecionada:
II e IV, apenas.
Resposta Correta:
I, III e IV, apenas.
Comentário da resposta:
Sua resposta está incorreta. A alternativa está incorreta, pois não condiz com as afirmativas selecionadas. Lembre-se das características do Spark Stream e que, dentro de uma arquitetura Big Data, Spark Stream é um mecanismo de processamento e armazenamento de uma ingestão de dados, que se utiliza de processamento híbrido, em que, a partir de uma ingestão de dados, os batches são tratados como RDDs. A Netflix se utiliza desse mecanismo para realizar a análise de preferências dos seus assinantes com relação aos filmes disponibilizados na plataforma.

· Pergunta 10
1 em 1 pontos

O Data Warehouse, ou Armazém de Dados, consolida as informações orientadas a assuntos das atividades organizacionais a partir de um grande volume de dados, favorecendo relatórios e análises de informações estratégicas de forma catalogada. Os dados do Data Warehouse são coletados de diversas fontes de dados, por meio de ETLs.
As fontes das bases de dados dos Data Warehouse são originadas de:

Resposta Selecionada:
bases transacionais internas e externas.
Resposta Correta:
bases transacionais internas e externas.
Comentário da resposta:
Resposta correta. A alternativa está correta, pois o Data Warehouse coleta informações de bases transacionais internas e externas das organizações, podendo ser também de fontes não estruturadas, gerando dados para as bases multidimensionais, como os Data Marts.