POS1149 COLETA E INTEGRAÇÃO DE DADOS PG0218-212-5 - 202122 ead-19010 01

•

IBMR

Thais Diandra

26/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Procedimentos de Coleta de Dados

57 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pergunta 1
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Leia o excerto a seguir:
“O OLAP (Online Analytical Processing - processamento analítico on-line ) é um
termo utilizado para descrever a análise de dados complexos. Nas mãos dos
trabalhadores especializados, as ferramentas OLAP empregam a capacidade de
computação distribuída”.
ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados. 7. ed. São Paulo:
Pearson Education do Brasil, 2018, p. 1-2.
Diante do contexto sobre a ferramenta OLAP, analise as afirmativas a seguir:
I. Realiza análises que requerem mais armazenamento e poder de
processamento.
II. São bancos de dados distribuídos ou sistemas de armazenamento distribuído
com foco no armazenamento de dados semiestruturados, alto desempenho,
disponibilidade e replicação de dados e escalabilidade.
III. Corresponde a um processo de extração, transformação e leitura após o
armazenamento de forma catalogada no armazém de dados.
IV. Efetua um processo de processamento de transações em tempo real, que
incluem inserções, atualizações e exclusões, além de requisitos de consultas,
que correspondem a informações das diversas áreas organizacionais internas,
como marketing , vendas, estoque e faturamento de uma organização.
Está correto o que se afirma em:
I, apenas
I, apenas
Resposta correta. A alternativa está correta, pois somente a afirmativa I está
correta. O OLAP realiza um processamento de forma distribuída, e não de forma
centralizada; entretanto, não é considerado um banco de dados distribuído. O
processo de extração, transformação e leitura após o armazenamento é
denominado ETL, e não OLAP. Já o processamento de transações organizacionais
é denominado OLTP, e não OLAP.
Pergunta 2
Leia o excerto a seguir:
“ Spark Streaming é um sistema distribuído stateful de stream processing . A
diferença-chave desta plataforma está na forma em como lidar com os data
streams. [...] Os batches são tratados como um Resilient Distributed Datasets
(RDDs), que é uma estrutura onde os dados estão em memória e podem ser
recuperados sem a necessidade de replicação. Um grafo de linhagem (lineage
graph) das operações aplicadas é mantido para que o dado possa ser
construído. Isto é possível porque as computações são deterministas. Esses
grafos de linhagem darão origem a grafos RDD, contendo o fluxo das
execuções”.
BORDIN, M. V. et al. Trabalhando com Big Data em tempo real. Escola
Regional de Alto Desempenho do Rio Grande do Sul (ERAD/RS), 16., 2016, São
Leopoldo. Anais eletrônicos [...]. São Leopoldo: Unisinos, 2016. p. 1-20.
Disponível em: ftp://ftp.inf.ufrgs.br/pub/geyer/POD/slides/Slides-alunos/BigData/ERA
D2016-BigDataStreaming/ERAD-2016-texto-24-02-2016.pdf . Acesso em: 22 set.
2020.
Considerando o contexto apresentado sobre o Spark Stream, analise as
afirmativas a seguir:
I. O Spark Stream é um framework
de código proprietário, o qual agrupa streams de lotes em um determinado
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
intervalo de tempo, tratando a coleção de lotes com RDDs (Resilient Distributed
Datasets).
II. O Spark Stream utiliza computação distribuída, facilitando a criação de fluxos
de processamento, sendo tolerante a falhas. Cada stream é dividido em lotes, e
cada lote é um RDD (Resilient Distributed Dataset).
III. Após receber os streams , o resultado do Spark Stream é formar lotes que
são armazenados em um banco de dados (Data Storage Layer), podendo ser
utilizados para visualização.
IV. O Spark Stream se utiliza de particionamento de streams , cluster dinâmico,
de processamento microbatches , com operadores nativos, determinísticos e de
linguagem de programação Java, Scala e Python.
 Está correto o que se afirma em:
I, III e IV, apenas.
I, III e IV, apenas.
Resposta correta. A alternativa está correta com relação à afirmativa I, pois o
S park Stream recebe os dados de diversas fontes de dados, como streams, e os
divide em lotes processados em memória; cada lote é considerado um dataset e
permanece em memória. Com relação à afirmativa III, referente à saída do Spark
Stream, os lotes são gerados pela divisão do stream na qual o Spark Stream
realiza a fragmentação e o armazenamento para futura visualização. Com relação
à afirmativa IV, o Spark Stream possui características de cluster dinâmico, em que
a carga de trabalho é dinamicamente equilibrada à de microbatches ou microlotes,
ou seja, à divisão dos streams em pequenos lotes.
Pergunta 3
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
O Data Lake, ou Lago de Dados, é um repositório de dados em uma arquitetura
Big Data, concentrando, por meio de uma ingestão de dados, todos os tipos de
dados em formatos brutos, sem a realização de tarefas de processamento e
análise, ou seja, é realizado apenas o armazenamento dos dados.
Considerando o contexto apresentado sobre o conceito de Data Lake, analise as
afirmativas a seguir:
I. O objetivo do Data Lake é receber qualquer tipo de dado, seja sem ou com
transformação.
II. O Data Lake recebe dados de fontes diretas do BI ( Business Intelligence ) ou
de bases relacionais, como o ERP e o CRM, por meio do ETL.
III. Umas das impossibilidades do Data Lake é retornar dados para uso, tanto em
um Data Warehouse quanto em sistemas de análise como o BI.
IV. O Data Lake recebe somente dados não estruturados de bancos de dados
NoSQL, por meio de tecnologias como HDFS e Map Reduce.
 Está correto o que se afirma em:
I e II, apenas.
I e II, apenas.
Resposta correta. A alternativa está correta, pois o Data Lake tem como função
ingerir todos os tipos de dados, sejam eles transformados, como os relacionais, ou
não transformados, como os dados NoSQL. Esses dados podem se originar de
diversas fontes, como o Business Intelligence, ou de bases relacionais, como os
ERPs e CRMs.
Pergunta 4
Leia o excerto a seguir:
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
“O principal construtor para representar dados no modelo relacional é a relação .
Uma relação consiste em um esquema de relação e em uma instância de
relação. A instância da relação se refere a uma tabela (no paradigma relacional)
ou classe (no paradigma orientado a objeto) que contém todos os registros de
dados ou uma coleção de objetos. Já o esquema de relação descreve o
cabeçalho da tabela, ou seja, os campos
da tabela, ou atributos de uma classe ou também denominados de ‘colunas de
uma tabela’”.
RAMAKRISHNAN, R.; GEHRKE, J. Sistema de gerenciamento de banco de
dados. 3. ed. Porto Alegre: AMGH, 2011. p. 1-2.
A respeito das fontes que originaram os dados, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) Uma tabela é um conjunto ordenado de linhas, também chamadas de
tuplas. Cada tupla é o mesmo que um registro de dados.
II. ( ) A estrutura de banco de dados pode ser comparada, por exemplo, a um
fichário de funcionários contendo pastas em ordem alfabética, em que cada
pasta contém fichas de todos os funcionários. Então, cada ficha pode ser
considerada um campo ou atributo.
III. ( ) A instância da relação é o mesmo que um conjunto de tuplas de uma
tabela.
IV. ( ) Em dados não estruturados, em um modelo do tipo “colunas familiares”, a
estrutura é equivalente à tradicional, contudo, as informações são armazenadas
em colunas em vez de linhas.
Assinale a alternativa que apresenta a sequência correta.
V, F, F, V.
V, F, F, V.
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois as
tuplas correspondem aos registros. A afirmativa II é falsa, pois, considerando a
comparação com um fichário, cada ficha em cada pasta é considerada um registro,
e não um campo. A afirmativa III é falsa, pois a instância da relação é o mesmo
que uma tabela de dados, e não tuplas de uma tabela. Já a IV afirmativa é
verdadeira, pois, no modelo de colunas familiares, a estrutura é idêntica à
tradicional, contudo, invertida, em que as colunas são os registrose as linhas os
campos ou atributos.
Pergunta 5
Observe a figura abaixo e leia o excerto a seguir:
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
Figura - Esquema do stream de dados com captura, ingestão, processamento e
análise desses dados
 Fonte: Adaptada de Pereira (2019, p. 105).
 “O Data Stream ou stream é uma evolução do Big Data pela forma de prospectar
e analisar os dados dinamicamente e de modo contínuo. [...] Nesse fluxo de
dados contínuo, o processamento se dá pela captura de um trecho, conhecido
como janela. Uma vez coletados, esses dados são processados
sequencialmente e forma incremental, registro por registro ou em uma janela
que desliza com base no tempo”.
 PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p.
104.
 
 A respeito do Data Stream, analise as afirmativas a seguir e assinale V para a(s)
Verdadeira(s) e F para a(s) Falsa(s).
 I. ( ) O processo de captura de dados na janela é conhecido como ingestão de
dados, o que possibilita o processamento e a realização da análise de dados.
 II. ( ) É uma instância da relação e se refere a uma tabela (no paradigma
relacional) ou classe (no paradigma orientado a objeto) que contém todos os
registros de dados ou uma coleção de objetos.
 III. ( ) O stream
 é um conjunto de dados gerados em tempo real e, diferentemente do envio em
lotes, tem relação com o processo de envio de registros de dados de forma
contínua, à medida que os dados são gerados.
 IV. ( ) Um stream de dados é definido como um conjunto de sinais digitais que
são utilizados por diferentes tipos de transmissão de conteúdos.
 Assinale a alternativa que apresenta a sequência correta.
V, F, V, V.
V, F, V, V.
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois,
quando uma parte do stream é capturada, é feita uma ingestão de dados que
passa para um processamento de dados (operações de filtro, junção, agregação
etc.). A afirmativa II é falsa, pois o stream de dados não é o mesmo que as
instâncias da relação de tabelas, mas é considerado o processo de captura na
janela de um fluxo de dados ou os dados de registros capturados em tempo real. A
afirmativa III é verdadeira, pois o stream é a aquisição dos registros de dados em
fluxo contínuo, diferentemente da aquisição em lotes. A afirmativa IV é verdadeira,
pois os dados de stream são um conjunto de dados estruturados, não estruturados
e semiestruturados e advêm de diversas fontes para serem tratados
(processados).
Pergunta 6
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
O Data Warehouse, ou Armazém de Dados, consolida as informações
orientadas a assuntos das atividades organizacionais a partir de um grande
volume de dados, favorecendo relatórios e análises de informações estratégicas
de forma catalogada. Os dados do Data Warehouse são coletados de diversas
fontes de dados, por meio de ETLs.
As fontes das bases de dados dos Data Warehouse são originadas de:
bases transacionais internas e externas.
bases transacionais internas e externas.
Resposta correta. A alternativa está correta, pois o Data Warehouse coleta
informações de bases transacionais internas e externas das organizações,
podendo ser também de fontes não estruturadas, gerando dados para as bases
multidimensionais, como os Data Marts.
Pergunta 7
Resposta Selecionada:
 
Resposta Correta:
 
Comentário
da resposta:
A linguagem de programação SQL é uma linguagem interna aos SGBDs. Essa
linguagem sempre estará atuando em conjunto com as linguagens de
programação para aplicações como Java, C# ou PHP, por exemplo. A linguagem
SQL é a linguagem universal para a comunicação com SGBDs, e, por isso, as
aplicações implementam simplesmente as interfaces de apoio para os
procedimentos de acordo com a particularidade de cada SGBD.
A respeito da linguagem de programação SQL, analise as afirmativas a seguir e
assinale V
para a(s) Verdadeira(s) e F para a(s) Falsa(s).
I. ( ) A SQL é utilizada somente por desenvolvedores de aplicações que
armazenam e validam dados, em razão da necessidade do conhecimento das
programações lógica e relacional.
II. ( ) Projetos de banco de dados mal construídos e consultas SQL superficiais
sem o cuidado de um especialista representam o maior gargalo de performance
em uma aplicação, pois consomem memória e processador em excesso.
III. ( ) As aplicações que usam o banco de dados não só como armazenador de
dados, mas, também, como uma camada por baixo da aplicação, com a
utilização de princípios como integridade dos dados, validação, controle de
acesso e segurança, fornecem um ambiente altamente eficaz e profissional.
IV. ( ) A SQL, igualmente a outras linguagens de programação, sofre grande
alteração ao longo do tempo, sendo que deve haver um entendimento teórico e
prático constante para garantir uma habilidade a longo prazo.
Assinale a alternativa que apresenta a sequência correta.
F, V, V, F.
 
F, V, V, F.
 
Resposta correta. A alternativa está correta. A afirmativa I é falsa, pois a
linguagem SQL é utilizada na manipulação e definição de dados, e não somente
no armazenamento e validação de dados. A afirmativa II é verdadeira, pois a falta
de conhecimento e o descuido na elaboração de consultas SQL podem inviabilizar
o projeto de banco de dados. A afirmativa III também é verdadeira, pois as
aplicações usam os bancos de dados não somente como armazenadores, mas
também para a segurança e integridade dos dados. Já a questão IV é falsa, pois a
1 em 1 pontos
1 em 1 pontos
SQL não sofre grandes alterações ao longo do tempo, diferentemente das
linguagens de programação externa.
Pergunta 8
Resposta
Selecionada:
 
Resposta
Correta:
 
Comentário
da resposta:
Leia o excerto a seguir:
“O Big Data pode ser caracterizado por seu volume, onde são gerados petabytes
de dados a cada dia. E estima-se que este volume dobre a cada 18 meses.
Variedade também, pois estes dados vêm de sistemas estruturados (hoje são a
minoria) e não estruturados (a imensa maioria) gerados por e-mail, mídias
sociais (Facebook, Twitter, YouTube e outros), documentos eletrônicos,
apresentações estilo powerpoint, imagens instantâneas, sensores, etiquetas
RFID, câmeras de vídeos etc.”.
TAURION, C. Big Data. Rio de Janeiro: Brasport, 2019, p. 39.
 
Nesse sentido, em função da diversidade de fontes e da quantidade e tipos de
dados, uma alta capacidade de dados reflete em um alto custo do
dimensionamento do Big Data. Esse procedimento pode ser solucionado por
meio do:
aumento da capacidade de armazenamento e do processamento de um conjunto
de dados que são fragmentados em pequenas partições, em que os dados são
distribuídos para vários servidores ( cluster) por meio da técnica de sharding.
aumento da capacidade de armazenamento e do processamento de um
conjunto de dados que são fragmentados em pequenas partições, em que
os dados são distribuídos para vários servidores (cluster) por meio da
técnica de sharding.
Resposta correta. A alternativa está correta, pois, para a solução de problemas de
capacidade de armazenamento e processamento em um Big Data, a fragmentação
dos dados por meio da técnica sharding
faz que o armazenamento se expanda horizontalmente (particionamento
horizontal). A técnica sharding utiliza o conceito de banco de dados distribuídos,
em que os dados são partilhados em vários servidores, denominados cluster.
Pergunta 9
Leia o excerto a seguir:
“O termo Big Data, na atualidade, ganhou visibilidade a partir de 2001, quando
empresas e instituições passaram a compreender e a desenvolver tecnologias
para trabalhar com o novo fenômeno da era da informação. Dessa revolução
surgiram soluções como o Apache Hadoop, criado pela Apache Foundation,
uma fundação responsável por várias tecnologias que lidam com formas de uso
e tratamento de dados”.
PEREIRA, M. J. et al . Framework de Big Data. Porto Alegre: SAGAH, 2019, p.
14.
 
A respeito do ecossistema Hadoop, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e
F paraa(s) Falsa(s).
I. ( ) É um tipo de ferramenta analítica que pode ser utilizada para revelar
informações de dados históricos e de fluxo de informações em tempo real.
Essas ferramentas ajudam a analisar eventos passados, a entender as
atividades atuais e a prever resultados futuros.
É
1 em 1 pontos
1 em 1 pontos
Resposta Selecionada: 
Resposta Correta: 
Comentário
da resposta:
II. ( ) É uma plataforma de software em linguagem de programação Python, que
centraliza todos os dados de uma ingestão de dados de diversas fontes IoT e
bases de dados relacionais em uma única base de dados de grande volume e
poder de processamento.
III. ( ) É um framework
de código aberto para o processamento e armazenamento de dados em larga
escala, com cluster de máquinas organizadas em uma máquina mestre e várias
escravas, promovendo soluções em uma única plataforma.
IV. ( ) É composto por um conjunto de módulos integrados de computação
distribuída, formando um ecossistema de pipeline de dados, como o Hadoop
Distributed File System (HDFS), Hadoop Yarn, Hadoop Map Reduce, Ambari,
Cassandra e Spark e HBase.
Assinale a alternativa que apresenta a sequência correta.
V, F, V, V.
V, F, V, V.
Resposta correta. A alternativa está correta. A afirmativa I é verdadeira, pois o
mecanismo Hadoop é uma ferramenta de análise de dados constituída de diversas
outras ferramentas, formando um ecossistema de etapas de ingestão,
armazenamento, processamento e visualização de dados. A afirmativa II é falsa,
pois o Hadoop é escrito em linguagem Java e não realiza uma centralização dos
dados ingeridos, mas, sim, uma descentralização de dados. A afirmativa III é
verdadeira, pois o Hadoop é considerado um framework Open Source, que tem
como objetivo o processamento e o armazenamento de dados ingeridos de
diversas fontes de dados e os clusterizando em diversos servidores. A afirmativa
IV é verdadeira, pois o Hadoop é um ecossistema, ou seja, uma integração de
diversos módulos de sistema de arquivos.
Pergunta 10
Resposta
Selecionada:
 
Resposta
Correta:
 
Comentário
da resposta:
Dentro do conceito de Business Intelligence (inteligência nos negócios), cada
camada de um Data Warehouse ou Data Mart representa um tipo de informação
de uma base multidimensional que pode ser ingerida para um Big Data ou ingerir
dados de outras fontes de dados.
O cubo de dados é a representação da multidimensionalidade dessas
informações. Portanto, os Data Marts são:
criados, de forma personalizada, para facilitar as extensivas pesquisas por
assuntos específicos.
 
criados, de forma personalizada, para facilitar as extensivas pesquisas
por assuntos específicos.
 
Resposta correta. A alternativa está correta, pois os bancos multidimensionais,
como o Data Warehouse e o Data Mart, foram criados para facilitar as extensivas
pesquisas por assuntos específicos. A estrutura multidimensional facilita a
pesquisa para a geração de relatórios e gráficos sumarizados e de forma analítica,
dependendo dos recursos da ferramenta de leitura do cubo. Após a criação do
cubo Data Mart, os usuários, por meio de aplicativos específicos de leitura, podem
destrinchar e detalhar as informações por meio da adição de dimensões,
cruzando-as para visualização.
1 em 1 pontos