Tecnologia para Big Data

•

UNIP

3

0

3

0

Jackson Garcia

18/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.745 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1.
O paradigma de programação MapReduce demonstrou ser adequado para trabalhar
com problemas que podem ser particionados ou fragmentados em subproblemas.
Isso porque se pode aplicar separadamente as funções map e reduce a um conjunto
de dados.
Sobre essas funções, analise as afirmativas a seguir e assinale a correta:

Você acertou!
E.
As funções map e reduce são normalmente utilizadas juntas, especificando que a saída da
função map será a entrada da função reduce.
A função map é executada nos nós escravos. Ela recebe uma lista como entrada e,
aplicando uma função dada, gera uma nova lista como saída. A função reduce, similarmente
à função map, vai receber como entrada uma lista e, em geral, aplicará uma função para
que a entrada seja reduzida a um único valor na saída. Ela também é executada nos nós
escravos. As funções map e reduce são normalmente utilizadas juntas, especificando que a
saída da função map será a entrada da função reduce.
2.
O Apache Hadoop é um framework que simplifica o trabalho com sistemas
distribuídos, tornando transparentes diversas funções. Assinale a alternativa que
apresenta uma característica do Hadoop:
Você acertou!
C.
O Hadoop oferece estratégias automáticas para garantir o processamento em caso de falhas
em computadores alocados para o processamento, garantindo continuidade.
Possui licenciamento flexível, que torna possíveis as modificações e a redistribuição do
programa-fonte. Possibilita a escalabilidade da aplicação, pois para o Hadoop é
relativamente simples aumentar a quantidade de máquinas a serem utilizadas no
processamento. O Hadoop oferece estratégias automáticas para garantir o processamento
em caso de falhas em computadores alocados para o processamento, garantindo sua
continuidade. No Hadoop, as operações são simples e especificadas por meio de funções
de mapeamento (map) e de junção (reduce). O Apache Hadoop possui código aberto.

3.
Para realizar sua função, o Hadoop possui um conjunto de componentes e cada um
possui responsabilidades bem definidas. Analise as afirmativas a seguir e selecione
aquela que apresenta corretamente um dos componentes do Hadoop.

Você acertou!
E.
O SecondaryNameNodeé responsável pela verificação dos checkpoints necessários para
garantir a recuperação em caso de falha.

4.
O Hadoop possui alguns modos de execução e cada um deles possui configurações
e formas de execução específicas. Analise as alternativas a seguir e selecione aquela
que descreve corretamente um dos modos de execução do Hadoop:

Você acertou!
B.
No pseudo-distributed mode, o Hadoop simula o processamento paralelo em uma única
máquina.
Standalone mode é o modo padrão, no qual utiliza-se uma única máquina. Já o
modo pseudo-distributed mode é utilizado para simular a distribuição, usando um único
computador. Por outro lado, o fully distributed mode é a distribuição real, que trabalha com
conjunto de computadores especificados nos arquivos de configuração. Blank mode e single
distributed mode não existem.
5.
O Hadoop Distributed File System (HDFS) é o sistema de arquivos distribuídos do Hadoop. Ele
deve garantir:
Você acertou!
A.
Tolerância a falhas para que, em caso de falha de algum nó, os dados não sejam perdidos
e o processamento não pare.

1.
Um dos primeiros passos para lidar com big data é o planejamento. Com um projeto
bem feito, deve ser levado em consideração que tipo de dado, com que frequência e
em quais condições os dados se encontram. Sobre os primeiros passos em um
projeto de big data, analise as afirmações a seguir:
I. ETL é um processo importante na obtenção de dados.
II. Com os dados disponíveis, o sistema pode começar a processá-los para exibir
informações reais.
III. Os requisitos básicos para trabalhar com big data não são os mesmos utilizados
para trabalhar com conjuntos de dados de qualquer tamanho.
Estão corretas:

Resposta correta.
A.
I e II, apenas.
Extração, Transformação e Carga (ETL) é um dos primeiros processos a serem realizados
com os dados em um sistema de big data. Esse processo prepara os dados para serem
analisados, assim podendo gerar relatórios com informações reais.
Os requisitos básicos para lidar com big data ou com dados em menor tamanho são os
mesmos, incluindo um local de armazenamento, etapas de recebimento e inserção dos
dados no local de armazenamento, entre outras características.
2.
Devido às qualidades e quantidades do big data, computadores individuais
geralmente são inadequados para manipular os dados na maioria dos estágios. Em
ambiente de servidores para lidar com grandes conjuntos de dados, geralmente se
adota uma estrutura capaz de suportar o volume de dados que irá trafegar:
um cluster. Clustering de big data combina os recursos de muitas máquinas
menores, buscando fornecer vários benefícios. Sobre os benefícios de um cluster,
analise as afirmações a seguir:
I. Pool de recursos combina espaço de armazenamento ao uso de CPUs e memória
RAM de várias máquinas em um único propósito.
II. Escalabilidade dos clusters facilitam o dimensionamento vertical adicionando mais
discos de armazenamentos, memória e CPU às máquinas do grupo.
III. Alta disponibilidade em clusters fornece níveis variados de tolerância a falhas,
garantindo disponibilidade para impedir que falhas de hardware ou software afetem o
acesso a dados e processamento.
Está correto o que se afirma em:

Você acertou!
E.
I e III, apenas.
O chamado pool de recursos de um cluster inclui a junção das capacidades computacionais
de várias máquinas como se fossem uma só, gerando um supercomputador a partir de
máquinas mais simples, que juntam sua capacidade de processador (CPU), discos de
armazenamento e de memória RAM. A alta disponibilidade dos clusters também mantém
certa segurança ante falhas, uma vez que os dados podem ser replicados entre os nós
do cluster. A escalabilidade fácil do cluster é uma virtude, mas seu crescimento escalar é
horizontal e não vertical. Quem aumenta é o número de nós (agregando mais máquinas) e
não o acréscimo de mais componentes aos computadores existentes.

3.
Uma maneira de adicionar dados a um sistema de big data são as ferramentas
dedicadas de inserção ou ingestão. Durante o processo de ingestão, geralmente
ocorre algum nível de análise, classificação e rotulagem dos dados. As operações
típicas podem incluir e modificar os dados recebidos para formatá-los, categorizar e
rotular dados, filtrar dados desnecessários, incorretos ou validar potencialmente a
conformidade com certos requisitos.
Esse processo ou técnica é conhecido tradicionalmente por:
Você acertou!
C.
ETL.
ETL é a tradicional etapa de extração, transformação e carga de dados. É como se realiza
a ingestão ou a inserção de dados no armazenamento de sistemas de big data. SQL
Injection é uma técnica de inserir dados indevidamente em bancos de dados relacionais.
HDFS é a sigla para Hadoop Distributed File System (sistema de arquivos distribuídos
Hadoop), um sistema que gerencia arquivos distribuídos no ecossistema Hadoop. NoSQL é
como são chamados os bancos de dados não relacionais de modo geral. Já data
warehouse é uma forma de chamar um armazém ou galpão de dados, que serve como base
para dados após o processo de ETL em um projeto big data.

4.
No ecossistema Hadoop, os arquivos carregados do HDFS são armazenados em
cache na memória compartilhada, que pode ser acessada diretamente por uma
biblioteca e um sistema cliente. Dentro do uso de HDFS é comum o processamento
em lote. Esse processamento é um método de computação em um grande conjunto
de dados.
Sobre o processamento em lote, qual é a alternativa correta?

Você acertou!
B.
Processo que divide o trabalho em partes menores, reorganiza os dados e calcula o
resultado final.

5.
O ecossistema Hadoop foi projetado partindo do pressuposto que a falhado hardware no qual estão os arquivos e os dados é uma regra e não uma exceção.
Sobre o Hadoop e seu ecossistema, analise as afirmações a seguir:
I. MapReduce é um framework ou técnica que permite que os dados sejam
processados paralelamente.
II. R e Python são bibliotecas pertencentes ao framework Apache Spark.
III. Cassandra, HBase e Hive são bancos de dados NoSQL criados para o ecossistema
Hadoop.
Sobre os sistemas que envolvem o Hadoop, está correto o que se afirma em:
Resposta correta.
A.
I, apenas.
MapReduce é considerada uma técnica ou framework baseado em algoritmos para lidar
com processamento paralelo em sistemas distribuídos. R e Python são linguagens de
programação e podem fazer parte de projetos que envolvam Hadoop, mas são
independentes desse ecossistema também. Hive e HBase são considerados bancos de
dados NoSQL, desenvolvidos inicialmente para o Hadoop (embora atualmente funcionem
de outras formas), mas o Cassandra nasceu da equipe de desenvolvimento do Facebook.

.
1
Um dos maiores desafios em sistemas de armazenamento de dados é a
escalabilidade: a capacidade de crescimento de maneira escalar. Esse é um dos
problemas mais comuns e importantes que toda empresa enfrenta. Lida-se com
negócios em crescimento, causando armazenamento exponencial de dados,
com necessidade e grande demanda de disponibilidade deles.
Em termos de dados e sistemas, analise as afirmações a seguir sobre escalabilidade:
I. Característica de um sistema que descreve sua capacidade de lidar e executar bem
sob aumento ou expansão.
II. Capacidade de lidar com crescimento sem ser prejudicada por sua estrutura ou
recursos disponíveis.
III. Possibilidade de atender a diversas demandas ao mesmo tempo.
IV. Está diretamente ligada a bancos de dados relacionais.
Está correto o que se afirma em:
Você acertou!
D.
I, II e III.
Escalabilidade é uma característica de um sistema, modelo ou função que descreve sua
capacidade de lidar e executar bem sob uma carga de trabalho, escopo aumentado ou em
expansão. Um sistema que dimensione bem poderá manter ou até aumentar seu nível de
desempenho ou eficiência, mesmo quando testado por demandas operacionais cada vez
maiores. Um sistema escalar atende bem a muitas demandas ao mesmo tempo. Porém,
apesar de poder ser aplicado ao uso de bancos de dados relacionais, não tem ligação direta,
pois um SGBD relacional pode não ser escalável.

2.
Sharding é uma arquitetura de bancos de dados relativamente nova. Considerada
revolucionária por profissionais da área, tem sido adotada por desenvolvedores e
equipes responsáveis por projetos que lidam com dados de variados tipos.
Sobre o conceito de sharding, pode-se afirmar:
Você acertou!
A.
Define uma abordagem acessível para escala horizontal dos dados.

3.
Diferentes tipos de bancos de dados usam sharding como forma de oferecer suporte
a implantações com conjuntos de dados muito grandes e operações de alto
rendimento. Os sistemas de banco de dados com grandes conjuntos de dados ou
aplicativos de alto rendimento podem desafiar a capacidade de um único
servidor. Sharding pode ser uma alternativa para um conhecido método de
aceleração de consultas a bancos de dados.
Esse método é conhecido como:

Resposta correta.
C.
índices
4.
Cluster é um termo na língua inglesa que pode ser traduzido como “aglomerar” ou
“aglomeração”. Em computação, é o termo que pode definir um sistema que junta
vários computadores em comum, a fim de transformar seu conjunto em uma única
máquina com a soma de todas as capacidades reunidas.
Sobre clusters, avalie as afirmações a seguir:
I. Requer o uso de supercomputadores em sua composição.
II. Ao unir vários computadores, é simulado um supercomputador.
III. Cada computador em um cluster é chamado de node ou nó.
IV. O computador principal é chamado de node master.
Sendo assim, é correto o que se afirma em:

Você acertou!
C.
II, III e IV.

5.
Geralmente, os clusters são implantados para melhorar o desempenho e a
disponibilidade em relação a um único computador. Além disso, são muito mais
econômicos que computadores individuais com velocidade ou disponibilidade
comparáveis.
Sobre o uso de clusters, observe as afirmações a seguir:
I. O particionamento pode reduzir muito o custo total de armazenamento de dados.
II. Clusters de computadores surgiram de tendências como a disponibilidade de
computadores de baixo custo, redes de alta velocidade e software para computação
distribuída de alto desempenho.
III. Bancos de dados relacionais possuem a exclusiva capacidade de serem
distribuídos e adotados em clusters.
IV. Clusters podem ser formados por pequenos computadores de empresas menores
ou pela junção de vários supercomputares, para processamento de dados em grande
escala.
É correto o que se afirma em:

Você acertou!
E.
I, II e IV.
1.
Diversas expressões se tornam cada vez mais comuns, tanto entre profissionais de
Tecnologia da Informação (TI) quanto entre profissionais de outras áreas.
Assinale a alternativa correta a respeito do conceito de stream de dados.

Você acertou!
B.
Fazem parte dos dados que alimentam sistemas de big data.

2.
Stream de dados é uma expressão em crescimento que envolve características e
conceitos específicos.
Assinale a alternativa que apresenta um cenário que representa uma fonte
de stream de dados.
Você acertou!
C.
Sensor enviando dados de consumo de energia de um equipamento que fica ligado 24
horas.

3.
Em streams de dados existe um processo específico que possibilita o tratamento dos
dados.
Assinale a alternativa que representa a retirada de uma quantidade de dados do fluxo
de dados por meio de uma janela.

Resposta correta.
E.
Ingestão de dados.

4.
Por se tratar de um conceito relativamente novo e em larga expansão, quem trabalha
com stream de dados precisa cuidar e planejar alguns pontos para lidar com os
principais desafios dessa área.
Assinale a alternativa que representa os principais pontos de planejamento para
quem trabalha com stream de dados.
Você acertou!
A.
Plano de escalabilidade, de durabilidade e de tolerância a falhas.

5.
O conceito de stream de dados tem tantos problemas comuns com big data quanto
problemas específicos.
Assinale a alternativa que representa os principais desafios que devem ser
considerados para lidar com stream de dados.

Você acertou!
D.
Geração contínua de dados por fontes diversas com diferentes formatos e grande número
de fontes de dados que gerem mais informação do que é possível de ser processada