Frameworks - Conteudo 2

Frameworks

•

CSV

Monica Porto

22/09/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Frameworks

244 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Frameworks de Big Data: uma visão
geral
Apresentação
Em um mundo que muda cada vez mais rápido, em que as informações são ambíguas e complexas,
utilizar ferramentas de Big Data, escolher bons conjuntos de dados e transformá-los em
informações e conhecimento, pode ser estrategicamente crítico para a sobrevivência dos negócios.
Junto com Big Data, outros termos ganham cada vez mais força, como a inteligência artificial, a
aprendizagem de máquina, a aprendizagem profunda, a Internet das coisas, entre outras, que fazem
parte da transformação digital que acontece desde que o mundo entrou na era da informação, e
colocaram empresas como a Apple, a Google e a Amazon entre as maiores empresas e que geram
espaços para profissionais cada vez mais desejados pelo mercado de trabalho.
Nesta Unidade de Aprendizagem, você vai aprender sobre os frameworks de Big Data Apache
Hadoop e Apache Spark por meio de características de cada um, seus ecossistemas, arquiteturas,
forma de processamento, conceitos como MapReduce, RDD, operações como ações e
transformações, bem como entender as diferenças entre eles.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Descrever o ecossistema Hadoop.•
Definir no que consiste o Apache Spark.•
Analisar como funciona o processamento no Hadoop e no Spark.•
Infográfico
O Spark é uma ferramenta de Big Data para processamento distribuído ou paralelo, que pode
processar grandes conjuntos de dados, para gerar informações e conhecimento a partir de dados
estruturados ou não estruturados, que possam ser utilizadas estrategicamente para colocar as
empresas em vantagem competitiva. Apesar de o Spark ter diversos componentes que funcionam
de forma integrada na própria ferramenta, é possível integrá-lo com ferramentas que são
distribuídas separadamente.
Neste Infográfico, você saberá mais sobre o processamento distribuído ou paralelo do framework
de Big Data Apache Spark, o histórico do Spark, as diferenças de utilizar as linguagens Python ou
Scala na programação das aplicações, opções de implantação e de armazenamento, bem como as
deficiências de criar aplicações com as linguagens Java e R.
Aponte a câmera para o
código e acesse o link do
conteúdo ou clique no
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/e7ba4481-d0fa-41e7-bc20-3a212f384453/bf269615-c08c-4008-b04f-68355bdc607e.png
Conteúdo do Livro
Muitas empresas trabalham com grande quantidade de dados em planilhas ou na realização de
cálculos todos os dias e, à medida que o volume de dados cresce, pode se tornar inviável trabalhar
com eles manualmente, em planilhas que utilizem funções automatizadas de forma rápida ou até
mesmo com o uso de programação em um único computador com bibliotecas mais robustas, como
em Python ou R, especialmente quando se trata de milhões de dados, que podem ser recebidos por
diversas fontes distintas, como sensores, bancos de dados de grandes sistemas com muitos
usuários simultâneos, logs de servidores, entre outras.
Para resolver esses problemas, em que não é possível realizar milhões de processamentos por
minuto, surgiu o conceito de Big Data, que é utilizado em aplicações que usam tecnologias
específicas, como no caso de aplicações de decodificação de genoma e análise de proteínas em
biomedicina, análise do mercado financeiro e fraudes em sistemas bancários, modelagem molecular,
recomendações em redes sociais em tempo real, além de diversas outras que já fazem parte da vida
dos usuários sem que se deem conta.
No capítulo Frameworks de Big Data: uma visão geral, da obra Framework de Big Data, você vai
conhecer uma visão geral sobre frameworks de Big Data Apache Hadoop e Apache Spark, o
histórico e o ecossistema do Hadoop, o ecossistema do Apache Spark, os detalhes de ambos por
meio das suas arquiteturas de processamento, bem como o MapReduce do Hadoop comparado ao
Spark, além de conceitos como o RDD, as suas operações como ações, transformações e funções
lambda.
Boa Leitura.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/52ed3f3b-a7bf-4236-8068-f7bbb5aa07ba/67b53ddc-3081-4c3f-9358-ea217ccf0349.pdf
Dica do Professor
Com o avanço da tecnologia, grandes volumes de dados passaram a ser criados pelas empresas,
pelas estruturas de sistemas e pela popularização da tecnologia, que ganha cada dia mais espaço
entre as pessoas, chegando a dimensões que ultrapassam os petabytes todos os dias. Tal
quantidade de dados passou a precisar de tecnologias específicas para que seja processada e, com
isso, surgiram os frameworks de Big Data.
Na Dica do Professor, você verá o que motiva a utilização do framework de Big Data Apache
Hadoop, o caso de uso do The New York Times, bem como as vantagens e as desvantagens no uso
desse framework.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.

https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/81ebf48c7b7d97a8f668c5bf3a55ab32
Exercícios
1) Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a possibilidade de
falha de um dos equipamentos de hardware que armazena os dados e o segundo tem relação
com a análise combinando dados lidos de discos distintos. Marque a opção que representa
os dois principais recursos do Hadoop para lidar com esses desafios:
A) HDFS e Hive.
B) Avro e Mahout.
C) HDFS e MapReduce.
D) Pig e MapReduce.
E) Hive e Pig.
2) Quando grandes volumes de dados são armazenados, eles são replicados em outros
servidores, pois cada um deles tem diversos elementos com probabilidade de falha. Tais
falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de forma que seja
evitada a parada do sistema de arquivos como um todo. Marque a opção que representa os
dois processos principais da arquitetura do HDFS, estruturada em mestre e escravo:
A) Namenode e SecondaryNameNode.
B) Namenode e Datanode.
C) Datanode e JobTracker.
D) JobTracker e TaskTracker.
E) TaskTracker e SecondaryNameNode.
3) O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos de
dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes
principais. Marque a opção que representa os três principais componentes que constituem a
arquitetura do Apache Spark:
A) Driver Program, Cluster Manager e Executor.
B) Cluster Manager, Workers e Cache.
C) Driver Program, Executor e Task.
D) Spark Context, Executor e Cache.
E) Driver Program, Cluster Manager e Workers.
4) Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante conhecer os
componentes do modelo de programação do Spark, como o RDD – Resilient Distrubuted
Datasets, as operações e o Spark Context. Marque a opção que representa o conceito do
RDD:
A) Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória
principal.
B) São transformações ou ações realizadas em um conjunto de objetos ou dados.
C) É o contexto ou objeto que conecta o Spark ao programa que é desenvolvido para lidar com
grandes volumes de dados.
D) Componente opcional que é necessário quando o Spark é executado de forma distribuída.
E) São as máquinas que executam as tarefas que são enviadas pelo Driver Program.
5) Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big Data, de
forma que processam grandes volumes de dados. Marque a opção verdadeira em relação ao
processamento no Apache Hadoop e no Apache Spark:
A) O Hadoop apresenta uma performance melhor do que o Spark, sendo até 100x maior.
B) O Hadoop herda o modelo de programação MapReduce popularizado pelo Spark.
C) Enquanto o Spark precisa de ferramenta de terceiros, o Hadoop tem o MLlib para
aprendizado de máquina.
D) Tanto no Hadoop quanto no Spark, os módulos de processamento sãointegrados na própria
ferramenta.
E) O Hadoop pode criar todas as combinações de dados rapidamente. No entanto, o Spark é
melhor para juntar grandes volumes.
Na prática
Cada empresa tem um cenário específico e suas necessidades comerciais são determinantes para a
escolha de tecnologias adequadas para que tenham uma vantagem competitiva ou até mesmo para
que possam crescer independente de terem concorrência direta ou não. Com isso, conceitos como
Big Data se tornam cada vez mais populares entre as pessoas, sejam elas do meio tecnológico ou
do meio empresarial.
Veja, Na Prática, algumas características que devem ser levadas em consideração na escolha entre
as ferramentas de Big Data Apache Hadoop, MapReduce ou Apache Spark.
Conteúdo interativo disponível na plataforma de ensino!

Saiba mais
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Cinco coisas que você precisa saber sobre Hadoop e Apache
Spark
Acesse o site Computerworld e entenda as características do Hadoop e do Spark em comparação
um com o outro, bem como o motivo de que em muitos casos eles são vistos não como
concorrentes, mas como complementares.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Uma proposta de comparação de ferramentas para análise de
grandes conjuntos de dados: aplicação a repositório sobre
monitoramento da camada de ozônio
Veja, neste artigo, a comparação de processamento de dados da camada de ozônio coletados a
partir da OMI - Ozone Monitoring Instrument, entre o Apache Hadoop e outras ferramentas, de
forma a identificar as diferenças entre as ferramentas, bem como as dificuldades e as possibilidades
com cada uma delas em relação ao problema apresentado no artigo.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Análise de ferramentas que implementam o paradigma
MapReduce em um problema de recuperação de informação
Saiba mais sobre a comparação entre o Apache Hadoop e o Apache Spark, por meio do MapReduce
como forma de redução do tempo de processamento em um problema que trata da complexidade
do cálculo da similaridade, utilizada como estratégia de consulta para a recuperação de informação.
https://computerworld.com.br/2015/12/16/cinco-coisas-que-voce-precisa-saber-sobre-hadoop-e-apache-spark/
https://sol.sbc.org.br/index.php/eradrs/article/view/4749/4666
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://sol.sbc.org.br/index.php/eradrs/article/view/2975/2937