Buscar

Frameworks - Conteudo 2

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 10 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Frameworks de Big Data: uma visão 
geral
Apresentação
Em um mundo que muda cada vez mais rápido, em que as informações são ambíguas e complexas, 
utilizar ferramentas de Big Data, escolher bons conjuntos de dados e transformá-los em 
informações e conhecimento, pode ser estrategicamente crítico para a sobrevivência dos negócios.
Junto com Big Data, outros termos ganham cada vez mais força, como a inteligência artificial, a 
aprendizagem de máquina, a aprendizagem profunda, a Internet das coisas, entre outras, que fazem 
parte da transformação digital que acontece desde que o mundo entrou na era da informação, e 
colocaram empresas como a Apple, a Google e a Amazon entre as maiores empresas e que geram 
espaços para profissionais cada vez mais desejados pelo mercado de trabalho.
Nesta Unidade de Aprendizagem, você vai aprender sobre os frameworks de Big Data Apache 
Hadoop e Apache Spark por meio de características de cada um, seus ecossistemas, arquiteturas, 
forma de processamento, conceitos como MapReduce, RDD, operações como ações e 
transformações, bem como entender as diferenças entre eles.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Descrever o ecossistema Hadoop.•
Definir no que consiste o Apache Spark.•
Analisar como funciona o processamento no Hadoop e no Spark.•
Infográfico
O Spark é uma ferramenta de Big Data para processamento distribuído ou paralelo, que pode 
processar grandes conjuntos de dados, para gerar informações e conhecimento a partir de dados 
estruturados ou não estruturados, que possam ser utilizadas estrategicamente para colocar as 
empresas em vantagem competitiva. Apesar de o Spark ter diversos componentes que funcionam 
de forma integrada na própria ferramenta, é possível integrá-lo com ferramentas que são 
distribuídas separadamente.
Neste Infográfico, você saberá mais sobre o processamento distribuído ou paralelo do framework 
de Big Data Apache Spark, o histórico do Spark, as diferenças de utilizar as linguagens Python ou 
Scala na programação das aplicações, opções de implantação e de armazenamento, bem como as 
deficiências de criar aplicações com as linguagens Java e R.
Aponte a câmera para o 
código e acesse o link do 
conteúdo ou clique no 
código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/e7ba4481-d0fa-41e7-bc20-3a212f384453/bf269615-c08c-4008-b04f-68355bdc607e.png
Conteúdo do Livro
Muitas empresas trabalham com grande quantidade de dados em planilhas ou na realização de 
cálculos todos os dias e, à medida que o volume de dados cresce, pode se tornar inviável trabalhar 
com eles manualmente, em planilhas que utilizem funções automatizadas de forma rápida ou até 
mesmo com o uso de programação em um único computador com bibliotecas mais robustas, como 
em Python ou R, especialmente quando se trata de milhões de dados, que podem ser recebidos por 
diversas fontes distintas, como sensores, bancos de dados de grandes sistemas com muitos 
usuários simultâneos, logs de servidores, entre outras.
Para resolver esses problemas, em que não é possível realizar milhões de processamentos por 
minuto, surgiu o conceito de Big Data, que é utilizado em aplicações que usam tecnologias 
específicas, como no caso de aplicações de decodificação de genoma e análise de proteínas em 
biomedicina, análise do mercado financeiro e fraudes em sistemas bancários, modelagem molecular, 
recomendações em redes sociais em tempo real, além de diversas outras que já fazem parte da vida 
dos usuários sem que se deem conta.
No capítulo Frameworks de Big Data: uma visão geral, da obra Framework de Big Data, você vai 
conhecer uma visão geral sobre frameworks de Big Data Apache Hadoop e Apache Spark, o 
histórico e o ecossistema do Hadoop, o ecossistema do Apache Spark, os detalhes de ambos por 
meio das suas arquiteturas de processamento, bem como o MapReduce do Hadoop comparado ao 
Spark, além de conceitos como o RDD, as suas operações como ações, transformações e funções 
lambda.
Boa Leitura. 
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://statics-marketplace.plataforma.grupoa.education/sagah/52ed3f3b-a7bf-4236-8068-f7bbb5aa07ba/67b53ddc-3081-4c3f-9358-ea217ccf0349.pdf
Dica do Professor
Com o avanço da tecnologia, grandes volumes de dados passaram a ser criados pelas empresas, 
pelas estruturas de sistemas e pela popularização da tecnologia, que ganha cada dia mais espaço 
entre as pessoas, chegando a dimensões que ultrapassam os petabytes todos os dias. Tal 
quantidade de dados passou a precisar de tecnologias específicas para que seja processada e, com 
isso, surgiram os frameworks de Big Data.
Na Dica do Professor, você verá o que motiva a utilização do framework de Big Data Apache 
Hadoop, o caso de uso do The New York Times, bem como as vantagens e as desvantagens no uso 
desse framework.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
 
https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/81ebf48c7b7d97a8f668c5bf3a55ab32
Exercícios
1) Os sistemas distribuídos têm dois desafios principais, o primeiro deles é a possibilidade de 
falha de um dos equipamentos de hardware que armazena os dados e o segundo tem relação 
com a análise combinando dados lidos de discos distintos. Marque a opção que representa 
os dois principais recursos do Hadoop para lidar com esses desafios:
A) HDFS e Hive. 
B) Avro e Mahout. 
C) HDFS e MapReduce. 
D) Pig e MapReduce. 
E) Hive e Pig. 
2) Quando grandes volumes de dados são armazenados, eles são replicados em outros 
servidores, pois cada um deles tem diversos elementos com probabilidade de falha. Tais 
falhas precisam ser detectadas rapidamente e resolvidas eficientemente, de forma que seja 
evitada a parada do sistema de arquivos como um todo. Marque a opção que representa os 
dois processos principais da arquitetura do HDFS, estruturada em mestre e escravo:
A) Namenode e SecondaryNameNode. 
B) Namenode e Datanode. 
C) Datanode e JobTracker. 
D) JobTracker e TaskTracker. 
E) TaskTracker e SecondaryNameNode. 
3) O Apache Spark é uma ferramenta utilizada no processamento de grandes conjuntos de 
dados de forma paralela e distribuída, e sua arquitetura é constituída de três partes 
principais. Marque a opção que representa os três principais componentes que constituem a 
arquitetura do Apache Spark:
A) Driver Program, Cluster Manager e Executor. 
B) Cluster Manager, Workers e Cache. 
C) Driver Program, Executor e Task. 
D) Spark Context, Executor e Cache. 
E) Driver Program, Cluster Manager e Workers. 
4) Assim como a sua arquitetura, para trabalhar com o Apache Spark é importante conhecer os 
componentes do modelo de programação do Spark, como o RDD – Resilient Distrubuted 
Datasets, as operações e o Spark Context. Marque a opção que representa o conceito do 
RDD:
A) Abstraem um conjunto de objetos distribuídos e geralmente são executados na memória 
principal. 
B) São transformações ou ações realizadas em um conjunto de objetos ou dados.
C) É o contexto ou objeto que conecta o Spark ao programa que é desenvolvido para lidar com 
grandes volumes de dados. 
D) Componente opcional que é necessário quando o Spark é executado de forma distribuída. 
E) São as máquinas que executam as tarefas que são enviadas pelo Driver Program. 
5) Tanto o Hadoop quanto o Spark são ferramentas utilizadas para trabalhar com Big Data, de 
forma que processam grandes volumes de dados. Marque a opção verdadeira em relação ao 
processamento no Apache Hadoop e no Apache Spark:
A) O Hadoop apresenta uma performance melhor do que o Spark, sendo até 100x maior. 
B) O Hadoop herda o modelo de programação MapReduce popularizado pelo Spark. 
C) Enquanto o Spark precisa de ferramenta de terceiros, o Hadoop tem o MLlib para 
aprendizado de máquina.
D) Tanto no Hadoop quanto no Spark, os módulos de processamento sãointegrados na própria 
ferramenta. 
E) O Hadoop pode criar todas as combinações de dados rapidamente. No entanto, o Spark é 
melhor para juntar grandes volumes.
Na prática
Cada empresa tem um cenário específico e suas necessidades comerciais são determinantes para a 
escolha de tecnologias adequadas para que tenham uma vantagem competitiva ou até mesmo para 
que possam crescer independente de terem concorrência direta ou não. Com isso, conceitos como 
Big Data se tornam cada vez mais populares entre as pessoas, sejam elas do meio tecnológico ou 
do meio empresarial.
Veja, Na Prática, algumas características que devem ser levadas em consideração na escolha entre 
as ferramentas de Big Data Apache Hadoop, MapReduce ou Apache Spark.
Conteúdo interativo disponível na plataforma de ensino!
 
Saiba mais
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor:
Cinco coisas que você precisa saber sobre Hadoop e Apache 
Spark
Acesse o site Computerworld e entenda as características do Hadoop e do Spark em comparação 
um com o outro, bem como o motivo de que em muitos casos eles são vistos não como 
concorrentes, mas como complementares.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Uma proposta de comparação de ferramentas para análise de 
grandes conjuntos de dados: aplicação a repositório sobre 
monitoramento da camada de ozônio
Veja, neste artigo, a comparação de processamento de dados da camada de ozônio coletados a 
partir da OMI - Ozone Monitoring Instrument, entre o Apache Hadoop e outras ferramentas, de 
forma a identificar as diferenças entre as ferramentas, bem como as dificuldades e as possibilidades 
com cada uma delas em relação ao problema apresentado no artigo.
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
Análise de ferramentas que implementam o paradigma 
MapReduce em um problema de recuperação de informação
Saiba mais sobre a comparação entre o Apache Hadoop e o Apache Spark, por meio do MapReduce 
como forma de redução do tempo de processamento em um problema que trata da complexidade 
do cálculo da similaridade, utilizada como estratégia de consulta para a recuperação de informação.
https://computerworld.com.br/2015/12/16/cinco-coisas-que-voce-precisa-saber-sobre-hadoop-e-apache-spark/
https://sol.sbc.org.br/index.php/eradrs/article/view/4749/4666
Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar.
https://sol.sbc.org.br/index.php/eradrs/article/view/2975/2937

Continue navegando