Buscar

ARA0168_Plano_de_aula

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 44 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 1: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Desenvolver os princípios de Big Data, apresentando o histórico e a evolução da importância do
tratamento de grande massa de dados, para aplicações de BIG DATA.
4 Tópicos
1.1 INTRODUÇÃO E APLICAÇÕES AO BIG DATA
5 Procedimentos de ensino­aprendizagem
Nesta primeira aula, a partir de uma pergunta geradora, será estimulada a participação dos alunos para,
posteriormente, ocorrer a etapa de preleção do docente. Recomenda­se que no início da aula seja
apresentada a ementa da disciplina, bem como seus temas de aprendizagem, as metodologias previstas
e as referências bibliográficas indicadas no plano de ensino. Além dessas informações, é importante
que o professor informe aos alunos que todo o material comtemplado nessa disciplina estará disponível
também na plataforma digital da IES. Isso permitirá que os alunos acessem e estudem através
conteúdo digital em momentos distintos (antes, durante e depois das aulas), o que poderá contribuir
para melhor desenvolvimento do processo de aprendizagem. Após apresentação dessas informações
fundamentais, sugere­se a seguinte situação problema:
Situação Problema: Nos dias atuais as organizações precisam analisar um grande volume de dados,
esses dados são gerados em tempo real e na sua maioria não estão organizados, estruturados como em
um banco de dados. Esses grandes volumes de dados são gerados de várias fontes, empresas de
telecomunicações, vendas ao varejo, comercio eletrônico, mídias sociais, mercado financeiro, internet
ou seja de diversas áreas que fornecem um grande volume de dados. Isso faz com que os dados
necessitem de um tratamento especial. Nesse caso se o usuário quiser uma solução em tempo real,
deve fazer uso das técnicas que o Big Data oferece?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
monte grupos de seis alunos no máximo; com os grupos montados, então solicita aos grupos que
opinem sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre o
que é Big Data o professor poderá apresentar os conceitos de Big Data, evolução do Big Data e
exemplos de Big Data aplicados nas organizações e seus respectivos motivos. Aqui o professor poderá
apresentar os modelos tradicionais de banco de dados também conhecido como modelos relacionais e
orientados a objetos.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para os grupos que escolham um projeto que possa ser desenvolvido na técnica de Big Data
Analytics. Os grupos deverão apresentar os motivos da escolha da técnica em cada projeto. Assim que
todos os grupos apresentarem, o professor deverá orientar cada grupo para juntos debaterem sobre os
erros e acertos das técnicas apresentadas.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual.
7 Leitura específica
Recomenda­se a Leitura dos Textos:
Capítulos 1, 2 e 3 do livro: PEREIRA, Mariana Araújo. Framework de Big Data [BV:MB]. Porto
Alegre: SAGAH, 2019.
Disponível em: https://integrada.minhabiblioteca.com.br/books/9786556900803/
Capítulo 1 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital. 
Capítulo 2 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital. Páginas 35 ao 38.
8 Aprenda +
Conheça a história da Big Data os conceitos fundamentais por meio dos links:
O que é Big Data? Disponível em: https://www.youtube.com/watch?v=32QnYF7IDyc. Acesso em 05
janeiro 2022.
A diferença de Big Data e Data Analytics? Disponível em: https://www.youtube.com/watch?
v=4CNqiAgmqSc. Acesso em: 05 janeiro 2022.
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão 1.
Podemos definir a fórmula que estrutura o Big Data como:
A) Volume + variedade + agilidade + efetividade, tudo agregando + valor + atualidade.
B) Volume + oportunidade + segurança + veracidade, tudo agregando + valor.
C) Dimensão + variedade + otimização + veracidade, tudo agregando + agilidade.
D) Volume + variedade + velocidade + veracidade, tudo agregando + valor.
E) Volume + disponibilidade + velocidade + portabilidade, tudo requerendo ­ valor.
Questão 2.
O processamento de grandes quantidades de dados é muito utilizado em plataformas que usam a
linguagem de programação Java, sistemas distribuídos com ênfase no uso de clusters, voltadas em
MapReduce e no GoogleFS. A plataforma que mais se adequa é:
A) Yam Common.
B) GoogleCrush.
C) EMRx.
D)MapFix
E)Hadoop.
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 2: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Apresentar os princípios de IoT e Computação Distribuída, analisando suas possibilidades de
contribuição nos negócios, para aplicações Big Data.
4 Tópicos
1.2 CONCEITOS DE IOT E COMPUTAÇÃO DISTRIBUÍDA
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: Quando estão atuando juntos, Big Data e Internet das Coisas, podem contribuir na
geração de muitas possibilidades de negócios e de aplicações; Considerando que Big Data trata de
realizar análise de dados e informações, como a IoT usa essas informações? Como o IoT pode
contribuir para os negócios de uma empresa?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre IoT, o
professor poderá apresentar os conceitos de IoT e computação nas nuvens. 
Metodologia: Nessa etapa da aula, após conhecerem o conceito e as características da IoT o professor
da disciplina deverá lançar o desafio para os grupos identificarem quais os tipos de benefícios serão
adquiridos com o uso da IoT nos negócios. Ao discutir a situação problema com os grupos, o professor
deverá orientar e passar o feedback, identificando quais foram as propostas mais relevantes
apresentadas pelos grupos. Para isso o professor poderá utilizar o Mentimeter para interagir com os
grupos.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual.
7 Leitura específica
Recomenda­se a Leitura dos Textos:
Capítulos Big Data e Internet das Coisas (IoT) e Integrando Big Data e IoT do livro: MORAIS,
Izabelly. Introdução a Big Data e Internet das Coisas (IOT) [BV:MB]. Porto Alegre: SAGAH, 2018.
Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
IoT: o que especialistas de redes precisam saber sobre internet das coisas, jan 2022. Disponível em:
https://computerworld.com.br/inovacao/iot­o­que­especialistas­de­redes­precisam­saber­sobre­
internet­das­coisas/ Acesso: 05 Jan 2022. 
YOSHIDA H. Tendências para Big Data, Internet das Coisas, Lagoas de Dados e a Nuvem, 2015.
Disponível em: https://www.hitachivantara.com/pt­br/newsroom­hvtv/in­the­
press/2015/br150107.html Acesso: 5 jan 2022.
8 Aprenda +
Conheça a história da Iot, Sistemas distribuídos e computação na nuvem, conceitos fundamentais por
meio dos links:
A Internet das coisas, explicada pelo NIC.br, Disponível em: https://www.youtube.com/watch?
v=jlkvzcG1UMk Acesso em 05 janeiro 2022.
Você sabe o que é Cloud Computing, ou Computação na Nuvem? Disponível em:
https://www.youtube.com/watch?v=FDFejm­ovtIAcesso em: 05 janeiro 2022.
Sistemas Distribuídos ­ Introdução aos Sistemas Distribuídos: https://www.youtube.com/watch?
v=34RvRBXzvMo Acesso em: 05 janeiro 2022.
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão 1.
Qual opção é uma vantagem e uma desvantagem da computação em nuvem quando comparados aos
dados armazenados em data centers?
A)Economia de recursos e segurança dos dados.
B)Boa flexibilidade e custo alto.
C) Rapidez e pouca flexibilidade.
D) Ausência de infraestrutura de TI e custo alto.
E) Escalabilidade e necessidade de conhecimento técnico.
Questão 2.
Infraestrutura na nuvem e grandes empresas vêm criando seus datacenters para oferecer esse serviço.
Como exemplo podem ser citados o AWS ­ Amazon Web Service, o Windows Azure da Microsoft,
além do Software como Serviço (SaaS), entre outros. Geralmente, um datacenter é construído
baseando­se em uma arquitetura tecnológica hierárquica, seguindo um modelo sugerido pela Cisco,
com três camadas de rede. Assinale­as.
A) Clusterização, agregação e acesso.
B)Núcleo, agregação e acesso.
C) Virtualização, acesso e núcleo.
D) Agregação, clusterização e virtualização.
E) Acesso, núcleo e clusterização.
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 3: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Apresentar os conceitos da computação em nuvem e de streaming de dados, descrevendo as principais
plataformas em nuvem, para aplicações de Big Data e processamento de streaming de dados.
4 Tópicos
1.3 PLATAFORMAS EM NUVEM PARA APLICAÇÕES DE BIGDATA
1.4 PROCESSAMENTO E STREAMING DE DADOS
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: Alguns fatores são fundamentais para que seja feito um correto Streaming de
dados, há necessidade de processar esses dados em tempo real (real time), ou com baixa latência,
produzindo resultados satisfatórios. Devido à crescente proliferação de dispositivos móveis e do uso
intenso de redes sociais, o desenvolvimento de aplicações se faz necessário para atender a demanda
das empresas e de governos na obtenção de informações de consumo. Como podemos mitigar a
crescente demanda por streaming de dados com Big Data? 
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre como
mitigar a crescente demanda por streaming de dados com Big Data, o professor poderá apresentar os
conceitos de computação nas nuvens, bem como respectivas plataformas, e do processamento de
streaming de dados com Big Data.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para os grupos que escolham uma plataforma de streaming na nuvem. Os grupos deverão
apresentar os motivos da escolha de cada plataforma na nuvem. Assim que todos os grupos
apresentarem o professor deverá apontar os acertos e os erros de cada grupo para juntos debaterem
sobre o assunto.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual.
7 Leitura específica
Capítulo 8 ­ Big Data, do livro: GOLDSCHMIDT, Ronaldo. Data Mining ​ Conceitos, técnicas,
algoritmos, orientações e aplicações [BV:MB]. Rio de Janeiro: Elsevier, 2015. Disponível em:
https://integrada.minhabiblioteca.com.br/books/9788595156395/
Transmissão de dados entre plataformas streaming, a seguir são descritas algumas definições
interessantes e pertinentes encontradas na literatura.
https://www.ic.unicamp.br/~reltech/PFG/2021/PFG­21­09.pdf
8 Aprenda +
Conheça um pouco sobre Streaming de dados, conceitos fundamentais por meio dos links:
Processamento de dados em Python:
https://www.youtube.com/watch?v=P7mCdKXv6DI Acesso em 05 janeiro 2022.
O novo desafio das empresas e profissionais do mercado:
http://repositorium.sdum.uminho.pt/bitstream/1822/59130/1/Disserta%C3%A7%C3%A3o_Cristiano_
Miranda_56898.pdf
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
A técnica de Big Data Streaming permite que as organizações usufruam dos resultados e possam
processar os grandes fluxos de dados, descobrindo informações em tempo hábil para atender as
necessidades da organização. O Big Data Streaming fornece conectores de alto desempenho
predefinidos, quais destes abaixo não é um conector de alto nível:
A) Kafka
B) HDFS
C) Amazon Kinesis
D) NoSQL
E) Office Word
Questão ­ 2
Em um mundo com crescente produção de dados que precisam de um rápido processamento, temos
muitos formatos e tipos diferentes de dados produzidos por máquinas e por dispositivos de Internet das
Coisas. O lntelligent Streaming processa todos os tipos de dados, incluindo complexos objetos de
dados hierárquicos em uma variedade de formatos, qual deste abaixo não é um formato valido?
A) JSON
B) CSV
C)PDF
D) Record
E)Maps
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 4: Tema ­ 2. HADOOP E ARMAZENAMENTO DE DADOS
3 Objetivos
Desenvolver o framework Hadoop, destacando o armazenamento e o tratamento de grande massa de
dados, para aplicações Big Data.
4 Tópicos
2.1 INTRODUÇÃO E ARQUITETURA AO HADOOP
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: O Apache Hadoop é um framework para o armazenamento e processamento de
Big Data. Ele possui ferramentas para armazenar e recuperar grandes volumes de dados distribuídos e
para realizar o processamento distribuído, garantindo escalabilidade e disponibilidade e possibilitando
a extração de conhecimento útil a partir de análises e cruzamentos desses dados. Quando se precisa de
alto desempenho em processamento de grande volume de dados, o Apache Hadoop é indicado como
uma das melhores ferramentas. Quais os benefícios iniciais que o Apache Hadoop pode trazer para sua
organização? 
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre os
referidos benefícios, o professor poderá apresentar os detalhes da plataforma do Apache Hadoop,
exemplificando com alguns exemplos básicos iniciais.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para que os grupos listem suas escolhas no quadro branco. Os grupos deverão apresentar os
motivos da escolha dos respectivos benefícios. Assim que todos os grupos apresentarem, o professor
deverá apontar os acertos e os erros de cada grupo para juntos debaterem sobre o assunto, destacando
os seguintes benefícios: Código aberto, Baixo custo, Simplicidade, Robustez e Escalabilidade.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual, laboratório de informática.
7 Leitura específica
Capítulo Introdução ao Hadoop do livro: MORAIS, Izabelly. Introdução a Big Data e Internetdas
Coisas (IOT) [BV:MB]. Porto Alegre:
SAGAH, 2018. Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
Capítulo 7 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital.
8 Aprenda +
Acesse os seguintes links:
Conceito de Apache Hadoop:
https://www.youtube.com/watch?v=SwvxptivrL0
História do armazenamento de dados:
https://www.youtube.com/watch?v=C87AKC4VQ3s e https://www.youtube.com/watch?
v=SbpvJ7S5KkQ
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Mas, o que é o Hadoop? É, na prática, uma combinação de dois projetos separados, que são o Hadoop
MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File
System (HDFS). O HMR é um spinoff do MapReduce, software que o Google usa para acelerar as
pesquisas endereçadas ao seu buscador. O HDFS é um sistema de arquivos distribuídos otimizados
para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o
Google File System. Existe também o Hadoop Common, conjunto de bibliotecas e utilitários que
suportam os projetos Hadoop. O ecossistema Hadoop, trabalha com cinco processos, que são:
A) NameNode, DataNode, SecondaryNameNode, JobTracker e TaskTracker
B) NameNode, DataDB, SecondaryNameNode, JobTracker e TaskTracker
C) NameNode, DataNode, PrimaryNameNode, JobTracker e TaskTracker
D) NameNode, DataNode, SecondaryNameNode, NextTracker e TaskTracker
E) NameNode, DataNode, SecondaryNameNode, JobTracker e UpDoTracker
Questão ­ 2
O Hadoop Distributed File System ­ HDFS é o sistema de arquivos distribuídos do Hadoop que possui
um conjunto de funções, quais destas abaixo não é uma função do HDFS:
A) Armazenamento
B) Organização
C) Nomeação
D) Recuperação
E) Desfragmentação
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 5: Tema ­ 2. HADOOP E ARMAZENAMENTO DE DADOS
3 Objetivos
Descrever a arquitetura Hadoop, enfatizando seu funcionamento e o ecossistema, para uma aplicação
de Big Data.
4 Tópicos
2.2 ECOSSISTEMA E SOLUÇÕES COM HADOOP
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: O Apache Hadoop é um framework para o armazenamento e processamento de
Big Data. Ele possui ferramentas para armazenar e recuperar grandes volumes de dados distribuídos e
para realizar o processamento distribuído, garantindo escalabilidade e disponibilidade e possibilitando
a extração de conhecimento útil a partir de análises e cruzamentos desses dados. Quando se precisa de
alto desempenho em processamento de grande volume de dados, o Apache Hadoop é indicado como
uma das melhores ferramentas. Nesse contexto, quais os componentes principais da arquitetura
Hadoop?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre a
arquitetura do Hadoop, o professor poderá apresentar os principais conceitos relacionados com
arquitetura e seu ecossistema.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para que os grupos listem suas escolhas no quadro branco ou por grupo. Os grupos deverão
apresentar os motivos da escolha dos respectivos componentes listados. Assim que todos os grupos
apresentarem, o professor deverá apontar os acertos e os erros de cada grupo para juntos debaterem
sobre o assunto, destacando os seguintes componentes: MapReduce (modelo de programação
paralela), HDFS (sistema de arquivos distribuídos do Hadoop), YARN (Yet Another Resource
Negociator) e utilitários comuns do Hadoop (Hadoop Common).
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​se o sistema operacional Windows e a
instalação dos programas PyCharm, Java (versão 8 ou superior) e Hadoop.
7 Leitura específica
Capítulo Introdução ao Hadoop do livro: MORAIS, Izabelly. Introdução a Big Data e Internet das
Coisas (IOT) [BV:MB]. Porto Alegre:
SAGAH, 2018. Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
Capítulo 7 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital.
8 Aprenda +
Complemente os estudos, com os seguintes vídeos:
Como funciona a Arquitetura do Hadoop:https://www.youtube.com/watch?v=qX5edsUWadE
Aprenda como funciona o Ecossistema e Soluções com Hadoop:https://www.youtube.com/watch?
v=eGrI3­rQx8I
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Hadoop é usado amplamente na indústria para processamento de grande escala, massivamente
paralelo e distribuído. Hadoop é altamente tolerante a falhas e configurável para tantos níveis quanto
precisarmos. O que tem um impacto direto no número de vezes que os dados são armazenados. Como
já abordado, em sistemas de Big Data, a arquitetura gira em torno de dois componentes principais:
A) Computação Distribuída e Processamento Paralelo.
B) Computação Digital e Processamento Paralelo.
C) Computação Hibrida e Processamento Vertical.
D) Computação na Nuvem e Processamento Horizontal.
E) Computação Homogênea e Processamento em Lote.
Questão ­ 2
No ecossistema do Hadoop, analise as sentenças a seguir:
I ­ O Hadoop Distributed File System (HDFS) fornece armazenamento escalável e tolerante a falhas, o
custo­eficiente para o seu Data Lake.
II ­ O MapReduce é uma estrutura de software para processamento distribuído de grandes quantidades
de dados de maneira confiável e tolerante a falhas.
III ­ O Hive é uma ferramenta de infraestrutura de data warehouse para processar dados estruturados
no Hadoop. Ele reside no Hadoop para resumir Big Data, facilita a consulta e a análise.
Estão corretas as sentenças:
A) I e II, apenas
B) III, apenas
C) II e III, apenas
D) I, II e III, apenas
E) I, apenas
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 6: Tema ­ 2. HADOOP E ARMAZENAMENTO DE DADOS
3 Objetivos
Desenvolver as características do HDFS, RDBMS e Data Lake, analisando as diferenças entre essas
tecnologias, para o armazenamento de dados no Hadoop.
4 Tópicos
2.3 HDFS VS RDBMS
2.4 ENTENDO UM DATA LAKE
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: Atualmente, temos muitas aplicações que envolvem grandes volumes de dados,
como as transações financeiras online, produção e compartilhamento de conteúdo nas redes sociais e
estudos nas áreas da biologia genética. Esses são apenas alguns exemplos que nos ajudam a ilustrar
como situações semelhantes a essas estão inseridas no nosso cotidiano. Essas aplicações fazem parte
do que conhecemos como Big Data. A expressão da língua inglesa foi incorporada ao nosso dia a dia
para descrever um conjunto de tecnologias que gerenciam, entre outros recursos tecnológicos, o
armazenamento de dados de aplicações complexas. Nesse contexto, descreva de forma sucinta as
principais características das tecnologias HDFS, RDBMS e Data Lake, informando em quais
ambientes elessão mais utilizados?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos discutam
sobre a questão norteadora da aula. 
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema e pedir para os grupos apresentem suas ideias sobre as principais características de
HDFS, RDBMS e Data Lake. Assim que todos os grupos apresentarem, o professor deverá apontar os
acertos e os erros de cada grupo para juntos debaterem sobre o assunto.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere­​se o sistema operacional Windows e a
instalação dos programas PyCharm, Java (versão 8 ou superior) e Hadoop.
7 Leitura específica
Capítulo Introdução ao Hadoop do livro: MORAIS, Izabelly. Introdução a Big Data e Internet das
Coisas (IOT) [BV:MB]. Porto Alegre:
SAGAH, 2018. Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
Capítulo 7 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital.
Hagstroem, M et al. A smarter way to jump into data lakes. McKinsey Digital. Disponível: <
https://www.mckinsey.com/business­functions/mckinsey­digital/our­insights/a­smarter­way­to­jump­
into­data­lakes>. Acesso em: 20/01/2022.
8 Aprenda +
Complemente os estudo com os seguintes vídeos:
Hadoop ­ Sistema de Arquivos HDFS:https://www.youtube.com/watch?v=Z4htZMwIfDs
Conceitos de Bancos de Dados que todo estudante precisa conhecer:https://www.youtube.com/watch?
v=2E7crqRI1iE
Learn RDBMS in 6 minutes!:https://www.youtube.com/watch?v=t48TGntrX4s
O que são Data Lakes?:https://www.youtube.com/watch?v=DqNdtR1dlgE
O que é um Data Lake?:https://www.youtube.com/watch?v=U6WS0mNOQ5Y
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
James Dixon, foi o primeiro há citar o termo Data Lake publicamente, na ocasião, James era Diretor
de Tecnologia do Pentaho (Estados Unidos) e o termo Data Lake foi dito para fazer referência a
solução de armazenamento e democratização para ambientes de Big Data. Data Lake é muito utilizado
em ambientes de Big Data é visa tratar dados brutos de várias fontes, centralizando em um local
conhecido, para fim de democratização da informação que posteriormente podem ser manipuladas, em
se tratando de Data Lake, em qual destas tecnologias não se aplica o uso de Data Lake?
A) Analytics,
B) Machine Learning (ML)
C) Business Intelligence (BI),
D) Inteligência Artificial (AI)
E) Marketing Digital
Questão ­ 2
Flume é um serviço que basicamente permite enviar dados diretamente para o HDFS. Foi
desenvolvido pela Cloudera e permite mover grandes quantidades de dados, basicamente, o Apache
Flume é um serviço que funciona em ambiente distribuído para coletar, agregar e mover grandes
quantidades de dados de forma eficiente, Flume faz parte do:
A) Ecossistema Hadoop
B) Sistema Operacional
C) Banco de Dados
D) Programação em R
E) Sistema de validação
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 7: Tema ­ 3. PRINCÍPIOS DE DESENVOLVIMENTO COM PYSPARK
3 Objetivos
Desenvolver os conceitos do Spark, enfatizando sua arquitetura, para aplicações de Big Data.
4 Tópicos
3.1 INTRODUÇÃO AO SPARK
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: Apache Spark é um sistema de análise de dados distribuído e altamente escalável
que permite processamento na memória. O Spark é escrito na linguagem Scala e executa em uma
máquina virtual Java. O Spark surgiu como uma alternativa para o MapReduce do Hadoop, mas tem se
provado uma excelente ferramenta para realização de computação distribuída, ou seja, processamento
paralelo entre diversos nós de um cluster de computadores. Nesse contexto, descreva a arquitetura do
Spark.
Metodologia: Após apresentação da situação problema norteadora, o professor deverá solicitar aos
alunos que montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos
opinem sobre o pedido norteador da aula. Conforme os grupos vão apresentando suas ideias sobre a
referida arquitetura, o professor poderá apresentar como está baseada a arquitetura do Spark.
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema e pedir para que os grupos descrevam os componentes da arquitetura Spark. Os
grupos deverão apresentar características de cada componente apresentado. Assim que todos os
grupos apresentarem, o professor deverá apontar os acertos e os erros de cada grupo para juntos
debaterem sobre o assunto, destacando que a arquitetura do Spark é composta por três componentes
principais: o Driver Program, o Cluster Manager e os Executors.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​se o sistema operacional Windows e a
instalação dos programas Findspark, Java (versão 8 ou superior) e Hadoop.
7 Leitura específica
ARMBRUST, M. Leanrning Spark. O?Reilly, 2020. Disponível: < https://pages.databricks.com/rs/094­
YMS­629/images/LearningSpark2.0.pdf>. Acesso em: 20/01/2022.
PENCHIKALA, S. Big Data com Apache Spark ­ Parte 1: Introdução. Info Q, 2015. Disponível: <
https://www.infoq.com/br/articles/apache­spark­introduction/>. Acesso em: 20/01/2022.
8 Aprenda +
Complemente os estudos com os seguintes vídeos:
Melhores Práticas de Desenvolvimento com PySpark:
https://www.youtube.com/watch?v=326­sCcgvOM
PySpark ­ Utilizando SPARK e Python para analisar dados:
https://www.youtube.com/watch?v=WpIDLm9ow2o
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
O Spark oferece dois tipos de variáveis compartilhadas para torná­lo eficiente para execução em
cluster. Estas variáveis são:
A) Multicast e Acumuladores.
B) Broadcast e Unicast.
C) Broadcast e Acumuladores.
D) Literais e Reais.
E) Inteiras e Decimal.
Questão ­ 2
Há três interfaces principais do Apache Spark que você deve conhecer:
A) Resilient Distributed Dataset, DataBD e Dataset.
B) Resilient Distributed Dataset, DataFrame e Dataset.
C) Resilient Dataout Dataset, DataFrame e Dataset.
D) Resilient Datain Dataout, DataFrame e Dataset.
E) Resident Distributed DataFrame, DataFrame e DataDW.
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 8: Tema ­ 3. PRINCÍPIOS DE DESENVOLVIMENTO COM PYSPARK
3 Objetivos
Aplicar o PySpark, utilizando a API do Spark para Python, para realizar a análise exploratória de um
conjunto de dados.
4 Tópicos
3.2 UTILIZANDO PYSPARK
5 Procedimentos de ensino­aprendizagem
A partir de atividades de programação, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: Algumas das principais aplicações do PySpark é no desenvolvimento de soluções
de ciência de dados e aprendizado de máquina. Isso ocorre porque o Python possui diversas
bibliotecas voltadas para esse tipo de aplicação e o ambiente do Spark favorece essas aplicações por
causa da eficiência do processamento de grandes volumesde dados. Os alunos deverão realizar as
seguintes atividades em laboratório: conectar­se a um cluster Spark do PySpark e realizar Operações
com Spark DataFrames. 
Metodologia: Após apresentação da situação problema, o professor deverá apresentar os passos
computacionais de ambas as atividades e solicitar aos alunos que as implementem individualmente. O
professor, caso queira, poderá utilizar o notebook Jupyter ou o Google Colab com os alunos.
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema, verificando a implementação de ambas as atividades por parte dos alunos, gerando
um debate sobre o assunto.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​­se o sistema operacional Windows e a
instalação dos programas ferramenta notebook Jupyter, Pyspark, Java (versão 8 ou superior) e
Hadoop.
7 Leitura específica
RELVAS, C. Apache Spark. IME/USP, 2015. Disponível: <
https://www.ime.usp.br/~gold/cursos/2015/MAC5742/reports/ApacheSpark.pdf>. Acesso em:
20/01/2022.
Tutorial Pyspark e MLlib. CETAX, 2022. Disponível: < https://www.cetax.com.br/blog/tutorial­
pyspark­e­mllib/>. Acesso em: 20/01/2022.
8 Aprenda +
Complemente os estudos com os seguintes vídeos:
PySpark ­ Utilizando SPARK e Python para analisar dados: https://www.youtube.com/watch?
v=WpIDLm9ow2o
Processando dados com Spark na Prática ­ Parte 1: https://www.youtube.com/watch?
v=EMACjF6eCU4
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Enquanto o Hadoop armazena os resultados intermediários do processamento em disco, o Spark
armazena os resultados intermediários na _____________ . Esse é basicamente o grande diferencial
do Spark. Qual opção preenche corretamente a lacuna?
A) Hardware
B) Aplicação
C) Sistema Operacional
D) Memória
E) Navegador
Questão ­ 2
O Spark foi projetado a partir do bottom­up para o desempenho, ele pode ser _______________ do
que o Hadoop para o processamento de dados em grande escala. Ele também é rápido quando os
dados são armazenados no disco e atualmente detém o recorde mundial de grande escala de
classificação no disco.Qual opção preenche corretamente a lacuna?
A) 105x mais rápido
B) 110x mais rápido
C) 150x mais rápido
D) 200x mais rápido
E) 100x mais rápido
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 9: Tema ­ 3. PRINCÍPIOS DE DESENVOLVIMENTO COM PYSPARK
3 Objetivos
Aplicar operações de MapReduce e de transformações, utilizando o PySpark, para processamento de
grandes conjuntos de dados de forma distribuída em várias máquinas.
4 Tópicos
3.3 OPERAÇÕES DE MAPREDUCE COM PYSPARK
3.4 TRANSFORMAÇÕES COM PYSPARK
5 Procedimentos de ensino­aprendizagem
A partir de atividades de programação, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: O MapReduce foi desenvolvido como uma forma de processar grandes volumes
de dados distribuindo o processamento em muitas máquinas para que seja processado em um tempo
hábil. A distribuição facilita o processamento paralelo dos dados é a mesma função é aplicada em
todas as maquinas. Por sua vez, as transformações do Spark permitem transformar um conjunto de
dados de entrada no conjunto que queremos obter, portanto, a transformação cria um conjunto de
dados a partir de um existente. O professor deverá disponibilizar, a seu critério, um primeiro caso para
implementação de MapReduce com o PySpark, e um segundo, de transformação.
Metodologia: Após apresentação da situação problema, o professor deverá apresentar os passos
computacionais dos referidos casos e solicitar aos alunos que os implementem individualmente,
utilizando PySpark. O professor, caso queira, poderá utilizar o Google Colab com os alunos ou o
notebook Jupyter.
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema, verificando a implementação dos casos por parte dos alunos, gerando um debate
sobre o assunto.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​se o sistema operacional Windows e a
instalação dos programas ferramenta notebook Jupyter, PySpark, Java (versão 8 ou superior) e
Hadoop.
7 Leitura específica
ANDRADE, T. MapReduce ­ Conceitos e Aplicações. Instituto de Computação/Unicamp, 2012.
Disponível: <
https://www.ic.unicamp.br/~cortes/mo601/trabalho_mo601/tiago_cruz_map_reduce/relatorio.pdf>.
Acesso em: 20/01/2022.
GOLDMAN, A et al. Apache Hadoop: conceitos teóricos e práticos,evolução e novas possibilidades.
IME/USP, 2012. Disponível: < https://www.ime.usp.br/~ipolato/JAI2012­Hadoop.pdf>. Acesso em:
20/01/2022.
8 Aprenda +
Complemente os estudos com os seguintes vídeos:
Hadoop ­ Introdução ao map­reduce: https://www.youtube.com/watch?v=mpCMUkf6WSQ
PySpark ­ Utilizando SPARK e Python para analisar dados: https://www.youtube.com/watch?
v=WpIDLm9ow2o
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma
plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no
MapReduce e no GoogleFS. Esta plataforma é o(a):
A) Yam Common
B) GoogleCrush
C) EMRx
D) Hadoop
E) MapFix.
Questão ­ 2
Apache Spark é o principal mecanismo de análise unificado para tratamentos de grande massa de
dados Big Data e de aprendizagem de máquina, usado em muitas empresas no mundo, um dos fatores
norteadores é o uso de memória na sua otimização e rapidez nos resultados. O seu antecessor Hadoop
não ficou ultrapassado e podemos usar em determinadas funcionalidades.
PySpark foi lançado com o intuito de fornecer a colaboração entre o Apache Spark e Python, onde
fora desenvolvido uma API Python para Spark, formando o nome de PySpark. Apache Spark é um
ambiente de processamento analítico para aplicações de processamento de dados ____________ em
larga escala e _________________.Qual opção preenche corretamente as lacunas?
A) Distribuído e Aprendizagem de Máquina
B) Aglomerado e Aprendizagem de Máquina
C) Acoplado e Aprendizagem de Máquina
D) Distribuído e Inteligência Artificial.
E) Homogêneo e Linguagem de Máquina
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 10: Tema ­ 4. ANÁLISE DE DADOS EM PYTHON COM PANDAS
3 Objetivos
Apresentar a biblioteca Pandas, utilizando a linguagem Python, para manipulação e análise de dados.
4 Tópicos
4.1 COMPONENTES E SINTAXE DO PANDAS
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta norteadora, será estimulada a participação dos alunos para, posteriormente,
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 1: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Desenvolver os princípios de Big Data, apresentando o histórico e a evolução da importância do
tratamento de grande massa de dados, para aplicações de BIG DATA.
4 Tópicos
1.1 INTRODUÇÃO E APLICAÇÕES AO BIG DATA
5 Procedimentos de ensino­aprendizagem
Nesta primeira aula, a partir de uma pergunta geradora, será estimulada a participação dos alunos para,
posteriormente, ocorrer a etapa de preleção do docente. Recomenda­se que no início da aula seja
apresentada a ementa da disciplina,bem como seus temas de aprendizagem, as metodologias previstas
e as referências bibliográficas indicadas no plano de ensino. Além dessas informações, é importante
que o professor informe aos alunos que todo o material comtemplado nessa disciplina estará disponível
também na plataforma digital da IES. Isso permitirá que os alunos acessem e estudem através
conteúdo digital em momentos distintos (antes, durante e depois das aulas), o que poderá contribuir
para melhor desenvolvimento do processo de aprendizagem. Após apresentação dessas informações
fundamentais, sugere­se a seguinte situação problema:
Situação Problema: Nos dias atuais as organizações precisam analisar um grande volume de dados,
esses dados são gerados em tempo real e na sua maioria não estão organizados, estruturados como em
um banco de dados. Esses grandes volumes de dados são gerados de várias fontes, empresas de
telecomunicações, vendas ao varejo, comercio eletrônico, mídias sociais, mercado financeiro, internet
ou seja de diversas áreas que fornecem um grande volume de dados. Isso faz com que os dados
necessitem de um tratamento especial. Nesse caso se o usuário quiser uma solução em tempo real,
deve fazer uso das técnicas que o Big Data oferece?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
monte grupos de seis alunos no máximo; com os grupos montados, então solicita aos grupos que
opinem sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre o
que é Big Data o professor poderá apresentar os conceitos de Big Data, evolução do Big Data e
exemplos de Big Data aplicados nas organizações e seus respectivos motivos. Aqui o professor poderá
apresentar os modelos tradicionais de banco de dados também conhecido como modelos relacionais e
orientados a objetos.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para os grupos que escolham um projeto que possa ser desenvolvido na técnica de Big Data
Analytics. Os grupos deverão apresentar os motivos da escolha da técnica em cada projeto. Assim que
todos os grupos apresentarem, o professor deverá orientar cada grupo para juntos debaterem sobre os
erros e acertos das técnicas apresentadas.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual.
7 Leitura específica
Recomenda­se a Leitura dos Textos:
Capítulos 1, 2 e 3 do livro: PEREIRA, Mariana Araújo. Framework de Big Data [BV:MB]. Porto
Alegre: SAGAH, 2019.
Disponível em: https://integrada.minhabiblioteca.com.br/books/9786556900803/
Capítulo 1 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital. 
Capítulo 2 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital. Páginas 35 ao 38.
8 Aprenda +
Conheça a história da Big Data os conceitos fundamentais por meio dos links:
O que é Big Data? Disponível em: https://www.youtube.com/watch?v=32QnYF7IDyc. Acesso em 05
janeiro 2022.
A diferença de Big Data e Data Analytics? Disponível em: https://www.youtube.com/watch?
v=4CNqiAgmqSc. Acesso em: 05 janeiro 2022.
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão 1.
Podemos definir a fórmula que estrutura o Big Data como:
A) Volume + variedade + agilidade + efetividade, tudo agregando + valor + atualidade.
B) Volume + oportunidade + segurança + veracidade, tudo agregando + valor.
C) Dimensão + variedade + otimização + veracidade, tudo agregando + agilidade.
D) Volume + variedade + velocidade + veracidade, tudo agregando + valor.
E) Volume + disponibilidade + velocidade + portabilidade, tudo requerendo ­ valor.
Questão 2.
O processamento de grandes quantidades de dados é muito utilizado em plataformas que usam a
linguagem de programação Java, sistemas distribuídos com ênfase no uso de clusters, voltadas em
MapReduce e no GoogleFS. A plataforma que mais se adequa é:
A) Yam Common.
B) GoogleCrush.
C) EMRx.
D)MapFix
E)Hadoop.
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 2: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Apresentar os princípios de IoT e Computação Distribuída, analisando suas possibilidades de
contribuição nos negócios, para aplicações Big Data.
4 Tópicos
1.2 CONCEITOS DE IOT E COMPUTAÇÃO DISTRIBUÍDA
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: Quando estão atuando juntos, Big Data e Internet das Coisas, podem contribuir na
geração de muitas possibilidades de negócios e de aplicações; Considerando que Big Data trata de
realizar análise de dados e informações, como a IoT usa essas informações? Como o IoT pode
contribuir para os negócios de uma empresa?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre IoT, o
professor poderá apresentar os conceitos de IoT e computação nas nuvens. 
Metodologia: Nessa etapa da aula, após conhecerem o conceito e as características da IoT o professor
da disciplina deverá lançar o desafio para os grupos identificarem quais os tipos de benefícios serão
adquiridos com o uso da IoT nos negócios. Ao discutir a situação problema com os grupos, o professor
deverá orientar e passar o feedback, identificando quais foram as propostas mais relevantes
apresentadas pelos grupos. Para isso o professor poderá utilizar o Mentimeter para interagir com os
grupos.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual.
7 Leitura específica
Recomenda­se a Leitura dos Textos:
Capítulos Big Data e Internet das Coisas (IoT) e Integrando Big Data e IoT do livro: MORAIS,
Izabelly. Introdução a Big Data e Internet das Coisas (IOT) [BV:MB]. Porto Alegre: SAGAH, 2018.
Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
IoT: o que especialistas de redes precisam saber sobre internet das coisas, jan 2022. Disponível em:
https://computerworld.com.br/inovacao/iot­o­que­especialistas­de­redes­precisam­saber­sobre­
internet­das­coisas/ Acesso: 05 Jan 2022. 
YOSHIDA H. Tendências para Big Data, Internet das Coisas, Lagoas de Dados e a Nuvem, 2015.
Disponível em: https://www.hitachivantara.com/pt­br/newsroom­hvtv/in­the­
press/2015/br150107.html Acesso: 5 jan 2022.
8 Aprenda +
Conheça a história da Iot, Sistemas distribuídos e computação na nuvem, conceitos fundamentais por
meio dos links:
A Internet das coisas, explicada pelo NIC.br, Disponível em: https://www.youtube.com/watch?
v=jlkvzcG1UMk Acesso em 05 janeiro 2022.
Você sabe o que é Cloud Computing, ou Computação na Nuvem? Disponível em:
https://www.youtube.com/watch?v=FDFejm­ovtI Acesso em: 05 janeiro 2022.
Sistemas Distribuídos ­ Introdução aos Sistemas Distribuídos: https://www.youtube.com/watch?
v=34RvRBXzvMo Acesso em: 05 janeiro 2022.
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão 1.
Qual opção é uma vantagem e uma desvantagem da computação em nuvem quando comparados aos
dados armazenados em data centers?
A)Economia de recursos e segurança dos dados.
B)Boa flexibilidade e custo alto.
C)Rapidez e pouca flexibilidade.
D) Ausência de infraestrutura de TI e custo alto.
E) Escalabilidade e necessidade de conhecimento técnico.
Questão 2.
Infraestrutura na nuvem e grandes empresas vêm criando seus datacenters para oferecer esse serviço.
Como exemplo podem ser citados o AWS ­ Amazon Web Service, o Windows Azure da Microsoft,
além do Software como Serviço (SaaS), entre outros. Geralmente, um datacenter é construído
baseando­se em uma arquitetura tecnológica hierárquica, seguindo um modelo sugerido pela Cisco,
com três camadas de rede. Assinale­as.
A) Clusterização, agregação e acesso.
B)Núcleo, agregação e acesso.
C) Virtualização, acesso e núcleo.
D) Agregação, clusterização e virtualização.
E) Acesso, núcleo e clusterização.
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 3: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Apresentar os conceitos da computação em nuvem e de streaming de dados, descrevendo as principais
plataformas em nuvem, para aplicações de Big Data e processamento de streaming de dados.
4 Tópicos
1.3 PLATAFORMAS EM NUVEM PARA APLICAÇÕES DE BIGDATA
1.4 PROCESSAMENTO E STREAMING DE DADOS
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: Alguns fatores são fundamentais para que seja feito um correto Streaming de
dados, há necessidade de processar esses dados em tempo real (real time), ou com baixa latência,
produzindo resultados satisfatórios. Devido à crescente proliferação de dispositivos móveis e do uso
intenso de redes sociais, o desenvolvimento de aplicações se faz necessário para atender a demanda
das empresas e de governos na obtenção de informações de consumo. Como podemos mitigar a
crescente demanda por streaming de dados com Big Data? 
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre como
mitigar a crescente demanda por streaming de dados com Big Data, o professor poderá apresentar os
conceitos de computação nas nuvens, bem como respectivas plataformas, e do processamento de
streaming de dados com Big Data.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para os grupos que escolham uma plataforma de streaming na nuvem. Os grupos deverão
apresentar os motivos da escolha de cada plataforma na nuvem. Assim que todos os grupos
apresentarem o professor deverá apontar os acertos e os erros de cada grupo para juntos debaterem
sobre o assunto.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual.
7 Leitura específica
Capítulo 8 ­ Big Data, do livro: GOLDSCHMIDT, Ronaldo. Data Mining ​ Conceitos, técnicas,
algoritmos, orientações e aplicações [BV:MB]. Rio de Janeiro: Elsevier, 2015. Disponível em:
https://integrada.minhabiblioteca.com.br/books/9788595156395/
Transmissão de dados entre plataformas streaming, a seguir são descritas algumas definições
interessantes e pertinentes encontradas na literatura.
https://www.ic.unicamp.br/~reltech/PFG/2021/PFG­21­09.pdf
8 Aprenda +
Conheça um pouco sobre Streaming de dados, conceitos fundamentais por meio dos links:
Processamento de dados em Python:
https://www.youtube.com/watch?v=P7mCdKXv6DI Acesso em 05 janeiro 2022.
O novo desafio das empresas e profissionais do mercado:
http://repositorium.sdum.uminho.pt/bitstream/1822/59130/1/Disserta%C3%A7%C3%A3o_Cristiano_
Miranda_56898.pdf
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
A técnica de Big Data Streaming permite que as organizações usufruam dos resultados e possam
processar os grandes fluxos de dados, descobrindo informações em tempo hábil para atender as
necessidades da organização. O Big Data Streaming fornece conectores de alto desempenho
predefinidos, quais destes abaixo não é um conector de alto nível:
A) Kafka
B) HDFS
C) Amazon Kinesis
D) NoSQL
E) Office Word
Questão ­ 2
Em um mundo com crescente produção de dados que precisam de um rápido processamento, temos
muitos formatos e tipos diferentes de dados produzidos por máquinas e por dispositivos de Internet das
Coisas. O lntelligent Streaming processa todos os tipos de dados, incluindo complexos objetos de
dados hierárquicos em uma variedade de formatos, qual deste abaixo não é um formato valido?
A) JSON
B) CSV
C)PDF
D) Record
E)Maps
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 4: Tema ­ 2. HADOOP E ARMAZENAMENTO DE DADOS
3 Objetivos
Desenvolver o framework Hadoop, destacando o armazenamento e o tratamento de grande massa de
dados, para aplicações Big Data.
4 Tópicos
2.1 INTRODUÇÃO E ARQUITETURA AO HADOOP
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: O Apache Hadoop é um framework para o armazenamento e processamento de
Big Data. Ele possui ferramentas para armazenar e recuperar grandes volumes de dados distribuídos e
para realizar o processamento distribuído, garantindo escalabilidade e disponibilidade e possibilitando
a extração de conhecimento útil a partir de análises e cruzamentos desses dados. Quando se precisa de
alto desempenho em processamento de grande volume de dados, o Apache Hadoop é indicado como
uma das melhores ferramentas. Quais os benefícios iniciais que o Apache Hadoop pode trazer para sua
organização? 
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre os
referidos benefícios, o professor poderá apresentar os detalhes da plataforma do Apache Hadoop,
exemplificando com alguns exemplos básicos iniciais.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para que os grupos listem suas escolhas no quadro branco. Os grupos deverão apresentar os
motivos da escolha dos respectivos benefícios. Assim que todos os grupos apresentarem, o professor
deverá apontar os acertos e os erros de cada grupo para juntos debaterem sobre o assunto, destacando
os seguintes benefícios: Código aberto, Baixo custo, Simplicidade, Robustez e Escalabilidade.
6 Recursos didáticos
Sala de aula equipada com quadro branco, projetor multimídia, sinal de internet para acesso ao acervo
bibliográfico no ambiente virtual, laboratório de informática.
7 Leitura específica
Capítulo Introdução ao Hadoop do livro: MORAIS, Izabelly. Introdução a Big Data e Internet das
Coisas (IOT) [BV:MB]. Porto Alegre:
SAGAH, 2018. Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
Capítulo 7 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital.
8 Aprenda +
Acesse os seguintes links:
Conceito de Apache Hadoop:
https://www.youtube.com/watch?v=SwvxptivrL0
História do armazenamento de dados:
https://www.youtube.com/watch?v=C87AKC4VQ3s e https://www.youtube.com/watch?
v=SbpvJ7S5KkQ
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministradonesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Mas, o que é o Hadoop? É, na prática, uma combinação de dois projetos separados, que são o Hadoop
MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File
System (HDFS). O HMR é um spinoff do MapReduce, software que o Google usa para acelerar as
pesquisas endereçadas ao seu buscador. O HDFS é um sistema de arquivos distribuídos otimizados
para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o
Google File System. Existe também o Hadoop Common, conjunto de bibliotecas e utilitários que
suportam os projetos Hadoop. O ecossistema Hadoop, trabalha com cinco processos, que são:
A) NameNode, DataNode, SecondaryNameNode, JobTracker e TaskTracker
B) NameNode, DataDB, SecondaryNameNode, JobTracker e TaskTracker
C) NameNode, DataNode, PrimaryNameNode, JobTracker e TaskTracker
D) NameNode, DataNode, SecondaryNameNode, NextTracker e TaskTracker
E) NameNode, DataNode, SecondaryNameNode, JobTracker e UpDoTracker
Questão ­ 2
O Hadoop Distributed File System ­ HDFS é o sistema de arquivos distribuídos do Hadoop que possui
um conjunto de funções, quais destas abaixo não é uma função do HDFS:
A) Armazenamento
B) Organização
C) Nomeação
D) Recuperação
E) Desfragmentação
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 5: Tema ­ 2. HADOOP E ARMAZENAMENTO DE DADOS
3 Objetivos
Descrever a arquitetura Hadoop, enfatizando seu funcionamento e o ecossistema, para uma aplicação
de Big Data.
4 Tópicos
2.2 ECOSSISTEMA E SOLUÇÕES COM HADOOP
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: O Apache Hadoop é um framework para o armazenamento e processamento de
Big Data. Ele possui ferramentas para armazenar e recuperar grandes volumes de dados distribuídos e
para realizar o processamento distribuído, garantindo escalabilidade e disponibilidade e possibilitando
a extração de conhecimento útil a partir de análises e cruzamentos desses dados. Quando se precisa de
alto desempenho em processamento de grande volume de dados, o Apache Hadoop é indicado como
uma das melhores ferramentas. Nesse contexto, quais os componentes principais da arquitetura
Hadoop?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos opinem
sobre a questão norteadora da aula. Conforme os grupos vão apresentando suas ideias sobre a
arquitetura do Hadoop, o professor poderá apresentar os principais conceitos relacionados com
arquitetura e seu ecossistema.
Atividade Verificadora: Ao terminar essa dinâmica, o professor deverá retomar a situação problema e
pedir para que os grupos listem suas escolhas no quadro branco ou por grupo. Os grupos deverão
apresentar os motivos da escolha dos respectivos componentes listados. Assim que todos os grupos
apresentarem, o professor deverá apontar os acertos e os erros de cada grupo para juntos debaterem
sobre o assunto, destacando os seguintes componentes: MapReduce (modelo de programação
paralela), HDFS (sistema de arquivos distribuídos do Hadoop), YARN (Yet Another Resource
Negociator) e utilitários comuns do Hadoop (Hadoop Common).
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​se o sistema operacional Windows e a
instalação dos programas PyCharm, Java (versão 8 ou superior) e Hadoop.
7 Leitura específica
Capítulo Introdução ao Hadoop do livro: MORAIS, Izabelly. Introdução a Big Data e Internet das
Coisas (IOT) [BV:MB]. Porto Alegre:
SAGAH, 2018. Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
Capítulo 7 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital.
8 Aprenda +
Complemente os estudos, com os seguintes vídeos:
Como funciona a Arquitetura do Hadoop:https://www.youtube.com/watch?v=qX5edsUWadE
Aprenda como funciona o Ecossistema e Soluções com Hadoop:https://www.youtube.com/watch?
v=eGrI3­rQx8I
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Hadoop é usado amplamente na indústria para processamento de grande escala, massivamente
paralelo e distribuído. Hadoop é altamente tolerante a falhas e configurável para tantos níveis quanto
precisarmos. O que tem um impacto direto no número de vezes que os dados são armazenados. Como
já abordado, em sistemas de Big Data, a arquitetura gira em torno de dois componentes principais:
A) Computação Distribuída e Processamento Paralelo.
B) Computação Digital e Processamento Paralelo.
C) Computação Hibrida e Processamento Vertical.
D) Computação na Nuvem e Processamento Horizontal.
E) Computação Homogênea e Processamento em Lote.
Questão ­ 2
No ecossistema do Hadoop, analise as sentenças a seguir:
I ­ O Hadoop Distributed File System (HDFS) fornece armazenamento escalável e tolerante a falhas, o
custo­eficiente para o seu Data Lake.
II ­ O MapReduce é uma estrutura de software para processamento distribuído de grandes quantidades
de dados de maneira confiável e tolerante a falhas.
III ­ O Hive é uma ferramenta de infraestrutura de data warehouse para processar dados estruturados
no Hadoop. Ele reside no Hadoop para resumir Big Data, facilita a consulta e a análise.
Estão corretas as sentenças:
A) I e II, apenas
B) III, apenas
C) II e III, apenas
D) I, II e III, apenas
E) I, apenas
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 6: Tema ­ 2. HADOOP E ARMAZENAMENTO DE DADOS
3 Objetivos
Desenvolver as características do HDFS, RDBMS e Data Lake, analisando as diferenças entre essas
tecnologias, para o armazenamento de dados no Hadoop.
4 Tópicos
2.3 HDFS VS RDBMS
2.4 ENTENDO UM DATA LAKE
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: Atualmente, temos muitas aplicações que envolvem grandes volumes de dados,
como as transações financeiras online, produção e compartilhamento de conteúdo nas redes sociais e
estudos nas áreas da biologia genética. Esses são apenas alguns exemplos que nos ajudam a ilustrar
como situações semelhantes a essas estão inseridas no nosso cotidiano. Essas aplicações fazem parte
do que conhecemos como Big Data. A expressão da língua inglesa foi incorporada ao nosso dia a dia
para descrever um conjunto de tecnologias que gerenciam, entre outros recursos tecnológicos, o
armazenamento de dados de aplicações complexas. Nesse contexto, descreva de forma sucinta as
principais características das tecnologias HDFS, RDBMS e Data Lake, informando em quais
ambientes eles são mais utilizados?
Metodologia: Após apresentação da pergunta norteadora, o professor deverá solicitar aos alunos que
montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos discutam
sobre a questão norteadora da aula. 
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema e pedir para os grupos apresentem suas ideias sobre as principais características de
HDFS, RDBMS e Data Lake. Assim que todos os grupos apresentarem, o professor deverá apontar os
acertos e os erros de cada grupo para juntos debaterem sobre o assunto.
6 Recursos didáticosLaboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere­​se o sistema operacional Windows e a
instalação dos programas PyCharm, Java (versão 8 ou superior) e Hadoop.
7 Leitura específica
Capítulo Introdução ao Hadoop do livro: MORAIS, Izabelly. Introdução a Big Data e Internet das
Coisas (IOT) [BV:MB]. Porto Alegre:
SAGAH, 2018. Disponível em: https://integrada.minhabiblioteca.com.br/books/9788595027640/
Capítulo 7 do Livro: Cezar Taurion. Big Data. Rio de Janeiro: Brasport, 2013. Disponível: Acervo
Digital.
Hagstroem, M et al. A smarter way to jump into data lakes. McKinsey Digital. Disponível: <
https://www.mckinsey.com/business­functions/mckinsey­digital/our­insights/a­smarter­way­to­jump­
into­data­lakes>. Acesso em: 20/01/2022.
8 Aprenda +
Complemente os estudo com os seguintes vídeos:
Hadoop ­ Sistema de Arquivos HDFS:https://www.youtube.com/watch?v=Z4htZMwIfDs
Conceitos de Bancos de Dados que todo estudante precisa conhecer:https://www.youtube.com/watch?
v=2E7crqRI1iE
Learn RDBMS in 6 minutes!:https://www.youtube.com/watch?v=t48TGntrX4s
O que são Data Lakes?:https://www.youtube.com/watch?v=DqNdtR1dlgE
O que é um Data Lake?:https://www.youtube.com/watch?v=U6WS0mNOQ5Y
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
James Dixon, foi o primeiro há citar o termo Data Lake publicamente, na ocasião, James era Diretor
de Tecnologia do Pentaho (Estados Unidos) e o termo Data Lake foi dito para fazer referência a
solução de armazenamento e democratização para ambientes de Big Data. Data Lake é muito utilizado
em ambientes de Big Data é visa tratar dados brutos de várias fontes, centralizando em um local
conhecido, para fim de democratização da informação que posteriormente podem ser manipuladas, em
se tratando de Data Lake, em qual destas tecnologias não se aplica o uso de Data Lake?
A) Analytics,
B) Machine Learning (ML)
C) Business Intelligence (BI),
D) Inteligência Artificial (AI)
E) Marketing Digital
Questão ­ 2
Flume é um serviço que basicamente permite enviar dados diretamente para o HDFS. Foi
desenvolvido pela Cloudera e permite mover grandes quantidades de dados, basicamente, o Apache
Flume é um serviço que funciona em ambiente distribuído para coletar, agregar e mover grandes
quantidades de dados de forma eficiente, Flume faz parte do:
A) Ecossistema Hadoop
B) Sistema Operacional
C) Banco de Dados
D) Programação em R
E) Sistema de validação
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 7: Tema ­ 3. PRINCÍPIOS DE DESENVOLVIMENTO COM PYSPARK
3 Objetivos
Desenvolver os conceitos do Spark, enfatizando sua arquitetura, para aplicações de Big Data.
4 Tópicos
3.1 INTRODUÇÃO AO SPARK
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta geradora, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação problema: Apache Spark é um sistema de análise de dados distribuído e altamente escalável
que permite processamento na memória. O Spark é escrito na linguagem Scala e executa em uma
máquina virtual Java. O Spark surgiu como uma alternativa para o MapReduce do Hadoop, mas tem se
provado uma excelente ferramenta para realização de computação distribuída, ou seja, processamento
paralelo entre diversos nós de um cluster de computadores. Nesse contexto, descreva a arquitetura do
Spark.
Metodologia: Após apresentação da situação problema norteadora, o professor deverá solicitar aos
alunos que montem grupos de seis alunos no máximo; com os grupos montados, solicitar que os grupos
opinem sobre o pedido norteador da aula. Conforme os grupos vão apresentando suas ideias sobre a
referida arquitetura, o professor poderá apresentar como está baseada a arquitetura do Spark.
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema e pedir para que os grupos descrevam os componentes da arquitetura Spark. Os
grupos deverão apresentar características de cada componente apresentado. Assim que todos os
grupos apresentarem, o professor deverá apontar os acertos e os erros de cada grupo para juntos
debaterem sobre o assunto, destacando que a arquitetura do Spark é composta por três componentes
principais: o Driver Program, o Cluster Manager e os Executors.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​se o sistema operacional Windows e a
instalação dos programas Findspark, Java (versão 8 ou superior) e Hadoop.
7 Leitura específica
ARMBRUST, M. Leanrning Spark. O?Reilly, 2020. Disponível: < https://pages.databricks.com/rs/094­
YMS­629/images/LearningSpark2.0.pdf>. Acesso em: 20/01/2022.
PENCHIKALA, S. Big Data com Apache Spark ­ Parte 1: Introdução. Info Q, 2015. Disponível: <
https://www.infoq.com/br/articles/apache­spark­introduction/>. Acesso em: 20/01/2022.
8 Aprenda +
Complemente os estudos com os seguintes vídeos:
Melhores Práticas de Desenvolvimento com PySpark:
https://www.youtube.com/watch?v=326­sCcgvOM
PySpark ­ Utilizando SPARK e Python para analisar dados:
https://www.youtube.com/watch?v=WpIDLm9ow2o
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
O Spark oferece dois tipos de variáveis compartilhadas para torná­lo eficiente para execução em
cluster. Estas variáveis são:
A) Multicast e Acumuladores.
B) Broadcast e Unicast.
C) Broadcast e Acumuladores.
D) Literais e Reais.
E) Inteiras e Decimal.
Questão ­ 2
Há três interfaces principais do Apache Spark que você deve conhecer:
A) Resilient Distributed Dataset, DataBD e Dataset.
B) Resilient Distributed Dataset, DataFrame e Dataset.
C) Resilient Dataout Dataset, DataFrame e Dataset.
D) Resilient Datain Dataout, DataFrame e Dataset.
E) Resident Distributed DataFrame, DataFrame e DataDW.
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 8: Tema ­ 3. PRINCÍPIOS DE DESENVOLVIMENTO COM PYSPARK
3 Objetivos
Aplicar o PySpark, utilizando a API do Spark para Python, para realizar a análise exploratória de um
conjunto de dados.
4 Tópicos
3.2 UTILIZANDO PYSPARK
5 Procedimentos de ensino­aprendizagem
A partir de atividades de programação, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: Algumas das principais aplicações do PySpark é no desenvolvimento de soluções
de ciência de dados e aprendizado de máquina. Isso ocorre porque o Python possui diversas
bibliotecas voltadas para esse tipo de aplicação e o ambiente do Spark favorece essas aplicações por
causa da eficiência do processamento de grandes volumes de dados. Os alunos deverão realizar as
seguintes atividades em laboratório: conectar­se a um cluster Spark do PySpark e realizar Operações
com Spark DataFrames. 
Metodologia: Após apresentação da situação problema, o professor deverá apresentar os passos
computacionais de ambas as atividades e solicitar aos alunos que as implementem individualmente. O
professor, caso queira, poderá utilizar o notebook Jupyter ou o Google Colab com os alunos.
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema, verificando a implementação de ambas as atividades por parte dos alunos, gerandoum debate sobre o assunto.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​­se o sistema operacional Windows e a
instalação dos programas ferramenta notebook Jupyter, Pyspark, Java (versão 8 ou superior) e
Hadoop.
7 Leitura específica
RELVAS, C. Apache Spark. IME/USP, 2015. Disponível: <
https://www.ime.usp.br/~gold/cursos/2015/MAC5742/reports/ApacheSpark.pdf>. Acesso em:
20/01/2022.
Tutorial Pyspark e MLlib. CETAX, 2022. Disponível: < https://www.cetax.com.br/blog/tutorial­
pyspark­e­mllib/>. Acesso em: 20/01/2022.
8 Aprenda +
Complemente os estudos com os seguintes vídeos:
PySpark ­ Utilizando SPARK e Python para analisar dados: https://www.youtube.com/watch?
v=WpIDLm9ow2o
Processando dados com Spark na Prática ­ Parte 1: https://www.youtube.com/watch?
v=EMACjF6eCU4
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Enquanto o Hadoop armazena os resultados intermediários do processamento em disco, o Spark
armazena os resultados intermediários na _____________ . Esse é basicamente o grande diferencial
do Spark. Qual opção preenche corretamente a lacuna?
A) Hardware
B) Aplicação
C) Sistema Operacional
D) Memória
E) Navegador
Questão ­ 2
O Spark foi projetado a partir do bottom­up para o desempenho, ele pode ser _______________ do
que o Hadoop para o processamento de dados em grande escala. Ele também é rápido quando os
dados são armazenados no disco e atualmente detém o recorde mundial de grande escala de
classificação no disco.Qual opção preenche corretamente a lacuna?
A) 105x mais rápido
B) 110x mais rápido
C) 150x mais rápido
D) 200x mais rápido
E) 100x mais rápido
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 9: Tema ­ 3. PRINCÍPIOS DE DESENVOLVIMENTO COM PYSPARK
3 Objetivos
Aplicar operações de MapReduce e de transformações, utilizando o PySpark, para processamento de
grandes conjuntos de dados de forma distribuída em várias máquinas.
4 Tópicos
3.3 OPERAÇÕES DE MAPREDUCE COM PYSPARK
3.4 TRANSFORMAÇÕES COM PYSPARK
5 Procedimentos de ensino­aprendizagem
A partir de atividades de programação, será estimulada a participação dos alunos para, posteriormente,
ocorrer a etapa de preleção do docente. O início da aula ocorrerá a partir da seguinte situação
problema:
Situação Problema: O MapReduce foi desenvolvido como uma forma de processar grandes volumes
de dados distribuindo o processamento em muitas máquinas para que seja processado em um tempo
hábil. A distribuição facilita o processamento paralelo dos dados é a mesma função é aplicada em
todas as maquinas. Por sua vez, as transformações do Spark permitem transformar um conjunto de
dados de entrada no conjunto que queremos obter, portanto, a transformação cria um conjunto de
dados a partir de um existente. O professor deverá disponibilizar, a seu critério, um primeiro caso para
implementação de MapReduce com o PySpark, e um segundo, de transformação.
Metodologia: Após apresentação da situação problema, o professor deverá apresentar os passos
computacionais dos referidos casos e solicitar aos alunos que os implementem individualmente,
utilizando PySpark. O professor, caso queira, poderá utilizar o Google Colab com os alunos ou o
notebook Jupyter.
Atividade verificadora de aprendizagem: Ao terminar essa dinâmica, o professor deverá retomar a
situação problema, verificando a implementação dos casos por parte dos alunos, gerando um debate
sobre o assunto.
6 Recursos didáticos
Laboratório de Programação equipado com quadro branco, projetor multimídia, sinal de internet para
acesso ao acervo bibliográfico no ambiente virtual. Sugere​se o sistema operacional Windows e a
instalação dos programas ferramenta notebook Jupyter, PySpark, Java (versão 8 ou superior) e
Hadoop.
7 Leitura específica
ANDRADE, T. MapReduce ­ Conceitos e Aplicações. Instituto de Computação/Unicamp, 2012.
Disponível: <
https://www.ic.unicamp.br/~cortes/mo601/trabalho_mo601/tiago_cruz_map_reduce/relatorio.pdf>.
Acesso em: 20/01/2022.
GOLDMAN, A et al. Apache Hadoop: conceitos teóricos e práticos,evolução e novas possibilidades.
IME/USP, 2012. Disponível: < https://www.ime.usp.br/~ipolato/JAI2012­Hadoop.pdf>. Acesso em:
20/01/2022.
8 Aprenda +
Complemente os estudos com os seguintes vídeos:
Hadoop ­ Introdução ao map­reduce: https://www.youtube.com/watch?v=mpCMUkf6WSQ
PySpark ­ Utilizando SPARK e Python para analisar dados: https://www.youtube.com/watch?
v=WpIDLm9ow2o
Atividade Autônoma Aura
Olá, seja bem­vindo! Sabemos que você quer aprender mais, por isso, selecionamos duas questões que
revisitam o tema/tópico ministrado nesta aula. Você deve resolvê­las, completando, assim, sua jornada
de aprendizagem do dia.
Questão ­ 1
Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma
plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no
MapReduce e no GoogleFS. Esta plataforma é o(a):
A) Yam Common
B) GoogleCrush
C) EMRx
D) Hadoop
E) MapFix.
Questão ­ 2
Apache Spark é o principal mecanismo de análise unificado para tratamentos de grande massa de
dados Big Data e de aprendizagem de máquina, usado em muitas empresas no mundo, um dos fatores
norteadores é o uso de memória na sua otimização e rapidez nos resultados. O seu antecessor Hadoop
não ficou ultrapassado e podemos usar em determinadas funcionalidades.
PySpark foi lançado com o intuito de fornecer a colaboração entre o Apache Spark e Python, onde
fora desenvolvido uma API Python para Spark, formando o nome de PySpark. Apache Spark é um
ambiente de processamento analítico para aplicações de processamento de dados ____________ em
larga escala e _________________.Qual opção preenche corretamente as lacunas?
A) Distribuído e Aprendizagem de Máquina
B) Aglomerado e Aprendizagem de Máquina
C) Acoplado e Aprendizagem de Máquina
D) Distribuído e Inteligência Artificial.
E) Homogêneo e Linguagem de Máquina
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 10: Tema ­ 4. ANÁLISE DE DADOS EM PYTHON COM PANDAS
3 Objetivos
Apresentar a biblioteca Pandas, utilizando a linguagem Python, para manipulação e análise de dados.
4 Tópicos
4.1 COMPONENTES E SINTAXE DO PANDAS
5 Procedimentos de ensino­aprendizagem
A partir de uma pergunta norteadora, será estimulada a participação dos alunos para, posteriormente,
Plano de Aula
1 Código e nome da disciplina
ARA0168 TÓPICOS DE BIG DATA EM PYTHON
2 Semana/Tema
Semana 1: Tema ­ 1. PRINCÍPIOS DE BIG DATA
3 Objetivos
Desenvolver os princípios de Big Data, apresentando o histórico e a evolução da importância do
tratamento de grande massa de dados, para aplicações de BIG DATA.
4 Tópicos
1.1 INTRODUÇÃO E APLICAÇÕES AO BIG DATA
5 Procedimentos de ensino­aprendizagem
Nesta primeira aula, a partir de uma pergunta geradora, será estimulada a participação dos alunos para,
posteriormente, ocorrer a etapa de preleção do docente. Recomenda­se que no início da aula seja
apresentada a ementa da disciplina, bem como seus temas de aprendizagem, as metodologias previstas
e as referências bibliográficas indicadas no plano de ensino. Além dessas informações, é importante
que o professor informe aos alunos que todo o material comtemplado nessa disciplina estará disponível
também na plataforma digital da IES. Isso permitirá que os alunos acessem e estudem através
conteúdo digital em momentos distintos (antes, durante e depois das aulas), o que poderá contribuir
para melhor desenvolvimento do processo de aprendizagem. Após apresentação dessas informações
fundamentais, sugere­se a seguinte situação problema:
Situação Problema: Nos dias atuais as

Outros materiais