Buscar

Aplicação de Big Data em Cloud

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 274 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 274 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 274 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Indaial – 2021
AplicAção de Big dAtA 
em cloud
Prof. Airan Arine Possamai 
Profª. Cláudia Neli de Souza Zambon
Profª. Danice Betânia de Almeida
Prof. Eliomar Russi
Prof. Marcio Poffo
Prof. Nader Ghoddosi
Profª. Neli Miglioli Sabadin
Prof. Pedro Sidnei Zanchett
Profª. Simone Erbs da Costa
1a Edição
Copyright © UNIASSELVI 2020
Elaboração:
Prof. Airan Arine Possamai 
Profª. Cláudia Neli de Souza Zambon
Profª. Danice Betânia de Almeida
Prof. Eliomar Russi
Prof. Marcio Poffo
Prof. Nader Ghoddosi
Profª. Neli Miglioli Sabadin
Prof. Pedro Sidnei Zanchett
Profª. Simone Erbs da Costa
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri 
UNIASSELVI – Indaial.
Impresso por:
P856a
 Possamai, Airan Arine
 Aplicação de big data em cloud. / Airan Arine Possamai et al. – Indaial: 
UNIASSELVI, 2021.
 274 p.; il.
 ISBN 978-65-5663-648-1
 ISBN Digital 978-65-5663-647-4
1. Cloud Computing. – Brasil. I. Centro Universitário Leonardo Da Vinci.
CDD 006.78
ApresentAção
Caro acadêmico! Estamos iniciando o estudo da disciplina Aplicação 
de Big Data em Cloud. Esta disciplina objetiva proporcionar uma imersão 
de conceitos sobre Cloud Computing, tendo em vista sua aplicação nas 
mais diversas plataformas do mercado, sua compreensão irá lhe tornar um 
profissional dinâmico com conhecimento nas tecnologias de computação em 
nuvem mais utilizadas no mundo.
Este livro conta com exemplos de diversas plataformas em nuvem, 
bem como seus recursos, para melhor aproveitamento e para obter mais 
conhecimento, recomendamos que sempre acesse as plataformas para 
conhecer mais sobre elas.
Neste contexto, o livro didárico de Aplicação de Big Data em Cloud 
está dividido em três unidades de estudo. Na Unidade 1, você terá uma visão 
geral de aplicações de Big Data em Cloud Computing e seus recursos. Já nas 
Unidade 2 e Unidade 3, vamos aprofundar nossos estudos nas principais 
ferramentas de computação em nuvem do mercado. 
Aproveitamos a oportunidade para destacar a importância de 
desenvolver as autoatividades, lembrando que essas atividades não são 
opcionais. Elas objetivam a fixação dos conceitos apresentados. Em caso de 
dúvida na realização das atividades, sugerimos que você entre em contato 
com seu tutor externo ou com a tutoria da UNIASSELVI, não prosseguindo 
as atividades sem ter sanado todas as dúvidas que irão surgindo. 
Bom estudo! Sucesso na sua trajetória acadêmica e profissional!
Prof. Airan Arine Possamai 
Profª. Cláudia Neli de Souza Zambon
Profª. Danice Betânia de Almeida
Prof. Eliomar Russi
Prof. Marcio Poffo
Prof. Nader Ghoddosi
Profª. Neli Miglioli Sabadin
Prof. Pedro Sidnei Zanchett
Profª. Simone Erbs da Costa
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para 
você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi-
dades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é 
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um 
formato mais prático, que cabe na bolsa e facilita a leitura. 
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra-
mação no texto, aproveitando ao máximo o espaço da página, o que também contribui 
para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, 
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilida-
de de estudá-lo com versatilidade nas telas do celular, tablet ou computador. 
 
Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para 
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assun-
to em questão. 
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas 
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa 
continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de 
Desempenho de Estudantes – ENADE. 
 
Bons estudos!
NOTA
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela 
um novo conhecimento. 
Com o objetivo de enriquecer seu conhecimento, construímos, além do livro 
que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você 
terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen-
tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
LEMBRETE
sumário
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING ............................... 1
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING ................................... 3
1 INTRODUÇÃO .................................................................................................................................... 3
2 COMPONENTES ................................................................................................................................. 6
2.1 ARMAZENAMENTO .................................................................................................................... 7
2.2 TRANSMISSÃO .............................................................................................................................. 9
2.3 COLETA DE DADOS ................................................................................................................... 10
2.4 PROCESSAMENTO ..................................................................................................................... 11
2.5 ANÁLISE DE DADOS .................................................................................................................. 12
2.6. VISUALIZAÇÃO E SAÍDA DE DADOS .................................................................................. 14
2.7 INTEGRAÇÕES............................................................................................................................. 16
2.8. QUALIDADE DA APLICAÇÃO ............................................................................................... 18
RESUMO DO TÓPICO 1..................................................................................................................... 20
AUTOATIVIDADE .............................................................................................................................. 22
TÓPICO 2 — DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD ..................... 25
1 INTRODUÇÃO .................................................................................................................................. 25
2 FORNECER RECURSOS SOB DEMANDA ................................................................................. 25
3 ESCALABILIDADE E ELASTICIDADE ....................................................................................... 27
3.1 ESCALABILIDADE VERTICAL E HORIZONTAL ................................................................. 29
4 LOCALIDADE DOS DADOS ......................................................................................................... 30
4.1 NUVEM PÚBLICA ....................................................................................................................... 32
4.2 NUVEM PRIVADA ....................................................................................................................... 33
4.3 NUVEM HÍBRIDA........................................................................................................................ 34
4.4 MULTICLOUD ..............................................................................................................................36
4.5 DIFERENÇA ENTRE A MULTICLOUD E A NUVEM HÍBRIDA? ....................................... 36
5 DIVERSIDADE E INTEROPERABILIDADE .............................................................................. 37
6 MÍDIAS SOCIAIS ............................................................................................................................ 38
7 USABILIDADE................................................................................................................................... 40
RESUMO DO TÓPICO 2..................................................................................................................... 42
AUTOATIVIDADE .............................................................................................................................. 43
TÓPICO 3 — SEGURANÇA DA INFORMAÇÃO PARA CLOUD COMPUTING E BIG 
DATA ....................................................................................................................................................... 45
1 INTRODUÇÃO .................................................................................................................................. 45
2 CONCEITOS BÁSICOS DE SEGURANÇA DA INFORMAÇÃO .......................................... 46
3 REQUISITOS DE SEGURANÇA .................................................................................................. 49
4 AMEAÇAS CRESCENTES ............................................................................................................... 51
5 SISTEMAS DE DETECÇÃO DE INTRUSÃO ............................................................................ 54
LEITURA COMPLEMENTAR ............................................................................................................ 57
RESUMO DO TÓPICO 3..................................................................................................................... 62
AUTOATIVIDADE .............................................................................................................................. 64
REFERÊNCIAS ...................................................................................................................................... 67
UNIDADE 2 — APLICAÇÃO DE CLOUD COMPUTING E BIG DATA.................................. 73
TÓPICO 1 — AMAZON AWS ............................................................................................................ 75
1 INTRODUÇÃO .................................................................................................................................. 75
2 CONCEITO DE AMAZON WEB SERVICES (AWS) .................................................................. 76
2.1 PRINCIPAIS VANTAGENS DA AWS ........................................................................................ 78
2.2 ARQUITETURA E SUAS VANTAGENS .................................................................................. 80
3 PRINCIPAIS RECURSOS DA AWS .............................................................................................. 81
3.1 ELASTIC COMPUTE CLOUD – EC2 ........................................................................................ 81
3.2 SIMPLE STORAGE SERVICE – S3 ............................................................................................. 84
3.3 AWS ELASTIC BEANSTALK ...................................................................................................... 85
3.4 AWS AUTO SCALING ................................................................................................................. 87
3.5 AWS LAMBDA .............................................................................................................................. 88
3.5.1 Processamento de dados ..................................................................................................... 89
3.5.2 Processamento de arquivos em tempo real ..................................................................... 89
3.5.3 Processamento de stream em tempo real ......................................................................... 89
3.5.4 Machine learning ................................................................................................................. 90
3.5.5 Back-ends .............................................................................................................................. 90
4 SERVIÇOS DE BIG DATA E PROCESSAMENTO ..................................................................... 91
4.1 AMAZON EMR............................................................................................................................. 91
4.2 AMAZON REDSHIFT .................................................................................................................. 92
4.3 AMAZON KINESIS ...................................................................................................................... 93
5 RECURSOS DE MACHINE LEARNING ..................................................................................... 94
5.1 AMAZON EMR............................................................................................................................. 94
5.1.1 Apache Spark MLlib ............................................................................................................ 94
5.1.2 TensorFlow ........................................................................................................................... 95
5.1.3 Apache MXNet ..................................................................................................................... 96
5.2 AMAZON KINESIS VIDEO STREAMS .................................................................................... 96
5.3 AMAZON REKOGNITION VIDEO .......................................................................................... 97
6 DEPLOY DE APLICAÇÕES ............................................................................................................. 98
RESUMO DO TÓPICO 1................................................................................................................... 100
AUTOATIVIDADE ............................................................................................................................ 102
TÓPICO 2 — MICROSOFT AZURE ............................................................................................... 105
1 INTRODUÇÃO ................................................................................................................................ 105
2 PRINCIPAIS RECURSOS E SERVIÇOS ..................................................................................... 107
2.1 MODELOS DE SERVIÇO .......................................................................................................... 107
2.1.1 Azure IaaS (Infrastructure as a Service)............................................................................. 108
2.1.2 Azure PaaS (Platform as a Service) .................................................................................... 109
2.1.3 Azure SaaS (Software as a Service) ..................................................................................... 110
2.2 TIPOS DE SERVIÇO ................................................................................................................... 111
3 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO ......................................................... 113
4 RECURSOS DE MACHINE LEARNING .................................................................................. 119
5 RECURSOS DEPLOY DE APLICAÇÕES .................................................................................. 121
RESUMO DO TÓPICO 2................................................................................................................... 123
AUTOATIVIDADE ............................................................................................................................ 124
TÓPICO 3 — IBM WATSON ............................................................................................................127
1 INTRODUÇÃO ................................................................................................................................ 127
2 PRINCIPAIS RECURSOS .............................................................................................................. 132
2.1 WATSON DISCOVERY .............................................................................................................. 134
2.2 WATSON NATURAL LANGUAGE UNDERSTANDING ................................................... 138
2.3 WATSON KNOWLEDGE STUDIO .......................................................................................... 139
2.4 OUTROS RECURSOS ................................................................................................................ 143
3 RECURSOS DE MACHINE LEARNING ................................................................................... 144
3.1 WATSON ASSISTANT ............................................................................................................... 144
3.2 IBM SPEECH ............................................................................................................................... 146
4 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO .......................................................... 154
4.1. CASOS DE USO PARA IBM ANALYTICS ENGINE ............................................................. 161
4.1.1 Otimizando o processamento para diferentes tipos de cargas de trabalho .............. 161
4.1.2 Simplificando a governança de dados ............................................................................ 162
4.1.3 Reduzindo o custo da recuperação de desastres........................................................... 162
4.1.4 Simplificando os fluxos de trabalho de ciência de dados e aprendizado de máquina ... 163
4.2. PAINÉIS INTERATIVOS NO WATSON STUDIO ................................................................ 163
LEITURA COMPLEMENTAR .......................................................................................................... 182
RESUMO DO TÓPICO 3................................................................................................................... 184
AUTOATIVIDADE ............................................................................................................................ 188
REFERÊNCIAS .................................................................................................................................... 191
UNIDADE 3 — APLICAÇÃO DE CLOUD COMPUTING E BIG DATA................................ 197
TÓPICO 1 — GOOGLE CLOUD ..................................................................................................... 199
1 INTRODUÇÃO ................................................................................................................................ 199
2 O QUE É O GOOGLE CLOUD? .................................................................................................... 200
3 FALANDO SOBRE PROJETOS NO GOOGLE CLOUD ........................................................ 203
3.1 CARACTERÍSTICAS DE UM PROJETO DO GOOGLE CLOUD ........................................ 204
3.2 UTILIZAÇÃO DE RECURSOS NO GOOGLE CLOUD ........................................................ 205
3.3 DISPOSIÇÃO DOS RECURSOS ............................................................................................... 208
4 GOOGLE CLOUD PLATFORM (GCP) ....................................................................................... 209
5 GOOGLE CLOUD PLATFORM, VAMOS À PRÁTICA? ....................................................... 210
5.1 VEJA COMO FUNCIONA O PLANO GRATUITO PARA AVALIAÇÃO ......................... 210
 5.2 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO ................................................... 211
6 RECURSOS DE MACHINE LEARNING ................................................................................... 215
7 DEPLOY DE APLICAÇÕES ........................................................................................................... 218
LEITURA COMPLEMENTAR .......................................................................................................... 220
RESUMO DO TÓPICO 1................................................................................................................... 226
AUTOATIVIDADE ............................................................................................................................ 227
TÓPICO 2 — HEROKU ..................................................................................................................... 229
1 INTRODUÇÃO ............................................................................................................................ 229
2 PRINCIPAIS RECURSOS .......................................................................................................... 231
3 HEROKU DYNOS ........................................................................................................................... 234
4 HEROKU ADD-ON TREASURE DATA ..................................................................................... 235
5 DEPLOY DE APLICAÇÕES ........................................................................................................... 238
RESUMO DO TÓPICO 2................................................................................................................... 240
AUTOATIVIDADE ............................................................................................................................ 241
TÓPICO 3 — DIGITAL OCEAN...................................................................................................... 243
1 INTRODUÇÃO ................................................................................................................................ 243
2 PRINCIPAIS RECURSOS .............................................................................................................. 245
2.1 DROPLETS ................................................................................................................................... 246
2.2 KUBERNETES ............................................................................................................................. 247
2.3 BASES DE DADOS ..................................................................................................................... 248
2.4 ARMAZENAMENTO DE OBJETOS ........................................................................................ 249
2.5 REDE (VPC, FIREWALLS, BALANCEADORES DE CARGA, IPS FLUTUANTES, DNS) .... 250
2.6 FERRAMENTAS DE DESENVOLVIMENTO ......................................................................... 251
3 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO .......................................................... 252
4 RECURSOS DE MACHINE LEARNING ................................................................................... 254
5 DEPLOY DE APLICAÇÕES ........................................................................................................... 256
RESUMO DO TÓPICO 3................................................................................................................... 258
AUTOATIVIDADE ............................................................................................................................ 259
REFERÊNCIAS .................................................................................................................................... 261
1
UNIDADE 1 — 
APLICAÇÃO DO BIG DATA EM 
CLOUD COMPUTING
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• compreender conceitos básicos de Segurança da Informação;
• entender os requisitos de segurança;
•	 identificar	ameaças;
• entender a importância da segurança para cloud e Big Data.
Esta unidade está dividida em três tópicos. No decorrer da unidade, 
você encontrará autoatividades com o objetivode reforçar o conteúdo 
apresentado.
TÓPICO 1 – APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
TÓPICO 2 – DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM 
CLOUD 
TÓPICO 3 – SEGURANÇA DA INFORMAÇÃO PARA CLOUD 
COMPUTING E BIG DATA
Preparado para ampliar seus conhecimentos? Respire e vamos 
em frente! Procure um ambiente que facilite a concentração, assim absorverá 
melhor as informações.
CHAMADA
2
3
TÓPICO 1 — 
UNIDADE 1
APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
1 INTRODUÇÃO
O conceito de Big Data surgiu a partir do momento que as organizações se 
depararam com um volume e complexidade de dados muito grande e precisavam 
realizar	 uma	 análise	 bem	 feita	 sobre	 estes	 dados,	 a	 fim	de	 obter	 resposta	 que	
permitam a geração de insights e tomadas de decisão sólidas tornando as 
organizações cada vez mais competitivas.
Com Big Data, as organizações podem processar e armazenar grandes 
conjuntos de dados disponíveis, tanto local quanto na computação em nuvem. 
Big Data e Computação em Nuvem são dois conceitos que funcionam de maneira 
interdependente, bem como integrados e estão transformando a forma de 
negócios desempenharem suas funções. 
Utilizamos diariamente a Computação em Nuvem sem perceber através 
de serviços on-line para enviar e-mail, assistir vídeos e jogar entre outras variadas 
possibilidades também a de armazenar e editar arquivos on-line. A oferta da 
tecnologia e dos serviços de Computação em Nuvem são recentes pelos Cloud 
Providers. Somente na última década que começou a ser adotada e explorada com 
Big Data, pois, a Computação em Nuvem organiza toda a parte de armazenamento 
de	dados	deixando-os	acessíveis	e	simplificando	a	rotina	para	trabalhar	com	um	
grande volume de dados.
Vale destacar que essa quantidade de informações oriunda de fontes 
diversificadas	conhecida	como	Big	Data,	representam	um	grande	volume	de	dados	
– tanto estruturados quanto não estruturados que sobrecarrega as organizações 
diariamente. Faz parte da contextualização de Big Data abordar 3 Vs, que é a (1) 
“Velocidade” que trata da rapidez que novos dados chegam ao repositório de 
dados, o (2) “Volume” que aborda a quantidade de dados que são recebidos para 
armazenamento regularmente e a (3) “Variedade” que trata da diversidade de 
informações e fontes distintas. Dados oriundos de forma estruturada e/ou não 
estruturada. Além desses 3 Vs, não podemos esquecer de considerar em Big Data 
outros	2	Vs,	a	“Veracidade”	para	obter	a	confiabilidade	dos	dados	e	o	“Valor”	a	
fim	de	saber	a	utilidade	dos	dados.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
4
Você sabe o que é Big Data? Sugerimos um vídeo bem explicativo do Olhar 
Digital sobre o Big Data. Vale a pena assistir. Acesse o link: https://youtu.be/BZ8HrHFjSU0.
INTERESSA
NTE
A Computação em Nuvem (Cloud Computing) é a “entrega de serviços” 
de computação por servidores, armazenamento, bancos de dados, redes, 
software, análises – através da internet (a nuvem), entre outros. As organizações 
que oferecem esses serviços de computação são chamadas de Cloud Providers e, 
normalmente, cobram por serviços de Computação em Nuvem com base no uso, 
de maneira semelhante à forma como você é cobrado por água ou eletricidade na 
sua casa (DATA SCIENCE ACADEMY, 2020). 
FONTE: Ruschel, Zanotto e Mota (2010, p. 2)
FIGURA 1 – VISÃO GERAL DE UMA NUVEM COMPUTACIONAL
Quando falamos de Computação em Nuvem, automaticamente falamos 
também de Big Data, pois da mesma forma como houve um crescimento acelerado 
da Computação em Nuvem, houve uma explosão na geração de dados, ou seja, 
nos últimos anos o crescimento de volume de dados está sendo exponencial e 
constante. Portanto, Data Science Academy (2020) destaca que Computação em 
Nuvem e Big Data são uma combinação ideal, pois, juntos, eles fornecem uma 
solução que é escalável e adaptável para grandes conjuntos de dados e análise 
de negócios. A vantagem da análise seria um grande benefício. Imagine todos os 
recursos de dados tornando-se facilmente acessíveis e com custo reduzido para 
a organização.
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
5
Ainda, de acordo com o que enfatiza Data Science Academy (2020), o 
aumento da Computação em Nuvem tem sido um precursor e facilitador para o 
surgimento de Big Data. 
Embora Big Data traga muitas oportunidades atraentes, as organizações 
também	 enfrentam	 muitos	 desafios,	 entre	 eles	 a	 da	 coleta	 dos	 dados,	
armazenamento, pesquisa, compartilhamento, análise e visualização dos dados. 
Cada uma dessas tarefas requer diferentes abordagens, diferentes níveis de 
segurança,	infraestrutura	e	profissionais	capacitados.	
Nos últimos anos, um grande número de técnicas e tecnologias de Big 
Data se desenvolveram para superar todos esses obstáculos de coletar, armazenar, 
pesquisar,	 compartilhar,	 analisar	 e	 visualizar	 os	 dados.	 Enfim,	 a	 Computação	
em Nuvem tem sido o suporte necessário para o crescimento na adoção de uma 
cultura data driven que permita às organizações extraírem do Big Data os insights 
necessários para a tomada de decisão mais consciente. Portanto, para essa mesma 
fonte existem muitas oportunidades e benefícios na adoção de Computação em 
Nuvem para projetos de Big Data. Vejamos alguns deles, conforme Data Science 
Academy (2020, s.p.):
• Redução de custo com infraestrutura de TI para armazenamento de 
grandes conjuntos de dados.
• Redução no custo com licença e manutenção de software.
• Dados acessíveis de qualquer localidade.
• Acesso à infraestrutura de ponta usada pelos Cloud Providers.
• Segurança dos dados normalmente maior do que na rede 
corporativa.
• Não é necessário se preocupar com detalhes de engenharia de um 
data	center,	como	luz,	energia,	resfriamento	etc.	(isso	fica	a	cargo	do	
Cloud Provider).
• Escalabilidade com rápida expansão da infraestrutura para 
acomodar um novo projeto.
• Capacidade de dimensionamento elástico.
• Foco maior na análise de dados, ao invés de foco no armazenamento.
• Redução nos custos de backup de dados.
• Recuperação de desastre e continuidade dos negócios.
Segundo CentralServer (2020, s.p.), a Computação em Nuvem “tem, pelo 
menos, cinco propriedades que são essenciais para uma aplicação efetiva do Big 
Data”:
1. Estrutura sob demanda: a contratação de uma infraestrutura em 
nuvem é feita na medida para as necessidades do negócio. Assim, 
o espaço em disco, a capacidade de processamento, a velocidade 
e a capacidade de transferência de dados podem ser selecionados 
tendo como referência os softwares utilizados, as quantidades de 
transações e as informações processadas.
2. Ubiquidade: ao armazenar os dados na nuvem, eles podem ser 
acessados e coletados de qualquer lugar com acesso à internet e por 
meio dos mais diversos dispositivos.
3. Escalabilidade: na medida em que a quantidade de informações 
armazenadas cresce, assim como a demanda por capacidade de 
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
6
processamento – o que acontece continuamente e com rapidez para 
as análises relacionadas ao Big Data –, mais recursos físicos ou 
virtuais usados na nuvem podem ser facilmente alocados. Alguns 
fornecedores de nuvem disponibilizam um painel de autosserviço 
em que se pode contratar mais espaço, disco e memória, aumentando 
a capacidade de processamento de forma simples e rápida.
4. Elasticidade: Os recursos computacionais são alterados de forma 
transparente para os usuários dos serviços, sem interromper o uso 
ou o processamento de informações. Assim, caso seja necessário 
atender a demandas pontuais, pode-se fazê-lo apenas para 
aquela	 necessidade	 e	 retornar	 para	 as	 especificações	 necessárias	
anteriormente, sem stress para os usuários e sem interrupções na 
produção.
5. Monitoramento e medição: Por meio de uma plataforma web ou um 
aplicativo móvel, pode-se acompanhar a quantidade de recursos 
utilizados, a performance dos equipamentos e a quantidade 
utilizada em relação à capacidade contratada. Assim, evitam-se 
falhas a partir da facilidadepara gestão e da alocação de recursos, 
quando necessário (CENTRALSERVER, 2020, s.p).
A implementação de Big Data e Computação em Nuvem é estratégico 
para as organizações. Possibilita-as a começarem a criar um ecossistema 
tecnológico, que vai não só apenas automatizar uma série de atividades, como 
evitar problemas de perda de dados e informações, além de trazer um cenário 
mais estabelecido de quais são as regras de negócio que estão funcionando ou 
não (ONLINE DATA CLOUD, 2020). Isso resultará numa operação dirigida a 
dados, na qual a partir desses dados se adquira a inteligência necessária para 
entender cada comportamento e planejar melhorias, adaptações e soluções 
preditivas e prescritivas que contribuirão para a sua empresa avançar na jornada 
da transformação digital, de maneira mais estratégica e assertiva.
2 COMPONENTES 
Big Data faz parte dos cenários da maioria das organizações, mas no 
começo era difícil iniciar projetos de Big Data sem grandes investimentos, por 
exemplo, em infraestrutura como data centers, software, equipe e infraestrutura 
predial, a partir da Computação em Nuvem esse cenário mudou, e agora as 
organizações podem aproveitar o Big Data sem ter que investir maciçamente com 
instalação, armazenamento, processamento, integração e transmissão de seus 
dados. 
Colaborando com este contexto, vale apresentar que, segundo Microsoft 
(2019), a maioria das arquiteturas de Big Data inclui alguns ou todos os seguintes 
componentes: fontes de dados, armazenamento de dados, processamento em lote, 
ingestão	de	mensagens	em	tempo	real,	processamento	de	fluxo,	armazenamento	
de dados analíticos, análise e relatório, orquestração. Todos esses itens se 
conversam	e	definem	os	componentes	de	Big	Data	em	Computação	em	Nuvem.		
Neste subtópico do Tópico 1, abordaremos os oito componentes que envolvem 
este cenário de Big Data em Computação em Nuvem: armazenamento, 
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
7
transmissão, gestão de dados, processamento, análise, visualização, integrações 
e a qualidade da aplicação.	Enfim,	esses	componentes	são	importantes	e	devem	
ser considerados em um projeto de Big Data.
 
2.1 ARMAZENAMENTO 
 
O componente de armazenamento é responsável por “manter” os 
dados coletados pela organização. Segundo Data Science Academy (2017), à 
medida que o volume dos dados gerados aumenta e necessita ser armazenado 
pelas	 organizações,	 sistemas	 e	 ferramentas	 sofisticadas	 e	 acessíveis	 vão	 sendo	
desenvolvidas para ajudá-lo nessa tarefa. As principais opções de armazenamento 
incluem: um Data Warehouse tradicional, um Data Lake, um sistema de 
armazenamento distribuído / baseado em nuvem, um servidor ou até mesmo um 
disco rígido de computador.
Hoje em dia, os discos rígidos tradicionais são baratos e grandes em 
capacidade de armazenamento e isso pode ser muito útil e ainda serve para 
pequenas organizações. De acordo com Data Science Academy (2017), quando 
começa a processar grandes quantidades de dados para armazenamento e análise 
ou quando os dados começam a se tornar uma parte fundamental do negócio, 
um sistema distribuído mais complexo (geralmente baseado em computação 
em nuvem) como o Hadoop pode ser a escolha ideal. Não há dúvida de que o 
armazenamento baseado em nuvem é uma escolha excelente para a maioria das 
empresas.	É	muito	flexível,	não	precisa	usar	um	sistema	físico,	reduzindo,	assim,	
a preocupação com a segurança dos dados. Além de ser bem mais barato do que 
investir em sistemas dedicados de armazenamento de dados.
Segundo Poderoso (2014a), o momento tecnológico que vivemos permitiu 
estabelecer formas de armazenar dados não estruturados. Armazenar e recuperar 
dados não estruturados exige uma forma diferenciada em relação ao que tem sido 
feito até então. Um novo padrão de banco de dados foi criado para isto. Eles são 
chamados de NoSQL (Not Only SQL). E os bons e velhos arquivos texto, imagens, 
voz etc. que são armazenados diretamente no sistema operacional voltam a fazer 
parte do contexto da análise de dados. No entanto, Poderoso (2014a) continua 
a explicar que os bancos de dados padrão SQL são amplamente conhecidos no 
mundo corporativo. 
Bancos de dados padrão SQL facilitaram muito o acesso e disponibilização 
dos dados nas organizações. Foram criados para lidar com dados estruturados, 
e quando se fala em dados estruturados, o que se quer dizer é que o dado estará 
formatado para trabalhar com um padrão baseado em linhas e colunas, com uma 
sintaxe robusta e uma modelagem consistente. Como informado anteriormente, 
para manipulação de dados não estruturados, utiliza-se, muitas vezes, o próprio 
sistema de arquivos (Linux e MS Windows, por exemplo).
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
8
Para Poderoso (2014a, s.p.) os principais componentes desta arquitetura 
são (mas não se limitam a):
• Hadoop: plataforma para armazenamento e processamento de 
um grande volume de dados utilizando hardware simples e que 
normalmente utilizam clusters para agilizar o acesso e manipulação 
dos dados.
• MapReduce: modelo de programação paralela, escalável e que 
permite a utilização de hardware simples para realizar trabalhos 
complexos.
• NoSQL: banco de dados que permite armazenar e recuperar dados 
com menos restrições do que os bancos de dados relacionais. Possui 
uma modelagem mais simples e permite aumentar a escalabilidade 
e disponibilidade do ambiente.
• SQL: bancos de dados tradicionais que armazenam a maior parte 
dos dados estruturados nas organizações. Os dados normalmente 
têm origem em sistemas ERP, SCM (Supply Chain), CRM etc.
• DW: o Data Warehouse é um banco de dados apartado do banco de 
dados dos sistemas transacionais que são modelados para facilitar a 
análise de dados para a tomada de decisão.
Segundo Poderoso (2014b, s.p.), “o armazenamento envolve questões que 
nascem	em	uma	plataforma	distribuída,	passa	pelos	bancos	específi	cos	(NoSQL)	
e terminam em um ambiente de tomada de decisão” (representado pelo SQL 
e Data Warehouse no mapa da Figura 2). Poderoso (2014b) não considera um 
grande problema e enfatiza que, atualmente, há ferramentas que atendem com 
relativa facilidade esta questão.
FONTE: Pedroso (2014b, s.p.)
FIGURA 2 – PRINCIPAIS COMPONENTES DE UMA ARQUITETURA DE BIG DATA
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
9
Segundo Microsoft (2019), armazenamento de dados (que são os dados 
de operações de processamento em lote) normalmente são armazenados em um 
repositório de arquivos distribuído que pode conter amplos volumes de arquivos 
grandes em vários formatos. Esse tipo de repositório geralmente é chamado Data 
Lake. As opções para implementar esse armazenamento incluem contêineres de 
blobs ou Azure Data Lake Store no Armazenamento do Azure.
Pode-se citar como exemplo de ferramenta de armazenamento de arquivos 
que faz uso de computação em nuvem o Dropbox. Ele mantém um conjunto de 
servidores ligados em rede com ambiente controlado. Com o Dropbox instalado 
em nossos computadores (máquina do cliente), toda vez que alteramos um 
documento o salvamento é feito automaticamente e de forma instantânea para o 
servidor na nuvem.
2.2 TRANSMISSÃO 
A computação em nuvem executa aplicativos ou fornece conteúdo e 
serviços por meio de transmissão on-line, em que, ao invés de acessar dados 
e arquivos de um computador local ou físico, podem ser acessados on-line de 
qualquer dispositivo que tenha acesso à internet e transmitido a qualquer hora, 
em qualquer lugar.
A etapa de transmissão de dados permite que os dados possam chegar 
nos sistemas da organização a partir de uma rede de dispositivos conectados. 
Utilizando recursos tecnológicos como Internet of Things, Big Data e Cloud 
Computing, os organizadores terão a capacidade de transmitir e dar acesso a um 
incrível volume de informação. Segundo Informatica (2018), cada vez mais dados 
estão se movendo para a nuvem como uma plataforma econômica, escalonável e 
ágil para armazenar, processare gerenciar dados de transmissão em tempo real 
tornando fácil de coletar, entregar e processar grandes quantidades de dados em 
tempo	real	de	modo	eficaz.	
Segundo Baldissera (2018), a fase de transmissão de Computação em 
Nuvem inclui mecanismos para entregar os dados coletados para aplicações e 
para diferentes servidores externos. Por conseguinte, são necessários métodos 
para acessar a rede por meio de gateways e tecnologias heterogêneas (por 
exemplo,	com	fio,	sem	fio,	satélite).	Tais	elementos	são	utilizados	no	processo	de	
tratamento e envio dos dados coletados a serem transmitidos.
Na Computação em Nuvem as redes de computadores são transmitidas 
e interligadas por milhares de computadores independentes através de redes 
mais pequenas utilizadas em nossas residências (local area network – LANs) e 
redes	 com	vasta	 área	 geográfica	 (Wide	Area	Network	 –	WANs)	 onde	 buscam	
constantemente	que	a	transmissão	de	dados	seja	feita	de	forma	segura,	eficiente	
e com menor custos.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
10
Na IaaS (Infrastructure as a Service – Infraestrutura como Serviço) e 
na PaaS (Platform as a Service – Plataforma como Serviço), os mecanismos de 
transmissão costumam ser controlados pelo cliente, enquanto a tecnologia 
subjacente é gerenciada pelo provedor; entretanto, isso dependerá das tecnologias 
em uso. Os controles para evitar a transmissão não intencional de dados fora 
do ambiente do cliente geralmente são mantidos pelo provedor, dependendo do 
serviço	específico.	O	cliente	deve	estar	ciente	de	como	os	dados	são	transmitidos	
entre os componentes para garantir que os dados sejam criptografados para todas 
as transmissões em canais não privados. Isso pode incluir transmissões dentro do 
próprio ambiente do cliente (por exemplo, entre VMs do cliente) (PCI SECURITY 
STANDARDS COUNCIL, 2018).
Explica ainda o autor que no SaaS (Software as a service – Software como 
serviço), o provedor retém o controle total sobre os mecanismos de transmissão. 
O cliente tem pouco ou nenhum controle sobre como ou onde os dados são 
transmitidos dentro do ambiente de nuvem. O cliente é responsável por garantir 
que os dados “clear-text” não sejam passados ao provedor para transmissão para 
redes	públicas	ou	ambientes	não	 confiáveis	 (como	outros	 clientes	 em	nuvem),	
(PCI SECURITY STANDARDS COUNCIL, 2018).
Segundo a 19ª edição da Pesquisa Global de Entretenimento e Mídia 
2018-2022, feita pela PwC, até 2021 o mercado de mídia e entretenimento 
deve gerar US$ 2,23 trilhões, um crescimento de 4,2% ao ano. Esse 
incremento de faturamento é impulsionado por mudanças no modo 
de gestão, transmissão e, principalmente, consumo de mídia. O 
aumento	do	número	de	acessos	à	internet	e	o	consequente	refinamento	
da qualidade das redes de transmissão fará com que nossa relação 
com a web se torne ainda mais importante (SCHLEMPER, 2018, s.p).
2.3 COLETA DE DADOS 
 
Os dados das organizações estão em constante manipulação e, muitas 
vezes, ao se criar novos dados é necessário novos investimentos em infraestrutura. 
Data Science Academy (2017) reforça que os requisitos de infraestrutura para a 
captura ou coletar dados dependem do tipo de dado que será necessário, mas 
as principais opções podem incluir: sensores (que podem ser instalados em 
dispositivos, máquinas, edifícios ou em veículos, embalagens ou qualquer outro 
lugar de onde você gostaria de capturar dados), aplicativos que geram dados de 
usuários (por exemplo, uma app para celular que permite que os clientes façam 
pedidos mais facilmente), vídeo de circuito fechado de TV (CCTV), beacons (como 
iBeacons da Apple, que permitem capturar e transmitir dados para telefones 
celulares), mudanças em seu site que levam os clientes a obter mais informações 
e	os	perfis	de	redes	sociais	(DATA	SCIENCE	ACADEMY,	2017).
 A primeira etapa de Big Data ocorre uma coleta de dados para 
armazenamento, por exemplo, os dados podem ser coletados no e-commerce em 
cloud quando o usuário clicar em anúncios, login do usuário no site, ao obter 
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
11
o endereço de IP, endereço de e-mail, localização, históricos de buscas ou de 
compras entre outros. Devemos considerar que a etapa de coleta de dados faz 
parte dos objetivos de negócio de uma organização e, conforme Leucotron (2019), 
se a intenção é ganhar conhecimento sobre o comportamento do consumidor a 
fim	de	alimentar	a	equipe	de	marketing,	o	projeto	pode	girar	em	torno	da	coleta	
de	dados	como:	informações	demográficas;	histórico	de	buscas	e	compras;	tipo	de	
dispositivo e sistema operacional e endereço de e-mail. 
Vale lembrar que esse processo deve ser feito de modo transparente e que 
comprove o consentimento da pessoa cujos dados serão reunidos. Essa prática é 
importante para a reputação da marca e evita complicações legais, especialmente 
quando a LGPD entrar em vigor (LEUCOTRON, 2019).
Microsoft (2019) pontua que todas as soluções de Big Data começam 
com uma ou mais fontes de dados, como exemplos podemos incluir: (1) 
Armazenamentos de dados de aplicativo, como bancos de dados relacionais; (2) 
Arquivos estáticos produzidos por aplicativos, como arquivos de log do servidor 
Web; e (3) Fontes de dados em tempo real, como dispositivos IoT.
Para Penuela (2021), a coleta de dados essencial para as tecnologias de 
Big	Data,	embora	extremamente	valorosa,	 também	é	o	grande	desafio	de	 todo	
o processo. Seja ao coletar dados de um único usuário ou ao processar dados 
acumulados de diversas fontes, o grande volume de informação bruta que deve 
ser armazenada e coletada chega à casa dos assustadores quintilhões de bytes. 
2.4 PROCESSAMENTO 
 
A respeito do processamento de Big Data em Computação em Nuvem, 
Microsoft (2019) destaca que, como os conjuntos de dados são muito grandes, 
geralmente uma solução de Big Data deve processar arquivos de dados usando 
trabalhos	 de	 lote	 de	 execução	 longa	 para	 filtrar,	 agregar	 e	 preparar	 os	 dados	
para análise. Normalmente, esses trabalhos envolvem ler arquivos de origem, 
processá-los e gravar a saída para novos arquivos. Neste caso, opções incluem 
executar trabalhos de U-SQL no Azure Data Lake Analytics, usar trabalhos Hive, 
Pig ou de Mapear/Reduzir personalizados em um cluster HDInsight Hadoop ou 
usar programas de Java, Scala ou Python em um cluster HDInsight Spark.
No que abrange ao tema de processamento dos dados a partir das 
soluções de Big Data em Computação em Nuvem, Microsoft (2019, s.p.) vem nos 
apresentar algumas importantes considerações a este respeito:
• Ingestão de mensagens em tempo real: se a solução inclui fontes 
em tempo real, a arquitetura deve incluir uma maneira de capturar 
e armazenar mensagens em tempo real para processamento de 
fluxo.	 Isso	 pode	 ser	 um	 armazenamento	 de	 dados	 simples,	 em	
que as mensagens de entrada são removidas para uma pasta para 
processamento. No entanto, muitas soluções precisam de um 
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
12
repositório	 de	 ingestão	 de	mensagens	 para	 atuar	 como	 buffer	 de	
mensagens e dar suporte a processamento de expansão, entrega 
confiável	 e	 outras	 semânticas	 de	 enfileiramento	 de	 mensagens.	
Opções incluem Hubs de Eventos do Azure, Hubs de IoT do Azure 
e	Kafka.
•	Processamento	de	fluxo:	depois	de	capturar	mensagens	em	tempo	
real,	a	solução	deve	processá-las	filtrando,	agregando	e	preparando	
os	dados	para	análise.	Os	dados	de	fluxo	processados	são	gravados	
em um coletor de saída. O Azure Stream Analytics oferece um serviço 
de	processamento	de	fluxo	gerenciado	baseado	em	consultas	SQL	
em	execução	perpétua	que	operam	em	fluxos	não	associados.	Você	
também pode usar tecnologias de streaming Apache de software 
livre, como Storm e Spark Streaming em um cluster HDInsight.
Para muitos aplicativos, o tempo máximo que leva para processar uma 
solicitação está relacionado ao tempo de execução do Sistema de Gerenciamento 
de Banco de Dados (SGBD) que deve prezarpela sua qualidade ou desempenho. 
Técnicas de provisionamento dinâmico foram projetadas para lidar com cargas 
de trabalho irregulares e evitar violações de nível de acordo de serviço. No que 
diz respeito ao processamento distribuído, Java disponibiliza diversos recursos 
de comunicação entre componentes, tais como: chamadas de funções remotas 
(Sockets e RMI) e integração com os protocolos conhecidos de internet (TCP/IP, 
HTTP, Telnet etc.) (OLIVEIRA; FRAGA; MONTEZ, 2002).
Os SGBDs em nuvem integram ambientes de processamento de dados 
que executam concorrentemente cargas de trabalhos heterogêneas. Por 
isso, é importante que uma abordagem de modelagem do desempenho 
tenha a habilidade de estimar os impactos de execução concorrentes 
de requisições em uma carga de trabalho em evolução ao longo do 
tempo (DUGGAN et al., 2011 apud FARIAS, 2016, p. 15). 
O processamento em tempo real é um requisito necessário para muitas 
situações, por exemplo, infraestruturas críticas e sistemas de saúde. Além disso, 
em outros cenários, o verdadeiro conhecimento reside nos dados, já que pode 
ser usado para evitar que certas situações surjam e ajam antecipadamente 
(BALDISSERA, 2018).
2.5 ANÁLISE DE DADOS 
 
A partir do momento que precisar usar os dados armazenados para 
descobrir algo útil, a organização precisará processá-los e analisá-los. Então, esta 
área será primordial para transformar os dados em insights. É nesse momento 
que as linguagens de programação e plataformas entram em jogo. Portanto, para 
Data Science Academy (2017), existem três etapas básicas neste processo:
•	 Preparar	os	dados	(identificar,	 limpar	e	 formatar	os	dados	para	que	estejam	
prontos para análise).
• Construir o modelo analítico.
• Extrair a conclusão a partir dos conhecimentos adquiridos.
 
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
13
Por exemplo, existem diversos softwares de empresas como IBM, Oracle e 
Google que podem ajudá-lo a realizar análises de dados, ou seja, converter dados 
"brutos" em insights ou poderosas soluções de código aberto (como R e Python). 
O Google tem o BigQuery, que é projetado para permitir que alguém com um 
pouco de conhecimento em ciência de dados execute consultas em grandes 
datasets. Outras opções de ferramentas de análise incluem a Cloudera, Microsoft 
HDInsight e Amazon Web Services. Muitas startups estão surgindo no mercado, 
oferecendo soluções simples que permitem alimentar os dados enquanto elas 
geram os insights mais importantes e sugerem ações a serem tomadas (DATA 
SCIENCE ACADEMY, 2017).
Por	fim,	e	não	menos	importante,	o	uso	de	técnicas	de	análise	avançadas,	
Machine Learning (aprendizagem de máquina) com algoritmos especialmente 
testados, desenvolvidos e aplicados para modelos de previsão permitem que o 
terceiro V (Velocidade) atenda às necessidades do negócio. Mostrar essas análises 
de maneira adequada ao tomador de decisão ou estabelecer visualização para 
modelos	criados	é	o	produto	final	de	um	projeto	de	Big	Data	(PODEROSO,	2014b).
Microsoft (2019) discute a importância da análise de dados sobre todos os 
dados em armazenamento, ou seja, muitas soluções de Big Data preparam dados 
para análise e então veiculam os dados processados em um formato estruturado 
que pode ser consultado usando ferramentas analíticas. O armazenamento de 
dados analíticos usado para atender a essas consultas pode ser um Data Warehouse 
relacional estilo Kimball, como visto na maioria das soluções de BI (Business 
Intelligence) tradicionais. Como alternativa, os dados podem ser apresentados 
por meio de uma tecnologia NoSQL de baixa latência, como HBase ou um banco 
de dados Hive interativo que oferece uma abstração de metadados sobre arquivos 
de dados no armazenamento de dados distribuído. O Azure Synapse Analytics 
fornece um serviço gerenciado para armazenamento de dados em larga escala 
baseado em nuvem. O HDInsight dá suporte a Hive interativo, HBase e Spark 
SQL, que também pode ser usado para veicular dados para análise.
Segundo Microsoft (2019), a meta da maioria das soluções de Big Data 
é gerar insights sobre os dados por meio de análise e relatórios. Para capacitar 
os usuários a analisar os dados, a arquitetura pode incluir uma camada de 
modelagem de dados, como um cubo OLAP multidimensional ou um modelo 
de dados tabular no Azure Analysis Services. Também pode dar suporte a 
Business Intelligence de autoatendimento, usando as tecnologias de modelagem 
e visualização do Microsoft Power BI ou do Microsoft Excel. Análise e relatórios 
também podem assumir a forma de exploração de dados interativos por cientistas 
de dados ou analistas de dados. Para esses cenários, muitos serviços do Azure 
dão suporte a blocos de anotações analíticos, como Jupyter, permitindo que 
esses usuários aproveitem suas habilidades existentes com Python ou R. Para 
exploração de dados em larga escala, você pode usar o Microsoft R Server, seja no 
modo autônomo ou com Spark.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
14
Para Mysore, Khupat e Jain (2014, s.p.): 
A camada de análise lê os dados digeridos pela camada de tratamento 
e armazenamento de dados. Em alguns casos, a camada de análise 
acessa os dados diretamente na fonte. É necessário um planejamento 
cuidadoso para projetar a camada de análise. É necessário tomar 
decisões em relação a como gerenciar tarefas para: (1) produzir a 
analítica desejada; (2) obter insights a partir dos dados; (3) localizar 
as entidades necessárias; (4) localizar as fontes de dados que fornecem 
dados para essas entidades; e (5) entender quais algoritmos e 
ferramentas são necessários para realizar a analítica.
Segundo IBM (2021, s.p.), “a análise de Big Data é o uso de técnicas 
analíticas avançadas aplicadas em conjuntos de dados muito grandes e diversos 
que incluem dados estruturados, semiestruturados e não estruturados, de 
diferentes	fontes	e	de	tamanhos	diferentes	de	terabytes	a	zettabytes”.	
Ainda, segundo IBM (2021, s.p.):
A análise de Big Data permite que analistas, pesquisadores e usuários 
de negócios tomem decisões melhores e mais rápidas usando 
dados que antes eram inacessíveis ou inutilizáveis. As empresas 
podem utilizar técnicas avançadas de análise, como análise de texto, 
machine learning, análise preditiva, mineração de dados, estatística 
e processamento de linguagem natural para obter novos insights 
a partir de fontes de dados previamente não exploradas de forma 
independente ou junto a dados corporativos existentes.
2.6. VISUALIZAÇÃO E SAÍDA DE DADOS 
O componente de visualização é responsável por gerar as informações 
extraídas da análise de dados, área responsável por transmiti-las às pessoas que 
necessitam para realizar a tomada de decisões da organização. É essencial que 
essa informação transmitida precise ser oferecida por meio de uma comunicação 
clara	 e	 concisa	 reportando	 resultados	 em	 forma	de	 breves	 relatórios,	 gráficos,	
figuras,	recomendações-chave	ou	dashboards	interativos.
Data Science Academy (2017) destaca que constantemente se observa que 
as organizações enterram os reais “tesouros” de informações que podem afetar a 
estratégia	quando	recebem	um	relatório	de	50	páginas	ou	um	gráfico	complicado	
que ninguém entende. É evidente que não se pode esperar que pessoas muito 
ocupadas	acessem	uma	montanha	de	dados	com	infinitos	apêndices	de	planilha	
e extraia mensagens-chave. 
Essa mesma fonte enfatiza que se as ideias-chave não forem claramente 
apresentadas,	não	resultarão	em	ação.	Enfim,	as	principais	opções	de	saída	de	
dados incluem dashboards de gerenciamento, plataformas de visualização de 
dados comerciais que tornam os dados atraentes e fáceis de entender, utilizando 
gráficos	 simples	 (como	 barras	 e	 linhas)	 que	 comunicam	 informações.	 Para	 a	
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
15
maioria das pequenas empresas que procuram melhorar a sua tomada de decisão, 
usar	gráficos	simples	ou	ferramentas	de	visualização	como	nuvens	de	palavras	
são	maisdo	que	suficientes	para	apresentar	informações	sobre	os	dados	(DATA	
SCIENCE ACADEMY, 2017).
Segundo Poderoso (2014b), a visualização dos dados envolve o uso e a 
prática de técnicas estatísticas adequadas para responder às questões de negócio 
que	justificarão	o	desenvolvimento	do	projeto.	Com	esses	importantes	recursos	da	
matemática, será possível estabelecer análises de correlação que utilizam técnicas 
de Data Mining (mineração de dados) aplicadas em um grande volume de dados. 
As organizações poderão compreender seus processos e negócios ao 
visualizar todos seus dados que estarão disponíveis (armazenados) nos mais 
variados	tipos	de	banco	de	dados.	Na	etapa	de	visualização	através	de	gráficos,	
infográficos,	planilhas	e	tabelas,	por	exemplo,	ferramentas	visuais	que	favorecem	
uma interpretação mais otimizada das informações eliminando ruídos e fatores 
que desviem o foco durante a análise.
Para Oliveira Junior (2019), a visualização e saída de dados:
É	 a	 parte	 difícil	 do	 Big	 Data	 porque	 significa	 tornar	 essa	 vasta	
quantidade de dados compreensível de uma maneira fácil de ler e 
entender. Com as visualizações corretas, os dados brutos podem ser 
colocados	em	uso.	As	visualizações,	claro,	não	são	gráficos	comuns	ou	
gráficos	de	pizza.	São	gráficos	complexos	que	podem	incluir	muitas	
variáveis de dados, permanecendo legíveis e compreensíveis. A 
visualização pode não ser a tarefa tecnologicamente mais difícil, mas 
certamente	é	a	mais	desafiadora.	O	uso	de	um	gráfico	para	contar	uma	
história complexa é muito difícil, mas também extremamente crucial. 
De acordo com Tutorialspoint (2017 apud OLIVEIRA JUNIOR, 2019, p. 5):
O Power BI é uma ferramenta de visualização de dados e BI que 
converte dados de diferentes fontes em Dashboards e relatórios de 
BI. O Power Bi suíte fornece vários softwares, conectores e serviços, o 
Power BI Desktop, o Power BI servisse baseado em SaaS e o Power BI 
mobile estão disponíveis para diversas plataformas. Esse conjunto de 
serviços podem ser usados pelos usuários para consumir dados e criar 
relatórios. O Power BI inclui componentes como Power BI Desktop, 
usado para criar relatórios e visualizações de dados, enquanto os 
Serviços de BI (Software como Serviço – SaaS) são usados para 
publicar os relatórios, o Gateway do Power BI pode ser usado para 
manter seus dados atualizados e conectados às fontes de dados locais 
sem que haja a necessidade de mover os dados, o aplicativo mobile é 
possível conectar e visualizar os dados de qualquer lugar.
Ainda, essa mesma fonte nos informa que:
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
16
O WEKA é um software open source que fornece ferramentas para 
pré-processamento de dados, implementação de vários algoritmos 
de Machine Learning e visualização para que você possa desenvolver 
técnicas de aprendizado de máquina e aplicá-las a problemas reais de 
mineração de dados. O WEKA oferece muitos estágios ao lidar com o 
Big Data, começando com os dados brutos coletados em campo que 
podem conter valores nulos e campos irrelevantes. Com a ferramenta 
de pré-processamento é possível limpar estes dados e salvá-los 
localmente para aplicar os algoritmos (TUTORIALSPOINT, 2019 apud 
OLIVEIRA JUNIOR, 2019, p. 6).
Quer saber como ocorre a visualização de dados gerados por dispositivos da 
Internet das Coisas (Internet of Things – IoT)? Não deixe de ler o artigo que Jair de Castro 
Oliveira Junior nos apresenta. Ótima leitura! 
FONTE: <https://revistas.anchieta.br/index.php/RevistaUbiquidade/article/
download/1527/1404/>. Acesso em: 7 abr. 2021.
DICAS
2.7 INTEGRAÇÕES
Considerando que SaaS (Software as a service – Software como serviço) 
e PaaS (Platform as a Service – Plataforma como Serviço) estão na Web e que 
podem ser acessados pelos usuários de qualquer lugar e a qualquer momento, 
por exemplo, a PaaS oferece uma infraestrutura de alto nível de integração 
para implementar e testar aplicações na nuvem. Neste caso, o usuário não 
administra ou controla a infraestrutura subjacente, incluindo rede, servidores, 
sistemas operacionais ou armazenamento, mas tem controle sobre as aplicações 
implantadas	 e,	 possivelmente,	 as	 configurações	 das	 aplicações	 hospedadas	
nesta infraestrutura. A PaaS fornece um sistema operacional, linguagens de 
programação e ambientes de desenvolvimento para as aplicações, auxiliando 
na implementação de sistemas de software, já que contém ferramentas de 
desenvolvimento e colaboração entre desenvolvedores (GUERREIRO, 2018).
Segundo	 Poderoso	 (2014b),	 Big	 Data	 vem	 sendo	 definido	 com	 3	 Vs:	
Volume, Velocidade e Variedade. A coleta e integração de dados também é um 
problema que envolve os dois primeiros Vs. Está relacionado à Computação em 
Nuvem,	mas	encontra	seus	principais	desafios	na	ingestão	e	limpeza	/	tratamento	
de dados. 
Para Microsoft (2019), a maioria das soluções de Big Data consiste em 
operações	 de	 processamento	 de	 dados	 repetidos,	 encapsuladas	 em	 fluxos	 de	
trabalho, que transformam dados de origem, movem dados entre várias origens 
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
17
e coletores, carregam os dados processados em um armazenamento de dados 
analíticos ou efetuam o push dos resultados diretamente para um relatório ou 
painel.	Para	automatizar	esses	fluxos	de	trabalho,	você	pode	usar	uma	tecnologia	
de orquestração, como Azure Data Factory ou Apache Oozie e Sqoop. Soluções de 
Big Data aproveitam o paralelismo, possibilitando soluções de alto desempenho 
dimensionadas para grandes volumes de dados (MICROSOFT, 2019).
Quanto ao aspecto de integração, vale destacar duas grandes atribuições a 
seu respeito que são a possibilidade de oferecer interoperabilidade com soluções 
existentes. Os componentes da arquitetura de Big Data também são usados para 
processamento IoT e soluções de BI empresariais, permitindo que você crie uma 
solução	 integrada	entre	cargas	de	 trabalho	de	dados	e,	por	fim,	 sobre	a	escala	
elástica onde todos os componentes da arquitetura de Big Data dão suporte a 
provisionamento de expansão para que você possa ajustar sua solução para 
cargas de trabalho grandes ou pequenas e pagar somente pelos recursos que usa 
(MICROSOFT, 2019).
Para Mysore, Khupat e Jain (2014, s.p.):
Aplicativos de Big Data adquirem dados de várias origens, fornecedores 
e fontes, que são armazenados em sistemas como HDFS, NoSQL 
e MongoDB. Essa camada vertical é usada por vários componentes 
(aquisição de dados, compilação de dados, gerenciamento de modelo 
e interceptor de transação, por exemplo) e é responsável por conectar 
várias fontes de dados. Para integrar informações de fontes de dados 
com características diferentes (protocolos e conectividade, por 
exemplo), é necessário conectores e adaptadores de qualidade. Estão 
disponíveis aceleradores para conectar às fontes mais conhecidas 
e usadas. Isso inclui adaptadores de mídias sociais e de dados 
climáticos. Essa camada também pode ser usada por componentes 
para armazenar informações em armazenamentos de big data e para 
recuperar informações desses armazenamentos para processamento. 
A maioria dos armazenamentos de Big Data possui serviços e APIs 
para armazenar e recuperar as informações.
Segundo Sousa et al. (2012, s.p.):
Com a evolução da Computação em Nuvem, as empresas necessitam 
integrar os diferentes ambientes de TI, pois essas empresas utilizam 
modelos híbridos, nos quais os sistemas instalados possam interagir 
com diversos provedores. Contudo, não existem padrões de integração 
de sistemas de computação em nuvem. O formato XML pode ser uma 
alternativa para mover dados entre ambientes em nuvem, mas os 
sistemas também precisam gerenciar dados localmente. A utilização de 
APIs pode auxiliar neste processo de integração. Por exemplo, as APIs 
da Amazon estão se tornando um padrão de fato para serviços sob 
demanda. Contudo, a quantidade de tecnologias envolvidas é muito 
grande,	 tornando-se	 um	 desafio	 padronizar	 as	 diversas	 interfacese serviços, bem como fornecer interoperabilidade entre recursos 
heterogêneos. Desempenho e a evolução dos serviços são aspectos 
importantes na integração de nuvem, pois as aplicações possuem 
requisitos de QoS e as evoluções são constantes. Dessa forma, o uso de 
tecnologias de integração de dados, serviços e linguagens devem ser 
utilizadas e adaptadas no contexto da computação em nuvem.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
18
2.8. QUALIDADE DA APLICAÇÃO
A qualidade das aplicações Big Data é fundamental, Aevo (2019) 
destaca que com dados sem qualidade, sem armazenamento na nuvem (Cloud 
Computing)	e	sem	garantia	de	confiabilidade,	relatórios	e	análises	inconsistentes	
podem ser gerados. Para que isso não aconteça, é importante utilizar um sistema 
de	 qualidade	 que	 filtre	 os	 dados	 e	 organize-os	 de	 forma	 lógica,	 identificando	
possíveis problemas antes que os dados sejam armazenados.
Para Mysore, Khupat e Jain (2014, s.p.), a camada de qualidade dos serviços 
das	aplicações	Big	Data	em	Computação	em	Nuvem	“é	responsável	por	definir	
qualidade de dados, políticas relacionadas à privacidade e segurança, frequência 
de	dados,	tamanho	de	busca	e	filtros	de	dados”.	A	seguir	será	apresentado	cada	
uma destas visões:
•	 Qualidade	de	dados:	(1)	identificação	integral	de	todos	os	elementos	de	dados	
necessários; (2) fornecimento dos dados dentro de um período de tempo 
aceitável;	 (3)	verificação	precisa	para	ver	se	os	dados	respeitam	as	regras	de	
precisão; (4) aderência a uma linguagem comum (elementos de dados atendem 
aos	 requisitos	 expressos	 em	 linguagem	de	negócios	 simples);	 (5)	verificação	
consistente de que os dados de vários sistemas respeitam as regras de 
consistência;	e	(6)	conformidade	técnica	para	cumprir	a	especificação	de	dados	
e as diretrizes de arquitetura de informações.
• Políticas sobre privacidade e segurança: políticas são necessárias para proteger 
dados sensíveis. Dados adquiridos de agências e provedores externos podem 
incluir informações sensíveis (como o contato de um usuário do Facebook 
ou	informações	de	precificação	de	produtos).	Dados	podem	vir	de	diferentes	
regiões e países e devem ser tratados de acordo com sua origem. É necessário 
tomar decisões sobre mascaramento de dados e seu armazenamento. Considere 
as políticas de acesso de dados a seguir:
ᵒ	 Disponibilidade	de	dados.
ᵒ	 Grau	de	gravidade	de	dados.
ᵒ	 Autenticidade	de	dados.
ᵒ	 Compartilhamento	e	publicação	de	dados.
ᵒ	 Armazenamento	e	retenção	de	dados,	incluindo	perguntas	como:	é	possível	
armazenar os dados externos? Se sim, por quanto tempo? Que tipo de dados 
pode ser armazenado?
ᵒ	 Restrições	de	fornecedores	de	dados	(políticas,	técnicas,	regionais).
ᵒ	 Termos	de	uso	de	mídias	sociais	(consulte	Recursos).
• Frequência de dados: com que frequência estão disponíveis os dados novos? É 
sob	demanda,	contínuo	ou	off-line?	
•	 Tamanho	da	busca:	este	atributo	ajuda	a	definir	o	tamanho	dos	dados	que	é	
possível buscar e consumir por busca. 
•	 Filtros:	filtros	padrão	removem	dados	indesejados	e	ruído	e	deixam	apenas	os	
dados necessários para análise (MYSORE; KHUPAT; JAIN, 2014).
 
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
19
Segundo Sousa et al. (2012), em ambientes de Computação em Nuvem, 
a	 qualidade	 de	 serviço	 é	 uma	 característica	 definida	 entre	 o	 provedor	 e	 o	
usuário, em que o usuário do serviço tem algumas garantias, como desempenho 
e disponibilidade. Apesar das limitações de rede e segurança, as soluções em 
nuvem	devem	 fornecer	 elevado	 desempenho,	 além	de	 serem	flexíveis	 para	 se	
adaptar diante de uma determinada quantidade de requisições. Uma questão 
relevante para garantir a qualidade em qualquer infraestrutura compartilhada é 
isolar o desempenho de aplicações diferentes. Aplicações podem adicionar uma 
carga	variável	sobre	a	nuvem	e	é	necessário	verificar	como	esta	carga	de	trabalho	
irá afetar as outras aplicações que compartilham o mesmo hardware (SOUSA et 
al., 2012).
20
Neste tópico, você aprendeu que: 
• Big Data e Computação em Nuvem são dois conceitos que funcionam de maneira 
interdependente e estão transformando a forma de negócios desempenharem 
suas funções. Juntos, fornecem uma solução que é escalável e adaptável para 
grandes conjuntos de dados e análise de negócios on-line.
• A Computação em Nuvem organiza toda a parte de armazenamento de dados 
deixando-os	acessíveis	e	simplificando	à	rotina	para	trabalhar	com	um	grande	
volume de dados.
• Existem muitas oportunidades e benefícios na adoção de Computação em 
Nuvem para projetos de Big Data, como deixar os dados acessíveis de qualquer 
localidade, reduzir custos com infraestrutura de TI para armazenamento de 
grandes conjuntos de dados e custos com licença e manutenção de software 
(DATA SCIENCE ACADEMY, 2020).
• As arquiteturas de Big Data em Computação em Nuvem incluem os seguintes 
componentes: (1) armazenamento; (2) transmissão; (3) coleta de dados; (4) 
processamento; (5) análise de dados; (6) visualizações; (7) integrações e 
aspectos; e (8) qualidade da aplicação. 
ᵒ	 Armazenamento: é responsável por “manter” os dados coletados pela 
organização, cujos dados normalmente são armazenados em um repositório 
de arquivos distribuído que pode conter amplos volumes de arquivos 
grandes em vários formatos. Os principais componentes desta arquitetura 
são: Hadoop, MapReduce, NoSQL, SQL e Data Warehouse.
ᵒ	 Transmissão: a transmissão de dados permite que os dados possam chegar 
nos sistemas da organização a partir de uma rede de dispositivos conectados 
utilizando métodos para acessar a rede por meio de gateways e tecnologias 
heterogêneas	(por	exemplo,	com	fio,	sem	fio,	satélite),	para	tratar	e	para	o	
encaminhamento seus dados, ou seja, ter a capacidade de transmitir e dar 
acesso a um incrível volume de informação. Nesta fase inclui mecanismos 
para entregar os dados coletados para aplicações e para diferentes servidores 
externos. 
o Coleta de dados: os requisitos de infraestrutura para a captura ou coletar 
dados dependem do tipo de dado que será necessário, mas as principais 
opções podem incluir por exemplo os sensores e os aplicativos que geram 
dados de usuários. A coleta de dados é essencial para as tecnologias de Big 
Data	embora	extremamente	valorosa,	também	é	o	grande	desafio	de	todo	o	
processo e objetivos de negócio de uma organização.
ᵒ	 Processamento: geralmente uma solução de Big Data em Cloud deve 
processar arquivos de dados usando trabalhos de lote de execução longa 
para	 filtrar,	 agregar	 e	 preparar	 os	 dados	 para	 análise.	 O	 tempo	máximo	
RESUMO DO TÓPICO 1
21
que as aplicações levam para processar uma solicitação está relacionado 
ao tempo de execução do Sistema de Gerenciamento de Banco de Dados 
(SGBD) que deve prezar pela sua qualidade e desempenho. 
ᵒ	 Análise	 de	 dados: a partir do momento que precisar usar os dados 
armazenados para descobrir algo útil, a organização precisará processá-los 
e analisá-los para transformar os dados em insights. Podem utilizar técnicas 
avançadas de análise, como análise de texto, machine learning, análise 
preditiva, mineração de dados, estatística e processamento de linguagem 
natural para obter novos insights a partir de fontes de dados previamente 
não exploradas de forma independente ou junto a dados corporativos 
existentes.
ᵒ	 Visualização	 e	 saída	 de	 dados: é responsável por gerar as informações 
extraídas da análise de dados, área responsável por transmiti-las às pessoas 
que necessitam para realizar a tomada de decisões da organização. As 
principais opções de saída de dados incluem dashboards de gerenciamento, 
plataformas de visualização de dados comerciais que tornam os dados 
atraentes e fáceis de entender, utilizando por exemplo recursos do tipo 
gráficos	que	comunicam	informações.
ᵒ	 Integrações: com a evolução da Computação em Nuvem, as empresas 
necessitam integrar os diferentes ambientes de TI, pois estas empresas 
utilizam modelos híbridos,nos quais os sistemas instalados possam interagir 
com diversos provedores permitindo por exemplo que os três modelos de 
Serviços através de Software como um Serviço (SaaS), Plataforma como um 
Serviço (PaaS) e Infraestrutura como um Serviço (IaaS) integrem informações 
de fontes de dados com características diferentes (protocolos e conectividade, 
por exemplo). 
• Qualidade da aplicação: a camada de qualidade das aplicações Big Data em 
Computação	em	Nuvem	é	responsável	por	definir	qualidade	de	dados,	políticas	
relacionadas à privacidade e segurança, frequência de dados, tamanho de 
busca	e	filtros	de	dados.
22
1 Segundo Data Science Academy (2020), o aumento da Computação em 
Nuvem tem sido um precursor e facilitador para o surgimento do Big Data. 
Embora o Big Data traga muitas oportunidades atraentes, as empresas 
também	 enfrentam	muitos	 desafios.	 Coleta	 dos	 dados,	 armazenamento,	
pesquisa, compartilhamento, análise e visualização. Cada uma destas 
tarefas requer diferentes abordagens, diferentes níveis de segurança, 
infraestrutura	e	profissionais	capacitados.	Com	relação	a	esta	abordagem	
de Big Data e Computação em Nuvem, analise as sentenças a seguir: 
FONTE: Adaptado de DATA SCIENCE ACADEMY. Big data e Cloud Computing: desafios e 
oportunidades. Disponível em: http://datascienceacademy.com.br/blog/big-data-e-cloud-
-computing-desafios-e-oportunidades/. Acesso em: 24 fev. 2021.
I- Computação em Nuvem e Big Data fornecem uma solução que é escalável 
e adaptável para grandes conjuntos de dados e análise de negócios onde 
todos os recursos de dados tornando-se facilmente acessíveis e com custo 
reduzido para a organização.
II- A Computação em Nuvem não contém suportes necessários para 
extraírem do Big Data os insights necessários para a tomada de decisão 
mais consciente, pois, como funcionam de forma interdependentes, seus 
recursos	tecnológicos	de	integração	são	insuficientes.
III- Com Big Data as organizações podem processar e armazenar grandes 
conjuntos de dados de maneira interdependente, disponíveis tanto 
localmente quanto na Computação em Nuvem, em que, juntos, estão 
transformando a forma de negócios desempenharem suas funções. 
Assinale a alternativa CORRETA:
a) ( ) Somente a sentença I está correta. 
b) ( ) Somente a sentença II está correta.
c) ( ) Somente a sentença III está correta.
d) ( ) As sentenças I e III estão corretas. 
2 Buscar vantagens competitivas e alcançar resultados expressivos com 
seus investimentos, fez com que as organizações invistam em ferramentas 
e desenvolvimento de projetos em Big Data para superar todos esses 
obstáculos de coletar, armazenar, pesquisar, compartilhar, analisar e 
visualizar os dados. No que diz respeito às oportunidades e aos benefícios 
na	adoção	de	Computação	em	Nuvem	para	projetos	de	Big	Data,	classifique	
V para as sentenças verdadeiras e F para as falsas: 
( ) Escalabilidade com rápida expansão da infraestrutura para acomodar um 
novo projeto.
( ) Segurança e integrações dos dados normalmente menor do que na rede 
corporativa.
AUTOATIVIDADE
23
( ) Redução nos custos de backup de dado.
( ) Redução de custo com infraestrutura de TI para armazenamento de 
grandes conjuntos de dados.
Assinale a alternativa que apresenta a sequência CORRETA: 
a) ( ) V – F – V – F. 
b) ( ) V – F – V – V. 
c) ( ) F – F – V – F. 
d) ( ) V – V – F – V.
3 A informação e a transmissão estão cada vez mais descentralizados e 
distribuídos, aumentando o desempenho dos serviços de nuvem. Portanto, 
a	arquitetura	de	computação	em	nuvem	e	soluções	deve	ser	definida	a	partir	
de uma infraestrutura de computação para Big Data que permita obter 
fontes, armazenamento e processamento de dados. No que se refere aos 
componentes de armazenamento, transmissão e coleta de dados, analise as 
sentenças a seguir: 
I- O componente de armazenamento é responsável por “manter” os dados 
coletados pela organização e as principais opções de armazenamento 
incluem, por exemplo, o Data Warehouse e sistema de armazenamento 
distribuído / baseado em nuvem.
II- A etapa de transmissão de dados permite que os dados possam chegar nos 
sistemas da organização a partir de uma rede de dispositivos conectados 
para entregar os dados coletados para aplicações e para diferentes 
servidores externos. 
III- A captura ou a coleta de dados dependem do tipo de dado que será 
necessário, em que todos os aplicativos de coleta são inteligentes para 
extrair e gerar dados de usuários.
Assinale a alternativa CORRETA:
a) ( ) Somente a sentença I está correta. 
b) ( ) Somente a sentença II está correta.
c) ( ) Somente a sentença III está correta.
d) ( ) As sentenças I e II estão corretas. 
4 As soluções em nuvem e de Big Data podem ser usadas, entre outras coisas, 
para análise de dados em tempo real, redução de custo com infraestrutura 
de TI para armazenamento de grandes conjuntos de dados, obter também 
a redução no custo com licença e manutenção de software e possibilitar 
que os dados sejam acessíveis de qualquer localidade através de uma 
infraestrutura de excelência para o processamento, análise, visualização e 
integração dos dados. Com relação a esses quatro componentes, analise as 
sentenças a seguir: 
24
I- Processamento: solução de Big Data deve processar arquivos de dados 
usando	trabalhos	de	lote	de	execução	longa	para	filtrar,	agregar	e	preparar	
os dados para análise. 
II- Análise: serve para capturar os dados, construir o modelo analítico e 
armazená-los a partir dos conhecimentos adquiridos.
III- Visualização: irá gerar as informações extraídas da análise de dados, área 
responsável por transmiti-las às pessoas que necessitam para realizar a 
tomada de decisões da organização. 
IV- Integrações: permitir que diversos provedores estejam conectados, 
porém com baixa interoperabilidade e acesso às soluções existentes para o 
compartilhamento de informações.
Assinale a alternativa CORRETA:
a) ( ) Somente a sentença I está correta. 
b) ( ) Somente a sentença II está correta.
c) ( ) As sentenças II e IV estão corretas.
d) ( ) As sentenças I e III estão corretas. 
5 Segundo Taurion (2009, p. 2), Cloud Computing, ou Computação em Nuvem, 
pode	 ser	 definido	 como	 “um	 conjunto	 de	 recursos	 como	 capacidade	 de	
processamento, armazenamento, conectividade, plataformas, aplicações e 
serviços disponibilizados na internet por diferentes aplicações para as áreas 
de negócios, levando em consideração a qualidade de uso das aplicações”. 
No que se refere à qualidade de dados e privacidade e segurança, assinale 
a alternativa CORRETA:
FONTE: Adaptado de TAURION, C. Computação em nuvem: transformando o mundo da 
tecnologia da informação. Rio de Janeiro: Brasport, 2009. 
a)	(			)	Qualidade	de	dados	compõe	entre	outros	fatores	a	identificação	integral	
de todos os elementos de dados necessários e o fornecimento dos dados 
dentro de um período de tempo aceitável. 
b) ( ) As políticas de acesso de dados não focam nos aspectos de disponibilidade 
de dados, do grau de gravidade de dados, da autenticidade de dados e do 
compartilhamento e publicação de dados.
c) ( ) Aspectos de qualidade e política de acesso aos dados são considerados 
estratégicos em uma organização e devem sofrer auditorias por especialistas 
da área de segurança pelas organizações.
d) ( ) Qualidade dos dados visa garantir permissões de acesso e instituir 
políticas de acesso a estes dados.
25
TÓPICO 2 — 
UNIDADE 1
DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD
1 INTRODUÇÃO
Dando continuidade aos nossos estudos, neste tópico, serão apresentados 
alguns	desafios	para	a	implementação	de	Big	Data	em	Cloud	Computing. Como 
em tudo, sempre há o lado bom e ruim, por isso, analisaremos Cloud Computing 
por diversas perspectivas. Sendo assim, veremos, nesta unidade, como minimizar 
os impactos e obter vantagem na aplicação desses conceitos. 
Talvez poucas áreas de estudos tenham tanta evolução em tão pouco 
tempo quanto a área de tecnologia,

Continue navegando