Aplicação de Big Data em Cloud

Mauricelia Amaro Firmina Silva

02/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 274 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 274 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 274 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.841 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Indaial – 2021
AplicAção de Big dAtA
em cloud
Prof. Airan Arine Possamai
Profª. Cláudia Neli de Souza Zambon
Profª. Danice Betânia de Almeida
Prof. Eliomar Russi
Prof. Marcio Poffo
Prof. Nader Ghoddosi
Profª. Neli Miglioli Sabadin
Prof. Pedro Sidnei Zanchett
Profª. Simone Erbs da Costa
1a Edição
Copyright © UNIASSELVI 2020
Elaboração:
Prof. Airan Arine Possamai
Profª. Cláudia Neli de Souza Zambon
Profª. Danice Betânia de Almeida
Prof. Eliomar Russi
Prof. Marcio Poffo
Prof. Nader Ghoddosi
Profª. Neli Miglioli Sabadin
Prof. Pedro Sidnei Zanchett
Profª. Simone Erbs da Costa
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
Impresso por:
P856a
Possamai, Airan Arine
Aplicação de big data em cloud. / Airan Arine Possamai et al. – Indaial:
UNIASSELVI, 2021.
274 p.; il.
ISBN 978-65-5663-648-1
ISBN Digital 978-65-5663-647-4
1. Cloud Computing. – Brasil. I. Centro Universitário Leonardo Da Vinci.
CDD 006.78
ApresentAção
Caro acadêmico! Estamos iniciando o estudo da disciplina Aplicação
de Big Data em Cloud. Esta disciplina objetiva proporcionar uma imersão
de conceitos sobre Cloud Computing, tendo em vista sua aplicação nas
mais diversas plataformas do mercado, sua compreensão irá lhe tornar um
profissional dinâmico com conhecimento nas tecnologias de computação em
nuvem mais utilizadas no mundo.
Este livro conta com exemplos de diversas plataformas em nuvem,
bem como seus recursos, para melhor aproveitamento e para obter mais
conhecimento, recomendamos que sempre acesse as plataformas para
conhecer mais sobre elas.
Neste contexto, o livro didárico de Aplicação de Big Data em Cloud
está dividido em três unidades de estudo. Na Unidade 1, você terá uma visão
geral de aplicações de Big Data em Cloud Computing e seus recursos. Já nas
Unidade 2 e Unidade 3, vamos aprofundar nossos estudos nas principais
ferramentas de computação em nuvem do mercado.
Aproveitamos a oportunidade para destacar a importância de
desenvolver as autoatividades, lembrando que essas atividades não são
opcionais. Elas objetivam a fixação dos conceitos apresentados. Em caso de
dúvida na realização das atividades, sugerimos que você entre em contato
com seu tutor externo ou com a tutoria da UNIASSELVI, não prosseguindo
as atividades sem ter sanado todas as dúvidas que irão surgindo.
Bom estudo! Sucesso na sua trajetória acadêmica e profissional!
Prof. Airan Arine Possamai
Profª. Cláudia Neli de Souza Zambon
Profª. Danice Betânia de Almeida
Prof. Eliomar Russi
Prof. Marcio Poffo
Prof. Nader Ghoddosi
Profª. Neli Miglioli Sabadin
Prof. Pedro Sidnei Zanchett
Profª. Simone Erbs da Costa
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para
você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi-
dades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um
formato mais prático, que cabe na bolsa e facilita a leitura.
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra-
mação no texto, aproveitando ao máximo o espaço da página, o que também contribui
para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente,
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilida-
de de estudá-lo com versatilidade nas telas do celular, tablet ou computador.

Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assun-
to em questão.
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa
continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de
Desempenho de Estudantes – ENADE.

Bons estudos!
NOTA
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela
um novo conhecimento.
Com o objetivo de enriquecer seu conhecimento, construímos, além do livro
que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você
terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen-
tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
LEMBRETE
sumário
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING ............................... 1
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING ................................... 3
1 INTRODUÇÃO .................................................................................................................................... 3
2 COMPONENTES ................................................................................................................................. 6
2.1 ARMAZENAMENTO .................................................................................................................... 7
2.2 TRANSMISSÃO .............................................................................................................................. 9
2.3 COLETA DE DADOS ................................................................................................................... 10
2.4 PROCESSAMENTO ..................................................................................................................... 11
2.5 ANÁLISE DE DADOS .................................................................................................................. 12
2.6. VISUALIZAÇÃO E SAÍDA DE DADOS .................................................................................. 14
2.7 INTEGRAÇÕES............................................................................................................................. 16
2.8. QUALIDADE DA APLICAÇÃO ............................................................................................... 18
RESUMO DO TÓPICO 1..................................................................................................................... 20
AUTOATIVIDADE .............................................................................................................................. 22
TÓPICO 2 — DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD ..................... 25
1 INTRODUÇÃO .................................................................................................................................. 25
2 FORNECER RECURSOS SOB DEMANDA ................................................................................. 25
3 ESCALABILIDADE E ELASTICIDADE ....................................................................................... 27
3.1 ESCALABILIDADE VERTICAL E HORIZONTAL ................................................................. 29
4 LOCALIDADE DOS DADOS ......................................................................................................... 30
4.1 NUVEM PÚBLICA ....................................................................................................................... 32
4.2 NUVEM PRIVADA ....................................................................................................................... 33
4.3 NUVEM HÍBRIDA........................................................................................................................ 34
4.4 MULTICLOUD ..............................................................................................................................36
4.5 DIFERENÇA ENTRE A MULTICLOUD E A NUVEM HÍBRIDA? ....................................... 36
5 DIVERSIDADE E INTEROPERABILIDADE .............................................................................. 37
6 MÍDIAS SOCIAIS ............................................................................................................................ 38
7 USABILIDADE................................................................................................................................... 40
RESUMO DO TÓPICO 2..................................................................................................................... 42
AUTOATIVIDADE .............................................................................................................................. 43
TÓPICO 3 — SEGURANÇA DA INFORMAÇÃO PARA CLOUD COMPUTING E BIG
DATA ....................................................................................................................................................... 45
1 INTRODUÇÃO .................................................................................................................................. 45
2 CONCEITOS BÁSICOS DE SEGURANÇA DA INFORMAÇÃO .......................................... 46
3 REQUISITOS DE SEGURANÇA .................................................................................................. 49
4 AMEAÇAS CRESCENTES ............................................................................................................... 51
5 SISTEMAS DE DETECÇÃO DE INTRUSÃO ............................................................................ 54
LEITURA COMPLEMENTAR ............................................................................................................ 57
RESUMO DO TÓPICO 3..................................................................................................................... 62
AUTOATIVIDADE .............................................................................................................................. 64
REFERÊNCIAS ...................................................................................................................................... 67
UNIDADE 2 — APLICAÇÃO DE CLOUD COMPUTING E BIG DATA.................................. 73
TÓPICO 1 — AMAZON AWS ............................................................................................................ 75
1 INTRODUÇÃO .................................................................................................................................. 75
2 CONCEITO DE AMAZON WEB SERVICES (AWS) .................................................................. 76
2.1 PRINCIPAIS VANTAGENS DA AWS ........................................................................................ 78
2.2 ARQUITETURA E SUAS VANTAGENS .................................................................................. 80
3 PRINCIPAIS RECURSOS DA AWS .............................................................................................. 81
3.1 ELASTIC COMPUTE CLOUD – EC2 ........................................................................................ 81
3.2 SIMPLE STORAGE SERVICE – S3 ............................................................................................. 84
3.3 AWS ELASTIC BEANSTALK ...................................................................................................... 85
3.4 AWS AUTO SCALING ................................................................................................................. 87
3.5 AWS LAMBDA .............................................................................................................................. 88
3.5.1 Processamento de dados ..................................................................................................... 89
3.5.2 Processamento de arquivos em tempo real ..................................................................... 89
3.5.3 Processamento de stream em tempo real ......................................................................... 89
3.5.4 Machine learning ................................................................................................................. 90
3.5.5 Back-ends .............................................................................................................................. 90
4 SERVIÇOS DE BIG DATA E PROCESSAMENTO ..................................................................... 91
4.1 AMAZON EMR............................................................................................................................. 91
4.2 AMAZON REDSHIFT .................................................................................................................. 92
4.3 AMAZON KINESIS ...................................................................................................................... 93
5 RECURSOS DE MACHINE LEARNING ..................................................................................... 94
5.1 AMAZON EMR............................................................................................................................. 94
5.1.1 Apache Spark MLlib ............................................................................................................ 94
5.1.2 TensorFlow ........................................................................................................................... 95
5.1.3 Apache MXNet ..................................................................................................................... 96
5.2 AMAZON KINESIS VIDEO STREAMS .................................................................................... 96
5.3 AMAZON REKOGNITION VIDEO .......................................................................................... 97
6 DEPLOY DE APLICAÇÕES ............................................................................................................. 98
RESUMO DO TÓPICO 1................................................................................................................... 100
AUTOATIVIDADE ............................................................................................................................ 102
TÓPICO 2 — MICROSOFT AZURE ............................................................................................... 105
1 INTRODUÇÃO ................................................................................................................................ 105
2 PRINCIPAIS RECURSOS E SERVIÇOS ..................................................................................... 107
2.1 MODELOS DE SERVIÇO .......................................................................................................... 107
2.1.1 Azure IaaS (Infrastructure as a Service)............................................................................. 108
2.1.2 Azure PaaS (Platform as a Service) .................................................................................... 109
2.1.3 Azure SaaS (Software as a Service) ..................................................................................... 110
2.2 TIPOS DE SERVIÇO ................................................................................................................... 111
3 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO ......................................................... 113
4 RECURSOS DE MACHINE LEARNING .................................................................................. 119
5 RECURSOS DEPLOY DE APLICAÇÕES .................................................................................. 121
RESUMO DO TÓPICO 2................................................................................................................... 123
AUTOATIVIDADE ............................................................................................................................ 124
TÓPICO 3 — IBM WATSON ............................................................................................................127
1 INTRODUÇÃO ................................................................................................................................ 127
2 PRINCIPAIS RECURSOS .............................................................................................................. 132
2.1 WATSON DISCOVERY .............................................................................................................. 134
2.2 WATSON NATURAL LANGUAGE UNDERSTANDING ................................................... 138
2.3 WATSON KNOWLEDGE STUDIO .......................................................................................... 139
2.4 OUTROS RECURSOS ................................................................................................................ 143
3 RECURSOS DE MACHINE LEARNING ................................................................................... 144
3.1 WATSON ASSISTANT ............................................................................................................... 144
3.2 IBM SPEECH ............................................................................................................................... 146
4 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO .......................................................... 154
4.1. CASOS DE USO PARA IBM ANALYTICS ENGINE ............................................................. 161
4.1.1 Otimizando o processamento para diferentes tipos de cargas de trabalho .............. 161
4.1.2 Simplificando a governança de dados ............................................................................ 162
4.1.3 Reduzindo o custo da recuperação de desastres........................................................... 162
4.1.4 Simplificando os fluxos de trabalho de ciência de dados e aprendizado de máquina ... 163
4.2. PAINÉIS INTERATIVOS NO WATSON STUDIO ................................................................ 163
LEITURA COMPLEMENTAR .......................................................................................................... 182
RESUMO DO TÓPICO 3................................................................................................................... 184
AUTOATIVIDADE ............................................................................................................................ 188
REFERÊNCIAS .................................................................................................................................... 191
UNIDADE 3 — APLICAÇÃO DE CLOUD COMPUTING E BIG DATA................................ 197
TÓPICO 1 — GOOGLE CLOUD ..................................................................................................... 199
1 INTRODUÇÃO ................................................................................................................................ 199
2 O QUE É O GOOGLE CLOUD? .................................................................................................... 200
3 FALANDO SOBRE PROJETOS NO GOOGLE CLOUD ........................................................ 203
3.1 CARACTERÍSTICAS DE UM PROJETO DO GOOGLE CLOUD ........................................ 204
3.2 UTILIZAÇÃO DE RECURSOS NO GOOGLE CLOUD ........................................................ 205
3.3 DISPOSIÇÃO DOS RECURSOS ............................................................................................... 208
4 GOOGLE CLOUD PLATFORM (GCP) ....................................................................................... 209
5 GOOGLE CLOUD PLATFORM, VAMOS À PRÁTICA? ....................................................... 210
5.1 VEJA COMO FUNCIONA O PLANO GRATUITO PARA AVALIAÇÃO ......................... 210
5.2 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO ................................................... 211
6 RECURSOS DE MACHINE LEARNING ................................................................................... 215
7 DEPLOY DE APLICAÇÕES ........................................................................................................... 218
LEITURA COMPLEMENTAR .......................................................................................................... 220
RESUMO DO TÓPICO 1................................................................................................................... 226
AUTOATIVIDADE ............................................................................................................................ 227
TÓPICO 2 — HEROKU ..................................................................................................................... 229
1 INTRODUÇÃO ............................................................................................................................ 229
2 PRINCIPAIS RECURSOS .......................................................................................................... 231
3 HEROKU DYNOS ........................................................................................................................... 234
4 HEROKU ADD-ON TREASURE DATA ..................................................................................... 235
5 DEPLOY DE APLICAÇÕES ........................................................................................................... 238
RESUMO DO TÓPICO 2................................................................................................................... 240
AUTOATIVIDADE ............................................................................................................................ 241
TÓPICO 3 — DIGITAL OCEAN...................................................................................................... 243
1 INTRODUÇÃO ................................................................................................................................ 243
2 PRINCIPAIS RECURSOS .............................................................................................................. 245
2.1 DROPLETS ................................................................................................................................... 246
2.2 KUBERNETES ............................................................................................................................. 247
2.3 BASES DE DADOS ..................................................................................................................... 248
2.4 ARMAZENAMENTO DE OBJETOS ........................................................................................ 249
2.5 REDE (VPC, FIREWALLS, BALANCEADORES DE CARGA, IPS FLUTUANTES, DNS) .... 250
2.6 FERRAMENTAS DE DESENVOLVIMENTO ......................................................................... 251
3 APLICAÇÕES DE BIG DATA E ARMAZENAMENTO .......................................................... 252
4 RECURSOS DE MACHINE LEARNING ................................................................................... 254
5 DEPLOY DE APLICAÇÕES ........................................................................................................... 256
RESUMO DO TÓPICO 3................................................................................................................... 258
AUTOATIVIDADE ............................................................................................................................ 259
REFERÊNCIAS .................................................................................................................................... 261
1
UNIDADE 1 —
APLICAÇÃO DO BIG DATA EM
CLOUD COMPUTING
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• compreender conceitos básicos de Segurança da Informação;
• entender os requisitos de segurança;
• identificar ameaças;
• entender a importância da segurança para cloud e Big Data.
Esta unidade está dividida em três tópicos. No decorrer da unidade,
você encontrará autoatividades com o objetivode reforçar o conteúdo
apresentado.
TÓPICO 1 – APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
TÓPICO 2 – DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM
CLOUD
TÓPICO 3 – SEGURANÇA DA INFORMAÇÃO PARA CLOUD
COMPUTING E BIG DATA
Preparado para ampliar seus conhecimentos? Respire e vamos
em frente! Procure um ambiente que facilite a concentração, assim absorverá
melhor as informações.
CHAMADA
2
3
TÓPICO 1 —
UNIDADE 1
APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
1 INTRODUÇÃO
O conceito de Big Data surgiu a partir do momento que as organizações se
depararam com um volume e complexidade de dados muito grande e precisavam
realizar uma análise bem feita sobre estes dados, a fim de obter resposta que
permitam a geração de insights e tomadas de decisão sólidas tornando as
organizações cada vez mais competitivas.
Com Big Data, as organizações podem processar e armazenar grandes
conjuntos de dados disponíveis, tanto local quanto na computação em nuvem.
Big Data e Computação em Nuvem são dois conceitos que funcionam de maneira
interdependente, bem como integrados e estão transformando a forma de
negócios desempenharem suas funções.
Utilizamos diariamente a Computação em Nuvem sem perceber através
de serviços on-line para enviar e-mail, assistir vídeos e jogar entre outras variadas
possibilidades também a de armazenar e editar arquivos on-line. A oferta da
tecnologia e dos serviços de Computação em Nuvem são recentes pelos Cloud
Providers. Somente na última década que começou a ser adotada e explorada com
Big Data, pois, a Computação em Nuvem organiza toda a parte de armazenamento
de dados deixando-os acessíveis e simplificando a rotina para trabalhar com um
grande volume de dados.
Vale destacar que essa quantidade de informações oriunda de fontes
diversificadas conhecida como Big Data, representam um grande volume de dados
– tanto estruturados quanto não estruturados que sobrecarrega as organizações
diariamente. Faz parte da contextualização de Big Data abordar 3 Vs, que é a (1)
“Velocidade” que trata da rapidez que novos dados chegam ao repositório de
dados, o (2) “Volume” que aborda a quantidade de dados que são recebidos para
armazenamento regularmente e a (3) “Variedade” que trata da diversidade de
informações e fontes distintas. Dados oriundos de forma estruturada e/ou não
estruturada. Além desses 3 Vs, não podemos esquecer de considerar em Big Data
outros 2 Vs, a “Veracidade” para obter a confiabilidade dos dados e o “Valor” a
fim de saber a utilidade dos dados.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
4
Você sabe o que é Big Data? Sugerimos um vídeo bem explicativo do Olhar
Digital sobre o Big Data. Vale a pena assistir. Acesse o link: https://youtu.be/BZ8HrHFjSU0.
INTERESSA
NTE
A Computação em Nuvem (Cloud Computing) é a “entrega de serviços”
de computação por servidores, armazenamento, bancos de dados, redes,
software, análises – através da internet (a nuvem), entre outros. As organizações
que oferecem esses serviços de computação são chamadas de Cloud Providers e,
normalmente, cobram por serviços de Computação em Nuvem com base no uso,
de maneira semelhante à forma como você é cobrado por água ou eletricidade na
sua casa (DATA SCIENCE ACADEMY, 2020).
FONTE: Ruschel, Zanotto e Mota (2010, p. 2)
FIGURA 1 – VISÃO GERAL DE UMA NUVEM COMPUTACIONAL
Quando falamos de Computação em Nuvem, automaticamente falamos
também de Big Data, pois da mesma forma como houve um crescimento acelerado
da Computação em Nuvem, houve uma explosão na geração de dados, ou seja,
nos últimos anos o crescimento de volume de dados está sendo exponencial e
constante. Portanto, Data Science Academy (2020) destaca que Computação em
Nuvem e Big Data são uma combinação ideal, pois, juntos, eles fornecem uma
solução que é escalável e adaptável para grandes conjuntos de dados e análise
de negócios. A vantagem da análise seria um grande benefício. Imagine todos os
recursos de dados tornando-se facilmente acessíveis e com custo reduzido para
a organização.
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
5
Ainda, de acordo com o que enfatiza Data Science Academy (2020), o
aumento da Computação em Nuvem tem sido um precursor e facilitador para o
surgimento de Big Data.
Embora Big Data traga muitas oportunidades atraentes, as organizações
também enfrentam muitos desafios, entre eles a da coleta dos dados,
armazenamento, pesquisa, compartilhamento, análise e visualização dos dados.
Cada uma dessas tarefas requer diferentes abordagens, diferentes níveis de
segurança, infraestrutura e profissionais capacitados.
Nos últimos anos, um grande número de técnicas e tecnologias de Big
Data se desenvolveram para superar todos esses obstáculos de coletar, armazenar,
pesquisar, compartilhar, analisar e visualizar os dados. Enfim, a Computação
em Nuvem tem sido o suporte necessário para o crescimento na adoção de uma
cultura data driven que permita às organizações extraírem do Big Data os insights
necessários para a tomada de decisão mais consciente. Portanto, para essa mesma
fonte existem muitas oportunidades e benefícios na adoção de Computação em
Nuvem para projetos de Big Data. Vejamos alguns deles, conforme Data Science
Academy (2020, s.p.):
• Redução de custo com infraestrutura de TI para armazenamento de
grandes conjuntos de dados.
• Redução no custo com licença e manutenção de software.
• Dados acessíveis de qualquer localidade.
• Acesso à infraestrutura de ponta usada pelos Cloud Providers.
• Segurança dos dados normalmente maior do que na rede
corporativa.
• Não é necessário se preocupar com detalhes de engenharia de um
data center, como luz, energia, resfriamento etc. (isso fica a cargo do
Cloud Provider).
• Escalabilidade com rápida expansão da infraestrutura para
acomodar um novo projeto.
• Capacidade de dimensionamento elástico.
• Foco maior na análise de dados, ao invés de foco no armazenamento.
• Redução nos custos de backup de dados.
• Recuperação de desastre e continuidade dos negócios.
Segundo CentralServer (2020, s.p.), a Computação em Nuvem “tem, pelo
menos, cinco propriedades que são essenciais para uma aplicação efetiva do Big
Data”:
1. Estrutura sob demanda: a contratação de uma infraestrutura em
nuvem é feita na medida para as necessidades do negócio. Assim,
o espaço em disco, a capacidade de processamento, a velocidade
e a capacidade de transferência de dados podem ser selecionados
tendo como referência os softwares utilizados, as quantidades de
transações e as informações processadas.
2. Ubiquidade: ao armazenar os dados na nuvem, eles podem ser
acessados e coletados de qualquer lugar com acesso à internet e por
meio dos mais diversos dispositivos.
3. Escalabilidade: na medida em que a quantidade de informações
armazenadas cresce, assim como a demanda por capacidade de
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
6
processamento – o que acontece continuamente e com rapidez para
as análises relacionadas ao Big Data –, mais recursos físicos ou
virtuais usados na nuvem podem ser facilmente alocados. Alguns
fornecedores de nuvem disponibilizam um painel de autosserviço
em que se pode contratar mais espaço, disco e memória, aumentando
a capacidade de processamento de forma simples e rápida.
4. Elasticidade: Os recursos computacionais são alterados de forma
transparente para os usuários dos serviços, sem interromper o uso
ou o processamento de informações. Assim, caso seja necessário
atender a demandas pontuais, pode-se fazê-lo apenas para
aquela necessidade e retornar para as especificações necessárias
anteriormente, sem stress para os usuários e sem interrupções na
produção.
5. Monitoramento e medição: Por meio de uma plataforma web ou um
aplicativo móvel, pode-se acompanhar a quantidade de recursos
utilizados, a performance dos equipamentos e a quantidade
utilizada em relação à capacidade contratada. Assim, evitam-se
falhas a partir da facilidadepara gestão e da alocação de recursos,
quando necessário (CENTRALSERVER, 2020, s.p).
A implementação de Big Data e Computação em Nuvem é estratégico
para as organizações. Possibilita-as a começarem a criar um ecossistema
tecnológico, que vai não só apenas automatizar uma série de atividades, como
evitar problemas de perda de dados e informações, além de trazer um cenário
mais estabelecido de quais são as regras de negócio que estão funcionando ou
não (ONLINE DATA CLOUD, 2020). Isso resultará numa operação dirigida a
dados, na qual a partir desses dados se adquira a inteligência necessária para
entender cada comportamento e planejar melhorias, adaptações e soluções
preditivas e prescritivas que contribuirão para a sua empresa avançar na jornada
da transformação digital, de maneira mais estratégica e assertiva.
2 COMPONENTES
Big Data faz parte dos cenários da maioria das organizações, mas no
começo era difícil iniciar projetos de Big Data sem grandes investimentos, por
exemplo, em infraestrutura como data centers, software, equipe e infraestrutura
predial, a partir da Computação em Nuvem esse cenário mudou, e agora as
organizações podem aproveitar o Big Data sem ter que investir maciçamente com
instalação, armazenamento, processamento, integração e transmissão de seus
dados.
Colaborando com este contexto, vale apresentar que, segundo Microsoft
(2019), a maioria das arquiteturas de Big Data inclui alguns ou todos os seguintes
componentes: fontes de dados, armazenamento de dados, processamento em lote,
ingestão de mensagens em tempo real, processamento de fluxo, armazenamento
de dados analíticos, análise e relatório, orquestração. Todos esses itens se
conversam e definem os componentes de Big Data em Computação em Nuvem.
Neste subtópico do Tópico 1, abordaremos os oito componentes que envolvem
este cenário de Big Data em Computação em Nuvem: armazenamento,
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
7
transmissão, gestão de dados, processamento, análise, visualização, integrações
e a qualidade da aplicação. Enfim, esses componentes são importantes e devem
ser considerados em um projeto de Big Data.

2.1 ARMAZENAMENTO

O componente de armazenamento é responsável por “manter” os
dados coletados pela organização. Segundo Data Science Academy (2017), à
medida que o volume dos dados gerados aumenta e necessita ser armazenado
pelas organizações, sistemas e ferramentas sofisticadas e acessíveis vão sendo
desenvolvidas para ajudá-lo nessa tarefa. As principais opções de armazenamento
incluem: um Data Warehouse tradicional, um Data Lake, um sistema de
armazenamento distribuído / baseado em nuvem, um servidor ou até mesmo um
disco rígido de computador.
Hoje em dia, os discos rígidos tradicionais são baratos e grandes em
capacidade de armazenamento e isso pode ser muito útil e ainda serve para
pequenas organizações. De acordo com Data Science Academy (2017), quando
começa a processar grandes quantidades de dados para armazenamento e análise
ou quando os dados começam a se tornar uma parte fundamental do negócio,
um sistema distribuído mais complexo (geralmente baseado em computação
em nuvem) como o Hadoop pode ser a escolha ideal. Não há dúvida de que o
armazenamento baseado em nuvem é uma escolha excelente para a maioria das
empresas. É muito flexível, não precisa usar um sistema físico, reduzindo, assim,
a preocupação com a segurança dos dados. Além de ser bem mais barato do que
investir em sistemas dedicados de armazenamento de dados.
Segundo Poderoso (2014a), o momento tecnológico que vivemos permitiu
estabelecer formas de armazenar dados não estruturados. Armazenar e recuperar
dados não estruturados exige uma forma diferenciada em relação ao que tem sido
feito até então. Um novo padrão de banco de dados foi criado para isto. Eles são
chamados de NoSQL (Not Only SQL). E os bons e velhos arquivos texto, imagens,
voz etc. que são armazenados diretamente no sistema operacional voltam a fazer
parte do contexto da análise de dados. No entanto, Poderoso (2014a) continua
a explicar que os bancos de dados padrão SQL são amplamente conhecidos no
mundo corporativo.
Bancos de dados padrão SQL facilitaram muito o acesso e disponibilização
dos dados nas organizações. Foram criados para lidar com dados estruturados,
e quando se fala em dados estruturados, o que se quer dizer é que o dado estará
formatado para trabalhar com um padrão baseado em linhas e colunas, com uma
sintaxe robusta e uma modelagem consistente. Como informado anteriormente,
para manipulação de dados não estruturados, utiliza-se, muitas vezes, o próprio
sistema de arquivos (Linux e MS Windows, por exemplo).
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
8
Para Poderoso (2014a, s.p.) os principais componentes desta arquitetura
são (mas não se limitam a):
• Hadoop: plataforma para armazenamento e processamento de
um grande volume de dados utilizando hardware simples e que
normalmente utilizam clusters para agilizar o acesso e manipulação
dos dados.
• MapReduce: modelo de programação paralela, escalável e que
permite a utilização de hardware simples para realizar trabalhos
complexos.
• NoSQL: banco de dados que permite armazenar e recuperar dados
com menos restrições do que os bancos de dados relacionais. Possui
uma modelagem mais simples e permite aumentar a escalabilidade
e disponibilidade do ambiente.
• SQL: bancos de dados tradicionais que armazenam a maior parte
dos dados estruturados nas organizações. Os dados normalmente
têm origem em sistemas ERP, SCM (Supply Chain), CRM etc.
• DW: o Data Warehouse é um banco de dados apartado do banco de
dados dos sistemas transacionais que são modelados para facilitar a
análise de dados para a tomada de decisão.
Segundo Poderoso (2014b, s.p.), “o armazenamento envolve questões que
nascem em uma plataforma distribuída, passa pelos bancos específi cos (NoSQL)
e terminam em um ambiente de tomada de decisão” (representado pelo SQL
e Data Warehouse no mapa da Figura 2). Poderoso (2014b) não considera um
grande problema e enfatiza que, atualmente, há ferramentas que atendem com
relativa facilidade esta questão.
FONTE: Pedroso (2014b, s.p.)
FIGURA 2 – PRINCIPAIS COMPONENTES DE UMA ARQUITETURA DE BIG DATA
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
9
Segundo Microsoft (2019), armazenamento de dados (que são os dados
de operações de processamento em lote) normalmente são armazenados em um
repositório de arquivos distribuído que pode conter amplos volumes de arquivos
grandes em vários formatos. Esse tipo de repositório geralmente é chamado Data
Lake. As opções para implementar esse armazenamento incluem contêineres de
blobs ou Azure Data Lake Store no Armazenamento do Azure.
Pode-se citar como exemplo de ferramenta de armazenamento de arquivos
que faz uso de computação em nuvem o Dropbox. Ele mantém um conjunto de
servidores ligados em rede com ambiente controlado. Com o Dropbox instalado
em nossos computadores (máquina do cliente), toda vez que alteramos um
documento o salvamento é feito automaticamente e de forma instantânea para o
servidor na nuvem.
2.2 TRANSMISSÃO
A computação em nuvem executa aplicativos ou fornece conteúdo e
serviços por meio de transmissão on-line, em que, ao invés de acessar dados
e arquivos de um computador local ou físico, podem ser acessados on-line de
qualquer dispositivo que tenha acesso à internet e transmitido a qualquer hora,
em qualquer lugar.
A etapa de transmissão de dados permite que os dados possam chegar
nos sistemas da organização a partir de uma rede de dispositivos conectados.
Utilizando recursos tecnológicos como Internet of Things, Big Data e Cloud
Computing, os organizadores terão a capacidade de transmitir e dar acesso a um
incrível volume de informação. Segundo Informatica (2018), cada vez mais dados
estão se movendo para a nuvem como uma plataforma econômica, escalonável e
ágil para armazenar, processare gerenciar dados de transmissão em tempo real
tornando fácil de coletar, entregar e processar grandes quantidades de dados em
tempo real de modo eficaz.
Segundo Baldissera (2018), a fase de transmissão de Computação em
Nuvem inclui mecanismos para entregar os dados coletados para aplicações e
para diferentes servidores externos. Por conseguinte, são necessários métodos
para acessar a rede por meio de gateways e tecnologias heterogêneas (por
exemplo, com fio, sem fio, satélite). Tais elementos são utilizados no processo de
tratamento e envio dos dados coletados a serem transmitidos.
Na Computação em Nuvem as redes de computadores são transmitidas
e interligadas por milhares de computadores independentes através de redes
mais pequenas utilizadas em nossas residências (local area network – LANs) e
redes com vasta área geográfica (Wide Area Network – WANs) onde buscam
constantemente que a transmissão de dados seja feita de forma segura, eficiente
e com menor custos.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
10
Na IaaS (Infrastructure as a Service – Infraestrutura como Serviço) e
na PaaS (Platform as a Service – Plataforma como Serviço), os mecanismos de
transmissão costumam ser controlados pelo cliente, enquanto a tecnologia
subjacente é gerenciada pelo provedor; entretanto, isso dependerá das tecnologias
em uso. Os controles para evitar a transmissão não intencional de dados fora
do ambiente do cliente geralmente são mantidos pelo provedor, dependendo do
serviço específico. O cliente deve estar ciente de como os dados são transmitidos
entre os componentes para garantir que os dados sejam criptografados para todas
as transmissões em canais não privados. Isso pode incluir transmissões dentro do
próprio ambiente do cliente (por exemplo, entre VMs do cliente) (PCI SECURITY
STANDARDS COUNCIL, 2018).
Explica ainda o autor que no SaaS (Software as a service – Software como
serviço), o provedor retém o controle total sobre os mecanismos de transmissão.
O cliente tem pouco ou nenhum controle sobre como ou onde os dados são
transmitidos dentro do ambiente de nuvem. O cliente é responsável por garantir
que os dados “clear-text” não sejam passados ao provedor para transmissão para
redes públicas ou ambientes não confiáveis (como outros clientes em nuvem),
(PCI SECURITY STANDARDS COUNCIL, 2018).
Segundo a 19ª edição da Pesquisa Global de Entretenimento e Mídia
2018-2022, feita pela PwC, até 2021 o mercado de mídia e entretenimento
deve gerar US$ 2,23 trilhões, um crescimento de 4,2% ao ano. Esse
incremento de faturamento é impulsionado por mudanças no modo
de gestão, transmissão e, principalmente, consumo de mídia. O
aumento do número de acessos à internet e o consequente refinamento
da qualidade das redes de transmissão fará com que nossa relação
com a web se torne ainda mais importante (SCHLEMPER, 2018, s.p).
2.3 COLETA DE DADOS

Os dados das organizações estão em constante manipulação e, muitas
vezes, ao se criar novos dados é necessário novos investimentos em infraestrutura.
Data Science Academy (2017) reforça que os requisitos de infraestrutura para a
captura ou coletar dados dependem do tipo de dado que será necessário, mas
as principais opções podem incluir: sensores (que podem ser instalados em
dispositivos, máquinas, edifícios ou em veículos, embalagens ou qualquer outro
lugar de onde você gostaria de capturar dados), aplicativos que geram dados de
usuários (por exemplo, uma app para celular que permite que os clientes façam
pedidos mais facilmente), vídeo de circuito fechado de TV (CCTV), beacons (como
iBeacons da Apple, que permitem capturar e transmitir dados para telefones
celulares), mudanças em seu site que levam os clientes a obter mais informações
e os perfis de redes sociais (DATA SCIENCE ACADEMY, 2017).
A primeira etapa de Big Data ocorre uma coleta de dados para
armazenamento, por exemplo, os dados podem ser coletados no e-commerce em
cloud quando o usuário clicar em anúncios, login do usuário no site, ao obter
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
11
o endereço de IP, endereço de e-mail, localização, históricos de buscas ou de
compras entre outros. Devemos considerar que a etapa de coleta de dados faz
parte dos objetivos de negócio de uma organização e, conforme Leucotron (2019),
se a intenção é ganhar conhecimento sobre o comportamento do consumidor a
fim de alimentar a equipe de marketing, o projeto pode girar em torno da coleta
de dados como: informações demográficas; histórico de buscas e compras; tipo de
dispositivo e sistema operacional e endereço de e-mail.
Vale lembrar que esse processo deve ser feito de modo transparente e que
comprove o consentimento da pessoa cujos dados serão reunidos. Essa prática é
importante para a reputação da marca e evita complicações legais, especialmente
quando a LGPD entrar em vigor (LEUCOTRON, 2019).
Microsoft (2019) pontua que todas as soluções de Big Data começam
com uma ou mais fontes de dados, como exemplos podemos incluir: (1)
Armazenamentos de dados de aplicativo, como bancos de dados relacionais; (2)
Arquivos estáticos produzidos por aplicativos, como arquivos de log do servidor
Web; e (3) Fontes de dados em tempo real, como dispositivos IoT.
Para Penuela (2021), a coleta de dados essencial para as tecnologias de
Big Data, embora extremamente valorosa, também é o grande desafio de todo
o processo. Seja ao coletar dados de um único usuário ou ao processar dados
acumulados de diversas fontes, o grande volume de informação bruta que deve
ser armazenada e coletada chega à casa dos assustadores quintilhões de bytes.
2.4 PROCESSAMENTO

A respeito do processamento de Big Data em Computação em Nuvem,
Microsoft (2019) destaca que, como os conjuntos de dados são muito grandes,
geralmente uma solução de Big Data deve processar arquivos de dados usando
trabalhos de lote de execução longa para filtrar, agregar e preparar os dados
para análise. Normalmente, esses trabalhos envolvem ler arquivos de origem,
processá-los e gravar a saída para novos arquivos. Neste caso, opções incluem
executar trabalhos de U-SQL no Azure Data Lake Analytics, usar trabalhos Hive,
Pig ou de Mapear/Reduzir personalizados em um cluster HDInsight Hadoop ou
usar programas de Java, Scala ou Python em um cluster HDInsight Spark.
No que abrange ao tema de processamento dos dados a partir das
soluções de Big Data em Computação em Nuvem, Microsoft (2019, s.p.) vem nos
apresentar algumas importantes considerações a este respeito:
• Ingestão de mensagens em tempo real: se a solução inclui fontes
em tempo real, a arquitetura deve incluir uma maneira de capturar
e armazenar mensagens em tempo real para processamento de
fluxo. Isso pode ser um armazenamento de dados simples, em
que as mensagens de entrada são removidas para uma pasta para
processamento. No entanto, muitas soluções precisam de um
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
12
repositório de ingestão de mensagens para atuar como buffer de
mensagens e dar suporte a processamento de expansão, entrega
confiável e outras semânticas de enfileiramento de mensagens.
Opções incluem Hubs de Eventos do Azure, Hubs de IoT do Azure
e Kafka.
• Processamento de fluxo: depois de capturar mensagens em tempo
real, a solução deve processá-las filtrando, agregando e preparando
os dados para análise. Os dados de fluxo processados são gravados
em um coletor de saída. O Azure Stream Analytics oferece um serviço
de processamento de fluxo gerenciado baseado em consultas SQL
em execução perpétua que operam em fluxos não associados. Você
também pode usar tecnologias de streaming Apache de software
livre, como Storm e Spark Streaming em um cluster HDInsight.
Para muitos aplicativos, o tempo máximo que leva para processar uma
solicitação está relacionado ao tempo de execução do Sistema de Gerenciamento
de Banco de Dados (SGBD) que deve prezarpela sua qualidade ou desempenho.
Técnicas de provisionamento dinâmico foram projetadas para lidar com cargas
de trabalho irregulares e evitar violações de nível de acordo de serviço. No que
diz respeito ao processamento distribuído, Java disponibiliza diversos recursos
de comunicação entre componentes, tais como: chamadas de funções remotas
(Sockets e RMI) e integração com os protocolos conhecidos de internet (TCP/IP,
HTTP, Telnet etc.) (OLIVEIRA; FRAGA; MONTEZ, 2002).
Os SGBDs em nuvem integram ambientes de processamento de dados
que executam concorrentemente cargas de trabalhos heterogêneas. Por
isso, é importante que uma abordagem de modelagem do desempenho
tenha a habilidade de estimar os impactos de execução concorrentes
de requisições em uma carga de trabalho em evolução ao longo do
tempo (DUGGAN et al., 2011 apud FARIAS, 2016, p. 15).
O processamento em tempo real é um requisito necessário para muitas
situações, por exemplo, infraestruturas críticas e sistemas de saúde. Além disso,
em outros cenários, o verdadeiro conhecimento reside nos dados, já que pode
ser usado para evitar que certas situações surjam e ajam antecipadamente
(BALDISSERA, 2018).
2.5 ANÁLISE DE DADOS

A partir do momento que precisar usar os dados armazenados para
descobrir algo útil, a organização precisará processá-los e analisá-los. Então, esta
área será primordial para transformar os dados em insights. É nesse momento
que as linguagens de programação e plataformas entram em jogo. Portanto, para
Data Science Academy (2017), existem três etapas básicas neste processo:
• Preparar os dados (identificar, limpar e formatar os dados para que estejam
prontos para análise).
• Construir o modelo analítico.
• Extrair a conclusão a partir dos conhecimentos adquiridos.

TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
13
Por exemplo, existem diversos softwares de empresas como IBM, Oracle e
Google que podem ajudá-lo a realizar análises de dados, ou seja, converter dados
"brutos" em insights ou poderosas soluções de código aberto (como R e Python).
O Google tem o BigQuery, que é projetado para permitir que alguém com um
pouco de conhecimento em ciência de dados execute consultas em grandes
datasets. Outras opções de ferramentas de análise incluem a Cloudera, Microsoft
HDInsight e Amazon Web Services. Muitas startups estão surgindo no mercado,
oferecendo soluções simples que permitem alimentar os dados enquanto elas
geram os insights mais importantes e sugerem ações a serem tomadas (DATA
SCIENCE ACADEMY, 2017).
Por fim, e não menos importante, o uso de técnicas de análise avançadas,
Machine Learning (aprendizagem de máquina) com algoritmos especialmente
testados, desenvolvidos e aplicados para modelos de previsão permitem que o
terceiro V (Velocidade) atenda às necessidades do negócio. Mostrar essas análises
de maneira adequada ao tomador de decisão ou estabelecer visualização para
modelos criados é o produto final de um projeto de Big Data (PODEROSO, 2014b).
Microsoft (2019) discute a importância da análise de dados sobre todos os
dados em armazenamento, ou seja, muitas soluções de Big Data preparam dados
para análise e então veiculam os dados processados em um formato estruturado
que pode ser consultado usando ferramentas analíticas. O armazenamento de
dados analíticos usado para atender a essas consultas pode ser um Data Warehouse
relacional estilo Kimball, como visto na maioria das soluções de BI (Business
Intelligence) tradicionais. Como alternativa, os dados podem ser apresentados
por meio de uma tecnologia NoSQL de baixa latência, como HBase ou um banco
de dados Hive interativo que oferece uma abstração de metadados sobre arquivos
de dados no armazenamento de dados distribuído. O Azure Synapse Analytics
fornece um serviço gerenciado para armazenamento de dados em larga escala
baseado em nuvem. O HDInsight dá suporte a Hive interativo, HBase e Spark
SQL, que também pode ser usado para veicular dados para análise.
Segundo Microsoft (2019), a meta da maioria das soluções de Big Data
é gerar insights sobre os dados por meio de análise e relatórios. Para capacitar
os usuários a analisar os dados, a arquitetura pode incluir uma camada de
modelagem de dados, como um cubo OLAP multidimensional ou um modelo
de dados tabular no Azure Analysis Services. Também pode dar suporte a
Business Intelligence de autoatendimento, usando as tecnologias de modelagem
e visualização do Microsoft Power BI ou do Microsoft Excel. Análise e relatórios
também podem assumir a forma de exploração de dados interativos por cientistas
de dados ou analistas de dados. Para esses cenários, muitos serviços do Azure
dão suporte a blocos de anotações analíticos, como Jupyter, permitindo que
esses usuários aproveitem suas habilidades existentes com Python ou R. Para
exploração de dados em larga escala, você pode usar o Microsoft R Server, seja no
modo autônomo ou com Spark.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
14
Para Mysore, Khupat e Jain (2014, s.p.):
A camada de análise lê os dados digeridos pela camada de tratamento
e armazenamento de dados. Em alguns casos, a camada de análise
acessa os dados diretamente na fonte. É necessário um planejamento
cuidadoso para projetar a camada de análise. É necessário tomar
decisões em relação a como gerenciar tarefas para: (1) produzir a
analítica desejada; (2) obter insights a partir dos dados; (3) localizar
as entidades necessárias; (4) localizar as fontes de dados que fornecem
dados para essas entidades; e (5) entender quais algoritmos e
ferramentas são necessários para realizar a analítica.
Segundo IBM (2021, s.p.), “a análise de Big Data é o uso de técnicas
analíticas avançadas aplicadas em conjuntos de dados muito grandes e diversos
que incluem dados estruturados, semiestruturados e não estruturados, de
diferentes fontes e de tamanhos diferentes de terabytes a zettabytes”.
Ainda, segundo IBM (2021, s.p.):
A análise de Big Data permite que analistas, pesquisadores e usuários
de negócios tomem decisões melhores e mais rápidas usando
dados que antes eram inacessíveis ou inutilizáveis. As empresas
podem utilizar técnicas avançadas de análise, como análise de texto,
machine learning, análise preditiva, mineração de dados, estatística
e processamento de linguagem natural para obter novos insights
a partir de fontes de dados previamente não exploradas de forma
independente ou junto a dados corporativos existentes.
2.6. VISUALIZAÇÃO E SAÍDA DE DADOS
O componente de visualização é responsável por gerar as informações
extraídas da análise de dados, área responsável por transmiti-las às pessoas que
necessitam para realizar a tomada de decisões da organização. É essencial que
essa informação transmitida precise ser oferecida por meio de uma comunicação
clara e concisa reportando resultados em forma de breves relatórios, gráficos,
figuras, recomendações-chave ou dashboards interativos.
Data Science Academy (2017) destaca que constantemente se observa que
as organizações enterram os reais “tesouros” de informações que podem afetar a
estratégia quando recebem um relatório de 50 páginas ou um gráfico complicado
que ninguém entende. É evidente que não se pode esperar que pessoas muito
ocupadas acessem uma montanha de dados com infinitos apêndices de planilha
e extraia mensagens-chave.
Essa mesma fonte enfatiza que se as ideias-chave não forem claramente
apresentadas, não resultarão em ação. Enfim, as principais opções de saída de
dados incluem dashboards de gerenciamento, plataformas de visualização de
dados comerciais que tornam os dados atraentes e fáceis de entender, utilizando
gráficos simples (como barras e linhas) que comunicam informações. Para a
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
15
maioria das pequenas empresas que procuram melhorar a sua tomada de decisão,
usar gráficos simples ou ferramentas de visualização como nuvens de palavras
são maisdo que suficientes para apresentar informações sobre os dados (DATA
SCIENCE ACADEMY, 2017).
Segundo Poderoso (2014b), a visualização dos dados envolve o uso e a
prática de técnicas estatísticas adequadas para responder às questões de negócio
que justificarão o desenvolvimento do projeto. Com esses importantes recursos da
matemática, será possível estabelecer análises de correlação que utilizam técnicas
de Data Mining (mineração de dados) aplicadas em um grande volume de dados.
As organizações poderão compreender seus processos e negócios ao
visualizar todos seus dados que estarão disponíveis (armazenados) nos mais
variados tipos de banco de dados. Na etapa de visualização através de gráficos,
infográficos, planilhas e tabelas, por exemplo, ferramentas visuais que favorecem
uma interpretação mais otimizada das informações eliminando ruídos e fatores
que desviem o foco durante a análise.
Para Oliveira Junior (2019), a visualização e saída de dados:
É a parte difícil do Big Data porque significa tornar essa vasta
quantidade de dados compreensível de uma maneira fácil de ler e
entender. Com as visualizações corretas, os dados brutos podem ser
colocados em uso. As visualizações, claro, não são gráficos comuns ou
gráficos de pizza. São gráficos complexos que podem incluir muitas
variáveis de dados, permanecendo legíveis e compreensíveis. A
visualização pode não ser a tarefa tecnologicamente mais difícil, mas
certamente é a mais desafiadora. O uso de um gráfico para contar uma
história complexa é muito difícil, mas também extremamente crucial.
De acordo com Tutorialspoint (2017 apud OLIVEIRA JUNIOR, 2019, p. 5):
O Power BI é uma ferramenta de visualização de dados e BI que
converte dados de diferentes fontes em Dashboards e relatórios de
BI. O Power Bi suíte fornece vários softwares, conectores e serviços, o
Power BI Desktop, o Power BI servisse baseado em SaaS e o Power BI
mobile estão disponíveis para diversas plataformas. Esse conjunto de
serviços podem ser usados pelos usuários para consumir dados e criar
relatórios. O Power BI inclui componentes como Power BI Desktop,
usado para criar relatórios e visualizações de dados, enquanto os
Serviços de BI (Software como Serviço – SaaS) são usados para
publicar os relatórios, o Gateway do Power BI pode ser usado para
manter seus dados atualizados e conectados às fontes de dados locais
sem que haja a necessidade de mover os dados, o aplicativo mobile é
possível conectar e visualizar os dados de qualquer lugar.
Ainda, essa mesma fonte nos informa que:
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
16
O WEKA é um software open source que fornece ferramentas para
pré-processamento de dados, implementação de vários algoritmos
de Machine Learning e visualização para que você possa desenvolver
técnicas de aprendizado de máquina e aplicá-las a problemas reais de
mineração de dados. O WEKA oferece muitos estágios ao lidar com o
Big Data, começando com os dados brutos coletados em campo que
podem conter valores nulos e campos irrelevantes. Com a ferramenta
de pré-processamento é possível limpar estes dados e salvá-los
localmente para aplicar os algoritmos (TUTORIALSPOINT, 2019 apud
OLIVEIRA JUNIOR, 2019, p. 6).
Quer saber como ocorre a visualização de dados gerados por dispositivos da
Internet das Coisas (Internet of Things – IoT)? Não deixe de ler o artigo que Jair de Castro
Oliveira Junior nos apresenta. Ótima leitura!
FONTE: <https://revistas.anchieta.br/index.php/RevistaUbiquidade/article/
download/1527/1404/>. Acesso em: 7 abr. 2021.
DICAS
2.7 INTEGRAÇÕES
Considerando que SaaS (Software as a service – Software como serviço)
e PaaS (Platform as a Service – Plataforma como Serviço) estão na Web e que
podem ser acessados pelos usuários de qualquer lugar e a qualquer momento,
por exemplo, a PaaS oferece uma infraestrutura de alto nível de integração
para implementar e testar aplicações na nuvem. Neste caso, o usuário não
administra ou controla a infraestrutura subjacente, incluindo rede, servidores,
sistemas operacionais ou armazenamento, mas tem controle sobre as aplicações
implantadas e, possivelmente, as configurações das aplicações hospedadas
nesta infraestrutura. A PaaS fornece um sistema operacional, linguagens de
programação e ambientes de desenvolvimento para as aplicações, auxiliando
na implementação de sistemas de software, já que contém ferramentas de
desenvolvimento e colaboração entre desenvolvedores (GUERREIRO, 2018).
Segundo Poderoso (2014b), Big Data vem sendo definido com 3 Vs:
Volume, Velocidade e Variedade. A coleta e integração de dados também é um
problema que envolve os dois primeiros Vs. Está relacionado à Computação em
Nuvem, mas encontra seus principais desafios na ingestão e limpeza / tratamento
de dados.
Para Microsoft (2019), a maioria das soluções de Big Data consiste em
operações de processamento de dados repetidos, encapsuladas em fluxos de
trabalho, que transformam dados de origem, movem dados entre várias origens
TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
17
e coletores, carregam os dados processados em um armazenamento de dados
analíticos ou efetuam o push dos resultados diretamente para um relatório ou
painel. Para automatizar esses fluxos de trabalho, você pode usar uma tecnologia
de orquestração, como Azure Data Factory ou Apache Oozie e Sqoop. Soluções de
Big Data aproveitam o paralelismo, possibilitando soluções de alto desempenho
dimensionadas para grandes volumes de dados (MICROSOFT, 2019).
Quanto ao aspecto de integração, vale destacar duas grandes atribuições a
seu respeito que são a possibilidade de oferecer interoperabilidade com soluções
existentes. Os componentes da arquitetura de Big Data também são usados para
processamento IoT e soluções de BI empresariais, permitindo que você crie uma
solução integrada entre cargas de trabalho de dados e, por fim, sobre a escala
elástica onde todos os componentes da arquitetura de Big Data dão suporte a
provisionamento de expansão para que você possa ajustar sua solução para
cargas de trabalho grandes ou pequenas e pagar somente pelos recursos que usa
(MICROSOFT, 2019).
Para Mysore, Khupat e Jain (2014, s.p.):
Aplicativos de Big Data adquirem dados de várias origens, fornecedores
e fontes, que são armazenados em sistemas como HDFS, NoSQL
e MongoDB. Essa camada vertical é usada por vários componentes
(aquisição de dados, compilação de dados, gerenciamento de modelo
e interceptor de transação, por exemplo) e é responsável por conectar
várias fontes de dados. Para integrar informações de fontes de dados
com características diferentes (protocolos e conectividade, por
exemplo), é necessário conectores e adaptadores de qualidade. Estão
disponíveis aceleradores para conectar às fontes mais conhecidas
e usadas. Isso inclui adaptadores de mídias sociais e de dados
climáticos. Essa camada também pode ser usada por componentes
para armazenar informações em armazenamentos de big data e para
recuperar informações desses armazenamentos para processamento.
A maioria dos armazenamentos de Big Data possui serviços e APIs
para armazenar e recuperar as informações.
Segundo Sousa et al. (2012, s.p.):
Com a evolução da Computação em Nuvem, as empresas necessitam
integrar os diferentes ambientes de TI, pois essas empresas utilizam
modelos híbridos, nos quais os sistemas instalados possam interagir
com diversos provedores. Contudo, não existem padrões de integração
de sistemas de computação em nuvem. O formato XML pode ser uma
alternativa para mover dados entre ambientes em nuvem, mas os
sistemas também precisam gerenciar dados localmente. A utilização de
APIs pode auxiliar neste processo de integração. Por exemplo, as APIs
da Amazon estão se tornando um padrão de fato para serviços sob
demanda. Contudo, a quantidade de tecnologias envolvidas é muito
grande, tornando-se um desafio padronizar as diversas interfacese serviços, bem como fornecer interoperabilidade entre recursos
heterogêneos. Desempenho e a evolução dos serviços são aspectos
importantes na integração de nuvem, pois as aplicações possuem
requisitos de QoS e as evoluções são constantes. Dessa forma, o uso de
tecnologias de integração de dados, serviços e linguagens devem ser
utilizadas e adaptadas no contexto da computação em nuvem.
UNIDADE 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
18
2.8. QUALIDADE DA APLICAÇÃO
A qualidade das aplicações Big Data é fundamental, Aevo (2019)
destaca que com dados sem qualidade, sem armazenamento na nuvem (Cloud
Computing) e sem garantia de confiabilidade, relatórios e análises inconsistentes
podem ser gerados. Para que isso não aconteça, é importante utilizar um sistema
de qualidade que filtre os dados e organize-os de forma lógica, identificando
possíveis problemas antes que os dados sejam armazenados.
Para Mysore, Khupat e Jain (2014, s.p.), a camada de qualidade dos serviços
das aplicações Big Data em Computação em Nuvem “é responsável por definir
qualidade de dados, políticas relacionadas à privacidade e segurança, frequência
de dados, tamanho de busca e filtros de dados”. A seguir será apresentado cada
uma destas visões:
• Qualidade de dados: (1) identificação integral de todos os elementos de dados
necessários; (2) fornecimento dos dados dentro de um período de tempo
aceitável; (3) verificação precisa para ver se os dados respeitam as regras de
precisão; (4) aderência a uma linguagem comum (elementos de dados atendem
aos requisitos expressos em linguagem de negócios simples); (5) verificação
consistente de que os dados de vários sistemas respeitam as regras de
consistência; e (6) conformidade técnica para cumprir a especificação de dados
e as diretrizes de arquitetura de informações.
• Políticas sobre privacidade e segurança: políticas são necessárias para proteger
dados sensíveis. Dados adquiridos de agências e provedores externos podem
incluir informações sensíveis (como o contato de um usuário do Facebook
ou informações de precificação de produtos). Dados podem vir de diferentes
regiões e países e devem ser tratados de acordo com sua origem. É necessário
tomar decisões sobre mascaramento de dados e seu armazenamento. Considere
as políticas de acesso de dados a seguir:
ᵒ Disponibilidade de dados.
ᵒ Grau de gravidade de dados.
ᵒ Autenticidade de dados.
ᵒ Compartilhamento e publicação de dados.
ᵒ Armazenamento e retenção de dados, incluindo perguntas como: é possível
armazenar os dados externos? Se sim, por quanto tempo? Que tipo de dados
pode ser armazenado?
ᵒ Restrições de fornecedores de dados (políticas, técnicas, regionais).
ᵒ Termos de uso de mídias sociais (consulte Recursos).
• Frequência de dados: com que frequência estão disponíveis os dados novos? É
sob demanda, contínuo ou off-line?
• Tamanho da busca: este atributo ajuda a definir o tamanho dos dados que é
possível buscar e consumir por busca.
• Filtros: filtros padrão removem dados indesejados e ruído e deixam apenas os
dados necessários para análise (MYSORE; KHUPAT; JAIN, 2014).

TÓPICO 1 — APLICAÇÃO DO BIG DATA EM CLOUD COMPUTING
19
Segundo Sousa et al. (2012), em ambientes de Computação em Nuvem,
a qualidade de serviço é uma característica definida entre o provedor e o
usuário, em que o usuário do serviço tem algumas garantias, como desempenho
e disponibilidade. Apesar das limitações de rede e segurança, as soluções em
nuvem devem fornecer elevado desempenho, além de serem flexíveis para se
adaptar diante de uma determinada quantidade de requisições. Uma questão
relevante para garantir a qualidade em qualquer infraestrutura compartilhada é
isolar o desempenho de aplicações diferentes. Aplicações podem adicionar uma
carga variável sobre a nuvem e é necessário verificar como esta carga de trabalho
irá afetar as outras aplicações que compartilham o mesmo hardware (SOUSA et
al., 2012).
20
Neste tópico, você aprendeu que:
• Big Data e Computação em Nuvem são dois conceitos que funcionam de maneira
interdependente e estão transformando a forma de negócios desempenharem
suas funções. Juntos, fornecem uma solução que é escalável e adaptável para
grandes conjuntos de dados e análise de negócios on-line.
• A Computação em Nuvem organiza toda a parte de armazenamento de dados
deixando-os acessíveis e simplificando à rotina para trabalhar com um grande
volume de dados.
• Existem muitas oportunidades e benefícios na adoção de Computação em
Nuvem para projetos de Big Data, como deixar os dados acessíveis de qualquer
localidade, reduzir custos com infraestrutura de TI para armazenamento de
grandes conjuntos de dados e custos com licença e manutenção de software
(DATA SCIENCE ACADEMY, 2020).
• As arquiteturas de Big Data em Computação em Nuvem incluem os seguintes
componentes: (1) armazenamento; (2) transmissão; (3) coleta de dados; (4)
processamento; (5) análise de dados; (6) visualizações; (7) integrações e
aspectos; e (8) qualidade da aplicação.
ᵒ Armazenamento: é responsável por “manter” os dados coletados pela
organização, cujos dados normalmente são armazenados em um repositório
de arquivos distribuído que pode conter amplos volumes de arquivos
grandes em vários formatos. Os principais componentes desta arquitetura
são: Hadoop, MapReduce, NoSQL, SQL e Data Warehouse.
ᵒ Transmissão: a transmissão de dados permite que os dados possam chegar
nos sistemas da organização a partir de uma rede de dispositivos conectados
utilizando métodos para acessar a rede por meio de gateways e tecnologias
heterogêneas (por exemplo, com fio, sem fio, satélite), para tratar e para o
encaminhamento seus dados, ou seja, ter a capacidade de transmitir e dar
acesso a um incrível volume de informação. Nesta fase inclui mecanismos
para entregar os dados coletados para aplicações e para diferentes servidores
externos.
o Coleta de dados: os requisitos de infraestrutura para a captura ou coletar
dados dependem do tipo de dado que será necessário, mas as principais
opções podem incluir por exemplo os sensores e os aplicativos que geram
dados de usuários. A coleta de dados é essencial para as tecnologias de Big
Data embora extremamente valorosa, também é o grande desafio de todo o
processo e objetivos de negócio de uma organização.
ᵒ Processamento: geralmente uma solução de Big Data em Cloud deve
processar arquivos de dados usando trabalhos de lote de execução longa
para filtrar, agregar e preparar os dados para análise. O tempo máximo
RESUMO DO TÓPICO 1
21
que as aplicações levam para processar uma solicitação está relacionado
ao tempo de execução do Sistema de Gerenciamento de Banco de Dados
(SGBD) que deve prezar pela sua qualidade e desempenho.
ᵒ Análise de dados: a partir do momento que precisar usar os dados
armazenados para descobrir algo útil, a organização precisará processá-los
e analisá-los para transformar os dados em insights. Podem utilizar técnicas
avançadas de análise, como análise de texto, machine learning, análise
preditiva, mineração de dados, estatística e processamento de linguagem
natural para obter novos insights a partir de fontes de dados previamente
não exploradas de forma independente ou junto a dados corporativos
existentes.
ᵒ Visualização e saída de dados: é responsável por gerar as informações
extraídas da análise de dados, área responsável por transmiti-las às pessoas
que necessitam para realizar a tomada de decisões da organização. As
principais opções de saída de dados incluem dashboards de gerenciamento,
plataformas de visualização de dados comerciais que tornam os dados
atraentes e fáceis de entender, utilizando por exemplo recursos do tipo
gráficos que comunicam informações.
ᵒ Integrações: com a evolução da Computação em Nuvem, as empresas
necessitam integrar os diferentes ambientes de TI, pois estas empresas
utilizam modelos híbridos,nos quais os sistemas instalados possam interagir
com diversos provedores permitindo por exemplo que os três modelos de
Serviços através de Software como um Serviço (SaaS), Plataforma como um
Serviço (PaaS) e Infraestrutura como um Serviço (IaaS) integrem informações
de fontes de dados com características diferentes (protocolos e conectividade,
por exemplo).
• Qualidade da aplicação: a camada de qualidade das aplicações Big Data em
Computação em Nuvem é responsável por definir qualidade de dados, políticas
relacionadas à privacidade e segurança, frequência de dados, tamanho de
busca e filtros de dados.
22
1 Segundo Data Science Academy (2020), o aumento da Computação em
Nuvem tem sido um precursor e facilitador para o surgimento do Big Data.
Embora o Big Data traga muitas oportunidades atraentes, as empresas
também enfrentam muitos desafios. Coleta dos dados, armazenamento,
pesquisa, compartilhamento, análise e visualização. Cada uma destas
tarefas requer diferentes abordagens, diferentes níveis de segurança,
infraestrutura e profissionais capacitados. Com relação a esta abordagem
de Big Data e Computação em Nuvem, analise as sentenças a seguir:
FONTE: Adaptado de DATA SCIENCE ACADEMY. Big data e Cloud Computing: desafios e
oportunidades. Disponível em: http://datascienceacademy.com.br/blog/big-data-e-cloud-
-computing-desafios-e-oportunidades/. Acesso em: 24 fev. 2021.
I- Computação em Nuvem e Big Data fornecem uma solução que é escalável
e adaptável para grandes conjuntos de dados e análise de negócios onde
todos os recursos de dados tornando-se facilmente acessíveis e com custo
reduzido para a organização.
II- A Computação em Nuvem não contém suportes necessários para
extraírem do Big Data os insights necessários para a tomada de decisão
mais consciente, pois, como funcionam de forma interdependentes, seus
recursos tecnológicos de integração são insuficientes.
III- Com Big Data as organizações podem processar e armazenar grandes
conjuntos de dados de maneira interdependente, disponíveis tanto
localmente quanto na Computação em Nuvem, em que, juntos, estão
transformando a forma de negócios desempenharem suas funções.
Assinale a alternativa CORRETA:
a) ( ) Somente a sentença I está correta.
b) ( ) Somente a sentença II está correta.
c) ( ) Somente a sentença III está correta.
d) ( ) As sentenças I e III estão corretas.
2 Buscar vantagens competitivas e alcançar resultados expressivos com
seus investimentos, fez com que as organizações invistam em ferramentas
e desenvolvimento de projetos em Big Data para superar todos esses
obstáculos de coletar, armazenar, pesquisar, compartilhar, analisar e
visualizar os dados. No que diz respeito às oportunidades e aos benefícios
na adoção de Computação em Nuvem para projetos de Big Data, classifique
V para as sentenças verdadeiras e F para as falsas:
( ) Escalabilidade com rápida expansão da infraestrutura para acomodar um
novo projeto.
( ) Segurança e integrações dos dados normalmente menor do que na rede
corporativa.
AUTOATIVIDADE
23
( ) Redução nos custos de backup de dado.
( ) Redução de custo com infraestrutura de TI para armazenamento de
grandes conjuntos de dados.
Assinale a alternativa que apresenta a sequência CORRETA:
a) ( ) V – F – V – F.
b) ( ) V – F – V – V.
c) ( ) F – F – V – F.
d) ( ) V – V – F – V.
3 A informação e a transmissão estão cada vez mais descentralizados e
distribuídos, aumentando o desempenho dos serviços de nuvem. Portanto,
a arquitetura de computação em nuvem e soluções deve ser definida a partir
de uma infraestrutura de computação para Big Data que permita obter
fontes, armazenamento e processamento de dados. No que se refere aos
componentes de armazenamento, transmissão e coleta de dados, analise as
sentenças a seguir:
I- O componente de armazenamento é responsável por “manter” os dados
coletados pela organização e as principais opções de armazenamento
incluem, por exemplo, o Data Warehouse e sistema de armazenamento
distribuído / baseado em nuvem.
II- A etapa de transmissão de dados permite que os dados possam chegar nos
sistemas da organização a partir de uma rede de dispositivos conectados
para entregar os dados coletados para aplicações e para diferentes
servidores externos.
III- A captura ou a coleta de dados dependem do tipo de dado que será
necessário, em que todos os aplicativos de coleta são inteligentes para
extrair e gerar dados de usuários.
Assinale a alternativa CORRETA:
a) ( ) Somente a sentença I está correta.
b) ( ) Somente a sentença II está correta.
c) ( ) Somente a sentença III está correta.
d) ( ) As sentenças I e II estão corretas.
4 As soluções em nuvem e de Big Data podem ser usadas, entre outras coisas,
para análise de dados em tempo real, redução de custo com infraestrutura
de TI para armazenamento de grandes conjuntos de dados, obter também
a redução no custo com licença e manutenção de software e possibilitar
que os dados sejam acessíveis de qualquer localidade através de uma
infraestrutura de excelência para o processamento, análise, visualização e
integração dos dados. Com relação a esses quatro componentes, analise as
sentenças a seguir:
24
I- Processamento: solução de Big Data deve processar arquivos de dados
usando trabalhos de lote de execução longa para filtrar, agregar e preparar
os dados para análise.
II- Análise: serve para capturar os dados, construir o modelo analítico e
armazená-los a partir dos conhecimentos adquiridos.
III- Visualização: irá gerar as informações extraídas da análise de dados, área
responsável por transmiti-las às pessoas que necessitam para realizar a
tomada de decisões da organização.
IV- Integrações: permitir que diversos provedores estejam conectados,
porém com baixa interoperabilidade e acesso às soluções existentes para o
compartilhamento de informações.
Assinale a alternativa CORRETA:
a) ( ) Somente a sentença I está correta.
b) ( ) Somente a sentença II está correta.
c) ( ) As sentenças II e IV estão corretas.
d) ( ) As sentenças I e III estão corretas.
5 Segundo Taurion (2009, p. 2), Cloud Computing, ou Computação em Nuvem,
pode ser definido como “um conjunto de recursos como capacidade de
processamento, armazenamento, conectividade, plataformas, aplicações e
serviços disponibilizados na internet por diferentes aplicações para as áreas
de negócios, levando em consideração a qualidade de uso das aplicações”.
No que se refere à qualidade de dados e privacidade e segurança, assinale
a alternativa CORRETA:
FONTE: Adaptado de TAURION, C. Computação em nuvem: transformando o mundo da
tecnologia da informação. Rio de Janeiro: Brasport, 2009.
a) ( ) Qualidade de dados compõe entre outros fatores a identificação integral
de todos os elementos de dados necessários e o fornecimento dos dados
dentro de um período de tempo aceitável.
b) ( ) As políticas de acesso de dados não focam nos aspectos de disponibilidade
de dados, do grau de gravidade de dados, da autenticidade de dados e do
compartilhamento e publicação de dados.
c) ( ) Aspectos de qualidade e política de acesso aos dados são considerados
estratégicos em uma organização e devem sofrer auditorias por especialistas
da área de segurança pelas organizações.
d) ( ) Qualidade dos dados visa garantir permissões de acesso e instituir
políticas de acesso a estes dados.
25
TÓPICO 2 —
UNIDADE 1
DESAFIOS PARA IMPLEMENTAÇÃO BIG DATA EM CLOUD
1 INTRODUÇÃO
Dando continuidade aos nossos estudos, neste tópico, serão apresentados
alguns desafios para a implementação de Big Data em Cloud Computing. Como
em tudo, sempre há o lado bom e ruim, por isso, analisaremos Cloud Computing
por diversas perspectivas. Sendo assim, veremos, nesta unidade, como minimizar
os impactos e obter vantagem na aplicação desses conceitos.
Talvez poucas áreas de estudos tenham tanta evolução em tão pouco
tempo quanto a área de tecnologia,