Buscar

Big Data e Ciência de Dados - Unidade 4 - Big Data e Cloud Computing

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Unidade 4
Big Data, Ia e Cloud Computing
Big Data e 
Ciência de Dados
Diretor Executivo 
DAVID LIRA STEPHEN BARROS
Gerente Editorial 
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico 
TIAGO DA ROCHA
Autoria 
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva 
Olá. Sou graduada em Sistemas da Informação pela Universidade de 
Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação 
pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, 
sou doutoranda em Sistema e Computação pela UFRN e professora 
conteudista na elaboração de cadernos.
Alan de Oliveira Santana 
Olá. Sou graduado em Ciência da Computação pela Universidade 
do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da 
Computação pela Universidade Federal do Rio Grande do Norte (UFRN). 
Atualmente, sou professor conteudista, elaborador de cadernos de 
questões e doutorando em Ciências da Computação. Como cientista, 
atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de 
sistemas com ênfase na educação.
Desse modo, fomos convidados pela Editora Telesapiens a integrar 
seu elenco de autores independentes. Estamos muito satisfeitos com o 
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual 
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez 
que:
OBJETIVO:
para o início do 
desenvolvimento 
de uma nova 
competência;
DEFINIÇÃO:
houver necessidade 
de se apresentar um 
novo conceito;
NOTA:
quando necessária 
observações ou 
complementações 
para o seu 
conhecimento;
IMPORTANTE:
as observações 
escritas tiveram que 
ser priorizadas para 
você;
EXPLICANDO 
MELHOR: 
algo precisa ser 
melhor explicado ou 
detalhado;
VOCÊ SABIA?
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo, se forem 
necessárias;
SAIBA MAIS: 
textos, referências 
bibliográficas 
e links para 
aprofundamento do 
seu conhecimento;
REFLITA:
se houver a 
necessidade de 
chamar a atenção 
sobre algo a ser 
refletido ou discutido 
sobre;
ACESSE: 
se for preciso acessar 
um ou mais sites 
para fazer download, 
assistir vídeos, ler 
textos, ouvir podcast;
RESUMINDO:
quando for preciso 
se fazer um resumo 
acumulativo das 
últimas abordagens;
ATIVIDADES: 
quando alguma 
atividade de 
autoaprendizagem 
for aplicada;
TESTANDO:
quando uma 
competência for 
concluída e questões 
forem explicadas;
SUMÁRIO
Técnicas de Aprendizado de Máquina ................................................... 12
Abordagem de técnicas gerais de Big Data ...............................................12
Entendendo o Aprendizado de Máquina ..................................................................... 15
Aprendizagem supervisionada .......................................................................... 17
 Aprendizagem não supervisionada ............................................................... 17
Técnicas de aprendizado usadas em Big Data ......................................................... 17
Análise preditiva .......................................................................................................... 19
Previsão de demanda .............................................................................................. 19
Sistemas de recomendação ............................................................................... 20
Agrupamento ................................................................................................................. 21
Gerência de Dados e Computação na Nuvem ...................................22
Computação na Nuvem .............................................................................................................22
Modelo de implementação .................................................................................24
Modelos de serviço ....................................................................................................25
Computação em Nuvem e Big Data ................................................................................26
Gerenciamento de dados de Computação em Nuvem .....................................29
Bioinformática ....................................................................................................32
Histórico da Bioinformática .....................................................................................................32
Workflow de Bioinformática ...................................................................................35
Proveniência de dados em Bioinformática .............................................. 36
Aplicações da Bioinformática ................................................................................................ 39
Bioinformata ....................................................................................................................................... 40
Inovação Tecnológica e Novas Tendências ........................................................ 42
Inovação tecnológica ..................................................................................................................43
Big Social Data ...............................................................................................................44
Tecnologia Blockchain .....................................................................46
Internet das Coisas......................................................................................................47
9
UNIDADE
04
Big Data e Ciência de Dados
10
INTRODUÇÃO
Nesta unidade, vamos abordar sobre o aprendizado de máquina e 
suas técnicas, bem como estas podem contribuir no processo de análise 
de dados e tomada de decisão. 
 As organizações usam várias técnicas e tecnologias para realizar a 
manipulação, análise e visualização de Big Data. Estas técnicas surgiram 
com contribuições dos campos da estatística, ciência da Computação, 
matemática e economia, com algumas idealizadas para lidar 
especificamente com Big Data e outras foram ajustadas para trabalhar 
nesse contexto. 
Estudaremos ainda sobre gerência de dados por meio da 
Computação na Nuvem e como esse modelo possibilita acesso por 
demanda a um agrupamento de elementos computacionais que 
podem ser configuráveis, como CPU, armazenamento e memória. Serão 
abordados os modelos de implantações e modelos de serviço em Nuvem.
Ao longo do capítulo, abordaremos sobre Bioinformática, 
juntamente com seus conceitos, características, histórico e aplicações. 
Também abordaremos exemplos de tecnologias que trabalham com esse 
tipo de solução e ainda veremos como esta se relaciona com a ciência 
dos dados e Big Data.
Por fim, será estudado nessa unidade sobre inovações e tendências 
tecnológicas no campo de ciência de dados e Big Data, como também, 
abordaremos os desafios futuros neste campo. Vamos lá!
Big Data e Ciência de Dados
11
OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no 
desenvolvimento das seguintes objetivos de aprendizagem até o término 
desta etapa de estudos:
1. Compreender as técnicas de aprendizado de máquina.
2. Entender a gerência de dados e Computação na Nuvem.
3. Assimilar o conceito de Bioinformática.
4. Adquirir noções de inovação tecnológica e novas tendências.
Então? Preparado para adquirir conhecimento sobre um assunto 
fascinante e inovador como esse? Vamos lá!
Big Data e Ciência de Dados
12
Técnicas de Aprendizado de Máquina
OBJETIVO:
Neste capítulo, conceituaremos sobre o aprendizado 
de máquina e suas técnicas, bem como estas podem 
contribuir no processo de análise de dados e tomada 
decisão. Vamos lá!
Abordagem de técnicas gerais de Big Data
Conforme Pai (2016), as organizações utilizam algumas técnicas 
e tecnologias para realizar a manipulação, análise e visualização de 
Big Data. Estas técnicas surgiram com contribuições dos campos da 
estatística, ciência da Computação,matemática e economia, com 
algumas idealizadas para lidar especificamente com Big Data e outras 
foram ajustadas para trabalhar nesse contexto. 
Neste sentido, a contribuição das áreas citadas para a análise em Big 
Data, precisa de técnicas multidisciplinares para processar com qualidade 
o grande volume de dados no momento da execução (PAI, 2016). A seguir 
será exposto a contribuição de cada área previamente citada: 
 • Matemática: utiliza técnicas e fórmulas matemáticas tradicionais 
com o intuito de resolver problemas relacionados à correlação de 
dados. 
 • Estatística: conjunto de técnicas matemáticas que contribuem 
com a análise e apresentação de dados. A análise estatística e 
suas decisões são fundamentadas no entendimento de como o 
acaso implica certos eventos ou resultados (KALLA, 2018).
 • Métodos otimizados: referem-se a reduzir custos ou aumentar a 
eficiência da produção. Um algoritmo de otimização é um método 
que é executado interativamente fazendo um comparativo com 
diversas soluções até que se encontre uma ótima ou pelo menos, 
uma satisfatória (IIT Madras). Estes algoritmos são aplicados para 
Big Data e Ciência de Dados
13
resolver problemas quantitativos em muitas áreas, como física, 
biologia, engenharia e economia (PAI, 2016). 
 • Data Mining: como já estudamos anteriormente em outra unidade, 
a mineração de dados está inserida como parte do processo 
de Descoberta de Conhecimento em Banco de Dado (KDD – 
Knowledge Discovery in Databases), o qual tem por objetivo a 
seleção dos métodos a serem usados por busca de padrões nos 
dados, seguido da busca por padrões de interesse num modo 
particular de representação, juntamente com o objetivo pelo 
melhor ajuste dos parâmetros do algoritmo para atividades que se 
deseja aplicar (TAN et al., 2005).
 • Machine Learning: conjunto de procedimentos que podem 
identificar de modo automático, padrões em dados e, em 
consequência, utilizar os padrões descobertos para prever dados 
futuros ou executar outros tipos de tomadas de decisão (LI et al., 
2001).
 • Redes neurais: trata-se de um paradigma de programação de 
inspiração biológica que permite um computador aprender a partir 
de dados observacionais.
 • Processamento de sinal: tem por objetivo de operar, analisar e 
deduzir de um sinal, dados que possam ser extraídos de forma útil.
 • Métodos de visualização: são técnicas utilizadas para elaborar 
tabelas, imagens, diagramas e outras formas de disponibilização 
de modo intuitivo para entender os dados.
REFLITA:
Você deve recordar das outras unidades algumas das 
técnicas acima, porém nesta fazemos uma reflexão delas 
alinhadas ao Big Data. É muito importante que o profissional 
de TI trabalhe com técnicas como: data mining, redes 
neurais, aprendizado de máquina, principalmente os 
profissionais de ciência de dados, devem estar atentos a 
essas habilidades.
Big Data e Ciência de Dados
14
 Assim, você pode observar no contexto geral, temos essas técnicas 
sendo utilizadas para as mais diversas aplicações, como já estudamos 
no contexto de Big Data, destacadas na Figura 1 abaixo, como a área da 
Computação Social relacionada com as interações em mídias sociais na 
Internet, Bioinformática, Finanças e na Astronomia, alguns exemplos são 
apresentados a seguir.
Figura 1 – Ferramentas, técnicas e aplicação
Matemática
Fundamental 
Data Minig 
Método de 
Visualização 
Processamento 
de sinal 
Redes Neurais 
Aprendizado 
de Maquina 
Computação 
social
Astronomia
Ferramentas Matemáticas 
Técnicas de Análises de dados
Aplicações Big Data 
Estáticas
Binformática Financeira
Métodos 
otimizados
Fonte: Zhoua et al. (2017).
Big Data e Ciência de Dados
15
Dessa forma, abordaremos nas próximas sessões sobre técnicas de 
Aprendizado de Máquina e como elas podem contribuir no contexto de 
Big Data.
SAIBA MAIS:
No artigo Big Data e o aprendizado de máquina, realiza-
se uma abordagem geral sobre como o aprendizado 
de máquina pode ser utilizado e como traz valor para as 
aplicações de Big Data. Acesse clicando aqui.
Na próxima seção, será explanado melhor o que é o Aprendizado 
de Máquina e as técnicas mais usadas no contexto de Big Data.
Entendendo o Aprendizado de Máquina 
Conforme Zhou et al. (2017), as técnicas de Machine Learning 
(Aprendizado de Máquina) promovem grandes impactos em uma 
variedade de aplicações na Computação, tais como: processamento, 
compreensão de linguagem natural, neurociência e Internet das Coisas. 
Vale ressaltar que o surgimento e o avançar da era Big Data 
estimulou amplos interesses no aprendizado de máquina. Dessa forma, 
temos o Big Data produzindo informações importantes e utilizando 
algoritmos de aprendizado de máquina, em que podemos extrair padrões 
e criar modelos preditivos.
Nesse contexto, temos por outro lado os algoritmos de aprendizado 
de máquina clássicos que passaram por impactos críticos para atender 
às necessidades, gerando a necessidade de escalabilidade para o 
aprendizado de máquina poder crescer e trazer aperfeiçoamento nas 
técnicas para trabalhar com os grandes volumes de dados (GANTZ, 2012).
As técnicas de aprendizado de máquina possibilitam aos usuários 
a realização de previsões por meio de grandes volumes de dados. Esses, 
por sua vez, ajudam o desenvolver por meio de algoritmos eficientes, os 
quais são responsáveis por fornecer um grande potencial e ser uma parte 
essencial da análise de Big Data (GANTZ, 2012).
Big Data e Ciência de Dados
https://www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/
16
Conforme com Michalski et al. (2013), a área de aprendizado de 
máquina (AM) fornece o desenvolvimento de técnicas computacionais 
que modificam os aspectos de seu comportamento na forma em que a 
experiência é adquirida. 
Figura 2 – Aprendizado de máquina
Fonte: Freepik
O aprendizado indutivo pode ser dividido em três tipos: aprendizado 
supervisionado, aprendizado não supervisionado e aprendizado semi-
supervisionado. Desta forma, a classificação está relacionada com os 
métodos adotados no processo de generalização do conhecimento 
(MONARD; BARANAUSKAS, 2003).
IMPORTANTE:
É importante destacar que existem quatro métodos: apren-
dizado supervisionado, aprendizado não supervisionado, 
aprendizado semissupervisionado e aprendizado por re-
forço, porém, destacamos apenas os três mais usados, o 
aprendizado supervisionado e o aprendizado não supervi-
sionado (MOURA, 2017).
Big Data e Ciência de Dados
17
Aprendizagem supervisionada
A aprendizagem supervisionada é direcionada quando se é aplicada 
técnicas em que algoritmos indutores podem realizar inferências por meio 
de exemplos rotulados, ou seja, cada exemplo observado é descrito por 
um conjunto de atributos e pelo valor da classe, também chamado de 
atributo meta, a qual o exemplo pertence (RUSSELL; NORVIG, 2003).
Dessa forma, o objetivo do algoritmo é obter um modelo capaz de 
classificar exemplos não rotulados recebidos como entrada. Um exemplo 
seria um caso de aprendizagem no qual se consegue prever se uma 
transação do cartão de crédito de certo indivíduo é falsa ou não..
 Aprendizagem não supervisionada
Aprendizagem não supervisionada se refere ao algoritmo indutor 
não possuir a informação sobre a classe à qual pertence. O intuito na 
aprendizagem não supervisionada é buscar similaridades ou diferenças 
no conjunto de valores dos atributos dos exemplos que possibilitam a 
elaboração de agrupamentos ou clusters. 
Desta forma, exemplos agrupados podem ser atribuídos a uma 
mesma classe, enquanto exemplos dispersos estão mais propensos a 
pertencer a classes distintas (RUSSELL; NORVIG, 2003). 
O algoritmo k-médias e o algoritmo de agrupamento hierárquico são 
exemplos de técnicas de aprendizado não supervisionado. Um exemplo 
deste tipo pode ser a classificação de indivíduo que tenha predisposição 
em adquirir diabetes por meio da avaliação de sua alimentaçãoe rotina. 
Entretanto, não é informado quais pessoas realmente têm ou não diabetes.
Técnicas de aprendizado usadas em Big Data 
É importante frisar que depois que se tem um conjunto de dados 
estruturados, o passo seguinte no processo de aprendizado é a aplicação 
de um método de aprendizagem. 
Big Data e Ciência de Dados
18
As técnicas de aprendizado de máquina utilizam algoritmos que, 
por sua vez, realizam o trabalho computacional e todo o processamento 
dos dados (MOURA, 2017).
Conforme Moura (2017) descreve, algumas técnicas de aprendizado 
de máquina são:
 • Redes neurais: existem vários tipos de redes neurais, mas em 
suma, elas consistem em um conjunto de nós, também chamados 
de neurônios, disponíveis em várias camadas com interconexões 
ponderadas entre eles, de modo que o neurônio trata um conjunto 
de valores de entrada para gerar um valor de saída que por sua 
vez, é passado para outros neurônios nas camadas seguintes.
 • Árvore de decisão:  essa técnica usa algoritmos em formato de 
árvore, ou seja, uma raiz com galhos que levam até folhas. Cada 
árvore contém nós, ramos, folhas e ligações entre eles, de forma 
que um ramo é um conjunto de nós que testam cada atributo 
da classificação e cada ramo referente ao valor do atributo. Já 
as folhas fazem a classificação para os ramos. A classificação é o 
resultado final que se quer encontrar ou prever com o algoritmo.
 • Regressão: é uma técnica usada quando se deseja prever valores 
de algo futuro, fundamentando-se em comportamento de 
variáveis passadas. A análise da regressão pode ser usada como 
um procedimento descritivo da análise de dados com diversos 
objetivos, como: descrever a relação entre variáveis para entender 
um método, prever o valor de uma variável por meio do valor 
das outras variáveis, substituir a medição de uma variável pela 
observação dos valores de outras variáveis e controlar os valores 
de uma variável em uma faixa de interesse (ROZA, 2016). Um 
exemplo seria prever o valor de mercado de um imóvel utilizando 
um algoritmo de regressão linear.
Big Data e Ciência de Dados
19
Figura 3 – Big Data e Aprendizado de Máquina
Fonte: Freepik
Análise preditiva 
Essa é uma das técnicas mais usadas nas aplicações de Big Data 
para realizar previsão, uma vez que essa análise consiste no uso de dados 
e técnicas de aprendizado de máquina para determinar a probabilidade 
de futuros resultados com base nas informações adquiridas no passado.
Um exemplo muito conhecido de Big Data e aprendizado de 
máquina trabalhando em conjunto foi o caso da Target, segunda maior 
rede de varejo dos EUA. 
A empresa conseguiu identificar um padrão de itens que suas 
clientes consumiam quando estavam grávidas, desde hidratantes, até 
suplementos, a marca ainda detectou as consumidoras que seriam mães, 
oferecendo produtos específicos e até desconto.
Previsão de demanda 
Uma boa previsão de demanda ajuda qualquer empresa a vender 
mais nas épocas de pico, assim como a evitar prejuízos e desperdícios em 
períodos de baixa. 
Big Data e Ciência de Dados
20
Porém, nem sempre é fácil fazer uma projeção da procura pelos 
produtos da marca. Para que essas previsões sejam corretas, é necessário 
contar com um grande volume de dados e com o aprendizado a partir do 
histórico da própria empresa e do mercado.
Justamente por isso, a combinação de Big Data e Machine Learning 
é extremamente útil para trazer confiança e clareza às decisões de 
negócios.
Com base no processamento de dados, uma companhia pode 
realizar antecipações de demandas considerando diversos fatores 
financeiros, econômicos e mercadológicos.
Um exemplo de marca que apostou nessa estratégia foi a Nestlé, 
maior empresa de alimentos e bebidas do mundo, ao utilizar as tecnologias 
em questão, a companhia conseguiu melhorar em 9% a acuracidade da 
sua previsão de demanda (SONDA, 2020).
Sistemas de recomendação
Essa técnica trabalha do seguinte modo: após ter os dados coletados 
e analisados por meio da combinação das técnicas de aprendizado de 
máquina e Big Data, é possível realizar recomendações a partir de um 
conjunto de dados coletados.
REFLITA:
Você pode perceber no seu cotidiano que sites como 
Amazon e a plataforma da Netflix utilizam isso para 
recomendar seus recursos personalizados aos usuários, 
de forma que os sistemas fazem sugestões ao usuário, 
aperfeiçoando a experiência e melhorando o engajamento.
Conforme Taurion (2013) destaca, a utilização de interfaces de voz 
com o usuário perguntando e o computador respondendo em viva voz, 
é um exemplo de sucesso, com o muito conhecido Siri da Apple, é um 
aplicativo que usa o processamento de linguagem natural para responder 
perguntas, fazer recomendações e executar várias ações.
Big Data e Ciência de Dados
21
Agrupamento 
Outra técnica que pode podemos destacar é o Clustergram, utilizada 
para visualizar análises de clusters (cluster analysis) ou agrupamentos, as 
quais se combina as técnicas de aprendizado de máquina e Big Data para 
realizar a análise de agrupamentos que fazem a classificação de objetos 
em diversos grupos, cada um contendo os objetos semelhantes segundo 
alguma função de distância estatística. 
Esta classificação deve ser feita de modo automática, sem 
intervenção do usuário, sem características dos grupos e sem a utilização 
de grupos de teste previamente conhecidos para direcionar a classificação 
(TAURION, 2013)
RESUMINDO:
Chegamos ao final da unidade, pela qual estudamos como 
a análise do Big Data precisa de técnicas multidisciplinares 
para processar com qualidade o grande volume de dados no 
momento da execução. Descrevemos como o surgimento e 
o avanço das aplicações de Big Data estimularam o amplo 
interesse no aprendizado de máquina, o que acarretou 
no fato de Big Data produzir informações importantes e 
utilizar algoritmos de aprendizado de máquina, em que 
se podem extrair padrões e criar modelos preditivos. 
Estudamos ainda como o aprendizado de máquina fornece 
o desenvolvimento de técnicas computacionais que 
modificam os aspectos de seu comportamento na forma 
em que a experiência é adquirida. Destacamos dois tipos 
mais utilizados e o descrevemos, especialmente, ligando-
os ao aprendizado supervisionado e não supervisionado. 
Por fim, foi descrito algumas técnicas e alguns exemplos de 
como combinar as técnicas de aprendizado de máquinas e 
Big Data, pode contribuir em aplicações, como empresas 
como Netflix, Amazon, e varejista de mercado, ganharam 
muitas vantagens devido a associarem esses recursos.
Big Data e Ciência de Dados
22
Gerência de Dados e Computação na Nuvem
OBJETIVO:
Como já é do nosso cotidiano utilizarmos os recursos de 
Computação em Nuvem para “guardar” nossas aplicações, 
arquivos e trabalhos que ficam disponíveis nela. Agora, 
neste capítulo, vamos nos deter a estudar mais afinco este 
recurso tecnológico.
Neste capítulo, estudaremos sobre a gerência de dados por 
meio da Computação na Nuvem e como ela se relaciona 
com as aplicações em Big Data. Prontos? Vamos lá!
Computação na Nuvem
A Computação em Nuvem pode ser conceituada como um modelo 
que possibilita acesso por demanda a um agrupamento de elementos 
computacionais que podem ser configuráveis, como CPU, armazenamento 
e memória. Estes, por sua vez, podem ser disponibilizados de modo rápido 
com o mínimo esforço de gerenciamento ou assistência do provedor da 
Nuvem (MELL; GRANCE, 2009).
Figura 4 – Computação em Nuvem
Fonte: Pixabay
Big Data e Ciência de Dados
23
Podemos destacar a importância que a Computação em Nuvem 
traz para as empresas abaixo, como exposto por Savarese Neto (2019): 
 • Redução de custos: tem um custo minimizado com aquisição 
de hardware e com mão de obra para instalar e dar suporte a 
softwares, sistemas e servidores, como também, o ganho de custo 
reduzido com relação à economia de energia com os dispositivos 
funcionando e de espaço físico nas empresas.
 • Flexibilidade:um ganho nesse aspecto relaciona-se ao fato 
de explorar novos meios de organizar a equipe, permitindo, por 
exemplo, o home office.
 • Escalabilidade: neste quesito há um ganho relacionado aos 
gestores de TI, pois não necessitam decidir o que será preciso 
para contratar os serviços e evita o risco de não utilizar recursos 
desnecessários ou necessitar obter um aumento da estrutura em 
curto espaço de tempo. Com a Computação em Nuvem, existe a 
possibilidade de adquirir maior capacidade de armazenamento e 
de processo de modo automático.
 • Desempenho: com relação ao desempenho, obtém-se uma 
vantagem com relação aos data centers que contêm as principais 
soluções da Computação em Nuvem, pois sempre estão sendo 
atualizados, permitindo assim a garantia de utilizar a melhor 
tecnologia para a experiência dos usuários.
Assim, podemos entender que a Computação em Nuvem está 
sendo um recurso muito importante para a indústria, principalmente para 
as de tecnologias. 
A Nuvem é uma metáfora para a Internet ou infraestrutura de 
comunicação entre os elementos arquiteturais, fundamentado em uma 
abstração que esconde a complexidade de infraestrutura (BUYYA et al. 2009).
Desta maneira, parte dessa infraestrutura é tida como um serviço e 
estes são geralmente alocados em centros de dados, usando hardwares 
compartilhados para Computação e armazenamento (BUYYA et al. 2009).
Big Data e Ciência de Dados
https://fia.com.br/blog/author/eduardos/
24
IMPORTANTE:
É importante destacar que existem algumas propriedades 
básicas que diferem a Computação em Nuvem dos 
sistemas distribuídos tradicionais (e.g. sistemas em grade, 
clusters, P2P etc.) e estão relacionadas ao seu caráter 
atrativo: autosserviço sob demanda, elasticidade rápida, 
pagamento conforme o serviço usado (Pay-as-you-go), 
nível de qualidade de serviço (SLA), agrupamento ou 
Pooling de recursos. 
Na próxima seção, serão apresentados os modelos de 
implementação da Computação em Nuvem.
Modelo de implementação 
É importante descrever que o acesso e disponibilidade aos 
ambientes de Computação em Nuvem, apresentam diferentes tipos de 
modelos de implementação. Algumas exceções ou aberturas de acesso 
dependem do tipo de informação e do nível de visão. 
Essas particularidades e outras se dão porque as empresas requerem 
permissões diferentes aos seus usuários para que possam acessar e 
utilizar determinados recursos em seus ambientes de Computação em 
Nuvem. 
Assim, temos os seguintes modelos de implementação da 
Computação em Nuvem, podendo estes serem divididos em Nuvem 
pública, privada, comunidade e híbrida (MELL; GRANCE, 2009). 
Segue a descrição de cada um conforme Machado et al. (2009):
 • Nuvem privada
Nesse modelo de implementação de Nuvem privada, a infraestrutura 
de Nuvem é usada de forma particular na organização, de modo 
que, a Nuvem local ou remota, pode ser administrada pela própria 
empresa ou por terceiros. Este modelo trata a implementação 
de determinadas políticas de acesso aos serviços. As técnicas 
Big Data e Ciência de Dados
25
usadas por fornecer tais características podem ser em nível de 
gerenciamento de redes, configurações dos provedores de serviços 
e usada em tecnologias de autenticação e autorização. 
 • Nuvem pública 
Nesse modelo de implementação de Nuvem pública, a infraestrutura 
de nuvens é disponível para o público em geral, podendo ser 
acessada por qualquer usuário que conheça a localização do 
serviço, assim, entendemos este modelo de implementação como 
não existindo restrições de acesso quanto ao gerenciamento 
de redes, e menos ainda, usando técnicas para autenticação e 
autorização. 
 • Nuvem comunidade
Nesse modelo de implementação de Nuvem comunidade, acontece 
o compartilhamento por várias empresas de uma Nuvem, sendo 
esta mantida por uma comunidade específica que compartilha 
seus interesses, bem como, os requisitos de segurança, política e 
requisitos sobre flexibilidade. Vale ressaltar que este tipo de modelo 
de implementação pode existir localmente ou remotamente e, 
geralmente, é administrado por alguma empresa da comunidade 
ou por terceiros. 
 • Nuvem híbrida
Nesse modelo de implementação de Nuvem híbrida, há como 
componente duas ou mais nuvens que podem ser privadas, 
comunidade ou pública, permanecendo como entidades únicas 
e ligadas por uma tecnologia padronizada ou proprietária que 
possibilita a portabilidade de dados e aplicações.
Na próxima seção, estudaremos sobre os modelos de serviços 
oferecidos pela Computação em Nuvem.
Modelos de serviço
Outro aspecto importante para destacar na Computação em 
Nuvem, são os modelos de serviços que ajudam a atender às demandas 
Big Data e Ciência de Dados
26
de serviços conforme os padrões e características, assim, criou-se uma 
série de modelos de serviço de Cloud. Os principais modelos segundo 
Pedroso (2014) são:
 • SaaS (Software como Serviço): esse modelo trata da capacidade 
de disponibilizar aplicações ao usuário final. A principal contribuição 
é a abstração de tudo que está por trás da execução da aplicação 
para usuário, assim o custo é minimizado e não existe a necessidade 
de saber e interagir com a tecnologia e infraestrutura. Como 
exemplos que utilizam os serviços do modelo, temos a Customer 
Relationship Management (CRM) da Salesforce e o Google Docs.
 • PaaS (Plataforma como Serviço): esse modelo trata a camada 
que possibilita usar recursos da Nuvem com pouca necessidade 
de intervenção na infraestrutura de TI. A ênfase está no 
desenvolvimento de aplicações importantes ao negócio, sem 
necessidade em dar suporte a toda infraestrutura do ambiente. 
Exemplos desse modelo são o Google App Engine e Microsoft 
Azure.
 • IaaS (Infraestrutura como Serviço): esse modelo trata de prover 
os recursos computacionais básicos, como o hardware para 
processamento e armazenamento e deixando os detalhes de 
responsabilidade do contratante a administração do ambiente de 
software. Exemplos desse modelo são o Amazon Elastic Cloud 
Computing (EC2) e o Eucalyptus.
Computação em Nuvem e Big Data 
No contexto para melhorar o gerenciamento e minimizar os custos, 
as aplicações de Big Data têm usado ambientes de Cloud Computing ou 
Computação em Nuvem (AGRAWAL et al., 2011). 
Estes ambientes possibilitam que as empresas e pessoas 
aluguem capacidade de Computação e armazenamento sob demanda 
e com pagamento com base na utilização, em vez de fazerem grandes 
investimentos de capital necessários para a construção e instalação de 
equipamentos de Computação em larga escala (SOUSA et al., 2010).
Big Data e Ciência de Dados
27
Além do que, a Computação em Nuvem disponibiliza ambientes 
com ampla capacidade de armazenamento, escalabilidade, elásticos, 
com alto desempenho e elevada disponibilidade. 
Dessa forma, a Nuvem permite ser uma opção mais viável para 
a idealização de aplicações de gestão e análise de grandes massas de 
dados (AGRAWAL et al., 2011)
A cada dia as empresas e os consumidores estão buscando na 
Nuvem um meio mais prático para gerenciar seus dados, uma vez que ela 
possibilita o acesso rápido e sempre disponível aos dados, mesmo com 
proporção de que um maior número de dispositivos com amplos níveis de 
inteligência esteja conectado a diversas redes DURBANO (2020). 
Desse modo, o consumidor deixa de se importar com a capacidade 
de armazenamento dos dispositivos e acabam utilizando mais da 
Computação em Nuvem (REINSEL, 2018).
Figura 6 – Computação em Nuvem e Big Data
Fonte: Pixabay
 Conforme Hashem (2013), a Computação em Nuvem e Big Data 
estão correlacionadas. O Big Data oferece aos usuários a capacidade 
de utilizar Computação para processar e analisar uma massa de dados 
em tempo rápido, já a infraestrutura de Computação em Nuvem, 
pode contribuir como uma plataforma eficiente para trabalhar com o 
armazenamento de dados precisos por fazer análise de Big Data.
Big Data e Ciência de Dados28
Por conseguinte, o desenvolvimento da Computação em Nuvem 
oferece soluções para o armazenamento e processamento de Big Data, 
no qual o surgimento de Big Data também foi responsável por acelerar o 
desenvolvimento da Computação em Nuvem (CHEN, 2016).
Entretanto, conforme Taurion (2013) afirma, os custos da Computação 
em Nuvem são minimizados devido a utilização de servidores virtuais, 
contudo estes podem gerar um aumento de custo com relação a grande 
massa de dados por redes de comunicação e para o provedor da Nuvem.
SAIBA MAIS:
Leia sobre a Computação em Nuvem usada nas aplicações 
de Big Data no artigo Como usufruir do seu Big Data com a 
Computação em Nuvem. Acesse clicando aqui. 
Podemos ainda destacar um exemplo interessante de uso de 
Big Data em Nuvem, o Etsy, um site de e-commerce especializado em 
produtos de artesanato e artigos de época que contém mais de onze 
milhões de usuários, resultando em 25 milhões de visitantes únicos e 1,1 
bilhões de page views por mês. 
Atualmente, o Etsy captura mais de 5GB de dados por dia, dessa 
forma, a grande massa de dados é analisada em uma Nuvem pública para 
gerar uma análise melhor do comportamento dos seus clientes e realizar 
análises preditivas (TAURION, 2013). 
Dessa forma, o Etsy tem conseguido definir quais os produtos que 
melhor se adequam e as preferências de um determinado cliente. Assim, 
não é necessário instalar grandes servidores para realizar esta análise, 
uma vez que a Etsy utiliza a Nuvem e paga apenas pelo tempo utilizado 
para realizar a tarefa (TAURION, 2013).
Ainda temos empresas como Amazon, Microsoft, Google, entre 
outras tantas que fazem uso desses recursos de Computação e Nuvem 
e Big Data.
Big Data e Ciência de Dados
https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuvem.htm
29
Gerenciamento de dados de Computação 
em Nuvem
Temos que destacar o fator do gerenciamento de dados ser 
considerado um ponto crítico no aspecto de Computação em Nuvem 
devido os SGBDs relacionais não possuírem escalabilidade quando 
milhares de sítios são considerados (WEI et al., 2009).
Dessa forma, elementos de armazenamento de dados, processamento 
de consultas e gerência transacional têm se tornado mais flexíveis para 
algumas abordagens, de modo a garantir a escalabilidade, porém ainda não 
há soluções que juntem estes elementos de modo a melhorar o desempenho 
sem implicar a consistência dos dados (ABADI, 2009). 
Nesse contexto, diversas abordagens surgem para gerenciar dados 
em nuvens, dentre as quais podemos citar o Microsoft Azure e HBase 
(BRANTNER et al., 2008). 
Um ponto importante é o trade-off entre as funções e os custos 
operacionais enfrentados pelos provedores de serviços, nos quais 
destacam-se os serviços em Nuvem para dados que disponibilizam 
APIs que contêm mais restrições do que os SGBD relacionais, com 
uma linguagem minimalista de consulta e promovendo a garantia de 
consistência limitada (ABOUZEID et al., 2009).
Por conseguinte, temos a exigência e a necessidade de maior 
esforço de programação dos desenvolvedores, todavia, possibilita aos 
provedores idealizarem serviços mais previsíveis. 
Segundo Armbrust et al. (2009), a construção de um sistema de 
armazenamento que junta os vários recursos de Computação em Nuvem 
de modo a ampliar a escalabilidade, a disponibilidade e consistência dos 
dados, é um problema de campo aberto para estudos e pesquisa.
Assim, temos os SGBDs em Nuvem que surgiram para serem 
usados como atrativo para chamar clientes de vários setores do mercado, 
desde pequenas empresas com o intuito de minimizar o custo total, por 
meio da utilização de infraestrutura e sistemas de terceiros, como até 
grandes empresas que sempre buscam soluções para gerenciar suas 
Big Data e Ciência de Dados
30
grandes quantidades de máquinas e possibilitar o atendimento de um 
aumento inesperado de tráfego (ABADI, 2009). 
Figura 7 – Banco de dados e infraestrutura
Fonte: Pixabay
A infraestrutura de SGBDs em Nuvem possui várias vantagens para 
os usuários. A seguir, temos algumas dessas vantagens conforme Curino 
et al. (2010):
 • Previsibilidade e custos reduzidos proporcionais à qualidade do 
serviço (QoS) e cargas de trabalho em tempo real. 
 • Complexidade técnica minimizada devido às interfaces de acesso 
unificadas e a delegação de tuning, bem como a administração de 
SGBDs.
 • Elasticidade e escalabilidade, permitindo a percepção de recursos 
quase infinitos, como ainda, o provedor tem que possibilitar a 
garantia da ilusão de recursos infinitos por meio de cargas de 
trabalho dinâmicas e reduzir os custos operacionais relacionados 
a cada usuário.
Contudo, existem vários sistemas e arquiteturas que estão sendo 
implementados para atender às novas demandas de aplicações com variados 
requisitos de processamento e armazenamento (ABOUZEID et al., 2009). 
Big Data e Ciência de Dados
31
Estes novos sistemas tentam fornecer uma visão de armazenamento 
e escalabilidade infinitos, mas devem tratar o problema de provisionar 
recursos. 
Esse problema, que em SGBDs tradicionais contêm em definir quais 
recursos são alocados para um único banco de dados, no contexto de 
ambiente em Nuvem, torna-se um problema de otimização quando se 
tem uma grande quantidade de usuários, múltiplos SGBDs em Nuvem e 
grandes centros de dados (ABOUZEID et al., 2009). 
Dessa forma, os SGBDs em Nuvem oferecem uma oportunidade 
para explorar a economia em escala, gerando balanceamento dinâmico de 
carga e gerenciamento da economia em escala (ABOUZEID et al., 2009). 
RESUMINDO:
Neste capítulo, para entender o gerenciamento de 
Computação em Nuvem, abordamos primeiro um pouco 
mais sobre o entendimento deste recurso, tendo em vista 
que a Computação em Nuvem é muito importante para 
a indústria, principalmente para as áreas de tecnologia. 
O termo Nuvem é uma metáfora para a Internet ou 
infraestrutura de comunicação entre os elementos 
arquiteturais, fundamentado em uma abstração que 
esconde a complexidade de infraestrutura. Estudamos 
sobre como descrever o acesso e disponibilidade aos 
ambientes de Computação em Nuvem, apresentando 
os diferentes tipos de modelos de implementação, que 
são: Nuvem pública, privada, comunidade e híbrida. Logo 
após, estudamos sobre os modelos de serviços e, assim, 
a partir do entendimento desses conceitos, podemos 
compreender melhor sobre o gerenciamento de dados em 
Nuvem, os pontos críticos dessa infraestrutura. Vimos ainda 
o surgimento dos SGBDs em Nuvem que são usados como 
atrativo para clientes de vários setores do mercado, desde a 
pequenas e grandes empresas com o intuito de minimizar o 
custo. Por fim, apresentamos o uso combinado de Big Data 
e Computação em Nuvem trazendo a importância destes 
para as diversas aplicações existentes e para as empresas. 
Big Data e Ciência de Dados
32
Bioinformática
OBJETIVO:
Neste capítulo, estudaremos sobre a bioinformática 
juntamente com seus conceitos, características, histórico 
e aplicações. Também, abordaremos exemplos de 
tecnologias que trabalham com esse tipo de solução e 
ainda veremos como elas se relacionam com a Ciência dos 
Dados e Big Data. Vamos lá!
Histórico da Bioinformática 
Ao longo do tempo, a biologia molecular cresceu exponencialmente. 
Isso se deve pelo fato do aperfeiçoamento da automação na produção 
de dados de sequências de genótipos para fenótipos, tornando-se muito 
mais uma ciência de informação.
Contudo, conforme Medeiros Filho et al. (2002), esse aumento 
no volume de sequências genéticas a serem armazenadas, passou a 
precisar de algoritmos computacionais eficientes que fornecessem o 
compartilhamento, análise e armazenamento desses dados.
Figura 8 – Os avanços na Biologia 
Fonte: Pixabay
Big Data e Ciência de Dados
33
De acordo com Edwards et al. (2009), o mais interessante para 
os cientistas enfatizarem é o quesito da análise desses dados estarem 
associados a qualidadedas sequências e suas anotações suportadas nos 
bancos de dados públicos. 
Deste modo, surgiu a Bioinformática como um novo campo de 
estudos e trabalho que oferece um meio de conexão entre os dados 
biológicos e as hipóteses científicas indagadas nas pesquisas ligadas, por 
exemplo, ao fluxo da informação gênica.
Temos a Bioinformática sendo uma área multidisciplinar envolvendo 
as áreas de engenharia de softwares, matemática, estatística, ciência 
da Computação e a biologia molecular, em que necessita de sistemas 
computacionais robustos, bem como profissionais qualificados e 
especializados (MEDEIROS FILHO et al., 2002).
Lorenzoni (2019) descreve algumas funções da Bioinformática, 
apresentadas a seguir:
 • A implementação de novos algoritmos e estatísticas.
 • Análise e interpretação de diversos tipos de dados biológicos.
 • Desenvolvimento e idealização de ferramentas que possibilitem o 
acesso e gerenciamento eficazes de variados tipos de informações.
Essas funções da Bioinformática, tem como intuito, de modo 
sucinto, a realização de trabalhos nos seguintes campos, de acordo com 
Lorenzoni (2019):
 • Análise de sequência incluindo o alinhamento de sequência, 
pesquisa em banco de dados, a busca de motivos e padrões, 
descoberta de genes e promotores, reconstruir as relações 
evolutivas e montagem e comparação de genoma.
 • Análises estruturais incluindo comparação, classificação, previsão 
de proteínas e estruturas de ácidos nucleicos.
 • Análise funcional que incluem o perfil de expressão gênica, 
previsão de interação proteína-proteína, prever a localização 
subcelular, reconstruir e simular as vias metabólicas.
Big Data e Ciência de Dados
34
Na Figura 9, há a representação da visão geral com os objetos de 
estudo relacionados à Bioinformática. 
Figura 9 – Representação de algumas das principais áreas da Bioinformática
Alinhamento 
de sequência
Abordagem 
computacional 
para os 
sistemas 
biólogicos 
Predição 
de função 
génetica
Modelagem 
comparativa
Atrocamento 
molecular
Biologia de 
sistemas 
FIlogênia
Dinâmica 
molecular
Modelagem ab 
inito
Fonte: Adaptada de Verli (2014).
De modo geral, podemos destacar, por meio da representação 
anterior que os objetos de estudo relacionados à Bioinformática são 
vários e sequências de biomoléculas, nos quais incluem: comparações 
entre sequências (alinhamento); identificação de padrões em sequências 
(assinaturas); caracterização de relações evolutivas (filogenia); construção 
e anotação de genomas; construção de redes (biologia de sistemas); 
obtenção de modelos 3D para proteínas e outras biomoléculas (por 
exemplo, modelagem comparativa); identificação do modo de interação 
Big Data e Ciência de Dados
35
de moléculas (atracamento); seleção de compostos com maior potencial 
de inibição (atracamento); caracterização da flexibilidade molecular 
(dinâmica molecular); avaliação do efeito de mudanças na estrutura e 
ambiente molecular na dinâmica e função de biomoléculas (dinâmica 
molecular) (LORENZONI, 2019).
SAIBA MAIS:
Para saber mais sobre o assunto, faça a leitura do 
artigoBioinformática: descubra o que é e como essa ciência 
vem crescendo a cada dia. Acesse clicando aqui. 
Este artigo traz algumas aplicações que usam Bioinformática, como: 
armazenamento, processamento de sequências biológicas, manipulação 
e organização de bases de dados biológicas; modelação de processos 
metabólicos e regulatórios de tecidos de celulares de organismos e ao 
nível celular modelação e simulação de processos biológicos. 
Nessa próxima seção, serão apresentadas outras características de 
Bioinformática como workflow.
Workflow de Bioinformática
Um workflow científico pode ser conceituado como uma 
especificação formal de um processo científico que representa as etapas 
a serem executadas em algum experimento (DEELMAN et al., 2009). 
Essas etapas ou atividades podem ser programas ou sistemas 
que concebem a automatização a um processo, otimizando o modo de 
trabalho.
Várias áreas da biologia molecular usam workflows em seus 
experimentos científicos (BOEKEL et al., 2015), nos quais, usualmente 
são processados dados originados de projetos ligados ao genoma, 
transcriptoma, metaboloma, entre outros, de modo que, cada execução 
de um workflow científico de Bioinformática pode produzir um grande 
massa de dados, que devem ser armazenados para execuções novas 
análises ou confirmações de resultados.
Big Data e Ciência de Dados
https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/
36
Podemos destacar que um dos problemas ao qual a Bioinformática é 
focada, é a montagem de fragmentos de DNA, de modo que os fragmentos 
de DNA são originados do sequenciamento de alto desempenho e são 
chamados reads. 
Entende-se as reads como strings de um alfabeto que representa 
o DNA ou o RNA. Por meio dos alinhamentos das reads, a montagem 
consegue sequências contíguas (contigs) que representam o DNA original 
da amostra (ZERBINO, 2008). 
Por conseguinte, a montagem de fragmentos pode utilizar um 
genoma de referência, neste caso, as reads são alinhadas contra um 
genoma de organismo filogeneticamente próximo ao organismo do qual 
provêm as reads. 
Por outro lado, a montagem sem um genoma de referência é 
chamada de montagem de novo (BLEIDORN, 2017).
IMPORTANTE:
Vale ressaltar que os experimentos científicos da 
Bioinformática geralmente são representados como 
workflows científicos que são usados especialmente em 
projetos do genoma e transcriptoma em experimentos que 
englobam análise de sequenciamento de DNA e/ou RNA, 
como a montagem de fragmentos. 
Segundo Saldanha (2012), as análises são precisas, pois os 
fragmentos criados pelos sequenciadores automáticos devem fazer a 
verificação da sua qualidade, verificando se estão juntos, se os fragmentos 
forem muito pequenos ou ter identificadas suas funções biológicas, entre 
outras. Essas análises podem ser feitas em várias etapas e em diferentes 
ferramentas que compõem os workflows.
Proveniência de dados em Bioinformática
Já vimos que a Bioinformática é multidisciplinar e que contém 
a utilização intensa de ferramentas computacionais. Conforme Mattos 
Big Data e Ciência de Dados
37
et al. (2008), esta ciência tem como intuito a coleta, organização, 
armazenamento, recuperação e a análise de dados biológicos, 
promovendo assim a inferência ou busca de informações sobre a biologia 
e/ou evolução dos organismos.
Vale destacar que a Bioinformática e seus experimentos podem 
ser efetuados por várias fases, sendo executados em programas com 
configurações específicas e parâmetros por equipes variadas e que 
processam uma grande massa de dados.
Segundo Paula (2012), oferecer a proveniência de dados em projetos 
de Bioinformática, exige uma solução que possibilite armazenar a ligação 
entre os dados processados, combinando-os com as informações das 
execuções de cada processo e de seus resultados.
A definição tratada por Buneman et al. (2001) apresenta o termo 
proveniência como “linhagem” ou “pedigree” que se refere o histórico 
de como aquele dado foi criado ou derivado. Isto implica relatar que o 
significado de proveniência é a origem ou procedência.
De acordo com Almeida (2015), a proveniência de dados torna-
se cada vez mais presente no ambiente científico, tanto para oferecer 
a garantia da origem dos dados, como para realizar avaliação e a sua 
acurácia. 
Figura 10 – Dados biológicos
Fonte: Pixabay
Big Data e Ciência de Dados
38
Segundo de Paula (2012), a proveniência possibilita que os cientistas 
estudem com mais detalhes seus experimentos e, sempre que necessário, 
possam refazê-los de um modo mais estruturado e controlado. 
A utilidade da proveniência de dados vai além da reprodução de 
experimentos, pois a procedência tem uma grande utilidade ao fornecer 
aos cientistas uma variedade de aplicaçõesde análise de dados, 
possibilitando, por exemplo, a verificação e a qualidade dos dados oriundas 
por meio da análise de suas referências ancestrais e determinando a 
confiabilidade dos estudos (MARINHO et al., 2009).
Conforme Goble (2002) relata, algumas funcionalidades da 
proveniência de dados, são: 
 • Qualidade dos dados: por meio do histórico de todo processo de 
elaborar dados ou execução do experimento de quem o originou, 
que base de dados veio, em que o dado foi armazenado, entre 
outros, fazendo a estimativa do grau de qualidade e confiabilidade 
pelo qual o dado foi utilizado.
 • Controle de replicação: a proveniência detalhada possibilita 
que um dado ou experimento possa ser replicado por meio dos 
mesmos métodos, mesmas ferramentas e parâmetros. 
 • Propriedade e segurança: é contido um controle rigoroso sobre 
o dono do experimento e todos seus dados, tanto para fins de 
direitos autorais e citações, como também para responsabilidades 
caso os dados possam estar errados.
 • Informacional: informações relevantes para a pesquisa são 
extraídas na proveniência, como: o autor, membros da equipe, 
local, etc., pelo qual, oferecem uma certa importância para a 
interpretação dos dados.
Na próxima seção, estudaremos sobre as aplicações da 
Bioinformática.
Big Data e Ciência de Dados
39
Aplicações da Bioinformática
Assim, podemos destacar no campo da Bioinformática algumas 
aplicações e suas contribuições, descritas conforme Lorenzoni (2019):
 • Aplicada na área agrícola: a Bioinformática é adotada em 
pesquisas agrícolas por conta do seu grande volume de dados 
inerentes às diferentes culturas. Essa técnica possibilita uma análise 
mais completa dos dados, contribuindo com o entendimento dos 
pesquisadores.
Ao associar os recursos genéticos vegetais com a Bioinformática, 
é possível obter ganhos nos mais diversos programas de melhoramento, 
obtendo cultivos mais resistentes a estresses bióticos e abióticos, 
melhorando a qualidade nutricional e gerando novas formas de energia 
renováveis.
Exemplos de uso da Bioinformática:
 • Genética comparativa: a genética comparativa consiste em 
avaliar planta modelo e planta não modelo. As espécies podem 
revelar uma organização de seus genes, uma em relação à outra, 
que é usada para transferir informações dos sistemas de plantas 
modelo para outras culturas alimentares. 
 • Fontes de energias renováveis: é sabido que um dos melhores 
meios para obter energia é a biomassa vegetal, como exemplos 
temos o milho, cana, entre outras. 
Por meio das ferramentas de Bioinformática, é possível detectar 
variações nas sequências associadas a fenotipagem e que possam 
identificar genótipos superiores para maximizar a produção de biomassa. 
Assim, combinando o uso da interação das ômicas com a 
Bioinformática, é possível aumentar a capacidade de desenvolvimento de 
culturas para serem usadas como matéria-prima de biocombustível.
 • Melhoramento de plantas: ajuda a compreender a base genética 
e molecular de todos os processos biológicos nas plantas. Isso é 
importante, pois possibilita a exploração eficaz de plantas como 
Big Data e Ciência de Dados
https://www.laborgene.com.br/autor/rodrigo/
40
recursos biológicos no desenvolvimento de novas culturas com 
melhor qualidade e custos econômicos em ambientais reduzidos. 
Assim, isso pode acontecer devido aos dados serem acessados e 
analisados por meio de ferramentas de Bioinformática.
 • Melhoramento para qualidade nutricional: um dos exemplos 
mais clássicos de alimentos biofortificados é o arroz dourado, 
o qual foi enriquecido com betacaroteno que no organismo é 
facilmente convertido para vitamina A.
 • Fitopatologia: a Bioinformática possibilitou mapear todo o 
genoma de muitos organismos, contribuindo, dessa forma, com 
o entendimento da arquitetura genética de microrganismos e 
patógenos para verificar como esses afetam a planta hospedeira, 
usando a abordagem metagenômica e transcriptômica. 
Destaca-se que a Bioinformática tem muitas aplicações práticas no 
gerenciamento atual de doenças de plantas no que diz respeito ao estudo 
das interações do hospedeiro-patógeno.
Bioinformata
Neste contexto da Bioinformática e seus objetos de estudos, surge 
outro tipo de profissional: o bioinformata. Esse deve ter a habilidade e 
competência de identificar os problemas biológicos e solucioná-los por 
meio do uso de ferramentas computacionais (SOARES, 2006).
Esse profissional de Bioinformática deve ter habilidades não 
somente de aptidão em conhecimentos técnicos computacionais, 
como também, dominar a ciência de dados e Big Data, saber lidar com 
o  desenvolvimento de sistemas, entender ainda sistemas já existentes 
e deve ter conhecimentos específicos de Ciências Biológicas, como a 
Biologia Molecular, destacando-se que a linguagem de programação 
mais adotada nessa área é o Python.
Big Data e Ciência de Dados
https://www.profissionaisti.com.br/2017/08/conheca-os-10-livros-mais-recomendados-do-stack-overflow/
https://www.profissionaisti.com.br/2017/08/pesquisa-aponta-python-como-ferramenta-mais-popular-no-mercado/
41
Figura 11 – Bioinformata 
Fonte: Pixabay
Esse profissional, bioinformata, tem que utilizar ferramentas robustas 
e de grande poder computacional para solucionar problemas biológicos. 
Em particular, deve lidar com problemas que envolvem grandes volumes 
de dados. 
Atualmente, estamos inseridos na era do  Big Data, em que é 
gerado a cada dia um conjunto gigantesco de dados, assim, é preciso 
mais recursos para analisá-los. 
RESUMINDO:
Estudamos, neste capítulo, um pouco mais sobre a 
tecnologia da Bioinformática e como se relaciona com a 
Computação e soluções como Big Data, tendo em vista 
que este campo de pesquisa traz grandes contribuições 
para a biologia e que, por meio dos seus recursos, geram 
grande quantidade de dados que podem ser analisados 
trazendo importantes contribuições acadêmicas.
Big Data e Ciência de Dados
42
Inovação Tecnológica e Novas Tendências
OBJETIVO:
Neste capítulo, vamos abordar as novas tendências e 
inovações tecnológicas no campo de ciência de dados e 
Big Data, como também, abordaremos os desafios futuros 
neste campo. Vamos lá!
Com a grande produção de dados e novas tecnologias sendo 
desenvolvidas, as técnicas de Big Data e Ciência de Dados acabam 
crescendo e contribuindo para estes avanços.
Muitos especialistas relatam que o Big Data pode trazer grandes 
mudanças de contexto econômico e social. Podemos citar algumas 
tendências tecnológicas relatas por Paredes (2019):
 • Os sistemas de armazenamento distribuído NoSQL são tendências 
de crescimento devido a serem tão importantes para grandes 
necessidades de dados e infraestrutura, como para empresas 
como Google, Amazon e Facebook.
 • Os  sistemas distribuídos para promover o processamento e 
análise de sinais e eventos de Internet das Coisas em tempo real 
que possibilitam analisar uma grande massa de dados de modo 
imediato.
 • Os bancos de dados com processamento com base em Unidades 
de Processamento Gráfico (GPUs) que estimulam o cálculo 
de informações em massa e ajudam a minimizar os tempos de 
treinamento de modelos e projetos de aprendizado de máquina.
 • Os  chatbots que possibilitam responder a consultas e executar 
ações práticas e de modo automático e por meio de uma 
linguagem natural. 
Após esses exemplos de algumas tendências tecnológicas, na 
próxima seção, será estudado sobre exemplos de inovação tecnológica.
Big Data e Ciência de Dados
43
Inovação tecnológica 
O Big Data traz inovações em vários aspectos, como: contribui 
no desenvolvimento de novas tecnologias, aplicações e na forma de 
processos de tomada de decisões nas empresas. 
Já estudamos também que há grandes inovações nas empresas 
trazendo vantagens competitivas.
Segundo Amaral (2016), algumas inovações importantes que o Big 
Data fornece nas suas aplicações é a capacidade de tornar os processosprodutivos mais eficientes, com custos reduzidos, produtividade e 
intervalos de paradas não programadas menores. 
No campo da Administração, o Big Data possibilita um ganho 
no campo de fraudes, em que fornece a redução delas ao diminuir os 
passivos judiciais e a verificação do pagamento de impostos. 
Promove ainda inovação no campo do relacionamento com os 
clientes, melhorando a fidelização, maior qualidade de seus produtos e 
serviços.
O Big Data também gera modificação no relacionamento das 
empresas com seus fornecedores e parceiros comerciais (AMARAL, 2016).
Conforme Taurion (2013), uma inovação é a capacidade do Big Data 
impactar nos processos da empresa, dessa forma, acontecer o necessário 
para que os próprios processos sejam revisados e incorporados os 
resultados nas análises das fases de suas tarefas. 
Exemplificando ofertas personalizadas para os clientes, usualmente 
são realizadas quando planejadas e com antecedência de dias, tendo 
uma campanha, realizam o filtro de clientes selecionados e enviam para 
eles os e-mails com as ofertas, ou seja, dessa forma o Big Data se torna 
uma oportunidade para identificar e enviar ofertas em tempo real.
Big Data e Ciência de Dados
44
Figura 12 – Inovação
Fonte: Pixabay
Nas próximas sessões, serão destacadas tecnologias que surgiram 
trazendo inovação ligadas à como a Big Data.
Big Social Data
Uma das grandes tendências atuais de explorar Big Data é nas 
redes sociais, como Facebook, YouTube e Twitter, por meio da conexão, 
as pessoas estão produzindo exabytes de dados em suas interações (TAN 
et al. 2013). 
O volume, a velocidade e a capacidade de processar os dados de 
diversas fontes, criam grandes desafios, dispersos ou combinados, a serem 
superados ligados ao armazenamento, processamento, visualização e 
análise dos dados.
NOTA:
Existe uma grande tendência de indivíduos se juntarem e 
formarem grupos, algo que é uma característica de qualquer 
sociedade (CASTELLS, 2000). Esse comportamento pode 
ser replicado nos dias atuais por meio do avanço das mídias 
sociais e grupos on-line que destacam o poder de unir 
usuários ao redor de todo mundo.
Big Data e Ciência de Dados
45
Já vimos, ao longo dos nossos estudos, que a quantidade de dados 
gerada na rede só aumenta a cada instante e novas unidades de medida 
surgem para classificar as grandes massas de dados. 
Esse grande volume de dados de diferentes tipos está sendo produzido 
por diferentes fontes independentes, distribuídas e descentralizadas que 
geram de modo rápido, dados com relações complexas e em evolução, 
sendo chamados de Big Data (SILVA et al., 2013). 
Figura 13 – Redes sociais e Big Data
Fonte: Pixabay
Podemos destacar que o Big Data representa inovação no aspecto 
da tecnologia, pois por trabalhar com bancos de dados NoSQL, realizar 
processamento massivo paralelo, conter funções capazes de coletar, 
tratar e analisar dados não estruturados como comentários postados no 
Facebook, tem ganhado grande destaque global (TAURION, 2013).
Com isto, percebemos como ele traz contribuições devido ao 
grande uso das redes sociais que acabam se tornando uma grande fonte 
de dados para aplicar Big Data, trazendo informações importantes para 
diversos segmentos de empresas. 
Big Data e Ciência de Dados
46
IMPORTANTE:
É importante destacar que toda esta produção massiva e 
diária das redes sociais, traz um problema muito conhecido 
que são as tão faladas fake news, fato de espalhar notícias 
falsas pela web. Percebemos, com a análise adequada dos 
dados, um fator crítico e que traz um grande impacto, bem 
como necessidade de poder possibilitar a verificação e 
veracidade de tantas notícias geradas ao mesmo tempo.
Dessa forma, com a diversidade e quantidade de usuários usando 
as redes sociais, torna este campo bastante explorado por analistas 
e pesquisadores que buscam extrair ou inferir informações, podendo 
estar relacionadas a outros campos como: predição de comportamento, 
marketing, comércio eletrônico, entre outras interações (TAN et al., 2013). 
Isso implica afirmar que essas análises devem ser eficientes, como 
efetuadas quase em tempo real e com a capacidade de prover trabalhos 
com vários grafos. 
Tecnologia Blockchain
Temos atualmente o surgimento de uma nova tecnologia, o banco 
de dados de blockchain. O BigchainDB trata de combinar as vantagens de 
bancos de dados distribuídos, por sua vez, o blockchain refere-se a trilhas 
descentralizadas e imutáveis de auditoria e troca de ativos. 
Este tipo de tecnologia traz inovação no campo de transações 
financeiras, assim, o blockchain traz oportunidades para aqueles que 
trabalham com soluções computacionais como Big Data, ciências de 
dados e inteligência artificial.
Esse banco de dados, blockchain, tem característica de 
escalabilidade e utiliza ambientes de Big Data. Esse tem a capacidade 
de liberar o potencial de aplicações altamente importantes em Big Data, 
contribuindo para o controle compartilhado de infraestrutura, trilhas de 
auditoria em dados e permitir a troca de dados universal.
Big Data e Ciência de Dados
https://www.bigchaindb.com/
47
Figura 14 – Blockchain
Fonte: Pixabay
Um exemplo do uso de Big Data e Blockchain foi o consórcio de 
47 bancos japoneses que se associaram a uma startup de blockchain 
conhecida como Ripple para facilitar as transferências de dinheiro entre 
contas bancárias usando o próprio blockchain, visto que os blockchains 
oferecem risco minimizados quando comparados com as transações 
tradicionais. 
Assim, com a utilização, é permitido detectar padrões nos gastos do 
consumidor e identificar transações de risco com maior velocidade, bem 
como, reduzir o custo com as transações em tempo real (MATOS, 2020).
Internet das Coisas
Com certeza você sabe ou já ouviu falar sobre o termo Internet 
das Coisas, que está tão em alta nas discussões em meios acadêmicos 
e comerciais. Descrevemos a Internet das Coisas como a tecnologia 
que contém uma taxa enorme de objetos sendo conectada à Internet, 
compreendendo o que é denominada hoje como Internet das coisas 
(Internet of Things ou IoT) (RATHOREA, 2016).
Esses objetos podem ser sensores, bancos de dados e outros 
dispositivos ou software, existindo muitos domínios nos quais IoT ajuda e 
facilita a vida das pessoas de modo bastante relevante em tarefas como 
a assistência médica, automação, transporte e respostas emergências a 
desastres naturais (RATHOREA, 2016). 
Big Data e Ciência de Dados
48
Figura 15 – Internet das Coisas
Fonte: Pixabay
Os vários sensores produzem diferentes tipos de características, 
exemplificando as tags que são aplicadas na identificação por 
radiofrequência (RFID) e que disponibilizam a localização e tempo; os 
GPSs, responsáveis por identificar a localização e marca-passos que 
extraem informações sobre o coração (O’LEARY, 2013). 
Nisto, os objetos de IoT tem englobando a si uma interface de rede, 
possibilitando que as comunicações entre eles ofereçam vários serviços 
para os usuários (NIYATO, 2016). 
Contudo, muitas oportunidades são descritas pela capacidade 
de analisar e utilizar grandes quantidades de dados de IoT, inclusive 
aplicativos em cidades inteligentes, sistemas inteligentes de transporte 
e de rede, medidores inteligentes de energia e dispositivos remotos de 
monitoramento de saúde do paciente (MARJANI, 2017)
Conforme O’leary (2013), uma grande parte dos dados são 
originados de objetos do universo da Internet das Coisas, tendo em vista 
que produzem grandes massas de dados. 
Outra característica é a velocidade dos dados, relacionada à IoT, ser 
mais elevada quando comparada com o processamento tradicional, pois 
os sensores podem capturar dados continuamente. 
Esses dados também têm característica de grande variedade, visto que 
temos cada vez mais vários tipos de sensores e diferentes fontes de dados. 
Big Data e Ciência de Dados
49
Por fim, temos que a veracidade dosdados estão mais garantindo 
confiabilidade devido ao modo que a qualidade dos sensores e outras 
fontes de dados, tem melhorado com o tempo. Gerando, assim, que esses 
aspectos associados impulsionam a geração de Big Data pela Internet 
das Coisas.
RESUMINDO:
Estudamos, neste capítulo, uma visão geral de tendências 
e tecnologias que estão surgindo, bem como elas se 
relacionam com as aplicações Big Data. Vimos que a solução 
computacional Big Data possibilita a inovação em vários 
aspectos, no quesito de contribuir no desenvolvimento de 
novas tecnologias, aplicações e na forma de processos de 
tomada de decisões nas empresas. Algumas inovações 
importantes que o Big Data fornece com suas aplicações 
é a capacidade de tornar os processos produtivos mais 
eficientes, com custos reduzidos, produtividade e intervalos 
de paradas não programadas menores. 
No campo da administração, o Big Data possibilita um 
ganho no campo das fraudes, em que fornece a redução 
delas, reduz passivos judiciais e avalia o pagamento de 
impostos. Vimos ainda que a grande tendência das redes 
sociais atuais está sendo um campo bastante explorado 
por analistas e pesquisadores que buscam extrair ou inferir 
informações sobre os dados gerados pelas redes. 
Em seguida, estudamos o surgimento de uma tecnologia, 
o Blockchain, que traz inovação no campo de transações 
financeiras e se tornou uma oportunidade para aqueles 
que trabalham com soluções computacionais como Big 
Data, ciência de dados e inteligência artificial. Por fim, 
estudamos outro recurso tecnológico, a Internet das Coisas 
e vimos como funciona como uma grande geradora de 
fonte de dados para utilizar Big Data e como elas podem 
se relacionar.
Big Data e Ciência de Dados
50
REFERÊNCIAS 
ABADI, J. Data management in the cloud: Limitations and 
opportunities. IEEE Data Eng. Bull, v. 32, p. 3-12. 2009.
ABOUZEID, A. et al. Hadoopdb: an architectural hybrid of mapreduce 
and dbms technologies for analytical workloads. PVLDB, p. 922-933. 2009.
AGRAWAL, D.; DAS, S.; El Abbadi, A. Big Data and cloud computing: 
current state and future opportunities. In: INTERNATIONAL CONFERENCE 
ON EXTENDING DATABASE TECHNOLOGY, 14., 2009, New York. 
Proceedings […] New York: EDBT/ICDT, 2009. p. 530-533.
ALMEIDA, R. Proveniência de dados em workflow de Bioinformática 
utilizando banco de dados baseado em grafo. Dissertação (Mestrado) – 
Departamento de Ciência de Computação. UNB. Brasília. 2015. 
AMARAL, F. Introdução à Ciência de Dados. São Paulo: Alta Books, 
2016.
BIOINFORMÁTICA: descubra o que é e como essa ciência vem 
crescendo a cada dia. Profissionais IT, 2019. Disponível em:https://www.
profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-
como-essa-ciencia-vem-crescendo-a-cada-dia/. Acesso em: 19 jun. 
2020.
BLEIDORN, C. Assembly and data quality. [S. l.]: Springer, 2017.
BOEKEL, J. et al. Multi-omic data analysis using galaxy. Nature 
Research, v. 33, n. 2, p. 137-139. 2015. 
BRANTNER, M. et al. Building a database on s3. In: ACM SIGMOD 
INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 8., 2008, 
New York. Proceedings […] New York: ACM Press, 2008. p. 251. 
BUNEMAN, P. et al. Why and where: a characterization of data 
provenance. In: BUSSCHE, J. V. den et al. Database Theory. Berlin: Springer 
Berlin Heidelberg, 2001. 
Big Data e Ciência de Dados
https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/
https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/
https://www.profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/
51
CHEN, M.; MAO, S.; LIU, Y. Big Data: a survey. New York: [s. n.], 2014.
DAVIDSON, J. What is Statistics? SSCC, [s. d.]. Disponível em: https://
www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html. 
Acesso em: 15 jun. 2020.
COMO usufruir do seu Big Data com a Computação em Nuvem. 
Tech Mundo, [s. d.]. Disponível em: https://www.tecmundo.com.br/
mercado/139695-usufruir-big-data-computacao-Nuvem.htm. Acesso 
em: 18 jun. 2020.
DEELMAN, Ewa et al. Workflows and e-Science: An overview of 
workflow system features and capabilities. Future Generation Computer 
Systems, v. 25, n. 5, p. 528-540. 2009.
DURBANO, V. Computação em Nuvem. Ecoit, [s. d.]. Disponível em: 
https://ecoit.com.br/computacao-em-Nuvem/. Acesso em: 19 jun. 2020.
EDWARDS, D.; STAJICH, J.; HASEN, D. Bioinformatics: tools and 
applications. New York: Springer, 2009. 
GOBLE, C. Position statement: Musings on provenance, workflow 
and (semantic web) annotations for bioinformatics. In: WORKSHOP ON 
DATA DERIVATION AND PROVENANCE, Chicago. [S.l.: s.n.], 2002. 
HASHEM, T. et al. The rise of “Big Data” on cloud computing: Review 
and open research issues. Information Systems, v. 47, p. 98-115. 2014.
KALLA, S. What is statistics? Explorable, [s. d.]. Disponível em: 
https://explorable.com/what-isstatistics. Acesso em: 15 jun. 2020.
LI, W; HAN, J; PEI, J. Cmar: Accurate and efficient classification 
based on multiple class-association rules. In: IEEE INTERNATIONAL 
CONFERENCE ON DATA MINING, 1., 2001, San Jose. Proceedings […] San 
Jose: ICDM, 2001. p. 369-376.
LORENZONI, R. Bioinformática – parte II: Fundamentos e aplicações. 
Laborgene, 2020. Disponível em: https://www.laborgene.com.br/
fundamentos-da-bioinformatica/. Acesso em: 18 jun. 2020.
Big Data e Ciência de Dados
https://www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html
https://www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html
52
MARINHO, A. et al. A strategy for provenance gathering in 
distributed scientific workflows. In: CONGRESS ON SERVICES, 1., 2009, [S. 
l.]. Proceedings […] [S.l.: s. n.], 2009. p. 344-347. 
MATOS, D. Big Data e as Oportunidades com Blockchain. Ciência de 
Dados, 2020. Disponível em: http://www.cienciaedados.com/big-data-e-
as-oportunidades-com-blockchain/. Acesso em: 19 jun. 2020.
MATTOS, A. et al. Gerência de Workflows Científicos: uma análise 
crítica no contexto da Bioinformática. São Paulo: [s. n.], 2008.
MEDEIROS FILHO, F. C. et al. Bioinformática: Manual do Usuário. 
Biotecnologia Ciência e Desenvolvimento, Brasília, v. 5, n. 29, p. 12-25. 
2002.
MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine 
learning: An artificial intelligence approach. [S. l.]: Springer Science and 
Business Media, 2013. 
MOURA C. Aprendizado de Máquina: conceitos e práticas da área 
que está movendo o mundo. Profissionais IT, 2017. Disponível em: https://
bit.ly/3zViE27. Acesso em: 17 jun. 2020.
NIYATO, D. Market Model and Optimal Pricing Scheme of Big Data 
and Internet of Things (IoT). IEEEXPLORE, [s. d.]. Disponível em: https://
ieeexplore.ieee.org/document/7510922. Acesso em: 18 jun. 2020.
O’LEARY, E. ‘Big Data’, The ‘Internet Of Things’ And The ‘Internet of 
Signs’. Intell. Sys. Acc. Fin. Mgmt., v. 20, p. 53-65. 2013. 
PAI, V. Big Data new challenges, tools and techniques. IJERME, v. 1, 
n. 1, p. 1-8. 2016.
PAREDES, A. Tendências Big Data 2019 para que o futuro não te 
pegue de surpresa. IEB School, 2019. Disponível em: https://www.
iebschool.com/pt-br/blog/software-de-gestao/big-data/tendencias-
big-data-2019-para-que-o-futuro-nao-te-pegue-de-surpresa/. Acesso 
em: 19 jun. 2020.
Big Data e Ciência de Dados
53
PEDROSO C. Big Data e Cloud Computing. Canal Tech, [s. d.]. 
Disponível em: https://canaltech.com.br/computacao-na-Nuvem/Big-
Data-e-Cloud-Computing/. Acesso em: 18 jun. 2020.
RATHOREA, U.; AHMAD, A.; PAUL, A. Urban planning and building 
smart cities based on the Internet of Things using Big Data analytics. 
Computer Networks, 2016.
REINSEL, D.; GANTZ, J.; RYDNING, E. The Digitization of the World: 
From Edge to Core. Seagate. Seagate, 2018. Disponível em: https://www.
seagate.com/files/www-content/ourstory/trends/files/idc-. Acesso em: 
19 jun. 2020.
ROZA, S. Aprendizagemde máquina para apoio à tomada de 
decisão em vendas do varejo utilizando registros de vendas. Instituto de 
Engenharia, 2018. Disponível em: https://www.institutodeengenharia.org.
br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/. Acesso 
em: 17 jun. 2020.
RUSSELL, S.; NORVIG, P. Artificial intelligence – a modern approach. 
Prentice Hall, v. 2, n. 1, 2003. 
SALDANHA, V. Bionimbus: uma arquitetura de federação de nuvens 
computacionais híbrida para a execução de workflows de Bioinformática. 
Dissertação (Mestrado em Ciência da Computação). UNB. Brasília. 2012. 
SAVARESE NETO, E. Computação em Nuvem: o que é, como 
funciona e importância. Disponível em: https://fia.com.br/blog/
computacao-em-Nuvem/. Acesso em: 18 jun. 2020.
SOARES, E. Profissão do futuro: bioinformata vive entre bits e 
células. [S. l.]: Portal IDGNow, 2006. 
SOUSA, C.; MOREIRA, O. Computação em Nuvem: conceitos, 
tecnologias, aplicações e desafios. ResearchGate, [s. d.]. Disponível 
em:ht tps ://www. researchgate .net/prof i le/Javam_Machado/
publ icat ion/237644729_Computacao_em_Nuvem_Concei tos_
Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.
pdf. Acesso em: 17 jun. 2020.
Big Data e Ciência de Dados
https://www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/
https://www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/
https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf
https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf
https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf
https://www.researchgate.net/profile/Javam_Machado/publication/237644729_Computacao_em_Nuvem_Conceitos_Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.pdf
54
TAN, N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining, 
(First Edition). Boston: Addison-Wesley Longman Publishing Co., Inc., 
2005.
TAN, W. et al. Social-Network-Sourced Big Data Analytics. Internet 
Computing. IEEE Computer Society, v. 17, n. 5, p. 62-69, 2013.
TAURION, C. Big Data. São Paulo: BRASPORT, 2013. 
THOMPSON, D.; HIGGINS, G. Machine learning e Big Data. Sonda, 
[s. d.]. Disponível em: https://blog.sonda.com/machine-learning-e-big-
data/. Acesso em: 17 jun. 2020.
VERLI, H. et al. Bioinformática da Biologia à flexibilidade molecular. 
GrandAdm, [s. d.]. Disponível em: http://www.gradadm.ifsc.usp.br/
dados/20171/7600011-3/Bioinformatica_1.1.pdf. Acesso em: 18 jun. 2020.
ZERBINO, D. et al. Velvet: algorithms for de novo short read assembly 
using de bruijn graphs. Genome research, Cold Spring Harbor Lab, v. 18, 
n. 5, p. 821-829. 2008.
ZHOUA, L. et al. Machine learning on Big Data: Opportunities and 
challenges. Neurocomputing, p. 350-361. 2017.
 
 
Big Data e Ciência de Dados
http://www.gradadm.ifsc.usp.br/dados/20171/7600011-3/Bioinformatica_1.1.pdf
http://www.gradadm.ifsc.usp.br/dados/20171/7600011-3/Bioinformatica_1.1.pdf
	_Hlk45888117
	Técnicas de Aprendizado de Máquina
	Abordagem de técnicas gerais de Big Data
	Entendendo o Aprendizado de Máquina 
	Aprendizagem supervisionada
	 Aprendizagem não supervisionada
	Técnicas de aprendizado usadas em Big Data 
	Análise preditiva 
	Previsão de demanda 
	Sistemas de recomendação
	Agrupamento 
	Gerência de Dados e Computação na Nuvem
	Computação na Nuvem
	Modelo de implementação 
	Modelos de serviço
	Computação em Nuvem e Big Data 
	Gerenciamento de dados de Computação em Nuvem
	Bioinformática
	Histórico da Bioinformática 
	Workflow de Bioinformática
	Proveniência de dados em Bioinformática
	Aplicações da Bioinformática
	Bioinformata
	Inovação Tecnológica e Novas Tendências
	Inovação tecnológica 
	Big Social Data
	Tecnologia Blockchain
	Internet das Coisas

Continue navegando