Livro-Texto Unidade III TENDENCIAS EM TI

•

UNIP

Lucineia Da Silva

18/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 46 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

100
Unidade III
Unidade III
5 TENDÊNCIAS NA GESTÃO DE DADOS (PARTE 1)
Big data analytics é um tópico popular no mundo da tecnologia atualmente. Ele trata de perguntas
como “Meu investimento atual em business intelligence está correto?”, “Devo encontrar novas soluções
para minha organização?”, “Como faço para integrar meu data warehouse e business intelligence com big
data?”, “Como faço para começar ver novos resultados?”, “Quais são as habilidades necessárias?”, “O que
acontece com a governança de dados?” e “Como lidamos com a privacidade de dados?”.
Em relação a essas perguntas, é evidente que há uma enorme quantidade de dados sendo gerados ao
nosso redor, em cada setor da sociedade e da economia. Muitos setores estão gerando cargas de dados,
por exemplo, manufatura, automóveis, finanças, setor de energia, consumidores, transporte, segurança,
TI e redes. O advento do big data integra campos que envolvem domínio, conceito, teoria e ideia. Ele
tornou possível armazenar, processar e analisar esses grandes dados para obter uma visão inteligente e
executar informações e decisões calculadas. Essas decisões estão impulsionando as recomendações, o
crescimento, o planejamento e as projeções em todos os segmentos da economia, e é por isso que o big
data tem inundado o mundo como uma tempestade.
Quando olhamos para as tendências de TI nas organizações, elas são comparáveis a uma era em
que as pessoas migraram da forma de acessar aplicativos automatizados e computadorizados para
aplicativos de nível empresarial, a qual deu origem à arquitetura de novas tecnologias como SaaS e
PaaS. Agora vivemos uma era com uma enorme quantidade de dados, que podem ser processados
e analisados de forma econômica.
O mundo está se movendo em direção ao código aberto para obter os benefícios de taxas de licença
reduzidas, armazenamento de dados e baixos custos de computação. Isso realmente se tornou lucrativo
e acessível para todos os setores e segmentos nas organizações, ou seja, tornou o big data sinônimo de
soluções de baixo custo, escalonáveis, altamente disponíveis e confiáveis que podem agregar grandes
quantidades de dados a uma velocidade incrível e que gere percepções inteligentes.
5.1 Big data e analytics
Os sistemas digitais estão interligados com as atividades do mundo real. Como consequência,
multidões de dados são registrados e relatados por sistemas de informação. Durante os últimos
50 anos, o crescimento dos sistemas de informação e suas capacidades para capturar, tratar,
armazenar,compartilhar, transferir, analisar e visualizar dados aumentou exponencialmente. Além disso,
incríveis avanços tecnológicos, pessoas e organizações dependem cada vez mais de dispositivos
informatizados e de fontes de informação na internet.
101
TENDÊNCIAS EM TI
A maioria dos dados armazenados não são estruturados, e as organizações frequentemente vêm
enfrentando desafios para capturá-los, selecioná-los e analisá-los. Uma das tarefas mais desafiadoras
para as organizações de hoje é extrair informações e o valor que é gerado por esses dados armazenados
em seus sistemas de informação. Esses dados, que são altamente complexos e muito volumosos para
serem tratados por um DBMS tradicional, são chamados de big data.
Segundo Lee, Wei e Mukhiya (2018), big data é um termo para um grupo de conjuntos de dados tão
grande e sofisticado que se torna problemático processá-lo usando ferramentas de gerenciamento de
banco de dados disponíveis ou aplicativos de processamento contemporâneos. No mercado recente, há
tendências massivas de dados para se referir ao emprego de análises do comportamento do usuário,
análises preditivas ou alguns métodos de análise de dados que extraem valor desses novos dados
analíticos do ecosistema.
Quer se trate de dados do dia a dia, dados de negócios ou dados básicos, eles representam um
grande volume de dados, estruturados ou não, que são relevantes para a organização. No entanto,
não são apenas os tamanhos dos dados que importam, e sim como esses dados estão sendo usados
pela organização e quais métodos devem ser utilizados para extrair insights mais profundos que
levarão aos melhores negócios e decisões estratégicas. Esses dados volumosos podem ser usados para
determinar a qualidade da pesquisa, melhorar o fluxo do processo em uma organização, prevenir uma
doença específica, vincular citações legais ou combater crimes. O big data está em toda parte, e com as
ferramentas certas pode ser usado para tornar os dados mais eficazes para análise de negócios.
Os mesmos autores apresentam alguns fatos interessantes relacionados à big data e a seu
gerenciamento e análise:
• quase 91% dos líderes de marketing do mundo consomem dados de clientes como big data para
tomar decisões de negócios;
• curiosamente, 90% dos dados totais do mundo foram gerados nos últimos dois anos;
• 87% das pessoas concordam em registrar e distribuir os dados corretos; assim, é importante medir
efetivamente o retorno do investimento (ROI) em sua própria empresa;
• 86% das pessoas estão dispostas a pagar mais por uma ótima experiência do cliente com
uma marca;
• 75% das empresas afirmam que vão expandir os investimentos em big data nos próximos anos.
Para começar, em termos simples, o big data nos ajuda a lidar com os três Vs: volume, velocidade
e variedade. Recentemente, mais dois Vs foram adicionados: veracidade e valor. Entretanto, outros Vs
foram associados ao big data. Nesta seção iremos abordar os mais usuais:
• Volume: refere-se à quantidade de dados. Olhe a sua volta: enormes quantidades de dados são
gerados a cada segundo, através do e-mail que você mandar, de uma mensagem enviada via
Twitter, de uma mensagem respondida no Facebook ou outras mídias sociais, e também de outros
102
Unidade III
dados como vídeos, imagens, mensagens de WhatsApp, registros de chamadas ou dados de vários
dispositivos e sensores. As métricas de medição de dados estão sendo aumentadas de terabytes e
zettabytes – todos representam figuras gigantescas de dados. Esse aspecto de volume sozinho se
torna um banco de dados tradicional incapaz de armazenar e processar essa quantidade de dados
em um prazo razoável e útil, embora uma pilha de big data possa ser empregada para armazenar,
processar e calcular conjuntos de dados surpreendentemente grandes em um custo-benefício
distribuído e de maneira confiável e eficiente.
• Velocidade: refere-se à velocidade de geração de dados, ou a taxa em que os dados são sendo
gerados. No mundo de hoje, em que o volume de dados representa um tremendo aumento, temos
muitos dados porque estamos gerando dados muito rapidamente. Olhe para as redes sociais:
coisas circulam em segundos e se tornam virais, insights das redes sociais são analisados em
milissegundos pelos corretores de ações, e isso pode desencadear muita atividade em termos
de compra ou venda. Do ponto de vista da venda de um produto, sua efetivação pode levar
miléssimos de segundos para ser efetivada, entretanto, outras preocupações também estão sendo
pensadas, como furto de dados de cartão de crédito e, dentro disso, processamento de transação
fraudulenta, pagamento, escrituração e reconhecimento. O big data permite analisar os dados
com grande velocidade.
• Variedade: essa dimensão aborda o fato de que os dados podem ser não estruturados. No mundo
tradicional de banco de dados, e mesmo antes disso, estávamos acostumados com a forma
estruturada de dados que se encaixam perfeitamente nas tabelas. Mas hoje, mais de 80% desses
dados não são estruturados, como fotos, videoclipes, atualizações de mídias sociais, dados de uma
variedade de sensores, gravações de voz e bate-papo. O big data permite armazenar e processar
esses dados de forma muito estruturada; na verdade, abrange a variedade.
Observação
Terabytes é o nome que caracteriza a unidade de medida utilizada para
armazenamento de dados na área da informática, o que é equivalente a
1.024 gigabytes. Ele é representado pela sigla 1TB.
Um único zettabyte contém um sextilhão de bytes, ou um bilhão de
terabytes. Isso significa que seriam necessários um bilhão de terabytes em
discos rígidos para armazenar um zettabyte de dados.
• Veracidade: trata-se de validade e exatidão dos dados. Quão precisos e utilizáveis são os dados?
Nem tudo em milhares de milhões de dados e registros é corrigido, e esses dados também não
são nem precisos, nem referenciáveis. Isto é o que a veracidade realmente é: quão confiáveis são
os dados e qual é a qualidade deles. Dois exemplos de dados com veracidade são postagens no
Facebook e Twitter com siglas fora do padrão ou erros de digitação. O big data trouxe para a mesa
a capacidade de executar análises nesse tipo de dados. Um dos fortes motivos do volume de dados
é sua veracidade.
103
TENDÊNCIAS EM TI
• Valor: como o nome sugere, este é o valor que os dados realmente contêm. Indiscutivelmente,
é o V ou dimensão mais importante do big data. Uma motivação para ir em direção ao big data
para o processamento desse conjuntos de dados é que ele nos leva há alguns insights valiosos, e
a partir dele tudo leva a questões de custos e benefícios.
Lembrete
Como o nome sugere, o valor é o V ou dimensão mais importante do
big data, o qual nos permite receber insights valiosos para a organização.
Aplicações tradicionais de computadores utilizam dados estruturados, tabelas com linhas, colunas e
campos bem definidos para processamento. Os dados na era do big data originam-se de diversos locais
com diferentes tipos e formatos, o que torna complexa a sua manipulação.
Segundo Neto (2018), os dados estão organizados em três tipos:
• Estruturados: são organizados em linhas e colunas, em formato de tabela, e são encontrados em
banco de dados relacionais, sendo muito eficientes quanto a recuperação e processamento. Planilhas
eletrônicas e SQL (linguagem dos bancos de dados) são próprios para acesso e manipulação
desses dados.
• Semiestruturados: são dados com organização diferenciada, normalmente provenientes da web
nos formatos XML e JSON, que precisam de uma prévia análise dos dados para a identificação de
sua estrutura.
• Não estruturados: são dados de vídeo, áudio, e-mails, documentos de textos em geral (posts,
blogs) e dados gerados por aplicativos de redes sociais, como mensagens do WhatsApp, por
exemplo. Esses dados requerem um pré-processamento para análise. Dados podem estar em
movimento ou em repouso.
Observação
XML (eXtensible Markup Language) é um formato de dado muito
utilizado na web para formulários eletrônicos.
JSON (JavaScript Notation Object) é um formato de dado utilizado
quando se quer fazer troca de dados entre aplicações.
As soluções de big data realizam a análise dos dados provenientes de diferentes locais e de diferentes
tipos de dados. Em soluções de software, dados estão misturados: uma parte vem de um banco de
dados estruturado; outra, de um satélite em formato GIS (informação geográfica com satélites); outra,
de arquivos de programas como Word e Excel; outra, das redes sociais; outra, de sensores de máquinas.
Dessa mistura é que são produzidos insights, que serão utilizados para solução de problemas, resposta
a perguntas ou, quem sabe, a criação de um novo produto empresarial (chamado de produto de dados).
104
Unidade III
Lembrete
Dados não estruturados são dados de vídeo e áudio, e-mails,
documentos de textos em geral (posts, blogs) e aqueles gerados por
aplicativos de redes sociais, como mensagens do WhatsApp. Esses dados
requerem um pré-processamento para análise. Muitos deles podem estar
em movimento ou parados.
5.2 A infraestrutura de big data
As tecnologias que fornecem a capacidade de armazenar, processar e analisar dados são o núcleo de
qualquer pilha de big data. A era das tabelas e registros durou muito tempo depois que o armazenamento
de dados relacionais padrão assumiu o controle do armazenamento sequencial, baseado em arquivo.
Hoje conseguimos aproveitar muito bem o armazenamento e a capacidade de computação; assim,
novos desafios e, eventualmente, novas jornadas estão surgindo quando nos deparamos com os 5 Vs
do big data.
O robusto RDBMS vem lutando para sobreviver de forma econômica como uma ferramenta para
armazenamento e processamento de dados. A escala de RDBMS tradicional, quando comparada ao seu poder
de computação esperado para processar uma grande quantidade de dados com baixa latência, teve um
preço muito alto. Isso levou ao surgimento de novas tecnologias de baixo custo e baixa latência, altamente
escalonáveis e de código aberto. Hoje, lidamos com clusters Hadoop com milhares de nós, lançando e agitando
milhares de terabytes de dados.
Conhecido como o elefantinho amarelo, o Hadoop atualmente é usado para uma infinidade de
aplicações de big data. Esse framework foi inicialmente projetado para um propósito específico: um
algoritmo de busca da web, tal como o serviço do Google, porém open source. Criado por Doug Cutting
e Mike Cafarella, o framework, que antes era parte integrante do projeto Apache Nutch, foi lançado
oficialmente em 2006, passando a se chamar Hadoop.
Desenvolvido inicialmente para um propósito específico, desde o seu lançamento ele vem sendo
usado por grandes empresas. O Hadoop surgiu para suprir necessidades de diversas aplicações de big
data. O Yahoo! é até hoje um dos principais utilizadores e colaboradores do framework, mas houve
também contribuições significantes de empresas como o Twitter e Facebook, bem como de universidades
e comunidades de usuários open source.
Observação
RDBMS = Sistema de gerenciamento de banco de dados relacional, do
inglês Relational Database Management System.
105
TENDÊNCIAS EM TI
Segundo Marquesone (2017, p. 91), entre as principais características que tornaram o Hadoop tão
interessante para aplicações que envolvem o grande volume de dados estão:
• Baixo custo: muitas soluções necessitam de hardware de alto desempenho para o processamento
dos dados. O Hadoop foi projetado para o armazenamento e processamento de dados em servidores
tradicionais, reduzindo consideravelmente custos com infraestrutura.
• Escalabilidade: o Hadoop oferece escalabilidade linear para as aplicações, além de permitir
a execução de aplicações em ambientes de cluster com centenas, ou até mesmo milhares, de
servidores sem ser necessária a refatoração de código.
• Tolerância a falhas: sabe-se que, em ambientes com grandes conjuntos de servidores, é comum a
ocorrência de falhas nos componentes de hardware. Por esse motivo, Hadoop possui mecanismos
em nível de software que garantem a disponibilidade dos dados e a execução de tarefas, mesmo
na ocorrência de falhas.
• Novas análises: a flexibilidade oferecida pelo Hadoop, tanto no armazenamento quanto no
processamento de diferentes tipos de dados, somada à capacidade de escalar a solução, permitiram
a exploração de novas análises até então inviáveis.
A figura a seguir demonstra um diagrama de abstração oferecida pelo Hadoop em seus mecanismos
existentes em ambiente distribuído, o que permite ao desenvolvedor concentração unicamente na
lógica do problema. Por exemplo, caso a equipe do Big Compras precise executar uma aplicação de
detecção de fraude utilizando Hadoop, ela pode se concentrar somente na lógica necessária para
realizar a detecção. Todas as outras questões relativas à execução da aplicação são tratadas pelo próprio
framework, reduzindo consideravelmente o tempo gasto no desenvolvimento.
Escalabilidade
Tolerância a falhas
Balanceamento de carga
Escalonamento de tarefas
Comunicação entre máquinas
Alocação de máquinasLógica do problema
Implementado pelo HadoopImplementado pelo desenvolvedor
Figura 38 – Abstração oferecida pelo Hadoop
Fonte: Marquesone (2017, p. 96).
106
Unidade III
NoSQL
Abreviação originada de not only SQL, ou seja, não somente SQL, o termo foi cunhado para definir
os novos modelos de armazenamento de dados, os quais foram criados para atender necessidadesde flexibilidade, disponibilidade, escalabilidade e desempenho das aplicações inseridas no contexto de
big data.
Observação
O No-SQL na verdade é uma não linguagem de consulta estruturada
tradicional. É basicamente uma ferramenta para processar um grande
volume de dados multiestruturados, sendo os mais conhecidos HBase e
Cassandra. Ao contrário dos sistemas de banco de dados tradicionais, eles
geralmente não têm um único ponto de falha e são escaláveis.
Uma das suas principais diferenças, se comparada ao banco de dados relacional, é o fato de seu
foco ser voltado à integridade dos dados. Os modelos existentes em NoSQL tendem a sacrificar uma ou
mais propriedades Acid (acrônimo de atomicidade, consistência, isolamento e durabilidade), para assim
oferecer maior desempenho e escalabilidade às soluções que lidam com grande volume de dados.
Assim como não existe um padrão único para a criação de aplicações de big data, o termo
chamado de one-size-fits-all também não se enquadra em NoSQL. Ou seja, não existe um modelo
de armazenamento único que seja adequado para todos os cenários de aplicações, uma vez que cada
solução requer necessidades específicas.
Os modelos existentes no NoSQL podem ser qualificados em quatro tipos:
• Modelo orientado a chave-valor: possui estrutura mais simples. Nesse tipo de armazenamento,
uma das principais estratégias é o armazenamento de dados utilizando chaves como identificadores
das informações gravadas em um campo identificado como valor.
• Orientado a documentos: categoria NoSQL mais popular, oferece simplicidade e flexibilidade
no gerenciamento dos dados e também meios de criação de índices sobre os valores dos dados
armazenados, enriquecendo as possibilidades de consultas.
• Orientado a colunas: o mais complexo dos modelos. Esse modelo também é considerado uma
extensão do armazenamento orientado a chave-valor e possui conceitos similares ao do modelo
relacional, como a criação de linhas e colunas.
• Orientado a grafos: a descoberta de como os dados estão relacionados é mais importante do
que os dados em si em algumas situações. Observe o gráfico apresentado na figura a seguir, que
oferece um exemplo dos relacionamentos da rede de usuários do aplicativo Big Compras:
107
TENDÊNCIAS EM TI
Tipo:”seguidor”
Data: “05-08-2015“
Tipo:”seguidor”
Data: “06-02-2015“
Tipo:”seguidor”
Data: “02-07-2015“ Tip
o:”s
egu
idor
”
Dat
a: “0
4-0
3-2
015
“
Usuário:
“Maria“
Usuário:
“José“
Usuário:
“João“
Figura 39 – Exemplo de banco de dados orientado a grafos
Fonte: Marquesone (2017, p. 60).
Bancos de dados MPP (massively parallel processing)
São plataformas computacionais capazes de processar dados em uma taxa muito rápida. O trabalho
básico usa o conceito de segmentação dos dados em blocos em nós em diferentes clusters, seguida
pelo processamento dos dados em paralelo. É semelhante ao Hadoop em termos de segmentação de
dados e processamento simultâneo em cada nó, mas se diferencia dele porque não pode ser executado
em máquinas de baixo custo, mas em hardware especializado com alta capacidade de memória. Possui
interfaces semelhantes à SQL para a interação e recuperação de dados e geralmente acaba processando
dados mais rápido, porque usa a memória em processamento. Isso significa que, ao contrário do Hadoop,
que opera no nível do disco, o MPP bancos de dados carrega os dados na memória e opera na memória
coletiva de todos os nós do cluster.
O próximo passo na jornada para big data é entender os níveis e camadas de abstração e os
componentes em torno dela. A figura a seguir mostra alguns componentes comuns de pilhas analíticas
de big data e sua integração com outros modelos. Vale ressaltar que, na maioria dos casos, HDFS/Hadoop
forma o núcleo da maioria dos aplicativos centrados em big data, mas isso não é uma regra geral.
108
Unidade III
Spark
Impala
Kafka
Flume
Oozie
Sqoop
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
HDFS, MR,
YARN
Impala
Kafka
Flume
Oozie
Sqoop
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
HDFS, MR,
YARN
Flume
Oozie
Sqoop
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
HDFS, MR,
YARN
Sqoop
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
HDFS, MR
Hive
Pig
Mahout
HBase
ZooKeeper
HDFS, MR
HBase
ZooKeeper
HDFS, MRHDFS, MR
2006 2008 2009 2010 2011 2012 2015
Figura 40 – Arquitetura de um ambiente de big data analytics
com dados abertos conectados para o ecossistema proposto
Fonte: Marquesone (2017, p.100).
Um sistema de armazenamento pode ser uma das seguintes tecnologias:
• HDFS (abreviação de Hadoop Distributed File System): é a camada de armazenamento que
lida com o armazenamento de dados, bem como com os metadados que são necessários para
completar o cálculo.
• Modelo NoSQL: pode armazenar dados tabulares, como HBase ou valor-chave Cassandra, em
uma camada de computação ou lógica que pode ter as seguintes tecnologias:
—― MapReduce: é uma combinação de dois processos separados, o mapeador e o redutor. O mapeador
é executado primeiro; em seguida, o conjunto de dados, o qual é transformado em outras
estrutura de dados de valor-chave. Então o redutor entra em ação, o qual assume o mapa
criado pelo trabalho do mapeador, convergendo em um conjunto de dados menor.
—― Pig: outra plataforma colocada em cima do Hadoop para processamento, pode ser usada
em conjunto com ou como um substituto para MapReduce. É uma linguagem de alto nível,
amplamente usada para criar processamento de componentes para analisar conjuntos de
dados muito grandes. Um dos aspectos principais é que sua estrutura pode ser corrigida
em vários graus de paralelismo. Em sua essência, um compilador que converte scripts Pig em
tarefas MapReduce é amplamente utilizado.
109
TENDÊNCIAS EM TI
—― Hive: é uma camada de armazenamento de dados construída sobre a plataforma Hadoop.
Oferece facilidade de interação, processamento e análise dos dados HDFS com consultas Hive,
que são muito comuns como SQL. Isso permite uma transição do mundo RDBMS para o Hadoop.
—― Cascading: é uma estrutura que expõe um conjunto de processamento de dados APIs e outros
componentes que definem, compartilham e executam os dados de processamento sobre a pilha
Hadoop/big data. É basicamente uma camada de API abstrata sobre Hadoop. É amplamente
usado para desenvolvimento de aplicativos por causa de sua facilidade de desenvolvimento.
Lembrete
Dev é um processo de criação de produto de software usando as várias
fases do ciclo de vida, como análise de requisitos, design, codificação, teste,
implementação e teste de aceitação do usuário e software de operações.
Ops é um processo de fazer com que o produto desenvolvido seja usado
em um ambiente operacional, apoiando os usuários a utilizá-lo através dos
processos como instalação, atualização, migração, controle operacional e
monitoramento, gerenciamento e suporte de configuração.
5.3 Data science
O primeiro uso registrado do termo ciência de dados remonta a 1960, por Peter Naur, que
supostamente usou o termo ciência de dados como um substituto da ciência da computação e,
eventualmente, introduziu o termo datalogia. Em 1974, Naur lançou seu livro intitulado Concise survey
of computer methods, com uso liberal do termo ciência de dados em todo o livro. Em 1992, a definição
contemporânea de ciência de dados foi proposta no segundo Simpósio Nipo-Francês de Estatística, com
o reconhecimento do surgimento de uma nova disciplina pautada principalmente em tipos, dimensões
e estruturas de dados.
Observação
Peter Naur foi um informático dinamarquês, um dos pioneiros no
estudo da ciência da computação, agraciado com o Prêmio Turing.
O termo dados pode ser definido como informações que são processadas e armazenadas por um
computador. Nosso mundo digital inundou nossas realidades com dados.
A partir de um clique em um site em nossos smartphones somos rastreados e nossa localização
passa a ser usada pelas empresas que consomem esses dados a cada segundo do dia. Nosso mundo
estáse afogando nos dados. Dar profundidade a esses dados gigantescos seria a soluções para nossos
problemas, muitos dos quais ainda nem foram encontrados e já estão sendo extraídos pelas empresas.
110
Unidade III
Esse processo particular de coletar percepções de um conjunto mensurável de dados, usando
equações matemáticas e as estatísticas, pode ser definido como ciência de dados. O papel dos cientistas
de dados tende a ser muito versátil e muitas vezes confundido com o de um cientista da computação
ou um estatístico.
Essencialmente, qualquer pessoa ou empresa poderá (desde que possua habilidade) extrair grandes
volumes de dados para coletar informações que podem ser encaminhadas para nós, praticantes de
ciência de dados. Por exemplo, empresas como Amazon e Target mantêm um controle e registro das
compras feitas na loja on-line pelos clientes, para fornecer recomendações personalizadas sobre produtos
e serviços. Plataformas de redes sociais como Twitter e Instagram permitem que os usuários listem sua
localização atual, o que as torna capazes de identificar padrões de migração, analisando a riqueza de
dados que é entregue a eles pelos próprios usuários.
5.3.1 Ciclo de vida da ciência de dados
O ciclo de vida para projetos de ciência de dados (TDSP – Team Data Science Process) é uma
metodologia amplamente usada para projetos que requerem a implantação de aplicativos baseados
em inteligência artificial e/ou algoritmos de aprendizado de máquina. Também pode ser customizada
para ser usada na execução de ciência de dados exploratória em projetos, bem como projetos de
análise ad hoc.
Observação
Ad hoc: termo cuja tradução literal é “para esta finalidade”.
O ciclo de vida do TDSP é projetado como uma iteração ágil e sequencial de etapas que servem
como orientação sobre as tarefas necessárias para o uso de modelos preditivos. Esses modelos preditivos
precisam ser implantados no ambiente de produção da empresa para que possam ser usados no
desenvolvimento do formulário base de inteligência artificial. O objetivo dese ciclo de vida da ciência
de dados é a entrega em alta velocidade e a conclusão do projeto de ciência de dados em direção a um
endpoint de engajamento definido.
A execução perfeita de qualquer projeto de ciência de dados requer comunicação de tarefas
dentro da equipe, bem como para as partes envolvidas. Os componentes fundamentais do TDSP são
formados por cinco estágios que descrevem as etapas necessárias para a execução do projeto do início
ao fim: conhecimento do negócio, compreensão dos dados adquiridos, modelagem, implantação e
aceitação do cliente.
5.3.2 Padronização na estrutura do projeto
Permissão de acesso de forma fácil e contínua a documentos do projeto para a equipe de membros
permite a recuperação rápida de informações. O uso de modelos e de uma estrutura de diretório
compartilhado é um longo caminho. Durante a fase de desenvolvimento de um sistema, há necessidade
111
TENDÊNCIAS EM TI
de criar um controle de versão, como TFS, Git ou Subversion, para a colaboração da equipe envolvida
no projeto. Requisitos de negócios, tarefas e funcionalidades associadas devem ser armazenadas a um
rastreamento ágil de sistema de projeto, como Jira, Rally e Azure DevOps, para permitir o rastreamento
de cada funcionalidade do código. Essas ferramentas também ajudam na estimativa de recursos e custos
envolvidos ao longo do ciclo de vida do projeto.
Observação
Endpoint é um dispositivo final conectado a um terminal de rede que
pode ser desde computadores e smartphones até câmeras de vigilância
e dispositivos IOT. Por estar conectado à rede, ele acaba transmitindo
informações, e devido a isso ele está suscetível a diferentes tipos de
ataques virtuais.
Para garantir a gestão eficaz de cada projeto, segurança da informação e equipe de colaboração, o
TDSP confere a criação de armazenamento separado para cada projeto no sistema de controle de versão.
A adoção de estrutura padronizada para todos os projetos dentro de uma organização auxilia na criação
de biblioteca de conhecimento institucional em toda a organização.
Os arquivos contêm códigos de programação para a exploração e extração de dados. Funcionalidades
podem ser organizadas usando a estrutura de pastas fornecidas, que também mantêm registros
de iterações do modelo. Esses modelos permitem que as equipes-membros entendam facilmente o
trabalho que foi concluído por outros, como a adição contínua de novos membros da equipe a um
determinado projeto.
O formato markdown oferece facilidade de acessibilidade, bem como a possibilidade de fazer
edições ou atualizações para os modelos de documento. Para ter certeza de que o objetivo do projeto
e todos os objetivos do documento são bem definidos e também para garantir a qualidade esperada
dos entregáveis, esses modelos fornecem várias listas de verificação com importantes perguntas para
cada projeto. Por exemplo, o termo de abertura do projeto pode ser usado para documentar o escopo
do projeto e o problema de negócios que está sendo resolvido pelo projeto, enquanto os relatórios de
dados padronizados são usados para documentar a estrutura estatística dos dados.
Observação
Markdown é uma linguagem simples de marcação criada por John
Gruber e Aaron Swartz. Ele converte seu texto em HTML válido, sendo
frequentemente usado para formatar arquivos README, para escrever
mensagens em fóruns de discussão on-line e para criar rich text usando
um editor de texto simples.
112
Unidade III
5.3.3 Infraestrutura e recursos dos projetos de ciência de dados
Para armazenar a infraestrutura de forma eficaz e gerenciar análises compartilhadas, o TDSP
recomenda o uso de ferramentas como serviço de aprendizado de máquina, bancos de dados, big
clusters de dados e sistemas baseados em nuvem para armazenar conjuntos de dados. As análises
e infraestrutura de armazenamento que hospedam dados brutos, bem como os processados ou
conjuntos limpos de dados, podem ser baseados na nuvem ou localmente. A análise e a infraestrutura
de armazenamento permitem a reprodutibilidade da análise e evitam a duplicação e a redundância
de dados, que podem criar inconsistência e injustificados custos de infraestrutura.
As ferramentas são fornecidas para conceder permissões específicas, para recursos compartilhados e
para rastrear sua atividade, que, por sua vez, permite acesso seguro aos recursos de cada membro da equipe.
5.3.4 Ferramentas e utilitários para execução de projetos
A introdução de quaisquer mudanças em um processo existente tende a ser bastante desafiadora
na maioria das organizações. Para encorajar e aumentar a consistência de adoção dessas mudanças,
várias ferramentas podem ser implementadas, as quais são fornecidas pelo TDSP. Algumas das tarefas
básicas no ciclo de vida da ciência de dados, incluindo exploração de dados e modelagem de linha de
base, podem ser facilmente automatizadas com as ferramentas fornecidas pelo TDSP. Para permitir
a contribuição descomplicada de ferramentas compartilhadas e utilitários no repositório de código
compartilhado da equipe, o TDSP fornece uma estrutura bem definida. Isso resulta em economia de
custos, ao permitir o ingresso de outras equipes no projeto dentro da organização para reutilizar e
reaproveitar essas ferramentas compartilhadas e os serviços de utilidade pública.
O ciclo de vida do TDSP serve como um modelo padronizado, bem definido, com conjuntos de artefatos
que podem ser usados para angariar a colaboração de equipe eficaz e a comunicação em toda a linha de
produção. Esse ciclo de vida é composto por uma seleção das melhores práticas e estruturas da Microsoft,
para facilitar o sucesso da entrega de soluções de análise preditiva e de aplicativos inteligentes.
Vejamos os detalhes de cada um dos cinco estágios do ciclo de vida do TDSP, a saber: conhecimento
do negócio, compreensão dos dados adquiridos, modelagem, implantação e aceite do cliente.
Estágio 1 – Compreensão do negócio
O objetivodesta etapa é reunir e detalhar as variáveis essenciais que serão usadas como alvos para
o modelo e as métricas associadas, variáveis que acabarão por determinar o sucesso geral do projeto.
Outro objetivo significativo dessa etapa é a identificação das fontes de dados que a empresa já possui
ou pode precisar adquirir.
Estágio 2 – Aquisição e compreensão de dados
O objetivo desta etapa é a produção de conjunto de dados processados de alta qualidade, com
relacionamentos definidos para os destinos do modelo e localização do conjunto de dados da análise
113
TENDÊNCIAS EM TI
necessária. Nesta fase de “arquitetura de solução”, o pipeline de dados também deve ser desenvolvido,
o que permitirá atualizações regulares e pontuação dos dados.
As três tarefas principais que devem ser concluídas durante essa fase são a ingestão de dados, a
exploração de dados e o conjunto de pipeline de dados.
• Ingestão de dados: processo necessário para transferir os dados do local de origem para o
destino local, o qual deve ser configurado nesta fase. Os locais de destino são determinados pelos
ambientes que permitirão que você execute atividades analíticas como treinamento e previsões.
• Exploração de dados: o conjunto de dados deve ser limpo para remover quaisquer discrepâncias
e erros, antes que ele possa ser usado para treinar os modelos de dados. Para verificar a qualidade
dos dados e reunir as informações necessárias para processamento e modelagem desses dados,
ferramentas como resumo e visualização dos dados devem ser usados. Uma vez que este processo
é repetido várias vezes, um utilitário automatizado chamado Idear, que é fornecido pelo TDSP,
pode ser usado para visualização de dados e criação de relatórios resumidos de dados. Com a
obtenção de qualidade satisfatória dos dados processados, os padrões de dados inerentes podem
ser observados. Isso, por sua vez, ajuda na seleção e no desenvolvimento de modelo preditivo
apropriado para o alvo. Deve-se avaliar se existe a quantidade necessária de dados para começar
o processo de modelagem, que é iterativo e pode exigir identificação de novas fontes de dados
para alcançar maior relevância e precisão.
• Configurar o pipeline de dados: para complementar o processo iterativo de modelagem de
dados, um processo padrão pode marcar novos dados, atualizar o conjunto de dados existentes e
estabelecer uma configuração de pipeline de dados ou fluxo de trabalho. A arquitetura da solução
dos dados, pipeline, deve ser desenvolvida até o final desta fase. Existem três tipos de pipelines
que podem ser usados com base nas necessidades e restrições do negócio do sistema existente:
baseado em lote, tempo real ou streaming e híbrido.
Os entregáveis a serem criados nesta fase são:
• Relatório de qualidade de dados: este relatório deve incluir um resumo de dados, a relação
entre o requisito de negócios e seus atributos e a classificação variável entre outros detalhes.
A ferramenta Idear, fornecida pelo TDSP, é capaz de gerar relatórios de qualidade de dados em
uma tabela relacional, arquivo CSV ou qualquer outro conjunto de dados tabular.
• Arquitetura de solução: trata-se de uma descrição ou um diagrama dos dados pipeline que é
usada para marcar novos dados e previsões geradas, depois que o modelo foi construído, podendo
ser referido como arquitetura de solução. Esse diagrama também pode fornecer o canal de dados
necessário para retreinar o modelo com base em novos dados.
• Decisão do ponto de verificação: antes do início do modelo real, o projeto de processo de
construção deve ser reavaliado para determinar se o valor esperado pode ser alcançado e se vai se
prosseguir no projeto. Essas decisões são também chamadas de “Vá ou Não”.
114
Unidade III
Estágio 3 – Modelagem
Nesta fase, o objetivo é encontrar recursos de dados ideais para o modelo de aprendizagem de
máquina, o qual possui informações suficientes para prever as variáveis alvo, com precisão, e pode ser
implantado no ambiente de produção. As três principais tarefas que devem ser realizadas neste estágio
são: recurso de engenharia, treinamento do modelo e determinação da adequação do modelo para o
ambiente de produção.
Entregáveis a serem criados nesta fase:
• Conjuntos de recursos: é um documento que contém todos os recursos descritos na seção de
conjuntos de recursos do relatório de definição de dados. Isso é muito usado pelos programadores
para escrever o código necessário e desenvolver recursos com base em uma descrição fornecida
pelo documento.
• Relatório de modelo: documento que deve conter os detalhes de cada modelo que foi avaliado
com base no relatório de modelo padrão.
• Decisões de ponto de verificação: uma decisão sobre a implantação do modelo para o ambiente
de produção deve ser tomada com base no desempenho de diferentes modelos.
Estágio 4 – Implantação
Nesta fase, o objetivo é liberar os modelos de solução para um menor ambiente de produção, como
ambiente de pré-produção e ambiente de teste de aceitação do usuário, antes de eventualmente
implantar o modelo no ambiente de produção. A principal tarefa a ser realizada nesta fase é
operacionalização do modelo.
Depois de obter um conjunto de modelos com níveis de desempenho esperados, esses modelos
podem ser operacionalizados para outras aplicações prontas para usar. De acordo com os requisitos de
negócios, as previsões podem ser feitas em tempo real ou em lote. Para implantar o modelo, eles devem
ser integrados com uma interface de programação de aplicativo (API) aberta para permitir interação do
modelo com todos os outros aplicativos e seus componentes.
Entregáveis a serem criados nesta fase:
• Um relatório de painel usando os indicadores-chave de desempenho e métricas para acessar a
integridade do sistema.
• Um documento ou livro com os detalhes do plano de implantação para o modelo final.
• Um documento contendo a arquitetura da solução do modelo final.
115
TENDÊNCIAS EM TI
Estágio 5 – Aceitação do cliente
O objetivo desta etapa é garantir que a solução final para o projeto atenda às expectativas das
partes interessadas e aos requisitos do negócio reunidos durante o estágio 1 do ciclo de vida da ciência
de dados. As duas tarefas principais que devem ser realizadas nesta fase são a validação do sistema e a
transferência de projeto.
5.3.5 Importância da ciência de dados
A capacidade de analisar e examinar de perto as tendências e padrões de dados usando algoritmos
de aprendizado de máquina resultam na aplicação significativa de ciência de dados no espaço da
cibersegurança. Com o uso da ciência de dados, as empresas não são apenas capazes de identificar os
terminais de rede específicos que iniciaram o ataque cibernético, mas também estão em posição de
prever possíveis ataques futuros contra seus sistemas e tomar as medidas necessárias para evitar os
ataques que estão acontecendo em primeiro lugar. O uso de sistemas ativos de detecção de intrusão, que
são capazes de monitorar usuários e dispositivos em qualquer rede de sua escolha e sinalizar qualquer
atividade incomum, serve como uma arma poderosa contra hackers e atacantes cibernéticos, enquanto
os sistemas de detecção preventiva de intrusão, que são capazes de usar algoritmos de aprendizado de
máquina em dados históricos para detectar ameaças de segurança potenciais, servem como um escudo
poderoso contra cyber predadores.
Ataques cibernéticos podem resultar na perda de dados e informações inestimáveis, resultando
em danos extremos à organização. E para garantir e proteger a criptografia sofisticada de conjunto
de dados, as assinaturas complexas podem ser usadas para impedir o acesso não autorizado.
A ciência de dados pode ajudar no desenvolvimento de tais protocolos e algoritmos impenetráveis.
Ao analisar as tendências e padrões de ataques cibernéticos anteriores a empresas em diferentes
setores industriais, a ciência de dados pode ajudar a detectar o conjunto de dados visados com
mais frequência e até mesmoprever futuros ataques cibernéticos em potencial.
As empresas dependem fortemente dos dados gerados e autorizados por seus clientes, mas à luz do
aumento de ataques cibernéticos, os clientes passaram a ser extremamente cautelosos e comprometidos
com suas informações pessoais e estão procurando levar seus negócios para as empresas que são capazes
de garantir a segurança e a privacidade de seus dados por implementação de ferramentas e tecnologias
avançadas de segurança de dados. Aqui é onde a ciência de dados está se tornando a “salvadora” das
empresas, ajudando-as a melhorar suas medidas em segurança cibernética.
A ciência de dados faz uso de algoritmos avançados de aprendizado de máquina, que tem uma
grande variedade de aplicabilidade em vários domínios do negócio – por exemplo, o desenvolvimento
de carros autônomos que são capazes de coletar dados em tempo real usando suas câmeras e sensores
avançados para criar um mapa de seus arredores e tomar decisões sobre a velocidade do veículo e outras
manobras de condução.
As empresas estão sempre à espreita para entender melhor a necessidade de seus clientes. Isso agora
pode ser alcançado pela coleta de dados, de fontes existentes, como histórico de pedidos do cliente,
116
Unidade III
itens vistos recentemente, sexo, idade e dados demográficos, e a aplicação avançada de ferramentas
analíticas e algoritmos sobre esses dados passará a gerir insights valiosos. Com o uso de algoritmos de
machine learning (ML), o sistema pode gerar recomendações de produtos para clientes individuais com
maior precisão.
O consumidor atualmente procura aplicações que se preocupam com a experiência do usuário,
criando um envolvimento entre ambos. Então, as empresas podem usar essas ferramentas analíticas e
algoritmos para obter uma competitividade inovavadora e, com isso, expandir seus negócios.
5.3.6 Ciência de dados nos negócios
Data science é um fenômeno que envolve princípios, processos e técnicas para a compreensão
através de análise (automatizada) e nos permite melhorar a tomada de decisão, já que isso geralmente
é de interesse direto para os negócios.
A figura a seguir coloca a data science no contexto de vários outros processos intimamente
relacionados na organização. Ela se distingue de outros aspectos de processamento de dados, que estão
ganhando cada vez mais atenção nos negócios.
Tomada de decisão
baseada em dados
(em toda a empresa)
DDD
automatizado
Data Science
Outros efeitos positivos do processamento
de dados (por exemplo, processamento de
transição mais rápido)
Engenharia de dados e processamento
(incluindo tecnologia e “big data“)
Figura 41 – Contextualização de big datas de vários processos nas organizações
Adaptada de: Provost e Fawcett (2013).
A tomada de decisão baseada em dados (DDD – Data-driven decision making) refere-se à prática de
basear as decisões na análise de dados, em vez de puramente por intuição. Por exemplo, um profissional
de marketing pode selecionar anúncios baseados puramente em sua longa experiência no campo ou
poderia basear sua seleção na análise de dados sobre como consumidores reagem a anúncios diferentes.
Também poderia usar uma combinação dessas abordagens. DDD não é uma prática de tudo ou nada,
diferentes empresas se envolvem em DDD para maiores ou menores graus.
117
TENDÊNCIAS EM TI
Os benefícios da tomada de decisão baseada em dados foram demonstrados de forma conclusiva.
O economista Erik Brynjolfsson e seus colegas do MIT e da Penn’s Wharton School conduziram um estudo
de como o DDD afeta o desempenho da empresa (BRYNJOLFSSON; HITT; KIM, 2011). Eles desenvolveram uma
medida de DDD que classifica as empresas quanto à intensidade com que usam dados para tomar
decisões em toda a empresa. Eles mostram que, estatisticamente, quanto mais orientada a dados
uma empresa, mais produtiva ela será, mesmo controlando uma ampla gama de possíveis fatores de
confusão. E as diferenças não são pequenas. Um desvio padrão mais alto na escala DDD está associado
a um aumento de 4% a 6% na produtividade. O DDD também é correlacionado com maior retorno sobre
ativos, retorno sobre patrimônio líquido, uso de ativos e mercado de valor, e a relação parece ser causal.
Para Provost e Fawcett (2013), há dois tipos de decisão:
• decisões para quais “descobertas” precisam ser feitas dentro dos dados;
• decisões a repetir, especialmente em grande escala, e assim a tomada de decisões pode se
beneficiar até mesmo de pequenos aumentos da precisão da tomada de decisão com base na
análise de dados.
Em 2012, as concorrentes Walmart e Target viraram notícia, pois passaram a tomar decisões baseadas
em dados de consumo dos seus clientes. Como a maioria dos varejistas, a Target se preocupa com os
hábitos de compra dos seus clientes, o que os motiva e o que pode influenciá-los. Os clientes tendem
a permancer fiéis àquilo que os agrada, e fazer com que eles não mudem de ideia é muito difícil. Os
gestores da Target sabiam, no entanto, que a chegada de um novo bebê em uma família é um ponto
em que as pessoas mudam significativamente seus hábitos de compra. O que passou a ser a palavra
alvo dos analistas? Assim que eles comprarem nossas fraldas, eles vão começar a comprar tudo o que
vendemos. Essa é uma prática conhecida pela maioria dos varejistas e, portanto, há uma competição de
“que vença o melhor” entre as lojas, com cada um tentando vender produtos relacionados ao bebê para
novos pais. Uma vez que a maioria dos registros de nascimento é pública, os lojistas obtêm informações
sobre nascimentos e enviam ofertas especiais para os novos pais.
Saiba mais
Saiba mais sobre o estudo do economista Erik Brynjolfsson no artigo:
TECNOLOGIA ‘rouba’ cada vez mais empregos. Estadão, 27 out. 2011.
Disponível em: https://cutt.ly/5Weh403. Acesso em: 24 ago. 2021.
Leia também o artigo a seguir:
BRYNJOLFSSON, E.; HITT, L.; KIM, H. Strength in numbers: how does
data-driven decision making affect firm performance? Semantic Scholar,
2011. Disponível em: https://cutt.ly/1WejPl6. Acesso em: 24 ago. 2021.
118
Unidade III
Observação
O Walmart Inc. (Wal-Mart até 2008) é uma multinacional estadunidense
de lojas de departamento. Fundada por Sam Walton em 1962, foi incorporada
em 31 de outubro de 1969 e teve seu capital aberto na New York Stock
Exchange em 1972. Foi eleita a maior multinacional de 2010.
A Target Corporation Inc. (NYSE: TGT), mais conhecida como Target,
é uma rede de lojas de varejo dos Estados Unidos fundada em 1902 por
George Draper Dayton. Sediada em Minneapolis, no estado de Minnesota,
é a segunda maior rede de lojas de departamento nos Estados Unidos,
atrás do Walmart.
No entanto, os gestores da Target queriam dar um salto ainda maior sobre a concorrência. Eles
estavam interessados em saber como poderiam prever que pessoas estariam esperando um bebê. Se
eles pudessem prever essas informações antes de seus concorretes, eles teriam uma vantagem fazendo
ofertas antes de seus concorrentes. Usando técnicas de ciências de dados, a Target analisou dados
históricos de clientes (mulheres) que mais tarde revelaram ter estado grávidas e conseguiu extrair
informações que poderiam prever quais consumidoras engravidariam. Por exemplo, as mães grávidas
muitas vezes mudam suas dietas, sua alimentação, seus regimes de vitaminas e assim por diante. Esses
indicadores podem ser extraídos de dados históricos, montados em modelos preditivos e, em seguida,
implantados em campanhas de marketing.
Por enquanto, entender o que é um modelo preditivo é o suficiente para abstrair grande parte da
complexidade do mundo, concentrando-se em um determinado conjunto de indicadores correlacionados a
alguma outra informação com uma quantidade de interesse (quem vai se exercitar, quem vai comprar,
quem está grávida etc.). Exemplos como o do Walmart e da Target quanto à análise de dados não estavam
testando apenas uma hipótese simples. Em vez disso, os dados foram explorados com a esperançade
que algo útil fosse descoberto.
Diferentes indústrias adotaram a tomada de decisão automática em diferentes cotações. Os setores de
finanças e telecomunicações foram os primeiros a adotá-la, principalmente por causa do desenvolvimento
precoce de redes de dados e da implementação de computação em escala massiva, que permitiram
agregação e modelagem de dados em larga escala, bem como a aplicação dos modelos resultantes à
tomada de decisão.
Nos anos 1990, a tomada de decisão automatizada mudou dramaticamente setores como o
sistema bancário e o de crédito ao consumidor. Bancos e empresas de telecomunicações também
implementaram sistemas em grande escala para gerenciar decisões de controle de fraude baseadas em
dados. Como os sistemas de varejo eram cada vez mais informatizados, as decisões de merchandising
eram totalmente automatizadas.
119
TENDÊNCIAS EM TI
Um princípio básico da ciência de dados é que a mineração de dados é um processo com estágios
bem compreendidos. Alguns envolvem a aplicação de tecnologia da informação, como a descoberta
automatizada e a avaliação de padrões de dados, enquanto outros requerem principalmente a
criatividade, o conhecimento de negócios e o bom senso de um analista. Compreendendo o todo, o
processo ajuda a estruturar projetos de mineração de dados, para que fiquem mais próximos de análises,
e não de esforços heroicos movidos pelo acaso e perspicácia individual.
6 TENDÊNCIAS NA GESTÃO DE DADOS (PARTE 2)
Segundo Caetano (2015), os humanos utilizam várias formas para representar o que é dinheiro há
milhares de anos. Vários tipos de objetos preciosos já foram e são utilizados como um meio de troca.
Nossos ancestrais trocavam grãos, gado, conchas e pedras preciosas por outros bens e serviços. Esse
tipo de moeda, que podemos tocar e ver, pode ser considerado dinheiro físico. Conforme as civilizações
progrediram, o mesmo aconteceu com nossos sistemas políticos. Eventualmente, tribos e aldeias
tornaram-se reinos, estados e impérios. Através dessa transformação, vimos também nosso dinheiro
se transformar em dinheiro político; dinheiro que é governado e emitido por um rei, imperador ou, na
sociedade de hoje, um órgão central como o Banco Central. Moedas e notas emitidas pelo Estado, bem
como impostos, regulamentos e política monetária, tudo surgiu dessa mudança.
Hoje, a internet nos conecta diretamente uns aos outros, abrindo uma enorme possibilidade para
que toda essa tecnologia possa ser utilizada. Ao dissolver as fronteiras físicas e políticas pré-existentes,
pela primeira vez na história, todo o planeta tem acesso às mesmas informações. Esse nível de acesso é
garantido pelo design descentralizado da internet. Sem um hub centralizado, não há um único ponto
de falha ou controle.
Satoshi Nakamoto, o criador do Bitcoin, alavancou essa rede poderosa ao implementar um sistema ponto
a ponto (p2p) para troca de moeda virtual. Construído em um design descentralizado e protegido por uma
poderosa criptografia, esse novo tipo de moeda não é mais físico, mas, sim, resiliente contra a corrupção e a
manipulação. É sobre essa tecnologia que iremos mergulhar nos próximas seções deste livro-texto.
6.1 Blockchain
Blockchains são uma nova abordagem para o banco de dados distribuído. A inovação vem da
incorporação de tecnologias antigas abordadas com as novas. Eles podem ser pensados como bancos
de dados distribuídos, em que um grupo de indivíduos controla o que é armazenado e como essas
informações serão compartilhadas.
Existem tipos diferentes de blockchains e também de aplicativos de blockchains. Trata-se de uma
tecnologia abrangente que se integra entre plataformas e hardware em todo o mundo. Um blockchain é
uma estrutura de dados que possibilita a criação de um livro de razão pública de dados compartilhados
entre uma rede de partes independentes.
A primeira moeda global, o Bitcoin, foi descrita pela primeira vez em 2008 em um artigo escrito
por Satoshi Nakamoto. Isso coincidiu com a crise financeira que viu bancos resgatando dinheiro dos
120
Unidade III
contribuintes. Desde 2013, foi desenvolvido para facilitar não só a criação descentralizada, o rastreamento
e a troca de moeda digital, mas também contratos inteligentes.
Seus proponentes afirmaram que a implantação global de contratos inteligentes através desse novo
protocolo iria mudar o mundo dos negócios para sempre. E dependendo do tipo de pessoa que você
é, do tipo de acesso que você tem e de seu conhecimento, ferramentas e recursos, você vai achar
empolgante, exasperante, tolo, aterrorizante, ou simplesmente não é seu negócio. Se você tiver idade
suficiente, isso irá lembrá-lo do clamor em torno do surgimento da World Wide Web. O blockchain está
em estágio de desenvolvimento como a WWW no início dos anos 1990. Não é surpreendente, portanto,
que muitas pessoas achem difícil entender o que é o blockchain.
Uma criptomoeda digital pode ser usada e trocada eletronicamente com outras moedas. Depois de
enviadas pelo mundo, as criptomoedas não podem ser controladas por uma autoridade central, como
países ou bancos centrais. Em vez disso, seu valor e uso são alcançados como uma troca, por consenso
entre seus usuários, usando tecnologia blockchain. Na criptomoeda, a confiança nas pessoas e instituições
é substituída pela confiança na justiça das forças do mercado e na matemática da criptografia, que evita
a falsificação e mantém sua segurança.
O valor de uma criptomoeda é definido pela oferta e demanda do mercado, assim como ocorre
com ouro ou prata. O valor dos metais duros deriva da escassez e da dificuldade de extração; com as
criptomoedas, a única dificuldade é computacional e a única escassez é por design.
Em um sistema chamado de prova de trabalho, as máquinas de mineiros executam um software que
usa poder de processamento e muita energia para competir por moedas. Para extrair novas moedas, esses
computadores reúnem periodicamente um “bloco” de novas transações de toda a rede e, em seguida,
correm para resolver um difícil quebra-cabeça matemático para aquele bloco. Diz-se que o vencedor
minerou com sucesso o bloco, garantindo a propriedade das moedas recém-cunhadas e quaisquer taxas
de transação pagas pelos usuários.
Segundo Bambara et al. (2018), para o mundo dos usuários de tecnologia, o blockchain representa
uma melhoria drástica no cenário de coleta, distribuição e governança de informações. Esse ponto
tem sido defendido nos últimos anos em livros e apresentações que exageram e imaginam esse novo
mundo. Então, vamos começar. Simplificando, um blockchain é um banco de dados que abrange uma
cadeia física de blocos de comprimento fixo que incluem de 1 a N transações, sendo que cada transação
adicionada a um novo bloco é validada e então inserida no bloco. Quando o bloco é concluído, ele é
adicionado ao final da cadeia de blocos existente. Além disso, as duas únicas operações são adicionar
transação e visualizar transação. Portanto, o processamento de blockchain básico consiste nas seguintes
etapas, que são numeradas como 3, 4 e 5 na figura a seguir:
1 – Adiciona novas transações não elimináveis e as organiza em blocos.
2 – Verifica criptograficamente cada transação no bloco.
3 – Anexa o novo bloco ao final do blockchain imutável existente.
121
TENDÊNCIAS EM TI
Dessa forma mais abrangente, um blockchain também é um banco de dados distribuído, que mantém
uma lista duplamente vinculada de blocos ordenados. Cada bloco tem em média 1 megabyte e possui
dados de controle de aproximadamente 200 bytes, como um carimbo de data/hora, um link para um
bloco anterior, alguns outros campos e transações de 1 a N, conforme cabem no espaço restante.
Saiba mais
Saiba mais sobre o tamanho médio de um blockchain no link a seguir:
TAMANHO médio do bloco (MB). Blockchain, [s.d.]. Disponível em:
https://cutt.ly/1WtEsny. Acesso em: 25 ago. 2021.
A e B desejam conduzir uma
interação ou transação
Uma vez validado, um
novo bloco é criado
As chavescriptográficas são
atribuídas à interação
Este bloco é então adicionado
A interação é transmitida e
verificada por uma rede distribuída
em que A e B são mantidos
A transação entre A e B está
completa para a cadeia
1
4 5 6
2 3
A
A
B
B
Figura 42 – Fluxo de transação de blockchain público
Adaptada de: Bambara et al. (2018, p. 1).
Uma vez registrados, os blocos são projetados para serem resistentes à modificação. Os dados em
um bloco não podem ser alterados retroativamente por meio do uso de uma rede ponto a ponto e uma
rede distribuída por um servidor de carimbo com data e hora. Um banco de dados público de blockchain
é gerenciado de forma autônoma. Blockchains funcionam como um livro público aberto e distribuído
que pode registrar transações entre duas partes de forma eficiente, verificável e permanente, conforme
ilustrado na figura a seguir:
122
Unidade III
Figura 43 – Layout dos dados do blockchain
Fonte: Bambara et al. (2018, p. 2).
Vejamos algumas analogias que ilustram o que há de diferente no blockchain público. Ele é um
banco de dados e o software que o envolve. Como software, é como o BitTorrent, um programa que
permite fazer upload e download de arquivos diretamente com outras pessoas que também executam
o software BitTorrent. Então, em vez de enviar um arquivo para um serviço de compartilhamento de
arquivos, como o Dropbox, e compartilhar com seu amigo um link para baixar o arquivo, basta enviar
o arquivo diretamente para o computador do seu amigo. Isso é o que queremos dizer com programa
ponto a ponto (p2p) (veja a figura a seguir).
123
TENDÊNCIAS EM TI
Peer-Peer
Livro razão descentralizadoLivro razão centralizado
Dropbox
Figura 44 – Armazenamentos de dados descentralizados versus centralizados
Fonte: Bambara et al. (2018, p. 4).
6.1.1 Tipos de blockchain
Quando as pessoas começaram a entender como o blockchain funciona, elas começaram a usá-lo
para outros propósitos, como armazenamento de dados para coisas de valor, identidades, acordos,
direitos de propriedade etc. Tecnologias como o Ethereum (abordados adiante) são utilizadas como
inovação de blockchain, além de outras abrangentes, como Bitcoin. Como as implementações de
computação em nuvem, surgiram diferentes tipos ou categorias de blockchain. De modo análogo à
nuvem, há blockchains públicos, que todos podem acessar e atualizar, blockchains privados, que apenas
um grupo limitado dentro de uma organização pode acessar e atualizar, e um terceiro tipo, um consórcio
de blockchains que é usado em colaboração com outros. Empresas em Wall Street trabalham com esse
tipo de arranjo de consórcio, o qual ainda pode entrar em cinco dos maiores bancos de investimento.
O consórcio facilitou as negociações em um nível institucional entre os membros; por isso, faz sentido
que o blockchain seja conhecido como uma ferramenta de tecnologia financeira.
As seções a seguir são uma exploração rápida de cada tipo de blockchain.
Blockchains públicos
São aqueles que os criadores iniciais imaginaram como um blockchain que permitisse a todos acessar
e fazer transações, cujas transações são incluídas se e somente se forem válidas e no qual todos podem
contribuir para o processo de consenso. O processo de consenso determina quais blocos são adicionados
à cadeia e qual é o estado atual.
124
Unidade III
No blockchain público, em vez de usar um servidor central, o blockchain é protegido por verificação
criptográfica apoiada por incentivos para os mineiros. Qualquer um pode ser um minerador para
agregar e publicar essas transações. No blockchain público, como nenhum usuário é implicitamente
confiável para verificar as transações, todos os usuários seguem um algoritmo que verifica as transações,
comprometendo recursos de software e hardware para resolver um problema por força bruta (ou seja,
resolvendo o quebra-cabeça criptográfico). O mineiro que chega primeiro à solução é recompensado,
e cada nova solução, junto com as transações que foram usadas para verificá-la, forma a base para o
próximo problema a ser resolvido. Os conceitos de verificação são prova de trabalho ou prova de aposta.
Blockchains de consórcio
Um blockchain de consórcio, como o R3, é um livro em que o processo é controlado por um
conjunto pré-selecionado de nós – por exemplo, um consórcio de nove instituições financeiras, cada
uma operando um nó, e das quais cinco (como a Suprema Corte dos EUA) devem assinar cada bloco
para que este seja válido.
O blockchain pode ser público ou restrito aos participantes, e também há rotas híbridas, como
os hashes de raiz dos blocos públicos, juntamente com uma API, que permite que membros públicos
façam um número limitado de consultas e obtenham de volta as provas criptográficas de algumas
partes do blockchain. Esses tipos de blockchains são distribuídos e podem ser considerados
parcialmente descentralizados.
Blockchains privados
Um blockchain totalmente privado é um blockchain no qual as permissões de gravação são mantidas
centralizadas. As permissões de leitura podem ser públicas ou restritas de forma arbitrária. Os aplicativos
prováveis incluem gerenciamento de banco de dados e auditoria interna de uma única empresa;
portanto, a legibilidade pública pode não ser necessária em muitos casos, embora em outros casos a
auditabilidade pública seja desejada.
Os blockchains privados podem fornecer soluções para problemas de empresas financeiras,
incluindo agentes de conformidade para regulamentações como as leis de portabilidade e
responsabilidade de seguros de saúde (HIPAA), de antilavagem de dinheiro (AML) e de conheça
seu cliente (KYC). O projeto Hyperledger da Linux Foundation e a rede Gem Health são projetos de
blockchain privados em desenvolvimento.
6.1.2 Comparando blockchains
Blockchains públicos e privados apresentam vantagens particulares. Os operadores privados podem
alterar as regras de um blockchain. Se for um blockchain entre parceiros financeiros, em que os erros
podem ser descobertos, eles poderão alterar as transações. Da mesma forma, eles serão capazes de
modificar saldos e geralmente desfazer qualquer coisa. Dito isso, há uma trilha, e essa funcionalidade
é necessária, por exemplo, no caso do registro de propriedades, se uma transação incorreta for emitida
125
TENDÊNCIAS EM TI
ou algum tipo de intruso obteve acesso e se tornou o novo proprietário. Isso também é verdade em um
blockchain público se o governo tiver chaves de acesso backdoor, como tinha na era Clinton.
No blockchain privado, as transações são menos caras, uma vez que só precisam ser verificadas por
alguns nós que podem ser confiáveis para ter um poder de processamento muito alto. Já os blockchains
públicos tendem a ter taxas de transação mais caras, mas isso vai mudar à medida que tecnologias
de escalonamento surgirem e reduzirem os custos do blockchain público para criar um sistema de
blockchain eficiente.
Uma forma confiável de acesso se dá a partir dos nós de acesso que possuem confiabilidade para se
conectarem. Caso haja falhas, podem ser rapidamente corrigidos por intervenção manual, permitindo
o uso de algoritmos de consenso que oferecem tempos de bloqueio muito mais curtos. Melhorias no
blockchain público, como a prova de aposta da Ethereum, podem trazer blockchains públicos muito
mais próximos do ideal, com “confirmação instantânea”. Mas os blockchains privados sempre serão mais
rápidos, e a diferença de latência, infelizmente, nunca desaparecerá. Podemos comparar essa diferença
com a velocidade da luz, que não segue a Lei de Moore e, portanto, não aumenta duas vezes a cada dois
anos. Se as permissões de leitura forem restritas, as cadeias de bloqueio privadas podem fornecer um
maior nível de privacidade.
Saiba mais
Saiba mais sobre a Lei de Moore no link a seguir:
INTEL. Alimentando a inovação que tanto apreciamos e da qual dependemos.
[s.d.]. Disponível em: https://cutt.ly/AWk97Gu. Acesso em: 31 ago. 2021.
Diante de tudo isso, pode parecer queblockchains privados são, sem dúvida, uma escolha melhor
para as instituições. No entanto, mesmo em um contexto institucional, os blockchains públicos
ainda têm muito valor. Na verdade, esse valor reside em um grau substancial que os defensores dos
blockchains públicos vêm promovendo o tempo todo. Entre suas principais qualidades estão a liberdade,
a neutralidade e a abertura.
As vantagens dos blockchains públicos geralmente se enquadram em duas categorias principais:
• Fornecem uma maneira de proteger os usuários de um aplicativo dos desenvolvedores,
estabelecendo que há certas coisas que mesmo os desenvolvedores de um aplicativo não têm
autoridade para fazer.
• São abertos e, portanto, usados por muitas entidades. Isso fornece alguns efeitos de rede. Se tivermos
sistemas de retenção de ativos em um blockchain e uma moeda no mesmo blockchain, então
podemos cortar os custos para quase zero com um contrato inteligente: a parte A pode enviar
o ativo para um programa que o envia imediatamente para a parte B, que envia dinheiro ao
126
Unidade III
programa, e o programa é confiável porque é executado em um blockchain público. Observe que,
para que isso funcione com eficiência, duas classes de ativos completamente heterogêneas de
setores completamente diferentes devem estar no mesmo banco de dados. Isso também pode ser
usado por outros detentores de ativos, como registros de terras e seguros.
6.1.3 Implementações blockchain
O conceito de moeda digital descentralizada, bem como de aplicativos alternativos como registros de
propriedade, existe há décadas, mas nenhum produziu implementações de produção viáveis até agora.
Os protocolos de eCash anônimos das décadas de 1980 e 1990 dependiam principalmente de uma
primitiva chave criptográfica conhecida como chaumian blinding, com tradução literal para cegueira
chaumiana (em homenagem a seu desenvolvedor, David Chaum).
Segundo Bambara et al. (2018), a chaumian blinding forneceu a essas novas moedas altos graus
de privacidade, mas seus protocolos subjacentes falharam em grande parte em ganhar força por
causa de sua dependência de um intermediário centralizado.
Em 1998, o b-money de Wei Dai se tornou a primeira proposta a introduzir a ideia de criar dinheiro
por meio da solução de quebra-cabeças computacionais, bem como do consenso descentralizado,
mas a proposta era escassa em detalhes sobre como o consenso descentralizado poderia realmente
ser implementado.
Em 2005, Hal Finney introduziu um conceito de provas reutilizáveis de trabalho, um sistema que usa
ideias de b-money junto com os quebra-cabeças Hashcash (http://hashcash.org) e computacionalmente
difíceis para criar um conceito para criptomoedas, mas isso provou, mais uma vez, que o modelo estava
longe do ideal. O conceito de blockchain foi implementado como um componente central da moeda
digital Bitcoin. Essa implementação crítica é talvez a primeira em produção do blockchain, tornando-a
a primeira moeda digital a resolver o problema de gasto duplo sem o uso de uma autoridade confiável
ou servidor central.
Observação
O eCash foi criado em 1983 para ser um sistema de moeda virtual
criptográfica e anônima em que o software eCash guardaria o dinheiro
do usuário de forma digital e criptograficamente assinada por um banco.
O usuário poderia gastar esse dinheiro virtual em qualquer loja que
aceitasse eCash sem que fosse necessário abrir uma conta antes ou passar
seu número do cartão de crédito. Isso se tornou possível através de um
sistema RSA de blind signatures, as quais garantem a não ligação entre as
transações de retirada e de gastos.
127
TENDÊNCIAS EM TI
6.2 Bitcoin
Quando a crise financeira de 2008 estava em alta, o Bitcoin (BTC), uma moeda descentralizada, foi
implementada pela primeira vez, na prática, por Satoshi Nakamoto. O Bitcoin combina gerenciamento
de propriedades por meio de criptografia de chave pública, com algoritmo de consenso para rastrear
quem possui moedas, conhecido como prova de trabalho.
O mecanismo por trás da prova de trabalho resolve simultaneamente dois problemas. Primeiro, ele
fornece um algoritmo de consenso eficaz, permitindo que os nós da rede concordem coletivamente
sobre um conjunto de atualizações para o estado do livro razão Bitcoin. Em segundo lugar, fornece um
mecanismo para permitir a entrada livre no processo de consenso, resolvendo o problema político de
decidir quem consegue influenciar o consenso, ao mesmo tempo em que evita o ataque Sybil, ou seja,
ataques em que um sistema de reputação é subvertido pela falsificação de identidades em pares, em
redes ponto a ponto.
Ele funciona substituindo uma barreira formal à participação, como o requisito de ser registrado
como uma entidade única, em uma lista particular, por uma barreira econômica – o peso de um único
nó no processo de votação por consenso é diretamente proporcional ao poder de computação que o nó
traz. Mais recentemente, foi proposta uma abordagem alternativa chamada prova de aposta, calculando
o peso de um nó como sendo proporcional à sua moeda, e não aos seus recursos computacionais.
Como o Bitcoin é o mais amplamente usado, iremos explorá-lo com alguns detalhes nas próximas
seções.
Saiba mais
Para conhecer mais sobre a tecnologia do Bitcoin, acesse:
Disponível em: https://bitcoin.org/en/. Acesso em: 4 set. 2021.
6.2.1 Transição de estado Bitcoin
Do ponto de vista técnico, uma criptomoeda como o Bitcoin pode ser pensada como um sistema
de transição de estado, em que existe um estado S consistindo no status de propriedade das bitcoins
existentes (ou qualquer ativo para esse assunto) e uma transição de estado função, isto é, a API: EXECTX,
que pega um estado S e uma transação TX e produz um novo estado S’, que é o resultado.
Em um sistema bancário padrão, por exemplo, o estado é um balanço patrimonial, uma transação é
uma solicitação para mover $ dinheiro em espécie de A para B, e a função de transição de estado reduz
o valor da conta de A em X quantidade de $ em dinheiro e aumentar o valor da conta de B em uma
quantia X de $ em dinheiro. Se a conta de A tiver menos de X quantia de $ em dinheiro em primeiro
lugar, a função de transição de estado retorna um erro, conforme o exemplo da API seguir:
128
Unidade III
EXECTX(S,TX) results in S’ (new state) or ERROR and S (no change to state)
If A has enough $cash money:
EXECTX({ A:$1000, B:$500},”send $500 :A to B”) results in { A:$500, B:$1000 }
But if A does not have enough $cash money:
EXECTX({ A:$1000, B:$500 },”send $1001 from A to B”) results in ERROR
O estado de um blockchain é a “visão consensual” de todas as transações, em um determinado
momento, que são confirmadas para todos os nós. No mundo do Bitcoin, é a coleção de todas as saídas
de transações não gastas (UTXOs, ou unspent transaction output) que foram cunhadas e ainda
não foram gastas. O UTXO possui uma denominação e um proprietário (definido por um endereço
de 20 bytes, que é essencialmente uma chave criptográfica pública). Com relação aos UTXOs, cada saída de
uma transação específica pode ser gasta apenas uma vez, e as saídas de todas as transações incluídas
no blockchain podem ser categorizadas como saídas de transações não gastas (consulte o endereço
https://bit.ly/2Y8Fw01) ou saídas de transações gastas. Para que um pagamento seja válido, ele deve
usar apenas UTXOs como entradas.
Se o valor das saídas de uma transação exceder suas entradas, a transação será rejeitada. Mas se as
entradas excederem o valor das saídas, qualquer diferença no valor pode ser reivindicada como uma
taxa de transação pelo minerador de Bitcoin que cria o bloco que contém essa transação.
Uma transação possui uma ou mais entradas, com cada entrada contendo uma referência a um
UTXO existente e uma assinatura criptográfica, produzida pela chave privada associada ao endereço
do proprietário, a uma ou mais saídas, com cada saída contendo um novo UTXO para adição ao estado.
A função de transição de estado EXECTX(S, TX) -> S” pode ser definida da seguinte forma:
Para cada entrada em TX:
1) Se o UTXO referenciado não estiver em S, retorne um erro; isso evita que os remetentes das
transações gastem moedas que não existem.
2) Se a assinatura fornecida não corresponder ao proprietário do UTXO, retorne um erro; isso evita
que os remetentes das transações gastem as moedas de outras pessoas.
3) Se a soma das denominações de todos os UTXOs de entrada for menor que a soma das denominações
de todos os UTXOs de saída, retornará um erro.
4) Retorne S’ com todo UTXO de entrada removido e todo UTXO de saída adicionado.
6.2.2 Mineração de Bitcoin
Conforme Caetano (2015), o Bitcoin combina o sistema de transição de estado com um sistema de
consenso para garantir que todos concordem com a ordem das transações. O processo de consenso
129
TENDÊNCIAS EM TI
descentralizado do Bitcoin requer que os nós da rede tentem continuamente produzir blocos, ou seja,
1 a N transações. A rede Bitcoin se destina a criar um bloco aproximadamente a cada 10 minutos, com
cada bloco contendo um carimbo de data/hora, um nonce, uma referência a (ou seja, hash) do bloco
anterior e uma lista de todas as transações que ocorreram, desde a quadra anterior. Cada bloco na rede
Bitcoin tem exatamente a mesma estrutura mostrada na figura a seguir.
Cada bloco recém-criado é “encadeado” ao último bloco adicionado do blockchain e armazena sua
impressão digital. Vamos examinar os campos de um bloco, com tamanhos de bytes sujeitos a alterações:
• Identificador de bloco (4 bytes): este é um identificador para a rede blockchain. Ele tem um
valor de número mágico constante de 0xD9B4BEF9. O número mágico não é algo específico
do Bitcoin. Ele identifica o tipo de arquivo ou estrutura de dados que você está consumindo.
O consumidor pode verificar o número mágico e saber imediatamente o suposto tipo daquele
arquivo ou estrutura de dados. Neste caso, indica o início do bloco, e os dados são de uma rede
de produção.
• Identificador do próximo bloco (4 bytes).
• Tamanho do bloco (4 bytes): indica o tamanho do bloco. Desde o início, cada bloco foi fixado
em 1 MB. Isso será aumentado para 2 MB. A capacidade máxima é de 2 GB, portanto, o fator de
escalabilidade já foi considerado.
Figura 45 – Bitcoin blockchain schema
Fonte: Bambara et al. (2018, p. 18).
• Versão do bloco (4 bytes): cada nó executando o protocolo Bitcoin deve implementar a mesma
versão e é mencionado neste campo.
130
Unidade III
• Hash do bloco anterior (32 bytes): esta é uma impressão digital (hash) do cabeçalho do bloco
anterior (adicionado por último) do blockchain. É calculado juntando todos os campos do
cabeçalho (versão, nonce etc.).
• Raiz do bloco Merkle (64 bytes).
• Timestamp do bloco (8 bytes).
• Nonce (4 bytes).
O cabeçalho do bloco é composto pelos campos de Version a Nonce.
• Contador de transações (variável: 4 bytes): esta é a contagem de transações que estão
incluídas no bloco.
• Lista de transações (variável: o tamanho total do bloco é 1 MB): armazena a impressão
digital de todas as transações naquele bloco. Cada transação individual tem sua própria estrutura.
Você também pode ver a altura do bloco (também conhecido como a contagem de blocos) desde que
o primeiro bloco foi criado, e o bloco de gênese, o primeiro bloco que foi minerado.
6.3 Namecoin
Criado em 2010, o Namecoin (http://namecoin.org) é um banco de dados de registro de nomes
descentralizado. Em protocolos descentralizados como Tor, Bitcoin e Bitmessage. O Namecoin é a
implementação mais antiga e bem-sucedida de um sistema de registro de nomes usando essa ideia.
É uma tecnologia de código aberto que melhora a descentralização, segurança, resistência à censura,
privacidade e velocidade de certos componentes da infraestrutura da internet, como DNS e identidades.
Trata-se de um sistema de registro e transferência de par de chave/valor baseado na tecnologia Bitcoin.
6.4 Ripple
A Ripple, vista como uma das empresas de tecnologia de razão distribuída (DLT) mais avançadas do
setor, se concentra no uso de tecnologia do tipo blockchain para pagamentos.
O protocolo Ripple tem sido adotado por um número crescente de instituições financeiras para
oferecer opções alternativas de remessa aos consumidores. A empresa até obteve uma licença de moeda
virtual do Departamento de Serviços Financeiros do Estado de Nova York, tornando-se uma das poucas
com BitLicense.
Em 2017, o Ripple era a terceira maior criptomoeda para capitalização no mercado, depois do
Bitcoin e do Ether. Ele é baseado em um protocolo de internet de código aberto distribuído, livro
de consenso e moeda nativa chamada XRP (ondulações), permitindo pagamentos (transfronteiriços)
para clientes de varejo, corporações e outros bancos.
131
TENDÊNCIAS EM TI
O protocolo Ripple é descrito como uma tecnologia de infraestrutura básica (liquidação) para
transações interbancárias que permite a interoperação de diferentes livros e redes de pagamento e
reúne três aspectos das soluções de pagamento modernas: mensagens, liquidação e gerenciamento
de câmbio. Ele permite que bancos e empresas de serviços financeiros não bancários incorporem o
protocolo Ripple em seus próprios sistemas e, assim, permite que seus clientes utilizem o serviço.
O protocolo permite a transferência instantânea e direta de dinheiro entre duas partes. Como tal, o
protocolo pode contornar as taxas e tempos de espera do sistema de banco correspondente tradicional.
Qualquer tipo de moeda pode ser trocado, incluindo dólares americanos, euros, RMB, ienes, ouro, milhas
aéreas e rúpias.
O Ripple tem sua própria forma de moeda digital (apelidada de XRP) de maneira semelhante ao
Bitcoin, usando a moeda para permitir que as instituições financeiras transfiram dinheiro com taxas
e tempo de espera insignificantes. Uma das funções específicas do XRP é a de moeda-ponte, o que
pode ser necessário se nenhuma troca direta estiver disponível entre duas moedas em um momento
específico, por exemplo, ao fazer transações entre dois pares de moedas raramente negociados. Dentro
da troca de moeda da rede, XRP são negociados livremente contra outras moedas, e seu preço de
mercado flutua contra dólares, euros, ienes, bitcoins etc.
Muitas empresas financeiras anunciaram suas experiências com integrações com o Ripple. Vários
bancos importantes adotaram o Ripple para melhorar seus pagamentos internacionais, e muitos
concluíram projetos de blockchain de teste. Essas instituições bancárias – incluindo Santander, UniCredit,
UBS, Royal Bank of Canada, Westpac Banking Corporation, CIBC e National Bank of Abu Dhabi, entre
outros – veem o protocolo de pagamento e a rede de câmbio da Ripple como um mecanismo válido para
oferecer dinheiro acessível em tempo real.
6.5 Ethereum
Ethereum é uma plataforma descentralizada que executa contratos inteligentes: aplicativos que
funcionam exatamente como programados, sem qualquer possibilidade de tempo de inatividade,
censura, fraude ou interferência de terceiros. Se o Bitcoin era blockchain 1.0, então Ethereum é
blockchain 2.0 e além.
132
Unidade III
Observe a figura a seguir:
1. Um país realiza uma
eleição e quer prevenir a
fraude eleitoral
4. Cada voto é registrado e processado
no blockchain Ethereum, o que garante
transparência e permite que tudo seja
executado por si mesmo e de modo
descentralizado
2. Um DAO deve ser criado para
salvaguardar a transparência e
eliminar fraude eleitoral
Exemplo de eleição
Ethereum DAO
5. Tokens de voto são
emitidos para todos os
elegíveis para votar
3. Isso é garantido pela
incorporação de condições
predefinidas no código
Figura 46 – Plataforma de blockchain Ethereum
Os aplicativos da Ethereum são executados em um blockchain personalizado, uma infraestrutura
global compartilhada que pode movimentar valor e representar a propriedade da propriedade. Isso
permite que os desenvolvedores criem mercados, armazenem registros de dívidas ou promessas e movam