Buscar

Apostila - Módulo 2 - Bootcamp Profissional AWS Cloud Computing

Prévia do material em texto

Serviços de Armazenamento, Banco de Dados 
 e Analytics 
 
 
Bootcamp Profissional AWS Cloud Computing 
 
 
 
Fábio Saito 
 
 
 
 
 
2021 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 2 de 28 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics 
Bootcamp Profissional AWS Cloud Computing 
Fábio Saito 
© Copyright do Instituto de Gestão e Tecnologia da Informação. 
Todos os direitos reservados. 
 
 
 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 3 de 28 
Sumário 
Capítulo 1. Introdução à Plataforma de Dados da AWS ........................................ 5 
Capítulo 2. Armazenamento de Dados .................................................................. 7 
EBS Overview ......................................................................................................... 7 
EBS Snapshots Overview ....................................................................................... 8 
EFS Overview ......................................................................................................... 8 
Amazon S3 Overview ............................................................................................. 9 
S3 Security .............................................................................................................. 9 
S3 Websites .......................................................................................................... 10 
S3 Event Notifications ........................................................................................... 10 
AWS Snow Family Overview ................................................................................ 11 
Storage Gateway Overview .................................................................................. 11 
Amazon FSx - Overview ....................................................................................... 12 
Capítulo 3. Banco de Dados na AWS .................................................................. 13 
Amazon RDS Overview ........................................................................................ 13 
Aurora Overview ................................................................................................... 14 
ElastiCache Overview ........................................................................................... 14 
Elasticache for Redis ............................................................................................ 15 
Elasticache for Memcached .................................................................................. 15 
DynamoDB Overview ............................................................................................ 16 
Capítulo 4. Soluções de Data Collection ............................................................. 17 
Kinesis Data Streams Overview ............................................................................ 17 
Kinesis Data Firehose ........................................................................................... 18 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 4 de 28 
MSK: Managed Streaming for Apache Kafka........................................................ 18 
Capítulo 5. Soluções de Processamento de Dados ............................................ 20 
Introdução ao Processamento de Dados na AWS ................................................ 20 
AWS Glue ............................................................................................................. 20 
AWS Athena ......................................................................................................... 21 
Amazon QuickSight .............................................................................................. 22 
Capítulo 6. AWS AI/ML Tools .............................................................................. 23 
Referências........... ................................................................................................... 27 
 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 5 de 28 
Capítulo 1. Introdução à Plataforma de Dados da AWS 
Para serem mais competitivas, as empresas devem criar produtos melhores, 
e para isso devem aumentar a agilidade e inovar com mais rapidez. O 
desenvolvimento de aplicativos modernos é uma abordagem para projetar, construir 
e gerenciar aplicativos que permitem inovação mais rápida e acelerar o tempo de 
colocação de novos recursos no mercado. Ao modernizar seus aplicativos, as 
empresas podem oferecer melhores serviços aos clientes e acompanhar o ritmo em 
um cenário competitivo. 
Por 15 anos, a AWS tem ajudado empresas em sua jornada para a nuvem. 
Mover cargas de trabalho de armazenamento para a nuvem tem sido uma das 
principais maneiras pelas quais os CIOs foram capazes de abordar suas prioridades 
estratégicas, como aumentar a agilidade de sua organização, acelerar a capacidade 
de inovar, fortalecer a segurança e reduzir o custo. As empresas podem ser mais 
ágeis, pois conseguem aumentar ou diminuir os recursos a qualquer momento e 
adicionar novos serviços em um instante. A inovação é acelerada, eliminando silos e 
extraindo mais valor dos dados usando aprendizado de máquina e realizando análises 
em grande escala. 
A segurança é reforçada à medida que as empresas ganham mais telemetria 
em seus dados quando silos são apagados, os controles de criptografia são mais 
avançados e eles herdam todos os controles, ferramentas e certificações projetados 
até mesmo para as organizações mais preocupadas com a segurança. 
Finalmente, as empresas podem reduzir custos com um modelo de compra 
flexível e a eliminação de super provisionamento, ciclos de vida de atualização e 
custos de manutenção da infraestrutura de armazenamento. 
Os serviços de armazenamento de arquivos nativos em nuvem da AWS 
fornecem persistência, alta disponibilidade e escalabilidade para aplicativos em 
contêineres e sem servidor que são executados na AWS. A modernização de 
aplicativos por meio do uso de microsserviços é uma das principais prioridades dos 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 6 de 28 
executivos de TI hoje, um componente fundamental de uma estratégia de 
transformação digital e requer armazenamento persistente de alta disponibilidade. 
O crescimento exponencial de dados em todo o mundo tornou o 
gerenciamento de backups mais difícil do que nunca. Com os métodos tradicionais 
ficando para trás, como bibliotecas de fitas e sites secundários, muitas organizações 
estão abertas para estender os destinos de backup para a nuvem. 
Embora ofereça melhor escalabilidade, a construção de soluções de backup 
habilitadas para a nuvem requer uma consideração cuidadosa dos investimentos 
existentes em TI, objetivos de recuperação e recursos disponíveis. A AWS oferece 
serviços de armazenamento, métodos de transferência de dados e opções de rede 
para construir soluções que protejam os dados com durabilidade, segurança e 
acessibilidade. 
Quando necessitamos migrar servidores SQL do on premises para a nuvem, 
a AWS oferece suporte a todos os cenários de implantação com RDS (totalmente 
gerenciado pela AWS) e EC2 (gerenciado pelo cliente). 
O MS SQL Server gerenciado pelo cliente em EC2 geralmente significa 
hospedar MS SQL em EC2 apoiado pelo Amazon Elastic Block Store (EBS) ou 
Amazon FSx para Windows File Server. O armazenamento persistente do Amazon 
EBS e Amazon FSx oferece velocidade, segurança e durabilidade para seus bancos 
de dados relacionais essenciais aos negócios, como o Microsoft SQL Server. 
Transformar dados em ativos estratégicos começa com a movimentação de 
seus dados para a AWS, consolidados e armazenados no Amazon S3 como a base 
para um data lake. A partir daí, a AWS fornece uma ampla variedade de ferramentas 
de computação e análise para esses dados. 
 
 
 
 
Serviços deArmazenamento, Banco de Dados e Analytics – Página 7 de 28 
Capítulo 2. Armazenamento de Dados 
EBS Overview 
O Amazon Elastic Block Store (Amazon EBS) em sua essência é um disco 
rígido virtual na nuvem, que oferece volumes de armazenamento em blocos para ser 
utilizado com instâncias EC2. 
Os volumes do EBS são apresentados como dispositivos de bloco brutos 
(RAW) e não formatados. Esses volumes podem ser anexados como dispositivos de 
armazenamento persistente e que independem da vida útil das instâncias. 
Cada volume do Amazon EBS é automaticamente replicado em sua própria 
zona de disponibilidade para protegê-lo de falhas, o que oferece alta disponibilidade 
e durabilidade. Vários volumes do Amazon EBS podem ser anexados a uma única 
instância de EC2, embora cada um possa ser anexado a uma única instância por vez. 
A configuração de um volume anexado a uma instância pode ser alterada 
dinamicamente. 
Amazon EBS estão disponíveis em cinco tipos diferentes. O quadro abaixo 
nos auxilia no processo de decisão do modelo correto. 
Figura 1 - Decision tree model. 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 8 de 28 
É importante conhecer as propriedades dos diferentes tipos de storage, para 
que seja feita a escolha mais econômica e que atenda aos requisitos de desempenho 
e capacidade requeridos pelo seu sistema ou aplicação. 
 
EBS Snapshots Overview 
Snapshots são uma forma de realizar o backup dos dados nos volumes do 
Amazon EBS para o Amazon S3. São backups incrementais, por isso, serão salvos 
somente os blocos no dispositivo que tiverem mudado depois do snapshot mais 
recente. 
Cada snapshot contém as informações necessárias para restaurar todos os 
dados do momento em que foi tirado até a criação de um volume novo do EBS. 
 
EFS Overview 
O Amazon Elastic File System (Amazon EFS) fornece um sistema de arquivos 
compatível com o protocolo Network File System versão 4 (NFSv4.1 e NFSv4.0), sem 
servidor, para ser utilizado com instâncias do EC2. 
Ele foi desenvolvido para escalar sob demanda até petabytes, aumentando e 
diminuindo automaticamente à medida que arquivos são adicionados ou removidos. 
O serviço gerencia toda a infraestrutura de armazenamento de arquivos, 
desta forma reduzindo a complexidade de implantar, corrigir e manter configurações 
complexas de sistemas de arquivos. 
Múltiplas instâncias do EC2 podem acessar ao mesmo tempo um sistema de 
arquivos criado no Amazon EFS, sendo o recurso ideal para cargas de trabalho que 
rodam em mais de um servidor ou instância. 
O Amazon EFS oferece diferentes classes de armazenamento para casos de 
uso distintos. Dentre elas estão: 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 9 de 28 
▪ Classes de armazenamento padrão - Padrão EFS e Padrão EFS - Acesso 
infrequente (Standard-IA), que oferecem resiliência Multi-AZ e os mais altos 
níveis de durabilidade e disponibilidade. 
▪ Classes de armazenamento de uma zona - EFS One Zone e EFS One Zone 
- Acesso infrequente (EFS One Zone-IA), que oferecem aos clientes a opção 
de economia adicional, escolhendo salvar seus dados em uma única AZ'. 
 
Amazon S3 Overview 
O Amazon Simple Storage Service (Amazon S3) é um dos serviços mais 
antigos da AWS e S3 significa serviço de armazenamento simples. Ele foi projetado 
para prover um serviço de armazenamento de objetos seguro, durável, altamente 
escalável, fácil de usar e acessível de qualquer lugar na web. 
Basicamente, o S3 é um lugar seguro para armazenar arquivos. Podemos 
entender por armazenamento de objetos o armazenamento de qualquer tipo de 
arquivos simples. Ou seja, documentos do Word, fotos, filmes etc. 
Para fazer upload de seus dados (fotos, vídeos, documentos etc.) para o 
Amazon S3, primeiro é necessário criar um bucket do S3 em uma das Regiões da 
AWS. Um nome de bucket do Amazon S3 é globalmente exclusivo. Isso significa que, 
após a criação de um bucket, seu nome não poderá ser usado por outra conta da 
AWS em nenhuma região até que ele seja excluído. 
 
S3 Security 
Por padrão, todos os buckets quando criados são privados e o controle de 
acesso a eles é realizado através de políticas de bucket e listas de controle de acesso 
(ACL). O controle de acesso define quem pode acessar objetos e buckets no Amazon 
S3 e o tipo de acesso (por exemplo, LEITURA e GRAVAÇÃO). 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 10 de 28 
As políticas são aplicadas em um nível de bucket. As listas de controle de 
acesso abrangem até objetos individuais. Os buckets S3 podem ser configurados 
para criar logs de acesso que registram todas as solicitações feitas a eles. 
Após configurada a criação de logs em um bucket, toda tentativa de acesso 
a um objeto será logada. Esses logs podem ser enviados para outro bucket, ou 
mesmo um bucket em outra conta na AWS. 
 
S3 Websites 
O Amazon S3 pode ser utilizado para hospedar um site estático. Nesse tipo 
de site as páginas da Web individuais incluem conteúdos estáticos. Elas também 
podem conter scripts do lado do cliente. 
O Amazon S3 não oferece suporte a scripts no lado do servidor ou sites 
dinâmicos. Esse último utiliza processamento do servidor, incluindo scripts de servidor 
como PHP, JSP ou ASP.NET. 
 
S3 Event Notifications 
S3 Event Notifications podem ser utilizados para emitir notificações quando 
determinados eventos, como criação, remoção, restauração ou replicação de um 
objeto, acontecerem no bucket do S3. 
Para habilitar notificações, primeiro deve ser criada uma configuração de 
notificação que identifique os eventos que devem ser publicados pelo Amazon S3 e 
os destinos para onde ele as envia. 
 
 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 11 de 28 
AWS Snow Family Overview 
Snowball é uma solução de transporte de dados em escala de petabyte e que 
usa dispositivos seguros para transferir grandes quantidades de dados para dentro e 
para fora da AWS. Transferências de dados em grande escala, incluindo altos custos 
de rede, longos tempos de transferência e questões de segurança. 
Transferir dados com o Snowball é simples, rápido, seguro e pode custar um 
quinto do uso da Internet de alta velocidade. Esses dispositivos são físicos, 
resistentes e protegidos pelo AWS Key Management Service (AWS KMS). Além 
disso, guardam e protegem seus dados em trânsito, enquanto transportadoras 
regionais transportam o Snowball entre regiões da AWS e o local de armazenamento 
físico de dados. 
O Snowball fornece interfaces avançadas que podem ser usadas para 
rastrear dados, criar trabalhos e acompanhar o status deles até que sejam concluídos. 
 
Storage Gateway Overview 
O AWS Storage Gateway é um serviço que conecta o ambiente on-premises 
ao armazenamento do Amazon S3 através de um dispositivo de software virtual. 
Proporcionando uma integração fácil e segura entre o ambiente on-premises e a 
infraestrutura de armazenamento na nuvem da AWS. 
Com este serviço é possível armazenar e recuperar objetos no Amazon S3 
por meio de protocolos como o Network File System (NFS) e Server Message Block 
(SMB). 
O dispositivo de software ou gateway disponível para download é implantado 
no ambiente on-premises no formato de uma máquina virtual (VM) compatível com 
ambientes VMware ESXi, Microsoft Hyper-V ou Linux Kernel-based Virtual Machine 
(KVM). O gateway oferece acesso a objetos no Amazon S3 como arquivos ou pontos 
de montagem de compartilhamento de arquivos. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 12 de 28 
Amazon FSx - Overview 
O Amazon FSx fornece sistemas totalmente gerenciados e com 
compatibilidade nativa para cargas de trabalho, como armazenamento baseado no 
Microsoft Windows, computação de alto desempenho (HPC), aprendizado de 
máquina e automação de design eletrônico. Oferece suporte a dois tipos de sistema 
de arquivos: AmazonFSx for Lustre e Amazon FSx for Windows File Server. 
O Amazon FSx for Lustre é recomendado para a execução de cargas de 
trabalho em que a velocidade é importante, como machine learning, High 
Performance Computing (HPC) - Computação de alta performance, processamento 
de vídeo e modelagem financeira. Já o Amazon FSx for Windows File Server fornece 
servidores de arquivos do Microsoft Windows totalmente gerenciados, baseadas em 
um sistema totalmente nativo de arquivos do Windows. 
https://docs.aws.amazon.com/fsx/latest/WindowsGuide/index.html
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 13 de 28 
Capítulo 3. Banco de Dados na AWS 
O que é um banco de dados e o que são bancos de dados relacionais? 
Bancos de dados relacionais existem desde 1970, e são o que a maioria de nós 
estamos acostumados. 
Se você usa o Excel, ele é salvo em um arquivo, que pode ser o seu costs.xls, 
por exemplo. Então, esse é essencialmente o próprio banco de dados e se você entrar 
no arquivo, terá diferentes planilhas que são tabelas diferentes, e dentro delas você 
terá linhas e colunas ou campos. 
 
Amazon RDS Overview 
O Amazon Relational Database Service (Amazon RDS) é um serviço web que 
facilita a configuração, operação e dimensionamento de um banco de dados 
relacional na AWS. Ele fornece capacidade econômica e redimensionável para um 
banco de dados relacional padrão do setor e gerencia tarefas comuns de 
administração de banco de dados. 
O Amazon RDS é, basicamente, a instância do banco de dados em um 
ambiente isolado na AWS. Esses tipos de instâncias podem ser criadas e/ou 
gerenciadas utilizando a AWS Command Line Interface (CLI), a API do Amazon RDS 
ou o console de gerenciamento da AWS. Capaz conter vários bancos de dados 
criados pelo usuário. É possível acessar a instância de banco de dados utilizando as 
mesmas ferramentas e os mesmos aplicativos usados com uma instância tradicional. 
Cada uma executa um mecanismo de banco de dados. Atualmente, o 
Amazon RDS oferece suporte aos mecanismos MySQL, MariaDB, PostgreSQL, 
Oracle e Microsoft SQL Server. Cada mecanismo tem seus próprios recursos com 
suporte e cada versão pode incluir recursos específicos. Além disso, possuem um 
conjunto de parâmetros em um parameter group de banco de dados que controlam o 
comportamento dos bancos de dados que ele gerencia. 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 14 de 28 
Aurora Overview 
O Amazon Aurora é um mecanismo de banco de dados relacional gerenciado 
compatível com o MySQL e PostgreSQL. Ele foi desenvolvido para ser 
completamente compatível com o código, as ferramentas e os aplicativos que você 
usa atualmente em seus bancos de dados existentes do MySQL e do PostgreSQL. 
Com algumas cargas de trabalho, o Aurora pode oferecer até cinco vezes a 
taxa de processamento do MySQL e até três vezes a taxa de processamento do 
PostgreSQL, sem exigir alterações na maioria dos aplicativos existentes. 
A camada de armazenamento do Aurora aumenta automaticamente, 
conforme necessário. Ele também automatiza e padroniza o clustering e a replicação 
de bancos de dados. 
Esse mecanismo faz parte de um serviço gerenciado de banco de dados do 
Amazon Relational Database Service (Amazon RDS). O Amazon RDS é um serviço 
da web que facilita a configuração, a operação e escalabilidade de um banco de dados 
relacional na nuvem. Se você não estiver familiarizado com o Amazon RDS, consulte 
o Guia do usuário do Amazon Relational Database Service. 
 
ElastiCache Overview 
O Amazon ElastiCache é um serviço Web que facilita a configuração, o 
gerenciamento e o dimensionamento de um armazenamento de dados distribuído na 
memória ou do ambiente de cache na nuvem. 
O Elasticache fornece uma solução de armazenamento em cache econômica, 
de alto desempenho e escalável. Ao mesmo tempo, ele ajuda a remover a 
complexidade associada à implantação e ao gerenciamento de um ambiente de cache 
distribuído. 
 
https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 15 de 28 
Elasticache for Redis 
Os aplicativos existentes que usam o Redis podem usar o ElastiCache sem 
quase nenhuma modificação. Seus aplicativos simplesmente precisam de 
informações sobre os nomes dos hosts e os números de porta dos nós do ElastiCache 
que você implantou. 
Dentre os principais recursos do ElastiCache for Redis estão: 
▪ Detecção e recuperação automáticas de falhas de nós de cache. 
▪ Multi-AZ de um cluster primário com falha para uma réplica de leitura em 
clusters do Redis compatíveis com a replicação. 
▪ O ElastiCache for Redis gerencia backups, patches de software, detecção 
automática de falhas e recuperação. 
 
Elasticache for Memcached 
Os aplicativos existentes que utilizam o Memcached podem usar o 
ElastiCache sem quase nenhuma modificação. Seus aplicativos simplesmente 
precisam de informações sobre os nomes dos hosts e os números de porta dos nós 
do ElastiCache que você implantou. 
O recurso Descoberta automática do ElastiCache para Memcached permite 
que seus aplicativos identifiquem todos os nós em um cluster de cache e conecte-se 
a eles. Isso significa que você não precisa manter uma lista de nomes de host e 
números de porta disponíveis. Dessa forma, seus aplicativos são efetivamente 
isolados de alterações na associação de nós em um cluster. 
Dentre os principais recursos do ElastiCache for Memcached estão: 
▪ Detecção e recuperação automáticas de falhas de nós de cache. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 16 de 28 
▪ Descoberta automática de nós em um cluster habilitado para descoberta 
automática, para que não seja necessário fazer nenhuma alteração em seu 
aplicativo ao adicionar ou remover nós. 
▪ Colocação flexível de nós e clusters em zonas de disponibilidade. 
 
DynamoDB Overview 
O Amazon DynamoDB é um serviço de banco de dados NoSQL totalmente 
gerenciado que fornece um desempenho rápido e previsível com escalabilidade 
integrada. Ele permite que você transfira os encargos administrativos de operação e 
escalabilidade de um banco de dados distribuído. Assim, você não precisa se 
preocupar com provisionamento, instalação e configuração de hardware, replicação, 
correção de software, nem escalabilidade de cluster. Além disso, oferece criptografia 
em repouso, o que elimina a carga e a complexidade operacionais envolvidas na 
proteção de dados confidenciais. 
Com o DynamoDB, você pode aumentar ou diminuir a capacidade de 
throughput das tabelas sem tempo de inatividade ou degradação do desempenho. 
O DynamoDB oferece o recurso de backup sob demanda. Permite que você 
crie backups completos das suas tabelas para retenção e arquivamento de longo 
prazo de modo a atender às necessidades de conformidade regulamentar. Para mais 
informações, consulte Backup e restauração sob demanda para o DynamoDB. 
 
 
https://docs.aws.amazon.com/pt_br/amazondynamodb/latest/developerguide/BackupRestore.html
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 17 de 28 
Capítulo 4. Soluções de Data Collection 
Os dados perdem valor com o tempo. Podemos classificá-los em históricos, 
que são normalmente armazenados em uma solução de armazenamento de dados, 
em um banco de dados, ou em dados de streaming. 
O que é streaming de dados? Streaming de dados, são dados gerados 
continuamente. Estes podem ser gerados por um ou por milhares de fontes de dados 
e são normalmente enviados em pequenos registros, simultaneamente, na ordem de 
kilobytes. 
Exemplos de dados em streaming: 
▪ Sensores em veículos de transporte; 
▪ Equipamentos industriais; 
▪ Máquinas agrícolas que enviam dados para monitoração; 
▪ Dados do mercado de ações em tempo real; 
▪ Dados de clickstream. 
E como colocamos esses dados na AWS? Quando pensamos em obter dados 
de streamingpara AWS o principal serviço é o Kinesis. O Kinesis não é apenas um 
serviço, mas sim uma família de serviços distintos e complementares. 
 
Kinesis Data Streams Overview 
O Amazon Kinesis Data Streams é usado para coletar e processar grandes 
quantidades de dados em tempo real e de forma contínua. Dados processados em 
tempo real, possuem um processamento geralmente leve. 
Um uso comum é a agregação em tempo real de dados seguida do 
carregamento de dados agregados para um data warehouse ou cluster de EMR. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 18 de 28 
O Kinesis Data Streams garante a durabilidade e a elasticidade. O atraso 
entre o momento em que um registro é colocado no streaming e o momento em que 
ele pode ser recuperado (atraso entre put e get) normalmente é de menos de 1 
segundo. 
O aspecto de serviço gerenciado do Kinesis Data Streams libera você do peso 
operacional de criação e execução de um pipeline de entrada de dados. 
A elasticidade do Kinesis Data Streams permite escalar o streaming, de 
maneira que você nunca perca registros de dados antes que eles expirem. 
 
Kinesis Data Firehose 
O Amazon Kinesis Data Firehose é um serviço totalmente gerenciado para 
fornecimento em tempo real de streaming de dados para destinos como o Amazon 
Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Elasticsearch 
Service (Amazon ES), Splunk e todos os endpoints HTTP ou HTTP personalizados 
de propriedade de provedores de serviços terceirizados compatíveis, incluindo 
Datadog, Dynatrace, LogicMonitor, MongoDB, New Relic e Sumo Logic. 
 
MSK: Managed Streaming for Apache Kafka 
O Amazon Managed Streaming for Apache Kafka (Amazon MSK) é um 
serviço totalmente gerenciado que permite criar e executar aplicativos que usam o 
Apache Kafka para processar dados em streaming. Ele fornece as operações do 
plano de controle, como aquelas para criar, atualizar e excluir clusters. Permite usar 
operações do plano de dados do Apache Kafka, como aqueles para produzir e 
consumir dados. E executa versões de código aberto do Apache Kafka. Isso significa 
que aplicativos, ferramentas e plug-ins existentes de parceiros e da comunidade 
Apache Kafka são compatíveis sem a necessidade de fazer alterações no código do 
aplicativo. 
http://aws.amazon.com/streaming-data/
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 19 de 28 
O Amazon MSK detecta e recupera automaticamente dos cenários de falha 
mais comuns para clusters a fim de que os aplicativos de produtor e consumidor 
possam continuar as operações de gravação e leitura com o menor impacto. Quando 
o Amazon MSK detecta uma falha de agente, ele mitiga a falha ou substitui o agente 
não íntegro ou inacessível por um novo. Além disso, sempre que possível, ele reutiliza 
o armazenamento do agente mais antigo para reduzir os dados que o Apache Kafka 
precisa replicar. Seu impacto na disponibilidade é limitado ao tempo necessário para 
o Amazon MSK concluir a detecção e a recuperação. Após uma recuperação, os 
aplicativos de produtor e consumidor podem continuar se comunicando com os 
mesmos endereços IP do agente usados antes da falha. 
 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 20 de 28 
Capítulo 5. Soluções de Processamento de Dados 
Introdução ao Processamento de Dados na AWS 
Após a realização da coleta dos dados, precisamos trabalhar com a 
preparação e análise de dados. Devemos ver nossos dados, interpretá-los e descobrir 
informações importantes sobre eles. Assim, podemos começar a inferir coisas e tomar 
melhores decisões de negócios com base nas informações que podemos extrair 
desses dados. 
Veremos como o AWS Glue nos auxilia na preparação de dados e ETL. Como 
podemos usar o Athena para a preparação e análise de dados executando consultas 
SQL e comoconseguimos usar o QuickSight para interpretação, bem como a 
descoberta de nossos dados. 
 
AWS Glue 
O AWS Glue é um serviço de ETL (extração, transformação e carregamento) 
totalmente gerenciado que torna mais fácil e econômico o processo de categorizar 
dados, limpá-los, aprimorá-los e movê-los de modo confiável entre vários 
armazenamentos e streams de dados. 
Ele consiste em um repositório de metadados central, conhecido como AWS 
Glue Data Catalog, um mecanismo de ETL que gera automaticamente um código 
Python ou Scala e um programador flexível que lida com resolução de dependências, 
monitoramento de trabalhos e novas tentativas. 
Não usa servidor e, portanto, não requer a configuração ou o gerenciamento 
de uma infraestrutura. 
É possível usar o console do AWS Glue para descobrir dados, transformá-los 
e disponibilizá-los para pesquisas e consultas. O console chama os serviços 
subjacentes de modo a orquestrar o trabalho necessário para transformar seus dados. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 21 de 28 
É possível usar o AWS Glue para organizar, limpar, validar e formatar dados 
para armazenamento em um data warehouse ou data lake. Também é possível 
carregar dados de fontes estáticas ou de streaming diferentes em seu data warehouse 
ou data lake para geração de relatórios e análises regulares. 
 
AWS Athena 
O Amazon Athena é um serviço de consultas interativas que facilita a análise 
de dados diretamente no Amazon Simple Storage Service (Amazon S3) usando o 
padrão SQL. 
É possível apontar o Athena para os dados armazenados no Amazon S3 e 
começar a usar o SQL padrão para executar consultas ad-hoc e receber resultados 
em poucos segundos. 
Como o Athena não utiliza servidor, não há infraestrutura para configurar ou 
gerenciar, e você paga apenas pelas consultas executadas. 
O Athena é escalado automaticamente, executando consultas em paralelo, 
de maneira que os resultados sejam rápidos, mesmo com conjuntos de dados 
grandes e consultas complexas. Ele pode analisar dados desestruturados, 
semiestruturados e estruturados armazenados no Amazon S3. Entre os exemplos 
estão formatos de dados CSV, JSON ou colunares, como Apache Parquet e Apache 
ORC. 
Este serviço se integra ao Amazon QuickSight para uma visualização de 
dados mais fácil. Você também pode usá-lo para gerar relatórios ou explorar dados 
com ferramentas de business intelligence ou clientes SQL conectados com um driver 
JDBC ou ODBC. Integra-se também com o AWS Glue Data Catalog, que oferece um 
armazenamento de metadados persistente para os dados no Amazon S3. 
 
 
https://docs.aws.amazon.com/pt_br/athena/latest/ug/ddl-sql-reference.html
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 22 de 28 
Amazon QuickSight 
O Amazon QuickSight é um serviço de business intelligence (BI) em escala 
de nuvem. Ele se conecta aos seus dados na nuvem e combina dados de muitas 
fontes diferentes. Em um único painel de dados, o QuickSight pode incluir dados da 
AWS, dados de terceiros, big data, dados de planilha, dados SaaS, dados B2B e 
muito mais. 
Como um serviço totalmente gerenciado baseado em nuvem, o Amazon 
QuickSight oferece segurança de nível empresarial, disponibilidade global e 
redundância integrada. Ele também fornece as ferramentas de gerenciamento de 
usuários que você precisa para dimensionar de 10 usuários para 10.000, tudo sem 
infraestrutura para implantar e gerenciar. 
O QuickSight oferece aos tomadores de decisão a oportunidade de explorar 
e interpretar informações em um ambiente visual interativo. Eles têm acesso seguro 
aos painéis a partir de qualquer dispositivo em sua rede e de dispositivos móveis. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 23 de 28 
Capítulo 6. AWS AI/ML Tools 
O aprendizado de máquina (ML) está promovendo melhores experiências dos 
clientes, operações de negócios mais eficientes e tomada de decisões mais rápidas 
e precisas. 
Com o aumento do poder computacional e a proliferação de dados, a MLpassou da periferia para ser um diferencial central para empresas e organizações em 
todos os setores. 
O Gartner prevê que os valores de negócios derivados da Inteligência Artificial 
(AI) atinjam US$3,9 trilhões, em 2022. Há casos de uso de ML que podem ser 
aplicados à maioria das empresas, como recomendações personalizadas de produtos 
e conteúdo, inteligência de contact center, verificação de identidade virtual e 
processamento inteligente de documentos. E há casos de uso personalizados criados 
para uma indústria específica, como ensaios clínicos em farmacêutica ou controle de 
qualidade da linha de montagem na fabricação. 
A AWS fornece o mais amplo e profundo conjunto de serviços de ML e AI do 
mercado. 
Figura 2 - Stack de serviços de AI/ML da AWS. 
 
Fonte: https://www.youtube.com/watch?v=PjDysgCvRqY. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 24 de 28 
Na camada superior estão os serviços de IA, que permitem aos 
desenvolvedores adicionar inteligência a qualquer aplicativo sem a necessidade de 
habilidades de ML. 
Os modelos pré-treinados fornecem inteligência pronta para seus aplicativos 
e fluxos de trabalho para ajudá-lo a fazer coisas como personalizar a experiência do 
cliente, prever métricas de negócios, traduzir conversas, extrair significado de 
documentos e muito mais. 
Na camada intermediária está o Amazon SageMaker, que fornece a cada 
desenvolvedor e cientista de dados a capacidade de construir, treinar e implantar 
modelos de aprendizado de máquina em escala. Ele remove a complexidade de cada 
etapa do fluxo de trabalho de aprendizado de máquina para que você possa implantar 
mais facilmente seus casos de uso de aprendizado de máquina, desde manutenção 
preditiva até visão computacional e previsão de comportamentos do cliente. 
E na camada inferior, os profissionais especializados podem desenvolver na 
estrutura de sua escolha como uma experiência gerenciada no Amazon SageMaker 
ou usar as AMIs de aprendizado profundo da AWS (imagens de máquina da Amazon), 
que são totalmente configuradas com as versões mais recentes do aprendizado 
profundo mais popular, estruturas e ferramentas. 
Seguem exemplos dos serviços de que AI/ML visam o atendimento de 
necessidades, indústrias ou casos de uso específicos: 
Os serviços de IA industrial são projetados para ajudar clientes na 
manufatura, agricultura, energia ou outras indústrias pesadas. 
Amazon HealthLake é feito especificamente para clientes de saúde e ciências 
da vida. 
Vision - (Rek Image e vídeo) - Utilize o Rekognition para responder perguntas 
como: "diga-me o que há nesta imagem", "quais celebridades estão nesta imagem" e 
"esta imagem é segura para o trabalho?". 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 25 de 28 
Fala - (Polly, Transcribe) - o Polly é utilizado para transformar texto em fala e 
para transcrever áudio, utilize o Transcribe. 
Text (translate, comprehend, textract) - O Translate é utilizado para traduzir 
texto para diferentes idiomas. Uma vez traduzidos, com auxilio do Comprehendé é 
possível entender o que está sendo dito nos textos traduzidos. Para extração de 
textos de documentos usando OCR ++, a ferramenta certa é o Textract. 
Um dos produtos mais famosos da Amazon é a Alexa e seus chatbots com 
Lex. Os clientes nos pediram para continuar a considerar a adição de serviços em 
áreas onde temos muita experiência e dados de nosso negócio de consumo. 
O Amazon Fraud Detector é um serviço de gerenciamento de fraudes para 
detectar fraudes de identidade e pagamento on-line em tempo real. 
Amazon CodeGuru é um novo serviço de aprendizado de máquina para 
automatizar revisões de código. 
O Contact Lens for Amazon Connect fornece análises de contact center com 
tecnologia de aprendizado de máquina para o Amazon Connect. 
Amazon Kendra é um serviço que reinventa a pesquisa corporativa, a gestão 
do conhecimento e de documentos com aprendizado de máquina. 
Já o Amazon SageMaker é um serviço end-to-end para aprendizado de 
máquina. É gerenciado para cientistas de dados e equipes de operações de ML que 
ajuda a remover o trabalho pesado indiferenciado associado ao aprendizado de 
máquina, para que você, por sua vez, tenha mais tempo, recursos e energia para se 
concentrar em seus negócios. 
Em primeiro lugar, o SageMaker fornece aos usuários um ambiente de 
trabalho integrado de ferramentas reunidas em um só lugar através do SageMaker 
Studio. Os usuários podem iniciar Jupyter Notebooks e ambientes Jupyter Lab 
instantaneamente através do SageMaker Studio. Ele também fornece gerenciamento 
completo de experimentos, preparação de dados e automação e orquestração de 
pipeline para ajudar a tornar os cientistas de dados mais produtivos. 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 26 de 28 
Um Notebook Jupyter precisa de um ambiente de computação para funcionar. 
O SageMaker fornece servidores totalmente gerenciados na nuvem para tornar isso 
fácil para cientistas e desenvolvedores de dados. Mas, além dos notebooks, o 
SageMaker também oferece outros recursos de infraestrutura gerenciada. De tarefas 
de treinamento distribuídas, tarefas de processamento de dados e até mesmo 
hospedagem de modelos, o SageMaker cuida de todo o dimensionamento, patching, 
alta disponibilidade etc. associados à construção, treinamento e modelos de 
hospedagem. 
Existem ferramentas no SageMaker que ajudam a tornar os cientistas de 
dados mais produtivos. O que você verá é que esta bancada de trabalho integrada, 
assentada em uma infraestrutura gerenciada, também é enriquecida por um enorme 
ecossistema de ferramentas, todas criadas especificamente para ML e projetadas 
desde o início para funcionarem juntas. 
 
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 27 de 28 
Referências 
AWS. Serviços de Storage. Disponível em: 
<https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-
services.html>. Acesso em: 18 ago. 2021. 
AWS. What Is Amazon SageMaker?. Disponível em 
<https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html>. Acesso em: 18 
ago. 2021. 
AWS. Big Data blog posts. Disponível em <https://aws.amazon.com/pt/blogs/big-
data/>. Acesso em: 18 ago. 2021. 
AWS. Get started with Amazon ElastiCache. Disponível em 
<https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-
for-redis-and-memcached-introducing-the-elasticache-learning-path/>. Acesso em: 
18 ago. 2021. 
AWS. AWS Snow Family Documentation. Disponível em 
<https://docs.aws.amazon.com/snowball/?id=docs_gateway>. Acesso em: 18 ago. 
2021. 
AWS. AWS Storage Gateway Documentation. Disponível em 
<https://docs.aws.amazon.com/storagegateway/?id=docs_gateway>. Acesso em: 18 
ago. 2021. 
AWS. AWS QuickSight Documentation. Disponível em 
<https://docs.aws.amazon.com/quicksight/?id=docs_gateway>. Acesso em: 18 ago. 
2021. 
AWS. Data warehouse na AWS. Mar. 2016. Disponível em 
<https://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-
aws.pdf?did=wp_card&trk=wp_card>. Acesso em: 18 ago. 2021. 
https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-services.html
https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-services.html
https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html
https://aws.amazon.com/pt/blogs/big-data/
https://aws.amazon.com/pt/blogs/big-data/
https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-for-redis-and-memcached-introducing-the-elasticache-learning-path/
https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-for-redis-and-memcached-introducing-the-elasticache-learning-path/
https://docs.aws.amazon.com/snowball/?id=docs_gateway
https://docs.aws.amazon.com/storagegateway/?id=docs_gateway
https://docs.aws.amazon.com/quicksight/?id=docs_gateway
https://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-aws.pdf?did=wp_card&trk=wp_cardhttps://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-aws.pdf?did=wp_card&trk=wp_card
 
 
Serviços de Armazenamento, Banco de Dados e Analytics – Página 28 de 28 
AWS. Hosting Static Websites on AWS. Mai. 2021. Disponível em 
<https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20A
WS.pdf?did=wp_card&trk=wp_card>. Acesso em: 18 ago. 2021. 
https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20AWS.pdf?did=wp_card&trk=wp_card
https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20AWS.pdf?did=wp_card&trk=wp_card

Continue navegando