Apostila - Módulo 2 - Bootcamp Profissional AWS Cloud Computing

ESTÁCIO

leandro matos pereira

em 25/02/2023

Conteúdos escolhidos para você

24 pág.

Cw3 - Bancos de Dados em Nuvem

PITÁGORAS

5 pág.

Aplicação de Big Data em Cloud - Avaliação final Objetiva

Uniasselvi

9 pág.

Aplicação de Big Data em Cloud

Perguntas dessa disciplina

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e ...

Anhanguera

Diferentes tipos de informação são gerenciados pelas organizações. Dentro da variedade que o contexto de Big Data se propõe a explorar, o gerenciam...

FMU

5) A computação em nuvem transformou a forma como armazenamos, gerenciamos e processamos dados, tornando-se essencial para empresas que lidam com g...

Anhanguera

) Como definição, MongoDB é um banco de dados de código aberto que usa um modelo de dados orientado a documentos e uma linguagem de consulta não es...

UNOPAR

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e arm

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

24 pág.

Cw3 - Bancos de Dados em Nuvem

PITÁGORAS

5 pág.

Aplicação de Big Data em Cloud - Avaliação final Objetiva

Uniasselvi

9 pág.

Aplicação de Big Data em Cloud

Perguntas dessa disciplina

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e ...

Anhanguera

Diferentes tipos de informação são gerenciados pelas organizações. Dentro da variedade que o contexto de Big Data se propõe a explorar, o gerenciam...

FMU

5) A computação em nuvem transformou a forma como armazenamos, gerenciamos e processamos dados, tornando-se essencial para empresas que lidam com g...

Anhanguera

) Como definição, MongoDB é um banco de dados de código aberto que usa um modelo de dados orientado a documentos e uma linguagem de consulta não es...

UNOPAR

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e arm

Prévia do material em texto

Serviços de Armazenamento, Banco de Dados
e Analytics

Bootcamp Profissional AWS Cloud Computing

Fábio Saito

2021

Serviços de Armazenamento, Banco de Dados e Analytics – Página 2 de 28

Serviços de Armazenamento, Banco de Dados e Analytics – Página 3 de 28
Sumário
Capítulo 1. Introdução à Plataforma de Dados da AWS ........................................ 5
Capítulo 2. Armazenamento de Dados .................................................................. 7
EBS Overview ......................................................................................................... 7
EBS Snapshots Overview ....................................................................................... 8
EFS Overview ......................................................................................................... 8
Amazon S3 Overview ............................................................................................. 9
S3 Security .............................................................................................................. 9
S3 Websites .......................................................................................................... 10
S3 Event Notifications ........................................................................................... 10
AWS Snow Family Overview ................................................................................ 11
Storage Gateway Overview .................................................................................. 11
Amazon FSx - Overview ....................................................................................... 12
Capítulo 3. Banco de Dados na AWS .................................................................. 13
Amazon RDS Overview ........................................................................................ 13
Aurora Overview ................................................................................................... 14
ElastiCache Overview ........................................................................................... 14
Elasticache for Redis ............................................................................................ 15
Elasticache for Memcached .................................................................................. 15
DynamoDB Overview ............................................................................................ 16
Capítulo 4. Soluções de Data Collection ............................................................. 17
Kinesis Data Streams Overview ............................................................................ 17
Kinesis Data Firehose ........................................................................................... 18

Serviços de Armazenamento, Banco de Dados e Analytics – Página 4 de 28
MSK: Managed Streaming for Apache Kafka........................................................ 18
Capítulo 5. Soluções de Processamento de Dados ............................................ 20
Introdução ao Processamento de Dados na AWS ................................................ 20
AWS Glue ............................................................................................................. 20
AWS Athena ......................................................................................................... 21
Amazon QuickSight .............................................................................................. 22
Capítulo 6. AWS AI/ML Tools .............................................................................. 23
Referências........... ................................................................................................... 27

Serviços de Armazenamento, Banco de Dados e Analytics – Página 5 de 28
Capítulo 1. Introdução à Plataforma de Dados da AWS
Para serem mais competitivas, as empresas devem criar produtos melhores,
e para isso devem aumentar a agilidade e inovar com mais rapidez. O
desenvolvimento de aplicativos modernos é uma abordagem para projetar, construir
e gerenciar aplicativos que permitem inovação mais rápida e acelerar o tempo de
colocação de novos recursos no mercado. Ao modernizar seus aplicativos, as
empresas podem oferecer melhores serviços aos clientes e acompanhar o ritmo em
um cenário competitivo.
Por 15 anos, a AWS tem ajudado empresas em sua jornada para a nuvem.
Mover cargas de trabalho de armazenamento para a nuvem tem sido uma das
principais maneiras pelas quais os CIOs foram capazes de abordar suas prioridades
estratégicas, como aumentar a agilidade de sua organização, acelerar a capacidade
de inovar, fortalecer a segurança e reduzir o custo. As empresas podem ser mais
ágeis, pois conseguem aumentar ou diminuir os recursos a qualquer momento e
adicionar novos serviços em um instante. A inovação é acelerada, eliminando silos e
extraindo mais valor dos dados usando aprendizado de máquina e realizando análises
em grande escala.
A segurança é reforçada à medida que as empresas ganham mais telemetria
em seus dados quando silos são apagados, os controles de criptografia são mais
avançados e eles herdam todos os controles, ferramentas e certificações projetados
até mesmo para as organizações mais preocupadas com a segurança.
Finalmente, as empresas podem reduzir custos com um modelo de compra
flexível e a eliminação de super provisionamento, ciclos de vida de atualização e
custos de manutenção da infraestrutura de armazenamento.
Os serviços de armazenamento de arquivos nativos em nuvem da AWS
fornecem persistência, alta disponibilidade e escalabilidade para aplicativos em
contêineres e sem servidor que são executados na AWS. A modernização de
aplicativos por meio do uso de microsserviços é uma das principais prioridades dos

Serviços de Armazenamento, Banco de Dados e Analytics – Página 6 de 28
executivos de TI hoje, um componente fundamental de uma estratégia de
transformação digital e requer armazenamento persistente de alta disponibilidade.
O crescimento exponencial de dados em todo o mundo tornou o
gerenciamento de backups mais difícil do que nunca. Com os métodos tradicionais
ficando para trás, como bibliotecas de fitas e sites secundários, muitas organizações
estão abertas para estender os destinos de backup para a nuvem.
Embora ofereça melhor escalabilidade, a construção de soluções de backup
habilitadas para a nuvem requer uma consideração cuidadosa dos investimentos
existentes em TI, objetivos de recuperação e recursos disponíveis. A AWS oferece
serviços de armazenamento, métodos de transferência de dados e opções de rede
para construir soluções que protejam os dados com durabilidade, segurança e
acessibilidade.
Quando necessitamos migrar servidores SQL do on premises para a nuvem,
a AWS oferece suporte a todos os cenários de implantação com RDS (totalmente
gerenciado pela AWS) e EC2 (gerenciado pelo cliente).
O MS SQL Server gerenciado pelo cliente em EC2 geralmente significa
hospedar MS SQL em EC2 apoiado pelo Amazon Elastic Block Store (EBS) ou
Amazon FSx para Windows File Server. O armazenamento persistente do Amazon
EBS e Amazon FSx oferece velocidade, segurança e durabilidade para seus bancos
de dados relacionais essenciais aos negócios, como o Microsoft SQL Server.
Transformar dados em ativos estratégicos começa com a movimentação de
seus dados para a AWS, consolidados e armazenados no Amazon S3 como a base
para um data lake. A partir daí, a AWS fornece uma ampla variedade de ferramentas
de computação e análise para esses dados.

Serviços deArmazenamento, Banco de Dados e Analytics – Página 7 de 28
Capítulo 2. Armazenamento de Dados
EBS Overview
O Amazon Elastic Block Store (Amazon EBS) em sua essência é um disco
rígido virtual na nuvem, que oferece volumes de armazenamento em blocos para ser
utilizado com instâncias EC2.
Os volumes do EBS são apresentados como dispositivos de bloco brutos
(RAW) e não formatados. Esses volumes podem ser anexados como dispositivos de
armazenamento persistente e que independem da vida útil das instâncias.
Cada volume do Amazon EBS é automaticamente replicado em sua própria
zona de disponibilidade para protegê-lo de falhas, o que oferece alta disponibilidade
e durabilidade. Vários volumes do Amazon EBS podem ser anexados a uma única
instância de EC2, embora cada um possa ser anexado a uma única instância por vez.
A configuração de um volume anexado a uma instância pode ser alterada
dinamicamente.
Amazon EBS estão disponíveis em cinco tipos diferentes. O quadro abaixo
nos auxilia no processo de decisão do modelo correto.
Figura 1 - Decision tree model.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 8 de 28
É importante conhecer as propriedades dos diferentes tipos de storage, para
que seja feita a escolha mais econômica e que atenda aos requisitos de desempenho
e capacidade requeridos pelo seu sistema ou aplicação.

EBS Snapshots Overview
Snapshots são uma forma de realizar o backup dos dados nos volumes do
Amazon EBS para o Amazon S3. São backups incrementais, por isso, serão salvos
somente os blocos no dispositivo que tiverem mudado depois do snapshot mais
recente.
Cada snapshot contém as informações necessárias para restaurar todos os
dados do momento em que foi tirado até a criação de um volume novo do EBS.

EFS Overview
O Amazon Elastic File System (Amazon EFS) fornece um sistema de arquivos
compatível com o protocolo Network File System versão 4 (NFSv4.1 e NFSv4.0), sem
servidor, para ser utilizado com instâncias do EC2.
Ele foi desenvolvido para escalar sob demanda até petabytes, aumentando e
diminuindo automaticamente à medida que arquivos são adicionados ou removidos.
O serviço gerencia toda a infraestrutura de armazenamento de arquivos,
desta forma reduzindo a complexidade de implantar, corrigir e manter configurações
complexas de sistemas de arquivos.
Múltiplas instâncias do EC2 podem acessar ao mesmo tempo um sistema de
arquivos criado no Amazon EFS, sendo o recurso ideal para cargas de trabalho que
rodam em mais de um servidor ou instância.
O Amazon EFS oferece diferentes classes de armazenamento para casos de
uso distintos. Dentre elas estão:

Serviços de Armazenamento, Banco de Dados e Analytics – Página 9 de 28
▪ Classes de armazenamento padrão - Padrão EFS e Padrão EFS - Acesso
infrequente (Standard-IA), que oferecem resiliência Multi-AZ e os mais altos
níveis de durabilidade e disponibilidade.
▪ Classes de armazenamento de uma zona - EFS One Zone e EFS One Zone
- Acesso infrequente (EFS One Zone-IA), que oferecem aos clientes a opção
de economia adicional, escolhendo salvar seus dados em uma única AZ'.

Amazon S3 Overview
O Amazon Simple Storage Service (Amazon S3) é um dos serviços mais
antigos da AWS e S3 significa serviço de armazenamento simples. Ele foi projetado
para prover um serviço de armazenamento de objetos seguro, durável, altamente
escalável, fácil de usar e acessível de qualquer lugar na web.
Basicamente, o S3 é um lugar seguro para armazenar arquivos. Podemos
entender por armazenamento de objetos o armazenamento de qualquer tipo de
arquivos simples. Ou seja, documentos do Word, fotos, filmes etc.
Para fazer upload de seus dados (fotos, vídeos, documentos etc.) para o
Amazon S3, primeiro é necessário criar um bucket do S3 em uma das Regiões da
AWS. Um nome de bucket do Amazon S3 é globalmente exclusivo. Isso significa que,
após a criação de um bucket, seu nome não poderá ser usado por outra conta da
AWS em nenhuma região até que ele seja excluído.

S3 Security
Por padrão, todos os buckets quando criados são privados e o controle de
acesso a eles é realizado através de políticas de bucket e listas de controle de acesso
(ACL). O controle de acesso define quem pode acessar objetos e buckets no Amazon
S3 e o tipo de acesso (por exemplo, LEITURA e GRAVAÇÃO).

Serviços de Armazenamento, Banco de Dados e Analytics – Página 10 de 28
As políticas são aplicadas em um nível de bucket. As listas de controle de
acesso abrangem até objetos individuais. Os buckets S3 podem ser configurados
para criar logs de acesso que registram todas as solicitações feitas a eles.
Após configurada a criação de logs em um bucket, toda tentativa de acesso
a um objeto será logada. Esses logs podem ser enviados para outro bucket, ou
mesmo um bucket em outra conta na AWS.

S3 Websites
O Amazon S3 pode ser utilizado para hospedar um site estático. Nesse tipo
de site as páginas da Web individuais incluem conteúdos estáticos. Elas também
podem conter scripts do lado do cliente.
O Amazon S3 não oferece suporte a scripts no lado do servidor ou sites
dinâmicos. Esse último utiliza processamento do servidor, incluindo scripts de servidor
como PHP, JSP ou ASP.NET.

S3 Event Notifications
S3 Event Notifications podem ser utilizados para emitir notificações quando
determinados eventos, como criação, remoção, restauração ou replicação de um
objeto, acontecerem no bucket do S3.
Para habilitar notificações, primeiro deve ser criada uma configuração de
notificação que identifique os eventos que devem ser publicados pelo Amazon S3 e
os destinos para onde ele as envia.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 11 de 28
AWS Snow Family Overview
Snowball é uma solução de transporte de dados em escala de petabyte e que
usa dispositivos seguros para transferir grandes quantidades de dados para dentro e
para fora da AWS. Transferências de dados em grande escala, incluindo altos custos
de rede, longos tempos de transferência e questões de segurança.
Transferir dados com o Snowball é simples, rápido, seguro e pode custar um
quinto do uso da Internet de alta velocidade. Esses dispositivos são físicos,
resistentes e protegidos pelo AWS Key Management Service (AWS KMS). Além
disso, guardam e protegem seus dados em trânsito, enquanto transportadoras
regionais transportam o Snowball entre regiões da AWS e o local de armazenamento
físico de dados.
O Snowball fornece interfaces avançadas que podem ser usadas para
rastrear dados, criar trabalhos e acompanhar o status deles até que sejam concluídos.

Storage Gateway Overview
O AWS Storage Gateway é um serviço que conecta o ambiente on-premises
ao armazenamento do Amazon S3 através de um dispositivo de software virtual.
Proporcionando uma integração fácil e segura entre o ambiente on-premises e a
infraestrutura de armazenamento na nuvem da AWS.
Com este serviço é possível armazenar e recuperar objetos no Amazon S3
por meio de protocolos como o Network File System (NFS) e Server Message Block
(SMB).
O dispositivo de software ou gateway disponível para download é implantado
no ambiente on-premises no formato de uma máquina virtual (VM) compatível com
ambientes VMware ESXi, Microsoft Hyper-V ou Linux Kernel-based Virtual Machine
(KVM). O gateway oferece acesso a objetos no Amazon S3 como arquivos ou pontos
de montagem de compartilhamento de arquivos.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 12 de 28
Amazon FSx - Overview
O Amazon FSx fornece sistemas totalmente gerenciados e com
compatibilidade nativa para cargas de trabalho, como armazenamento baseado no
Microsoft Windows, computação de alto desempenho (HPC), aprendizado de
máquina e automação de design eletrônico. Oferece suporte a dois tipos de sistema
de arquivos: AmazonFSx for Lustre e Amazon FSx for Windows File Server.
O Amazon FSx for Lustre é recomendado para a execução de cargas de
trabalho em que a velocidade é importante, como machine learning, High
Performance Computing (HPC) - Computação de alta performance, processamento
de vídeo e modelagem financeira. Já o Amazon FSx for Windows File Server fornece
servidores de arquivos do Microsoft Windows totalmente gerenciados, baseadas em
um sistema totalmente nativo de arquivos do Windows.
https://docs.aws.amazon.com/fsx/latest/WindowsGuide/index.html

Serviços de Armazenamento, Banco de Dados e Analytics – Página 13 de 28
Capítulo 3. Banco de Dados na AWS
O que é um banco de dados e o que são bancos de dados relacionais?
Bancos de dados relacionais existem desde 1970, e são o que a maioria de nós
estamos acostumados.
Se você usa o Excel, ele é salvo em um arquivo, que pode ser o seu costs.xls,
por exemplo. Então, esse é essencialmente o próprio banco de dados e se você entrar
no arquivo, terá diferentes planilhas que são tabelas diferentes, e dentro delas você
terá linhas e colunas ou campos.

Amazon RDS Overview
O Amazon Relational Database Service (Amazon RDS) é um serviço web que
facilita a configuração, operação e dimensionamento de um banco de dados
relacional na AWS. Ele fornece capacidade econômica e redimensionável para um
banco de dados relacional padrão do setor e gerencia tarefas comuns de
administração de banco de dados.
O Amazon RDS é, basicamente, a instância do banco de dados em um
ambiente isolado na AWS. Esses tipos de instâncias podem ser criadas e/ou
gerenciadas utilizando a AWS Command Line Interface (CLI), a API do Amazon RDS
ou o console de gerenciamento da AWS. Capaz conter vários bancos de dados
criados pelo usuário. É possível acessar a instância de banco de dados utilizando as
mesmas ferramentas e os mesmos aplicativos usados com uma instância tradicional.
Cada uma executa um mecanismo de banco de dados. Atualmente, o
Amazon RDS oferece suporte aos mecanismos MySQL, MariaDB, PostgreSQL,
Oracle e Microsoft SQL Server. Cada mecanismo tem seus próprios recursos com
suporte e cada versão pode incluir recursos específicos. Além disso, possuem um
conjunto de parâmetros em um parameter group de banco de dados que controlam o
comportamento dos bancos de dados que ele gerencia.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 14 de 28
Aurora Overview
O Amazon Aurora é um mecanismo de banco de dados relacional gerenciado
compatível com o MySQL e PostgreSQL. Ele foi desenvolvido para ser
completamente compatível com o código, as ferramentas e os aplicativos que você
usa atualmente em seus bancos de dados existentes do MySQL e do PostgreSQL.
Com algumas cargas de trabalho, o Aurora pode oferecer até cinco vezes a
taxa de processamento do MySQL e até três vezes a taxa de processamento do
PostgreSQL, sem exigir alterações na maioria dos aplicativos existentes.
A camada de armazenamento do Aurora aumenta automaticamente,
conforme necessário. Ele também automatiza e padroniza o clustering e a replicação
de bancos de dados.
Esse mecanismo faz parte de um serviço gerenciado de banco de dados do
Amazon Relational Database Service (Amazon RDS). O Amazon RDS é um serviço
da web que facilita a configuração, a operação e escalabilidade de um banco de dados
relacional na nuvem. Se você não estiver familiarizado com o Amazon RDS, consulte
o Guia do usuário do Amazon Relational Database Service.

ElastiCache Overview
O Amazon ElastiCache é um serviço Web que facilita a configuração, o
gerenciamento e o dimensionamento de um armazenamento de dados distribuído na
memória ou do ambiente de cache na nuvem.
O Elasticache fornece uma solução de armazenamento em cache econômica,
de alto desempenho e escalável. Ao mesmo tempo, ele ajuda a remover a
complexidade associada à implantação e ao gerenciamento de um ambiente de cache
distribuído.

https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html

Serviços de Armazenamento, Banco de Dados e Analytics – Página 15 de 28
Elasticache for Redis
Os aplicativos existentes que usam o Redis podem usar o ElastiCache sem
quase nenhuma modificação. Seus aplicativos simplesmente precisam de
informações sobre os nomes dos hosts e os números de porta dos nós do ElastiCache
que você implantou.
Dentre os principais recursos do ElastiCache for Redis estão:
▪ Detecção e recuperação automáticas de falhas de nós de cache.
▪ Multi-AZ de um cluster primário com falha para uma réplica de leitura em
clusters do Redis compatíveis com a replicação.
▪ O ElastiCache for Redis gerencia backups, patches de software, detecção
automática de falhas e recuperação.

Elasticache for Memcached
Os aplicativos existentes que utilizam o Memcached podem usar o
ElastiCache sem quase nenhuma modificação. Seus aplicativos simplesmente
precisam de informações sobre os nomes dos hosts e os números de porta dos nós
do ElastiCache que você implantou.
O recurso Descoberta automática do ElastiCache para Memcached permite
que seus aplicativos identifiquem todos os nós em um cluster de cache e conecte-se
a eles. Isso significa que você não precisa manter uma lista de nomes de host e
números de porta disponíveis. Dessa forma, seus aplicativos são efetivamente
isolados de alterações na associação de nós em um cluster.
Dentre os principais recursos do ElastiCache for Memcached estão:
▪ Detecção e recuperação automáticas de falhas de nós de cache.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 16 de 28
▪ Descoberta automática de nós em um cluster habilitado para descoberta
automática, para que não seja necessário fazer nenhuma alteração em seu
aplicativo ao adicionar ou remover nós.
▪ Colocação flexível de nós e clusters em zonas de disponibilidade.

DynamoDB Overview
O Amazon DynamoDB é um serviço de banco de dados NoSQL totalmente
gerenciado que fornece um desempenho rápido e previsível com escalabilidade
integrada. Ele permite que você transfira os encargos administrativos de operação e
escalabilidade de um banco de dados distribuído. Assim, você não precisa se
preocupar com provisionamento, instalação e configuração de hardware, replicação,
correção de software, nem escalabilidade de cluster. Além disso, oferece criptografia
em repouso, o que elimina a carga e a complexidade operacionais envolvidas na
proteção de dados confidenciais.
Com o DynamoDB, você pode aumentar ou diminuir a capacidade de
throughput das tabelas sem tempo de inatividade ou degradação do desempenho.
O DynamoDB oferece o recurso de backup sob demanda. Permite que você
crie backups completos das suas tabelas para retenção e arquivamento de longo
prazo de modo a atender às necessidades de conformidade regulamentar. Para mais
informações, consulte Backup e restauração sob demanda para o DynamoDB.

https://docs.aws.amazon.com/pt_br/amazondynamodb/latest/developerguide/BackupRestore.html

Serviços de Armazenamento, Banco de Dados e Analytics – Página 17 de 28
Capítulo 4. Soluções de Data Collection
Os dados perdem valor com o tempo. Podemos classificá-los em históricos,
que são normalmente armazenados em uma solução de armazenamento de dados,
em um banco de dados, ou em dados de streaming.
O que é streaming de dados? Streaming de dados, são dados gerados
continuamente. Estes podem ser gerados por um ou por milhares de fontes de dados
e são normalmente enviados em pequenos registros, simultaneamente, na ordem de
kilobytes.
Exemplos de dados em streaming:
▪ Sensores em veículos de transporte;
▪ Equipamentos industriais;
▪ Máquinas agrícolas que enviam dados para monitoração;
▪ Dados do mercado de ações em tempo real;
▪ Dados de clickstream.
E como colocamos esses dados na AWS? Quando pensamos em obter dados
de streamingpara AWS o principal serviço é o Kinesis. O Kinesis não é apenas um
serviço, mas sim uma família de serviços distintos e complementares.

Kinesis Data Streams Overview
O Amazon Kinesis Data Streams é usado para coletar e processar grandes
quantidades de dados em tempo real e de forma contínua. Dados processados em
tempo real, possuem um processamento geralmente leve.
Um uso comum é a agregação em tempo real de dados seguida do
carregamento de dados agregados para um data warehouse ou cluster de EMR.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 18 de 28
O Kinesis Data Streams garante a durabilidade e a elasticidade. O atraso
entre o momento em que um registro é colocado no streaming e o momento em que
ele pode ser recuperado (atraso entre put e get) normalmente é de menos de 1
segundo.
O aspecto de serviço gerenciado do Kinesis Data Streams libera você do peso
operacional de criação e execução de um pipeline de entrada de dados.
A elasticidade do Kinesis Data Streams permite escalar o streaming, de
maneira que você nunca perca registros de dados antes que eles expirem.

Kinesis Data Firehose
O Amazon Kinesis Data Firehose é um serviço totalmente gerenciado para
fornecimento em tempo real de streaming de dados para destinos como o Amazon
Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Elasticsearch
Service (Amazon ES), Splunk e todos os endpoints HTTP ou HTTP personalizados
de propriedade de provedores de serviços terceirizados compatíveis, incluindo
Datadog, Dynatrace, LogicMonitor, MongoDB, New Relic e Sumo Logic.

MSK: Managed Streaming for Apache Kafka
O Amazon Managed Streaming for Apache Kafka (Amazon MSK) é um
serviço totalmente gerenciado que permite criar e executar aplicativos que usam o
Apache Kafka para processar dados em streaming. Ele fornece as operações do
plano de controle, como aquelas para criar, atualizar e excluir clusters. Permite usar
operações do plano de dados do Apache Kafka, como aqueles para produzir e
consumir dados. E executa versões de código aberto do Apache Kafka. Isso significa
que aplicativos, ferramentas e plug-ins existentes de parceiros e da comunidade
Apache Kafka são compatíveis sem a necessidade de fazer alterações no código do
aplicativo.
http://aws.amazon.com/streaming-data/

Serviços de Armazenamento, Banco de Dados e Analytics – Página 19 de 28
O Amazon MSK detecta e recupera automaticamente dos cenários de falha
mais comuns para clusters a fim de que os aplicativos de produtor e consumidor
possam continuar as operações de gravação e leitura com o menor impacto. Quando
o Amazon MSK detecta uma falha de agente, ele mitiga a falha ou substitui o agente
não íntegro ou inacessível por um novo. Além disso, sempre que possível, ele reutiliza
o armazenamento do agente mais antigo para reduzir os dados que o Apache Kafka
precisa replicar. Seu impacto na disponibilidade é limitado ao tempo necessário para
o Amazon MSK concluir a detecção e a recuperação. Após uma recuperação, os
aplicativos de produtor e consumidor podem continuar se comunicando com os
mesmos endereços IP do agente usados antes da falha.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 20 de 28
Capítulo 5. Soluções de Processamento de Dados
Introdução ao Processamento de Dados na AWS
Após a realização da coleta dos dados, precisamos trabalhar com a
preparação e análise de dados. Devemos ver nossos dados, interpretá-los e descobrir
informações importantes sobre eles. Assim, podemos começar a inferir coisas e tomar
melhores decisões de negócios com base nas informações que podemos extrair
desses dados.
Veremos como o AWS Glue nos auxilia na preparação de dados e ETL. Como
podemos usar o Athena para a preparação e análise de dados executando consultas
SQL e comoconseguimos usar o QuickSight para interpretação, bem como a
descoberta de nossos dados.

AWS Glue
O AWS Glue é um serviço de ETL (extração, transformação e carregamento)
totalmente gerenciado que torna mais fácil e econômico o processo de categorizar
dados, limpá-los, aprimorá-los e movê-los de modo confiável entre vários
armazenamentos e streams de dados.
Ele consiste em um repositório de metadados central, conhecido como AWS
Glue Data Catalog, um mecanismo de ETL que gera automaticamente um código
Python ou Scala e um programador flexível que lida com resolução de dependências,
monitoramento de trabalhos e novas tentativas.
Não usa servidor e, portanto, não requer a configuração ou o gerenciamento
de uma infraestrutura.
É possível usar o console do AWS Glue para descobrir dados, transformá-los
e disponibilizá-los para pesquisas e consultas. O console chama os serviços
subjacentes de modo a orquestrar o trabalho necessário para transformar seus dados.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 21 de 28
É possível usar o AWS Glue para organizar, limpar, validar e formatar dados
para armazenamento em um data warehouse ou data lake. Também é possível
carregar dados de fontes estáticas ou de streaming diferentes em seu data warehouse
ou data lake para geração de relatórios e análises regulares.

AWS Athena
O Amazon Athena é um serviço de consultas interativas que facilita a análise
de dados diretamente no Amazon Simple Storage Service (Amazon S3) usando o
padrão SQL.
É possível apontar o Athena para os dados armazenados no Amazon S3 e
começar a usar o SQL padrão para executar consultas ad-hoc e receber resultados
em poucos segundos.
Como o Athena não utiliza servidor, não há infraestrutura para configurar ou
gerenciar, e você paga apenas pelas consultas executadas.
O Athena é escalado automaticamente, executando consultas em paralelo,
de maneira que os resultados sejam rápidos, mesmo com conjuntos de dados
grandes e consultas complexas. Ele pode analisar dados desestruturados,
semiestruturados e estruturados armazenados no Amazon S3. Entre os exemplos
estão formatos de dados CSV, JSON ou colunares, como Apache Parquet e Apache
ORC.
Este serviço se integra ao Amazon QuickSight para uma visualização de
dados mais fácil. Você também pode usá-lo para gerar relatórios ou explorar dados
com ferramentas de business intelligence ou clientes SQL conectados com um driver
JDBC ou ODBC. Integra-se também com o AWS Glue Data Catalog, que oferece um
armazenamento de metadados persistente para os dados no Amazon S3.

https://docs.aws.amazon.com/pt_br/athena/latest/ug/ddl-sql-reference.html

Serviços de Armazenamento, Banco de Dados e Analytics – Página 22 de 28
Amazon QuickSight
O Amazon QuickSight é um serviço de business intelligence (BI) em escala
de nuvem. Ele se conecta aos seus dados na nuvem e combina dados de muitas
fontes diferentes. Em um único painel de dados, o QuickSight pode incluir dados da
AWS, dados de terceiros, big data, dados de planilha, dados SaaS, dados B2B e
muito mais.
Como um serviço totalmente gerenciado baseado em nuvem, o Amazon
QuickSight oferece segurança de nível empresarial, disponibilidade global e
redundância integrada. Ele também fornece as ferramentas de gerenciamento de
usuários que você precisa para dimensionar de 10 usuários para 10.000, tudo sem
infraestrutura para implantar e gerenciar.
O QuickSight oferece aos tomadores de decisão a oportunidade de explorar
e interpretar informações em um ambiente visual interativo. Eles têm acesso seguro
aos painéis a partir de qualquer dispositivo em sua rede e de dispositivos móveis.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 23 de 28
Capítulo 6. AWS AI/ML Tools
O aprendizado de máquina (ML) está promovendo melhores experiências dos
clientes, operações de negócios mais eficientes e tomada de decisões mais rápidas
e precisas.
Com o aumento do poder computacional e a proliferação de dados, a MLpassou da periferia para ser um diferencial central para empresas e organizações em
todos os setores.
O Gartner prevê que os valores de negócios derivados da Inteligência Artificial
(AI) atinjam US$3,9 trilhões, em 2022. Há casos de uso de ML que podem ser
aplicados à maioria das empresas, como recomendações personalizadas de produtos
e conteúdo, inteligência de contact center, verificação de identidade virtual e
processamento inteligente de documentos. E há casos de uso personalizados criados
para uma indústria específica, como ensaios clínicos em farmacêutica ou controle de
qualidade da linha de montagem na fabricação.
A AWS fornece o mais amplo e profundo conjunto de serviços de ML e AI do
mercado.
Figura 2 - Stack de serviços de AI/ML da AWS.

Fonte: https://www.youtube.com/watch?v=PjDysgCvRqY.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 24 de 28
Na camada superior estão os serviços de IA, que permitem aos
desenvolvedores adicionar inteligência a qualquer aplicativo sem a necessidade de
habilidades de ML.
Os modelos pré-treinados fornecem inteligência pronta para seus aplicativos
e fluxos de trabalho para ajudá-lo a fazer coisas como personalizar a experiência do
cliente, prever métricas de negócios, traduzir conversas, extrair significado de
documentos e muito mais.
Na camada intermediária está o Amazon SageMaker, que fornece a cada
desenvolvedor e cientista de dados a capacidade de construir, treinar e implantar
modelos de aprendizado de máquina em escala. Ele remove a complexidade de cada
etapa do fluxo de trabalho de aprendizado de máquina para que você possa implantar
mais facilmente seus casos de uso de aprendizado de máquina, desde manutenção
preditiva até visão computacional e previsão de comportamentos do cliente.
E na camada inferior, os profissionais especializados podem desenvolver na
estrutura de sua escolha como uma experiência gerenciada no Amazon SageMaker
ou usar as AMIs de aprendizado profundo da AWS (imagens de máquina da Amazon),
que são totalmente configuradas com as versões mais recentes do aprendizado
profundo mais popular, estruturas e ferramentas.
Seguem exemplos dos serviços de que AI/ML visam o atendimento de
necessidades, indústrias ou casos de uso específicos:
Os serviços de IA industrial são projetados para ajudar clientes na
manufatura, agricultura, energia ou outras indústrias pesadas.
Amazon HealthLake é feito especificamente para clientes de saúde e ciências
da vida.
Vision - (Rek Image e vídeo) - Utilize o Rekognition para responder perguntas
como: "diga-me o que há nesta imagem", "quais celebridades estão nesta imagem" e
"esta imagem é segura para o trabalho?".

Serviços de Armazenamento, Banco de Dados e Analytics – Página 25 de 28
Fala - (Polly, Transcribe) - o Polly é utilizado para transformar texto em fala e
para transcrever áudio, utilize o Transcribe.
Text (translate, comprehend, textract) - O Translate é utilizado para traduzir
texto para diferentes idiomas. Uma vez traduzidos, com auxilio do Comprehendé é
possível entender o que está sendo dito nos textos traduzidos. Para extração de
textos de documentos usando OCR ++, a ferramenta certa é o Textract.
Um dos produtos mais famosos da Amazon é a Alexa e seus chatbots com
Lex. Os clientes nos pediram para continuar a considerar a adição de serviços em
áreas onde temos muita experiência e dados de nosso negócio de consumo.
O Amazon Fraud Detector é um serviço de gerenciamento de fraudes para
detectar fraudes de identidade e pagamento on-line em tempo real.
Amazon CodeGuru é um novo serviço de aprendizado de máquina para
automatizar revisões de código.
O Contact Lens for Amazon Connect fornece análises de contact center com
tecnologia de aprendizado de máquina para o Amazon Connect.
Amazon Kendra é um serviço que reinventa a pesquisa corporativa, a gestão
do conhecimento e de documentos com aprendizado de máquina.
Já o Amazon SageMaker é um serviço end-to-end para aprendizado de
máquina. É gerenciado para cientistas de dados e equipes de operações de ML que
ajuda a remover o trabalho pesado indiferenciado associado ao aprendizado de
máquina, para que você, por sua vez, tenha mais tempo, recursos e energia para se
concentrar em seus negócios.
Em primeiro lugar, o SageMaker fornece aos usuários um ambiente de
trabalho integrado de ferramentas reunidas em um só lugar através do SageMaker
Studio. Os usuários podem iniciar Jupyter Notebooks e ambientes Jupyter Lab
instantaneamente através do SageMaker Studio. Ele também fornece gerenciamento
completo de experimentos, preparação de dados e automação e orquestração de
pipeline para ajudar a tornar os cientistas de dados mais produtivos.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 26 de 28
Um Notebook Jupyter precisa de um ambiente de computação para funcionar.
O SageMaker fornece servidores totalmente gerenciados na nuvem para tornar isso
fácil para cientistas e desenvolvedores de dados. Mas, além dos notebooks, o
SageMaker também oferece outros recursos de infraestrutura gerenciada. De tarefas
de treinamento distribuídas, tarefas de processamento de dados e até mesmo
hospedagem de modelos, o SageMaker cuida de todo o dimensionamento, patching,
alta disponibilidade etc. associados à construção, treinamento e modelos de
hospedagem.
Existem ferramentas no SageMaker que ajudam a tornar os cientistas de
dados mais produtivos. O que você verá é que esta bancada de trabalho integrada,
assentada em uma infraestrutura gerenciada, também é enriquecida por um enorme
ecossistema de ferramentas, todas criadas especificamente para ML e projetadas
desde o início para funcionarem juntas.

Serviços de Armazenamento, Banco de Dados e Analytics – Página 27 de 28
Referências
AWS. Serviços de Storage. Disponível em:
<https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-
services.html>. Acesso em: 18 ago. 2021.
AWS. What Is Amazon SageMaker?. Disponível em
<https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html>. Acesso em: 18
ago. 2021.
AWS. Big Data blog posts. Disponível em <https://aws.amazon.com/pt/blogs/big-
data/>. Acesso em: 18 ago. 2021.
AWS. Get started with Amazon ElastiCache. Disponível em
<https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-
for-redis-and-memcached-introducing-the-elasticache-learning-path/>. Acesso em:
18 ago. 2021.
AWS. AWS Snow Family Documentation. Disponível em
<https://docs.aws.amazon.com/snowball/?id=docs_gateway>. Acesso em: 18 ago.
2021.
AWS. AWS Storage Gateway Documentation. Disponível em
<https://docs.aws.amazon.com/storagegateway/?id=docs_gateway>. Acesso em: 18
ago. 2021.
AWS. AWS QuickSight Documentation. Disponível em
<https://docs.aws.amazon.com/quicksight/?id=docs_gateway>. Acesso em: 18 ago.
2021.
AWS. Data warehouse na AWS. Mar. 2016. Disponível em
<https://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-
aws.pdf?did=wp_card&trk=wp_card>. Acesso em: 18 ago. 2021.
https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-services.html
https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-services.html
https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html
https://aws.amazon.com/pt/blogs/big-data/
https://aws.amazon.com/pt/blogs/big-data/
https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-for-redis-and-memcached-introducing-the-elasticache-learning-path/
https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-for-redis-and-memcached-introducing-the-elasticache-learning-path/
https://docs.aws.amazon.com/snowball/?id=docs_gateway
https://docs.aws.amazon.com/storagegateway/?id=docs_gateway
https://docs.aws.amazon.com/quicksight/?id=docs_gateway
https://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-aws.pdf?did=wp_card&trk=wp_cardhttps://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-aws.pdf?did=wp_card&trk=wp_card

Serviços de Armazenamento, Banco de Dados e Analytics – Página 28 de 28
AWS. Hosting Static Websites on AWS. Mai. 2021. Disponível em
<https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20A
WS.pdf?did=wp_card&trk=wp_card>. Acesso em: 18 ago. 2021.
https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20AWS.pdf?did=wp_card&trk=wp_card
https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20AWS.pdf?did=wp_card&trk=wp_card

Apostila - Módulo 2 - Bootcamp Profissional AWS Cloud Computing

ESTÁCIO

Ferramentas de estudo

Conteúdos escolhidos para você

Cw3 - Bancos de Dados em Nuvem

sumulado nuvem de dados

Aplicação de Big Data em Cloud - Avaliação final Objetiva

COMPUTAÇÃO EM NUVEM 1

Aplicação de Big Data em Cloud

Perguntas dessa disciplina

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e ...

Diferentes tipos de informação são gerenciados pelas organizações. Dentro da variedade que o contexto de Big Data se propõe a explorar, o gerenciam...

5) A computação em nuvem transformou a forma como armazenamos, gerenciamos e processamos dados, tornando-se essencial para empresas que lidam com g...

) Como definição, MongoDB é um banco de dados de código aberto que usa um modelo de dados orientado a documentos e uma linguagem de consulta não es...

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e arm

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

Cw3 - Bancos de Dados em Nuvem

sumulado nuvem de dados

Aplicação de Big Data em Cloud - Avaliação final Objetiva

COMPUTAÇÃO EM NUVEM 1

Aplicação de Big Data em Cloud

Perguntas dessa disciplina

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e ...

Diferentes tipos de informação são gerenciados pelas organizações. Dentro da variedade que o contexto de Big Data se propõe a explorar, o gerenciam...

5) A computação em nuvem transformou a forma como armazenamos, gerenciamos e processamos dados, tornando-se essencial para empresas que lidam com g...

) Como definição, MongoDB é um banco de dados de código aberto que usa um modelo de dados orientado a documentos e uma linguagem de consulta não es...

O crescimento exponencial de dados oriundos de aplicações web, Internet das Coisas e mídias digitais impulsionou a adoção de soluções de análise e arm

Mais conteúdos dessa disciplina