Baixe o app para aproveitar ainda mais
Prévia do material em texto
Serviços de Armazenamento, Banco de Dados e Analytics Bootcamp Profissional AWS Cloud Computing Fábio Saito 2021 Serviços de Armazenamento, Banco de Dados e Analytics – Página 2 de 28 Serviços de Armazenamento, Banco de Dados e Analytics Bootcamp Profissional AWS Cloud Computing Fábio Saito © Copyright do Instituto de Gestão e Tecnologia da Informação. Todos os direitos reservados. Serviços de Armazenamento, Banco de Dados e Analytics – Página 3 de 28 Sumário Capítulo 1. Introdução à Plataforma de Dados da AWS ........................................ 5 Capítulo 2. Armazenamento de Dados .................................................................. 7 EBS Overview ......................................................................................................... 7 EBS Snapshots Overview ....................................................................................... 8 EFS Overview ......................................................................................................... 8 Amazon S3 Overview ............................................................................................. 9 S3 Security .............................................................................................................. 9 S3 Websites .......................................................................................................... 10 S3 Event Notifications ........................................................................................... 10 AWS Snow Family Overview ................................................................................ 11 Storage Gateway Overview .................................................................................. 11 Amazon FSx - Overview ....................................................................................... 12 Capítulo 3. Banco de Dados na AWS .................................................................. 13 Amazon RDS Overview ........................................................................................ 13 Aurora Overview ................................................................................................... 14 ElastiCache Overview ........................................................................................... 14 Elasticache for Redis ............................................................................................ 15 Elasticache for Memcached .................................................................................. 15 DynamoDB Overview ............................................................................................ 16 Capítulo 4. Soluções de Data Collection ............................................................. 17 Kinesis Data Streams Overview ............................................................................ 17 Kinesis Data Firehose ........................................................................................... 18 Serviços de Armazenamento, Banco de Dados e Analytics – Página 4 de 28 MSK: Managed Streaming for Apache Kafka........................................................ 18 Capítulo 5. Soluções de Processamento de Dados ............................................ 20 Introdução ao Processamento de Dados na AWS ................................................ 20 AWS Glue ............................................................................................................. 20 AWS Athena ......................................................................................................... 21 Amazon QuickSight .............................................................................................. 22 Capítulo 6. AWS AI/ML Tools .............................................................................. 23 Referências........... ................................................................................................... 27 Serviços de Armazenamento, Banco de Dados e Analytics – Página 5 de 28 Capítulo 1. Introdução à Plataforma de Dados da AWS Para serem mais competitivas, as empresas devem criar produtos melhores, e para isso devem aumentar a agilidade e inovar com mais rapidez. O desenvolvimento de aplicativos modernos é uma abordagem para projetar, construir e gerenciar aplicativos que permitem inovação mais rápida e acelerar o tempo de colocação de novos recursos no mercado. Ao modernizar seus aplicativos, as empresas podem oferecer melhores serviços aos clientes e acompanhar o ritmo em um cenário competitivo. Por 15 anos, a AWS tem ajudado empresas em sua jornada para a nuvem. Mover cargas de trabalho de armazenamento para a nuvem tem sido uma das principais maneiras pelas quais os CIOs foram capazes de abordar suas prioridades estratégicas, como aumentar a agilidade de sua organização, acelerar a capacidade de inovar, fortalecer a segurança e reduzir o custo. As empresas podem ser mais ágeis, pois conseguem aumentar ou diminuir os recursos a qualquer momento e adicionar novos serviços em um instante. A inovação é acelerada, eliminando silos e extraindo mais valor dos dados usando aprendizado de máquina e realizando análises em grande escala. A segurança é reforçada à medida que as empresas ganham mais telemetria em seus dados quando silos são apagados, os controles de criptografia são mais avançados e eles herdam todos os controles, ferramentas e certificações projetados até mesmo para as organizações mais preocupadas com a segurança. Finalmente, as empresas podem reduzir custos com um modelo de compra flexível e a eliminação de super provisionamento, ciclos de vida de atualização e custos de manutenção da infraestrutura de armazenamento. Os serviços de armazenamento de arquivos nativos em nuvem da AWS fornecem persistência, alta disponibilidade e escalabilidade para aplicativos em contêineres e sem servidor que são executados na AWS. A modernização de aplicativos por meio do uso de microsserviços é uma das principais prioridades dos Serviços de Armazenamento, Banco de Dados e Analytics – Página 6 de 28 executivos de TI hoje, um componente fundamental de uma estratégia de transformação digital e requer armazenamento persistente de alta disponibilidade. O crescimento exponencial de dados em todo o mundo tornou o gerenciamento de backups mais difícil do que nunca. Com os métodos tradicionais ficando para trás, como bibliotecas de fitas e sites secundários, muitas organizações estão abertas para estender os destinos de backup para a nuvem. Embora ofereça melhor escalabilidade, a construção de soluções de backup habilitadas para a nuvem requer uma consideração cuidadosa dos investimentos existentes em TI, objetivos de recuperação e recursos disponíveis. A AWS oferece serviços de armazenamento, métodos de transferência de dados e opções de rede para construir soluções que protejam os dados com durabilidade, segurança e acessibilidade. Quando necessitamos migrar servidores SQL do on premises para a nuvem, a AWS oferece suporte a todos os cenários de implantação com RDS (totalmente gerenciado pela AWS) e EC2 (gerenciado pelo cliente). O MS SQL Server gerenciado pelo cliente em EC2 geralmente significa hospedar MS SQL em EC2 apoiado pelo Amazon Elastic Block Store (EBS) ou Amazon FSx para Windows File Server. O armazenamento persistente do Amazon EBS e Amazon FSx oferece velocidade, segurança e durabilidade para seus bancos de dados relacionais essenciais aos negócios, como o Microsoft SQL Server. Transformar dados em ativos estratégicos começa com a movimentação de seus dados para a AWS, consolidados e armazenados no Amazon S3 como a base para um data lake. A partir daí, a AWS fornece uma ampla variedade de ferramentas de computação e análise para esses dados. Serviços deArmazenamento, Banco de Dados e Analytics – Página 7 de 28 Capítulo 2. Armazenamento de Dados EBS Overview O Amazon Elastic Block Store (Amazon EBS) em sua essência é um disco rígido virtual na nuvem, que oferece volumes de armazenamento em blocos para ser utilizado com instâncias EC2. Os volumes do EBS são apresentados como dispositivos de bloco brutos (RAW) e não formatados. Esses volumes podem ser anexados como dispositivos de armazenamento persistente e que independem da vida útil das instâncias. Cada volume do Amazon EBS é automaticamente replicado em sua própria zona de disponibilidade para protegê-lo de falhas, o que oferece alta disponibilidade e durabilidade. Vários volumes do Amazon EBS podem ser anexados a uma única instância de EC2, embora cada um possa ser anexado a uma única instância por vez. A configuração de um volume anexado a uma instância pode ser alterada dinamicamente. Amazon EBS estão disponíveis em cinco tipos diferentes. O quadro abaixo nos auxilia no processo de decisão do modelo correto. Figura 1 - Decision tree model. Serviços de Armazenamento, Banco de Dados e Analytics – Página 8 de 28 É importante conhecer as propriedades dos diferentes tipos de storage, para que seja feita a escolha mais econômica e que atenda aos requisitos de desempenho e capacidade requeridos pelo seu sistema ou aplicação. EBS Snapshots Overview Snapshots são uma forma de realizar o backup dos dados nos volumes do Amazon EBS para o Amazon S3. São backups incrementais, por isso, serão salvos somente os blocos no dispositivo que tiverem mudado depois do snapshot mais recente. Cada snapshot contém as informações necessárias para restaurar todos os dados do momento em que foi tirado até a criação de um volume novo do EBS. EFS Overview O Amazon Elastic File System (Amazon EFS) fornece um sistema de arquivos compatível com o protocolo Network File System versão 4 (NFSv4.1 e NFSv4.0), sem servidor, para ser utilizado com instâncias do EC2. Ele foi desenvolvido para escalar sob demanda até petabytes, aumentando e diminuindo automaticamente à medida que arquivos são adicionados ou removidos. O serviço gerencia toda a infraestrutura de armazenamento de arquivos, desta forma reduzindo a complexidade de implantar, corrigir e manter configurações complexas de sistemas de arquivos. Múltiplas instâncias do EC2 podem acessar ao mesmo tempo um sistema de arquivos criado no Amazon EFS, sendo o recurso ideal para cargas de trabalho que rodam em mais de um servidor ou instância. O Amazon EFS oferece diferentes classes de armazenamento para casos de uso distintos. Dentre elas estão: Serviços de Armazenamento, Banco de Dados e Analytics – Página 9 de 28 ▪ Classes de armazenamento padrão - Padrão EFS e Padrão EFS - Acesso infrequente (Standard-IA), que oferecem resiliência Multi-AZ e os mais altos níveis de durabilidade e disponibilidade. ▪ Classes de armazenamento de uma zona - EFS One Zone e EFS One Zone - Acesso infrequente (EFS One Zone-IA), que oferecem aos clientes a opção de economia adicional, escolhendo salvar seus dados em uma única AZ'. Amazon S3 Overview O Amazon Simple Storage Service (Amazon S3) é um dos serviços mais antigos da AWS e S3 significa serviço de armazenamento simples. Ele foi projetado para prover um serviço de armazenamento de objetos seguro, durável, altamente escalável, fácil de usar e acessível de qualquer lugar na web. Basicamente, o S3 é um lugar seguro para armazenar arquivos. Podemos entender por armazenamento de objetos o armazenamento de qualquer tipo de arquivos simples. Ou seja, documentos do Word, fotos, filmes etc. Para fazer upload de seus dados (fotos, vídeos, documentos etc.) para o Amazon S3, primeiro é necessário criar um bucket do S3 em uma das Regiões da AWS. Um nome de bucket do Amazon S3 é globalmente exclusivo. Isso significa que, após a criação de um bucket, seu nome não poderá ser usado por outra conta da AWS em nenhuma região até que ele seja excluído. S3 Security Por padrão, todos os buckets quando criados são privados e o controle de acesso a eles é realizado através de políticas de bucket e listas de controle de acesso (ACL). O controle de acesso define quem pode acessar objetos e buckets no Amazon S3 e o tipo de acesso (por exemplo, LEITURA e GRAVAÇÃO). Serviços de Armazenamento, Banco de Dados e Analytics – Página 10 de 28 As políticas são aplicadas em um nível de bucket. As listas de controle de acesso abrangem até objetos individuais. Os buckets S3 podem ser configurados para criar logs de acesso que registram todas as solicitações feitas a eles. Após configurada a criação de logs em um bucket, toda tentativa de acesso a um objeto será logada. Esses logs podem ser enviados para outro bucket, ou mesmo um bucket em outra conta na AWS. S3 Websites O Amazon S3 pode ser utilizado para hospedar um site estático. Nesse tipo de site as páginas da Web individuais incluem conteúdos estáticos. Elas também podem conter scripts do lado do cliente. O Amazon S3 não oferece suporte a scripts no lado do servidor ou sites dinâmicos. Esse último utiliza processamento do servidor, incluindo scripts de servidor como PHP, JSP ou ASP.NET. S3 Event Notifications S3 Event Notifications podem ser utilizados para emitir notificações quando determinados eventos, como criação, remoção, restauração ou replicação de um objeto, acontecerem no bucket do S3. Para habilitar notificações, primeiro deve ser criada uma configuração de notificação que identifique os eventos que devem ser publicados pelo Amazon S3 e os destinos para onde ele as envia. Serviços de Armazenamento, Banco de Dados e Analytics – Página 11 de 28 AWS Snow Family Overview Snowball é uma solução de transporte de dados em escala de petabyte e que usa dispositivos seguros para transferir grandes quantidades de dados para dentro e para fora da AWS. Transferências de dados em grande escala, incluindo altos custos de rede, longos tempos de transferência e questões de segurança. Transferir dados com o Snowball é simples, rápido, seguro e pode custar um quinto do uso da Internet de alta velocidade. Esses dispositivos são físicos, resistentes e protegidos pelo AWS Key Management Service (AWS KMS). Além disso, guardam e protegem seus dados em trânsito, enquanto transportadoras regionais transportam o Snowball entre regiões da AWS e o local de armazenamento físico de dados. O Snowball fornece interfaces avançadas que podem ser usadas para rastrear dados, criar trabalhos e acompanhar o status deles até que sejam concluídos. Storage Gateway Overview O AWS Storage Gateway é um serviço que conecta o ambiente on-premises ao armazenamento do Amazon S3 através de um dispositivo de software virtual. Proporcionando uma integração fácil e segura entre o ambiente on-premises e a infraestrutura de armazenamento na nuvem da AWS. Com este serviço é possível armazenar e recuperar objetos no Amazon S3 por meio de protocolos como o Network File System (NFS) e Server Message Block (SMB). O dispositivo de software ou gateway disponível para download é implantado no ambiente on-premises no formato de uma máquina virtual (VM) compatível com ambientes VMware ESXi, Microsoft Hyper-V ou Linux Kernel-based Virtual Machine (KVM). O gateway oferece acesso a objetos no Amazon S3 como arquivos ou pontos de montagem de compartilhamento de arquivos. Serviços de Armazenamento, Banco de Dados e Analytics – Página 12 de 28 Amazon FSx - Overview O Amazon FSx fornece sistemas totalmente gerenciados e com compatibilidade nativa para cargas de trabalho, como armazenamento baseado no Microsoft Windows, computação de alto desempenho (HPC), aprendizado de máquina e automação de design eletrônico. Oferece suporte a dois tipos de sistema de arquivos: AmazonFSx for Lustre e Amazon FSx for Windows File Server. O Amazon FSx for Lustre é recomendado para a execução de cargas de trabalho em que a velocidade é importante, como machine learning, High Performance Computing (HPC) - Computação de alta performance, processamento de vídeo e modelagem financeira. Já o Amazon FSx for Windows File Server fornece servidores de arquivos do Microsoft Windows totalmente gerenciados, baseadas em um sistema totalmente nativo de arquivos do Windows. https://docs.aws.amazon.com/fsx/latest/WindowsGuide/index.html Serviços de Armazenamento, Banco de Dados e Analytics – Página 13 de 28 Capítulo 3. Banco de Dados na AWS O que é um banco de dados e o que são bancos de dados relacionais? Bancos de dados relacionais existem desde 1970, e são o que a maioria de nós estamos acostumados. Se você usa o Excel, ele é salvo em um arquivo, que pode ser o seu costs.xls, por exemplo. Então, esse é essencialmente o próprio banco de dados e se você entrar no arquivo, terá diferentes planilhas que são tabelas diferentes, e dentro delas você terá linhas e colunas ou campos. Amazon RDS Overview O Amazon Relational Database Service (Amazon RDS) é um serviço web que facilita a configuração, operação e dimensionamento de um banco de dados relacional na AWS. Ele fornece capacidade econômica e redimensionável para um banco de dados relacional padrão do setor e gerencia tarefas comuns de administração de banco de dados. O Amazon RDS é, basicamente, a instância do banco de dados em um ambiente isolado na AWS. Esses tipos de instâncias podem ser criadas e/ou gerenciadas utilizando a AWS Command Line Interface (CLI), a API do Amazon RDS ou o console de gerenciamento da AWS. Capaz conter vários bancos de dados criados pelo usuário. É possível acessar a instância de banco de dados utilizando as mesmas ferramentas e os mesmos aplicativos usados com uma instância tradicional. Cada uma executa um mecanismo de banco de dados. Atualmente, o Amazon RDS oferece suporte aos mecanismos MySQL, MariaDB, PostgreSQL, Oracle e Microsoft SQL Server. Cada mecanismo tem seus próprios recursos com suporte e cada versão pode incluir recursos específicos. Além disso, possuem um conjunto de parâmetros em um parameter group de banco de dados que controlam o comportamento dos bancos de dados que ele gerencia. Serviços de Armazenamento, Banco de Dados e Analytics – Página 14 de 28 Aurora Overview O Amazon Aurora é um mecanismo de banco de dados relacional gerenciado compatível com o MySQL e PostgreSQL. Ele foi desenvolvido para ser completamente compatível com o código, as ferramentas e os aplicativos que você usa atualmente em seus bancos de dados existentes do MySQL e do PostgreSQL. Com algumas cargas de trabalho, o Aurora pode oferecer até cinco vezes a taxa de processamento do MySQL e até três vezes a taxa de processamento do PostgreSQL, sem exigir alterações na maioria dos aplicativos existentes. A camada de armazenamento do Aurora aumenta automaticamente, conforme necessário. Ele também automatiza e padroniza o clustering e a replicação de bancos de dados. Esse mecanismo faz parte de um serviço gerenciado de banco de dados do Amazon Relational Database Service (Amazon RDS). O Amazon RDS é um serviço da web que facilita a configuração, a operação e escalabilidade de um banco de dados relacional na nuvem. Se você não estiver familiarizado com o Amazon RDS, consulte o Guia do usuário do Amazon Relational Database Service. ElastiCache Overview O Amazon ElastiCache é um serviço Web que facilita a configuração, o gerenciamento e o dimensionamento de um armazenamento de dados distribuído na memória ou do ambiente de cache na nuvem. O Elasticache fornece uma solução de armazenamento em cache econômica, de alto desempenho e escalável. Ao mesmo tempo, ele ajuda a remover a complexidade associada à implantação e ao gerenciamento de um ambiente de cache distribuído. https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html Serviços de Armazenamento, Banco de Dados e Analytics – Página 15 de 28 Elasticache for Redis Os aplicativos existentes que usam o Redis podem usar o ElastiCache sem quase nenhuma modificação. Seus aplicativos simplesmente precisam de informações sobre os nomes dos hosts e os números de porta dos nós do ElastiCache que você implantou. Dentre os principais recursos do ElastiCache for Redis estão: ▪ Detecção e recuperação automáticas de falhas de nós de cache. ▪ Multi-AZ de um cluster primário com falha para uma réplica de leitura em clusters do Redis compatíveis com a replicação. ▪ O ElastiCache for Redis gerencia backups, patches de software, detecção automática de falhas e recuperação. Elasticache for Memcached Os aplicativos existentes que utilizam o Memcached podem usar o ElastiCache sem quase nenhuma modificação. Seus aplicativos simplesmente precisam de informações sobre os nomes dos hosts e os números de porta dos nós do ElastiCache que você implantou. O recurso Descoberta automática do ElastiCache para Memcached permite que seus aplicativos identifiquem todos os nós em um cluster de cache e conecte-se a eles. Isso significa que você não precisa manter uma lista de nomes de host e números de porta disponíveis. Dessa forma, seus aplicativos são efetivamente isolados de alterações na associação de nós em um cluster. Dentre os principais recursos do ElastiCache for Memcached estão: ▪ Detecção e recuperação automáticas de falhas de nós de cache. Serviços de Armazenamento, Banco de Dados e Analytics – Página 16 de 28 ▪ Descoberta automática de nós em um cluster habilitado para descoberta automática, para que não seja necessário fazer nenhuma alteração em seu aplicativo ao adicionar ou remover nós. ▪ Colocação flexível de nós e clusters em zonas de disponibilidade. DynamoDB Overview O Amazon DynamoDB é um serviço de banco de dados NoSQL totalmente gerenciado que fornece um desempenho rápido e previsível com escalabilidade integrada. Ele permite que você transfira os encargos administrativos de operação e escalabilidade de um banco de dados distribuído. Assim, você não precisa se preocupar com provisionamento, instalação e configuração de hardware, replicação, correção de software, nem escalabilidade de cluster. Além disso, oferece criptografia em repouso, o que elimina a carga e a complexidade operacionais envolvidas na proteção de dados confidenciais. Com o DynamoDB, você pode aumentar ou diminuir a capacidade de throughput das tabelas sem tempo de inatividade ou degradação do desempenho. O DynamoDB oferece o recurso de backup sob demanda. Permite que você crie backups completos das suas tabelas para retenção e arquivamento de longo prazo de modo a atender às necessidades de conformidade regulamentar. Para mais informações, consulte Backup e restauração sob demanda para o DynamoDB. https://docs.aws.amazon.com/pt_br/amazondynamodb/latest/developerguide/BackupRestore.html Serviços de Armazenamento, Banco de Dados e Analytics – Página 17 de 28 Capítulo 4. Soluções de Data Collection Os dados perdem valor com o tempo. Podemos classificá-los em históricos, que são normalmente armazenados em uma solução de armazenamento de dados, em um banco de dados, ou em dados de streaming. O que é streaming de dados? Streaming de dados, são dados gerados continuamente. Estes podem ser gerados por um ou por milhares de fontes de dados e são normalmente enviados em pequenos registros, simultaneamente, na ordem de kilobytes. Exemplos de dados em streaming: ▪ Sensores em veículos de transporte; ▪ Equipamentos industriais; ▪ Máquinas agrícolas que enviam dados para monitoração; ▪ Dados do mercado de ações em tempo real; ▪ Dados de clickstream. E como colocamos esses dados na AWS? Quando pensamos em obter dados de streamingpara AWS o principal serviço é o Kinesis. O Kinesis não é apenas um serviço, mas sim uma família de serviços distintos e complementares. Kinesis Data Streams Overview O Amazon Kinesis Data Streams é usado para coletar e processar grandes quantidades de dados em tempo real e de forma contínua. Dados processados em tempo real, possuem um processamento geralmente leve. Um uso comum é a agregação em tempo real de dados seguida do carregamento de dados agregados para um data warehouse ou cluster de EMR. Serviços de Armazenamento, Banco de Dados e Analytics – Página 18 de 28 O Kinesis Data Streams garante a durabilidade e a elasticidade. O atraso entre o momento em que um registro é colocado no streaming e o momento em que ele pode ser recuperado (atraso entre put e get) normalmente é de menos de 1 segundo. O aspecto de serviço gerenciado do Kinesis Data Streams libera você do peso operacional de criação e execução de um pipeline de entrada de dados. A elasticidade do Kinesis Data Streams permite escalar o streaming, de maneira que você nunca perca registros de dados antes que eles expirem. Kinesis Data Firehose O Amazon Kinesis Data Firehose é um serviço totalmente gerenciado para fornecimento em tempo real de streaming de dados para destinos como o Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Elasticsearch Service (Amazon ES), Splunk e todos os endpoints HTTP ou HTTP personalizados de propriedade de provedores de serviços terceirizados compatíveis, incluindo Datadog, Dynatrace, LogicMonitor, MongoDB, New Relic e Sumo Logic. MSK: Managed Streaming for Apache Kafka O Amazon Managed Streaming for Apache Kafka (Amazon MSK) é um serviço totalmente gerenciado que permite criar e executar aplicativos que usam o Apache Kafka para processar dados em streaming. Ele fornece as operações do plano de controle, como aquelas para criar, atualizar e excluir clusters. Permite usar operações do plano de dados do Apache Kafka, como aqueles para produzir e consumir dados. E executa versões de código aberto do Apache Kafka. Isso significa que aplicativos, ferramentas e plug-ins existentes de parceiros e da comunidade Apache Kafka são compatíveis sem a necessidade de fazer alterações no código do aplicativo. http://aws.amazon.com/streaming-data/ Serviços de Armazenamento, Banco de Dados e Analytics – Página 19 de 28 O Amazon MSK detecta e recupera automaticamente dos cenários de falha mais comuns para clusters a fim de que os aplicativos de produtor e consumidor possam continuar as operações de gravação e leitura com o menor impacto. Quando o Amazon MSK detecta uma falha de agente, ele mitiga a falha ou substitui o agente não íntegro ou inacessível por um novo. Além disso, sempre que possível, ele reutiliza o armazenamento do agente mais antigo para reduzir os dados que o Apache Kafka precisa replicar. Seu impacto na disponibilidade é limitado ao tempo necessário para o Amazon MSK concluir a detecção e a recuperação. Após uma recuperação, os aplicativos de produtor e consumidor podem continuar se comunicando com os mesmos endereços IP do agente usados antes da falha. Serviços de Armazenamento, Banco de Dados e Analytics – Página 20 de 28 Capítulo 5. Soluções de Processamento de Dados Introdução ao Processamento de Dados na AWS Após a realização da coleta dos dados, precisamos trabalhar com a preparação e análise de dados. Devemos ver nossos dados, interpretá-los e descobrir informações importantes sobre eles. Assim, podemos começar a inferir coisas e tomar melhores decisões de negócios com base nas informações que podemos extrair desses dados. Veremos como o AWS Glue nos auxilia na preparação de dados e ETL. Como podemos usar o Athena para a preparação e análise de dados executando consultas SQL e comoconseguimos usar o QuickSight para interpretação, bem como a descoberta de nossos dados. AWS Glue O AWS Glue é um serviço de ETL (extração, transformação e carregamento) totalmente gerenciado que torna mais fácil e econômico o processo de categorizar dados, limpá-los, aprimorá-los e movê-los de modo confiável entre vários armazenamentos e streams de dados. Ele consiste em um repositório de metadados central, conhecido como AWS Glue Data Catalog, um mecanismo de ETL que gera automaticamente um código Python ou Scala e um programador flexível que lida com resolução de dependências, monitoramento de trabalhos e novas tentativas. Não usa servidor e, portanto, não requer a configuração ou o gerenciamento de uma infraestrutura. É possível usar o console do AWS Glue para descobrir dados, transformá-los e disponibilizá-los para pesquisas e consultas. O console chama os serviços subjacentes de modo a orquestrar o trabalho necessário para transformar seus dados. Serviços de Armazenamento, Banco de Dados e Analytics – Página 21 de 28 É possível usar o AWS Glue para organizar, limpar, validar e formatar dados para armazenamento em um data warehouse ou data lake. Também é possível carregar dados de fontes estáticas ou de streaming diferentes em seu data warehouse ou data lake para geração de relatórios e análises regulares. AWS Athena O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados diretamente no Amazon Simple Storage Service (Amazon S3) usando o padrão SQL. É possível apontar o Athena para os dados armazenados no Amazon S3 e começar a usar o SQL padrão para executar consultas ad-hoc e receber resultados em poucos segundos. Como o Athena não utiliza servidor, não há infraestrutura para configurar ou gerenciar, e você paga apenas pelas consultas executadas. O Athena é escalado automaticamente, executando consultas em paralelo, de maneira que os resultados sejam rápidos, mesmo com conjuntos de dados grandes e consultas complexas. Ele pode analisar dados desestruturados, semiestruturados e estruturados armazenados no Amazon S3. Entre os exemplos estão formatos de dados CSV, JSON ou colunares, como Apache Parquet e Apache ORC. Este serviço se integra ao Amazon QuickSight para uma visualização de dados mais fácil. Você também pode usá-lo para gerar relatórios ou explorar dados com ferramentas de business intelligence ou clientes SQL conectados com um driver JDBC ou ODBC. Integra-se também com o AWS Glue Data Catalog, que oferece um armazenamento de metadados persistente para os dados no Amazon S3. https://docs.aws.amazon.com/pt_br/athena/latest/ug/ddl-sql-reference.html Serviços de Armazenamento, Banco de Dados e Analytics – Página 22 de 28 Amazon QuickSight O Amazon QuickSight é um serviço de business intelligence (BI) em escala de nuvem. Ele se conecta aos seus dados na nuvem e combina dados de muitas fontes diferentes. Em um único painel de dados, o QuickSight pode incluir dados da AWS, dados de terceiros, big data, dados de planilha, dados SaaS, dados B2B e muito mais. Como um serviço totalmente gerenciado baseado em nuvem, o Amazon QuickSight oferece segurança de nível empresarial, disponibilidade global e redundância integrada. Ele também fornece as ferramentas de gerenciamento de usuários que você precisa para dimensionar de 10 usuários para 10.000, tudo sem infraestrutura para implantar e gerenciar. O QuickSight oferece aos tomadores de decisão a oportunidade de explorar e interpretar informações em um ambiente visual interativo. Eles têm acesso seguro aos painéis a partir de qualquer dispositivo em sua rede e de dispositivos móveis. Serviços de Armazenamento, Banco de Dados e Analytics – Página 23 de 28 Capítulo 6. AWS AI/ML Tools O aprendizado de máquina (ML) está promovendo melhores experiências dos clientes, operações de negócios mais eficientes e tomada de decisões mais rápidas e precisas. Com o aumento do poder computacional e a proliferação de dados, a MLpassou da periferia para ser um diferencial central para empresas e organizações em todos os setores. O Gartner prevê que os valores de negócios derivados da Inteligência Artificial (AI) atinjam US$3,9 trilhões, em 2022. Há casos de uso de ML que podem ser aplicados à maioria das empresas, como recomendações personalizadas de produtos e conteúdo, inteligência de contact center, verificação de identidade virtual e processamento inteligente de documentos. E há casos de uso personalizados criados para uma indústria específica, como ensaios clínicos em farmacêutica ou controle de qualidade da linha de montagem na fabricação. A AWS fornece o mais amplo e profundo conjunto de serviços de ML e AI do mercado. Figura 2 - Stack de serviços de AI/ML da AWS. Fonte: https://www.youtube.com/watch?v=PjDysgCvRqY. Serviços de Armazenamento, Banco de Dados e Analytics – Página 24 de 28 Na camada superior estão os serviços de IA, que permitem aos desenvolvedores adicionar inteligência a qualquer aplicativo sem a necessidade de habilidades de ML. Os modelos pré-treinados fornecem inteligência pronta para seus aplicativos e fluxos de trabalho para ajudá-lo a fazer coisas como personalizar a experiência do cliente, prever métricas de negócios, traduzir conversas, extrair significado de documentos e muito mais. Na camada intermediária está o Amazon SageMaker, que fornece a cada desenvolvedor e cientista de dados a capacidade de construir, treinar e implantar modelos de aprendizado de máquina em escala. Ele remove a complexidade de cada etapa do fluxo de trabalho de aprendizado de máquina para que você possa implantar mais facilmente seus casos de uso de aprendizado de máquina, desde manutenção preditiva até visão computacional e previsão de comportamentos do cliente. E na camada inferior, os profissionais especializados podem desenvolver na estrutura de sua escolha como uma experiência gerenciada no Amazon SageMaker ou usar as AMIs de aprendizado profundo da AWS (imagens de máquina da Amazon), que são totalmente configuradas com as versões mais recentes do aprendizado profundo mais popular, estruturas e ferramentas. Seguem exemplos dos serviços de que AI/ML visam o atendimento de necessidades, indústrias ou casos de uso específicos: Os serviços de IA industrial são projetados para ajudar clientes na manufatura, agricultura, energia ou outras indústrias pesadas. Amazon HealthLake é feito especificamente para clientes de saúde e ciências da vida. Vision - (Rek Image e vídeo) - Utilize o Rekognition para responder perguntas como: "diga-me o que há nesta imagem", "quais celebridades estão nesta imagem" e "esta imagem é segura para o trabalho?". Serviços de Armazenamento, Banco de Dados e Analytics – Página 25 de 28 Fala - (Polly, Transcribe) - o Polly é utilizado para transformar texto em fala e para transcrever áudio, utilize o Transcribe. Text (translate, comprehend, textract) - O Translate é utilizado para traduzir texto para diferentes idiomas. Uma vez traduzidos, com auxilio do Comprehendé é possível entender o que está sendo dito nos textos traduzidos. Para extração de textos de documentos usando OCR ++, a ferramenta certa é o Textract. Um dos produtos mais famosos da Amazon é a Alexa e seus chatbots com Lex. Os clientes nos pediram para continuar a considerar a adição de serviços em áreas onde temos muita experiência e dados de nosso negócio de consumo. O Amazon Fraud Detector é um serviço de gerenciamento de fraudes para detectar fraudes de identidade e pagamento on-line em tempo real. Amazon CodeGuru é um novo serviço de aprendizado de máquina para automatizar revisões de código. O Contact Lens for Amazon Connect fornece análises de contact center com tecnologia de aprendizado de máquina para o Amazon Connect. Amazon Kendra é um serviço que reinventa a pesquisa corporativa, a gestão do conhecimento e de documentos com aprendizado de máquina. Já o Amazon SageMaker é um serviço end-to-end para aprendizado de máquina. É gerenciado para cientistas de dados e equipes de operações de ML que ajuda a remover o trabalho pesado indiferenciado associado ao aprendizado de máquina, para que você, por sua vez, tenha mais tempo, recursos e energia para se concentrar em seus negócios. Em primeiro lugar, o SageMaker fornece aos usuários um ambiente de trabalho integrado de ferramentas reunidas em um só lugar através do SageMaker Studio. Os usuários podem iniciar Jupyter Notebooks e ambientes Jupyter Lab instantaneamente através do SageMaker Studio. Ele também fornece gerenciamento completo de experimentos, preparação de dados e automação e orquestração de pipeline para ajudar a tornar os cientistas de dados mais produtivos. Serviços de Armazenamento, Banco de Dados e Analytics – Página 26 de 28 Um Notebook Jupyter precisa de um ambiente de computação para funcionar. O SageMaker fornece servidores totalmente gerenciados na nuvem para tornar isso fácil para cientistas e desenvolvedores de dados. Mas, além dos notebooks, o SageMaker também oferece outros recursos de infraestrutura gerenciada. De tarefas de treinamento distribuídas, tarefas de processamento de dados e até mesmo hospedagem de modelos, o SageMaker cuida de todo o dimensionamento, patching, alta disponibilidade etc. associados à construção, treinamento e modelos de hospedagem. Existem ferramentas no SageMaker que ajudam a tornar os cientistas de dados mais produtivos. O que você verá é que esta bancada de trabalho integrada, assentada em uma infraestrutura gerenciada, também é enriquecida por um enorme ecossistema de ferramentas, todas criadas especificamente para ML e projetadas desde o início para funcionarem juntas. Serviços de Armazenamento, Banco de Dados e Analytics – Página 27 de 28 Referências AWS. Serviços de Storage. Disponível em: <https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage- services.html>. Acesso em: 18 ago. 2021. AWS. What Is Amazon SageMaker?. Disponível em <https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html>. Acesso em: 18 ago. 2021. AWS. Big Data blog posts. Disponível em <https://aws.amazon.com/pt/blogs/big- data/>. Acesso em: 18 ago. 2021. AWS. Get started with Amazon ElastiCache. Disponível em <https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache- for-redis-and-memcached-introducing-the-elasticache-learning-path/>. Acesso em: 18 ago. 2021. AWS. AWS Snow Family Documentation. Disponível em <https://docs.aws.amazon.com/snowball/?id=docs_gateway>. Acesso em: 18 ago. 2021. AWS. AWS Storage Gateway Documentation. Disponível em <https://docs.aws.amazon.com/storagegateway/?id=docs_gateway>. Acesso em: 18 ago. 2021. AWS. AWS QuickSight Documentation. Disponível em <https://docs.aws.amazon.com/quicksight/?id=docs_gateway>. Acesso em: 18 ago. 2021. AWS. Data warehouse na AWS. Mar. 2016. Disponível em <https://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on- aws.pdf?did=wp_card&trk=wp_card>. Acesso em: 18 ago. 2021. https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-services.html https://docs.aws.amazon.com/whitepapers/latest/aws-overview/storage-services.html https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html https://aws.amazon.com/pt/blogs/big-data/ https://aws.amazon.com/pt/blogs/big-data/ https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-for-redis-and-memcached-introducing-the-elasticache-learning-path/ https://aws.amazon.com/pt/blogs/database/get-started-with-amazon-elasticache-for-redis-and-memcached-introducing-the-elasticache-learning-path/ https://docs.aws.amazon.com/snowball/?id=docs_gateway https://docs.aws.amazon.com/storagegateway/?id=docs_gateway https://docs.aws.amazon.com/quicksight/?id=docs_gateway https://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-aws.pdf?did=wp_card&trk=wp_cardhttps://d1.awsstatic.com/whitepapers/pt_BR/enterprise-data-warehousing-on-aws.pdf?did=wp_card&trk=wp_card Serviços de Armazenamento, Banco de Dados e Analytics – Página 28 de 28 AWS. Hosting Static Websites on AWS. Mai. 2021. Disponível em <https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20A WS.pdf?did=wp_card&trk=wp_card>. Acesso em: 18 ago. 2021. https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20AWS.pdf?did=wp_card&trk=wp_card https://d1.awsstatic.com/whitepapers/Building%20Static%20Websites%20on%20AWS.pdf?did=wp_card&trk=wp_card
Compartilhar