Prévia do material em texto
INGESTÃO DE DADOS EM CLOUD, A SOLUÇÃO GERENCIADA E SIMPLIFICADA Muito tem se falado em Big Data e plataforma de dados recentemente, isso acontece pois estamos em um mundo cada vez mais competitivo onde os dados possuem um valor inestimável pois apoiam líderes e executivos em tomadas de decisão assertivas que podem levar suas companhias a cada vez ter mais sucesso. Este conteúdo pretende abordar como tomamos decisões estratégicas para implantar uma plataforma de dados que tenham sucesso na ingestão, processamento e apresentação de dados de forma ágil garantindo os devidos protocolos de segurança. Nesse aspecto será abordado o uso de um provedor de Cloud ao invés de inúmeras análises de ferramentas Open Source que são implantadas em estruturas on premisse, pelo simples fato de que cada vez vale menos a pena ter custo para gerenciar este tipo de arquitetura. Como ações estratégicas será abordado uma POC com provedores de Cloud com soluções gerenciadas, definição de stack de ferramentas e arquitetura, abordado o conceito de data lake house para garantir o bom processamento de dados e como monitorar uma plataforma de dados em Cloud. Lembrando que os maiores provedores de Cloud, como AWS, Azure e Google Cloud Plataform são famosos por garantir de forma nativa todos os padrões e protocolos de segurança aplicados atualmente no mundo de SI, não sendo este fator de grande preocupação no cenário desenhado, mas sempre item que demandará atenção prática e analítica em momentos de implantação. Vejamos a tendência segundo um artigo da Tecmundo: “Segundo um estudo da IDC, quase 70% de todos os gastos com TI na América Latina irão para tecnologias relacionadas à computação em nuvem (Cloud computing) e Big Data até 2022. O motivo? As inúmeras possibilidades de negócio para quem confia na combinação dessas ferramentas”. (Equipe TecMundo, 2019). A primeira ação estratégica a ser tomada após o mapeamento inicial que já ocorreu seria realizar uma prova de conceito com os principais provedores de Cloud Computing, podemos citar AWS, Azure e GCP como exemplos. Este tipo de ação nos permite ver os pacotes de soluções serem aplicados na prática com uma amostra de dados já usados pela própria companhia, dessa forma testando o ecossistema de cada provedor na alta variedade que o cenário do case nos proporciona. Todos os provedores possuem ferramentas que atendem às necessidades citadas no caso, porém vamos abordar brevemente a arquitetura do GCP, Google Cloud Platforma para exemplificar como poderíamos atuar. Em um cenário onde temos grande volume e variedade tanto de tipos de dados como de fontes de dados (sistemas transacionais, mídias sociais, webservices, etc) o ideal seria aplicarmos uma solução de Data Lake House, pois através da ingestão de dados em processos ELT, realizando sempre a carga bruta dos dados (raw) para um lake, garantimos o bom desempenho e baixo custo de nossa arquitetura, inclusive para dados em tempo real e/ou streaming. Abaixo temos uma figura com o tipo de arquitetura proposto: Figura 1: evoluindo para a arquitetura de data lake house Na solução do GCP, temos a ferramenta pubsub para aplicação de mensageria disponível para soluções de processamento em tempo real ou streaming, temos o Dataproc para gerenciamento de soluções clusterizadas para alto processamento de dados, o cloud composer para orquestração de processos de carga e ingestão e o Big query para soluções de consultas no Lakehouse por parte de analistas e cientistas de dados. Podemos finalizar abordando como monitorar tal plataforma extremamente eficaz, podemos citar alguns KPIs importantes a nível de transação, são eles: tempo médio da transação, tempo médio de latência da transação, transações por dia e o total de logs com falha. Desta forma monitorando tanto desempenho como qualidade dos jobs e seus triggers e schedulles. Com base em inúmeras evidências, em pleno ano de 2021 fica muito difícil defender o uso de qualquer estrutura on premisse, principalmente quando falamos de grandes corporações com imensos volumes de dados. REFERÊNCIAS SANTOS, R.R.D.; BORDIN, M.V.; NUNES, S.E.; AL., E. Fundamentos de Big Data. [Digite o Local da Editora]: Grupo A, 2021. 9786556901749. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9786556901749/. Acesso em: 13 Nov 2021 PEREIRA, M.A.; NEUMANN, F.B.; MILANI, A.M.P.; AL., E. Framework de Big Data. [Digite o Local da Editora]: Grupo A, 2020. 9786556900803. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9786556900803/. Acesso em: 13 Nov 2021 TECMUNDO, Blog. Como usufruir do seu Big Data com a computação em nuvem. tecmundo.com.br, 22 de mar. de 2019. Disponível em: <https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuve m.htm> . Acesso em: 13 de nov. de 2021. COMPASS.UOL, Blog. Gerenciamento de dados: dos dados ao Lakehouse. blog.compass.uol.com.br, 02 de jun. de 2021. Disponível em: <https://blog.compass.uol/tech/gerenciamento-de-dados-dos-dados-ao-lakehouse/> . Acesso em: 13 de nov. de 2021. FUTURE OF CIO, Blogspot. KPIs ou CSFs para arquitetura de dados. futureofcio.blogspot.com, 10 de jun. de 2021. Disponível em: <http://futureofcio.blogspot.com/2013/09/kpis-or-csfs-for-data-architecture.html> . Acesso em: 13 de nov. de 2021. https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuvem.htm https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuvem.htm https://blog.compass.uol/tech/gerenciamento-de-dados-dos-dados-ao-lakehouse/ http://futureofcio.blogspot.com/2013/09/kpis-or-csfs-for-data-architecture.html