Buscar

Dissertacao Coleta e integracao de dados


Prévia do material em texto

INGESTÃO DE DADOS EM CLOUD, A SOLUÇÃO GERENCIADA E SIMPLIFICADA
Muito tem se falado em Big Data e plataforma de dados recentemente,
isso acontece pois estamos em um mundo cada vez mais competitivo onde os
dados possuem um valor inestimável pois apoiam líderes e executivos em tomadas
de decisão assertivas que podem levar suas companhias a cada vez ter mais
sucesso. Este conteúdo pretende abordar como tomamos decisões estratégicas
para implantar uma plataforma de dados que tenham sucesso na ingestão,
processamento e apresentação de dados de forma ágil garantindo os devidos
protocolos de segurança. Nesse aspecto será abordado o uso de um provedor de
Cloud ao invés de inúmeras análises de ferramentas Open Source que são
implantadas em estruturas on premisse, pelo simples fato de que cada vez vale
menos a pena ter custo para gerenciar este tipo de arquitetura. Como ações
estratégicas será abordado uma POC com provedores de Cloud com soluções
gerenciadas, definição de stack de ferramentas e arquitetura, abordado o conceito
de data lake house para garantir o bom processamento de dados e como monitorar
uma plataforma de dados em Cloud. Lembrando que os maiores provedores de
Cloud, como AWS, Azure e Google Cloud Plataform são famosos por garantir de
forma nativa todos os padrões e protocolos de segurança aplicados atualmente no
mundo de SI, não sendo este fator de grande preocupação no cenário desenhado,
mas sempre item que demandará atenção prática e analítica em momentos de
implantação. Vejamos a tendência segundo um artigo da Tecmundo:
“Segundo um estudo da IDC, quase 70% de todos os gastos com TI
na América Latina irão para tecnologias relacionadas à computação
em nuvem (Cloud computing) e Big Data até 2022. O motivo? As
inúmeras possibilidades de negócio para quem confia na combinação
dessas ferramentas”. (Equipe TecMundo, 2019).
A primeira ação estratégica a ser tomada após o mapeamento inicial que já
ocorreu seria realizar uma prova de conceito com os principais provedores de Cloud
Computing, podemos citar AWS, Azure e GCP como exemplos. Este tipo de ação
nos permite ver os pacotes de soluções serem aplicados na prática com uma
amostra de dados já usados pela própria companhia, dessa forma testando o
ecossistema de cada provedor na alta variedade que o cenário do case nos
proporciona. Todos os provedores possuem ferramentas que atendem às
necessidades citadas no caso, porém vamos abordar brevemente a arquitetura do
GCP, Google Cloud Platforma para exemplificar como poderíamos atuar.
Em um cenário onde temos grande volume e variedade tanto de tipos de
dados como de fontes de dados (sistemas transacionais, mídias sociais,
webservices, etc) o ideal seria aplicarmos uma solução de Data Lake House, pois
através da ingestão de dados em processos ELT, realizando sempre a carga bruta
dos dados (raw) para um lake, garantimos o bom desempenho e baixo custo de
nossa arquitetura, inclusive para dados em tempo real e/ou streaming. Abaixo temos
uma figura com o tipo de arquitetura proposto:
Figura 1: evoluindo para a arquitetura de data lake house
Na solução do GCP, temos a ferramenta pubsub para aplicação de
mensageria disponível para soluções de processamento em tempo real ou
streaming, temos o Dataproc para gerenciamento de soluções clusterizadas para
alto processamento de dados, o cloud composer para orquestração de processos de
carga e ingestão e o Big query para soluções de consultas no Lakehouse por parte
de analistas e cientistas de dados.
Podemos finalizar abordando como monitorar tal plataforma extremamente
eficaz, podemos citar alguns KPIs importantes a nível de transação, são eles: tempo
médio da transação, tempo médio de latência da transação, transações por dia e o
total de logs com falha. Desta forma monitorando tanto desempenho como qualidade
dos jobs e seus triggers e schedulles.
Com base em inúmeras evidências, em pleno ano de 2021 fica muito difícil
defender o uso de qualquer estrutura on premisse, principalmente quando falamos
de grandes corporações com imensos volumes de dados.
REFERÊNCIAS
SANTOS, R.R.D.; BORDIN, M.V.; NUNES, S.E.; AL., E. Fundamentos de
Big Data. [Digite o Local da Editora]: Grupo A, 2021. 9786556901749. Disponível
em: https://integrada.minhabiblioteca.com.br/#/books/9786556901749/. Acesso em:
13 Nov 2021
PEREIRA, M.A.; NEUMANN, F.B.; MILANI, A.M.P.; AL., E. Framework de Big
Data. [Digite o Local da Editora]: Grupo A, 2020. 9786556900803. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9786556900803/. Acesso em: 13
Nov 2021
TECMUNDO, Blog. Como usufruir do seu Big Data com a computação
em nuvem. tecmundo.com.br, 22 de mar. de 2019. Disponível em:
<https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuve
m.htm> . Acesso em: 13 de nov. de 2021.
COMPASS.UOL, Blog. Gerenciamento de dados: dos dados ao
Lakehouse. blog.compass.uol.com.br, 02 de jun. de 2021. Disponível em:
<https://blog.compass.uol/tech/gerenciamento-de-dados-dos-dados-ao-lakehouse/> .
Acesso em: 13 de nov. de 2021.
FUTURE OF CIO, Blogspot. KPIs ou CSFs para arquitetura de dados.
futureofcio.blogspot.com, 10 de jun. de 2021. Disponível em:
<http://futureofcio.blogspot.com/2013/09/kpis-or-csfs-for-data-architecture.html> .
Acesso em: 13 de nov. de 2021.
https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuvem.htm
https://www.tecmundo.com.br/mercado/139695-usufruir-big-data-computacao-nuvem.htm
https://blog.compass.uol/tech/gerenciamento-de-dados-dos-dados-ao-lakehouse/
http://futureofcio.blogspot.com/2013/09/kpis-or-csfs-for-data-architecture.html