Buscar

N1-Coleta e Integração de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Com a grande quantidade de informações que circulam por aí, as organizações
dependem de dados para que possam obter prevenção de riscos, se antecipar às
tendências do mercado, planejar os requisitos futuros, entender os consumidores e
tomar decisões de negócios. É justamente para isso que a ingestão de dados, que
nada mais é do que a obtenção e extração de diferentes informações cujas fontes
também são diversas, é essencial, pois possibilita às empresas rapidez no acesso aos
dados corporativos (NAEEM, 2020).
Para isso, primeiro é necessário que exista uma fonte com esses dados.
Algumas fontes de origem podem ser citadas, como: planilhas, extração de dados da
web ou web scraping - termo utilizado para definir o ato de garimpar informações
relevantes de determinado site para depois serem analisadas (MORAES, 2018) -,
aplicativos internos e Software as a Service (SaaS) dados (NAEEM, 2020).
Em seguida, após a coleta, se faz necessário o armazenamento em locais de
fácil e rápido acesso, já que tais informações costumam ser cruciais nas tomadas de
decisões das organizações. Além disso, as informações e seus dados mudam muito
rapidamente, então a ingestão necessita de atualizações em tempo real; assim que os
dados são extraídos precisam passar pelo processo natural de coleta, processamento
e armazenamento. Para isso geralmente se utilizam softwares como o Kimono
(https://www.kimonolabs.com) onde é possível, além de extrair muito facilmente
conteúdos de sites, construir sua própria API. Além deste, existe o DataMelt
(https://datamelt.org/) e outros que costumam ser baseados em linguagem R.
É comum que após a ingestão de grande quantidades de dados brutos, o que
pode ser classificado como Data Lake que, conceitualmente, é um repositório cuja
arquitetura suporta grandes quantidades de dados de diferentes fontes e formatos. No
ambiente organizacional, uma arquitetura de Fast Data pois geralmente lidam com
informações em tempo real e, portanto, processo de ingestão é assíncrono.
https://www.kimonolabs.com
https://datamelt.org/
Referências
MORAES, D. Descubra o que é Web Scraping e como isso pode ajudar a sua
estratégia digital. rocketcontent, 2018. Disponivel em:
<https://rockcontent.com/br/blog/web-scraping/>. Acesso em: 7 nov. 2021.
NAEEM, T. Ingestão de dados - definição, desafios e práticas recomendadas. Astera,
2020. Disponivel em:
<https://www.astera.com/pt/tipo/blog/ingest%C3%A3o-de-dados/>. Acesso em: 7
Novembro 2021.

Continue navegando