Prévia do material em texto
TEMA 3 – OBTENÇÃO E ARMAZENAMENTO DE DADOS A obtenção e o armazenamento de dados são etapas cruciais em projetos de Big Data, envolvendo estratégias de captura e utilização de dados internos, externos e de diversas fontes, como sensores e ações sociais. A escolha da melhor abordagem para armazenar esses dados depende de fatores como escalabilidade, disponibilidade e flexibilidade, levando em consideração as limitações dos bancos de dados relacionais tradicionais e as vantagens das soluções NoSQL. by Yasmim Cedro https://gamma.app 3.1 Obtenção de dados 1 Dados internos Dados já existentes dentro da empresa, provenientes de sistemas de gerenciamento, automação de marketing, CRM, ERP, intranet, documentos corporativos, e registros de log. 2 Dataficação Transformação de ações sociais em dados quantificados para monitoramento em tempo real e análises preditivas. 3 Dados de sensores Dados coletados em tempo real de dispositivos IoT, como medidores inteligentes, sensores de carros, câmeras de vigilância, entre outros. 4 Dados de fontes externas Dados obtidos de domínio público ou de sites de terceiros, muitas vezes acessados via APIs REST, em formatos como JSON. https://gamma.app 3.2 Armazenamento Escalabilidade Capacidade de um sistema de manter seu desempenho à medida que a carga aumenta. Bancos de dados tradicionais escalam verticalmente (adicionando mais recursos a um único servidor), mas essa abordagem pode se tornar cara e insuficiente para grandes volumes de dados. Disponibilidade Alta disponibilidade significa que um sistema permanece operacional mesmo em caso de falhas. Para isso, deve-se priorizar a continuidade do serviço sobre outras propriedades ACID. Flexibilidade Capacidade de um sistema de lidar com uma diversidade de dados. Modelar dados de forma antecipada pode ser inviável, especialmente com dados não estruturados. https://gamma.app 3.3 NoSQL Bancos de dados orientados a chave-valor Modelos simples que associam uma chave a um valor. Não exigem esquema predefinido e são ideais para armazenamento em cache, mas têm limitação nas consultas, que só podem ser feitas pela chave. Bancos de dados orientados a documentos Extensão dos bancos chave-valor, onde o valor é um documento em formato JSON, XML, YAML, ou binário. Suportam operações CRUD e permitem consultas e filtros sobre os valores armazenados, além de alta disponibilidade por replicação de dados. Bancos de dados orientados a colunas Otimizados para buscas em grandes volumes de dados. Armazenam dados em colunas, permitindo flexibilidade e alta disponibilidade. São ideais para soluções que necessitam de alto desempenho e flexibilidade na inclusão de campos. Bancos de dados orientados a grafos Úteis quando as relações entre os dados são mais importantes que os dados em si. Armazenam informações em vértices e arestas, representando entidades e suas relações. São ideais para redes de dados complexas. https://gamma.app 3.4 Governança de dados Arquitetura dos dados Define o modelo para gerenciar ativos de dados e padronizar elementos de conjuntos de dados. Auditoria Permite rastrear a criação, uso e impactos dos dados. Metadados Dados sobre outros dados que melhoram a acessibilidade e rastreabilidade. Gerenciamento de dados-mestre (MDM) Estabelece dados-mestre precisos e consistentes em toda a empresa. https://gamma.app 3.4 Governança de dados (cont.) Modelagem dos dados Evita redundâncias e define como os dados serão utilizados. Qualidade dos dados Processos para aperfeiçoar a qualidade dos dados. Segurança Gestão de riscos na coleta, armazenamento, processamento e análise dos dados, utilizando criptografia e políticas de proteção. https://gamma.app Importância da Governança de Dados A governança de dados é essencial para garantir a veracidade e o valor dos dados em soluções de Big Data, permitindo a criação de modelos de negócios inovadores e eficientes. https://gamma.app Conclusão A obtenção e o armazenamento de dados são etapas cruciais em projetos de Big Data. A escolha da melhor abordagem para armazenar esses dados depende de fatores como escalabilidade, disponibilidade e flexibilidade, levando em consideração as limitações dos bancos de dados relacionais tradicionais e as vantagens das soluções NoSQL. A governança de dados é essencial para garantir a veracidade e o valor dos dados em soluções de Big Data, permitindo a criação de modelos de negócios inovadores e eficientes. https://gamma.app