Prévia do material em texto
Universidade Federal de Goiás – UFG Bacharelado em Inteligência Artificial – BIA Processamento de Dados Massivos – 2025/2 Lista de Exercícios – Prova teórica (Prof. Sávio S. Teles de Oliveira) 1. Detalhe as diferenças arquiteturais entre o Spark e o Hadoop e como essas diferenças afetam o desempenho. Como o Spark supera as limitações de desempenho do Hadoop? 2. Descreva o conceito de RDD (Resilient Distributed Dataset) do Spark. Explique como as operações de transformação e ação funcionam nos RDDs e como a característica de tolerância a falhas é alcançada com os RDDs. 3. Compare os modelos de Sistemas de Fila de Mensagens e Publish-Subscriber, explicando as dife- renças entre a comunicação ponto-a-ponto e um-para-muitos. Apresente um cenário de negócios onde a utilização de um Sistemas de Fila de Mensagens seria mais adequada e outro onde um sistema Publish- Subscriber seria a melhor escolha. 4. Considere uma rede social que gera 500 terabytes de dados por dia, incluindo textos, imagens e vídeos. Considere que esses dados são gerados continuamente, com uma média de milhões de mensagens por minuto e picos de atividade que podem chegar a dezenas de milhões ao longo do dia. Discuta como este volume de dados diário afeta: a) A escolha da infraestrutura de armazenamento. b) As estratégias de processamento em batch versus tempo real. c) O custo-benefício entre manter dados históricos versus dados recentes. 5. O processo de Data Literacy, ou alfabetização de dados, é importante para que as organizações extraiam valor dos dados coletados. Descreva os diferentes níveis de maturidade Data-Driven. 6. Uma empresa de varejo online precisa desenvolver duas funcionalidades distintas. A primeira é a geração de um relatório consolidado com o total de vendas do dia anterior e a segunda é um sistema que analise e bloqueie transações fraudulentas com cartão de crédito no momento em que elas ocorrem. Considerando essas necessidades, descreva qual modelo de processamento de dados seria o mais indicado para cada funcionalidade: 1) processamento em lote ou 2) fluxo de dados. Justifique sua escolha para cada caso, explicando como os requisitos de latência, volume de dados e os objetivos de negócio influenciam na decisão. 1 7. Compare as camadas Bronze, Silver e Gold da Arquitetura Medallion, explicando o propósito de cada uma e como elas se complementam para garantir a qualidade e a integridade dos dados. 8. O armazenamento colunar é uma característica de Data Warehouses modernos como o BigQuery. Explique por que essa abordagem de armazenamento é mais eficiente para consultas analíticas do que o tradicional armazenamento orientado a linhas. Sua explicação deve abordar os impactos na I/O de disco, na compressão de dados e na performance de funções de agregação sobre grandes volumes de dados. 9. Diferencie ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform) considerando suas etapas, vantagens e desvantagens. Em que situações cada um deles é mais indicado? 10. Diferencie as arquiteturas de Data Warehouse e Data Lake, abordando as características principais, os tipos de dados que cada um pode armazenar e as aplicações mais comuns. Analise em quais cenários o uso de um Data Warehouse é preferível ao de um Data Lake e vice-versa. 11. Em que contexto a separação de armazenamento e processamento, como adotado pelo Google BigQuery, pode trazer benefícios para o ambiente de um Data Warehouse com grandes volumes de dados? Descreva os impactos dessa separação em termos de: custo, escalabilidade e desempenho no processamento de grandes volumes de dados. 12. Na modelagem dimensional, qual é a função das Tabelas Fato e das Tabelas Dimensão? Descreva a natureza dos dados contidos em cada tipo de tabela e como elas se relacionam em um Esquema Estrela. 2