Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Universidade Federal de Goiás – UFG
Bacharelado em Inteligência Artificial – BIA
Processamento de Dados Massivos – 2025/2
Lista de Exercícios – Prova teórica
(Prof. Sávio S. Teles de Oliveira)
1. Detalhe as diferenças arquiteturais entre o Spark e o Hadoop e como essas diferenças afetam o
desempenho. Como o Spark supera as limitações de desempenho do Hadoop?
2. Descreva o conceito de RDD (Resilient Distributed Dataset) do Spark. Explique como as operações
de transformação e ação funcionam nos RDDs e como a característica de tolerância a falhas é alcançada
com os RDDs.
3. Compare os modelos de Sistemas de Fila de Mensagens e Publish-Subscriber, explicando as dife-
renças entre a comunicação ponto-a-ponto e um-para-muitos. Apresente um cenário de negócios onde a
utilização de um Sistemas de Fila de Mensagens seria mais adequada e outro onde um sistema Publish-
Subscriber seria a melhor escolha.
4. Considere uma rede social que gera 500 terabytes de dados por dia, incluindo textos, imagens e
vídeos. Considere que esses dados são gerados continuamente, com uma média de milhões de mensagens
por minuto e picos de atividade que podem chegar a dezenas de milhões ao longo do dia. Discuta como
este volume de dados diário afeta:
a) A escolha da infraestrutura de armazenamento.
b) As estratégias de processamento em batch versus tempo real.
c) O custo-benefício entre manter dados históricos versus dados recentes.
5. O processo de Data Literacy, ou alfabetização de dados, é importante para que as organizações
extraiam valor dos dados coletados. Descreva os diferentes níveis de maturidade Data-Driven.
6. Uma empresa de varejo online precisa desenvolver duas funcionalidades distintas. A primeira é
a geração de um relatório consolidado com o total de vendas do dia anterior e a segunda é um sistema
que analise e bloqueie transações fraudulentas com cartão de crédito no momento em que elas ocorrem.
Considerando essas necessidades, descreva qual modelo de processamento de dados seria o mais indicado
para cada funcionalidade: 1) processamento em lote ou 2) fluxo de dados. Justifique sua escolha para cada
caso, explicando como os requisitos de latência, volume de dados e os objetivos de negócio influenciam na
decisão.
1
7. Compare as camadas Bronze, Silver e Gold da Arquitetura Medallion, explicando o propósito de
cada uma e como elas se complementam para garantir a qualidade e a integridade dos dados.
8. O armazenamento colunar é uma característica de Data Warehouses modernos como o BigQuery.
Explique por que essa abordagem de armazenamento é mais eficiente para consultas analíticas do que o
tradicional armazenamento orientado a linhas. Sua explicação deve abordar os impactos na I/O de disco, na
compressão de dados e na performance de funções de agregação sobre grandes volumes de dados.
9. Diferencie ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform) considerando suas
etapas, vantagens e desvantagens. Em que situações cada um deles é mais indicado?
10. Diferencie as arquiteturas de Data Warehouse e Data Lake, abordando as características principais,
os tipos de dados que cada um pode armazenar e as aplicações mais comuns. Analise em quais cenários o
uso de um Data Warehouse é preferível ao de um Data Lake e vice-versa.
11. Em que contexto a separação de armazenamento e processamento, como adotado pelo Google
BigQuery, pode trazer benefícios para o ambiente de um Data Warehouse com grandes volumes de dados?
Descreva os impactos dessa separação em termos de: custo, escalabilidade e desempenho no processamento
de grandes volumes de dados.
12. Na modelagem dimensional, qual é a função das Tabelas Fato e das Tabelas Dimensão? Descreva a
natureza dos dados contidos em cada tipo de tabela e como elas se relacionam em um Esquema Estrela.
2

Mais conteúdos dessa disciplina