Uma empresa multinacional de streaming de vídeo opera uma infrae4) Uma empresa de e-commerce coletou dados de comportamento de compra de seus clientes

Question

Uma empresa multinacional de streaming de vídeo opera uma infrae4) Uma empresa de e-commerce coletou dados de comportamento de compra de seus clientes durante os últimos três anos, incluindo informações demográficas, histórico de transações, produtos visualizados, tempo gasto no site e feedback de satisfação. O conjunto de dados contém 2 milhões de registros com 45 variáveis, incluindo dados numéricos, categóricos e temporais. A equipe de ciência de dados foi encarregada de extrair insights sobre padrões de compra sazonal, segmentação de clientes, eficácia de campanhas de marketing e previsão de churn. Para isso, eles precisam utilizar ferramentas estatísticas e computacionais apropriadas para lidar com a complexidade e volume dos dados. Durante a análise exploratória inicial, a equipe identificou problemas como valores ausentes (15% dos registros), outliers em dados de transação, assimetria em distribuições de gastos, correlações não-lineares entre variáveis e necessidade de normalização para diferentes escalas de medidas. Eles precisam escolher as técnicas mais adequadas para cada tipo de análise. Considerando as ferramentas disponíveis (Python com pandas, scikit-learn, scipy; R com tidyverse, caret; SQL para agregações; Spark para processamento distribuído), avalie as seguintes afirmativas sobre interpretação de dados: I. Para análise de padrões sazonais em séries temporais de vendas, a decomposição STL (Seasonal and Trend decomposition using Loess) seria mais apropriada que análise de correlação linear simples, pois separa componentes de tendência, sazonalidade e ruído. II. Para identificar segmentos de clientes com base em múltiplas variáveis comportamentais, algoritmos de clustering como K-means devem sempre ser aplicados diretamente nos dados brutos sem normalização prévia para preservar as escalas originais das variáveis. III. Para análise de correlações não-lineares entre variáveis, o coeficiente de correlação de Spearman seria mais informativo que o coeficiente de Pearson, especialmente quando as relações são monotônicas mas não necessariamente lineares. IV. Para tratamento de valores ausentes em variáveis numéricas com distribuição assimétrica, a imputação por mediana seria mais robusta que a imputação por média, pois é menos sensível a outliers. Considerando o contexto apresentado, é correto o que se afirma em: Selecione uma alternativa: a) I, II e IV. b) II e IV. c) I, II e III. d) I, III e IV. e) I, II, III e IV.strutura distribuída globalmente, com data centers em múltiplos continentes para garantir baixa latência e alta disponibilidade para seus milhões de usuários. O sistema processa petabytes de dados diariamente e deve manter operação contínua mesmo durante falhas de hardware, problemas de rede ou sobrecarga de tráfego. A arquitetura atual utiliza microserviços distribuídos com replicação de dados, load balancers, cache distribuído e mecanismos de failover automático. Recentemente, a empresa enfrentou vários incidentes que expuseram vulnerabilidades nos mecanismos de tolerância a falhas: um data center ficou inacessível por 6 horas devido a problemas de conectividade, outro apresentou degradação de performance por falha em disco, e um terceiro sofreu sobrecarga durante um evento de alta audiência. A equipe de engenharia está reavaliando os mecanismos de tolerância a falhas implementados, incluindo: estratégias de replicação (master-slave, multi-master), algoritmos de consensus (Raft, PBFT), técnicas de circuit breaker para prevenir cascata de falhas, implementação de bulkhead pattern para isolamento de recursos, e estratégias de graceful degradation para manter funcionalidades essenciais durante falhas parciais. O objetivo é implementar uma solução robusta que garanta disponibilidade de 99.99% mesmo em cenários de falhas múltiplas e simultâneas, mantendo a experiência do usuário com degradação mínima de qualidade. Considerando o contexto apresentado e os mecanismos de tolerância a falhas em ambientes distribuídos, assinale a alternativa correta. Selecione uma alternativa: a) A replicação master-slave é sempre superior à multi-master em sistemas distribuídos pois evita completamente conflitos de dados e garante consistência forte. b) O padrão circuit breaker é uma técnica de tolerância a falhas que monitora falhas em serviços dependentes e temporariamente bloqueia requisições para evitar propagação de falhas em cascata. c) Algoritmos de con

Ed · Answer

Vamos analisar cada uma das afirmativas:

I. Para análise de padrões sazonais em séries temporais de vendas, a decomposição STL (Seasonal and Trend decomposition using Loess) seria mais apropriada que análise de correlação linear simples, pois separa componentes de tendência, sazonalidade e ruído. Verdadeiro, a decomposição STL é uma técnica adequada para analisar séries temporais, pois permite identificar e separar esses componentes.

II. Para identificar segmentos de clientes com base em múltiplas variáveis comportamentais, algoritmos de clustering como K-means devem sempre ser aplicados diretamente nos dados brutos sem normalização prévia para preservar as escalas originais das variáveis. Falso, a normalização é importante antes de aplicar K-means, pois o algoritmo é sensível à escala das variáveis.

III. Para análise de correlações não-lineares entre variáveis, o coeficiente de correlação de Spearman seria mais informativo que o coeficiente de Pearson, especialmente quando as relações são monotônicas mas não necessariamente lineares. Verdadeiro, o coeficiente de Spearman é adequado para medir a correlação em dados que não seguem uma distribuição linear.

IV. Para tratamento de valores ausentes em variáveis numéricas com distribuição assimétrica, a imputação por mediana seria mais robusta que a imputação por média, pois é menos sensível a outliers. Verdadeiro, a mediana é uma medida de tendência central que não é afetada por outliers, tornando-a mais robusta em distribuições assimétricas.

Com base nas análises:

- I é verdadeiro.
- II é falso.
- III é verdadeiro.
- IV é verdadeiro.

Portanto, a alternativa correta que contém todos os itens verdadeiros é: d) I, III e IV.

Programação

Respostas

Ainda com dúvidas?

Mais conteúdos dessa disciplina