Logo Passei Direto
Buscar
Uma empresa multinacional de streaming de vídeo opera uma infrae4) Uma empresa de e-commerce coletou dados de comportamento de compra de seus clientes durante os últimos três anos, incluindo informações demográficas, histórico de transações, produtos visualizados, tempo gasto no site e feedback de satisfação. O conjunto de dados contém 2 milhões de registros com 45 variáveis, incluindo dados numéricos, categóricos e temporais. A equipe de ciência de dados foi encarregada de extrair insights sobre padrões de compra sazonal, segmentação de clientes, eficácia de campanhas de marketing e previsão de churn. Para isso, eles precisam utilizar ferramentas estatísticas e computacionais apropriadas para lidar com a complexidade e volume dos dados. Durante a análise exploratória inicial, a equipe identificou problemas como valores ausentes (15% dos registros), outliers em dados de transação, assimetria em distribuições de gastos, correlações não-lineares entre variáveis e necessidade de normalização para diferentes escalas de medidas. Eles precisam escolher as técnicas mais adequadas para cada tipo de análise. Considerando as ferramentas disponíveis (Python com pandas, scikit-learn, scipy; R com tidyverse, caret; SQL para agregações; Spark para processamento distribuído), avalie as seguintes afirmativas sobre interpretação de dados: I. Para análise de padrões sazonais em séries temporais de vendas, a decomposição STL (Seasonal and Trend decomposition using Loess) seria mais apropriada que análise de correlação linear simples, pois separa componentes de tendência, sazonalidade e ruído. II. Para identificar segmentos de clientes com base em múltiplas variáveis comportamentais, algoritmos de clustering como K-means devem sempre ser aplicados diretamente nos dados brutos sem normalização prévia para preservar as escalas originais das variáveis. III. Para análise de correlações não-lineares entre variáveis, o coeficiente de correlação de Spearman seria mais informativo que o coeficiente de Pearson, especialmente quando as relações são monotônicas mas não necessariamente lineares. IV. Para tratamento de valores ausentes em variáveis numéricas com distribuição assimétrica, a imputação por mediana seria mais robusta que a imputação por média, pois é menos sensível a outliers. Considerando o contexto apresentado, é correto o que se afirma em: Selecione uma alternativa: a) I, II e IV. b) II e IV. c) I, II e III. d) I, III e IV. e) I, II, III e IV.strutura distribuída globalmente, com data centers em múltiplos continentes para garantir baixa latência e alta disponibilidade para seus milhões de usuários. O sistema processa petabytes de dados diariamente e deve manter operação contínua mesmo durante falhas de hardware, problemas de rede ou sobrecarga de tráfego. A arquitetura atual utiliza microserviços distribuídos com replicação de dados, load balancers, cache distribuído e mecanismos de failover automático. Recentemente, a empresa enfrentou vários incidentes que expuseram vulnerabilidades nos mecanismos de tolerância a falhas: um data center ficou inacessível por 6 horas devido a problemas de conectividade, outro apresentou degradação de performance por falha em disco, e um terceiro sofreu sobrecarga durante um evento de alta audiência. A equipe de engenharia está reavaliando os mecanismos de tolerância a falhas implementados, incluindo: estratégias de replicação (master-slave, multi-master), algoritmos de consensus (Raft, PBFT), técnicas de circuit breaker para prevenir cascata de falhas, implementação de bulkhead pattern para isolamento de recursos, e estratégias de graceful degradation para manter funcionalidades essenciais durante falhas parciais. O objetivo é implementar uma solução robusta que garanta disponibilidade de 99.99% mesmo em cenários de falhas múltiplas e simultâneas, mantendo a experiência do usuário com degradação mínima de qualidade. Considerando o contexto apresentado e os mecanismos de tolerância a falhas em ambientes distribuídos, assinale a alternativa correta. Selecione uma alternativa: a) A replicação master-slave é sempre superior à multi-master em sistemas distribuídos pois evita completamente conflitos de dados e garante consistência forte. b) O padrão circuit breaker é uma técnica de tolerância a falhas que monitora falhas em serviços dependentes e temporariamente bloqueia requisições para evitar propagação de falhas em cascata. c) Algoritmos de con
User badge image
Luciano Souza

ontem

Respostas

User badge image

Ed Verified user icon

ontem

Vamos analisar cada uma das afirmativas: I. Para análise de padrões sazonais em séries temporais de vendas, a decomposição STL (Seasonal and Trend decomposition using Loess) seria mais apropriada que análise de correlação linear simples, pois separa componentes de tendência, sazonalidade e ruído. Verdadeiro, a decomposição STL é uma técnica adequada para analisar séries temporais, pois permite identificar e separar esses componentes. II. Para identificar segmentos de clientes com base em múltiplas variáveis comportamentais, algoritmos de clustering como K-means devem sempre ser aplicados diretamente nos dados brutos sem normalização prévia para preservar as escalas originais das variáveis. Falso, a normalização é importante antes de aplicar K-means, pois o algoritmo é sensível à escala das variáveis. III. Para análise de correlações não-lineares entre variáveis, o coeficiente de correlação de Spearman seria mais informativo que o coeficiente de Pearson, especialmente quando as relações são monotônicas mas não necessariamente lineares. Verdadeiro, o coeficiente de Spearman é adequado para medir a correlação em dados que não seguem uma distribuição linear. IV. Para tratamento de valores ausentes em variáveis numéricas com distribuição assimétrica, a imputação por mediana seria mais robusta que a imputação por média, pois é menos sensível a outliers. Verdadeiro, a mediana é uma medida de tendência central que não é afetada por outliers, tornando-a mais robusta em distribuições assimétricas. Com base nas análises: - I é verdadeiro. - II é falso. - III é verdadeiro. - IV é verdadeiro. Portanto, a alternativa correta que contém todos os itens verdadeiros é: d) I, III e IV.

Essa resposta te ajudou?

0
Dislike0

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina