Prévia do material em texto
Interações entre big data e cloud computing Professor(a): Farias Schardosim Baptista (Especialização) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para "Enviar" as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! 1) Complete as lacunas na frase a seguir, avaliando o impacto da ciência de dados em diferentes áreas empresariais: A aplicação da ciência de dados nas empresas é vasta, abrangendo diversas áreas funcionais que se beneficiam de insights baseados em dados. Por exemplo, no setor de a ciência de dados é usada para análise de risco, detecção de fraudes, previsão de fluxo de caixa e otimização de investimentos. Em a ciência de dados permite a personalização de campanhas de marketing, segmentação de clientes, análise de comportamento de consumidores e previsão de tendências de mercado. Já nas operações, a ciência de dados é aplicada na otimização da gestão de inventário e manutenção preditiva. Alternativas: marketing; operações; previsão de fluxo de caixa. marketing; finanças; cadeia de suprimentos. operações; marketing; análise de risco. finanças; marketing; cadeia de suprimentos. CORRETO finanças; operações; análise de risco. Resolução comentada: No setor de finanças, a ciência de dados é usada para análise de risco, detecção de fraudes, previsão de fluxo de caixa e otimização de investimentos. Em marketing, ela permite a personalização de campanhas de marketing, segmentação de clientes, análise de comportamento de consumidores e previsão de tendências de mercado. Nas operações, a ciência de dados é aplicada na otimização da cadeia de suprimentos, gestão de inventário e manutenção preditiva. Código da questão: 87087 2) Associe cada técnica de coleta de dados em larga escala com a descrição correta: 1. Coleta de Dados em Tempo Real (Streaming) 2. Coleta de Dados em Lotes (Batch) 3. Extração (ETL) 4. Transformação (ETL) 5. Carga (ETL) Descrições: a) Envolve a captura de informações de várias fontes e a integração dessas informações de forma que sejam acessíveis e utilizáveis para análise. b) Os dados são coletados em lotes e processados periodicamente, frequentemente em processos de análise retrospectiva. c) Durante esta etapa, os dados são limpos, normalizados e agregados conforme necessário para a análise. d) Permite que as organizações capturem e processem dados conforme são gerados, possibilitando análises quase instantâneas e respostas rápidas a eventos. e) Finalmente, os dados transformados são carregados em um data warehouse ou outro sistema de armazenamento no qual serão acessíveis para análise. Alternativas: 1-d, 2-a, 3-b, 4-e, 5-c 1-a, 2-d, 3-e, 4-b, 5-c. 1-b, 2-d, 3-c, 4-e, 5-a. 1-d, 2-b, 3-a, 4-c, 5-e. CORRETO 1-c, 2-d, 3-e, 4-b, 5-a.Resolução comentada: 1. Coleta de Dados em Tempo Real (Streaming) d) Permite que as organizações capturem e processem dados conforme são gerados. 2. Coleta de Dados em Lotes (Batch) b) Os dados são coletados em lotes e processados periodicamente, frequentemente em processos de análise retrospectiva. 3. Extração (ETL) a) Envolve a captura de informações de várias fontes e a integração dessas informações. 4. Transformação (ETL) - c) Durante esta etapa, os dados são limpos, normalizados e agregados. 5. Carga (ETL) e) Finalmente, os dados transformados são carregados em um data warehouse ou outro sistema de armazenamento. Código da questão: 87084 3) Qual das seguintes opções melhor descreve o papel da ciência de dados no processo decisório das empresas? Alternativas: A ciência de dados é utilizada exclusivamente para a visualização de dados, sem influenciar diretamente a tomada de decisões. A ciência de dados é utilizada apenas para a coleta de dados e não influencia diretamente as decisões empresariais. A ciência de dados permite que as empresas tomem decisões baseadas em intuições e suposições, sem a necessidade de análises profundas. A ciência de dados é uma ferramenta que só pode ser aplicada em áreas de marketing e finanças, sem impacto em outras áreas empresariais. A ciência de dados fornece uma base objetiva para decisões estratégicas e operacionais, permitindo identificar oportunidades, prever resultados e otimizar processos. CORRETO Resolução comentada: Esta alternativa captura a essência do papel da ciência de dados no processo decisório das empresas. A ciência de dados fornece uma base objetiva para decisões estratégicas e operacionais, permitindo identificar oportunidades, prever resultados e otimizar processos, conforme descrito no texto-base. Código da questão: 87086 4) Complete as lacunas na frase a seguir com as alternativas corretas: A infraestrutura de Big Data é composta por várias tecnologias e ferramentas que trabalham em conjunto para processar, armazenar e analisar grandes volumes de dados de maneira eficiente e escalável, visando suportar o aumento contínuo de dados. Entre essas tecnologias, destacam-se o framework de código aberto os bancos de dados e as ferramentas de que permitem o processamento de dados em tempo real. Alternativas: Cassandra; Relacionais; Machine Learning. Spark; SQL; Batch Processing. Kafka; Grafos; ETL. HDFS; Documentos; OLAP. Hadoop; NoSQL; Stream Processing. CORRETO Resolução comentada: Para resolver esta questão, é necessário entender as principais tecnologias que compõem a infraestrutura de Big Data, conforme descrito no texto-base. Lacuna 1: A infraestrutura de Big Data inclui o framework de código aberto que é essencial para o processamento distribuído de grandes conjuntos de dados. A alternativa correta é Hadoop, que utiliza o modelo de programação MapReduce para processar dados em paralelo em clusters de servidores. Lacuna 2: Os bancos de dados são fundamentais para armazenar e recuperar dados de maneira eficiente e escalável, visando suportar o aumento contínuo de dados, especialmente quando se trata de dados não estruturados ou semiestruturados. A alternativa correta é NoSQL que inclui bancos de dados orientados a documentos, colunas, grafos eLacuna 3: As ferramentas de permitem o processamento de dados em tempo real, fornecendo análises e insights quase instantâneos. A alternativa correta é Stream Processing, que inclui ferramentas como Apache Kafka, Apache Flink e Apache Storm. Código da questão: 87077 5) Analise as seguintes asserções que tratam dos modelos de serviço de Cloud Computing e determine quais são verdadeiras (V) e quais são falsas (F): 1. Infrastructure as a Service (laaS) fornece infraestrutura de virtualizada sob demanda, permitindo que empresas aluguem servidores, armazenamento e redes conforme necessário. 2. Platform as a Service (PaaS) oferece uma plataforma que permite aos desenvolvedores criar, testar e implementar aplicações, mas exige que eles gerenciem a infraestrutura subjacente. 3. Software as a Service (SaaS) distribui software e aplicativos via internet, eliminando a necessidade de instalações locais e permitindo acesso direto de um navegador web. 4. laaS é ideal para empresas que desejam utilizar software atualizado e mantido por terceiros, sem a complexidade de gerenciamento e manutenção. 5. PaaS inclui ferramentas de desenvolvimento, middleware e serviços de banco de dados, facilitando o desenvolvimento de aplicativos sem se preocupar com a gestão da infraestrutura subjacente. Alternativas: CORRETO F, F, V, V, F. V, V, F, F, V. F, V, V, V, F. Resolução comentada: Para resolver esta questão, é necessário analisar cada asserção individualmente com base nas informações fornecidas no texto-base. Asserção 1: Infrastructure as a Service (laaS) fornece infraestrutura de virtualizada sob demanda, permitindo que empresas aluguem servidores, armazenamento e redes conforme necessário. Verdadeiro. laaS é descrito exatamente dessa forma no texto-base. Asserção 2: Platform as a Service (PaaS) oferece uma plataforma que permite aos desenvolvedores criar, testar e implementar aplicações, mas exige que eles gerenciem a infraestrutura subjacente. Falso. PaaS inclui a gestão da infraestrutura subjacente, permitindo que os desenvolvedores se concentrem no código e na funcionalidade. Asserção 3: Software as a Service (SaaS) distribui software e aplicativos via internet, eliminando a necessidade de instalações locais e permitindo acesso direto de um navegador web. Verdadeiro. SaaS é descrito dessa forma no texto-base. Asserção 4: laaS é ideal para empresas que desejam utilizar software atualizado e mantido por terceiros, sem a complexidade de gerenciamento e manutenção. Falso. Essa descrição se aplica mais ao modelo SaaS, não ao Asserção 5: PaaS inclui ferramentas de desenvolvimento, middleware e serviços de banco de dados, facilitando o desenvolvimento de aplicativos sem se preocupar com a gestão da infraestrutura subjacente.Verdadeiro. PaaS é descrito exatamente dessa forma no texto-base. Código da questão: 87078 6) Considere as seguintes asserções que tratam das práticas de design para arquitetura de nuvem e determine quais são corretas: 1. Alta disponibilidade: ter vários sistemas espalhados por diferentes locais para garantir que, se um falhar, outro assuma 2. Tolerância a falhas: garantir que outros servidores assumam o trabalho em caso de falha de um servidor, por meio de sistemas redundantes. 3. Segurança: usar criptografia, controlar quem tem acesso e monitorar continuamente o ambiente para proteger os dados da empresa e dos clientes. 4. Automação de processos: implementar scripts que automatizam a criação de servidores e configuração de redes, eliminando a necessidade de intervenção manual. 5. Custo-benefício: reduzir custos operacionais ao utilizar recursos de TI apenas quando necessário, evitando a compra de equipamentos caros. Escolha a alternativa que apresenta as asserções corretas: Alternativas: 1,3 4. Todas as asserções estão corretas. 2, 4 5. 1,2 3. CORRETO Resolução comentada: Vamos analisar cada asserção para entender quais são corretas: 1. Alta disponibilidade: ter vários sistemas espalhados por diferentes locais para garantir que, se um falhar, o outro assuma automaticamente Correta. A alta disponibilidade é garantida por ter vários sistemas em diferentes locais, de modo que, se um falhar, outro possa assumir automaticamente. 2. Tolerância a falhas: garantir que outros servidores assumam o trabalho em caso de falha de um servidor, por meio de sistemas redundantes. Correta. A tolerância a falhas é alcançada com sistemas redundantes, garantindo que outros servidores possam assumir o trabalho em caso de falha. 3. Segurança: usar criptografia, controlar quem tem acesso e monitorar continuamente o ambiente para proteger os dados da empresa e dos clientes. Correta. A segurança na arquitetura de nuvem envolve o uso de criptografia, controle de acesso e monitoramento contínuo para proteger os dados. 4. Automação de processos: implementar scripts que automatizam a criação de servidores e configuração de redes, eliminando a necessidade de intervenção manual. Incorreta. Embora a automação de processos seja uma prática importante, ela não foi mencionada especificamente como uma prática de design para arquitetura de nuvem no trecho do texto-base fornecido. 5. Custo-benefício: reduzir custos operacionais ao utilizar recursos de TI apenas quando necessário, evitando a compra de equipamentos caros. Incorreta. Embora o custo-benefício seja uma vantagem da computação em nuvem, ele não foi mencionado especificamente como uma prática de design para arquitetura de nuvem no trecho do texto-base fornecido. Código da questão: 87100 7) Complete as lacunas na frase a seguir com a alternativa correta: A arquitetura do Apache Spark é composta por vários componentes que trabalham em conjunto para realizar o processamento de grandes volumes de dados. Esses componentes incluem o Spark Application, o Spark Driver, a SparkSession, o os é responsável por gerenciar os recursos do cluster, como alocação de CPU e memória.Alternativas: Data Nodes; Name Nodes; Data Nodes. Job Tracker; Task Trackers; Job Tracker. Resource Manager; Task Trackers; Resource Manager. Master Node; Worker Nodes; Master Node. Cluster Manager; Spark Executors; Cluster Manager. CORRETO Resolução comentada: A arquitetura do Apache Spark inclui o Cluster Manager, que gerencia os recursos do cluster, e os Spark Executors, que executam as tarefas atribuídas pelo Spark Driver. Código da questão: 87082 8) Qual das seguintes ferramentas é mais adequada para o processamento em tempo real de grandes volumes de dados, permitindo a captura e análise quase instantânea? Alternativas: MongoDB. Cassandra. Apache Kafka. CORRETO Hadoop HDFS. Apache Spark Resolução comentada: O Apache Kafka é uma ferramenta de mensagens distribuídas que permite a transmissão de dados entre produtores e consumidores com alta taxa de transferência e baixa latência, sendo ideal para o processamento em tempo real de grandes volumes de dados. Código da questão: 87081 9) Analise as seguintes asserções que tratam da implementação de soluções de ciência de dados em empresas e determine se são verdadeiras (V) ou falsas (F): 1. A primeira etapa na implementação de soluções de ciência de dados é identificar claramente os problemas ou oportunidades que podem ser abordados utilizando dados. 2. A Análise Exploratória de Dados (EDA) é realizada após o desenvolvimento de modelos complexos para validar os resultados. 3. Ferramentas como Python e R são comumente usadas para realizar a Análise Exploratória de Dados (EDA). 4. A fase de limpeza de dados envolve a correção de erros, tratamento de valores ausentes e normalização dos dados. 5. A validação de modelos é feita aplicando o modelo a um conjunto de dados de treino para garantir que ele generalize bem para novos dados. Escolha a alternativa que representa a sequência correta de verdadeiro (V) ou falso (F) para as asserções apresentadas: Alternativas: F, V, V, F, F, V. V, F, V, F, V. V, F, V, V, F. CORRETO Resolução comentada: Asserção 1: Verdadeira. A primeira etapa na implementação de soluções de ciência de dados é identificar claramente os problemas ou oportunidades que podem ser abordados utilizando dados. Isso garante que os esforços estejam alinhados com os objetivos estratégicos da empresa.Asserção 2: Falsa. A Análise Exploratória de Dados (EDA) é realizada antes do desenvolvimento de modelos complexos para entender as características principais dos dados e detectar padrões, outliers e possíveis anomalias. Asserção 3: Verdadeira. Ferramentas como Python (com bibliotecas como Pandas, Matplotlib e Seaborn) e R (com pacotes como ggplot2, e caret) são comumente usadas para realizar a Análise Exploratória de Dados (EDA). . Asserção 4: Verdadeira. A fase de limpeza de dados envolve a correção de erros, tratamento de valores ausentes e normalização dos dados, garantindo a qualidade dos dados para a modelagem. Asserção 5: Falsa. A validação de modelos é feita aplicando o modelo a um conjunto de dados de teste, que não foi usado durante o treinamento, para garantir que ele generalize bem para novos dados. Código da questão: 87088 10) Analise as seguintes afirmações que tratam das ferramentas para armazenamento e análise de Big Data e determine se são verdadeiras (V) ou falsas (F): 1. Hadoop HDFS é projetado para fornecer um sistema de armazenamento distribuído que permite que grandes conjuntos de dados sejam divididos em blocos e distribuídos por um cluster de servidores. 2. Apache Spark mantém dados intermediários em disco após cada etapa de processamento, o que o torna mais lento para tarefas que precisam repetir várias operações nos mesmos dados. 3. MongoDB é um banco de dados orientado a documentos que armazena dados no formato JSON, permitindo que os documentos tenham estruturas variáveis. 4. Cassandra é um banco de dados NoSQL orientado a colunas que oferece alta disponibilidade e escalabilidade horizontal. 5. HBase é um banco de dados NoSQL que roda em cima do HDFS e é especialmente útil para armazenar grandes volumes de dados esparsos. Alternativas: V, F, V, V, V. CORRETO F, F, V, V, F. V, F, V, F, V. Resolução comentada: 1. Verdadeiro: Hadoop HDFS é projetado para fornecer um sistema de armazenamento distribuído. 2. Falso: Apache Spark mantém dados intermediários na memória, não em disco, tornando-o mais rápido. 3. Verdadeiro: MongoDB armazena dados no formato JSON com estruturas variáveis. 4. Verdadeiro: Cassandra oferece alta disponibilidade e escalabilidade 5. Verdadeiro: HBase roda em cima do HDFS e é útil para armazenar grandes volumes de dados esparsos. Código da questão: 87083 Arquivos e Links