Baixe o app para aproveitar ainda mais
Prévia do material em texto
26/04/22, 20:15 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Simulado AV Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): JOÃO BATISTA MATTOS BEJARANO 202001039252 Acertos: 8,0 de 10,0 26/04/2022 Acerto: 1,0 / 1,0 Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Garantir a consistência da informação através da ordenação dos dados. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Respondido em 26/04/2022 19:30:52 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. Acerto: 1,0 / 1,0 Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. HTTP CoAP MQTT UDP TCP Respondido em 26/04/2022 19:31:40 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. Questão1 a Questão2 a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); 26/04/22, 20:15 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 Acerto: 1,0 / 1,0 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. Task manager HDFS MapReduce Camada de ingestão Mrjob Respondido em 26/04/2022 19:39:20 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. Acerto: 1,0 / 1,0 Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. O Hadoop utiliza o HDFS para armazenar dados. A estrutura de desenvolvimento no Hadoop é sequencial. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. O Hadoop tem apenas uma única distribuição. O Hadoop não funciona com pequenos volumes de dados. Respondido em 26/04/2022 19:39:54 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). Acerto: 1,0 / 1,0 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. filter sample random mapRandom distinct Respondido em 26/04/2022 19:48:15 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser Questão3 a Questão4 a Questão5 a 26/04/22, 20:15 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. Acerto: 1,0 / 1,0 Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, sample e collect. reduce, first e map. count, collect e take. map, take e reduce. map, filter e union. Respondido em 26/04/2022 19:54:47 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? Gráfico de Faces de Chernoff. Gráfico de Barra. Gráfico de Estrela. Gráfico de Linha. Gráfico de Matriz de Dispersão. Respondido em 26/04/2022 20:01:34 Explicação: O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais. Acerto: 1,0 / 1,0 Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? set_index sum merge reset_index values Respondido em 26/04/2022 20:05:12 Questão6 a Questão7 a Questão8 a 26/04/22, 20:15 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. Acerto: 0,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Respondido em 26/04/2022 20:09:07 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados. Acerto: 0,0 / 1,0 Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? BeautifulSoup Pandas Scikit-Learn Numpy OS Respondido em 26/04/2022 20:11:04 Explicação: O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada. Questão9 a Questão10 a javascript:abre_colabore('38403','281724624','5263900325'); 26/04/22, 20:15 Estácio: Alunos https://simulado.estacio.br/alunos/ 5/5
Compartilhar