Baixe o app para aproveitar ainda mais
Prévia do material em texto
Simulado AV Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Acertos: 9,0 de 10,0 28/04/2022 1a Questão Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. Garantir a consistência da informação através da ordenação dos dados. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Usar algoritmos de criptografia nos dados para evitar o acesso indevido. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Respondido em 28/04/2022 01:41:36 Explicação: Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré- estabelecido. 2a Questão Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta. MQTT HTTP CoAP UDP TCP Respondido em 28/04/2022 01:30:29 Explicação: O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados. 3a Questão Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker. Task Tracker MapJob Job Tracker Slave MapTracker MapReduce Respondido em 28/04/2022 01:31:22 Explicação: O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento. 4a Questão Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Redução Agrupamento Combinação Gravação da saída Embaralhamento Respondido em 28/04/2022 01:32:01 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 5a Questão Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. filter mapRandom distinct random sample Respondido em 28/04/2022 01:40:01 Explicação: Gabarito: sample Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 6a Questão Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. map, filter e union. map, sample e collect. reduce, first e map. map, take e reduce. count, collect e take. Respondido em 28/04/2022 01:38:50 Explicação: Gabarito: map, filter e union. Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição. 7a Questão No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Temporais Numéricos Semi-Estruturados Atemporais Categóricos Respondido em 28/04/2022 01:33:05 Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. 8a Questão Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala? Map & Reduce Divide Splice Shuffle MinMax Respondido em 28/04/2022 01:33:42 Explicação: Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala. 9a Questão Quais os métodos de aprendizado de máquina que existem? Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Respondido em 28/04/2022 01:36:58 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados. 10a Questão O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: RNN KDD CNN LSTM DNN Respondido em 28/04/2022 01:37:29 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-seàs redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.
Compartilhar