Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Acertos: 2,0 de 2,0 17/09/2023 Acerto: 0,2 / 0,2 Em relação aos desa�os do processamento de �uxo de dados, selecione a opção correta. Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência. Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. Garantir a consistência da informação através da ordenação dos dados. Usar algoritmos de criptogra�a nos dados para evitar o acesso indevido. Respondido em 17/09/2023 15:35:26 Explicação: Nas aplicações de streaming de dados, di�cilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido. Acerto: 0,2 / 0,2 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de gerenciamento Nível de consumo Nível de admissão Nível de governança Nível de Metadados Respondido em 17/09/2023 15:41:53 Explicação: O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identi�cação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão. Questão1 a Questão2 a https://simulado.estacio.br/alunos/inicio.asp https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); javascript:voltar(); Acerto: 0,2 / 0,2 Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. mapRandom distinct sample random �lter Respondido em 17/09/2023 15:36:17 Explicação: Gabarito: sample Justi�cativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. Acerto: 0,2 / 0,2 Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados �quem na mesma escala? MinMax Shuf�e Map & Reduce Divide Splice Respondido em 17/09/2023 15:43:04 Explicação: Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala. Acerto: 0,2 / 0,2 Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classi�cador de imagem, mas, não sabe se decidir com relação à con�guração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________: Pizzas; Categorias IRIS; Processamento de Imagens MNIST; Processamento de Linguagem Natural MNIST; Processamento de Imagens Questão3 a Questão4 a Questão5 a IRIS; Processamento da Linguagem Natural Respondido em 17/09/2023 15:43:51 Explicação: O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de imagens, uma vez que uma boa con�guração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST. Acerto: 0,2 / 0,2 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. volume veracidade variedade valor velocidade Respondido em 17/09/2023 15:49:42 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume signi�ca a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à con�abilidade da origem dos dados. Acerto: 0,2 / 0,2 Reconhecer os conceitos de Data Lake é fundamental para o pro�ssional de Tecnologia da Informação. Selecione a opção correta que de�ne resumidamente o que é o Data Lake. É um repositório para tratamento dos dados. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. É um repositório centralizado para armazenamento de dados. É uma tecnologia de armazenamento e processamento de dados. Respondido em 17/09/2023 15:50:30 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. Acerto: 0,2 / 0,2 Questão6 a Questão7 a Questão8 a Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com �nalidades especí�cas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. SparkContext RDD SparkSession DataFrame Spark.Catalog Respondido em 17/09/2023 15:50:39 Explicação: Gabarito: SparkContext Justi�cativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais. Acerto: 0,2 / 0,2 No mundo de Big Data, temos dados os mais variados possíveis, e sua classi�cação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classi�cadas como que tipo de dados? Numéricos Semi-Estruturados Temporais Categóricos Atemporais Respondido em 17/09/2023 15:52:00 Explicação: O correto é classi�car como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes signi�ca que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. Acerto: 0,2 / 0,2 A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classi�cadora pertence? Classi�cação Agrupamento Regressão Modelos Generativos Q-Learning Respondido em 17/09/2023 15:52:34 Questão9 a Questão10 a Explicação: O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classi�cação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classi�cação é a Árvore de Decisão Classi�cadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.
Compartilhar