Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): Acertos: 9,0 de 10,0 02/04/2023 1a Questão Acerto: 1,0 / 1,0 Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data. Petabytes Zetabytes Terabytes Gigabytes Exabytes Respondido em 02/04/2023 22:11:10 Explicação: As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. 2a Questão Acerto: 0,0 / 1,0 Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. É um protocolo de internet das coisas É um programa É uma placa de hardware É um ecossistema que envolve software e hardware É o outro nome para Raspberry PI Respondido em 02/04/2023 22:12:54 Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. 3a Questão Acerto: 1,0 / 1,0 O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. Processos de extração, transformação e carregamento dos dados. Gerenciamento do armazenamento de dados. Aplicar políticas de segurança. Mecanismo para melhorar o processamento dos dados. Tratar dados não-estruturados. Respondido em 02/04/2023 22:25:04 Explicação: O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa. 4a Questão Acerto: 1,0 / 1,0 Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. É um ambiente para tratamento e armazenamento apenas de dados relacionais. É um repositório para tratamento dos dados. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É uma tecnologia de armazenamento e processamento de dados. É um repositório centralizado para armazenamento de dados. Respondido em 02/04/2023 22:17:51 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 5a Questão Acerto: 1,0 / 1,0 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. MLSpark Spark Learning GraphX Learning MLlib RDDs Respondido em 02/04/2023 22:18:50 Explicação: Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 6a Questão Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. A implementação do trecho de código está errada. A execução do trecho de código vai funcionar corretamente. É possível afirmar que a tabela_teste existe. É um exemplo de aplicação de GraphX. Trata-se de um exemplo de utilização do Spark SQL Respondido em 02/04/2023 22:20:41 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 7a Questão Acerto: 1,0 / 1,0 Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados fiquem na mesma escala? Map & Reduce Splice MinMax Shuffle Divide Respondido em 02/04/2023 22:22:13 Explicação: Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na mesma escala. 8a Questão Acerto: 1,0 / 1,0 A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto? iloc loc shuffle sum reset_index Respondido em 02/04/2023 22:23:20 Explicação: Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame. 9a Questão Acerto: 1,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: LSTM RNN DNN CNN KDD Respondido em 02/04/2023 22:26:05 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais. 10a Questão Acerto: 1,0 / 1,0 As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) Vieses Camadas Escondidas Camada de Saída Pesos Função de Ativação Respondido em 02/04/2023 22:27:11 Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados.