Prévia do material em texto
Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): ALCIDES NUNES ALVES JUNIOR 202008169861 Acertos: 10,0 de 10,0 23/05/2022 1a Questão Acerto: 1,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. variedade volume valor veracidade velocidade Respondido em 23/05/2022 14:44:40 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 2a Questão Acerto: 1,0 / 1,0 Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação de Big Data Computação Paralela Computação de banco de dados Computação centralizada Computação em Nuvem Respondido em 23/05/2022 14:46:26 Explicação: As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. 3a Questão Acerto: 1,0 / 1,0 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. DataNode Bloco de dados YARN NameNode Replicação Respondido em 23/05/2022 14:47:35 Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. 4a Questão Acerto: 1,0 / 1,0 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas estruturado apenas tabelas relacionais estruturado e semiestruturado estruturado, não estruturado e semiestruturado apenas não estruturado Respondido em 23/05/2022 14:47:41 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 5a Questão Acerto: 1,0 / 1,0 O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Python e Escala Hadoop e Spark Casandra e Spark Java e R Java e Python Respondido em 23/05/2022 14:48:26 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. 6a Questão Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. É possível afirmar que a tabela_teste existe. A execução do trecho de código vai funcionar corretamente. É um exemplo de aplicação de GraphX. Trata-se de um exemplo de utilização do Spark SQL A implementação do trecho de código está errada. Respondido em 23/05/2022 14:49:06 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 7a Questão Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? Gráfico de Matriz de Dispersão. Gráfico de Estrela. Gráfico de Linha. Gráfico de Faces de Chernoff. Gráfico de Barra. Respondido em 23/05/2022 14:51:19 Explicação: O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais. 8a Questão Acerto: 1,0 / 1,0 Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? set_index values reset_index sum merge Respondido em 23/05/2022 14:52:14 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. 9a Questão Acerto: 1,0 / 1,0 Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? OS Pandas Scikit-Learn Numpy BeautifulSoup Respondido em 23/05/2022 14:53:03 Explicação: O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada. 10a Questão Acerto: 1,0 / 1,0 O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de: KDD RNN LSTM DNN CNN Respondido em 23/05/2022 14:53:27 Explicação: A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.