Prévia do material em texto
29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/4 Acerto: 1,0 / 1,0 Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. velocidade volume valor variedade veracidade Respondido em 29/04/2022 18:11:50 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. Acerto: 1,0 / 1,0 Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. É um programa É um protocolo de internet das coisas É o outro nome para Raspberry PI É um ecossistema que envolve software e hardware É uma placa de hardware Respondido em 29/04/2022 18:12:01 Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. Acerto: 1,0 / 1,0 A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. YARN Replicação Bloco de dados NameNode DataNode Respondido em 29/04/2022 18:13:33 Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. Questão1a Questão2a Questão3a 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/4 Acerto: 1,0 / 1,0 Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas estruturado apenas tabelas relacionais apenas não estruturado estruturado e semiestruturado estruturado, não estruturado e semiestruturado Respondido em 29/04/2022 18:14:09 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. Acerto: 1,0 / 1,0 O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Casandra e Spark Hadoop e Spark Python e Escala Java e Python Java e R Respondido em 29/04/2022 18:14:38 Explicação: Gabarito: Java e Python Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. Trata-se de um exemplo de utilização do Spark SQL É possível afirmar que a tabela_teste existe. A implementação do trecho de código está errada. A execução do trecho de código vai funcionar corretamente. É um exemplo de aplicação de GraphX. Respondido em 29/04/2022 18:14:51 Questão4a Questão5a Questão6a 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/4 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. Acerto: 1,0 / 1,0 Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? values reset_index merge set_index sum Respondido em 29/04/2022 18:15:11 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. Acerto: 1,0 / 1,0 Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Primária; Primária. Secundária; Secundária. Primária; Secundária. Secundária; Primária. Secundária; Terciária. Respondido em 29/04/2022 18:16:45 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. Acerto: 1,0 / 1,0 Questão7a Questão8a Questão 9a 29/04/2022 17:43 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/4 Como podemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn? Gráfico de Histograma Classification Report Plotly Gráfico de Matriz de Dispersão Regressão Linear Respondido em 29/04/2022 18:18:19 Explicação: O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground truth para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e medida F de cada classe possível e também as mesmas métricas em um nível macro. Acerto: 1,0 / 1,0 Quais os métodos de aprendizado de máquina que existem? Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado Respondido em 29/04/2022 18:17:51 Explicação: Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados. Questão10a