Prévia do material em texto
1. Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino. É um protocolo de internet das coisas É o outro nome para Raspberry PI É uma placa de hardware É um ecossistema que envolve software e hardware É um programa Data Resp.: 13/03/2022 14:05:30 Explicação: O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas. 2. Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. veracidade variedade volume valor velocidade Data Resp.: 13/03/2022 14:08:59 Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 3. A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. Bloco de dados YARN DataNode Replicação https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 NameNode Data Resp.: 13/03/2022 14:10:00 Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. 4. Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas tabelas relacionais estruturado, não estruturado e semiestruturado estruturado e semiestruturado apenas não estruturado apenas estruturado Data Resp.: 13/03/2022 14:14:09 Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 5. Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. DataFrame SparkSession RDD Spark.Catalog SparkContext Data Resp.: 13/03/2022 14:15:29 Explicação: Gabarito: SparkContext Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 6. Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. É um exemplo de aplicação de GraphX. Trata-se de um exemplo de utilização do Spark SQL A execução do trecho de código vai funcionar corretamente. A implementação do trecho de código está errada. É possível afirmar que a tabela_teste existe. Data Resp.: 13/03/2022 14:15:36 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. 7. A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação? O DataFrame é embaralhado. As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha. Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação. Nada, o DataFrame fica imutável. O DataFrame é indexado pelas suas colunas. Data Resp.: 13/03/2022 14:15:43 Explicação: Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o reset_index() após a agregação, os índices originais das colunas são preservados. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 8. Gabriel entrou recentemente em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos: Secundária; Primária. Primária; Secundária. Secundária; Secundária. Primária; Primária. Secundária; Terciária. Data Resp.: 13/03/2022 14:15:57 Explicação: Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles. 9. As técnicas de aprendizado de máquina para aprendizado supervisionado são: I - Classificação II - Agrupamento III - Regressão Apenas I Apenas II Apenas II e III Apenas I e III Apenas I e II Data Resp.: 13/03/2022 14:16:11 Explicação: O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros, baseado no registro histórico e suas características. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174 https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX017410. No modelo de aprendizado profundo, as camadas internas ocultas representam: I - Abstrações de aspectos de dados complexos II - Informação relevante dos dados de entrada III - Pesos e Viéses Apenas I Apenas I e III As alternativas I, II e III Apenas II e III Apenas III https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp?num_seq_aluno_turma=160918132&cod_hist_prova=278013757&num_seq_turma=7013550&cod_disc=EEX0174