Prévia do material em texto
15/10/2022 15:04 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/4 15/10/2022 15:04 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/4 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Agrupamento Redução Gravação da saída Combinação Embaralhamento Respondido em 15/10/2022 13:59:35 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake. Camada de gerenciamento do ciclo de vida da informação Camada de segurança Camada de governança Camada de Metadados Camada de gerenciamento de dados Respondido em 15/10/2022 14:04:06 Explicação: O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e das regras de armazenamento. Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. sample random mapRandom distinct filter Respondido em 15/10/2022 14:03:04 Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. Observe o trecho de código abaixo Acerto: 0 , 0 / 1 , 0 Acerto: 1 , 0 / 1 , 0 Acerto: 0 , 0 / 1 , 0 Explicação: Gabarito: sample Acerto: 1 , 0 / 1 , 0 15/10/2022 15:04 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/4 query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. Trata-se de um exemplo de utilização do Spark SQL É um exemplo de aplicação de GraphX. A implementação do trecho de código está errada. A execução do trecho de código vai funcionar corretamente. É possível afirmar que a tabela_teste existe. Respondido em 15/10/2022 14:02:29 Explicação: Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? set_index merge reset_index sum values Respondido em 15/10/2022 14:02:03 A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais? Gráfico de Matriz de Dispersão. Gráfico de Faces de Chernoff. Gráfico de Estrela. Gráfico de Linha. Gráfico de Barra. Respondido em 15/10/2022 14:00:44 Explicação: O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais. Acerto: 1 , 0 / 1 , 0 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. Acerto: 1 , 0 / 1 , 0 15/10/2022 15:04 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/4 Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? Scikit-Learn BeautifulSoup Pandas OS Numpy Respondido em 15/10/2022 13:59:55 Acerto: 1 , 0 / 1 , 0 Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? Melhorar a capacidade de processamento de dados do sistema. Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. Incrementar o uso da memória de longa duração do sistema. Fazer com que computadores acessem a internet mais rápido. Viabilizar a computação paralela. Respondido em 15/10/2022 14:01:17 Explicação: A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se adaptar a novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos similares. Acerto: 1 , 0 / 1 , 0 Explicação: O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada.