Prévia do material em texto
07/06/2023, 20:57 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Meus Simulados Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): TIAGO HENRIQUE DE SOUZA QUEIROZ 202003104477 Acertos: 9,0 de 10,0 07/06/2023 Acerto: 1,0 / 1,0 Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Oracle Cloud Microsft Azure Amazon AWS Google Cloud IBM Cloud Respondido em 07/06/2023 20:58:47 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. Acerto: 1,0 / 1,0 Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data. Petabytes Zetabytes Exabytes Gigabytes Terabytes Respondido em 07/06/2023 20:59:01 Explicação: As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes. Questão1 a Questão2 a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); 07/06/2023, 20:57 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 Acerto: 1,0 / 1,0 Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios. Nível de gerenciamento Nível de consumo Nível de Metadados Nível de admissão Nível de governança Respondido em 07/06/2023 20:59:12 Explicação: O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identi�cação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão. Acerto: 1,0 / 1,0 Reconhecer os conceitos de Data Lake é fundamental para o pro�ssional de Tecnologia da Informação. Selecione a opção correta que de�ne resumidamente o que é o Data Lake. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É um repositório para tratamento dos dados. É um repositório centralizado para armazenamento de dados. É uma tecnologia de armazenamento e processamento de dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. Respondido em 07/06/2023 20:59:31 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. Acerto: 1,0 / 1,0 O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark. Casandra e Spark Java e Python Hadoop e Spark Python e Escala Java e R Respondido em 07/06/2023 20:59:41 Questão3 a Questão4 a Questão5 a 07/06/2023, 20:57 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 Explicação: Gabarito: Java e Python Justi�cativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e con�guração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também. Acerto: 1,0 / 1,0 O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta. É uma técnica lenta para processamento de grandes volumes de dados É uma técnica de computação distribuída Consiste em uma técnica de programação sequencial Só pode ser aplicada para grandes volumes de dados Foi substituída no Spark por acesso direto à memória Respondido em 07/06/2023 20:59:56 Explicação: Gabarito: É uma técnica de computação distribuída Justi�cativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito e�ciente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos. Acerto: 1,0 / 1,0 Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? set_index reset_index values merge sum Respondido em 07/06/2023 21:00:08 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-de�nidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. Acerto: 0,0 / 1,0 Questão6 a Questão7 a Questão8 a 07/06/2023, 20:57 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 No mundo de Big Data, temos dados os mais variados possíveis, e sua classi�cação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classi�cadas como que tipo de dados? Temporais Categóricos Atemporais Semi-Estruturados Numéricos Respondido em 07/06/2023 21:00:32 Explicação: O correto é classi�car como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes signi�ca que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. Acerto: 1,0 / 1,0 Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classi�cador de imagem, mas, não sabe se decidir com relação à con�guração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________: MNIST; Processamento de Imagens IRIS; Processamento de Imagens IRIS; Processamento da Linguagem Natural Pizzas; Categorias MNIST; Processamento de Linguagem Natural Respondido em 07/06/2023 21:01:36 Explicação: O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de imagens, uma vez que uma boa con�guração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST. Acerto: 1,0 / 1,0 Qual o objetivo da inteligência arti�cial ao simular comportamentos humanos na máquina? Otimizar algoritmos para que eles se adaptem a contextos não previamente codi�cados. Melhorar a capacidade de processamento de dados do sistema. Viabilizar a computação paralela. Incrementar o uso da memória de longa duração do sistema. Fazer com que computadores acessem a internet mais rápido. Respondido em 07/06/2023 21:01:52 Questão9 a Questão10 a 07/06/2023, 20:57 Estácio: Alunos https://simulado.estacio.br/alunos/ 5/5 Explicação: A razão por trás da existência da inteligência arti�cial é criar algoritmos e soluções capazes de se adaptar a novas situações que não necessariamente foram pré-programadas, mas se adapte pela experiência passada com casos similares.