Baixe o app para aproveitar ainda mais
Prévia do material em texto
05/11/2022 01:30 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Teste de Conhecimento avalie sua aprendizagem Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações bancárias. Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202007430603_TEMAS Aluno: PAULO TAVARES DE OLIVEIRA Matr.: 202007430603 Disc.: TÓP BIG EM PYT 2022.3 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 02727PRINCÍPIOS DE BIG DATA 1. dados não estruturados dados estruturados dados de Big Data dados de Internet das Coisas dados semiestruturados Data Resp.: 05/11/2022 01:07:13 Explicação: Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de dados não convencionais que não são armazenados em bancos de dados tradicionais. 2. velocidade valor volume variedade veracidade Data Resp.: 05/11/2022 01:13:17 Explicação: javascript:voltar(); javascript:voltar(); javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); 05/11/2022 01:30 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake. Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 02508HADOOP E ARMAZENAMENTO DE DADOS 3. Gravação da saída Agrupamento Redução Combinação Embaralhamento Data Resp.: 05/11/2022 01:15:15 Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 4. É um repositório para tratamento dos dados. É uma tecnologia de armazenamento e processamento de dados. Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados. É um ambiente para tratamento e armazenamento apenas de dados relacionais. É um repositório centralizado para armazenamento de dados. Data Resp.: 05/11/2022 01:16:46 Explicação: O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento. 02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON 5. A utilização do SparkContext é opcional. A execução do trecho de código vai gerar um erro. A variável "teste" corresponde a um RDD. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". 05/11/2022 01:30 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina. Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python? No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Data Resp.: 05/11/2022 01:18:34 Explicação: Gabarito: A variável "teste" corresponde a um RDD. Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". 6. MLlib RDDs Spark Learning GraphX Learning MLSpark Data Resp.: 05/11/2022 01:26:09 Explicação: Gabarito: MLlib Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes. 02260ANÁLISE DE DADOS EM PYTHON COM PANDAS 7. Gerenciador de memória do Python. Gerenciador de espaços virtuais do Python. Biblioteca de Processamento de Linguagem Natural. Gerenciador de Pacotes do Python. Motor de Busca da IDE do Python. Data Resp.: 05/11/2022 01:27:48 Explicação: O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes. 8. Atemporais Temporais Semi-Estruturados 05/11/2022 01:30 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn? As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) Categóricos Numéricos Data Resp.: 05/11/2022 01:19:46 Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. 02318BIG DATA ANALYTICS 9. cout print plot_tree console.log printf Data Resp.: 05/11/2022 01:25:08 Explicação: Através do método plot_tree do módulo scikit-learn.DecisionTreeClassifier, podemos importar o plot_tree para visualizar a árvore de decisão gerada pelo algoritmo homônimo. 10. Função de Ativação Camada de Saída Camadas Escondidas Pesos Vieses Data Resp.: 05/11/2022 01:20:27 Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados.Não Respondida Não Gravada Gravada Exercício inciado em 05/11/2022 01:05:59.
Compartilhar