Baixe o app para aproveitar ainda mais
Prévia do material em texto
26/04/2022 06:50 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/4 Teste de Conhecimento avalie sua aprendizagem A respeito das aplicações de fluxos de dados, selecione a opção correta. Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202007044991_TEMAS Aluno: RAQUELLE MACHADO CAMPOS Matr.: 202007044991 Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. Reapresentação de programas de televisão. Serviço de correio eletrônico Transações bancárias, como o serviço de PIX. Serviços sob demanda, como serviços de filme online. Serviços de compras online Data Resp.: 26/04/2022 07:48:29 Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. 2. Microsft Azure Oracle Cloud IBM Cloud Google Cloud Amazon AWS Data Resp.: 26/04/2022 07:48:54 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. javascript:voltar(); javascript:voltar(); javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); 26/04/2022 06:50 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/4 A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas. Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop. Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de 3. Camada de ingestão Task manager HDFS MapReduce Mrjob Data Resp.: 26/04/2022 07:49:05 Explicação: O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas. 4. A estrutura de desenvolvimento no Hadoop é sequencial. O Hadoop não funciona com pequenos volumes de dados. O Hadoop tem apenas uma única distribuição. Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados. O Hadoop utiliza o HDFS para armazenar dados. Data Resp.: 26/04/2022 07:49:12 Explicação: O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS). 5. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A execução do trecho de código vai gerar um erro. A utilização do SparkContext é opcional. A variável "teste" corresponde a um RDD. A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". Data Resp.: 26/04/2022 07:49:24 Explicação: Gabarito: A variável "teste" corresponde a um RDD. Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". 6. 26/04/2022 06:50 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/4 maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Sobre o Pandas DataFrame o que podemos afirmar? I - É o coletivo de séries temporais pandas.Series II - É a estrutura de dados que representa os dados em painel III - É uma matriz conjunto de vetores IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina. Analise as frases listadas e assinale a alternativa correta. Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? Agregação Processamento Mapeamento Redução Separação Data Resp.: 26/04/2022 07:49:32 Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. 7. Todas as opções I, II, III, IV. Apenas as opções I, II, III. Apenas as opções II, III. Apenas a opção III. Apenas as opções I, II, IV. Data Resp.: 26/04/2022 07:49:39 Explicação: A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina. 8. values set_index merge sum reset_index Data Resp.: 26/04/2022 07:50:20 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. 26/04/2022 06:50 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/4 Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados III - A obrigatoriedade da entrega de um artefato de ML As técnicas de aprendizado de máquina para aprendizado supervisionado são: I - Classificação II - Agrupamento III - Regressão 9. Apenas a opção I Apenas as opções I e III Apenas a opção II As opções I, II, e III estão corretas Apenas as opções II e III Data Resp.: 26/04/2022 07:50:38 Explicação: O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML. 10. Apenas II e III Apenas I e III Apenas I Apenas I e II Apenas II Data Resp.: 26/04/2022 07:50:50 Explicação: O aprendizado supervisionado contempladuas técnicas que são a de classificação, em que o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros, baseado no registro histórico e suas características. Não Respondida Não Gravada Gravada Exercício inciado em 26/04/2022 07:46:17.
Compartilhar