Baixe o app para aproveitar ainda mais
Prévia do material em texto
Teste de Conhecimento avalie sua aprendizagem Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. A respeito das aplicações de fluxos de dados, selecione a opção correta. TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. EEX0174_202101172442_TEMAS Aluno: ULYSSES FERREIRA SERRA Matr.: 202101172442 Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. IBM Cloud Google Cloud Oracle Cloud Amazon AWS Microsft Azure Data Resp.: 30/03/2022 14:19:38 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. 2. Serviços sob demanda, como serviços de filme online. Reapresentação de programas de televisão. Serviços de compras online Transações bancárias, como o serviço de PIX. Serviço de correio eletrônico Data Resp.: 30/03/2022 14:19:47 Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. javascript:voltar(); javascript:voltar(); javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop. O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de 3. Lua Perl Python Java Script Java Data Resp.: 30/03/2022 14:19:54 Explicação: O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da Apache Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas linguagens, entre as quais o Python. 4. Aplicar políticas de segurança. Mecanismo para melhorar o processamento dos dados. Tratar dados não-estruturados. Processos de extração, transformação e carregamento dos dados. Gerenciamento do armazenamento de dados. Data Resp.: 30/03/2022 14:20:03 Explicação: O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa. 5. A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". A variável "teste" corresponde a um RDD. O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A execução do trecho de código vai gerar um erro. A utilização do SparkContext é opcional. Data Resp.: 30/03/2022 14:20:11 Explicação: Gabarito: A variável "teste" corresponde a um RDD. Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". 6. maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas? A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação? No modelo de aprendizado profundo, as camadas internas ocultas representam: I - Abstrações de aspectos de dados complexos II - Informação relevante dos dados de entrada III - Pesos e Viéses Redução Agregação Processamento Separação Mapeamento Data Resp.: 30/03/2022 14:20:20 Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. 7. values set_index sum reset_index merge Data Resp.: 30/03/2022 14:20:28 Explicação: O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames. 8. O DataFrame é indexado pelas suas colunas. Nada, o DataFrame fica imutável. Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação. O DataFrame é embaralhado. As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha. Data Resp.: 30/03/2022 14:20:36 Explicação: Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o reset_index() após a agregação, os índices originais das colunas são preservados. 9. As técnicas de aprendizado de máquina para aprendizado supervisionado são: I - Classificação II - Agrupamento III - Regressão As alternativas I, II e III Apenas I e III Apenas I Apenas III Apenas II e III Data Resp.: 30/03/2022 14:20:45 Explicação: Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final. A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes. 10. Apenas II Apenas I Apenas I e III Apenas I e II Apenas II e III Data Resp.: 30/03/2022 14:20:55 Explicação: O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta aprender acategorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros, baseado no registro histórico e suas características. Não Respondida Não Gravada Gravada Exercício inciado em 30/03/2022 14:19:30.
Compartilhar