Baixe o app para aproveitar ainda mais
Prévia do material em texto
TÓPICOS DE BIG DATA EM PYTHON Lupa Calc. Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX Prezado (a) Aluno(a), Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha. Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS. 1. A respeito das aplicações de fluxos de dados, selecione a opção correta. Serviços de compras online Transações bancárias, como o serviço de PIX. Serviços sob demanda, como serviços de filme online. Serviço de correio eletrônico Reapresentação de programas de televisão. Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. 2. Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. IBM Cloud Microsft Azure Oracle Cloud Google Cloud Amazon AWS Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp javascript:diminui(); javascript:aumenta(); javascript:calculadora_on(); 3. Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker. Task Tracker MapReduce MapJob Job Tracker Slave MapTracker Explicação: O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento. 4. Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave. Redução Embaralhamento Combinação Agrupamento Gravação da saída Explicação: Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 5. Observe o trecho de código abaixo import numpy as np from pyspark import SparkContext spark_contexto = SparkContext() a = np.array([1, 5, 1, 6, 4, 7, 7]) teste = spark_contexto.parallelize(a) Selecione a opção correta a respeito dele. A utilização do SparkContext é opcional. https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". A execução do trecho de código vai gerar um erro. A variável "teste" corresponde a um RDD. Explicação: Gabarito: A variável "teste" corresponde a um RDD. Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por causa da variável vetor "a". 6. O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Processamento Redução Separação Mapeamento Agregação Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. 7. Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos? Gráficos de Linha. Gráfico de Faces de Chernoff. Gráficos de Barra. Gráfico de Matriz de Dispersão. Gráfico de Estrela. Explicação: https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp O gráfico de barras mostra as proporções dos dados categóricos assim evidenciando os extratos da amostra. Lembrando que os dados categóricos não se encaixam nos gráficos de dados numéricos, como o de dispersão causando confusão na função de visualização ou quebrando a mesma dependendo da biblioteca escolhida. 8. No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Semi-Estruturados Atemporais Temporais Numéricos Categóricos Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. 9. A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence? Q-Learning Agrupamento Classificação Regressão Modelos Generativos Explicação: O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora. 10. No modelo de aprendizado profundo, as camadas internas ocultas representam: https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp I - Abstrações de aspectos de dados complexos II - Informação relevante dos dados de entrada III - Pesos e Viéses Apenas III As alternativas I, II e III Apenas I Apenas II e III Apenas I e III Explicação: Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. alternativa I - Abstrações de aspectos de dados complexos ¿está correta pois os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores. A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final. A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes. Não Respondida Não Gravada Gravada
Compartilhar