Buscar

Tópicos de Big Data em Python - TESTE


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

1. 
 
 
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como 
referência para as outras plataformas. 
 
 
IBM Cloud 
 
 
Microsft Azure 
 
 
Google Cloud 
 
 
Amazon AWS 
 
 
Oracle Cloud 
 
 
Explicação: 
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como 
principal referência do mercado. As outras plataformas também são muito importantes e, junto 
com a Amazon, detém boa fatia do mercado. 
 
 
 
 
 
2. 
 
 
A respeito das aplicações de fluxos de dados, selecione a opção correta. 
 
 
 
Serviços de compras online 
 
 
Reapresentação de programas de televisão. 
 
 
Transações bancárias, como o serviço de PIX. 
 
 
Serviço de correio eletrônico 
 
 
Serviços sob demanda, como serviços de filme online. 
 
 
Explicação: 
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em 
partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções 
estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são 
usados apenas esporadicamente. 
 
 
 
 
 
3. 
 
 
Em relação ao Hadoop, selecione a opção correta que trata da otimização da relação custo e benefício a 
respeito da expansão de uma infraestrutura. 
 
 
Volume de dados 
 
 
Escalabilidade 
 
 
Tempo de resposta 
 
 
Flexibilidade 
 
 
Variedade dos dados 
 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
Explicação: 
A escalabilidade trata da expansão de um sistema. Essa situação é bastante comum em projetos 
de Big Data. No caso do Hadoop, ele pode utilizar equipamentos comuns, como computadores 
pessoais formando clusters de escalabilidade horizontal. 
 
 
 
 
 
4. 
 
 
Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo 
que trata das configurações do HDFS. 
 
 
yarn-site.xml 
 
 
mapred-site.xml 
 
 
hdfs-site.xml 
 
 
hadoop-env.cmd 
 
 
core-site.xml 
Data Resp.: 07/04/2022 11:34:39 
 
Explicação: 
O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para 
processos do HDFS. Ele também é responsável por fazer a especificação da replicação de bloco 
padrão e verificação de permissão no HDFS. 
 
 
 
 
 
5. 
 
 
Observe o trecho de código abaixo 
import numpy as np 
from pyspark import SparkContext 
spark_contexto = SparkContext() 
a = np.array([1, 5, 1, 6, 4, 7, 7]) 
teste = spark_contexto.parallelize(a) 
Selecione a opção correta a respeito dele. 
 
 
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a". 
 
 
A execução do trecho de código vai gerar um erro. 
 
 
A variável "teste" corresponde a um RDD. 
 
 
A utilização do SparkContext é opcional. 
 
 
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a". 
 
Explicação: 
Gabarito: A variável "teste" corresponde a um RDD. 
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no 
caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O 
pacote "numpy" foi utilizado por causa da variável vetor "a". 
 
 
 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
6. 
 
 
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes 
conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, 
selecione a opção que é responsável por consolidar os resultados produzidos ao longo do 
processamento. 
 
 
Redução 
 
 
Mapeamento 
 
 
Processamento 
 
 
Agregação 
 
 
Separação 
 
 
Explicação: 
Gabarito: Redução 
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o 
processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é 
bastante utilizada por diversos frameworks como o Spark, por exemplo. 
 
 
 
7. 
 
 
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para 
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como 
que tipo de dados? 
 
 
Categóricos 
 
 
Semi-Estruturados 
 
 
Temporais 
 
 
Atemporais 
 
 
Numéricos 
 
 
Explicação: 
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser 
operada por funções de soma, média etc., representa um conceito ou extrato/proporção de 
aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria 
por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não 
tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos 
dados. 
 
 
 
8. 
 
 
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos 
recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos 
clientes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e 
quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. 
Respectivamente a resposta que completa as duas lacunas é: 
 
 
Pizza; Numéricos 
 
 
Linha; Categóricos 
 
 
Linha; Temporais 
 
 
Pizza; Categóricos 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
 
 
Linha; Numéricos 
 
 
Explicação: 
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer mostrar 
cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os dados em 
questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a dados temporais. 
Os dados não são simplesmente numéricos pois, em essência, estamos lidando com a cronologia, 
logo são dados temporais. O tipo de dados em que números variam no tempo não pode ser 
classificado como tipo categórico. 
 
 
 
9. 
 
 
Qual o objetivo da inteligência artificial ao simular comportamentos humanos na máquina? 
 
 
 
Fazer com que computadores acessem a internet mais rápido. 
 
 
Incrementar o uso da memória de longa duração do sistema. 
 
 
Viabilizar a computação paralela. 
 
 
Melhorar a capacidade de processamento de dados do sistema. 
 
 
Otimizar algoritmos para que eles se adaptem a contextos não previamente codificados. 
 
 
Explicação: 
A razão por trás da existência da inteligência artificial é criar algoritmos e soluções capazes de se 
adaptar a novas situações que não necessariamente foram pré-programadas, mas se adapte pela 
experiência passada com casos similares. 
 
 
 
10. 
 
 
Qual destes modelos é adequado para um problema de classificação? 
I - SVM 
II - Árvore de Decisão 
III - K-Médias 
 
 
Todas as opções I, II e III 
 
 
Apenas as opções I e II 
 
 
Apenas as opções I e III 
 
 
Apenas a opção III 
 
 
Apenas as opções II e III 
 
 
Explicação: 
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e 
a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes 
neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado. 
 
 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp