Buscar

Tópicos de Big Data em Python - SIMULADO

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção em que a computação se refere à execução de aplicações e serviços 
em uma rede distribuída usando recursos virtualizados. 
 
 
Computação centralizada 
 
Computação de banco de dados 
 
Computação de Big Data 
 Computação em Nuvem 
 
Computação Paralela 
 
Explicação: 
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões 
de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente 
com protocolos de internet. 
 
 
2a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações 
de internet das coisas. 
 
 Camada de transporte 
 
Camada de enlace de dados 
 
Camada lógica 
 
Camada de sessão 
 
Camada de aplicação 
 
Explicação: 
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações 
e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma 
que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não 
existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A 
camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a 
camada de aplicação é responsável pela comunicação fim-a-fim entre processos. 
 
 
3a 
 Questão 
Acerto: 1,0 / 1,0 
 
Selecione a opção que indica o processo responsável por executar uma tarefa atribuída 
a ele pelo Job Tracker. 
 
 
MapJob 
 Task Tracker 
 
Job Tracker Slave 
 
MapReduce 
 
MapTracker 
 
Explicação: 
O JobTracker envia as informações necessárias para a execução de uma tarefa para o 
TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para 
JobTracker, além de fazer o seu rastreamento. 
 
 
4a 
 Questão 
Acerto: 1,0 / 1,0 
 
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente 
responsável pela geração de pares intermediários de valor e chave. 
 
 
Redução 
 
Gravação da saída 
 Embaralhamento 
 
Combinação 
 
Agrupamento 
 
Explicação: 
Através do processo de embaralhamento, também conhecido pelo termo em inglês 
"shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave 
que são transferidos para a fase de redução, o que é realizado em paralelo com outras 
tarefas da fase de mapeamento. 
 
 
5a 
 Questão 
Acerto: 1,0 / 1,0 
 
O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos 
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a 
opção correta. 
 
 
Consiste em uma técnica de programação sequencial 
 
É uma técnica lenta para processamento de grandes volumes de dados 
 
Só pode ser aplicada para grandes volumes de dados 
 É uma técnica de computação distribuída 
 
Foi substituída no Spark por acesso direto à memória 
 
Explicação: 
Gabarito: É uma técnica de computação distribuída 
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de 
clássica ainda é considerada muito eficiente para processamento de grandes volumes de 
dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada 
para menores volumes, mas não é apropriada para esses casos. 
 
 
 
 
6a 
 Questão 
Acerto: 1,0 / 1,0 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos 
com finalidades específicas. Nesse sentido, selecione a opção que contém o componente 
responsável por estabelecer uma conexão com o Cluster. 
 
 
Spark.Catalog 
 SparkContext 
 
DataFrame 
 
RDD 
 
SparkSession 
 
Explicação: 
Gabarito: SparkContext 
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o 
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão 
nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa 
trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar 
um catálogo de metadados de entidades relacionais. 
 
 
7a 
 Questão 
Acerto: 1,0 / 1,0 
 
Eduardo quer mostrar aos gestores da empresa como as ações da carteira de 
investimentos recomendada que ele e o time dele propuseram estão valorizando e 
gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de 
______, pois está lidando com dados ________ e quer mostrar o quão bem as 
recomendações geradas por seu time estão evoluindo. 
Respectivamente a resposta que completa as duas lacunas é: 
 
 
Linha; Categóricos 
 
Pizza; Categóricos 
 Linha; Temporais 
 
Linha; Numéricos 
 
Pizza; Numéricos 
 
Explicação: 
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer 
mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os 
dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a 
dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos 
lidando com a cronologia, logo são dados temporais. O tipo de dados em que números 
variam no tempo não pode ser classificado como tipo categórico. 
 
 
 
 
 
 
 
8a 
 Questão 
Acerto: 1,0 / 1,0 
 
A visualização dos dados é fundamental no processo de análise, interpretação e 
obtenção de conhecimento. Dentre as visualizações mais adequadas para dados 
numéricos estão: 
I - Histograma 
II - Gráfico de Dispersão 
III - Gráfico de Pizza 
Analise as alternativas listadas e assinale a correta. 
 
 
Apenas III 
 
Apenas I e III 
 
Apenas II e III 
 As alternativas I, II e III 
 Apenas I e II 
 
Explicação: 
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das 
variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para 
dados categóricos, quando queremos mostrar proporção e valores distintos de categorias 
possíveis. 
 
 
9a 
 Questão 
Acerto: 1,0 / 1,0 
 
Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial? 
 
 
KDD-DM. 
 
SIGM. 
 
KDM. 
 
SIGKDD. 
 CRISP-DM. 
 
Explicação: 
O processo de tamanho similar ao KDD cujo âmbito industrial se beneficia mais devido à 
suas etapas de entendimento do negócio é o CRISP-DM, processo esse que, diferentemente 
do KDD, contempla a entrega do artefato de aprendizado de máquina. 
 
 
 
 
 
 
 
 
 
10a 
 Questão 
Acerto: 1,0 / 1,0 
 
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? 
 
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML 
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-
Processamento e Transformação de Dados 
III - A obrigatoriedade da entrega de um artefato de ML 
 
 
Apenas a opção I 
 
Apenas a opção II 
 As opções I, II, e III estão corretas 
 
Apenas as opções I e III 
 
Apenas as opções II e III 
 
Explicação: 
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das 
etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de 
três etapas de preparação de dados para uma, e, finalmente, o comprometimento do 
processo CRISP-DM de entregar um artefato de ML.

Continue navegando