Tópicos de Big Data em Python - SIMULADO

•

ESTÁCIO

9

0

9

0

Artur Junior

13/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.826 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a computação se refere à execução de aplicações e serviços
em uma rede distribuída usando recursos virtualizados.

Computação centralizada

Computação de banco de dados

Computação de Big Data
Computação em Nuvem

Computação Paralela

Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões
de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente
com protocolos de internet.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações
de internet das coisas.

Camada de transporte

Camada de enlace de dados

Camada lógica

Camada de sessão

Camada de aplicação

Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações
e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma
que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não
existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A
camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a
camada de aplicação é responsável pela comunicação fim-a-fim entre processos.

3a
Questão
Acerto: 1,0 / 1,0

Selecione a opção que indica o processo responsável por executar uma tarefa atribuída
a ele pelo Job Tracker.

MapJob
Task Tracker

Job Tracker Slave

MapReduce

MapTracker

Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o
TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para
JobTracker, além de fazer o seu rastreamento.

4a
Questão
Acerto: 1,0 / 1,0

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente
responsável pela geração de pares intermediários de valor e chave.

Redução

Gravação da saída
Embaralhamento

Combinação

Agrupamento

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês
"shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave
que são transferidos para a fase de redução, o que é realizado em paralelo com outras
tarefas da fase de mapeamento.

5a
Questão
Acerto: 1,0 / 1,0

O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos
frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a
opção correta.

Consiste em uma técnica de programação sequencial

É uma técnica lenta para processamento de grandes volumes de dados

Só pode ser aplicada para grandes volumes de dados
É uma técnica de computação distribuída

Foi substituída no Spark por acesso direto à memória

Explicação:
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de
clássica ainda é considerada muito eficiente para processamento de grandes volumes de
dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada
para menores volumes, mas não é apropriada para esses casos.

6a
Questão
Acerto: 1,0 / 1,0

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos
com finalidades específicas. Nesse sentido, selecione a opção que contém o componente
responsável por estabelecer uma conexão com o Cluster.

Spark.Catalog
SparkContext

DataFrame

RDD

SparkSession

Explicação:
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o
SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão
nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa
trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar
um catálogo de metadados de entidades relacionais.

7a
Questão
Acerto: 1,0 / 1,0

Eduardo quer mostrar aos gestores da empresa como as ações da carteira de
investimentos recomendada que ele e o time dele propuseram estão valorizando e
gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de
______, pois está lidando com dados ________ e quer mostrar o quão bem as
recomendações geradas por seu time estão evoluindo.
Respectivamente a resposta que completa as duas lacunas é:

Linha; Categóricos

Pizza; Categóricos
Linha; Temporais

Linha; Numéricos

Pizza; Numéricos

Explicação:
O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer
mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os
dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a
dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos
lidando com a cronologia, logo são dados temporais. O tipo de dados em que números
variam no tempo não pode ser classificado como tipo categórico.

8a
Questão
Acerto: 1,0 / 1,0

A visualização dos dados é fundamental no processo de análise, interpretação e
obtenção de conhecimento. Dentre as visualizações mais adequadas para dados
numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.

Apenas III

Apenas I e III

Apenas II e III
As alternativas I, II e III
Apenas I e II

Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das
variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para
dados categóricos, quando queremos mostrar proporção e valores distintos de categorias
possíveis.

9a
Questão
Acerto: 1,0 / 1,0

Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?

KDD-DM.

SIGM.

KDM.

SIGKDD.
CRISP-DM.

Explicação:
O processo de tamanho similar ao KDD cujo âmbito industrial se beneficia mais devido à
suas etapas de entendimento do negócio é o CRISP-DM, processo esse que, diferentemente
do KDD, contempla a entrega do artefato de aprendizado de máquina.

10a
Questão
Acerto: 1,0 / 1,0

Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?

I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-
Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML

Apenas a opção I

Apenas a opção II
As opções I, II, e III estão corretas

Apenas as opções I e III

Apenas as opções II e III

Explicação:
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das
etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de
três etapas de preparação de dados para uma, e, finalmente, o comprometimento do
processo CRISP-DM de entregar um artefato de ML.