teste de conhecimento TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

4

0

4

0

Francisco Júnior

21/03/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.800 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

TÓPICOS DE BIG DATA EM PYTHON

Lupa Calc.

Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX

Prezado (a) Aluno(a),

Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não
valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma.
Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.

A respeito das aplicações de fluxos de dados, selecione a opção correta.

Serviços de compras online

Transações bancárias, como o serviço de PIX.

Serviços sob demanda, como serviços de filme online.

Serviço de correio eletrônico

Reapresentação de programas de televisão.

Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em
partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções
estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são
usados apenas esporadicamente.

2.

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como
referência para as outras plataformas.

IBM Cloud

Microsft Azure

Oracle Cloud

Google Cloud

Amazon AWS

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como
principal referência do mercado. As outras plataformas também são muito importantes e, junto
com a Amazon, detém boa fatia do mercado.

https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();

3.

Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job
Tracker.

Task Tracker

MapReduce

MapJob

Job Tracker Slave

MapTracker

Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o
TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker,
além de fazer o seu rastreamento.

4.

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela
geração de pares intermediários de valor e chave.

Redução

Embaralhamento

Combinação

Agrupamento

Gravação da saída

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o
mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são
transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de
mapeamento.

5.

Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.

A utilização do SparkContext é opcional.
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp

O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".

A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".

A execução do trecho de código vai gerar um erro.

A variável "teste" corresponde a um RDD.

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que,
no caso, é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O
pacote "numpy" foi utilizado por causa da variável vetor "a".

6.

O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes
conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce,
selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.

Processamento

Redução

Separação

Mapeamento

Agregação

Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo
o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e
é bastante utilizada por diversos frameworks como o Spark, por exemplo.

7.

Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e
símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos?

Gráficos de Linha.

Gráfico de Faces de Chernoff.

Gráficos de Barra.

Gráfico de Matriz de Dispersão.

Gráfico de Estrela.

Explicação:
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
O gráfico de barras mostra as proporções dos dados categóricos assim evidenciando os extratos
da amostra. Lembrando que os dados categóricos não se encaixam nos gráficos de dados
numéricos, como o de dispersão causando confusão na função de visualização ou quebrando a
mesma dependendo da biblioteca escolhida.

8.

No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas
como que tipo de dados?

Semi-Estruturados

Atemporais

Temporais

Numéricos

Categóricos

Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser
operada por funções de soma, média etc., representa um conceito ou extrato/proporção de
aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da
matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria
correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao
modelarmos nossos dados.

9.

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?

Q-Learning

Agrupamento

Classificação

Regressão

Modelos Generativos

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado
de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda
sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore
de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de
Decisão Regressora.

10.

No modelo de aprendizado profundo, as camadas internas ocultas representam:
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp

I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses

Apenas III

As alternativas I, II e III

Apenas I

Apenas II e III

Apenas I e III

Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas
internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como
uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas
anteriores.

alternativa I - Abstrações de aspectos de dados complexos ¿está correta pois os modelos de
aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair
automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma
curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.

A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar
relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe
dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve
informação relevante ao usuário final.

A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar
abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais
artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as
camadas subsequentes.

Não Respondida Não Gravada Gravada