Tópico Big Data em Python - Teste de Conhecimento

•

ESTÁCIO

0

paulo oliveira Oliveira

05/11/2022

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão de Segurança da Informação

13.558 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

05/11/2022 01:30 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5
Teste de
Conhecimento
avalie sua aprendizagem
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de
transações bancárias.
Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do
processamento dos dados.
TÓPICOS DE BIG DATA EM PYTHON
Lupa Calc.

EEX0174_202007430603_TEMAS

Aluno: PAULO TAVARES DE OLIVEIRA Matr.: 202007430603
Disc.: TÓP BIG EM PYT 2022.3 EAD (GT) / EX
Prezado (a) Aluno(a),
Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá
ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma.
Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS.

02727PRINCÍPIOS DE BIG DATA

1.
dados não estruturados
dados estruturados
dados de Big Data
dados de Internet das Coisas
dados semiestruturados
Data Resp.: 05/11/2022 01:07:13

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados
estruturados, que são típicos de sistemas de transações on line armazenados em banco de dados. As
demais alternativas tratam de dados não convencionais que não são armazenados em bancos de
dados tradicionais.

2.
velocidade
valor
volume
variedade
veracidade
Data Resp.: 05/11/2022 01:13:17

Explicação:
javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
05/11/2022 01:30 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável
pela geração de pares intermediários de valor e chave.
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta que define resumidamente o que é o Data Lake.
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz
respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume
significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à
confiabilidade da origem dos dados.

02508HADOOP E ARMAZENAMENTO DE DADOS

3.
Gravação da saída
Agrupamento
Redução
Combinação
Embaralhamento
Data Resp.: 05/11/2022 01:15:15

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o
mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos
para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.

4.
É um repositório para tratamento dos dados.
É uma tecnologia de armazenamento e processamento de dados.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce
para fazer o gerenciamento dos dados.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
É um repositório centralizado para armazenamento de dados.
Data Resp.: 05/11/2022 01:16:46

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos:
estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.

02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON

5.
A utilização do SparkContext é opcional.
A execução do trecho de código vai gerar um erro.
A variável "teste" corresponde a um RDD.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
05/11/2022 01:30 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em
aplicações de aprendizado de máquina.
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel
do sistema pip da linguagem Python?
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como
que tipo de dados?
Data Resp.: 05/11/2022 01:18:34

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso,
é representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote
"numpy" foi utilizado por causa da variável vetor "a".

6.
MLlib
RDDs
Spark Learning
GraphX Learning
MLSpark
Data Resp.: 05/11/2022 01:26:09

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar
algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de
máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são
componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes.

02260ANÁLISE DE DADOS EM PYTHON COM PANDAS

7.
Gerenciador de memória do Python.
Gerenciador de espaços virtuais do Python.
Biblioteca de Processamento de Linguagem Natural.
Gerenciador de Pacotes do Python.
Motor de Busca da IDE do Python.
Data Resp.: 05/11/2022 01:27:48

Explicação:
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los
via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de
gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE,
não de linguagem de programação. O processamento de linguagem natural é função de biblioteca,
diferente de gerenciamento de pacotes.

8.
Atemporais
Temporais
Semi-Estruturados
05/11/2022 01:30 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus
conhecimentos é(são)
Categóricos
Numéricos
Data Resp.: 05/11/2022 01:19:46

Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser
operada por funções de soma, média etc., representa um conceito ou extrato/proporção de
aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por
exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o
contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados.

02318BIG DATA ANALYTICS

9.
cout
print
plot_tree
console.log
printf
Data Resp.: 05/11/2022 01:25:08

Explicação:
Através do método plot_tree do módulo scikit-learn.DecisionTreeClassifier, podemos importar o
plot_tree para visualizar a árvore de decisão gerada pelo algoritmo homônimo.

10.
Função de Ativação
Camada de Saída
Camadas Escondidas
Pesos
Vieses
Data Resp.: 05/11/2022 01:20:27

Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou
escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação
que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações
com base em registros passados.Não Respondida Não Gravada Gravada

Exercício inciado em 05/11/2022 01:05:59.