Teste_Conhecimento_Tópicos_Big_Data

•

ESTÁCIO

2

0

2

0

João Batista Bejarano

23/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.864 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

23/04/22, 00:41 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5
Teste de
Conhecimento
avalie sua aprendizagem
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de
Big Data.
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de transações
bancárias.
TÓPICOS DE BIG DATA EM PYTHON
Lupa Calc.

EEX0174_202001039252_TEMAS

Aluno: JOÃO BATISTA MATTOS BEJARANO Matr.: 202001039252
Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX

Prezado (a) Aluno(a),

Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua
avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se
familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.
Terabytes
Petabytes
Zetabytes
Exabytes
Gigabytes
Data Resp.: 23/04/2022 00:22:26

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data.
As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.

2.
dados não estruturados
dados de Big Data
dados semiestruturados
dados de Internet das Coisas
dados estruturados
Data Resp.: 23/04/2022 00:22:40

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que
são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam de
dados não convencionais que não são armazenados em bancos de dados tradicionais.

javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
23/04/22, 00:41 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional
de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop.
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione
a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina.
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do
componente que pode ser tratado com o Spark SQL.

3.
HDFS
Task manager
Camada de ingestão
Mrjob
MapReduce
Data Resp.: 23/04/2022 00:27:07

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de
tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o
Hadoop, não possuem a funcionalidade de rastreamento de tarefas.

4.
O Hadoop tem apenas uma única distribuição.
O Hadoop não funciona com pequenos volumes de dados.
A estrutura de desenvolvimento no Hadoop é sequencial.
O Hadoop utiliza o HDFS para armazenar dados.
Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.
Data Resp.: 23/04/2022 00:27:43

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File
System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos
sistemas gerenciadores de bancos de dados relacionais (RDBMS).

5.
GraphX Learning
Spark Learning
RDDs
MLlib
MLSpark
Data Resp.: 23/04/2022 00:31:43

Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos
estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big
data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs
são componentes para conjunto de dados resilientes.

6.
Executor
Work Node
23/04/22, 00:41 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da
linguagem Python?
RDD
Tasks
DAG
Data Resp.: 23/04/2022 00:32:36

Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para
manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável
pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam
as tarefas que são as Tasks, ou seja, subdivisões do processo.

7.
Apenas a opção II está correta.
Apenas as opções I e III estão corretas.
Apenas a opção I está correta.
Apenas a opção III está correta.
Apenas as opções II e III estão corretas.
Data Resp.: 23/04/2022 00:35:44

Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas
dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma
boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção
sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos
falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a
entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.

8.
Gerenciador de espaços virtuais do Python.
Biblioteca de Processamento de Linguagem Natural.
Gerenciador de Pacotes do Python.
Motor de Busca da IDE do Python.
Gerenciador de memória do Python.
Data Resp.: 23/04/2022 00:36:07

Explicação:
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via
comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar
espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de
programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de
pacotes.

23/04/22, 00:41 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
No modelo de aprendizado profundo, as camadas internas ocultas representam:

I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?

9.
Apenas II e III

Apenas I

Apenas III

Apenas I e III

As alternativas I, II e III

Data Resp.: 23/04/2022 00:38:43

Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair
automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo
combinações de aspectos descobertos em camadas anteriores.

alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelosde aprendizado
profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações
de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos
descobertos em camadas anteriores.

A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito
de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de
dinâmicas internas das partes e devolve informação relevante ao usuário final.

A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto
nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas
mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.

10.
Q-Learning
Agrupamento
Modelos Generativos
Regressão
Classificação
Data Resp.: 23/04/2022 00:41:12

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que
pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da
técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para
regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.

23/04/22, 00:41 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5

Não Respondida Não Gravada Gravada

Exercício inciado em 23/04/2022 00:22:06.