prova simulada nota 10 TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

2

0

2

0

5

Mirley Costa Silva

06/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

823 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): MIRLEY DA COSTA SILVA 202003047597
Acertos: 10,0 de 10,0 05/06/2022

Acerto: 1,0 / 1,0
Em relação ao formato dos dados, selecione a opção correta que corresponde ao formato dos dados de
transações bancárias.
dados semiestruturados
dados de Big Data
dados estruturados
dados não estruturados
dados de Internet das Coisas
Respondido em 05/06/2022 23:03:01

Explicação:
Os dados de transações bancárias são salvos em tabelas e, portanto, correspondem a dados estruturados, que
são típicos de sistemas de transações on line armazenados em banco de dados. As demais alternativas tratam
de dados não convencionais que não são armazenados em bancos de dados tradicionais.

Acerto: 1,0 / 1,0
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
É um ecossistema que envolve software e hardware
É um protocolo de internet das coisas
É um programa
É o outro nome para Raspberry PI
É uma placa de hardware
Respondido em 05/06/2022 23:04:12

Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto,
não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI
não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas.

Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();

Acerto: 1,0 / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta que define resumidamente o que é o Data Lake.
É um ambiente para tratamento e armazenamento apenas de dados relacionais.
Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para
fazer o gerenciamento dos dados.
É uma tecnologia de armazenamento e processamento de dados.
É um repositório centralizado para armazenamento de dados.
É um repositório para tratamento dos dados.
Respondido em 05/06/2022 23:04:49

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não
estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.

Acerto: 1,0 / 1,0
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta a respeito do Data Lake.
Aplicam processos de tratamento nos dados.
Armazenam os dados de modo eficiente.
São exclusivos da distribuição Hadoop Apache.
Demandam por equipamentos especiais.
Possui alta latência para acesso dos dados.
Respondido em 05/06/2022 23:05:07

Explicação:
O Data Lake utiliza um método muito eficiente para fazer o armazenamento dos dados. Dessa forma ele possui
baixa latência para acessar os dados. Além disso, o Data Lake não demanda por equipamentos especiais e não
é de uso exclusivo da distribuição Hadoop Apache.

Acerto: 1,0 / 1,0
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em
aplicações de aprendizado de máquina.
RDDs
Spark Learning
MLSpark
GraphX Learning
MLlib
Respondido em 05/06/2022 23:07:48

Explicação:
Gabarito: MLlib
Questão3
a
Questão4
a
Questão5
a
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar
algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em
projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do
Spark. Os RDDs são componentes para conjunto de dados resilientes.

Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A utilização do SparkContext é opcional.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
A execução do trecho de código vai gerar um erro.
A variável "teste" corresponde a um RDD.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
Respondido em 05/06/2022 23:08:48

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é
representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi
utilizado por causa da variável vetor "a".

Acerto: 1,0 / 1,0
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual
o método utilizado para fazer a junção entre DataFrames no pandas?
values
reset_index
sum
set_index
merge
Respondido em 05/06/2022 23:09:50

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome,
ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de
junção entre DataFrames.

Acerto: 1,0 / 1,0
Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do
sistema pip da linguagem Python?
Motor de Busca da IDE do Python.
Questão6
a
Questão7
a
Questão8
a
Biblioteca de Processamento de Linguagem Natural.
Gerenciador de memória do Python.
Gerenciador de Pacotes do Python.
Gerenciador de espaços virtuais do Python.
Respondido em 05/06/2022 23:10:40

Explicação:
O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via
comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar
espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de
programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de
pacotes.

Acerto: 1,0 / 1,0
Quais os métodos de aprendizado de máquina que existem?
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
Respondido em 05/06/2022 23:11:57

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a
partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair
padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o
ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.

Acerto: 1,0 / 1,0
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
Modelos Generativos
Q-Learning
Classificação
Regressão
Agrupamento
Respondido em 05/06/2022 23:13:00

Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina
que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo
da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para
regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.

Questão9
a
Questão10
a
javascript:abre_colabore('38403','287158345','5491204921');

javascript:abre_colabore('38403','287158345','5491204921');