SIMULADO DE TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

0

Girl Gamer

30/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.841 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

30/05/2022 00:19 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/5
Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): SORAIA RAQUEL CARDOSO SILVA 202007118502
Acertos: 7,0 de 10,0 20/04/2022

Acerto: 1,0 / 1,0
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência
para as outras plataformas.
Oracle Cloud
Google Cloud
Amazon AWS
IBM Cloud
Microsft Azure
Respondido em 20/04/2022 17:54:01

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do
mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.

Acerto: 1,0 / 1,0
A respeito das aplicações de fluxos de dados, selecione a opção correta.
Reapresentação de programas de televisão.
Serviço de correio eletrônico
Serviços sob demanda, como serviços de filme online.
Transações bancárias, como o serviço de PIX.
Serviços de compras online
Respondido em 20/04/2022 17:54:08

Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e
reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de
serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente.

Acerto: 0,0 / 1,0
Questão1
a
Questão2
a
Questão3
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
30/05/2022 00:19 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/5
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
MapReduce
Camada de ingestão
Task manager
Mrjob
HDFS
Respondido em 20/04/2022 17:58:31

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de
tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop,
não possuem a funcionalidade de rastreamento de tarefas.

Acerto: 0,0 / 1,0
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o
profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop.
Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.
O Hadoop utiliza o HDFS para armazenar dados.
A estrutura de desenvolvimento no Hadoop é sequencial.
O Hadoop não funciona com pequenos volumes de dados.
O Hadoop tem apenas uma única distribuição.
Respondido em 20/04/2022 17:59:13

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System).
Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas
gerenciadores de bancos de dados relacionais (RDBMS).

Acerto: 1,0 / 1,0
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A variável "teste" corresponde a um RDD.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
A utilização do SparkContext é opcional.
A execução do trecho de código vai gerar um erro.
Respondido em 20/04/2022 18:00:57

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é
representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado por
causa da variável vetor "a".
Questão4
a
Questão5
a
30/05/2022 00:19 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/5

Acerto: 1,0 / 1,0
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados
de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável
por consolidar os resultados produzidos ao longo do processamento.
Mapeamento
Separação
Agregação
Processamento
Redução
Respondido em 20/04/2022 18:02:16

Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos
dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos
frameworks como o Spark, por exemplo.

Acerto: 0,0 / 1,0
Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele
deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de
projeto, qual a sequência desejável de passos que esperamos que Luis siga?
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar
através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py
em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as
dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para
a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar
através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para
o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as
dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um
arquivo __init__.py em branco e outro para a lógica do módulo.
Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as
dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no
requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um
arquivo __init__.py com a lógica do módulo.
Respondido em 20/04/2022 18:03:17

Explicação:
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as
dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um arquivo
__init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos estão incompletas ou
na ordem incorreta.

Acerto: 1,0 / 1,0
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista
de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados?
Questão6
a
Questão7
a
Questão8
a
30/05/2022 00:19 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/5
Atemporais
Semi-Estruturados
Categóricos
Numéricos
Temporais
Respondido em 20/04/2022 18:03:44

Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de
soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes
significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo
numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos
nossos dados.

Acerto: 1,0 / 1,0
Comopodemos checar as métricas de classificação do modelo neural da biblioteca Scikit-Learn?
Classification Report
Gráfico de Matriz de Dispersão
Plotly
Gráfico de Histograma
Regressão Linear
Respondido em 20/04/2022 18:04:55

Explicação:
O classification report é um dos métodos oferecidos pelo scikit-learn que nos permite usar um conjunto ground truth
para comparar contra as predições de um modelo e este calculará as métricas de acurácia, precisão e medida F de
cada classe possível e também as mesmas métricas em um nível macro.

Acerto: 1,0 / 1,0
As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos
é(são)
Pesos
Camada de Saída
Função de Ativação
Camadas Escondidas
Vieses
Respondido em 20/04/2022 18:05:23

Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden),
pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem
o conhecimento necessário para discriminar novas observações com base em registros passados.

Questão9
a
Questão10
a
javascript:abre_colabore('38403','280950711','5232382037');
30/05/2022 00:19 Estácio: Alunos
https://simulado.estacio.br/alunos/ 5/5