PENSAMENTO COMPUTACIONAL EXERCICIO BIG DATA 5 FASE

•

ESTÁCIO

Cleber Valerio - Studio Fotográfico

07/03/2023

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise e Desenvolvimento de Sistemas

48.693 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

02727PRINCÍPIOS DE BIG DATA

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção
correta.

UDP

MQTT

CoAP

TCP

HTTP
Data Resp.: 07/03/2023 16:36:38

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming
por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de
streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se
enquadram no transporte de dados.

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como
referência para as outras plataformas.

Google Cloud

Microsft Azure

Oracle Cloud

IBM Cloud

Amazon AWS
Data Resp.: 07/03/2023 16:37:40

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como
principal referência do mercado. As outras plataformas também são muito importantes e, junto
com a Amazon, detém boa fatia do mercado.

02508HADOOP E ARMAZENAMENTO DE DADOS

Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação.
Selecione a opção correta que define resumidamente o que é o Data Lake.

É um repositório centralizado para armazenamento de dados.

É um repositório para tratamento dos dados.
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp

É uma tecnologia de armazenamento e processamento de dados.

É um ambiente para tratamento e armazenamento apenas de dados relacionais.

Trata-se de um componente do HDFS responsável pela implementação do mecanismo
MapReduce para fazer o gerenciamento dos dados.
Data Resp.: 07/03/2023 16:38:58

Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos:
estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum
tratamento.

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela
geração de pares intermediários de valor e chave.

Redução

Gravação da saída

Combinação

Agrupamento

Embaralhamento
Data Resp.: 07/03/2023 16:40:56

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o
mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são
transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de
mapeamento.

02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON

Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em
aplicações de aprendizado de máquina.

MLlib

Spark Learning

RDDs

GraphX Learning

MLSpark
Data Resp.: 07/03/2023 16:42:37

Explicação:
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para
implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de
aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e
MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de
dados resilientes.

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório
dos dados de entrada.

filter

random

distinct

mapRandom

sample
Data Resp.: 07/03/2023 16:43:37

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a
sample. É uma operação da categoria de transformação, sendo que se encaixa em
transformações amplas, pois pode ser necessário realizar movimentações entre as partições.
Filter é uma função que retorna um subconjunto de dados em relação a alguma condição
imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o
Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.

02260ANÁLISE DE DADOS EM PYTHON COM PANDAS

No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas
como que tipo de dados?

Atemporais

Temporais

Numéricos

Semi-Estruturados

Categóricos
Data Resp.: 07/03/2023 16:44:30

Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser
operada por funções de soma, média etc., representa um conceito ou extrato/proporção de
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da
matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria
correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao
modelarmos nossos dados.

A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas.
O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?

O DataFrame é indexado pelas suas colunas.

O DataFrame é embaralhado.

Nada, o DataFrame fica imutável.

As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da
linha.

Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
Data Resp.: 07/03/2023 16:45:23

Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas
escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o
reset_index() após a agregação, os índices originais das colunas são preservados.

02318BIG DATA ANALYTICS

Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia
de aprendizado de máquina e implementa modelos de ML?

Numpy

Scikit-Learn

BeautifulSoup

Pandas
Data Resp.: 07/03/2023 16:47:29

Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a
modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que
implementamos modelos de machine learning de forma facilitada.

10.

Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um
classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede
neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de
______________:
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp

MNIST; Processamento de Imagens

Pizzas; Categorias

IRIS; Processamento da Linguagem Natural

MNIST; Processamento de Linguagem Natural

IRIS; Processamento de Imagens
Data Resp.: 07/03/2023 16:49:06

Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura
de aprendizado de máquina. Mas, essa fama nãoé à toa, pois esse é o conjunto de comparação
entre modelos de processamento de imagens, uma vez que uma boa configuração de rede
neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST.

Não Respondida Não Gravada Gravada

PENSAMENTO COMPUTACIONAL EXERCICIO BIG DATA 5 FASE

ESTÁCIO

Análise e Desenvolvimento de Sistemas

Continue navegando

Outros materiais