Buscar

PENSAMENTO COMPUTACIONAL EXERCICIO BIG DATA 5 FASE

Prévia do material em texto

02727PRINCÍPIOS DE BIG DATA 
 
 
1. 
 
 
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção 
correta. 
 
 
UDP 
 
 
MQTT 
 
 
CoAP 
 
 
TCP 
 
 
HTTP 
Data Resp.: 07/03/2023 16:36:38 
 
Explicação: 
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming 
por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de 
streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se 
enquadram no transporte de dados. 
 
 
 
 
 
2. 
 
 
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como 
referência para as outras plataformas. 
 
 
Google Cloud 
 
 
Microsft Azure 
 
 
Oracle Cloud 
 
 
IBM Cloud 
 
 
Amazon AWS 
Data Resp.: 07/03/2023 16:37:40 
 
Explicação: 
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como 
principal referência do mercado. As outras plataformas também são muito importantes e, junto 
com a Amazon, detém boa fatia do mercado. 
 
 
 
 
 
02508HADOOP E ARMAZENAMENTO DE DADOS 
 
 
3. 
 
 
Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. 
Selecione a opção correta que define resumidamente o que é o Data Lake. 
 
 
É um repositório centralizado para armazenamento de dados. 
 
 
É um repositório para tratamento dos dados. 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
 
 
É uma tecnologia de armazenamento e processamento de dados. 
 
 
É um ambiente para tratamento e armazenamento apenas de dados relacionais. 
 
 
Trata-se de um componente do HDFS responsável pela implementação do mecanismo 
MapReduce para fazer o gerenciamento dos dados. 
Data Resp.: 07/03/2023 16:38:58 
 
Explicação: 
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: 
estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum 
tratamento. 
 
 
 
 
 
4. 
 
 
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela 
geração de pares intermediários de valor e chave. 
 
 
Redução 
 
 
Gravação da saída 
 
 
Combinação 
 
 
Agrupamento 
 
 
Embaralhamento 
Data Resp.: 07/03/2023 16:40:56 
 
Explicação: 
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o 
mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são 
transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de 
mapeamento. 
 
 
 
 
 
02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON 
 
 
5. 
 
 
Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades 
específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em 
aplicações de aprendizado de máquina. 
 
 
MLlib 
 
 
Spark Learning 
 
 
RDDs 
 
 
GraphX Learning 
 
 
MLSpark 
Data Resp.: 07/03/2023 16:42:37 
 
Explicação: 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
Gabarito: MLlib 
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para 
implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de 
aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e 
MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de 
dados resilientes. 
 
 
 
 
 
6. 
 
 
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório 
dos dados de entrada. 
 
 
filter 
 
 
random 
 
 
distinct 
 
 
mapRandom 
 
 
sample 
Data Resp.: 07/03/2023 16:43:37 
 
Explicação: 
Gabarito: sample 
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a 
sample. É uma operação da categoria de transformação, sendo que se encaixa em 
transformações amplas, pois pode ser necessário realizar movimentações entre as partições. 
Filter é uma função que retorna um subconjunto de dados em relação a alguma condição 
imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o 
Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada. 
 
 
 
 
 
02260ANÁLISE DE DADOS EM PYTHON COM PANDAS 
 
 
7. 
 
 
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para 
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas 
como que tipo de dados? 
 
 
Atemporais 
 
 
Temporais 
 
 
Numéricos 
 
 
Semi-Estruturados 
 
 
Categóricos 
Data Resp.: 07/03/2023 16:44:30 
 
Explicação: 
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser 
operada por funções de soma, média etc., representa um conceito ou extrato/proporção de 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da 
matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria 
correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao 
modelarmos nossos dados. 
 
 
 
 
 
8. 
 
 
A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. 
O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação? 
 
 
O DataFrame é indexado pelas suas colunas. 
 
 
O DataFrame é embaralhado. 
 
 
Nada, o DataFrame fica imutável. 
 
 
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da 
linha. 
 
 
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação. 
Data Resp.: 07/03/2023 16:45:23 
 
Explicação: 
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas 
escolhidas. A partir de então, o index das agregações passa a ser o agrupamento. Com o 
reset_index() após a agregação, os índices originais das colunas são preservados. 
 
 
 
 
 
02318BIG DATA ANALYTICS 
 
 
9. 
 
 
Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia 
de aprendizado de máquina e implementa modelos de ML? 
 
 
OS 
 
 
Numpy 
 
 
Scikit-Learn 
 
 
BeautifulSoup 
 
 
Pandas 
Data Resp.: 07/03/2023 16:47:29 
 
Explicação: 
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a 
modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que 
implementamos modelos de machine learning de forma facilitada. 
 
 
 
 
 
10. 
 
 
Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um 
classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede 
neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de 
______________: 
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
https://simulado.estacio.br/bdq_simulados_exercicio_ensineme.asp
 
 
MNIST; Processamento de Imagens 
 
 
Pizzas; Categorias 
 
 
IRIS; Processamento da Linguagem Natural 
 
 
MNIST; Processamento de Linguagem Natural 
 
 
IRIS; Processamento de Imagens 
Data Resp.: 07/03/2023 16:49:06 
 
Explicação: 
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura 
de aprendizado de máquina. Mas, essa fama nãoé à toa, pois esse é o conjunto de comparação 
entre modelos de processamento de imagens, uma vez que uma boa configuração de rede 
neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST. 
 
 
 
 
 
 
 Não Respondida Não Gravada Gravada

Continue navegando