Buscar

TÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

Simulado AV 
Teste seu conhecimento acumulado 
 
 
 
 
 
Disc.: TÓPICOS DE BIG DATA EM PYTHON 
 
Acertos: 9,0 de 10,0 28/04/2022 
 
 
 
 
1a 
 Questão 
 
Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta. 
 
 
 
 
Garantir a consistência da informação através da ordenação dos dados. 
 Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente. 
 Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados. 
 Usar algoritmos de criptografia nos dados para evitar o acesso indevido. 
 Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer 
inconsistência. 
Respondido em 28/04/2022 01:41:36 
 
 
 
Explicação: 
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, 
normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados 
para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz 
de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-
estabelecido. 
 
 
 
 
 
2a 
 Questão 
 
Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção 
correta. 
 
 
 MQTT 
 HTTP 
 CoAP 
 
 
UDP 
 TCP 
Respondido em 28/04/2022 01:30:29 
 
 
 
Explicação: 
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser 
mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito 
lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de 
dados. 
 
 
 
 
 
3a 
 Questão 
 
Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job 
Tracker. 
 
 
 
 
Task Tracker 
 MapJob 
 Job Tracker Slave 
 MapTracker 
 MapReduce 
Respondido em 28/04/2022 01:31:22 
 
 
 
Explicação: 
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por 
sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento. 
 
 
 
 
 
4a 
 Questão 
 
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável 
pela geração de pares intermediários de valor e chave. 
 
 
 Redução 
 Agrupamento 
 Combinação 
 Gravação da saída 
 
 
Embaralhamento 
Respondido em 28/04/2022 01:32:01 
 
 
 
Explicação: 
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo 
MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de 
redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento. 
 
 
 
 
 
5a 
 Questão 
 
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório 
dos dados de entrada. 
 
 
 filter 
 mapRandom 
 distinct 
 
 
random 
 
 
sample 
Respondido em 28/04/2022 01:40:01 
 
 
 
Explicação: 
Gabarito: sample 
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma 
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser 
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de 
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não 
são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de 
entrada. 
 
 
 
 
 
6a 
 Questão 
 
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção 
correta que contenha apenas funções que podem ser categorizadas como transformações no Spark. 
 
 
 
 
map, filter e union. 
 map, sample e collect. 
 
reduce, first e map. 
 map, take e reduce. 
 count, collect e take. 
Respondido em 28/04/2022 01:38:50 
 
 
 
Explicação: 
Gabarito: map, filter e union. 
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, 
mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da 
aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única 
partição. 
 
 
 
 
 
7a 
 Questão 
 
No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para 
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como 
que tipo de dados? 
 
 
 Temporais 
 Numéricos 
 Semi-Estruturados 
 Atemporais 
 
 
Categóricos 
Respondido em 28/04/2022 01:33:05 
 
 
 
Explicação: 
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por 
funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, 
um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição 
de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por 
isso devemos ter cuidado ao modelarmos nossos dados. 
 
 
 
 
 
8a 
 Questão 
 
Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados 
fiquem na mesma escala? 
 
 
 Map & Reduce 
 Divide 
 Splice 
 
Shuffle 
 
 
MinMax 
Respondido em 28/04/2022 01:33:42 
 
 
 
Explicação: 
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e 
enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na 
mesma escala. 
 
 
 
 
 
9a 
 Questão 
 
Quais os métodos de aprendizado de máquina que existem? 
 
 
 
 
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado 
 Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado 
 Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório 
 Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado 
 Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado 
Respondido em 28/04/2022 01:36:58 
 
 
 
Explicação: 
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos 
a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta 
extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com 
o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não 
rotulados. 
 
 
 
 
 
10a 
 Questão 
 
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade 
ele se refere ao processo de: 
 
 
 
RNN 
 
 
KDD 
 CNN 
 
LSTM 
 DNN 
Respondido em 28/04/2022 01:37:29 
 
 
 
Explicação: 
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de 
coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação 
de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados 
(KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir 
padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às 
redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em 
processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A 
alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), 
utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-seàs redes neurais recorrentes, 
também utilizadas em problemas sequenciais ou temporais.

Continue navegando