TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

5

0

5

0

fernanda guimarães

18/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

806 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON

Acertos: 9,0 de 10,0 28/04/2022

1a
Questão

Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.

Garantir a consistência da informação através da ordenação dos dados.
Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer
inconsistência.
Respondido em 28/04/2022 01:41:36

Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois,
normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados
para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz
de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-
estabelecido.

2a
Questão

Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção
correta.

MQTT
HTTP
CoAP

UDP
TCP
Respondido em 28/04/2022 01:30:29

Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser
mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito
lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de
dados.

3a
Questão

Selecione a opção que indica o processo responsável por executar uma tarefa atribuída a ele pelo Job
Tracker.

Task Tracker
MapJob
Job Tracker Slave
MapTracker
MapReduce
Respondido em 28/04/2022 01:31:22

Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por
sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento.

4a
Questão

Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável
pela geração de pares intermediários de valor e chave.

Redução
Agrupamento
Combinação
Gravação da saída

Embaralhamento
Respondido em 28/04/2022 01:32:01

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo
MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de
redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.

5a
Questão

Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório
dos dados de entrada.

filter
mapRandom
distinct

random

sample
Respondido em 28/04/2022 01:40:01

Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não
são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de
entrada.

6a
Questão

Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção
correta que contenha apenas funções que podem ser categorizadas como transformações no Spark.

map, filter e union.
map, sample e collect.

reduce, first e map.
map, take e reduce.
count, collect e take.
Respondido em 28/04/2022 01:38:50

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap,
mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da
aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única
partição.

7a
Questão

No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para
um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como
que tipo de dados?

Temporais
Numéricos
Semi-Estruturados
Atemporais

Categóricos
Respondido em 28/04/2022 01:33:05

Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por
funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno,
um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição
de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por
isso devemos ter cuidado ao modelarmos nossos dados.

8a
Questão

Para a regularização dos dados obtidos, qual técnica podemos utilizar objetivando fazer com que os dados
fiquem na mesma escala?

Map & Reduce
Divide
Splice

Shuffle

MinMax
Respondido em 28/04/2022 01:33:42

Explicação:
Extraímos do dado observado sua proporção em relação ao valor mínimo possível até o valor máximo e
enquadramos o mesmo nesta régua, assim realizando a regularização, que consiste em colocar os dados na
mesma escala.

9a
Questão

Quais os métodos de aprendizado de máquina que existem?

Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
Respondido em 28/04/2022 01:36:58

Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos
a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta
extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com
o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não
rotulados.

10a
Questão

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade
ele se refere ao processo de:

RNN

KDD
CNN

LSTM
DNN
Respondido em 28/04/2022 01:37:29

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de
coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação
de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados
(KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir
padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às
redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em
processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A
alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN),
utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-seàs redes neurais recorrentes,
também utilizadas em problemas sequenciais ou temporais.