TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

5

0

5

0

Ulysses Serra

31/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.041 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Simulado AV
Teste seu conhecimento acumulado

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): ULYSSES FERREIRA SERRA 202101172442
Acertos: 10,0 de 10,0 31/05/2022

Acerto: 1,0 / 1,0
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a
projetos de Big Data.
Petabytes
Gigabytes
Zetabytes
Exabytes
Terabytes
Respondido em 31/05/2022 13:32:46

Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data.
As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de
armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.

Acerto: 1,0 / 1,0
Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
É um protocolo de internet das coisas
É um programa
É uma placa de hardware
É o outro nome para Raspberry PI
É um ecossistema que envolve software e hardware
Respondido em 31/05/2022 13:33:36

Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto,
não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI
não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas.

Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();

Acerto: 1,0 / 1,0
Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela
geração de pares intermediários de valor e chave.
Redução
Combinação
Agrupamento
Gravação da saída
Embaralhamento
Respondido em 31/05/2022 13:34:16

Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo
MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução,
o que é realizado em paralelo com outras tarefas da fase de mapeamento.

Acerto: 1,0 / 1,0
Em relação aos arquivos de configuração do Hadoop, selecione a opção correta que contém o arquivo que trata
das configurações do HDFS.
yarn-site.xml
mapred-site.xml
hdfs-site.xml
core-site.xml
hadoop-env.cmd
Respondido em 31/05/2022 13:34:48

Explicação:
O arquivo de configuração hdfs-site.xml é o responsável pela definição de configuração para processos do HDFS.
Ele também é responsável por fazer a especificação da replicação de bloco padrão e verificação de permissão no
HDFS.

Acerto: 1,0 / 1,0
Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que
contenha apenas funções que podem ser categorizadas como transformações no Spark.
reduce, first e map.
map, sample e collect.
count, collect e take.
map, filter e union.
map, take e reduce.
Respondido em 31/05/2022 13:35:18

Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e
sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções
Questão3
a
Questão4
a
Questão5
a
de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.

Acerto: 1,0 / 1,0
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a
respeito do componente que pode ser tratado com o Spark SQL.
RDD
DAG
Tasks
Executor
Work Node
Respondido em 31/05/2022 13:35:59

Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para
manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável
pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que
executam as tarefas que são as Tasks, ou seja, subdivisões do processo.

Acerto: 1,0 / 1,0
A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o
método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?
sum
shuffle
loc
reset_index
iloc
Respondido em 31/05/2022 13:36:38

Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação
de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à
projeção do DataFrame.

Acerto: 1,0 / 1,0
A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento.
Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.
Apenas III
Apenas I e III
Questão6
a
Questão7
a
Questão8
a
As alternativas I, II e III
Apenas I e II
Apenas II e III
Respondido em 31/05/2022 13:40:10

Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua
correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos
mostrar proporção e valores distintos de categorias possíveis.

Acerto: 1,0 / 1,0
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se
refere ao processo de:
LSTM
CNN
DNN
KDD
RNN
Respondido em 31/05/2022 13:39:27

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta
de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de
mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD,
do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo
o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais
convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de
imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se
à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas
sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em
problemas sequenciais ou temporais.

Acerto: 1,0 / 1,0
Qual destes modelos é adequado para um problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias
Apenas as opções I e II
Todas as opções I, II e III
Apenas a opção III
Apenas as opções I e III
Apenas as opções II e III
Respondido em 31/05/2022 13:39:58

Explicação:
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a
classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre
outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.
Questão9
a
Questão10
a

javascript:abre_colabore('38403','286090042','5442466081');