Prévia do material em texto
Meus
Simulados
Teste seu conhecimento acumulado
Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): SHEYLA TARGINO DA CRUZ 202009270034
Acertos: 10,0 de 10,0 13/09/2022
Acerto: 1,0 / 1,0
Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede
distribuída usando recursos virtualizados.
Computação centralizada
Computação Paralela
Computação de banco de dados
Computação de Big Data
Computação em Nuvem
Respondido em 13/09/2022 15:41:26
Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais
opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.
Acerto: 1,0 / 1,0
Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
Camada de transporte
Camada de aplicação
Camada de enlace de dados
Camada de sessão
Camada lógica
Respondido em 13/09/2022 15:40:31
Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece
confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em
relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta
erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência
de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.
Questão1
a
Questão2
a
https://simulado.estacio.br/alunos/inicio.asp
javascript:voltar();
Acerto: 1,0 / 1,0
A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma
de blocos de dados.
Bloco de dados
YARN
DataNode
Replicação
NameNode
Respondido em 13/09/2022 15:46:33
Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de
blocos de dados.
Acerto: 1,0 / 1,0
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
Camada de ingestão
HDFS
Task manager
MapReduce
Mrjob
Respondido em 13/09/2022 15:57:07
Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de
tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o
Hadoop, não possuem a funcionalidade de rastreamento de tarefas.
Acerto: 1,0 / 1,0
Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos
dados de entrada.
random
filter
distinct
sample
mapRandom
Respondido em 13/09/2022 16:04:37
Questão3
a
Questão4
a
Questão5
a
Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma
operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser
necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de
dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são
funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
Acerto: 1,0 / 1,0
O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do
Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para
utilização do PySpark.
Casandra e Spark
Hadoop e Spark
Java e R
Java e Python
Python e Escala
Respondido em 13/09/2022 16:05:54
Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração
do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai
rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
Acerto: 1,0 / 1,0
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual
o método utilizado para fazer a junção entre DataFrames no pandas?
values
reset_index
merge
sum
set_index
Respondido em 13/09/2022 16:11:47
Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome,
ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de
junção entre DataFrames.
Acerto: 1,0 / 1,0
A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de
dados mais indicada para dados temporais?
Questão6
a
Questão7
a
Questão8
a
Gráfico de Matriz de Dispersão.
Gráfico de Estrela.
Gráfico de Linha.
Gráfico de Faces de Chernoff.
Gráfico de Barra.
Respondido em 13/09/2022 16:18:04
Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando
através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam
tipos de visualização inadequados para dados temporais.
Acerto: 1,0 / 1,0
O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se
refere ao processo de:
KDD
DNN
RNN
CNN
LSTM
Respondido em 13/09/2022 16:19:10
Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta
de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de
mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD,
do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo
o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais
convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de
imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se
à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas
sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em
problemas sequenciais ou temporais.
Acerto: 1,0 / 1,0
Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O
projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estavam preparando o
conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente
os colegas de Luís estão removendo dados faltantes, em qual etapa do processo de KDD, Luís se encontra:
Pré-Processamento .
Transformação de Dados.
Avaliação.
Descoberta de Padrões.
Coleta de Dados.
Respondido em 13/09/2022 16:20:10
Explicação:
Questão9
a
Questão10
a
Luís se encontra na fase que ocorre logo após selecionarmos dados, e antes da transformação do conjunto, que
é justamente a fase de pré-processamento ou limpeza dos dados.
javascript:abre_colabore('38403','293143639','5649612958');