Simulado TÓPICOS DE BIG DATA EM PYTHON

•

ESTÁCIO

Alcides Junior

23/05/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON
Aluno(a): ALCIDES NUNES ALVES JUNIOR
202008169861
Acertos: 10,0 de 10,0
23/05/2022
1a
Questão
Acerto: 1,0 / 1,0

Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.

variedade

volume

valor

veracidade
velocidade
Respondido em 23/05/2022 14:44:40

Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.

2a
Questão
Acerto: 1,0 / 1,0

Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.

Computação de Big Data

Computação Paralela

Computação de banco de dados

Computação centralizada
Computação em Nuvem
Respondido em 23/05/2022 14:46:26

Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.

3a
Questão
Acerto: 1,0 / 1,0

A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.

DataNode

Bloco de dados

YARN

NameNode

Replicação
Respondido em 23/05/2022 14:47:35

Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados.

4a
Questão
Acerto: 1,0 / 1,0

Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.

apenas estruturado

apenas tabelas relacionais

estruturado e semiestruturado
estruturado, não estruturado e semiestruturado

apenas não estruturado
Respondido em 23/05/2022 14:47:41

Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data.

5a
Questão
Acerto: 1,0 / 1,0

O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.

Python e Escala

Hadoop e Spark

Casandra e Spark

Java e R
Java e Python
Respondido em 23/05/2022 14:48:26

Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.

6a
Questão
Acerto: 1,0 / 1,0

Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.

É possível afirmar que a tabela_teste existe.

A execução do trecho de código vai funcionar corretamente.

É um exemplo de aplicação de GraphX.
Trata-se de um exemplo de utilização do Spark SQL

A implementação do trecho de código está errada.
Respondido em 23/05/2022 14:49:06

Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução.

7a
Questão
Acerto: 1,0 / 1,0

A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais?

Gráfico de Matriz de Dispersão.

Gráfico de Estrela.
Gráfico de Linha.

Gráfico de Faces de Chernoff.

Gráfico de Barra.
Respondido em 23/05/2022 14:51:19

Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais.

8a
Questão
Acerto: 1,0 / 1,0

Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas?

set_index

values

reset_index

sum
merge
Respondido em 23/05/2022 14:52:14

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames.

9a
Questão
Acerto: 1,0 / 1,0

Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML?

Pandas
Scikit-Learn

Numpy

BeautifulSoup
Respondido em 23/05/2022 14:53:03

Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada.

10a
Questão
Acerto: 1,0 / 1,0

O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de:

KDD

RNN

LSTM

DNN

CNN
Respondido em 23/05/2022 14:53:27

Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.