Buscar

Simulado TÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disc.: TÓPICOS DE BIG DATA EM PYTHON   
	Aluno(a): ALCIDES NUNES ALVES JUNIOR
	202008169861
	Acertos: 10,0 de 10,0
	23/05/2022
		1a
          Questão
	Acerto: 1,0  / 1,0
	
	Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados.
		
	
	variedade
	
	volume
	
	valor
	
	veracidade
	 
	velocidade
	Respondido em 23/05/2022 14:44:40
	
	Explicação:
A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados.
	
		2a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
		
	
	Computação de Big Data
	
	Computação Paralela
	
	Computação de banco de dados
	
	Computação centralizada
	 
	Computação em Nuvem
	Respondido em 23/05/2022 14:46:26
	
	Explicação:
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.
	
		3a
          Questão
	Acerto: 1,0  / 1,0
	
	A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.
		
	 
	DataNode
	
	Bloco de dados
	
	YARN
	
	NameNode
	
	Replicação
	Respondido em 23/05/2022 14:47:35
	
	Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados.
	
		4a
          Questão
	Acerto: 1,0  / 1,0
	
	Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.
		
	
	apenas estruturado
	
	apenas tabelas relacionais
	
	estruturado e semiestruturado
	 
	estruturado, não estruturado e semiestruturado
	
	apenas não estruturado
	Respondido em 23/05/2022 14:47:41
	
	Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data.
	
		5a
          Questão
	Acerto: 1,0  / 1,0
	
	O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.
		
	
	Python e Escala
	
	Hadoop e Spark
	
	Casandra e Spark
	
	Java e R
	 
	Java e Python
	Respondido em 23/05/2022 14:48:26
	
	Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
	
		6a
          Questão
	Acerto: 1,0  / 1,0
	
	Observe o trecho de código abaixo
query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor)
registros = spark.sql(query)
Selecione a opção correta a respeito dele.
		
	
	É possível afirmar que a tabela_teste existe.
	
	A execução do trecho de código vai funcionar corretamente.
	
	É um exemplo de aplicação de GraphX.
	 
	Trata-se de um exemplo de utilização do Spark SQL
	
	A implementação do trecho de código está errada.
	Respondido em 23/05/2022 14:49:06
	
	Explicação:
Gabarito: Trata-se de um exemplo de utilização do Spark SQL
Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução.
	
		7a
          Questão
	Acerto: 1,0  / 1,0
	
	A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais?
		
	
	Gráfico de Matriz de Dispersão.
	
	Gráfico de Estrela.
	 
	Gráfico de Linha.
	
	Gráfico de Faces de Chernoff.
	
	Gráfico de Barra.
	Respondido em 23/05/2022 14:51:19
	
	Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais.
	
		8a
          Questão
	Acerto: 1,0  / 1,0
	
	Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método utilizado para fazer a junção entre DataFrames no pandas?
		
	
	set_index
	
	values
	
	reset_index
	
	sum
	 
	merge
	Respondido em 23/05/2022 14:52:14
	
	Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção entre DataFrames.
	
		9a
          Questão
	Acerto: 1,0  / 1,0
	
	Dentre as inúmeras bibliotecas da linguagem Python qual destas é a que abstrai conceitos de engenharia de aprendizado de máquina e implementa modelos de ML? 
		
	
	OS
	
	Pandas
	 
	Scikit-Learn
	
	Numpy
	
	BeautifulSoup
	Respondido em 23/05/2022 14:53:03
	
	Explicação:
O Python tem um conjunto quase sem fim de bibliotecas disponíveis que podem nos ajudar a modelar qualquer problema de ciência de dados, mas é com o scikit-learn principalmente que implementamos modelos de machine learning de forma facilitada.
	
		10a
          Questão
	Acerto: 1,0  / 1,0
	
	O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de:
		
	 
	KDD
	
	RNN
	
	LSTM
	
	DNN
	
	CNN
	Respondido em 23/05/2022 14:53:27
	
	Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.

Mais conteúdos dessa disciplina