Buscar

TÓPICOS DE BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Meus Simulados
	Teste seu conhecimento acumulado
	
				Disc.: TÓPICOS DE BIG DATA EM PYTHON   
	Aluno(a): 
	
	Acertos: 10,0 de 10,0
	08/03/2023
		1a
          Questão
	Acerto: 1,0  / 1,0
	
	Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
		
	
	HTTP
	
	MQTT
	 
	UDP
	
	CoAP
	
	TCP
	Respondido em 08/03/2023 15:47:57
	
	Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.
	
		2a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.
		
	
	Google Cloud
	 
	Amazon AWS
	
	IBM Cloud
	
	Microsft Azure
	
	Oracle Cloud
	Respondido em 08/03/2023 15:48:57
	
	Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
	
		3a
          Questão
	Acerto: 1,0  / 1,0
	
	Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.
		
	
	Redução
	
	Combinação
	
	Gravação da saída
	 
	Embaralhamento
	
	Agrupamento
	Respondido em 08/03/2023 15:49:57
	
	Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.
	
		4a
          Questão
	Acerto: 1,0  / 1,0
	
	Reconhecer os conceitos de Data Lake é fundamental para o profissional de Tecnologia da Informação. Selecione a opção correta que define resumidamente o que é o Data Lake.
		
	
	É uma tecnologia de armazenamento e processamento de dados.
	 
	É um repositório centralizado para armazenamento de dados.
	
	Trata-se de um componente do HDFS responsável pela implementação do mecanismo MapReduce para fazer o gerenciamento dos dados.
	
	É um ambiente para tratamento e armazenamento apenas de dados relacionais.
	
	É um repositório para tratamento dos dados.
	Respondido em 08/03/2023 15:52:57
	
	Explicação:
O Data Lake é um repositório centralizado capaz de armazenar dados nos diversos formatos: estruturados, não estruturados e semiestruturados sem a necessidade de aplicar nenhum tratamento.
	
		5a
          Questão
	Acerto: 1,0  / 1,0
	
	Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Selecione a opção que contém o componente do ecossistema do Spark especializado em aplicações de aprendizado de máquina.
		
	
	GraphX Learning
	
	RDDs
	
	Spark Learning
	
	MLSpark
	 
	MLlib
	Respondido em 08/03/2023 15:54:04
	
	Explicação:
Gabarito: MLlib
Justificativa: O componente MLlib é o componente do ecossistema do Spark usado para implementar algoritmos estatísticos e de aprendizado de máquina para simplificar pipelines de aprendizado de máquina em projetos de big data. As opções Spark Learning, GraphX Learning e MLSpark não são componentes válidos do Spark. Os RDDs são componentes para conjunto de dados resilientes.
	
		6a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
		
	
	filter
	
	random
	
	mapRandom
	
	distinct
	 
	sample
	Respondido em 08/03/2023 15:57:29
	
	Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
	
		7a
          Questão
	Acerto: 1,0  / 1,0
	
	A linguagem Python fornece para o cientista de dados uma grande variedade de funções e bibliotecas. Qual o método que faz a projeção do Dataframe orientado pelos rótulos das colunas do conjunto?
		
	 
	loc
	
	reset_index
	
	sum
	
	iloc
	
	shuffle
	Respondido em 08/03/2023 16:01:28
	
	Explicação:
Através do método loc, passando o nome da coluna ou colunas desejadas entre colchetes, é aplicada a operação de projeção do DataFrame, de acordo com o objetivo desejado. As demais alternativas não dizem respeito à projeção do DataFrame.
	
		8a
          Questão
	Acerto: 1,0  / 1,0
	
	Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
		
	
	Apenas as opções II, III.
	
	Apenas as opções I, II, III.
	 
	Apenas as opções I, II, IV.
	
	Todas as opções I, II, III, IV.
	
	Apenas a opção III.
	Respondido em 08/03/2023 16:02:53
	
	Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.
	
		9a
          Questão
	Acerto: 1,0  / 1,0
	
	As redes neurais são implementadas em Python através de uma biblioteca de processamento de cálculos em paralelo baseada em grafos. Qual o nome desta biblioteca?
		
	
	Numpy
	
	Pandas
	
	Plotly
	 
	Tensorflow
	
	Scipy
	Respondido em 08/03/2023 16:04:15
	
	Explicação:
A biblioteca TensorFlow foi criada com a finalidade de processar cálculos de forma paralela, em estruturas de grafos a fim de otimizar estes tipos de processamento, mas, devido à natureza dos modelos conexionistas, tal biblioteca foi redefinida como a principal biblioteca para implementação de redes neurais.
	
		10a
          Questão
	Acerto: 1,0  / 1,0
	
	Leonardo começou seu trabalho de conclusão de curso. Nesse trabalho, Leonardo quer elaborar um classificador de imagem, mas, não sabe se decidir com relação à configuração das camadas de sua rede neural. É muito comum utilizarmos o conjunto ________ para fazermos o benchmark de modelos de ______________:
		
	
	IRIS; Processamento da Linguagem Natural
	
	IRIS; Processamento de Imagens
	
	Pizzas; Categorias
	 
	MNIST; Processamento de Imagens
	
	MNIST; Processamento de Linguagem Natural
	Respondido em 08/03/2023 16:06:00
	
	Explicação:
O conjunto MNIST de dígitos escritos a mão é um dos conjuntos mais conhecidos na literatura de aprendizado de máquina. Mas, essa fama não é à toa, pois esse é o conjunto de comparação entre modelos de processamento de imagens, uma vez que uma boa configuração de rede neural deve ser capaz de reconhecer os dígitos escritos a mão do MNIST.

Continue navegando