Buscar

Topicos_Big_Data_Em_Python_AV1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

isc.: TÓPICOS DE BIG DATA EM PYTHON   
	
	
	9,0 de 10,0 de 10,0
	29/03/2022
		1a
	Acerto: 1,0  / 1,0
	Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
	 
	Computação em Nuvem
	
	Computação centralizada
	
	Computação de Big Data
	
	Computação Paralela
	
	Computação de banco de dados
		As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.
		2a
	Acerto: 1,0  / 1,0
	Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
	
	Camada de aplicação
	
	Camada de sessão
	
	Camada lógica
	
	Camada de enlace de dados
	 
	Camada de transporte
		A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.
		3a
	Acerto: 1,0  / 1,0
	A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.
	
	NameNode
	
	YARN
	
	Replicação
	
	Bloco de dados
	 
	DataNode
		O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados.
	
		4a
	Acerto: 1,0  / 1,0
	Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.
	
	apenas tabelas relacionais
	 
	estruturado, não estruturado e semiestruturado
	
	apenas estruturado
	
	apenas não estruturado
	
	estruturado e semiestruturado
		O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data.
		5a
	Acerto: 1,0  / 1,0
	O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
	
	Consiste em uma técnica de programação sequencial
	
	Só pode ser aplicada para grandes volumes de dados
	
	É uma técnica lenta para processamento de grandes volumes de dados
	
	Foi substituída no Spark por acesso direto à memória
	 
	É uma técnica de computação distribuída
		Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.
		6a
	Acerto: 1,0  / 1,0
	Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.
	
	DataFrame
	 
	SparkContext
	
	SparkSession
	
	Spark.Catalog
	
	RDD
		Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais.
		7a
	Acerto: 1,0  / 1,0
	Compreender a análise de dados em Python é fundamental para o cientista de dados. Qual o papel do sistema pip da linguagem Python?
	
	Motor de Busca da IDE do Python.
	 
	Gerenciador de Pacotes do Python.
	
	Gerenciador de espaços virtuais do Python.
	
	Biblioteca de Processamento de Linguagem Natural.
	
	Gerenciador de memória do Python.
		O papel do comando pip é gerenciar os pacotes a serem importados no Python, bem como instalá-los via comando pip install. Gerenciar memória é papel do sistema operacional, não do pip. A função de gerenciar espaços virtuais é atribuída ao venv, o virtualenv. Motor de busca é uma atribuição de IDE, não de linguagem de programação. O processamento de linguagem natural é função de biblioteca, diferente de gerenciamento de pacotes.
		8a
	Acerto: 1,0  / 1,0
	Gabriel entrou recentemente  em uma empresa de gestão de fundos de investimento. No seu primeiro dia de trabalho, lhe é conferida a tarefa de buscar os relatórios do pessoal da contabilidade para fazer suas análises exploratórias. O departamento de contabilidade extrai os dados de seus relatórios de um SAP que retorna valores brutos de compras, quantidades de produtos etc. Então os contadores organizam, por agregação, informação relevante no relatório em planilhas por eles desenvolvidos. Por questões de acesso e segurança, Gabriel só pode lidar com essas planilhas. Este tipo de coleta feita por Gabriel e pelos Contadores é respectivamente dos tipos:
	
	Secundária; Terciária.
	 
	Secundária; Primária.      
	
	Primária; Primária.
	
	Secundária; Secundária.
	
	Primária; Secundária.
		Gabriel coletará dados gerados a partir de terceiros, enquanto os contadores estão fazendo uma coleta primária direto na fonte dos dados do SAP que, para os fins desta questão está funcionando como um repositório de dados para eles.
		9a
	Acerto: 0,0  / 1,0
	Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?
 
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML  
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML
	
	Apenas a opção I
	
	Apenas as opções II e III
	
	Apenas as opções I e III
	 
	As opções I, II, e III estão corretas
	 
	Apenas a opção II
		O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML.
		10a
	Acerto: 1,0  / 1,0
	Quais os métodos de aprendizado de máquina que existem?
	
	Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
	
	Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
	
	Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
	 
	Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
	
	Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
		Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.

Continue navegando