Buscar

BIG DATA EM PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

1a Questão (Ref.: 202113508086)
	Selecione a opção correta sobre o uso de Big Data.
		
	
	Projetos de big de Big Data são uma forma de organizar tabelas normalizadas com grande volume de dados.
	
	O volume e diversidade dos dados podem dar uma visão realística do que está sendo observado.
	
	Grandes volumes de dados são úteis para testar a capacidade dos servidores de gerenciamento de dados.
	
	É impossível não utilizar aplicações de Big Data para gerenciar projetos de internet das coisas.
	
	Com projetos de Big Data é sempre possível detectar fraudes em operações financeiras.
	
	
	 2a Questão (Ref.: 202113508090)
	Em relação às características do processamento de fluxo de dados, selecione a opção correta.
		
	
	São invariáveis no tempo
	
	O fluxo de dados é intermitente
	
	São relacionados à aplicações de internet das coisas
	
	Representam o estado de um sistema em um dado momento
	
	Sempre são do mesmo tipo
	
	
	 3a Questão (Ref.: 202113526261)
	O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.
		
	
	Camada de Metadados
	
	Camada de gerenciamento do ciclo de vida da informação
	
	Camada de segurança
	
	Camada de governança
	
	Camada de gerenciamento de dados
	
	
	 4a Questão (Ref.: 202113517023)
	Em relação à fase de mapeamento do Hadoop, selecione a opção correta que apresenta o responsável pela geração de fragmento para os componentes da fase de redução.
		
	
	Redutor.
	
	Leitor de registros.
	
	Mapeador.
	
	Combinador.
	
	Particionador.
	
	
	 5a Questão (Ref.: 202113516892)
	A biblioteca Pandas é amplamente utilizada para manipular dados heterogêneos, situação recorrente para aplicações de Big Data. Nesse sentido, selecione a opção que contém a estrutura de dados que possibilita o Cientista de dados atribuir nome para as colunas.
		
	
	SQL
	
	numpy.array
	
	RDD
	
	DataFrame
	
	PySpark
	
	
	 6a Questão (Ref.: 202113516886)
	Compreender os conceitos e princípios do framework Apache Spark é fundamental para o cientista de dados. Selecione a opção correta que contém o componente do ecossistema  Spark responsável por dar suporte para tratar fluxo de dados típicos de aplicações de tempo real.
		
	
	Spark SQL
	
	Spark Streaming
	
	Spark Core
	
	RDDs
	
	Spark Hadoop
	
	
	 7a Questão (Ref.: 202113517647)
	A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.
		
	
	Apenas I e III.
	
	Apenas I.
	
	Apenas II.
	
	Apenas II e III.
	
	Apenas I e II.
	
	
	 8a Questão (Ref.: 202113517729)
	Os dados que, por alguma razão, normalmente interferência humana, não chegam com todos os atributos esperados durante a coleta de dados, são conhecidos como:
		
	
	Nulos.
	
	Enviesados.
	
	Faltantes.
	
	Embaralhados.
	
	Corrompidos.
	
	
	 9a Questão (Ref.: 202113516714)
	Qual o processo irmão do KDD que é utilizado comumente no âmbito industrial?
		
	
	SIGM.
	
	KDM.
	
	KDD-DM.
	
	CRISP-DM.
	
	SIGKDD.
	
	
	 10a Questão (Ref.: 202113516713)
	O boom da IA se deve ao surgimento de novas tecnologias e dispositivos que por estarem sempre conectados produzem uma quantidade enorme de dados. Estes dados que alimentam os modelos de aprendizado de máquina também são conhecidos como:
		
	
	Informações.
	
	Big Data.
	
	Observações.
	
	Dados Faltantes.
	
	Conhecimento.

Continue navegando