Buscar

TÓPICOS DE BIG DATA EM PYTHON SIMULADO

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1a
          Questão
	Acerto: 0,0  / 1,0
	
	Em relação aos desafios do processamento de fluxo de dados, selecione a opção correta.
		
	 
	Garantir a qualidade dos dados através de ferramentas de controle que não aceitem qualquer inconsistência.
	
	Usar algoritmos de criptografia nos dados para evitar o acesso indevido.
	
	Aplicar recursos de redundância no projeto para reduzir a volatilidade dos dados.
	
	Dimensionar o projeto logo no início para evitar a necessidade de expansão posteriormente.
	 
	Garantir a consistência da informação através da ordenação dos dados.
	Respondido em 04/04/2022 17:56:23
	
	Explicação:
Nas aplicações de streaming de dados, dificilmente não vai ocorrer alguma inconsistência, pois, normalmente, elas estão contextualizadas em ambientes dinâmicos. Portanto, deve-se ordenar os dados para manter a consistência dos dados e, além disso, o sistema deve ter uma tolerância a falhas sendo capaz de operar ainda que haja problemas, desde que estejam dentro de um patamar de qualidade pré-estabelecido.
	
		2a
          Questão
	Acerto: 1,0  / 1,0
	
	Em relação ao protocolo de transporte para transmissão de aplicações de streaming, selecione a opção correta.
		
	 
	UDP
	
	HTTP
	
	TCP
	
	MQTT
	
	CoAP
	Respondido em 04/04/2022 17:56:29
	
	Explicação:
O protocolo UDP - protocolo de datagrama do usuário - é utilizado para aplicações de streaming por ser mais rápido. O protocolo TCP é orientado à confiabilidade e, no caso de aplicações de streaming, ele é muito lento inviabilizando a aplicação. Os protocolos HTTP, MQTT e CoAP não se enquadram no transporte de dados.
	
		3a
          Questão
	Acerto: 0,0  / 1,0
	
	Selecione a opção que indica  o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker.
		
	 
	Task Tracker
	
	Job Tracker Slave
	
	MapTracker
	 
	MapReduce
	
	MapJob
	Respondido em 04/04/2022 17:58:23
	
	Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento.
	
		4a
          Questão
	Acerto: 0,0  / 1,0
	
	Em relação as fases do Hadoop, selecione a opção correta que apresenta o componente responsável pela geração de pares intermediários de valor e chave.
		
	
	Combinação
	
	Redução
	 
	Embaralhamento
	 
	Agrupamento
	
	Gravação da saída
	Respondido em 04/04/2022 18:02:52
	
	Explicação:
Através do processo de embaralhamento, também conhecido pelo termo em inglês "shuffling", o mecanismo MapReduce faz a geração de pares intermediários de valor e chave que são transferidos para a fase de redução, o que é realizado em paralelo com outras tarefas da fase de mapeamento.
	
		5a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
		
	
	mapRandom
	
	filter
	
	random
	 
	sample
	
	distinct
	Respondido em 04/04/2022 17:57:48
	
	Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
	
		6a
          Questão
	Acerto: 1,0  / 1,0
	
	Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark.
		
	
	count, collect e take.
	
	map, sample e collect.
	
	reduce, first e map.
	
	map, take e reduce.
	 
	map, filter e union.
	Respondido em 04/04/2022 17:57:34
	
	Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.
	
		7a
          Questão
	Acerto: 1,0  / 1,0
	
	Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
		
	
	Apenas a opção II está correta.
	 
	Apenas a opção I está correta.
	
	Apenas a opção III está correta.
	
	Apenas as opções II e III estão corretas.
	
	Apenas as opções I e III estão corretas.
	Respondido em 24/03/2022 14:29:34
	
	Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.
	
		8a
          Questão
	Acerto: 0,0  / 1,0
	
	A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão:
I - Histograma
II - Gráfico de Dispersão
III - Gráfico de Pizza
Analise as alternativas listadas e assinale a correta.
		
	 
	Apenas I e II
	
	Apenas I e III
	
	Apenas III
	
	Apenas II e III
	 
	As alternativas I, II e III
	Respondido em 04/04/2022 18:02:46
	
	Explicação:
Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis.
	
		9a
          Questão
	Acerto: 0,0  / 1,0
	
	O termo mineração de dados é amplamente usado na comunidade técnica a esmo, mas, na realidade ele se refere ao processo de:
		
	
	DNN
	 
	RNN
	
	LSTM
	
	CNN
	 
	KDD
	Respondido em 04/04/2022 17:59:47
	
	Explicação:
A comunidade de TI chama indiscriminadamente de mineração de dados, todo o conjunto de etapas de coleta de dados, seleção de dados, pré-processamento, transformação, descoberta de padrões, e avaliação de mineração de dados. A alternativa correta é KDD, ou Descoberta de Conhecimento em Bases de Dados (KDD, do inglês Knowledge Discovery in Databases), pois refere-se ao nome do processo de descobrir padrões, sendo o KDD comumente denominado de Mineração de dados. A alternativa CNN refere-se às redes neurais convolucionais (do inglês Convolutional Neural Network ¿ CNN), sendo muito utilizadas em processamento de imagens. A alternativa DNN é uma opção cujo conceito não foi explorado no tema. A alternativa LSTM refere-se à arquitetura das redes neurais recorrentes (Recurrent Neural Networks - RNN), utilizadas em problemas sequenciais ou temporais. A alternativa RNN refere-se às redes neurais recorrentes, também utilizadas em problemas sequenciais ou temporais.10a
          Questão
	Acerto: 1,0  / 1,0
	
	Quais os métodos de aprendizado de máquina que existem?
		
	
	Aprendizado Supervisionado, Não-Supervisionado, Por Força Bruta, e Semisupervisionado
	
	Aprendizado Supersticioso, Não-Supervisionado, Por Reforço, e Semisupervisionado
	 
	Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Semisupervisionado
	
	Aprendizado Supervisionado, Não-Supervisionado, Por Reforço, e Aleatório
	
	Aprendizado Supervisionado, Escondido, Por Reforço, e Semisupervisionado
	Respondido em 24/03/2022 14:30:00
	
	Explicação:
Os métodos de aprendizado de máquina existentes são 4: o aprendizado supervisionado, que treina modelos a partir de exemplos positivos e negativos; o aprendizado não supervisionado, em que o modelo tenta extrair padrões de forma autodidata dos registros; por reforço, em que o modelo apreende ao interagir com o ambiente; e, finalmente, o Semisupervisionado que aprende com dados tanto rotulados como não rotulados.

Continue navegando