TÓPICOS DE BIG DATA EM PYTHON_SEMULADO AV

•

ESTÁCIO

4

0

4

0

1

Saulo Neves

04/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise e Desenvolvimento de Software

2.215 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Simulado AV
	Teste seu conhecimento acumulado
	
		
		Disc.: TÓPICOS DE BIG DATA EM PYTHON   
	Aluno(a): 
	
	Acertos: 10,0 de 10,0
	04/06/2022
		1a
          Questão
	Acerto: 1,0  / 1,0
	
	A respeito das aplicações de fluxos de dados, selecione a opção correta.
		
	
	Serviço de correio eletrônico
	
	Reapresentação de programas de televisão.
	 
	Serviços sob demanda, como serviços de filme online.
	
	Serviços de compras online
	
	Transações bancárias, como o serviço de PIX.
	Respondido em 04/06/2022 19:33:04
	
	Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente.
	
		2a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
		
	 
	Camada de transporte
	
	Camada de sessão
	
	Camada lógica
	
	Camada de enlace de dados
	
	Camada de aplicação
	Respondido em 04/06/2022 19:33:20
	
	Explicação:
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.
	
		3a
          Questão
	Acerto: 1,0  / 1,0
	
	A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.
		
	
	Bloco de dados
	
	Replicação
	
	NameNode
	
	YARN
	 
	DataNode
	Respondido em 04/06/2022 19:34:44
	
	Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados.
	
		4a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção que indica  o processo responsável por executar uma tarefa atribuída a ele pelo Job Tracker.
		
	
	MapTracker
	 
	Task Tracker
	
	Job Tracker Slave
	
	MapJob
	
	MapReduce
	Respondido em 04/06/2022 19:36:10
	
	Explicação:
O JobTracker envia as informações necessárias para a execução de uma tarefa para o TaskTracker que, por sua vez, executa a tarefa e envia os resultados de volta para JobTracker, além de fazer o seu rastreamento.
	
		5a
          Questão
	Acerto: 1,0  / 1,0
	
	O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
		
	
	É uma técnica lenta para processamento de grandes volumes de dados
	
	Só pode ser aplicada para grandes volumes de dados
	
	Foi substituída no Spark por acesso direto à memória
	
	Consiste em uma técnica de programação sequencial
	 
	É uma técnica de computação distribuída
	Respondido em 04/06/2022 19:37:18
	
	Explicação:
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.
	
		6a
          Questão
	Acerto: 1,0  / 1,0
	
	O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
		
	
	Processamento
	
	Separação
	 
	Redução
	
	Agregação
	
	Mapeamento
	Respondido em 04/06/2022 19:33:52
	
	Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo.
	
		7a
          Questão
	Acerto: 1,0  / 1,0
	
	Luis planeja começar um projeto particular visando construir um módulo de análise de dados. Primeiramente ele deseja começar por um módulo de coleta de dados. Para que ele possa obter um padrão organizado de criação de projeto, qual  a sequência desejável de passos que esperamos que Luis siga?
		
	
	Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py com a lógica do módulo.
	
	Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um para a lógica do módulo.
	 
	Criar uma pasta para acomodar seu projeto; Levantar um virtualenv através do venv; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
	
	Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
	
	Criar uma pasta para acomodar seu projeto; Instalar as dependências com as quais ele quer trabalhar através do pip install; congelar as mesmas no requirements.txt através do pip freeze; criar uma pasta para o módulo de coleta e dentro dela criar um arquivo __init__.py em branco e outro para a lógica do módulo.
	Respondido em 04/06/2022 19:38:44
	
	Explicação:
O passo a passo correto envolve: criar uma pasta para o projeto; levantar um ambiente virtual; instalar as dependências e guardá-las no arquivo requirements.txt; criar uma pasta para o módulo de coleta e criar um arquivo __init__.py em branco e outro para o módulo. As opções que não descrevem todos esses passos estão incompletas ou na ordem incorreta.
	
		8a
          Questão
	Acerto: 1,0  / 1,0
	
	Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
		
	
	Apenas a opção II está correta.
	
	Apenas as opções I e III estão corretas.
	
	Apenas a opção III está correta.
	 
	Apenas a opção I está correta.
	
	Apenas as opções II e III estão corretas.
	Respondido em 04/06/2022 19:40:07
	
	Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa IIIé incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.
	
		9a
          Questão
	Acerto: 1,0  / 1,0
	
	Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?
 
I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML  
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados
III - A obrigatoriedade da entrega de um artefato de ML
		
	 
	As opções I, II, e III estão corretas
	
	Apenas a opção II
	
	Apenas as opções I e III
	
	Apenas a opção I
	
	Apenas as opções II e III
	Respondido em 04/06/2022 19:41:11
	
	Explicação:
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML.
	
		10a
          Questão
	Acerto: 1,0  / 1,0
	
	As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) 
		
	 
	Camadas Escondidas
	
	Vieses
	
	Pesos
	
	Camada de Saída
	
	Função de Ativação
	Respondido em 04/06/2022 19:41:41
	
	Explicação:
O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados.