Buscar

EEX0174 - TÓPICOS DE BIG DATA EM PYTHON - Simulado AV

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

1a
          Questão 
	Acerto: 1,0  / 1,0 
	
	Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados.
		
	
	Computação Paralela
	
	Computação centralizada
	
	Computação em Nuvem
	
	Computação de banco de dados
	
	Computação de Big Data
	Respondido em 03/04/2022 13:40:26
	
	Explicação: 
As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet.
	
		2a
          Questão 
	Acerto: 1,0  / 1,0 
	
	Selecione a opção em que a camada fornece comunicação ponta a ponta nas aplicações de internet das coisas.
		
	
	Camada de aplicação
	
	Camada de sessão
	
	Camada lógica
	
	Camada de transporte
	
	Camada de enlace de dados
	Respondido em 03/04/2022 13:39:47
	
	Explicação: 
A camada de transporte é encarregada pela comunicação ponta a ponta entre as aplicações e oferece confiabilidade, além de garantir que os pacotes serão entregues da mesma forma que o usuário os enviou. Em relação às outras opções, a camada lógica simplesmente não existe. Já a camada de enlace de dados detecta erros e, quando necessário, os corrige. A camada de sessão trata dos processos responsáveis pela transferência de dados. Por fim, a camada de aplicação é responsável pela comunicação fim-a-fim entre processos.
	
		3a
          Questão 
	Acerto: 1,0  / 1,0 
	
	O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake.
		
	
	Camada de segurança
	
	Camada de governança
	
	Camada de gerenciamento de dados
	
	Camada de Metadados
	
	Camada de gerenciamento do ciclo de vida da informação
	Respondido em 03/04/2022 13:45:58
	
	Explicação: 
O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e das regras de armazenamento.
	
		4a
          Questão 
	Acerto: 1,0  / 1,0 
	
	Selecione a opção correta a respeito do nível do Data Lake responsável por fornecer dados para a análise de negócios.
		
	
	Nível de gerenciamento
	
	Nível de governança
	
	Nível de consumo
	
	Nível de Metadados
	
	Nível de admissão
	Respondido em 03/04/2022 13:47:29
	
	Explicação: 
O Data Lake possui três níveis: o de admissão, o de gerenciamento e o de consumo que tratam, respectivamente, dos serviços de aquisição de dados, da identificação e localização dos dados e que fornecem dados para ser consumidos por aplicações de apoio à tomada de decisão.
	
		5a
          Questão 
	Acerto: 1,0  / 1,0 
	
	O MapReduce é uma técnica clássica de programação e é bastante utilizada por diversos frameworks como o Spark, por exemplo. Em relação à técnica MapReduce, selecione a opção correta.
		
	
	É uma técnica de computação distribuída
	
	É uma técnica lenta para processamento de grandes volumes de dados
	
	Foi substituída no Spark por acesso direto à memória
	
	Consiste em uma técnica de programação sequencial
	
	Só pode ser aplicada para grandes volumes de dados
	Respondido em 03/04/2022 13:41:19
	
	Explicação: 
Gabarito: É uma técnica de computação distribuída
Justificativa: O MapReduce é uma técnica de computação distribuída que apesar de clássica ainda é considerada muito eficiente para processamento de grandes volumes de dados. Apesar de ser adequada para projetos de big data, ela também pode ser utilizada para menores volumes, mas não é apropriada para esses casos.
	
		6a
          Questão 
	Acerto: 1,0  / 1,0 
	
	Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.
		
	
	RDD
	
	DataFrame
	
	Spark.Catalog
	
	SparkSession
	
	SparkContext
	Respondido em 03/04/2022 13:50:40
	
	Explicação: 
Gabarito: SparkContext
Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais.
	
		7a
          Questão 
	Acerto: 1,0  / 1,0 
	
	Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
		
	
	Todas as opções I, II, III, IV.
	
	Apenas as opções II, III.
	
	Apenas as opções I, II, III.
	
	Apenas a opção III.
	
	Apenas as opções I, II, IV.
	Respondido em 03/04/2022 13:42:11
	
	Explicação: 
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.
	
		8a
          Questão 
	Acerto: 1,0  / 1,0 
	
	A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao aplicarmos o método reset_index() no resultado de uma agregação?
		
	
	O DataFrame é embaralhado.
	
	Nada, o DataFrame fica imutável.
	
	O DataFrame é indexado pelas suas colunas.
	
	Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
	
	As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
	Respondido em 03/04/2022 13:53:05
	
	Explicação: 
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de então, o index das agregações passa a ser o agrupamento.  Com o reset_index() após a agregação, os índices originais das colunas são preservados.
	
		9a
          Questão 
	Acerto: 1,0  / 1,0 
	
	No modelo de aprendizado profundo, as camadas internas ocultas representam:
 
I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses 
 
		
	
	As alternativas I, II e III
 
	
	Apenas II e III
 
	
	Apenas I
 
	
	Apenas III
 
	
	Apenas I e III
 
	Respondido em 03/04/2022 13:56:34
	
	Explicação: 
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.
 
alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.
 
A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dadoscomo insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final.
 
A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.
	
		10a
          Questão 
	Acerto: 1,0  / 1,0 
	
	Qual destes modelos é adequado para um problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias
		
	
	Apenas as opções II e III
	
	Apenas as opções I e II
	
	Todas as opções I, II e III
	
	Apenas a opção III
	
	Apenas as opções I e III
	Respondido em 03/04/2022 13:42:59
	
	Explicação: 
O aprendizado supervisionado contempla duas técnicas de aprendizado de máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.

Continue navegando