Buscar

Simulado Tópicos de Big Data em Python 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1a
          Questão
	Acerto: 1,0  / 1,0
	
	Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
		
	
	Zetabytes
	 
	Petabytes
	
	Terabytes
	
	Exabytes
	
	Gigabytes
	
	
	Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.
	
		2a
          Questão
	Acerto: 0,0  / 1,0
	
	Em relação às plataformas para Internet das Coisas, selecione a opção correta sobre o Arduino.
		
	
	É um programa
	
	É o outro nome para Raspberry PI
	 
	É uma placa de hardware
	 
	É um ecossistema que envolve software e hardware
	
	É um protocolo de internet das coisas
	
	
	Explicação:
O arduino é uma tecnologia que combina hardware e software e é utilizada para internet das coisas. Portanto, não é um programa, nem uma placa de hardware e tão pouco um protocolo de comunicação. Já o Raspberry PI não é o mesmo que Arduino, pois se trata de uma outra tecnologia para internet das coisas.
	
		3a
          Questão
	Acerto: 1,0  / 1,0
	
	A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados.
		
	
	Bloco de dados
	 
	DataNode
	
	Replicação
	
	NameNode
	
	YARN
	
	
	Explicação:
O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados.
	
		4a
          Questão
	Acerto: 1,0  / 1,0
	
	Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele.
		
	
	estruturado e semiestruturado
	 
	estruturado, não estruturado e semiestruturado
	
	apenas não estruturado
	
	apenas tabelas relacionais
	
	apenas estruturado
	
	
	Explicação:
O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data.
	
		5a
          Questão
	Acerto: 0,0  / 1,0
	
	Atualmente, o Apache Spark, é o mais bem-sucedido framework para Big Data. Selecione a opção correta que contenha apenas funções que podem ser categorizadas como transformações no Spark.
		
	
	count, collect e take.
	 
	map, take e reduce.
	 
	map, filter e union.
	
	reduce, first e map.
	
	map, sample e collect.
	
	
	Explicação:
Gabarito: map, filter e union.
Justificativa: Algumas das funções de transformação no Spark são: map, filter, union, flatMap, mapPartitions e sample. As citadas transformações, denominadas de transformações estreitas, resultam da aplicação de funções de mapeamento e de filtragem, sendo que os dados se originam de uma única partição.
	
		6a
          Questão
	Acerto: 1,0  / 1,0
	
	O PySpark caracteriza-se como uma biblioteca Spark responsável por executar programas usando recursos do Apache Spark. Selecione a opção correta que contenha itens que são pré-requisitos de instalação para utilização do PySpark.
		
	
	Python e Escala
	
	Hadoop e Spark
	
	Casandra e Spark
	
	Java e R
	 
	Java e Python
	
	
	Explicação:
Gabarito: Java e Python
Justificativa: A utilização do PySpark depende principalmente de três pré-requisitos: instalação e configuração do Java, Python e do Spark. Além disso, é necessário tratar detalhes da plataforma sobre a qual o Spark vai rodar. No caso do Google Colab, é necessário instalar o FindSpark e o próprio PySpark também.
	
		7a
          Questão
	Acerto: 1,0  / 1,0
	
	No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como  que tipo de dados?
		
	
	Temporais
	
	Atemporais
	 
	Categóricos
	
	Numéricos
	
	Semi-Estruturados
	
	
	Explicação:
O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados.
	
		8a
          Questão
	Acerto: 1,0  / 1,0
	
	Dados categóricos são aqueles normalmente expressos por texto, que representam rótulos, nomes e símbolos. Qual tipo de visualização de dados abaixo é recomendado para dados categóricos?
		
	
	Gráfico de Faces de Chernoff.
	
	Gráfico de Estrela.
	
	Gráfico de Matriz de Dispersão.
	 
	Gráficos de Barra.
	
	Gráficos de Linha.
	
	
	Explicação:
O gráfico de barras mostra as proporções dos dados categóricos assim evidenciando os extratos da amostra. Lembrando que os dados categóricos não se encaixam nos gráficos de dados numéricos, como o de dispersão causando confusão na função de visualização ou quebrando a mesma dependendo da biblioteca escolhida.
	
		9a
          Questão
	Acerto: 0,0  / 1,0
	
	A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
		
	
	Q-Learning
	
	Regressão
	
	Modelos Generativos
	 
	Classificação
	 
	Agrupamento
	
	
	Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.
	
		10a
          Questão
	Acerto: 1,0  / 1,0
	
	No modelo de aprendizado profundo, as camadas internas ocultas representam:
 
I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses 
 
		
	
	Apenas II e III
 
	
	Apenas I e III
 
	
	Apenas III
 
	 
	Apenas I
 
	
	As alternativas I, II e III
 
	
	
	Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.
 
alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos descobertos em camadas anteriores.
 
A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de dinâmicas internas das partes e devolve informação relevante ao usuário final.
 
A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.

Continue navegando