Buscar

TESTE SEUS CONHECIMENTOS - TÓPICOS BIG DATA PYTHON

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

TÓPICOS DE BIG DATA EM PYTHON
	
		Lupa
	 
	Calc.
	
	
	 
	 
	 
	
	EEX0174_202009074936_TEMAS
	
	
	
		Aluno: JONATAS FONSECA DE SOUSA
	Matr.: 202009074936
	Disc.: TÓP BIG EM PYT 
	2022.3 EAD (GT) / EX
		Prezado (a) Aluno(a),
Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS.
	02727PRINCÍPIOS DE BIG DATA
	 
		
	
		1.
		Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.
	
	
	
	Amazon AWS
	
	
	IBM Cloud
	
	
	Oracle Cloud
	
	
	Microsft Azure
	
	
	Google Cloud
	Data Resp.: 14/09/2022 08:49:55
		Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
	
	
	 
		
	
		2.
		Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
	
	
	
	Terabytes
	
	
	Gigabytes
	
	
	Zetabytes
	
	
	Petabytes
	
	
	Exabytes
	Data Resp.: 14/09/2022 08:51:22
		Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.
	
	
	02508HADOOP E ARMAZENAMENTO DE DADOS
	 
		
	
		3.
		Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop.
	
	
	
	A estrutura de desenvolvimento no Hadoop é sequencial.
	
	
	Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.
	
	
	O Hadoop utiliza o HDFS para armazenar dados.
	
	
	O Hadoop tem apenas uma única distribuição.
	
	
	O Hadoop não funciona com pequenos volumes de dados.
	Data Resp.: 14/09/2022 09:19:22
		Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos sistemas gerenciadores de bancos de dados relacionais (RDBMS).
	
	
	 
		
	
		4.
		O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop.
	
	
	
	Mecanismo para melhorar o processamento dos dados.
	
	
	Processos de extração, transformação e carregamento dos dados.
	
	
	Tratar dados não-estruturados.
	
	
	Aplicar políticas de segurança.
	
	
	Gerenciamento do armazenamento de dados.
	Data Resp.: 14/09/2022 08:59:03
		Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa.
	
	
	02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON
	 
		
	
		5.
		Selecione a opção correta que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.
	
	
	
	random
	
	
	distinct
	
	
	filter
	
	
	mapRandom
	
	
	sample
	Data Resp.: 14/09/2022 09:23:05
		Explicação:
Gabarito: sample
Justificativa: A operação responsável por retornar um subconjunto aleatório dos dados é a sample. É uma operação da categoria de transformação, sendo que se encaixa em transformações amplas, pois pode ser necessário realizar movimentações entre as partições. Filter é uma função que retorna um subconjunto de dados em relação a alguma condição imposta, portanto não há aleatoriedade. Random e mapRandom não são funções válidas para o Spark. Distinct retorna um RDD com elementos diferentes de um RDD de entrada.
	
	
	 
		
	
		6.
		O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
	
	
	
	RDD
	
	
	Executor
	
	
	DAG
	
	
	Work Node
	
	
	Tasks
	Data Resp.: 14/09/2022 09:07:12
		Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo.
	
	
	02260ANÁLISE DE DADOS EM PYTHON COM PANDAS
	 
		
	
		7.
		Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
	
	
	
	Apenas a opção III.
	
	
	Todas as opções I, II, III, IV.
	
	
	Apenas as opções I, II, III.
	
	
	Apenas as opções II, III.
	
	
	Apenas as opções I, II, IV.
	Data Resp.: 14/09/2022 09:31:46
		Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.
	
	
	 
		
	
		8.
		A visualização dos dados é fundamental no processo de análise e interpretação. Qual o tipo de visualização de dados mais indicada para dados temporais?
	
	
	
	Gráfico de Estrela.
	
	
	Gráfico de Faces de Chernoff.
	
	
	Gráfico de Linha.
	
	
	Gráfico de Barra.
	
	
	Gráfico de Matriz de Dispersão.
	Data Resp.: 14/09/2022 09:12:36
		Explicação:
O gráfico de linhas passa a visualização de cronologia, acompanhando a linha de vida do dado, mostrando através das inclinações ou gradientes, o crescimento ou decrescimento do dado. As demais alternativas indicam tipos de visualização inadequados para dados temporais.
	
	
	02318BIG DATA ANALYTICS
	 
		
	
		9.
		Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estavam preparando o conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente os colegas de Luís estão removendo dados faltantes, em qual etapa do processo de KDD, Luís se encontra:
	
	
	
	Avaliação.
	
	
	Pré-Processamento    .                              
	
	
	Coleta de Dados.
	
	
	Descoberta de Padrões.
	
	
	Transformação de Dados.
	Data Resp.: 14/09/2022 09:31:15
		Explicação:
Luís se encontra na fase que ocorre logo após selecionarmos dados, e antes da transformação do conjunto, que é justamente a fase de pré-processamento ou limpeza dos dados.
	
	
	 
		
	
		10.
		A qualtécnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
	
	
	
	Agrupamento
	
	
	Classificação
	
	
	Regressão
	
	
	Q-Learning
	
	
	Modelos Generativos
	Data Resp.: 14/09/2022 09:15:15
		Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.