Logo Passei Direto
Buscar

TÓPICOS DE BIG DATA EM PYTHON

Ferramentas de estudo

Questões resolvidas

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Microsft Azure Google Cloud Oracle Cloud Amazon AWS IBM Cloud

Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
Zetabytes
Petabytes
Exabytes
Gigabytes
Terabytes

A respeito do Hadoop.
Selecione a opção correta com o componente que faz o rastreamento de tarefas.
HDFS
MapReduce
Camada de ingestão
Task manager
Mrjob

O Spark é uma ferramenta computacional voltada para aplicações de Big Data.
Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
Executor
Work Node
RDD
Tasks
DAG

O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas.
Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
Redução
Agregação
Processamento
Separação
Mapeamento

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Apenas as opções II e III estão corretas.
Apenas a opção I está correta.
Apenas as opções I e III estão corretas.
Apenas a opção II está correta.
Apenas a opção III está correta.

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
Modelos Generativos
Q-Learning
Classificação
Regressão
Agrupamento

Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop.
Processos de extração, transformação e carregamento dos dados.
Mecanismo para melhorar o processamento dos dados.
Tratar dados não-estruturados.
Aplicar políticas de segurança.
Gerenciamento do armazenamento de dados.

Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
Redução
Agregação
Processamento
Separação
Mapeamento

Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. Microsft Azure Google Cloud Oracle Cloud Amazon AWS IBM Cloud

Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
Zetabytes
Petabytes
Exabytes
Gigabytes
Terabytes

A respeito do Hadoop.
Selecione a opção correta com o componente que faz o rastreamento de tarefas.
HDFS
MapReduce
Camada de ingestão
Task manager
Mrjob

O Spark é uma ferramenta computacional voltada para aplicações de Big Data.
Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
Executor
Work Node
RDD
Tasks
DAG

O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas.
Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
Redução
Agregação
Processamento
Separação
Mapeamento

Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código: import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]}) df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Apenas as opções II e III estão corretas.
Apenas a opção I está correta.
Apenas as opções I e III estão corretas.
Apenas a opção II está correta.
Apenas a opção III está correta.

A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
Modelos Generativos
Q-Learning
Classificação
Regressão
Agrupamento

Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop.
Processos de extração, transformação e carregamento dos dados.
Mecanismo para melhorar o processamento dos dados.
Tratar dados não-estruturados.
Aplicar políticas de segurança.
Gerenciamento do armazenamento de dados.

Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
Redução
Agregação
Processamento
Separação
Mapeamento

Prévia do material em texto

TÓPICOS DE BIG DATA EM PYTHON
	
		Lupa
	 
	
	
	
	 
	DGT0134_202104199211_TEMAS
	
	
	
		Aluno: 
	Matr.: 
	Disc.: TÓPICOS DE BIG DAT 
	2023.2 EAD (G) / EX
		Prezado (a) Aluno(a),
Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS.
	02727PRINCÍPIOS DE BIG DATA
	 
		
	
		1.
		Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.
	
	
	
	IBM Cloud
	
	
	Microsft Azure
	
	
	Amazon AWS
	
	
	Google Cloud
	
	
	Oracle Cloud
	Data Resp.: 17/05/2023 18:47:12
		Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
	
	
	 
		
	
		2.
	
	Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
	
	
	
	Exabytes
	
	
	Petabytes
	
	
	Zetabytes
	
	
	Gigabytes
	
	
	Terabytes
	Data Resp.: 17/05/2023 18:47:32
		Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.
	
	
	02508HADOOP E ARMAZENAMENTO DE DADOS
	 
		
	
		3.
		O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop.
	
	
	
	Processos de extração, transformação e carregamento dos dados.
	
	
	Mecanismo para melhorar o processamento dos dados.
	
	
	Tratar dados não-estruturados.
	
	
	Aplicar políticas de segurança.
	
	
	Gerenciamento do armazenamento de dados.
	Data Resp.: 17/05/2023 18:47:48
		Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa.
	
	
	 
		
	
		4.
		A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
	
	
	
	HDFS
	
	
	MapReduce
	
	
	Camada de ingestão
	
	
	Task manager
	
	
	Mrjob
	Data Resp.: 17/05/2023 18:47:58
		Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas.
	
	
	02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON
	 
		
	
		5.
		O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
	
	
	
	Executor
	
	
	Work Node
	
	
	RDD
	
	
	Tasks
	
	
	DAG
	Data Resp.: 17/05/2023 18:48:09
		Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo.
	
	
	 
		
	
		6.
		O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
	
	
	
	Redução
	
	
	Agregação
	
	
	Processamento
	
	
	Separação
	
	
	Mapeamento
	Data Resp.: 17/05/2023 18:48:21
		Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo.
	
	
	02260ANÁLISE DE DADOS EM PYTHON COM PANDAS
	 
		
	
		7.
		Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
	
	
	
	Apenas as opções II e III estão corretas.
	
	
	Apenas a opção I está correta.
	
	
	Apenas as opções I e III estão corretas.
	
	
	Apenas a opção II está correta.
	
	
	Apenas a opção III está correta.
	Data Resp.: 17/05/2023 18:48:33
		Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.
	
	
	 
		
	
		8.
		Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
	
	
	
	Apenas a opção III.
	
	
	Todas as opções I, II, III, IV.
	
	
	Apenas as opções I, II, III.
	
	
	Apenas as opções II, III.
	
	
	Apenas as opções I, II, IV.
	Data Resp.: 17/05/2023 18:48:47
		Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.
	
	
	02318BIG DATA ANALYTICS
	 
		
	
		9.
		Qual destes modelos é adequado para um problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias
	
	
	
	Apenas as opções I e III
	
	
	Todas as opções I, II e III
	
	
	Apenas as opções II e III
	
	
	Apenas as opções I e II
	
	
	Apenas a opção III
	Data Resp.: 17/05/2023 18:48:50
		Explicação:
O aprendizado supervisionado contempla duas técnicas de aprendizadode máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.
	
	
	 
		
	
		10.
		A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
	
	
	
	Classificação
	
	
	Regressão
	
	
	Modelos Generativos
	
	
	Agrupamento
	
	
	Q-Learning
	Data Resp.: 17/05/2023 18:49:14
		Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.

Mais conteúdos dessa disciplina