Prévia do material em texto
TÓPICOS DE BIG DATA EM PYTHON
Lupa
DGT0134_202104199211_TEMAS
Aluno:
Matr.:
Disc.: TÓPICOS DE BIG DAT
2023.2 EAD (G) / EX
Prezado (a) Aluno(a),
Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se familiarizar com este modelo de questões que será usado na sua AV e AVS.
02727PRINCÍPIOS DE BIG DATA
1.
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas.
IBM Cloud
Microsft Azure
Amazon AWS
Google Cloud
Oracle Cloud
Data Resp.: 17/05/2023 18:47:12
Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado.
2.
Selecione a opção correta com a medida de volume de dados que normalmente é usada para se referenciar a projetos de Big Data.
Exabytes
Petabytes
Zetabytes
Gigabytes
Terabytes
Data Resp.: 17/05/2023 18:47:32
Explicação:
As aplicações que possuem ordem de grandeza de petabytes de volume de dados são consideradas de Big Data. As alternativas da questão podem ser vistas em ordem crescente de grandeza das unidades de medida de armazenamento: Gigabytes, Terabytes, Petabytes, Exabytes e Zetabytes.
02508HADOOP E ARMAZENAMENTO DE DADOS
3.
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop.
Processos de extração, transformação e carregamento dos dados.
Mecanismo para melhorar o processamento dos dados.
Tratar dados não-estruturados.
Aplicar políticas de segurança.
Gerenciamento do armazenamento de dados.
Data Resp.: 17/05/2023 18:47:48
Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa.
4.
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
HDFS
MapReduce
Camada de ingestão
Task manager
Mrjob
Data Resp.: 17/05/2023 18:47:58
Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o Hadoop, não possuem a funcionalidade de rastreamento de tarefas.
02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON
5.
O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL.
Executor
Work Node
RDD
Tasks
DAG
Data Resp.: 17/05/2023 18:48:09
Explicação:
Gabarito: RDD
Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo.
6.
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento.
Redução
Agregação
Processamento
Separação
Mapeamento
Data Resp.: 17/05/2023 18:48:21
Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo.
02260ANÁLISE DE DADOS EM PYTHON COM PANDAS
7.
Dado que Felipe quer fazer a junção entre dois conjuntos de dados e escreveu o seguinte código:
import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})
df1.merge(df2, left_on='lkey', right_on='rkey')
Qual destas alternativas descreve as saídas do código?
I ¿ O conjunto resultante terá colunas lkey, value_x, rkey, value_y
II ¿ O código não executará, pois Filipe não definiu os sufixos de coluna
III ¿ O resultado do código em questão retornará um pd.Series juntando os conjuntos pela lkey e rkey.
Apenas as opções II e III estão corretas.
Apenas a opção I está correta.
Apenas as opções I e III estão corretas.
Apenas a opção II está correta.
Apenas a opção III está correta.
Data Resp.: 17/05/2023 18:48:33
Explicação:
A afirmativa I está corretíssima uma vez que o resultado terá as colunas chaves e as colunas valores acrescidas dos sufixos padrões, porquanto não há declaração explícita. A afirmativa II é incorreta, por mais que seja uma boa prática definir os nomes dos sufixos de suas junções, não sendo impeditivo à biblioteca executar a junção sem elas. A afirmativa III é incorreta, pois o resultado de uma junção é um pd.DataFrame, uma vez que estamos falando de operações fechadas assim como a álgebra que rege o bom funcionamento de um sistema, i.e., como a entrada é de DataFrames, a saída obrigatoriamente também tem que ser de DataFrames.
8.
Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
Apenas a opção III.
Todas as opções I, II, III, IV.
Apenas as opções I, II, III.
Apenas as opções II, III.
Apenas as opções I, II, IV.
Data Resp.: 17/05/2023 18:48:47
Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos para análise, principalmente em projetos de aprendizado de máquina.
02318BIG DATA ANALYTICS
9.
Qual destes modelos é adequado para um problema de classificação?
I - SVM
II - Árvore de Decisão
III - K-Médias
Apenas as opções I e III
Todas as opções I, II e III
Apenas as opções II e III
Apenas as opções I e II
Apenas a opção III
Data Resp.: 17/05/2023 18:48:50
Explicação:
O aprendizado supervisionado contempla duas técnicas de aprendizadode máquina, a regressão e a classificação. Da classificação nossas opções são a árvore de decisão, a SVM, o KNN, as redes neurais entre outras. Mas, o modelo k-médias é uma técnica de aprendizado não supervisionado.
10.
A qual técnica de Aprendizado de Máquina o Algoritmo de Árvore de Decisão Classificadora pertence?
Classificação
Regressão
Modelos Generativos
Agrupamento
Q-Learning
Data Resp.: 17/05/2023 18:49:14
Explicação:
O algoritmo de árvore de decisão é um dos mais simples e poderosos algoritmos de aprendizado de máquina que pode ser utilizado tanto para regressão quanto para classificação, mas muda sua terminação dependendo da técnica em questão, por exemplo, para classificação é a Árvore de Decisão Classificadora, enquanto para regressão se chama Árvore Regressora, ou Árvore de Decisão Regressora.