BIG DATA EM PYTHON

•

ESTÁCIO

2

0

2

0

Ulysses Serra

30/03/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.856 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Teste de
Conhecimento
avalie sua aprendizagem
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as
outras plataformas.
A respeito das aplicações de fluxos de dados, selecione a opção correta.
TÓPICOS DE BIG DATA EM PYTHON
Lupa Calc.

EEX0174_202101172442_TEMAS

Aluno: ULYSSES FERREIRA SERRA Matr.: 202101172442
Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX

Prezado (a) Aluno(a),

Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua
avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se
familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.
IBM Cloud
Google Cloud
Oracle Cloud
Amazon AWS
Microsft Azure
Data Resp.: 30/03/2022 14:19:38

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do
mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do
mercado.

2.
Serviços sob demanda, como serviços de filme online.
Reapresentação de programas de televisão.
Serviços de compras online
Transações bancárias, como o serviço de PIX.
Serviço de correio eletrônico
Data Resp.: 30/03/2022 14:19:47

Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e
reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de
serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente.

javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
O Hadoop é uma tecnologia especializada em atender as demandas de Big Data. Selecione a opção correta que
contenha a linguagem de programação utilizada para o desenvolvimento e implementação do Hadoop.
O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa
correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop.
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de

3.
Lua
Perl
Python
Java Script
Java
Data Resp.: 30/03/2022 14:19:54

Explicação:
O Hadoop foi desenvolvido usando, originalmente, a linguagem de programação Java na distribuição livre da
Apache Foundation. Atualmente, diferentes distribuições do framework estão implementadas em diversas
linguagens, entre as quais o Python.

4.
Aplicar políticas de segurança.
Mecanismo para melhorar o processamento dos dados.
Tratar dados não-estruturados.
Processos de extração, transformação e carregamento dos dados.
Gerenciamento do armazenamento de dados.
Data Resp.: 30/03/2022 14:20:03

Explicação:
O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por
essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa.

5.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
A variável "teste" corresponde a um RDD.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
A execução do trecho de código vai gerar um erro.
A utilização do SparkContext é opcional.
Data Resp.: 30/03/2022 14:20:11

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é
representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado
por causa da variável vetor "a".

6.
maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por
consolidar os resultados produzidos ao longo do processamento.
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método
utilizado para fazer a junção entre DataFrames no pandas?
A função de agrupamento do Pandas é o groupby, responsável por influenciar a indexação das colunas. O que acontece ao
aplicarmos o método reset_index() no resultado de uma agregação?
No modelo de aprendizado profundo, as camadas internas ocultas representam:

I - Abstrações de aspectos de dados complexos
II - Informação relevante dos dados de entrada
III - Pesos e Viéses

Redução
Agregação
Processamento
Separação
Mapeamento
Data Resp.: 30/03/2022 14:20:20

Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento
dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos
frameworks como o Spark, por exemplo.

7.
values
set_index
sum
reset_index
merge
Data Resp.: 30/03/2022 14:20:28

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou
de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção
entre DataFrames.

8.
O DataFrame é indexado pelas suas colunas.
Nada, o DataFrame fica imutável.
Os indexes não são deletados, evitando a perda de colunas no DataFrame da agregação.
O DataFrame é embaralhado.
As colunas de agrupamento somem, e o DataFrame passa a ser indexado pelo número da linha.
Data Resp.: 30/03/2022 14:20:36

Explicação:
Ao agruparmos com groupby, o DataFrame passa a ser reindexado pelos grupos de colunas escolhidas. A partir de
então, o index das agregações passa a ser o agrupamento. Com o reset_index() após a agregação, os índices
originais das colunas são preservados.

9.
As técnicas de aprendizado de máquina para aprendizado supervisionado são:

I - Classificação
II - Agrupamento
III - Regressão
As alternativas I, II e III

Apenas I e III

Apenas I

Apenas III

Apenas II e III

Data Resp.: 30/03/2022 14:20:45

Explicação:
Os modelos de aprendizado profundo são modelos conexionistas que usam suas camadas internas para abstrair
automaticamente abstrações de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo
combinações de aspectos descobertos em camadas anteriores.

alternativa I - Abstrações de aspectos de dados complexos ¿ está correta pois os modelos de aprendizado
profundo são modelos conexionistas que usam suas camadas internas para abstrair automaticamente abstrações
de aspectos complexos dos dados, como uma linha reta ou uma curva, e até mesmo combinações de aspectos
descobertos em camadas anteriores.

A alternativa II - Informação relevante dos dados de entrada - está incorreta por estar relacionada com o conceito
de sistema de informação, que é uma coleção de partes que recebe dados como insumo, processa-os por meio de
dinâmicas internas das partes e devolve informação relevante ao usuário final.

A alternativa III ¿ Pesos e Vieses ¿ está incorreta, pois o aprendizado profundo tenta modelar abstrações de alto
nível de dados, sendo os grafos empregados nessa área as redes neurais artificiais, onde as camadas ocultas
mapeiam de forma equivariante os pesos e os filtros para as camadas subsequentes.

10.
Apenas II
Apenas I
Apenas I e III
Apenas I e II
Apenas II e III
Data Resp.: 30/03/2022 14:20:55

Explicação:
O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta
aprender acategorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros,
baseado no registro histórico e suas características.

Não Respondida Não Gravada Gravada

Exercício inciado em 30/03/2022 14:19:30.