Estácio_ AlunosBIGDATA

•

ESTÁCIO

2

0

2

0

Raquelle Campos

26/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.766 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

26/04/2022 06:50 Estácio: Alunos
https://simulado.estacio.br/alunos/ 1/4
Teste de
Conhecimento
avalie sua aprendizagem
A respeito das aplicações de fluxos de dados, selecione a opção correta.
Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as
outras plataformas.
TÓPICOS DE BIG DATA EM PYTHON
Lupa Calc.

EEX0174_202007044991_TEMAS

Aluno: RAQUELLE MACHADO CAMPOS Matr.: 202007044991
Disc.: TÓP BIG EM PYT 2022.1 EAD (GT) / EX

Prezado (a) Aluno(a),

Você fará agora seu TESTE DE CONHECIMENTO! Lembre-se que este exercício é opcional, mas não valerá ponto para sua
avaliação. O mesmo será composto de questões de múltipla escolha.
Após responde cada questão, você terá acesso ao gabarito comentado e/ou à explicação da mesma. Aproveite para se
familiarizar com este modelo de questões que será usado na sua AV e AVS.

1.
Reapresentação de programas de televisão.
Serviço de correio eletrônico
Transações bancárias, como o serviço de PIX.
Serviços sob demanda, como serviços de filme online.
Serviços de compras online
Data Resp.: 26/04/2022 07:48:29

Explicação:
Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e
reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de
serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente.

2.
Microsft Azure
Oracle Cloud
IBM Cloud
Google Cloud
Amazon AWS
Data Resp.: 26/04/2022 07:48:54

Explicação:
A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do
mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do
mercado.

javascript:voltar();
javascript:voltar();
javascript:diminui();
javascript:aumenta();
javascript:calculadora_on();
26/04/2022 06:50 Estácio: Alunos
https://simulado.estacio.br/alunos/ 2/4
A respeito do Hadoop, selecione a opção correta com o componente que faz o rastreamento de tarefas.
Compreender a tecnologia Hadoop e os aspectos fundamentais do seu ecossistema é fundamental para o profissional
de Tecnologia da Informação. Sendo assim, selecione a opção correta sobre o Hadoop.
Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de

3.
Camada de ingestão
Task manager
HDFS
MapReduce
Mrjob
Data Resp.: 26/04/2022 07:49:05

Explicação:
O mecanismo MapReduce é responsável pela distribuição de tarefas em um cluster, através de rastreamento de
tarefas (Task Trackers) e de trabalhos (Job Trackers). As demais alternativas, embora tenham relação com o
Hadoop, não possuem a funcionalidade de rastreamento de tarefas.

4.
A estrutura de desenvolvimento no Hadoop é sequencial.
O Hadoop não funciona com pequenos volumes de dados.
O Hadoop tem apenas uma única distribuição.
Hadoop é um ambiente ideal para extrair e transformar pequenos volumes de dados.
O Hadoop utiliza o HDFS para armazenar dados.
Data Resp.: 26/04/2022 07:49:12

Explicação:
O HDFS é um acrônimo para sistema de arquivos distribuídos do Hadoop (do inglês Hadoop Distributed File
System). Ele é o componente responsável pelo armazenamento e gerenciamento de dados, de forma similar aos
sistemas gerenciadores de bancos de dados relacionais (RDBMS).

5.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
A execução do trecho de código vai gerar um erro.
A utilização do SparkContext é opcional.
A variável "teste" corresponde a um RDD.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
Data Resp.: 26/04/2022 07:49:24

Explicação:
Gabarito: A variável "teste" corresponde a um RDD.
Justificativa: O trecho de código está sintaticamente correto. O objetivo é criar um RDD que, no caso, é
representado pela variável "teste" para isso é obrigatório utilizar o "SparkContext". O pacote "numpy" foi utilizado
por causa da variável vetor "a".

6.
26/04/2022 06:50 Estácio: Alunos
https://simulado.estacio.br/alunos/ 3/4
maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por
consolidar os resultados produzidos ao longo do processamento.
Sobre o Pandas DataFrame o que podemos afirmar?
I - É o coletivo de séries temporais pandas.Series
II - É a estrutura de dados que representa os dados em painel
III - É uma matriz conjunto de vetores
IV - É o bloco fundamental da análise de dados moderna, principalmente para aprendizado de máquina.
Analise as frases listadas e assinale a alternativa correta.
Bibliotecas poderosas de análise e manipulação de dados podem ser utilizadas com a linguagem Python. Qual o método
utilizado para fazer a junção entre DataFrames no pandas?
Agregação
Processamento
Mapeamento
Redução
Separação
Data Resp.: 26/04/2022 07:49:32

Explicação:
Gabarito: Redução
Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento
dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos
frameworks como o Spark, por exemplo.

7.
Todas as opções I, II, III, IV.
Apenas as opções I, II, III.
Apenas as opções II, III.
Apenas a opção III.
Apenas as opções I, II, IV.
Data Resp.: 26/04/2022 07:49:39

Explicação:
A proposição I é correta, pois, assim como o conceito estatístico, o DataFrame no Python é um coletivo de objetos
Pandas Series, que são séries temporais. A proposição II está correta pela definição estatística de dados em
painel, que são conjuntos de séries temporais heterogêneas armazenadas e dispostas de forma tabular. A
proposição III não é verdade, pois o DataFrame é um conjunto de Series, que por sua vez é muito diferente do
objeto List do Python. A proposição IV está correta, pois atualmente em grande maioria esmagadora, os projetos
modernos de análise de dados dependem muito dos DataFrames, uma vez que são muito cômodos e robustos
para análise, principalmente em projetos de aprendizado de máquina.

8.
values
set_index
merge
sum
reset_index
Data Resp.: 26/04/2022 07:50:20

Explicação:
O método merge é equivalente ao join da SQL que junta dois DataFrames a partir de indexes do mesmo nome, ou
de indexes pré-definidos pelo cientista de dados. As demais alternativas não dizem respeito à operação de junção
entre DataFrames.

26/04/2022 06:50 Estácio: Alunos
https://simulado.estacio.br/alunos/ 4/4
Quais destas opções representam as diferenças entre o KDD e o CRISP-DM?

I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML
II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de
Dados
III - A obrigatoriedade da entrega de um artefato de ML
As técnicas de aprendizado de máquina para aprendizado supervisionado são:

I - Classificação
II - Agrupamento
III - Regressão

9.
Apenas a opção I
Apenas as opções I e III
Apenas a opção II
As opções I, II, e III estão corretas
Apenas as opções II e III
Data Resp.: 26/04/2022 07:50:38

Explicação:
O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento
do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para
uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML.

10.
Apenas II e III
Apenas I e III
Apenas I
Apenas I e II
Apenas II
Data Resp.: 26/04/2022 07:50:50

Explicação:
O aprendizado supervisionado contempladuas técnicas que são a de classificação, em que o modelo tenta
aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros,
baseado no registro histórico e suas características.

Não Respondida Não Gravada Gravada

Exercício inciado em 26/04/2022 07:46:17.