Python com Spark (prova)

•

UNOPAR

0

Camilo Setubal

05/01/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Python

3.256 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1)
O Spark tem algumas características que podem ser citadas, como, por exemplo, o
armazenamento é realizado primeiramente em memória e somente após o
processamento passa a enviar os dados para memória, agilizando o processamento das
informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a
seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a
otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.

Alternativas:
• V – F – V – V – V.
• F – F – V – V – F.
• F – V – F – V – F.
• V – V – V – V – F.
checkCORRETO
• F – V – V – V – V.
Resolução comentada:
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados
distribuídos.
Código da questão: 48947
2)
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos
classificar em três grupos: Não-estruturado, semiestruturado e estruturado.
( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são
definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas
diretamente em um SparkConf. O SparkConf permite configurar algumas das
propriedades através do método set ()
( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL,
Spark Streaming e Spark MLlib.
( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em
tempo real. Dessa forma, podemos desenvolver algoritmos para processamento de
dados à medida que os dados chegam (em tempo real) e não em um processo em lote.
Assinale a alternativa que contenha a sequência correta:

Alternativas:
• F – F – V – V.
• V – F – F – V.
• V – V – F– V.
checkCORRETO
• V – F – F – F.
• V – V – F – F.
Código da questão: 48973
3)
Sobre os conceitos de machine learning, considere as seguintes afirmações:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000,
devido à evolução dos computadores.
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de
aplicações na área de ciência de dados, especialmente na área de machine learning.
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a
organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos:
treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por
exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar
em consideração o problema a ser resolvido e o modelo.
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o
conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos
desconhecidos no conjunto de teste.
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de
animais em fotos, podem ser resolvidos utilizando algoritmo de regressão.
Assinale a alternativa que contenha a sequência correta.

Alternativas:
• V – F – V – V – F.
• F – F – V – V – F.
checkCORRETO
• F – V – V – V – F.
• V – F – V – F – F.
• V – V – V – F – F.
Resolução comentada:
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos
computadores possibilitou que as novas técnicas fossem aplicadas a grande
quantidade de dados.
A linguagem Python é bastante utilizada para resolver problemas usando machine
learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java,
SQL e Matlab.
Reconhecimento de impressão digital; identificação de tumores a partir de uma
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de
animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de
regressão.
Código da questão: 48968
4)
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de
tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta
configuração, esse modelo é conhecido como ________________ , ou seja, o usuário
fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o
algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No
aprendizado de máquinas _________________, apenas os dados de entrada são
conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca
__________ contém uma grande variedade de eficientes ferramentas para mineração e
análise de dados para computação científica em Python.
Assinale a alternativa que completa adequadamente as lacunas.

Alternativas:
• aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib.
• aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn.
checkCORRETO
• aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib.
• aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn.
• aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-
learn.
Resolução comentada:
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem
ser obrigatoriamente rotulado.
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O
scikit-learn contém uma grande variedade de eficientes ferramentas para mineração e
análise de dados.
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados.
Código da questão: 48966
5)
I. O framework Apache Spark Streaming tem suporte para outras ferramentas de
armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka.
II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em
Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser
resumidos em mensagens, sendo consumidas e produzidas através de tópicos.
III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização
de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é
necessária a instalação de uma JVM (Java Virtual Machine).
IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o
download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito
via comando pip install elasticsearch-hadoop.
Assinale a alternativa correta.

Alternativas:
• Apenas IV.
• I - III - IV.
• I - IV.
• I - II - III.
checkCORRETO
• Todas as afirmações estão corretas.
Resolução comentada:
Para fazer a integração do Elasticsearch com Apache Spark é necessário fazer a
instalação do elasticsearch-hadoop, porém até o momento não é possível fazer via
comando pip install. Portando, a opção IV é falsa e todas as demais são corretas.
Código da questão: 48979
6)
O processamento de dados em tempo real (streaming) é um requisito essencial em
muitas aplicações que utilizam Big Data.
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________,
uma das primeiras APIs a ativar processamento de streaming usando operadores
funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual,
Apache Spark Streaming fornece uma API com suporte para as linguagens de
programação _________, Java e Python.
Atualmente muitas empresas usam Apache Spark Streaming na produção de
aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes
de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes
- __________________, no entanto, a API DStreams é baseada em operações de nível
relativamente baixo emobjetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.

Alternativas:
• API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.
checkCORRETO
• API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
• API DataFrames; Java; DataSet; R; Scala.
• DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
• DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python.
Resolução comentada:
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams
e não DataFrames e DataSet.
A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte
para a linguagem de programação R.
A API DStreams é baseada em operações de nível relativamente baixo em objetos Java
ou Python.
Código da questão: 48976
7)
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de
análise de grande volume de dados (Big Data) no momento em que é produzido ou
usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os
cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de
dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações
simultaneamente.
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta.

Alternativas:
• A biblioteca Apache Spark Streaming pode ser usada para processar dados de
streaming em tempo real de diferentes fontes, como sensores, redes sociais e
transações online, e os resultados gerados podem ser armazenados em
software como Kafka, HDFS, Cassandra e Elasticsearch.
checkCORRETO
• A API Apache Spark Streaming tem suporte para as linguagens de programação
Java, Scala, Python e R.
• No processamento em streaming ocorre a análise dos dados que já foram
armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou
banco de dados, entre outros.
• Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais
importantes no PySpark, e uma característica importante dos RDDs é que eles
não são objetos imutáveis.
• Em Python, os DataFrames de streaming podem ser criados por meio da
interface DataStreamReader retornada por SparkSession.createStream().
Resolução comentada:
No processamento em batch ocorre a análise dos dados que já foram armazenados por
um tempo, portanto a alternativa a. é falsa.
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados
mais importante no PySpark; uma característica importante dos RDDs é que são
objetos imutáveis, portanto a alternativa b. é falsa.
A API Apache Spark Streaming não tem suporte para a linguagem de programação R,
portanto a alternativa c. é falsa.
Em Python, os DataFrames de streaming podem ser criados por meio da interface
DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é
falsa.
Código da questão: 48975
8)
Big Data significa grande volume de dados. Esses dados são criados e armazenados
pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros
domínios estão levando à formação de Big Data. O Apache Spark é um framework que
fornece APIs para análise e processamento de Big Data.
Sobre Big Data e Apache Spark, assinale a alternativa correta.

Alternativas:
• Logs de servidores e aplicativos; imagens e vídeos gerados pela câmera de
segurança são exemplos de dados semi-estruturados.
• Os dados são classificados em semi-estruturados e estruturados e podemos
extrair informações desses dados utilizando o framework Apache Spark.
• Velocidade é a principal característica do Big Data e refere-se à velocidade na
distribuição dos dados.
• O Apache Spark é um framework para processamento Big Data e tem como
suporte para diversos formatos de dados (não-estruturado, semiestruturado e
estruturado).
checkCORRETO
• O Apache Spark é um framework para processamento Big Data e tem como
principais características: velocidade no processamento de grande volume de
dados tem suporte para diversos tipos de linguagem de programação como
Python, Java, R, Scala e C.
Resolução comentada:
Os dados são classificados em não-estruturados (logs de servidores e aplicativos;
imagens e vídeos) semiestruturados (CSV, XML e JSON) e estruturados (banco de
dados). O Apache Spark não tem suporte para linguagem de programação C. A
propriedade Velocidade (Velocity) em Big Data refere-se à velocidade na qual os dados
estão sendo criados, armazenados e atualizados e não na sua distribuição.
Código da questão: 48970
9)

Alternativas:
• Apenas III.
• Apenas I.
• I - II - IV.
• Todas as afirmações são verdadeiras.
• III - IV.
checkCORRETO
Resolução comentada:

Código da questão: 48964
10)
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da
API principal do Apache Spark, existem diversas bibliotecas adicionais para
processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e
processamento de imagens.
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela
você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte
para linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-
supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e
processamento de imagem (segmentação, filtragem e transformação geométrica).
São verdadeiras:

Alternativas:
• Apenas I.
• II - III - IV.
• II - III.
• Apenas III.
checkCORRETO
• Todas as afirmações.
Resolução comentada:
Apache Spark não contém API para processamento de imagens, portanto a opção I e IV
são falsas.
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a
opção II também é falsa.
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-
supervisionado, portando a opção III é correta.
Código da questão: 48972