Buscar

Python com Spark (prova)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1) 
O Spark tem algumas características que podem ser citadas, como, por exemplo, o 
armazenamento é realizado primeiramente em memória e somente após o 
processamento passa a enviar os dados para memória, agilizando o processamento das 
informações. 
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a 
seguir: 
( ) Otimização de operações para grafos. 
( ) Suporte para funções que vão além do Map e Reduce. 
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala. 
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a 
otimização do fluxo do processamento de dados. 
( ) O Spark não suporta armazenamento de dados distribuídos. 
 
Alternativas: 
• V – F – V – V – V. 
• F – F – V – V – F. 
• F – V – F – V – F. 
• V – V – V – V – F. 
checkCORRETO 
• F – V – V – V – V. 
Resolução comentada: 
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados 
distribuídos. 
Código da questão: 48947 
2) 
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: 
( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos 
classificar em três grupos: Não-estruturado, semiestruturado e estruturado. 
( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são 
definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas 
diretamente em um SparkConf. O SparkConf permite configurar algumas das 
propriedades através do método set () 
( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, 
Spark Streaming e Spark MLlib. 
( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em 
tempo real. Dessa forma, podemos desenvolver algoritmos para processamento de 
dados à medida que os dados chegam (em tempo real) e não em um processo em lote. 
Assinale a alternativa que contenha a sequência correta: 
 
Alternativas: 
• F – F – V – V. 
• V – F – F – V. 
• V – V – F– V. 
checkCORRETO 
• V – F – F – F. 
• V – V – F – F. 
Código da questão: 48973 
3) 
Sobre os conceitos de machine learning, considere as seguintes afirmações: 
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, 
devido à evolução dos computadores. 
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de 
aplicações na área de ciência de dados, especialmente na área de machine learning. 
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a 
organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: 
treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por 
exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar 
em consideração o problema a ser resolvido e o modelo. 
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o 
conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos 
desconhecidos no conjunto de teste. 
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma 
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de 
animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. 
Assinale a alternativa que contenha a sequência correta. 
 
Alternativas: 
• V – F – V – V – F. 
• F – F – V – V – F. 
checkCORRETO 
• F – V – V – V – F. 
• V – F – V – F – F. 
• V – V – V – F – F. 
Resolução comentada: 
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos 
computadores possibilitou que as novas técnicas fossem aplicadas a grande 
quantidade de dados. 
A linguagem Python é bastante utilizada para resolver problemas usando machine 
learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, 
SQL e Matlab. 
Reconhecimento de impressão digital; identificação de tumores a partir de uma 
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de 
animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de 
regressão. 
Código da questão: 48968 
4) 
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de 
tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta 
configuração, esse modelo é conhecido como ________________ , ou seja, o usuário 
fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o 
algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No 
aprendizado de máquinas _________________, apenas os dados de entrada são 
conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca 
__________ contém uma grande variedade de eficientes ferramentas para mineração e 
análise de dados para computação científica em Python. 
Assinale a alternativa que completa adequadamente as lacunas. 
 
Alternativas: 
• aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib. 
• aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. 
checkCORRETO 
• aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib. 
• aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn. 
• aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-
learn. 
Resolução comentada: 
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem 
ser obrigatoriamente rotulado. 
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O 
scikit-learn contém uma grande variedade de eficientes ferramentas para mineração e 
análise de dados. 
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados. 
Código da questão: 48966 
5) 
I. O framework Apache Spark Streaming tem suporte para outras ferramentas de 
armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka. 
II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em 
Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser 
resumidos em mensagens, sendo consumidas e produzidas através de tópicos. 
III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização 
de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é 
necessária a instalação de uma JVM (Java Virtual Machine). 
IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o 
download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito 
via comando pip install elasticsearch-hadoop. 
Assinale a alternativa correta. 
 
Alternativas: 
• Apenas IV. 
• I - III - IV. 
• I - IV. 
• I - II - III. 
checkCORRETO 
• Todas as afirmações estão corretas. 
Resolução comentada: 
Para fazer a integração do Elasticsearch com Apache Spark é necessário fazer a 
instalação do elasticsearch-hadoop, porém até o momento não é possível fazer via 
comando pip install. Portando, a opção IV é falsa e todas as demais são corretas. 
Código da questão: 48979 
6) 
O processamento de dados em tempo real (streaming) é um requisito essencial em 
muitas aplicações que utilizam Big Data. 
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, 
uma das primeiras APIs a ativar processamento de streaming usando operadores 
funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, 
Apache Spark Streaming fornece uma API com suporte para as linguagens de 
programação _________, Java e Python. 
Atualmente muitas empresas usam Apache Spark Streaming na produção de 
aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes 
de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes 
- __________________, no entanto, a API DStreams é baseada em operações de nível 
relativamente baixo emobjetos _______ ou __________. 
Assinale a alternativa que completa adequadamente as lacunas. 
 
Alternativas: 
• API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python. 
checkCORRETO 
• API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python. 
• API DataFrames; Java; DataSet; R; Scala. 
• DStreams; R; Resilient Distributed Dataset (RDD); R; Python. 
• DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python. 
Resolução comentada: 
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams 
e não DataFrames e DataSet. 
A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte 
para a linguagem de programação R. 
A API DStreams é baseada em operações de nível relativamente baixo em objetos Java 
ou Python. 
Código da questão: 48976 
7) 
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de 
análise de grande volume de dados (Big Data) no momento em que é produzido ou 
usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os 
cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de 
dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações 
simultaneamente. 
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. 
 
Alternativas: 
• A biblioteca Apache Spark Streaming pode ser usada para processar dados de 
streaming em tempo real de diferentes fontes, como sensores, redes sociais e 
transações online, e os resultados gerados podem ser armazenados em 
software como Kafka, HDFS, Cassandra e Elasticsearch. 
checkCORRETO 
• A API Apache Spark Streaming tem suporte para as linguagens de programação 
Java, Scala, Python e R. 
• No processamento em streaming ocorre a análise dos dados que já foram 
armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou 
banco de dados, entre outros. 
• Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais 
importantes no PySpark, e uma característica importante dos RDDs é que eles 
não são objetos imutáveis. 
• Em Python, os DataFrames de streaming podem ser criados por meio da 
interface DataStreamReader retornada por SparkSession.createStream(). 
Resolução comentada: 
No processamento em batch ocorre a análise dos dados que já foram armazenados por 
um tempo, portanto a alternativa a. é falsa. 
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados 
mais importante no PySpark; uma característica importante dos RDDs é que são 
objetos imutáveis, portanto a alternativa b. é falsa. 
A API Apache Spark Streaming não tem suporte para a linguagem de programação R, 
portanto a alternativa c. é falsa. 
Em Python, os DataFrames de streaming podem ser criados por meio da interface 
DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é 
falsa. 
Código da questão: 48975 
8) 
Big Data significa grande volume de dados. Esses dados são criados e armazenados 
pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros 
domínios estão levando à formação de Big Data. O Apache Spark é um framework que 
fornece APIs para análise e processamento de Big Data. 
Sobre Big Data e Apache Spark, assinale a alternativa correta. 
 
Alternativas: 
• Logs de servidores e aplicativos; imagens e vídeos gerados pela câmera de 
segurança são exemplos de dados semi-estruturados. 
• Os dados são classificados em semi-estruturados e estruturados e podemos 
extrair informações desses dados utilizando o framework Apache Spark. 
• Velocidade é a principal característica do Big Data e refere-se à velocidade na 
distribuição dos dados. 
• O Apache Spark é um framework para processamento Big Data e tem como 
suporte para diversos formatos de dados (não-estruturado, semiestruturado e 
estruturado). 
checkCORRETO 
• O Apache Spark é um framework para processamento Big Data e tem como 
principais características: velocidade no processamento de grande volume de 
dados tem suporte para diversos tipos de linguagem de programação como 
Python, Java, R, Scala e C. 
Resolução comentada: 
Os dados são classificados em não-estruturados (logs de servidores e aplicativos; 
imagens e vídeos) semiestruturados (CSV, XML e JSON) e estruturados (banco de 
dados). O Apache Spark não tem suporte para linguagem de programação C. A 
propriedade Velocidade (Velocity) em Big Data refere-se à velocidade na qual os dados 
estão sendo criados, armazenados e atualizados e não na sua distribuição. 
Código da questão: 48970 
9)
 
 
Alternativas: 
• Apenas III. 
• Apenas I. 
• I - II - IV. 
• Todas as afirmações são verdadeiras. 
• III - IV. 
checkCORRETO 
Resolução comentada:
 
Código da questão: 48964 
10) 
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: 
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da 
API principal do Apache Spark, existem diversas bibliotecas adicionais para 
processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e 
processamento de imagens. 
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela 
você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte 
para linguagem em Java, Scala, Python e R. 
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que 
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-
supervisionado. 
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e 
processamento de imagem (segmentação, filtragem e transformação geométrica). 
São verdadeiras: 
 
Alternativas: 
• Apenas I. 
• II - III - IV. 
• II - III. 
• Apenas III. 
checkCORRETO 
• Todas as afirmações. 
Resolução comentada: 
Apache Spark não contém API para processamento de imagens, portanto a opção I e IV 
são falsas. 
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a 
opção II também é falsa. 
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que 
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-
supervisionado, portando a opção III é correta. 
Código da questão: 48972

Continue navegando