Linguagens de programação para ciência de dados (Python com Spark)

•

UNOPAR

2

0

2

0

vivian

10/12/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise e Desenvolvimento de Sistemas

48.721 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

10/12/2021 07:46 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 1/5
Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Yuri Vasconcelos de Almeida Sá (Especialização)
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina.
Ressaltamos que a nota para aprovação nesta disciplina é 7,0 (sete) e será adquirida
exclusivamente por meio da realização desta avaliação virtual. Seu certificado será emitido após
a aprovação em todas as disciplinas do curso.
No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações
fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar
na forma de __________, mas também no formato de computação __________. 
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
Tecnologias – programação assíncrona – distribuída.
Informações – grafos – paralela.
API’s – servidor autônomo – distribuída.  CORRETO
Documentações – algoritmo único – evolutiva.
API’s - software – online.
Código da questão: 48941
Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as
seguintes afirmações: 
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API
principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de
imagens e processamento de dados em streaming e em batch. 
II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio
da interface DataStreamReader retornada por SparkSession.readStream(). 
III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed
Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de
programação Scala, mas recebem funções do Python e retornam os tipos de coleção do
Python. 
IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou
seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode
ser transformado. 
São verdadeiras:
Alternativas:
Todas as afirmações.
Apenas I.
Apenas II.
I - II - III.
II - III - IV.  CORRETO
Código da questão: 48977
Resolução comentada:
Através do uso de API’s o Spark possibilita o desenvolvimento em diversas
linguagens, gerando implementações autônomas ou distribuídas.
Resolução comentada:
O Apache Spark não contém API para processamento de imagens, portanto a opção
I é falsa.
10/12/2021 07:46 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 2/5
3)
4)
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: 
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API
principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de
imagens. 
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você
pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para
linguagem em Java, Scala, Python e R. 
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-
supervisionado. 
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento
de imagem (segmentação, filtragem e transformação geométrica).
São verdadeiras:
Alternativas:
Apenas III.  CORRETO
Apenas I.
Todas as afirmações.
II - III.
II - III - IV.
Código da questão: 48972
Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas,
considere as seguintes afirmações: 
I. A API do Pandas contém funções para obter informações de páginas HTML, através das
funções read_html e to_html. 
II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer
a leitura e visualizar todas as linhas contidas em um arquivo CSV. 
III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um
objeto DataFrame. 
IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de
um objeto DataFrame. 
São verdadeiras:
Alternativas:
I - II - III.
I - III.
II - III - IV.
I - III - IV.  CORRETO
Todas as afirmações.
Resolução comentada:
Apache Spark não contém API para processamento de imagens, portanto a opção I e
IV são falsas. 
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto
a opção II também é falsa. 
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e
não-supervisionado, portando a opção III é correta.
Resolução comentada:
Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos
fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. Portanto, a
alternativa II é falsa. A função show é usada para plotar um gráfico e não visualizar as
linhas de um arquivo.
Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de
um objeto DataFrame. Portanto, a alternativa III é verdadeira.
10/12/2021 07:46 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 3/5
5)
6)
Código da questão: 48957
Sobre os conceitos de machine learning, considere as seguintes afirmações: 
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000,
devido à evolução dos computadores. 
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de
aplicações na área de ciência de dados, especialmente na área de machine learning. 
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização
dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e
teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos
dados para treinamento e 30% para testes. Essa análise deve levar em consideração o
problema a ser resolvido e o modelo. 
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto
de atributos suficientes que se ajustem ao modelo e que possa prever rótulos
desconhecidos no conjunto de teste. 
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem
de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em
fotos, podem ser resolvidos utilizando algoritmo de regressão. 
Assinale a alternativa que contenha a sequência correta.
Alternativas:
F – V – V – V – F.
F – F – V – V – F.  CORRETO
V – F – V – V – F.
V – F – V – F – F.
V – V – V – F – F.
Código da questão: 48968
Uma das principais estruturas que o Pandas disponibiliza para a utilização são
os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim,
eles são organizados em __________ e __________, onde cada linha é um registro e cada
coluna um campo. 
Assinale a alternativa que completa adequadamente as lacunas.:
Alternativas:
Repositórios; Repositórios; linear; colunas; linhas.
Dataframes; Repositórios; tabular; X; Y.
Frames; Frames; organizada; x; y.
Dataframes; Dataframes; linear; linhas; colunas.
Dataframes; Dataframes; tabular; linhas; colunas.  CORRETO
Código da questão: 48951
Resolução comentada:
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos
computadores possibilitou que as novas técnicas fossem aplicadas a grande
quantidade de dados. 
A linguagem Python é bastante utilizada para resolver problemas usando machine
learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java,
SQL e Matlab. 
Reconhecimento de impressão digital; identificação de tumores a partir de uma
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de
animais em fotos, podemser resolvidos utilizando algoritmo de classificação e não
de regressão.
Resolução comentada:
Os DataFrames têm organização tabular, portanto são organizados em linhas e
colunas.
10/12/2021 07:46 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 4/5
7)
8)
9)
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: 
( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos
classificar em três grupos: Não-estruturado, semiestruturado e estruturado. 
( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são
definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas
diretamente em um SparkConf. O SparkConf permite configurar algumas das propriedades
através do método set () 
( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, Spark
Streaming e Spark MLlib. 
( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em tempo
real. Dessa forma, podemos desenvolver algoritmos para processamento de dados à
medida que os dados chegam (em tempo real) e não em um processo em lote. 
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – F – F.
V – F – F – V.
V – F – F – F.
V – V – F– V.  CORRETO
F – F – V – V.
Código da questão: 48973
O __________ é uma representação da distribuição de frequências (ocorrências) de um
determinado valor em um conjunto de dados. Essa representação gráfica pode ser exibida
por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em
classes uniformes ou não uniformes. 
Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________. 
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em
Matplotlib, utilizando a função __________. 
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
diagrama; DataSet; RDD; saveplot.
Gráfico; DataFrame; RDD; savefig.
Gráfico; DataFrame; Series; export.
Histograma; DataFrame; RDD; savefig.
Histograma; DataFrame; Series; savefig.  CORRETO
Código da questão: 48956
Analise as sentenças sobre o framework Apache Spark e a linguagem de programação
Python.
I. O framework Apache Spark tem suporte para outras ferramentas de armazenamento de
Big Data, como o Elasticsearch, Cassandra e MongoDB. 
II. O framework Apache Spark tem como principal característica o processamento de
grande quantidade de dados (Big Data) com alta latência e tem suporte para as seguintes
linguagens de programação: C, Java, R, Python, Scala e Matlab. 
III. Spark Context é o objeto (ou uma classe) que faz a conexão do Spark ao algoritmo que
Resolução comentada:
O histograma é uma representação da distribuição de frequências (ocorrências) dos
dados. A representação gráfica pode ser exibida por colunas ou em barras de um
conjunto de dados previamente tabulados e divididos em classes uniformes ou não
uniformes. 
Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e
Series. 
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em
Matplotlib, utilizando a função savefig().
10/12/2021 07:46 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 5/5
10)
está sendo desenvolvido. Ele pode ser acessado como uma variável em um programa para
utilizar os seus recursos. 
IV. Utilizando a biblioteca Spark SQL é possível obter os dados de arquivos
semiestruturados (XML, CSV e JSON) e salvar essas informações em um banco de dados
relacional (MySQL, Postgres, Oracle). 
Assinale todas as afirmações verdadeiras
Alternativas:
I - II - III.
Apenas IV.
I - II.
Apenas I.
I - III - IV.  CORRETO
Código da questão: 48974
Alternativas:
I - II - IV.
III - IV.  CORRETO
Apenas III.
Apenas I.
Todas as afirmações são verdadeiras.
Código da questão: 48964
Resolução comentada:
Prazo de agendamento: 09/12/2021 - 09/06/2022
Código Avaliação: 20761843
Arquivos e Links