Linguagens de programação para ciência de dados (Python com Spark

•

UNOPAR

1

Igor Oliveira

06/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.455 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

06/10/2022 15:05 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 1/6
Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico)
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final.
Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas.
Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir
o prazo estabelecido. Boa prova!
Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados
que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma
instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável
específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de
colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos
potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
São verdadeiras:
Alternativas:
I - III - IV.  CORRETO
I - II.
I - III - IV - V.
V.
IV - V.
Código da questão: 48952
A linguagem de programação Python foi criada em 1991, mas só recentemente vem
sendo utilizada em grandes proporções. Isso se deve por algumas facilitações e
otimizações que a linguagem proporciona no momento do desenvolvimento.
Com relação a essas características, podemos afirmar sobre Python:
I. Facilita a legibilidade.
II. A expressividade da linguagem dificulta no desenvolvimento de algoritmos complexos
de Machine Learning.
III. Eficiência no gerenciamento de memória.
IV. Comunidade muito ativa contribuindo para melhoria de bibliotecas.
V. Possibilidade de vários paradigmas de programação.
São verdadeiras:
Alternativas:
I - II.
V.
IV - V.
I - III - IV - V.  CORRETO
I - II - IV.
Resolução comentada:
DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que
possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além
disso, é composto basicamente por três elementos que são: seus dados
armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de
diferentes tipos.
Resolução comentada:
06/10/2022 15:05 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 2/6
3)
4)
Código da questão: 48943
Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as
seguintes afirmações:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API
principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de
imagens e processamento de dados em streaming e em batch.
II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio
da interface DataStreamReader retornada por SparkSession.readStream().
III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed
Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de
programação Scala, mas recebem funções do Python e retornam os tipos de coleção do
Python.
IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou
seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode
ser transformado.
São verdadeiras:
Alternativas:
Todas as afirmações.
Apenas I.
I - II - III.
Apenas II.
II - III - IV.  CORRETO
Código da questão: 48977
A organização e visualização dos dados pode ser usada no processo de tomada de
decisão em empresas. Através de inspeção e análises visuais é possível identificar novos
padrões ou anormalidades nos dados.
Sobre visualização de dados em Python, Matplotlib e Pandas, assinale a alternativa correta:
Alternativas:
Objetos DataFrames e Series são as principais estruturas de dados da biblioteca
Matplotlib.
A API do Pandas contém funções para obter informações de páginas HTML. 
CORRETO
Matplotlib.pyplot é uma coleção de funções com sintaxe parecida com a linguagem de
programação MATLAB. O Matplotlib foi desenvolvido utilizando o MATLAB, portanto, é
necessária a instalação do MATLAB e do Python.
A função Matplotlib.pyplot.setProperties é responsável para alterar algumas
propriedades do gráfico, tais como: cor e estilos das linhas, legendas ou eixos.
A API Pandas não tem suporte para a estrutura de dados dicionário do Python.
Apenas a alternativa II está incorreta, pois o Python apresenta diversas vantagens, a
expressividade da linguagem facilita o desenvolvimento de algoritmos mais
complexos, sendo uma preocupação a menos para o desenvolvedor a dificuldade
com a sintaxe da linguagem.
Resolução comentada:
O Apache Spark não contém API para processamento de imagens, portanto a opção
I é falsa.
Resolução comentada:
A API do Pandas contém funções para obter informações de páginas HTML, através
das funções read_html() e to_html().
Matplotlib.pyplot é uma coleção de funções no estilo de comando que fazem o
matplotlib funcionar como MATLAB. Para utilizar a API Matplotlib é necessário
06/10/2022 15:05 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 3/6
5)
6)
Código da questão: 48955
O __________ é uma representação da distribuição de frequências (ocorrências) de um
determinado valor em um conjunto de dados. Essa representação gráfica pode ser exibida
por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em
classes uniformes ou não uniformes.
Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________.
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em
Matplotlib, utilizando a função __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
diagrama; DataSet; RDD; saveplot.
Gráfico; DataFrame; Series; export.
Gráfico; DataFrame; RDD; savefig.
Histograma; DataFrame; RDD; savefig.
Histograma; DataFrame; Series; savefig.  CORRETO
Código da questão: 48956
Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as
seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível
criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma
correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para
realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
F – F – V – V.
V – V – V – F.
F – F – F – V.
V – V– F – F.  CORRETO
V – F – F – V.
apenas a instalação do Python.
A função Matplotlib.pyplot.setp() é responsável para alterar algumas propriedades
do gráfico, tais como: cor e estilos da linha, legendas, eixos etc.
A API Pandas tem suporte para a estrutura de dados dicionário do Python, utilizando
a estrutura de dados pandas.DataFrames.
Objetos DataFrames e Series são as principais estruturas de dados da biblioteca
Pandas.
Resolução comentada:
O histograma é uma representação da distribuição de frequências (ocorrências) dos
dados. A representação gráfica pode ser exibida por colunas ou em barras de um
conjunto de dados previamente tabulados e divididos em classes uniformes ou não
uniformes.
Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e
Series.
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em
Matplotlib, utilizandoa função savefig().
Resolução comentada:
06/10/2022 15:05 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 4/6
7)
8)
Código da questão: 48963
I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver
problemas complexos em diversas áreas do conhecimento (engenharia, psicologia,
medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria
muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas
para reconhecimento facial e aplicações para segurança em diversos países.
II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por
ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à
companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e
cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos
em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos
de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a
IA e machine learning. 06/03/2018. Disponível em:
https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia-
e-machine-learning/. Acesso em: 13 nov. 2019).
III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas
em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem
percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações
desenvolvidas utilizando inteligência artificial.
IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um
grupo de homens em Datta Khel, no Paquistão, que estavam em assembleia para resolver
um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação
coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos
por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017.
Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia-
artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para
confirmação para a terceira.
A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação
para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos
para confirmação para a terceira.  CORRETO
A primeira asserção está correta, na segunda e quarta são citados exemplos para
confirmação para a terceira.
A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira
é a contradição da primeira e a quarta são citados exemplos para confirmação para a
terceira.
A primeira asserção está correta, a segunda são exemplos de contradição para a
primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para
confirmação para a terceira.
Código da questão: 48969
O Apache Spark é uma plataforma de computação em cluster projetada para trabalhar
com grande volume de dados (Big Data) de forma simples e eficiente (KARAU, 2015). O
projeto Spark foi desenvolvido na linguagem ________ e executa em uma ____________. Além
Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos
uma correlação forte.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente
para realizar cálculos em arrays e matrizes multidimensionais.
Resolução comentada:
A primeira asserção está correta e explica a importância do aprendizado de máquina
(machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma
aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com
a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são
utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados
dois exemplos para confirmação da terceira asserção.
06/10/2022 15:05 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 5/6
9)
10)
da API principal do Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos e aprendizado de máquina (machine learning). O Apache Spark contém
duas estruturas de dados para trabalhar com coleções distribuídas: ____________ e
_____________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
Python; máquina virtual Java; Hashset; ArrayLis.t
Java; máquina virtual Java; DataFrame; DataSet.
Scala; máquina virtual Java; DataFrame; DataSet.  CORRETO
Python; máquina virtual Java; DataFrame; ArrayList.
Scala; máquina virtual Linux; DataFrame; ArrayList.
Código da questão: 48971
Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas,
considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível
criar e visualizar histogramas.
( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a
imagem tem em determinado nível de cinza, que varia de 0 a 255.
( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para
realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
V – V – F – V.
V – V – F – F.  CORRETO
F – F – V – V.
V – F – F – V.
F – V – V – F.
Código da questão: 60241
Uma das principais estruturas que o Pandas disponibiliza para a utilização são
os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim,
eles são organizados em __________ e __________, onde cada linha é um registro e cada
coluna um campo.
Assinale a alternativa que completa adequadamente as lacunas.:
Alternativas:
Resolução comentada:
O Apache Spark foi desenvolvido na linguagem Scala, em 2009, pelo grupo de
pesquisa do AMPLab da Universidade de Califórnia – Berkeley, e executado em uma
máquina virtual Java (JVM).
O Apache Spark contém duas estruturas de dados para trabalhar com coleções
distribuídas: DataFrame e DataSet.
Resolução comentada:
Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a
terceira afirmação é falsa.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente
para realizar cálculos em arrays e matrizes multidimensionais. Portanto, a quarta
afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados
rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados
relacionais.
06/10/2022 15:05 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 6/6
Dataframes; Repositórios; tabular; X; Y.
Frames; Frames; organizada; x; y.
Dataframes; Dataframes; linear; linhas; colunas.
Dataframes; Dataframes; tabular; linhas; colunas.  CORRETO
Repositórios; Repositórios; linear; colunas; linhas.
Código da questão: 48951
Resolução comentada:
Os DataFrames têm organização tabular, portanto são organizados em linhas e
colunas.
Arquivos e Links