Prova_Linguagens de programação para ciência de dados (Python com Spark)

•

PITÁGORAS

0

Pedro Antunes

24/03/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Python

3.258 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual 
(AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco 
tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as 
questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! 
1) 
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: 
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do 
Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e 
aprendizado de máquina (machine learning) e processamento de imagens. 
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar 
consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python 
e R. 
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos 
algoritmos de aprendizagem de máquina supervisionado e não-supervisionado. 
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem 
(segmentação, filtragem e transformação geométrica). 
São verdadeiras: 
 
Alternativas: 
• Apenas I. 
• Todas as afirmações. 
• II - III - IV. 
• Apenas III. 
checkCORRETO 
• II - III. 
Resolução comentada: 
Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas. 
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é 
falsa. 
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos 
algoritmos de aprendizagem de máquina supervisionado e não-supervisionado, portando a opção III é 
correta. 
Código da questão: 48972 
2) 
Além da criação manual de Dataframes através de listas é possível criar Dataframes importando dados de 
arquivos, como, por exemplo, arquivos CSV que são muito utilizados para armazenamento de dados em 
formato texto. 
Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir: 
( ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe. 
( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo. 
( ) É possível criar funções lambda para a formatação de colunas do Dataframe. 
( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do comando to_csv. 
( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS Excel. 
 
Alternativas: 
• F – V – V – V – V. 
• V – F – V – V – V. 
CORRETO 
• F – F – V – V – F. 
• V – V – V – V – F. 
• F – V – F – V – F. 
checkINCORRETO 
Resolução comentada: 
O Dataframe realiza leitura de arquivo CSV através do comando read_csv. É possível realizar a exportação 
para CSV através do comando to_csv e ainda existe a possibilidade de exportação para arquivo no formato 
MS Excel, além de não exigir que as colunas de dados possuam um mesmo tipo 
Código da questão: 48954 
3) 
A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo 
eliminar dados ruidosos e que possam alterar a análise no contexto geral. 
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados? 
 
Alternativas: 
• Numpy, Scipy e Pandas. 
checkCORRETO 
• XGBoost, LightGBM, CatBoost. 
• Matplotlib, Plotly. 
• Scikit Learn. 
• PyTorch, Keras. 
Resolução comentada: 
As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e de manipulação de 
dados que permitem a limpeza e organização dos dados antes de qualquer tarefa de processamento. 
Código da questão: 48949 
4) 
Sobre os conceitos de Big Data e Apache Spark Streaming, considere as seguintes afirmações: 
( ) Os dados em Big Data são criados em diferentes formatos e armazenados em diferentes fontes de 
dados, que podemos classificar em três grupos: não-estruturado, semiestruturado e estruturado. 
( ) Existem dois tipos de operações do Apache Spark RDD: transformações e ações. Uma transformação é 
uma função que produz um novo RDD a partir dos RDDs existentes. Quando a ação é acionada após o 
resultado, o novo RDD também é criado, assim como na transformação. 
( ) O projeto Apache Spark introduziu o conceito de RDD, que formalmente é uma coleção de objetos 
imutáveis, particionados em um conjunto de nós do cluster, podendo somente ser criado através de 
funções como map(), filter(), join() e groupBy(), executadas em outros RDDs ou meios de armazenamentos 
estáveis. 
( ) O Apache Kafka é uma plataforma distribuída de código-fonte livre (open-source) de processamento de 
mensagens e streams desenvolvida pela Apache Software Foundation, escrita na linguagem de 
programação Java e Python. 
Assinale a alternativa que contém a sequência correta. 
 
Alternativas: 
• V – F – V – F. 
CORRETO 
• V – V – V – F. 
• F – F – V – V. 
• V – F – F – F. 
• V – V – F – F. 
checkINCORRETO 
Resolução comentada: 
Os objetos RDD são imutáveis e, nas operações de ação, um novo RDD não é criado. 
O Apache Kafka foi desenvolvido utilizando a linguagem Java e Scala, não Python. 
Código da questão: 48978 
5) 
I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big 
Data como o Cassandra e MongoDB e Apache Kafka. 
II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma 
chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e 
produzidas através de tópicos. 
III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise 
de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java 
Virtual Machine). 
IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do 
conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install 
elasticsearch-hadoop. 
Assinale a alternativa correta. 
 
Alternativas: 
• Todas as afirmações estão corretas. 
• I - III - IV. 
• I - II - III. 
checkCORRETO 
• I - IV. 
• Apenas IV. 
Resolução comentada: 
Para fazer a integração do Elasticsearch com Apache Spark é necessário fazer a instalação do 
elasticsearch-hadoop, porém até o momento não é possível fazer via comando pip install. Portando, a 
opção IV é falsa e todas as demais são corretas. 
Código da questão: 48979 
6) 
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a 
partir de rótulos ou atributos pré-determinados. Nesta configuração, esse modelo é conhecido como 
________________ , ou seja, o usuário fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas 
desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de 
máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre a 
saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes 
ferramentas para mineração e análise de dados para computação científica em Python. 
Assinale a alternativa que completa adequadamente as lacunas. 
 
Alternativas: 
• aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn. 
• aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib. 
• aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib. 
• aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn. 
• aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. 
checkCORRETO 
Resolução comentada: 
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser 
obrigatoriamenterotulado. 
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma 
grande variedade de eficientes ferramentas para mineração e análise de dados. 
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados. 
Código da questão: 48966 
7) 
Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas, considere as 
seguintes afirmações: 
I. A API do Pandas contém funções para obter informações de páginas HTML, através das funções 
read_html e to_html. 
II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer a leitura e 
visualizar todas as linhas contidas em um arquivo CSV. 
III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto 
DataFrame. 
IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de um objeto 
DataFrame. 
São verdadeiras: 
 
Alternativas: 
• I - III - IV. 
CORRETO 
• II - III - IV. 
• I - II - III. 
checkINCORRETO 
• I - III. 
• Todas as afirmações. 
Resolução comentada: 
Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos fazer a leitura e 
visualizar todas as linhas contidas em um arquivo CSV. Portanto, a alternativa II é falsa. A função show é 
usada para plotar um gráfico e não visualizar as linhas de um arquivo. 
Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. 
Portanto, a alternativa III é verdadeira. 
Código da questão: 48957 
8) 
Organização e visualização dos dados são tarefas essenciais para a área de ciência de dados. A 
visualização é uma técnica bastante utilizada e consiste na criação de imagens, diagramas, histogramas, 
gráficos ou animação para melhor representar a informação. 
Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta visualização interativa e 
não interativa e fornece ampla variedade de tipos de plotagem (ROUGIER, 2019). 
O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas 
para facilitar o trabalho com dados relacionais. Os dados manipulados no Pandas são frequentemente 
usados para trabalhar com análises estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de 
aprendizado de máquina no Scikit-learn (MCKINNEY, 2019). 
Fontes: 
MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit. Release 0.25.3, 
Python for High Performance and Scientific Computing, 2019. Disponível em 
https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019. 
ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume II, 2019. 
Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em: 28 out. 2019. 
Analise as seguintes afirmações, indicando aquelas verdadeiras: 
I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas em arquivo MS 
Excel. 
II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots). 
III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do gráfico, tais como: 
cor e estilos da linha, legendas ou eixos. 
IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet (ODS). 
 
Alternativas: 
• II - III - IV. 
• I -, III - IV. 
checkCORRETO 
• Todas as afirmações são verdadeiras.. 
• I - II - IV. 
• Apenas III. 
Resolução comentada: 
A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto a opção II é falsa. 
Código da questão: 48959 
9) 
Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as seguintes 
afirmações: 
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do 
Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos, 
aprendizado de máquina (machine learning), processamento de imagens e processamento de dados em 
streaming e em batch. 
II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio da interface 
DataStreamReader retornada por SparkSession.readStream(). 
III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed Dataset (RDDs) 
suportam os mesmos métodos que os equivalentes da linguagem de programação Scala, mas recebem 
funções do Python e retornam os tipos de coleção do Python. 
IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou seja, um objeto 
cujo estado não pode ser modificado após a criação, mas certamente pode ser transformado. 
São verdadeiras: 
 
Alternativas: 
• I - II - III. 
• II - III - IV. 
checkCORRETO 
• Apenas II. 
• Todas as afirmações. 
• Apenas I. 
Resolução comentada: 
O Apache Spark não contém API para processamento de imagens, portanto a opção I é falsa. 
Código da questão: 48977 
10) 
A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. 
Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também 
para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que 
expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto 
um conjunto de dados é uniforme. 
Na __________, os valores das medidas: moda, mediana e média são iguais. 
Assinale a alternativa que completa adequadamente as lacunas acima: 
 
Alternativas: 
• Moda; variância; desvio padrão; distribuição normal. 
checkCORRETO 
• Moda; variância; histograma; distribuição normal. 
• Moda; correlação; desvio padrão; distribuição positiva. 
• Média; variância; desvio padrão; distribuição positiva. 
• Média; correlação; desvio padrão; distribuição negativa. 
Resolução comentada: 
A moda é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Já a 
variância é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados 
se desvia da média. 
O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. 
Em outras palavras, indica o quanto um conjunto de dados é uniforme. 
Na distribuição normal o valor da moda, mediana e média são iguais. 
Código da questão: 48961