Linguagens de programação para ciência de dados (Python com Spark) - PROVA

•

Anhanguera

7

0

7

0

W D

23/08/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Programação Python

3.533 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

20/08/2021 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 1/6
Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico)
1)
2)
O Programa de dependência e recuperação (PDR) é a última oportunidade de conquistar a sua
APROVAÇÃO na disciplina. A avaliação é realizada eletronicamente, composta por questões
objetivas e é permitida a consulta ao material de estudos. Ela tem duração de 30 (trinta) dias
corridos para realização e o mesmo formato da AV, ou seja, você tem até três tentativas para
“Enviar” as questões, que são automaticamente corrigidas. Boa prova!
Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados
que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma
instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável
específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de
colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos
potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
São verdadeiras:
Alternativas:
I - III - IV.  CORRETO
IV - V.
V.
I - II.
I - III - IV - V.
Código da questão: 48952
Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas,
considere as seguintes afirmações:
I. A API do Pandas contém funções para obter informações de páginas HTML, através das
funções read_html e to_html.
II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer
a leitura e visualizar todas as linhas contidas em um arquivo CSV.
III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um
objeto DataFrame.
IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de
um objeto DataFrame.
São verdadeiras:
Alternativas:
Todas as afirmações.
I - III.
I - II - III.
I - III - IV.  CORRETO
II - III - IV.
Resolução comentada:
DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que
possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além
disso, é composto basicamente por três elementos que são: seus dados
armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de
diferentes tipos.
Resolução comentada:
Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos
fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. Portanto, a
alternativa II é falsa. A função show é usada para plotar um gráfico e não visualizar as
20/08/2021 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 2/6
3)
4)
Código da questão: 48957
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise
de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos
arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de
dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados
chegam em um fluxo constante, geralmente de várias aplicações simultaneamente.
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta.
Alternativas:
Em Python, os DataFrames de streaming podem ser criados por meio da interface
DataStreamReader retornada por SparkSession.createStream().
No processamento em streaming ocorre a análise dos dados que já foram armazenados
por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre
outros.
A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming
em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e
os resultados gerados podem ser armazenados em software como Kafka, HDFS,
Cassandra e Elasticsearch.  CORRETO
A API Apache Spark Streaming tem suporte para as linguagens de programação Java,
Scala, Python e R.
Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes
no PySpark, e uma característica importante dos RDDs é que eles não são objetos
imutáveis.
Código da questão: 48975
Organização e visualização dos dados são tarefas essenciais para a área de ciência de
dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens,
diagramas, histogramas, gráficos ou animação para melhor representar a informação.
Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta
visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem
(ROUGIER, 2019).
O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e
expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados
manipulados no Pandas são frequentemente usados para trabalhar com análises
estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de
máquina no Scikit-learn (MCKINNEY, 2019).
Fontes:
MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit.
Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em
https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019.
ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume
II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em:
28 out. 2019.
linhas de um arquivo.
Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de
um objeto DataFrame. Portanto, a alternativa III é verdadeira.
Resolução comentada:
No processamento em batch ocorre a análise dos dados que já foram armazenados
por um tempo, portanto a alternativa a. é falsa.
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de
dados mais importante no PySpark; uma característica importante dos RDDs é que
são objetos imutáveis, portanto a alternativa b. é falsa.
A API Apache Spark Streaming não tem suporte para a linguagem de programação
R, portanto a alternativa c. é falsa.
Em Python, os DataFrames de streaming podem ser criados por meio da interface
DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é
falsa.
20/08/2021 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 3/6
5)
6)
Analise as seguintes afirmações, indicando aquelas verdadeiras:
I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas
em arquivo MS Excel.
II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots).
III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do
gráfico, tais como: cor e estilos da linha, legendas ou eixos.
IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet
(ODS).
Alternativas:
I -, III - IV.  CORRETO
II - III - IV.
I - II - IV.
Todas as afirmações são verdadeiras..
Apenas III.
Código da questão: 48959
Big Data significa grande volume de dados. Esses dados são criados e armazenados
pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros domínios
estão levando à formação de Big Data. O Apache Spark é um framework que fornece APIs
para análise e processamento de Big Data.
Sobre Big Data e Apache Spark, assinale a alternativa correta.
Alternativas:
Velocidade é a principal característica do Big Data e refere-se à velocidade na
distribuição dos dados.
O Apache Spark é um framework para processamento Big Data e tem como principais
características: velocidade no processamento de grande volume de dados tem suporte
para diversos tipos de linguagem de programação como Python, Java, R, Scala e C.
Logs de servidores e aplicativos;imagens e vídeos gerados pela câmera de segurança
são exemplos de dados semi-estruturados.
O Apache Spark é um framework para processamento Big Data e tem como suporte para
diversos formatos de dados (não-estruturado, semiestruturado e estruturado). 
CORRETO
Os dados são classificados em semi-estruturados e estruturados e podemos extrair
informações desses dados utilizando o framework Apache Spark.
Código da questão: 48970
Estatística e probabilidade são extremamente importantes para trabalhar na área de
ciência de dados, assim como em outras áreas, como medicina, ciências biológicas,
psicologia, engenharia, computação etc.
Sobre Estatística, Probabilidade e Python, assinale a alternativa correta.
Alternativas:
Resolução comentada:
A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto
a opção II é falsa.
Resolução comentada:
Os dados são classificados em não-estruturados (logs de servidores e aplicativos;
imagens e vídeos) semiestruturados (CSV, XML e JSON) e estruturados (banco de
dados). O Apache Spark não tem suporte para linguagem de programação C. A
propriedade Velocidade (Velocity) em Big Data refere-se à velocidade na qual os
dados estão sendo criados, armazenados e atualizados e não na sua distribuição.
20/08/2021 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 4/6
7)
8)
A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes
multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua
instalação.
O desvio padrão é usado quando queremos separar a metade maior e a metade menor
de uma amostra, uma população ou uma distribuição de probabilidade.
A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa
de muitos modelos estatísticos, bem como para a realização de testes e a exploração de
dados estatísticos.
A estatística é uma área da matemática que estuda as chances de ocorrência de um
determinado experimento ou evento.
A estatística é a área responsável pela coleta, organização e interpretação de dados
experimentais e pela extrapolação dos resultados da amostra para a população. 
CORRETO
Código da questão: 48960
O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece
porque ele tem alta taxa de escalabilidade e desempenho.
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?
Alternativas:
Movendo os dados durante seu processamento.
Contendo poucas bibliotecas e pouca diversidade de ferramentas.
Utilizando a estrutura HDFS padrão do Hadoop.
Obtendo resultados intermediários e os armazenando diretamente em disco.
Compartilhando dados em memória através de grafos direcionais acíclicos. 
CORRETO
Código da questão: 48939
O Spark tem algumas características que podem ser citadas, como, por exemplo, o
armazenamento é realizado primeiramente em memória e somente após o processamento
passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a
seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do
fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.
Alternativas:
V – V – V – V – F.  CORRETO
Resolução comentada:
A mediana é usado quando queremos separar a metade maior e a metade menor de
uma amostra, uma população ou uma distribuição de probabilidade, portanto a
alternativa b é falsa.
A biblioteca numpy não faz parte do pacote principal do Python, sendo necessário
sua instalação manual. Então a alternativa c é falsa.
A biblioteca Statsmodels é um módulo Python que fornece classes e funções para a
estimativa de muitos modelos estatísticos, portanto a alternativa d é falsa.
A probabilidade é uma área da matemática que estuda as chances de ocorrência de
experimentos são calculadas, então a alternativa e é falsa.
Resolução comentada:
O compartilhamento de dados em memória possibilita a otimização e agiliza o
processamento dos dados, isso acontece pois acaba evitando a persistência dos
dados em disco e o tráfego dos dados em rede, que são gargalos que podem causar
lentidão.
20/08/2021 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 5/6
9)
10)
F – V – F – V – F.
V – F – V – V – V.
F – V – V – V – V.
F – F – V – V – F.
Código da questão: 48947
Sobre os conceitos de machine learning, considere as seguintes afirmações:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000,
devido à evolução dos computadores.
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de
aplicações na área de ciência de dados, especialmente na área de machine learning.
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização
dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e
teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos
dados para treinamento e 30% para testes. Essa análise deve levar em consideração o
problema a ser resolvido e o modelo.
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto
de atributos suficientes que se ajustem ao modelo e que possa prever rótulos
desconhecidos no conjunto de teste.
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem
de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em
fotos, podem ser resolvidos utilizando algoritmo de regressão.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
V – V – V – F – F.
F – V – V – V – F.
V – F – V – V – F.
V – F – V – F – F.
F – F – V – V – F.  CORRETO
Código da questão: 48968
A preparação de dados é um processo muito importante na área da Ciência de Dados,
e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto
geral.
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados?
Alternativas:
Matplotlib, Plotly.
Scikit Learn.
PyTorch, Keras.
Numpy, Scipy e Pandas.  CORRETO
Resolução comentada:
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados
distribuídos.
Resolução comentada:
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos
computadores possibilitou que as novas técnicas fossem aplicadas a grande
quantidade de dados.
A linguagem Python é bastante utilizada para resolver problemas usando machine
learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java,
SQL e Matlab.
Reconhecimento de impressão digital; identificação de tumores a partir de uma
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de
animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não
de regressão.
20/08/2021 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 6/6
XGBoost, LightGBM, CatBoost.
Código da questão: 48949
Resolução comentada:
As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e
de manipulação de dados que permitem a limpeza e organização dos dados antes
de qualquer tarefa de processamento.
Arquivos e Links