Linguagens de programação para ciência de dados

•

Anhanguera

0

João Gabriel Soares Rodrigues

05/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Programação Python

3.537 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

04/09/2022 21:01 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2611297/4461185 1/6
Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Yuri Vasconcelos de Almeida Sá (Especialização)
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final.
Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas.
Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir
o prazo estabelecido. Boa prova!
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de
tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração,
esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo
entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a
melhor maneira de produzir a saída solicitada. No aprendizado de máquinas
_________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre
a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de
eficientes ferramentas para mineração e análise de dados para computação científica em
Python.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn.  CORRETO
aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib.
aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib.
aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn.
aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn.
Código da questão: 48966
Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas,
considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível
criar e visualizar histogramas.
( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a
imagem tem em determinado nível de cinza, que varia de 0 a 255.
( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para
realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
V – V – F – F.  CORRETO
V – F – F – V.
F – V – V – F.
V – V – F – V.
F – F – V – V.
Resolução comentada:
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada
devem ser obrigatoriamente rotulado.
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O
scikit-learn contém uma grande variedade de eficientes ferramentas para mineração
e análise de dados.
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados.
Resolução comentada:
Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a
terceira afirmação é falsa.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente
para realizar cálculos em arrays e matrizes multidimensionais. Portanto, a quarta
04/09/2022 21:01 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2611297/4461185 2/6
3)
4)
Código da questão: 60241
Alternativas:
III - IV.  CORRETO
Apenas I.
Apenas III.
Todas as afirmações são verdadeiras.
I - II - IV.
Código da questão: 48964
O Spark tem algumas características que podem ser citadas, como, por exemplo, o
armazenamento é realizado primeiramente em memória e somente após o processamento
passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a
seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do
fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.
Alternativas:
V – V – V – V – F.  CORRETO
F – V – V – V – V.
F – F – V – V – F.
F – V – F – V – F.
V – F – V – V – V.
afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados
rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados
relacionais.
Resolução comentada:
Resolução comentada:
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados
distribuídos.
04/09/2022 21:01 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2611297/4461185 3/6
5)
6)
Código da questão: 48947
O Apache Spark é uma plataforma de computação em cluster projetada para trabalhar
com grande volume de dados (Big Data) de forma simples e eficiente (KARAU, 2015). O
projeto Spark foi desenvolvido na linguagem ________ e executa em uma ____________. Além
da API principal do Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos e aprendizado de máquina (machine learning). O Apache Spark contém
duas estruturas de dados para trabalhar com coleções distribuídas: ____________ e
_____________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
Scala; máquina virtual Linux; DataFrame; ArrayList.
Scala; máquina virtual Java; DataFrame; DataSet.  CORRETO
Python; máquina virtual Java; Hashset; ArrayLis.t
Python; máquina virtual Java; DataFrame; ArrayList.
Java; máquina virtual Java; DataFrame; DataSet.
Código da questão: 48971
I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver
problemas complexos em diversas áreas do conhecimento (engenharia, psicologia,
medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria
muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas
para reconhecimento facial e aplicações para segurança em diversos países.
II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por
ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à
companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e
cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos
em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos
de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a
IA e machine learning. 06/03/2018. Disponível em:
https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia-
e-machine-learning/. Acesso em: 13 nov. 2019).
III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas
em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem
percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações
desenvolvidas utilizando inteligência artificial.
IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um
grupo de homens em Datta Khel, no Paquistão, que estavam em assembleia para resolver
um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação
coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos
por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017.
Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia-
artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para
confirmação para a terceira.
A primeira asserção está incorreta, a segundaé complemento para a primeira, a terceira
é a contradição da primeira e a quarta são citados exemplos para confirmação para a
terceira.
Resolução comentada:
O Apache Spark foi desenvolvido na linguagem Scala, em 2009, pelo grupo de
pesquisa do AMPLab da Universidade de Califórnia – Berkeley, e executado em uma
máquina virtual Java (JVM).
O Apache Spark contém duas estruturas de dados para trabalhar com coleções
distribuídas: DataFrame e DataSet.
04/09/2022 21:01 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2611297/4461185 4/6
7)
8)
A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação
para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos
para confirmação para a terceira.  CORRETO
A primeira asserção está correta, na segunda e quarta são citados exemplos para
confirmação para a terceira.
A primeira asserção está correta, a segunda são exemplos de contradição para a
primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para
confirmação para a terceira.
Código da questão: 48969
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API
principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de
imagens.
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você
pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para
linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-
supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento
de imagem (segmentação, filtragem e transformação geométrica).
São verdadeiras:
Alternativas:
Todas as afirmações.
II - III.
II - III - IV.
Apenas III.  CORRETO
Apenas I.
Código da questão: 48972
A linguagem de programação Python foi criada em 1991, mas só recentemente vem
sendo utilizada em grandes proporções. Isso se deve por algumas facilitações e
otimizações que a linguagem proporciona no momento do desenvolvimento.
Com relação a essas características, podemos afirmar sobre Python:
I. Facilita a legibilidade.
II. A expressividade da linguagem dificulta no desenvolvimento de algoritmos complexos
de Machine Learning.
III. Eficiência no gerenciamento de memória.
Resolução comentada:
A primeira asserção está correta e explica a importância do aprendizado de máquina
(machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma
aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com
a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são
utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados
dois exemplos para confirmação da terceira asserção.
Resolução comentada:
Apache Spark não contém API para processamento de imagens, portanto a opção I e
IV são falsas.
A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto
a opção II também é falsa.
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que
consiste em diversos algoritmos de aprendizagem de máquina supervisionado e
não-supervisionado, portando a opção III é correta.
04/09/2022 21:01 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2611297/4461185 5/6
9)
10)
IV. Comunidade muito ativa contribuindo para melhoria de bibliotecas.
V. Possibilidade de vários paradigmas de programação.
São verdadeiras:
Alternativas:
IV - V.
I - II - IV.
V.
I - III - IV - V.  CORRETO
I - II.
Código da questão: 48943
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise
de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos
arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de
dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados
chegam em um fluxo constante, geralmente de várias aplicações simultaneamente.
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta.
Alternativas:
A API Apache Spark Streaming tem suporte para as linguagens de programação Java,
Scala, Python e R.
Em Python, os DataFrames de streaming podem ser criados por meio da interface
DataStreamReader retornada por SparkSession.createStream().
Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes
no PySpark, e uma característica importante dos RDDs é que eles não são objetos
imutáveis.
No processamento em streaming ocorre a análise dos dados que já foram armazenados
por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre
outros.
A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming
em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e
os resultados gerados podem ser armazenados em software como Kafka, HDFS,
Cassandra e Elasticsearch.  CORRETO
Código da questão: 48975
Organização e visualização dos dados são tarefas essenciais para a área de ciência de
dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens,
diagramas, histogramas, gráficos ou animação para melhor representar a informação.
Resolução comentada:
Apenas a alternativa II está incorreta, pois o Python apresenta diversas vantagens, a
expressividade da linguagem facilita o desenvolvimento de algoritmos mais
complexos, sendo uma preocupação a menos para o desenvolvedor a dificuldade
com a sintaxe da linguagem.
Resolução comentada:
No processamento em batch ocorre a análise dos dados que já foram armazenados
por um tempo, portanto a alternativa a. é falsa.
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de
dados mais importante no PySpark; uma característica importante dos RDDs é que
são objetos imutáveis, portanto a alternativa b. é falsa.
A API Apache Spark Streaming não tem suporte para a linguagem de programação
R, portanto a alternativa c. é falsa.
Em Python, os DataFrames de streaming podem ser criados por meio da interface
DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é
falsa.
04/09/2022 21:01 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2611297/4461185 6/6
Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta
visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem
(ROUGIER, 2019).
O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e
expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados
manipulados no Pandas são frequentemente usados para trabalhar com análises
estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de
máquina no Scikit-learn (MCKINNEY, 2019).
Fontes:
MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit.
Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em
https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019.
ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume
II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em:
28 out. 2019.
Analise as seguintes afirmações, indicando aquelas verdadeiras:
I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas
em arquivo MS Excel.
II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots).
III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedadesdo
gráfico, tais como: cor e estilos da linha, legendas ou eixos.
IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet
(ODS).
Alternativas:
Apenas III.
II - III - IV.
I -, III - IV.  CORRETO
I - II - IV.
Todas as afirmações são verdadeiras..
Código da questão: 48959
Resolução comentada:
A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto
a opção II é falsa.
Arquivos e Links