Buscar

Linguagens de programação para ciência de dados (Python com Spark)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

28/12/2022 20:57 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 1/6
Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico)
1)
2)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final.
Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas.
Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir
o prazo estabelecido. Boa prova!
O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece
porque ele tem alta taxa de escalabilidade e desempenho.
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?
Alternativas:
Obtendo resultados intermediários e os armazenando diretamente em disco.
Compartilhando dados em memória através de grafos direcionais acíclicos. 
CORRETO
Contendo poucas bibliotecas e pouca diversidade de ferramentas.
Movendo os dados durante seu processamento.
Utilizando a estrutura HDFS padrão do Hadoop.
Código da questão: 48939
Além da criação manual de Dataframes através de listas é possível criar Dataframes
importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados
para armazenamento de dados em formato texto.
Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir:
( ) O comando read_csv importa dados de um arquivo para uma estrutura de um
Dataframe.
( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo.
( ) É possível criar funções lambda para a formatação de colunas do Dataframe.
( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do
comando to_csv.
( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS
Excel.
Alternativas:
F – V – F – V – F.
V – F – V – V – V.  CORRETO
V – V – V – V – F.
F – F – V – V – F.
F – V – V – V – V.
Código da questão: 48954
Resolução comentada:
O compartilhamento de dados em memória possibilita a otimização e agiliza o
processamento dos dados, isso acontece pois acaba evitando a persistência dos
dados em disco e o tráfego dos dados em rede, que são gargalos que podem causar
lentidão.
Resolução comentada:
O Dataframe realiza leitura de arquivo CSV através do comando read_csv. É possível
realizar a exportação para CSV através do comando to_csv e ainda existe a
possibilidade de exportação para arquivo no formato MS Excel, além de não exigir
que as colunas de dados possuam um mesmo tipo
28/12/2022 20:57 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 2/6
3)
4)
Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de
tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração,
esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo
entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a
melhor maneira de produzir a saída solicitada. No aprendizado de máquinas
_________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre
a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de
eficientes ferramentas para mineração e análise de dados para computação científica em
Python.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib.
aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn.  CORRETO
aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn.
aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn.
aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib.
Código da questão: 48966
Sobre os conceitos de machine learning, considere as seguintes afirmações:
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de
encontrar um resultado a partir de conjunto de dados. As informações de entrada não
precisam estar rotuladas.
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os
dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao
algoritmo.
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários
grupos, chamados clusters.
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto
(dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um
particionamento do conjunto de dados com alguns pontos centrais conhecidos como
centroides.
São verdadeiras:
Alternativas:
Apenas III.
II - III - IV.  CORRETO
Todas as afirmações.
I - III - IV.
Apenas I.
Código da questão: 48967
Resolução comentada:
Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada
devem ser obrigatoriamente rotulado.
Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O
scikit-learn contém uma grande variedade de eficientes ferramentas para mineração
e análise de dados.
Já a biblioteca matplotlib contém funções com foco na visualizações dos dados.
Resolução comentada:
A afirmação I é falsa, pois o aprendizado de máquina supervisionado (Supervised
Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados e é
obrigatório rotular o conjunto de dados de entrada.
Todas as demais afirmações são verdadeiras.
28/12/2022 20:57 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 3/6
5)
6)
Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as
seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível
criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma
correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para
realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
F – F – V – V.
V – V– F – F.  CORRETO
V – V – V – F.
F – F – F – V.
V – F – F – V.
Código da questão: 48963
I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver
problemas complexos em diversas áreas do conhecimento (engenharia, psicologia,
medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria
muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas
para reconhecimento facial e aplicações para segurança em diversos países.
II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por
ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à
companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e
cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos
em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos
de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a
IA e machine learning. 06/03/2018. Disponível em:
https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia-
e-machine-learning/. Acesso em: 13 nov. 2019).
III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas
em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem
percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações
desenvolvidas utilizando inteligência artificial.
IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um
grupo de homens em Datta Khel,no Paquistão, que estavam em assembleia para resolver
um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação
coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos
por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017.
Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia-
artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira
é a contradição da primeira e a quarta são citados exemplos para confirmação para a
terceira.
A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para
confirmação para a terceira.
A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação
para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos
para confirmação para a terceira.  CORRETO
Resolução comentada:
Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos
uma correlação forte.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente
para realizar cálculos em arrays e matrizes multidimensionais.
28/12/2022 20:57 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 4/6
7)
8)
A primeira asserção está correta, a segunda são exemplos de contradição para a
primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para
confirmação para a terceira.
A primeira asserção está correta, na segunda e quarta são citados exemplos para
confirmação para a terceira.
Código da questão: 48969
O processamento de dados em tempo real (streaming) é um requisito essencial em
muitas aplicações que utilizam Big Data.
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma
das primeiras APIs a ativar processamento de streaming usando operadores funcionais de
alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming
fornece uma API com suporte para as linguagens de programação _________, Java e Python.
Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos
usando dados adquiridos em tempo real, geralmente processando terabytes de dados por
hora. Muito parecido com a biblioteca de conjuntos de dados resilientes -
__________________, no entanto, a API DStreams é baseada em operações de nível
relativamente baixo em objetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
API DataFrames; Java; DataSet; R; Scala.
DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python.
API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.  CORRETO
API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
Código da questão: 48976
Organização e visualização dos dados são tarefas essenciais para a área de ciência de
dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens,
diagramas, histogramas, gráficos ou animação para melhor representar a informação.
Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta
visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem
(ROUGIER, 2019).
O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e
expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados
manipulados no Pandas são frequentemente usados para trabalhar com análises
estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de
máquina no Scikit-learn (MCKINNEY, 2019).
Fontes:
MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit.
Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em
Resolução comentada:
A primeira asserção está correta e explica a importância do aprendizado de máquina
(machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma
aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com
a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são
utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados
dois exemplos para confirmação da terceira asserção.
Resolução comentada:
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API
DStreams e não DataFrames e DataSet.
A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte
para a linguagem de programação R.
A API DStreams é baseada em operações de nível relativamente baixo em objetos
Java ou Python.
28/12/2022 20:57 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 5/6
9)
https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019.
ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume
II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em:
28 out. 2019.
Analise as seguintes afirmações, indicando aquelas verdadeiras:
I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas
em arquivo MS Excel.
II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots).
III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do
gráfico, tais como: cor e estilos da linha, legendas ou eixos.
IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet
(ODS).
Alternativas:
II - III - IV.
I - II - IV.
I -, III - IV.  CORRETO
Apenas III.
Todas as afirmações são verdadeiras..
Código da questão: 48959
Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados
que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma
instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável
específica.
Com relação a essas características, podemos afirmar sobre Python:
I. DataFrames estão disponíveis na biblioteca Pandas.
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de
colunas.
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos
potencialmente diferentes.
IV. O DataFrame tem três componentes principais: dados, índice e colunas.
V. DataFrame não possibilita a exclusão de colunas.
São verdadeiras:
Alternativas:
I - III - IV - V.
IV - V.
V.
I - II.
I - III - IV.  CORRETO
Código da questão: 48952
Resolução comentada:
A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto
a opção II é falsa.
Resolução comentada:
DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que
possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além
disso, é composto basicamente por três elementos que são: seus dados
armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de
diferentes tipos.
28/12/2022 20:57 Cosmos · Cosmos
https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 6/6
10) No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações
fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar
na forma de __________, mas também no formato de computação __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
API’s – servidor autônomo – distribuída.  CORRETO
Tecnologias – programação assíncrona – distribuída.
Documentações – algoritmo único – evolutiva.
API’s - software – online.
Informações – grafos – paralela.
Código da questão: 48941
Resolução comentada:
Através do uso de API’s o Spark possibilita o desenvolvimento em diversas
linguagens,gerando implementações autônomas ou distribuídas.
Arquivos e Links

Continue navegando