Buscar

Prova Phyton

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico)
1)
2)
3)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final.
Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas.
Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir
o prazo estabelecido. Boa prova!
No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações
fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar
na forma de __________, mas também no formato de computação __________. 
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
Código da questão: 48941
O Spark tem algumas características que podem ser citadas, como, por exemplo, o
armazenamento é realizado primeiramente em memória e somente após o processamento
passa a enviar os dados para memória, agilizando o processamento das informações. 
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a
seguir: 
( ) Otimização de operações para grafos. 
( ) Suporte para funções que vão além do Map e Reduce. 
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala. 
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do
fluxo do processamento de dados. 
( ) O Spark não suporta armazenamento de dados distribuídos.
Alternativas:
Código da questão: 48947
Estatística e probabilidade são extremamente importantes para trabalhar na área de
ciência de dados, assim como em outras áreas, como medicina, ciências biológicas,
psicologia, engenharia, computação etc. 
Sobre Estatística, Probabilidade e Python, assinale a alternativa correta.
Alternativas:
API’s - software – online.
Documentações – algoritmo único – evolutiva.
Informações – grafos – paralela.
API’s – servidor autônomo – distribuída. CORRETO
Tecnologias – programação assíncrona – distribuída.
F – V – V – V – V.
V – F – V – V – V.
F – F – V – V – F.
F – V – F – V – F.
V – V – V – V – F. CORRETO
O desvio padrão é usado quando queremos separar a metade maior e a metade
menor de uma amostra, uma população ou uma distribuição de probabilidade.
A estatística é a área responsável pela coleta, organização e interpretação de dados
experimentais e pela extrapolação dos resultados da amostra para a população.
A estatística é uma área da matemática que estuda as chances de ocorrência de um
determinado experimento ou evento. INCORRETO
A biblioteca Pandas é um módulo Python que fornece classes e funções para a
estimativa de muitos modelos estatísticos, bem como para a realização de testes e a
exploração de dados estatísticos.
4)
5)
6)
Código da questão: 48960
Sobre os conceitos de machine learning, considere as seguintes afirmações: 
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de
encontrar um resultado a partir de conjunto de dados. As informações de entrada não
precisam estar rotuladas. 
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os
dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao
algoritmo. 
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários
grupos, chamados clusters. 
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto
(dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um
particionamento do conjunto de dados com alguns pontos centrais conhecidos como
centroides. 
São verdadeiras:
Alternativas:
Código da questão: 48967
A organização e visualização dos dados pode ser usada no processo de tomada de
decisão em empresas. Através de inspeção e análises visuais é possível identificar novos
padrões ou anormalidades nos dados. 
Sobre visualização de dados em Python, Matplotlib e Pandas, assinale a alternativa correta:
Alternativas:
Código da questão: 48955
Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados
que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma
instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável
específica. 
Com relação a essas características, podemos afirmar sobre Python: 
I. DataFrames estão disponíveis na biblioteca Pandas. 
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de
colunas. 
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos
potencialmente diferentes. 
IV. O DataFrame tem três componentes principais: dados, índice e colunas. 
V. DataFrame não possibilita a exclusão de colunas. 
São verdadeiras:
A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes
multidimensionais e faz parte do pacote principal do Python, não sendo necessária
sua instalação.
Apenas I.
Apenas III.
II - III - IV. CORRETO
I - III - IV.
Todas as afirmações.
A função Matplotlib.pyplot.setProperties é responsável para alterar algumas
propriedades do gráfico, tais como: cor e estilos das linhas, legendas ou eixos.
A API do Pandas contém funções para obter informações de páginas HTML. CORRETO
Matplotlib.pyplot é uma coleção de funções com sintaxe parecida com a linguagem
de programação MATLAB. O Matplotlib foi desenvolvido utilizando o MATLAB,
portanto, é necessária a instalação do MATLAB e do Python.
Objetos DataFrames e Series são as principais estruturas de dados da biblioteca
Matplotlib.
A API Pandas não tem suporte para a estrutura de dados dicionário do Python.
7)
8)
9)
Alternativas:
Código da questão: 48952
O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece
porque ele tem alta taxa de escalabilidade e desempenho. 
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?
Alternativas:
Código da questão: 48939
Big Data significa grande volume de dados. Esses dados são criados e armazenados
pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros domínios
estão levando à formação de Big Data. O Apache Spark é um framework que fornece APIs
para análise e processamento de Big Data. 
Sobre Big Data e Apache Spark, assinale a alternativa correta.
Alternativas:
Código da questão: 48970
Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as
seguintes afirmações: 
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API
principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de
dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de
imagens e processamento de dados em streaming e em batch. 
II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio
da interface DataStreamReader retornada por SparkSession.readStream(). 
III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed
Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de
programação Scala, mas recebem funções do Python e retornam os tipos de coleção do
Python. 
IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou
seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode
ser transformado. 
São verdadeiras:
I - II.
I - III - IV - V.
I - III - IV. CORRETO
V.
IV - V.
Compartilhando dados em memória através de grafos direcionais acíclicos.
Obtendo resultados intermediários e os armazenando diretamente em disco.
Movendo os dados durante seu processamento.
Utilizando a estrutura HDFS padrão do Hadoop. INCORRETO
Contendo poucas bibliotecas e pouca diversidade de ferramentas.
O Apache Spark é um framework para processamento Big Data e tem como suporte
para diversos formatos de dados (não-estruturado, semiestruturado e
estruturado).CORRETO
Os dados são classificados em semi-estruturados e estruturados e podemos extrair
informações desses dados utilizando o framework Apache Spark.
Velocidade é a principal característica do Big Data e refere-se à velocidade na
distribuição dos dados.
Logs de servidores e aplicativos; imagens e vídeos gerados pela câmera de segurança
são exemplos de dados semi-estruturados.
O Apache Spark é um framework para processamento Big Data e tem como principais
características: velocidade no processamento de grande volume de dados tem
suporte para diversos tipos de linguagem de programação como Python, Java, R,
Scala e C.
10)
Alternativas:
Código da questão: 48977
Alternativas:
Código da questão: 48964
II - III - IV.
Apenas I.
I - II - III.
Todas as afirmações. INCORRETO
Apenas II.
III - IV.
Apenas I.
I - II - IV. INCORRETO
Apenas III.
Todas as afirmações são verdadeiras.
Arquivos e Links

Outros materiais