Buscar

Linguagens de programação para ciência de dados (Python com Spark)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Linguagens de programação para ciência de dados (Python com Spark)
Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico)
1)
2)
3)
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final.
Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas.
Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir
o prazo estabelecido. Boa prova!
O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece
porque ele tem alta taxa de escalabilidade e desempenho. 
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?
Alternativas:
Contendo poucas bibliotecas e pouca diversidade de ferramentas.
Movendo os dados durante seu processamento.
Obtendo resultados intermediários e os armazenando diretamente em disco.
Compartilhando dados em memória através de grafos direcionais acíclicos. 
CORRETO
Utilizando a estrutura HDFS padrão do Hadoop.
Código da questão: 48939
A __________ é o elemento que ocorre com mais frequência em uma amostra, população
ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de
dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da
média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de
dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. 
Na __________, os valores das medidas: moda, mediana e média são iguais. 
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
Moda; variância; desvio padrão; distribuição normal.  CORRETO
Média; correlação; desvio padrão; distribuição negativa.
Moda; correlação; desvio padrão; distribuição positiva.
Média; variância; desvio padrão; distribuição positiva.
Moda; variância; histograma; distribuição normal.
Código da questão: 48961
Sobre os conceitos de Big Data e Apache Spark Streaming, considere as seguintes
afirmações: 
( ) Os dados em Big Data são criados em diferentes formatos e armazenados em diferentes
Resolução comentada:
O compartilhamento de dados em memória possibilita a otimização e agiliza o
processamento dos dados, isso acontece pois acaba evitando a persistência dos
dados em disco e o tráfego dos dados em rede, que são gargalos que podem causar
lentidão.
Resolução comentada:
A moda é o elemento que ocorre com mais frequência em uma amostra, população
ou distribuição. Já a variância é uma medida de dispersão e é usada também para
expressar o quanto um conjunto de dados se desvia da média. 
O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto
de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é
uniforme. 
Na distribuição normal o valor da moda, mediana e média são iguais.
4)
5)
fontes de dados, que podemos classificar em três grupos: não-estruturado,
semiestruturado e estruturado. 
( ) Existem dois tipos de operações do Apache Spark RDD: transformações e ações. Uma
transformação é uma função que produz um novo RDD a partir dos RDDs existentes.
Quando a ação é acionada após o resultado, o novo RDD também é criado, assim como na
transformação. 
( ) O projeto Apache Spark introduziu o conceito de RDD, que formalmente é uma coleção
de objetos imutáveis, particionados em um conjunto de nós do cluster, podendo somente
ser criado através de funções como map(), filter(), join() e groupBy(), executadas em outros
RDDs ou meios de armazenamentos estáveis. 
( ) O Apache Kafka é uma plataforma distribuída de código-fonte livre (open-source) de
processamento de mensagens e streams desenvolvida pela Apache Software Foundation,
escrita na linguagem de programação Java e Python. 
Assinale a alternativa que contém a sequência correta.
Alternativas:
V – V – F – F.
F – F – V – V.
V – F – F – F.
V – V – V – F.
V – F – V – F.  CORRETO
Código da questão: 48978
O processamento de dados em tempo real (streaming) é um requisito essencial em
muitas aplicações que utilizam Big Data. 
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma
das primeiras APIs a ativar processamento de streaming usando operadores funcionais de
alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming
fornece uma API com suporte para as linguagens de programação _________, Java e Python. 
Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos
usando dados adquiridos em tempo real, geralmente processando terabytes de dados por
hora. Muito parecido com a biblioteca de conjuntos de dados resilientes -
__________________, no entanto, a API DStreams é baseada em operações de nível
relativamente baixo em objetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python.
DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
API DataFrames; Java; DataSet; R; Scala.
API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.  CORRETO
Código da questão: 48976
Resolução comentada:
Os objetos RDD são imutáveis e, nas operações de ação, um novo RDD não é criado.
O Apache Kafka foi desenvolvido utilizando a linguagem Java e Scala, não Python.
Resolução comentada:
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API
DStreams e não DataFrames e DataSet. 
A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte
para a linguagem de programação R. 
A API DStreams é baseada em operações de nível relativamente baixo em objetos
Java ou Python.
6)
7)
Alternativas:
III - IV.  CORRETO
Apenas I.
Apenas III.
I - II - IV.
Todas as afirmações são verdadeiras.
Código da questão: 48964
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: 
( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos
classificar em três grupos: Não-estruturado, semiestruturado e estruturado. 
( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são
definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas
diretamente em um SparkConf. O SparkConf permite configurar algumas das propriedades
através do método set () 
( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, Spark
Streaming e Spark MLlib. 
( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em tempo
real. Dessa forma, podemos desenvolver algoritmos para processamento de dados à
medida que os dados chegam (em tempo real) e não em um processo em lote. 
Assinale a alternativa que contenha a sequência correta:
Alternativas:
V – V – F– V.  CORRETO
F – F – V – V.
V – F – F – V.
V – V – F – F.
V – F – F – F.
Código da questão: 48973
Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados
que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma
instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável
específica. 
Com relação a essas características, podemos afirmar sobre Python: 
I. DataFrames estão disponíveis na biblioteca Pandas. 
II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de
colunas. 
III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos
Resolução comentada:
8)
potencialmente diferentes. 
IV. O DataFrame tem três componentes principais: dados, índice e colunas. 
V. DataFrame não possibilita a exclusão de colunas. 
São verdadeiras:
Alternativas:
IV - V.
I - II.
V.
I - III - IV - V.
I - III - IV.  CORRETO
Código da questão: 48952
Sobre os conceitos de machine learning, considere as seguintes afirmações: 
( ) Os primeiros estudos na área demachine learning surgiram por volta do ano 2000,
devido à evolução dos computadores. 
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de
aplicações na área de ciência de dados, especialmente na área de machine learning. 
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização
dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e
teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos
dados para treinamento e 30% para testes. Essa análise deve levar em consideração o
problema a ser resolvido e o modelo. 
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto
de atributos suficientes que se ajustem ao modelo e que possa prever rótulos
desconhecidos no conjunto de teste. 
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem
de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em
fotos, podem ser resolvidos utilizando algoritmo de regressão. 
Assinale a alternativa que contenha a sequência correta.
Alternativas:
F – F – V – V – F.  CORRETO
V – F – V – V – F.
V – F – V – F – F.
F – V – V – V – F.
V – V – V – F – F.
Código da questão: 48968
Resolução comentada:
DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que
possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além
disso, é composto basicamente por três elementos que são: seus dados
armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de
diferentes tipos.
Resolução comentada:
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos
computadores possibilitou que as novas técnicas fossem aplicadas a grande
quantidade de dados. 
A linguagem Python é bastante utilizada para resolver problemas usando machine
learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java,
SQL e Matlab. 
Reconhecimento de impressão digital; identificação de tumores a partir de uma
imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de
animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não
de regressão.
9)
10)
Estatística e probabilidade são extremamente importantes para trabalhar na área de
ciência de dados, assim como em outras áreas, como medicina, ciências biológicas,
psicologia, engenharia, computação etc. 
Sobre Estatística, Probabilidade e Python, assinale a alternativa correta.
Alternativas:
A estatística é a área responsável pela coleta, organização e interpretação de dados
experimentais e pela extrapolação dos resultados da amostra para a população. 
CORRETO
O desvio padrão é usado quando queremos separar a metade maior e a metade menor
de uma amostra, uma população ou uma distribuição de probabilidade.
A estatística é uma área da matemática que estuda as chances de ocorrência de um
determinado experimento ou evento.
A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes
multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua
instalação.
A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa
de muitos modelos estatísticos, bem como para a realização de testes e a exploração de
dados estatísticos.
Código da questão: 48960
Uma das principais estruturas que o Pandas disponibiliza para a utilização são
os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim,
eles são organizados em __________ e __________, onde cada linha é um registro e cada
coluna um campo. 
Assinale a alternativa que completa adequadamente as lacunas.:
Alternativas:
Repositórios; Repositórios; linear; colunas; linhas.
Dataframes; Dataframes; linear; linhas; colunas.
Frames; Frames; organizada; x; y.
Dataframes; Dataframes; tabular; linhas; colunas.  CORRETO
Dataframes; Repositórios; tabular; X; Y.
Código da questão: 48951
Resolução comentada:
A mediana é usado quando queremos separar a metade maior e a metade menor de
uma amostra, uma população ou uma distribuição de probabilidade, portanto a
alternativa b é falsa.
A biblioteca numpy não faz parte do pacote principal do Python, sendo necessário
sua instalação manual. Então a alternativa c é falsa. 
A biblioteca Statsmodels é um módulo Python que fornece classes e funções para a
estimativa de muitos modelos estatísticos, portanto a alternativa d é falsa. 
A probabilidade é uma área da matemática que estuda as chances de ocorrência de
experimentos são calculadas, então a alternativa e é falsa.
Resolução comentada:
Os DataFrames têm organização tabular, portanto são organizados em linhas e
colunas.
Arquivos e Links

Outros materiais