Linguagens de programação para ciência de dados(Python com Spark) Unopar

•

UNIASSELVI

2

0

2

0

Mauro Lima

28/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise de Dados

8.002 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A
Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média
final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente
corrigidas. Você pode responder as questões consultando o material de estudos, mas
lembre-se de cumprir o prazo estabelecido. Boa prova!
1)
Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas,
considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível
criar e visualizar histogramas.
( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a
imagem tem em determinado nível de cinza, que varia de 0 a 255.
( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para
realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
● V – V – F – V.
● F – F – V – V.
● F – V – V – F.
● V – F – F – V.
● V – V – F – F.CORRETO
Código da questão: 60241
2)
No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo
uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma
de __________, mas também no formato de computação __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
● Informações – grafos – paralela.
● API’s – servidor autônomo – distribuída.
● Tecnologias – programação assíncrona – distribuída.
● Documentações – algoritmo único – evolutiva..INCORRETO
● API’s - software – online.INCORRETO
Código da questão: 48941
3)
Alternativas:
● Todas as afirmações são verdadeiras.
● Apenas III.
● I - II - IV.
● III - IV.CORRETO
● Apenas I.
Código da questão: 48964
4)
O processamento de dados em tempo real (streaming) é um requisito essencial em muitas
aplicações que utilizam Big Data.
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma
das primeiras APIs a ativar processamento de streaming usando operadores funcionais de
alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming
fornece uma API com suporte para as linguagens de programação _________, Java e Python.
Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos
usando dados adquiridos em tempo real, geralmente processando terabytes de dados por
hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________,
no entanto, a API DStreams é baseada em operações de nível relativamente baixo em
objetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
● API DataFrames; Java; DataSet; R; Scala.
● API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
● DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python.
● DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
● API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.CORRETO
Código da questão: 48976
5)
A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou
distribuição. Outra medida importante na estatística é a __________ que é uma medida de
dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da
média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de
dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme.
Na __________, os valores das medidas: moda, mediana e média são iguais.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
● Moda; correlação; desvio padrão; distribuição positiva.
● Média; correlação; desvio padrão; distribuição negativa.
● Moda; variância; desvio padrão; distribuição normal.
● Moda; variância; histograma; distribuição normal..INCORRETO
● Média; variância; desvio padrão; distribuição positiva.INCORRETO
Código da questão: 48961
6)
Além da criação manual de Dataframes através de listas é possível criar Dataframes
importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados
para armazenamento de dados em formato texto.
Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir:
( ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe.
( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo.
( ) É possível criar funções lambda para a formatação de colunas do Dataframe.
( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do
comando to_csv.
( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS
Excel.
Alternativas:
● F – F – V – V – F.INCORRETO
● F – V – V – V – V..INCORRETO
● V – F – V – V – V.
● F – V – F – V – F.
● V – V – V – V – F.
Código da questão: 48954
7)
I. O framework Apache Spark Streaming tem suporte para outras ferramentas de
armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka.
II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka
consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em
mensagens, sendo consumidas e produzidas através de tópicos.
III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de
buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária
a instalação de uma JVM (Java Virtual Machine).
IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o
download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via
comando pip install elasticsearch-hadoop.
Assinale a alternativa correta.
Alternativas:
● I - II - III.
● Todas as afirmações estão corretas.
● I - IV.INCORRETO
● Apenas IV.
● I - III - IV.
Código da questão: 48979
8)
Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas,
considere as seguintes afirmações:
I. A API do Pandas contém funções para obter informações de páginas HTML, através das
funções read_html e to_html.
II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos
fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV.
III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um
objeto DataFrame.
IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de
um objeto DataFrame.
São verdadeiras:
Alternativas:
● I - II - III.
● I - III.
● I - III - IV.CORRETO
● Todas as afirmações.
● II - III - IV.
Código da questão: 48957
9)
O Apache Spark é uma plataforma de computação em cluster projetada para trabalhar com
grande volume de dados (Big Data) de forma simples e eficiente (KARAU, 2015). O projeto
Spark foi desenvolvido na linguagem ________ e executa em uma ____________. Além da API
principal do Spark, existem diversas bibliotecas adicionais para processamento de dados,
SQL, grafos e aprendizado de máquina (machine learning). O Apache Spark contém duas
estruturas de dados para trabalhar com coleções distribuídas: ____________ e _____________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
● Scala; máquina virtual Java; DataFrame; DataSet.CORRETO
● Python; máquina virtual Java; Hashset; ArrayLis.t
● Python; máquina virtual Java; DataFrame; ArrayList.
● Scala; máquina virtual Linux; DataFrame; ArrayList.
● Java; máquina virtual Java; DataFrame; DataSet.
Código da questão: 48971