Buscar

Linguagens de programação para ciência de dados 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 6 páginas

Prévia do material em texto

A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações simultaneamente.
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta.
Alternativas:
· 
A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch.
CORRETO
· 
Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis.
· 
A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R.
· 
Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream().
· 
No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros.
Código da questão: 48975
6)
O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho.
Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados?
Alternativas:
· 
Obtendo resultados intermediários e os armazenando diretamente em disco.
· 
Utilizando a estrutura HDFS padrão do Hadoop.
· 
Movendo os dados durante seu processamento.
· 
Contendo poucas bibliotecas e pouca diversidade de ferramentas.
· 
Compartilhando dados em memória através de grafos direcionais acíclicos.
CORRETO
Código da questão: 48939
7)
O __________ é uma representação da distribuição de frequências (ocorrências) de um determinado valor em um conjunto de dados. Essa representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes.
Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________.
É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· 
Histograma; DataFrame; RDD; savefig.
· 
Histograma; DataFrame; Series; savefig.
CORRETO
· 
Gráfico; DataFrame; Series; export.
· 
Gráfico; DataFrame; RDD; savefig.
· 
diagrama; DataSet; RDD; saveplot.
Código da questão: 48956
8)
Além da criação manual de Dataframes através de listas é possível criar Dataframes importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados para armazenamento de dados em formato texto.
Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir:
( ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe.
( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo.
( ) É possível criar funções lambda para a formatação de colunas do Dataframe.
( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do comando to_csv.
( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS Excel.
Alternativas:
· 
F – V – V – V – V.
· 
F – F – V – V – F.
· 
V – F – V – V – V.
CORRETO
· 
F – V – F – V – F.
· 
V – V – V – V – F.
Código da questão: 48954
9)
A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme.
Na __________, os valores das medidas: moda, mediana e média são iguais.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· 
Moda; variância; desvio padrão; distribuição normal.
CORRETO
· 
Média; correlação; desvio padrão; distribuição negativa.
· 
Moda; correlação; desvio padrão; distribuição positiva.
· 
Moda; variância; histograma; distribuição normal.
· 
Média; variância; desvio padrão; distribuição positiva.
Código da questão: 48961
10)
I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka.
II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos.
III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine).
IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop.
Assinale a alternativa correta.
Alternativas:
· 
I - II - III.
CORRETO
· 
Todas as afirmações estão corretas.
· 
I - III - IV.
· 
Apenas IV.
· 
I - IV.

Continue navegando

Outros materiais