Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. A biblioteca Apache Spark Streaming pode ser usada para processar dados d...

Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta.

A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch.
CORRETO
Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis.
A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R.
Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream().
No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros.

Linguagem de Programação II

•

Colégio Objetivo

0

1

Estudando com Questões

30/05/2023

Essa pergunta também está no material:

6 pág.

Linguagens de programação para ciência de dados 1

Linguagem de Programação II • AnhangueraAnhanguera

Luciano Atc

💡 1 Resposta

Ed

11.09.2023

A alternativa correta é: A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch.

0