Baixe o app para aproveitar ainda mais
Prévia do material em texto
1) O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações. Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir: ( ) Otimização de operações para grafos. ( ) Suporte para funções que vão além do Map e Reduce. ( ) Disponibiliza um Shell interativo para as linguagens Python e Scala. ( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados. ( ) O Spark não suporta armazenamento de dados distribuídos. Alternativas: • V – F – V – V – V. • F – F – V – V – F. • F – V – F – V – F. • V – V – V – V – F. checkCORRETO • F – V – V – V – V. Resolução comentada: Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados distribuídos. Código da questão: 48947 2) Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: ( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos classificar em três grupos: Não-estruturado, semiestruturado e estruturado. ( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas diretamente em um SparkConf. O SparkConf permite configurar algumas das propriedades através do método set () ( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, Spark Streaming e Spark MLlib. ( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em tempo real. Dessa forma, podemos desenvolver algoritmos para processamento de dados à medida que os dados chegam (em tempo real) e não em um processo em lote. Assinale a alternativa que contenha a sequência correta: Alternativas: • F – F – V – V. • V – F – F – V. • V – V – F– V. checkCORRETO • V – F – F – F. • V – V – F – F. Código da questão: 48973 3) Sobre os conceitos de machine learning, considere as seguintes afirmações: ( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores. ( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning. ( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo. ( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste. ( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. Assinale a alternativa que contenha a sequência correta. Alternativas: • V – F – V – V – F. • F – F – V – V – F. checkCORRETO • F – V – V – V – F. • V – F – V – F – F. • V – V – V – F – F. Resolução comentada: O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados. A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab. Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de regressão. Código da questão: 48968 4) Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes ferramentas para mineração e análise de dados para computação científica em Python. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: • aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib. • aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. checkCORRETO • aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib. • aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn. • aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit- learn. Resolução comentada: Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser obrigatoriamente rotulado. Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma grande variedade de eficientes ferramentas para mineração e análise de dados. Já a biblioteca matplotlib contém funções com foco na visualizações dos dados. Código da questão: 48966 5) I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka. II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos. III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine). IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop. Assinale a alternativa correta. Alternativas: • Apenas IV. • I - III - IV. • I - IV. • I - II - III. checkCORRETO • Todas as afirmações estão corretas. Resolução comentada: Para fazer a integração do Elasticsearch com Apache Spark é necessário fazer a instalação do elasticsearch-hadoop, porém até o momento não é possível fazer via comando pip install. Portando, a opção IV é falsa e todas as demais são corretas. Código da questão: 48979 6) O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam Big Data. Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar processamento de streaming usando operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming fornece uma API com suporte para as linguagens de programação _________, Java e Python. Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, no entanto, a API DStreams é baseada em operações de nível relativamente baixo emobjetos _______ ou __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: • API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python. checkCORRETO • API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python. • API DataFrames; Java; DataSet; R; Scala. • DStreams; R; Resilient Distributed Dataset (RDD); R; Python. • DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python. Resolução comentada: Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams e não DataFrames e DataSet. A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte para a linguagem de programação R. A API DStreams é baseada em operações de nível relativamente baixo em objetos Java ou Python. Código da questão: 48976 7) A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações simultaneamente. Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. Alternativas: • A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch. checkCORRETO • A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R. • No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros. • Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis. • Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream(). Resolução comentada: No processamento em batch ocorre a análise dos dados que já foram armazenados por um tempo, portanto a alternativa a. é falsa. Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados mais importante no PySpark; uma característica importante dos RDDs é que são objetos imutáveis, portanto a alternativa b. é falsa. A API Apache Spark Streaming não tem suporte para a linguagem de programação R, portanto a alternativa c. é falsa. Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é falsa. Código da questão: 48975 8) Big Data significa grande volume de dados. Esses dados são criados e armazenados pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros domínios estão levando à formação de Big Data. O Apache Spark é um framework que fornece APIs para análise e processamento de Big Data. Sobre Big Data e Apache Spark, assinale a alternativa correta. Alternativas: • Logs de servidores e aplicativos; imagens e vídeos gerados pela câmera de segurança são exemplos de dados semi-estruturados. • Os dados são classificados em semi-estruturados e estruturados e podemos extrair informações desses dados utilizando o framework Apache Spark. • Velocidade é a principal característica do Big Data e refere-se à velocidade na distribuição dos dados. • O Apache Spark é um framework para processamento Big Data e tem como suporte para diversos formatos de dados (não-estruturado, semiestruturado e estruturado). checkCORRETO • O Apache Spark é um framework para processamento Big Data e tem como principais características: velocidade no processamento de grande volume de dados tem suporte para diversos tipos de linguagem de programação como Python, Java, R, Scala e C. Resolução comentada: Os dados são classificados em não-estruturados (logs de servidores e aplicativos; imagens e vídeos) semiestruturados (CSV, XML e JSON) e estruturados (banco de dados). O Apache Spark não tem suporte para linguagem de programação C. A propriedade Velocidade (Velocity) em Big Data refere-se à velocidade na qual os dados estão sendo criados, armazenados e atualizados e não na sua distribuição. Código da questão: 48970 9) Alternativas: • Apenas III. • Apenas I. • I - II - IV. • Todas as afirmações são verdadeiras. • III - IV. checkCORRETO Resolução comentada: Código da questão: 48964 10) Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens. II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R. III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não- supervisionado. IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica). São verdadeiras: Alternativas: • Apenas I. • II - III - IV. • II - III. • Apenas III. checkCORRETO • Todas as afirmações. Resolução comentada: Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas. A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é falsa. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não- supervisionado, portando a opção III é correta. Código da questão: 48972
Compartilhar