Baixe o app para aproveitar ainda mais
Prévia do material em texto
10/12/2021 07:46 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 1/5 Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Yuri Vasconcelos de Almeida Sá (Especialização) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. Ressaltamos que a nota para aprovação nesta disciplina é 7,0 (sete) e será adquirida exclusivamente por meio da realização desta avaliação virtual. Seu certificado será emitido após a aprovação em todas as disciplinas do curso. No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma de __________, mas também no formato de computação __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: Tecnologias – programação assíncrona – distribuída. Informações – grafos – paralela. API’s – servidor autônomo – distribuída. CORRETO Documentações – algoritmo único – evolutiva. API’s - software – online. Código da questão: 48941 Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de imagens e processamento de dados em streaming e em batch. II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(). III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de programação Scala, mas recebem funções do Python e retornam os tipos de coleção do Python. IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode ser transformado. São verdadeiras: Alternativas: Todas as afirmações. Apenas I. Apenas II. I - II - III. II - III - IV. CORRETO Código da questão: 48977 Resolução comentada: Através do uso de API’s o Spark possibilita o desenvolvimento em diversas linguagens, gerando implementações autônomas ou distribuídas. Resolução comentada: O Apache Spark não contém API para processamento de imagens, portanto a opção I é falsa. 10/12/2021 07:46 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 2/5 3) 4) Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens. II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R. III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não- supervisionado. IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica). São verdadeiras: Alternativas: Apenas III. CORRETO Apenas I. Todas as afirmações. II - III. II - III - IV. Código da questão: 48972 Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas, considere as seguintes afirmações: I. A API do Pandas contém funções para obter informações de páginas HTML, através das funções read_html e to_html. II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de um objeto DataFrame. São verdadeiras: Alternativas: I - II - III. I - III. II - III - IV. I - III - IV. CORRETO Todas as afirmações. Resolução comentada: Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas. A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é falsa. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado, portando a opção III é correta. Resolução comentada: Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. Portanto, a alternativa II é falsa. A função show é usada para plotar um gráfico e não visualizar as linhas de um arquivo. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. Portanto, a alternativa III é verdadeira. 10/12/2021 07:46 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 3/5 5) 6) Código da questão: 48957 Sobre os conceitos de machine learning, considere as seguintes afirmações: ( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores. ( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning. ( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo. ( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste. ( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. Assinale a alternativa que contenha a sequência correta. Alternativas: F – V – V – V – F. F – F – V – V – F. CORRETO V – F – V – V – F. V – F – V – F – F. V – V – V – F – F. Código da questão: 48968 Uma das principais estruturas que o Pandas disponibiliza para a utilização são os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim, eles são organizados em __________ e __________, onde cada linha é um registro e cada coluna um campo. Assinale a alternativa que completa adequadamente as lacunas.: Alternativas: Repositórios; Repositórios; linear; colunas; linhas. Dataframes; Repositórios; tabular; X; Y. Frames; Frames; organizada; x; y. Dataframes; Dataframes; linear; linhas; colunas. Dataframes; Dataframes; tabular; linhas; colunas. CORRETO Código da questão: 48951 Resolução comentada: O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados. A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab. Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podemser resolvidos utilizando algoritmo de classificação e não de regressão. Resolução comentada: Os DataFrames têm organização tabular, portanto são organizados em linhas e colunas. 10/12/2021 07:46 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 4/5 7) 8) 9) Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: ( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos classificar em três grupos: Não-estruturado, semiestruturado e estruturado. ( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas diretamente em um SparkConf. O SparkConf permite configurar algumas das propriedades através do método set () ( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, Spark Streaming e Spark MLlib. ( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em tempo real. Dessa forma, podemos desenvolver algoritmos para processamento de dados à medida que os dados chegam (em tempo real) e não em um processo em lote. Assinale a alternativa que contenha a sequência correta: Alternativas: V – V – F – F. V – F – F – V. V – F – F – F. V – V – F– V. CORRETO F – F – V – V. Código da questão: 48973 O __________ é uma representação da distribuição de frequências (ocorrências) de um determinado valor em um conjunto de dados. Essa representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes. Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________. É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: diagrama; DataSet; RDD; saveplot. Gráfico; DataFrame; RDD; savefig. Gráfico; DataFrame; Series; export. Histograma; DataFrame; RDD; savefig. Histograma; DataFrame; Series; savefig. CORRETO Código da questão: 48956 Analise as sentenças sobre o framework Apache Spark e a linguagem de programação Python. I. O framework Apache Spark tem suporte para outras ferramentas de armazenamento de Big Data, como o Elasticsearch, Cassandra e MongoDB. II. O framework Apache Spark tem como principal característica o processamento de grande quantidade de dados (Big Data) com alta latência e tem suporte para as seguintes linguagens de programação: C, Java, R, Python, Scala e Matlab. III. Spark Context é o objeto (ou uma classe) que faz a conexão do Spark ao algoritmo que Resolução comentada: O histograma é uma representação da distribuição de frequências (ocorrências) dos dados. A representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes. Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e Series. É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função savefig(). 10/12/2021 07:46 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2557546/3980902 5/5 10) está sendo desenvolvido. Ele pode ser acessado como uma variável em um programa para utilizar os seus recursos. IV. Utilizando a biblioteca Spark SQL é possível obter os dados de arquivos semiestruturados (XML, CSV e JSON) e salvar essas informações em um banco de dados relacional (MySQL, Postgres, Oracle). Assinale todas as afirmações verdadeiras Alternativas: I - II - III. Apenas IV. I - II. Apenas I. I - III - IV. CORRETO Código da questão: 48974 Alternativas: I - II - IV. III - IV. CORRETO Apenas III. Apenas I. Todas as afirmações são verdadeiras. Código da questão: 48964 Resolução comentada: Prazo de agendamento: 09/12/2021 - 09/06/2022 Código Avaliação: 20761843 Arquivos e Links
Compartilhar