Baixe o app para aproveitar ainda mais
Prévia do material em texto
Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico) 1) 2) 3) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho. Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados? Alternativas: Contendo poucas bibliotecas e pouca diversidade de ferramentas. Movendo os dados durante seu processamento. Obtendo resultados intermediários e os armazenando diretamente em disco. Compartilhando dados em memória através de grafos direcionais acíclicos. CORRETO Utilizando a estrutura HDFS padrão do Hadoop. Código da questão: 48939 A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na __________, os valores das medidas: moda, mediana e média são iguais. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: Moda; variância; desvio padrão; distribuição normal. CORRETO Média; correlação; desvio padrão; distribuição negativa. Moda; correlação; desvio padrão; distribuição positiva. Média; variância; desvio padrão; distribuição positiva. Moda; variância; histograma; distribuição normal. Código da questão: 48961 Sobre os conceitos de Big Data e Apache Spark Streaming, considere as seguintes afirmações: ( ) Os dados em Big Data são criados em diferentes formatos e armazenados em diferentes Resolução comentada: O compartilhamento de dados em memória possibilita a otimização e agiliza o processamento dos dados, isso acontece pois acaba evitando a persistência dos dados em disco e o tráfego dos dados em rede, que são gargalos que podem causar lentidão. Resolução comentada: A moda é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Já a variância é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na distribuição normal o valor da moda, mediana e média são iguais. 4) 5) fontes de dados, que podemos classificar em três grupos: não-estruturado, semiestruturado e estruturado. ( ) Existem dois tipos de operações do Apache Spark RDD: transformações e ações. Uma transformação é uma função que produz um novo RDD a partir dos RDDs existentes. Quando a ação é acionada após o resultado, o novo RDD também é criado, assim como na transformação. ( ) O projeto Apache Spark introduziu o conceito de RDD, que formalmente é uma coleção de objetos imutáveis, particionados em um conjunto de nós do cluster, podendo somente ser criado através de funções como map(), filter(), join() e groupBy(), executadas em outros RDDs ou meios de armazenamentos estáveis. ( ) O Apache Kafka é uma plataforma distribuída de código-fonte livre (open-source) de processamento de mensagens e streams desenvolvida pela Apache Software Foundation, escrita na linguagem de programação Java e Python. Assinale a alternativa que contém a sequência correta. Alternativas: V – V – F – F. F – F – V – V. V – F – F – F. V – V – V – F. V – F – V – F. CORRETO Código da questão: 48978 O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam Big Data. Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar processamento de streaming usando operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming fornece uma API com suporte para as linguagens de programação _________, Java e Python. Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, no entanto, a API DStreams é baseada em operações de nível relativamente baixo em objetos _______ ou __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python. DStreams; R; Resilient Distributed Dataset (RDD); R; Python. API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python. API DataFrames; Java; DataSet; R; Scala. API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python. CORRETO Código da questão: 48976 Resolução comentada: Os objetos RDD são imutáveis e, nas operações de ação, um novo RDD não é criado. O Apache Kafka foi desenvolvido utilizando a linguagem Java e Scala, não Python. Resolução comentada: Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams e não DataFrames e DataSet. A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte para a linguagem de programação R. A API DStreams é baseada em operações de nível relativamente baixo em objetos Java ou Python. 6) 7) Alternativas: III - IV. CORRETO Apenas I. Apenas III. I - II - IV. Todas as afirmações são verdadeiras. Código da questão: 48964 Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: ( ) Os dados em Big Data são criados e armazenados em vários formatos, que podemos classificar em três grupos: Não-estruturado, semiestruturado e estruturado. ( ) As propriedades do Spark controlam a maioria das configurações do aplicativo e são definidas separadamente para cada aplicativo. Essas propriedades podem ser definidas diretamente em um SparkConf. O SparkConf permite configurar algumas das propriedades através do método set () ( ) A arquitetura do Apache Spark é formada pelas seguintes bibliotecas: Spark SQL, Spark Streaming e Spark MLlib. ( ) Spark Streaming é uma biblioteca usada para processar dados de streaming em tempo real. Dessa forma, podemos desenvolver algoritmos para processamento de dados à medida que os dados chegam (em tempo real) e não em um processo em lote. Assinale a alternativa que contenha a sequência correta: Alternativas: V – V – F– V. CORRETO F – F – V – V. V – F – F – V. V – V – F – F. V – F – F – F. Código da questão: 48973 Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica. Com relação a essas características, podemos afirmar sobre Python: I. DataFrames estão disponíveis na biblioteca Pandas. II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas. III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos Resolução comentada: 8) potencialmente diferentes. IV. O DataFrame tem três componentes principais: dados, índice e colunas. V. DataFrame não possibilita a exclusão de colunas. São verdadeiras: Alternativas: IV - V. I - II. V. I - III - IV - V. I - III - IV. CORRETO Código da questão: 48952 Sobre os conceitos de machine learning, considere as seguintes afirmações: ( ) Os primeiros estudos na área demachine learning surgiram por volta do ano 2000, devido à evolução dos computadores. ( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning. ( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo. ( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste. ( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. Assinale a alternativa que contenha a sequência correta. Alternativas: F – F – V – V – F. CORRETO V – F – V – V – F. V – F – V – F – F. F – V – V – V – F. V – V – V – F – F. Código da questão: 48968 Resolução comentada: DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além disso, é composto basicamente por três elementos que são: seus dados armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de diferentes tipos. Resolução comentada: O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados. A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab. Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de regressão. 9) 10) Estatística e probabilidade são extremamente importantes para trabalhar na área de ciência de dados, assim como em outras áreas, como medicina, ciências biológicas, psicologia, engenharia, computação etc. Sobre Estatística, Probabilidade e Python, assinale a alternativa correta. Alternativas: A estatística é a área responsável pela coleta, organização e interpretação de dados experimentais e pela extrapolação dos resultados da amostra para a população. CORRETO O desvio padrão é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade. A estatística é uma área da matemática que estuda as chances de ocorrência de um determinado experimento ou evento. A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua instalação. A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, bem como para a realização de testes e a exploração de dados estatísticos. Código da questão: 48960 Uma das principais estruturas que o Pandas disponibiliza para a utilização são os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim, eles são organizados em __________ e __________, onde cada linha é um registro e cada coluna um campo. Assinale a alternativa que completa adequadamente as lacunas.: Alternativas: Repositórios; Repositórios; linear; colunas; linhas. Dataframes; Dataframes; linear; linhas; colunas. Frames; Frames; organizada; x; y. Dataframes; Dataframes; tabular; linhas; colunas. CORRETO Dataframes; Repositórios; tabular; X; Y. Código da questão: 48951 Resolução comentada: A mediana é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade, portanto a alternativa b é falsa. A biblioteca numpy não faz parte do pacote principal do Python, sendo necessário sua instalação manual. Então a alternativa c é falsa. A biblioteca Statsmodels é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, portanto a alternativa d é falsa. A probabilidade é uma área da matemática que estuda as chances de ocorrência de experimentos são calculadas, então a alternativa e é falsa. Resolução comentada: Os DataFrames têm organização tabular, portanto são organizados em linhas e colunas. Arquivos e Links
Compartilhar