Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! 1) Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas. ( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255. ( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta. Alternativas: ● V – V – F – V. ● F – F – V – V. ● F – V – V – F. ● V – F – F – V. ● V – V – F – F.CORRETO Código da questão: 60241 2) No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma de __________, mas também no formato de computação __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: ● Informações – grafos – paralela. ● API’s – servidor autônomo – distribuída. ● Tecnologias – programação assíncrona – distribuída. ● Documentações – algoritmo único – evolutiva..INCORRETO ● API’s - software – online.INCORRETO Código da questão: 48941 3) Alternativas: ● Todas as afirmações são verdadeiras. ● Apenas III. ● I - II - IV. ● III - IV.CORRETO ● Apenas I. Código da questão: 48964 4) O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam Big Data. Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar processamento de streaming usando operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming fornece uma API com suporte para as linguagens de programação _________, Java e Python. Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, no entanto, a API DStreams é baseada em operações de nível relativamente baixo em objetos _______ ou __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: ● API DataFrames; Java; DataSet; R; Scala. ● API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python. ● DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python. ● DStreams; R; Resilient Distributed Dataset (RDD); R; Python. ● API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.CORRETO Código da questão: 48976 5) A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na __________, os valores das medidas: moda, mediana e média são iguais. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: ● Moda; correlação; desvio padrão; distribuição positiva. ● Média; correlação; desvio padrão; distribuição negativa. ● Moda; variância; desvio padrão; distribuição normal. ● Moda; variância; histograma; distribuição normal..INCORRETO ● Média; variância; desvio padrão; distribuição positiva.INCORRETO Código da questão: 48961 6) Além da criação manual de Dataframes através de listas é possível criar Dataframes importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados para armazenamento de dados em formato texto. Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir: ( ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe. ( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo. ( ) É possível criar funções lambda para a formatação de colunas do Dataframe. ( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do comando to_csv. ( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS Excel. Alternativas: ● F – F – V – V – F.INCORRETO ● F – V – V – V – V..INCORRETO ● V – F – V – V – V. ● F – V – F – V – F. ● V – V – V – V – F. Código da questão: 48954 7) I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka. II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos. III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine). IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop. Assinale a alternativa correta. Alternativas: ● I - II - III. ● Todas as afirmações estão corretas. ● I - IV.INCORRETO ● Apenas IV. ● I - III - IV. Código da questão: 48979 8) Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas, considere as seguintes afirmações: I. A API do Pandas contém funções para obter informações de páginas HTML, através das funções read_html e to_html. II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de um objeto DataFrame. São verdadeiras: Alternativas: ● I - II - III. ● I - III. ● I - III - IV.CORRETO ● Todas as afirmações. ● II - III - IV. Código da questão: 48957 9) O Apache Spark é uma plataforma de computação em cluster projetada para trabalhar com grande volume de dados (Big Data) de forma simples e eficiente (KARAU, 2015). O projeto Spark foi desenvolvido na linguagem ________ e executa em uma ____________. Além da API principal do Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning). O Apache Spark contém duas estruturas de dados para trabalhar com coleções distribuídas: ____________ e _____________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: ● Scala; máquina virtual Java; DataFrame; DataSet.CORRETO ● Python; máquina virtual Java; Hashset; ArrayLis.t ● Python; máquina virtual Java; DataFrame; ArrayList. ● Scala; máquina virtual Linux; DataFrame; ArrayList. ● Java; máquina virtual Java; DataFrame; DataSet. Código da questão: 48971
Compartilhar