Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! 1) Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens. II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R. III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado. IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica). São verdadeiras: Alternativas: • Apenas I. • Todas as afirmações. • II - III - IV. • Apenas III. checkCORRETO • II - III. Resolução comentada: Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas. A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é falsa. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado, portando a opção III é correta. Código da questão: 48972 2) Além da criação manual de Dataframes através de listas é possível criar Dataframes importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados para armazenamento de dados em formato texto. Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir: ( ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe. ( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo. ( ) É possível criar funções lambda para a formatação de colunas do Dataframe. ( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do comando to_csv. ( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS Excel. Alternativas: • F – V – V – V – V. • V – F – V – V – V. CORRETO • F – F – V – V – F. • V – V – V – V – F. • F – V – F – V – F. checkINCORRETO Resolução comentada: O Dataframe realiza leitura de arquivo CSV através do comando read_csv. É possível realizar a exportação para CSV através do comando to_csv e ainda existe a possibilidade de exportação para arquivo no formato MS Excel, além de não exigir que as colunas de dados possuam um mesmo tipo Código da questão: 48954 3) A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto geral. No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados? Alternativas: • Numpy, Scipy e Pandas. checkCORRETO • XGBoost, LightGBM, CatBoost. • Matplotlib, Plotly. • Scikit Learn. • PyTorch, Keras. Resolução comentada: As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e de manipulação de dados que permitem a limpeza e organização dos dados antes de qualquer tarefa de processamento. Código da questão: 48949 4) Sobre os conceitos de Big Data e Apache Spark Streaming, considere as seguintes afirmações: ( ) Os dados em Big Data são criados em diferentes formatos e armazenados em diferentes fontes de dados, que podemos classificar em três grupos: não-estruturado, semiestruturado e estruturado. ( ) Existem dois tipos de operações do Apache Spark RDD: transformações e ações. Uma transformação é uma função que produz um novo RDD a partir dos RDDs existentes. Quando a ação é acionada após o resultado, o novo RDD também é criado, assim como na transformação. ( ) O projeto Apache Spark introduziu o conceito de RDD, que formalmente é uma coleção de objetos imutáveis, particionados em um conjunto de nós do cluster, podendo somente ser criado através de funções como map(), filter(), join() e groupBy(), executadas em outros RDDs ou meios de armazenamentos estáveis. ( ) O Apache Kafka é uma plataforma distribuída de código-fonte livre (open-source) de processamento de mensagens e streams desenvolvida pela Apache Software Foundation, escrita na linguagem de programação Java e Python. Assinale a alternativa que contém a sequência correta. Alternativas: • V – F – V – F. CORRETO • V – V – V – F. • F – F – V – V. • V – F – F – F. • V – V – F – F. checkINCORRETO Resolução comentada: Os objetos RDD são imutáveis e, nas operações de ação, um novo RDD não é criado. O Apache Kafka foi desenvolvido utilizando a linguagem Java e Scala, não Python. Código da questão: 48978 5) I. O framework Apache Spark Streaming tem suporte para outras ferramentas de armazenamento de Big Data como o Cassandra e MongoDB e Apache Kafka. II. Os principais recursos do Apache Kafka são as mensagens. Cada mensagem em Kafka consiste em uma chave, um valor e data/hora. Todos os eventos podem ser resumidos em mensagens, sendo consumidas e produzidas através de tópicos. III. O Elasticsearch é uma ferramenta de distribuição gratuita e utilizada para realização de buscas e análise de dados em grandes volumes de dados. Para sua instalação, é necessária a instalação de uma JVM (Java Virtual Machine). IV. Para fazer a integração do Elasticsearch com Apache Spark, é necessário fazer o download do conector/adaptador chamado elasticsearch-hadoop, podendo ser feito via comando pip install elasticsearch-hadoop. Assinale a alternativa correta. Alternativas: • Todas as afirmações estão corretas. • I - III - IV. • I - II - III. checkCORRETO • I - IV. • Apenas IV. Resolução comentada: Para fazer a integração do Elasticsearch com Apache Spark é necessário fazer a instalação do elasticsearch-hadoop, porém até o momento não é possível fazer via comando pip install. Portando, a opção IV é falsa e todas as demais são corretas. Código da questão: 48979 6) Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes ferramentas para mineração e análise de dados para computação científica em Python. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: • aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn. • aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib. • aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib. • aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn. • aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. checkCORRETO Resolução comentada: Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser obrigatoriamenterotulado. Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma grande variedade de eficientes ferramentas para mineração e análise de dados. Já a biblioteca matplotlib contém funções com foco na visualizações dos dados. Código da questão: 48966 7) Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas, considere as seguintes afirmações: I. A API do Pandas contém funções para obter informações de páginas HTML, através das funções read_html e to_html. II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de um objeto DataFrame. São verdadeiras: Alternativas: • I - III - IV. CORRETO • II - III - IV. • I - II - III. checkINCORRETO • I - III. • Todas as afirmações. Resolução comentada: Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. Portanto, a alternativa II é falsa. A função show é usada para plotar um gráfico e não visualizar as linhas de um arquivo. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. Portanto, a alternativa III é verdadeira. Código da questão: 48957 8) Organização e visualização dos dados são tarefas essenciais para a área de ciência de dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens, diagramas, histogramas, gráficos ou animação para melhor representar a informação. Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem (ROUGIER, 2019). O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados manipulados no Pandas são frequentemente usados para trabalhar com análises estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn (MCKINNEY, 2019). Fontes: MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit. Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019. ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em: 28 out. 2019. Analise as seguintes afirmações, indicando aquelas verdadeiras: I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas em arquivo MS Excel. II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots). III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos da linha, legendas ou eixos. IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet (ODS). Alternativas: • II - III - IV. • I -, III - IV. checkCORRETO • Todas as afirmações são verdadeiras.. • I - II - IV. • Apenas III. Resolução comentada: A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto a opção II é falsa. Código da questão: 48959 9) Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de imagens e processamento de dados em streaming e em batch. II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(). III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de programação Scala, mas recebem funções do Python e retornam os tipos de coleção do Python. IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode ser transformado. São verdadeiras: Alternativas: • I - II - III. • II - III - IV. checkCORRETO • Apenas II. • Todas as afirmações. • Apenas I. Resolução comentada: O Apache Spark não contém API para processamento de imagens, portanto a opção I é falsa. Código da questão: 48977 10) A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na __________, os valores das medidas: moda, mediana e média são iguais. Assinale a alternativa que completa adequadamente as lacunas acima: Alternativas: • Moda; variância; desvio padrão; distribuição normal. checkCORRETO • Moda; variância; histograma; distribuição normal. • Moda; correlação; desvio padrão; distribuição positiva. • Média; variância; desvio padrão; distribuição positiva. • Média; correlação; desvio padrão; distribuição negativa. Resolução comentada: A moda é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Já a variância é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na distribuição normal o valor da moda, mediana e média são iguais. Código da questão: 48961
Compartilhar