Baixe o app para aproveitar ainda mais
Prévia do material em texto
20/08/2021 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 1/6 Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico) 1) 2) O Programa de dependência e recuperação (PDR) é a última oportunidade de conquistar a sua APROVAÇÃO na disciplina. A avaliação é realizada eletronicamente, composta por questões objetivas e é permitida a consulta ao material de estudos. Ela tem duração de 30 (trinta) dias corridos para realização e o mesmo formato da AV, ou seja, você tem até três tentativas para “Enviar” as questões, que são automaticamente corrigidas. Boa prova! Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica. Com relação a essas características, podemos afirmar sobre Python: I. DataFrames estão disponíveis na biblioteca Pandas. II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas. III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes. IV. O DataFrame tem três componentes principais: dados, índice e colunas. V. DataFrame não possibilita a exclusão de colunas. São verdadeiras: Alternativas: I - III - IV. CORRETO IV - V. V. I - II. I - III - IV - V. Código da questão: 48952 Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas, considere as seguintes afirmações: I. A API do Pandas contém funções para obter informações de páginas HTML, através das funções read_html e to_html. II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de um objeto DataFrame. São verdadeiras: Alternativas: Todas as afirmações. I - III. I - II - III. I - III - IV. CORRETO II - III - IV. Resolução comentada: DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além disso, é composto basicamente por três elementos que são: seus dados armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de diferentes tipos. Resolução comentada: Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. Portanto, a alternativa II é falsa. A função show é usada para plotar um gráfico e não visualizar as 20/08/2021 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 2/6 3) 4) Código da questão: 48957 A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações simultaneamente. Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. Alternativas: Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream(). No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros. A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch. CORRETO A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R. Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis. Código da questão: 48975 Organização e visualização dos dados são tarefas essenciais para a área de ciência de dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens, diagramas, histogramas, gráficos ou animação para melhor representar a informação. Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem (ROUGIER, 2019). O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados manipulados no Pandas são frequentemente usados para trabalhar com análises estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn (MCKINNEY, 2019). Fontes: MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit. Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019. ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em: 28 out. 2019. linhas de um arquivo. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. Portanto, a alternativa III é verdadeira. Resolução comentada: No processamento em batch ocorre a análise dos dados que já foram armazenados por um tempo, portanto a alternativa a. é falsa. Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados mais importante no PySpark; uma característica importante dos RDDs é que são objetos imutáveis, portanto a alternativa b. é falsa. A API Apache Spark Streaming não tem suporte para a linguagem de programação R, portanto a alternativa c. é falsa. Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é falsa. 20/08/2021 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 3/6 5) 6) Analise as seguintes afirmações, indicando aquelas verdadeiras: I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas em arquivo MS Excel. II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots). III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos da linha, legendas ou eixos. IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet (ODS). Alternativas: I -, III - IV. CORRETO II - III - IV. I - II - IV. Todas as afirmações são verdadeiras.. Apenas III. Código da questão: 48959 Big Data significa grande volume de dados. Esses dados são criados e armazenados pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros domínios estão levando à formação de Big Data. O Apache Spark é um framework que fornece APIs para análise e processamento de Big Data. Sobre Big Data e Apache Spark, assinale a alternativa correta. Alternativas: Velocidade é a principal característica do Big Data e refere-se à velocidade na distribuição dos dados. O Apache Spark é um framework para processamento Big Data e tem como principais características: velocidade no processamento de grande volume de dados tem suporte para diversos tipos de linguagem de programação como Python, Java, R, Scala e C. Logs de servidores e aplicativos;imagens e vídeos gerados pela câmera de segurança são exemplos de dados semi-estruturados. O Apache Spark é um framework para processamento Big Data e tem como suporte para diversos formatos de dados (não-estruturado, semiestruturado e estruturado). CORRETO Os dados são classificados em semi-estruturados e estruturados e podemos extrair informações desses dados utilizando o framework Apache Spark. Código da questão: 48970 Estatística e probabilidade são extremamente importantes para trabalhar na área de ciência de dados, assim como em outras áreas, como medicina, ciências biológicas, psicologia, engenharia, computação etc. Sobre Estatística, Probabilidade e Python, assinale a alternativa correta. Alternativas: Resolução comentada: A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto a opção II é falsa. Resolução comentada: Os dados são classificados em não-estruturados (logs de servidores e aplicativos; imagens e vídeos) semiestruturados (CSV, XML e JSON) e estruturados (banco de dados). O Apache Spark não tem suporte para linguagem de programação C. A propriedade Velocidade (Velocity) em Big Data refere-se à velocidade na qual os dados estão sendo criados, armazenados e atualizados e não na sua distribuição. 20/08/2021 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 4/6 7) 8) A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua instalação. O desvio padrão é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade. A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, bem como para a realização de testes e a exploração de dados estatísticos. A estatística é uma área da matemática que estuda as chances de ocorrência de um determinado experimento ou evento. A estatística é a área responsável pela coleta, organização e interpretação de dados experimentais e pela extrapolação dos resultados da amostra para a população. CORRETO Código da questão: 48960 O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho. Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados? Alternativas: Movendo os dados durante seu processamento. Contendo poucas bibliotecas e pouca diversidade de ferramentas. Utilizando a estrutura HDFS padrão do Hadoop. Obtendo resultados intermediários e os armazenando diretamente em disco. Compartilhando dados em memória através de grafos direcionais acíclicos. CORRETO Código da questão: 48939 O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações. Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir: ( ) Otimização de operações para grafos. ( ) Suporte para funções que vão além do Map e Reduce. ( ) Disponibiliza um Shell interativo para as linguagens Python e Scala. ( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados. ( ) O Spark não suporta armazenamento de dados distribuídos. Alternativas: V – V – V – V – F. CORRETO Resolução comentada: A mediana é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade, portanto a alternativa b é falsa. A biblioteca numpy não faz parte do pacote principal do Python, sendo necessário sua instalação manual. Então a alternativa c é falsa. A biblioteca Statsmodels é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, portanto a alternativa d é falsa. A probabilidade é uma área da matemática que estuda as chances de ocorrência de experimentos são calculadas, então a alternativa e é falsa. Resolução comentada: O compartilhamento de dados em memória possibilita a otimização e agiliza o processamento dos dados, isso acontece pois acaba evitando a persistência dos dados em disco e o tráfego dos dados em rede, que são gargalos que podem causar lentidão. 20/08/2021 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 5/6 9) 10) F – V – F – V – F. V – F – V – V – V. F – V – V – V – V. F – F – V – V – F. Código da questão: 48947 Sobre os conceitos de machine learning, considere as seguintes afirmações: ( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores. ( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning. ( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo. ( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste. ( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. Assinale a alternativa que contenha a sequência correta. Alternativas: V – V – V – F – F. F – V – V – V – F. V – F – V – V – F. V – F – V – F – F. F – F – V – V – F. CORRETO Código da questão: 48968 A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto geral. No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados? Alternativas: Matplotlib, Plotly. Scikit Learn. PyTorch, Keras. Numpy, Scipy e Pandas. CORRETO Resolução comentada: Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados distribuídos. Resolução comentada: O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados. A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab. Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de regressão. 20/08/2021 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2246876/2059366 6/6 XGBoost, LightGBM, CatBoost. Código da questão: 48949 Resolução comentada: As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e de manipulação de dados que permitem a limpeza e organização dos dados antes de qualquer tarefa de processamento. Arquivos e Links
Compartilhar