Baixe o app para aproveitar ainda mais
Prévia do material em texto
Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico) 1) 2) 3) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma de __________, mas também no formato de computação __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: Código da questão: 48941 O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações. Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir: ( ) Otimização de operações para grafos. ( ) Suporte para funções que vão além do Map e Reduce. ( ) Disponibiliza um Shell interativo para as linguagens Python e Scala. ( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados. ( ) O Spark não suporta armazenamento de dados distribuídos. Alternativas: Código da questão: 48947 Estatística e probabilidade são extremamente importantes para trabalhar na área de ciência de dados, assim como em outras áreas, como medicina, ciências biológicas, psicologia, engenharia, computação etc. Sobre Estatística, Probabilidade e Python, assinale a alternativa correta. Alternativas: API’s - software – online. Documentações – algoritmo único – evolutiva. Informações – grafos – paralela. API’s – servidor autônomo – distribuída. CORRETO Tecnologias – programação assíncrona – distribuída. F – V – V – V – V. V – F – V – V – V. F – F – V – V – F. F – V – F – V – F. V – V – V – V – F. CORRETO O desvio padrão é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade. A estatística é a área responsável pela coleta, organização e interpretação de dados experimentais e pela extrapolação dos resultados da amostra para a população. A estatística é uma área da matemática que estuda as chances de ocorrência de um determinado experimento ou evento. INCORRETO A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, bem como para a realização de testes e a exploração de dados estatísticos. 4) 5) 6) Código da questão: 48960 Sobre os conceitos de machine learning, considere as seguintes afirmações: I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas. II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo. III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters. IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides. São verdadeiras: Alternativas: Código da questão: 48967 A organização e visualização dos dados pode ser usada no processo de tomada de decisão em empresas. Através de inspeção e análises visuais é possível identificar novos padrões ou anormalidades nos dados. Sobre visualização de dados em Python, Matplotlib e Pandas, assinale a alternativa correta: Alternativas: Código da questão: 48955 Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica. Com relação a essas características, podemos afirmar sobre Python: I. DataFrames estão disponíveis na biblioteca Pandas. II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas. III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes. IV. O DataFrame tem três componentes principais: dados, índice e colunas. V. DataFrame não possibilita a exclusão de colunas. São verdadeiras: A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua instalação. Apenas I. Apenas III. II - III - IV. CORRETO I - III - IV. Todas as afirmações. A função Matplotlib.pyplot.setProperties é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos das linhas, legendas ou eixos. A API do Pandas contém funções para obter informações de páginas HTML. CORRETO Matplotlib.pyplot é uma coleção de funções com sintaxe parecida com a linguagem de programação MATLAB. O Matplotlib foi desenvolvido utilizando o MATLAB, portanto, é necessária a instalação do MATLAB e do Python. Objetos DataFrames e Series são as principais estruturas de dados da biblioteca Matplotlib. A API Pandas não tem suporte para a estrutura de dados dicionário do Python. 7) 8) 9) Alternativas: Código da questão: 48952 O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho. Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados? Alternativas: Código da questão: 48939 Big Data significa grande volume de dados. Esses dados são criados e armazenados pelas mídias sociais, aplicativos de negócios e telecomunicações; vários outros domínios estão levando à formação de Big Data. O Apache Spark é um framework que fornece APIs para análise e processamento de Big Data. Sobre Big Data e Apache Spark, assinale a alternativa correta. Alternativas: Código da questão: 48970 Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de imagens e processamento de dados em streaming e em batch. II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(). III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de programação Scala, mas recebem funções do Python e retornam os tipos de coleção do Python. IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode ser transformado. São verdadeiras: I - II. I - III - IV - V. I - III - IV. CORRETO V. IV - V. Compartilhando dados em memória através de grafos direcionais acíclicos. Obtendo resultados intermediários e os armazenando diretamente em disco. Movendo os dados durante seu processamento. Utilizando a estrutura HDFS padrão do Hadoop. INCORRETO Contendo poucas bibliotecas e pouca diversidade de ferramentas. O Apache Spark é um framework para processamento Big Data e tem como suporte para diversos formatos de dados (não-estruturado, semiestruturado e estruturado).CORRETO Os dados são classificados em semi-estruturados e estruturados e podemos extrair informações desses dados utilizando o framework Apache Spark. Velocidade é a principal característica do Big Data e refere-se à velocidade na distribuição dos dados. Logs de servidores e aplicativos; imagens e vídeos gerados pela câmera de segurança são exemplos de dados semi-estruturados. O Apache Spark é um framework para processamento Big Data e tem como principais características: velocidade no processamento de grande volume de dados tem suporte para diversos tipos de linguagem de programação como Python, Java, R, Scala e C. 10) Alternativas: Código da questão: 48977 Alternativas: Código da questão: 48964 II - III - IV. Apenas I. I - II - III. Todas as afirmações. INCORRETO Apenas II. III - IV. Apenas I. I - II - IV. INCORRETO Apenas III. Todas as afirmações são verdadeiras. Arquivos e Links
Compartilhar