Baixe o app para aproveitar ainda mais
Prévia do material em texto
06/10/2022 15:05 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 1/6 Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica. Com relação a essas características, podemos afirmar sobre Python: I. DataFrames estão disponíveis na biblioteca Pandas. II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas. III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes. IV. O DataFrame tem três componentes principais: dados, índice e colunas. V. DataFrame não possibilita a exclusão de colunas. São verdadeiras: Alternativas: I - III - IV. CORRETO I - II. I - III - IV - V. V. IV - V. Código da questão: 48952 A linguagem de programação Python foi criada em 1991, mas só recentemente vem sendo utilizada em grandes proporções. Isso se deve por algumas facilitações e otimizações que a linguagem proporciona no momento do desenvolvimento. Com relação a essas características, podemos afirmar sobre Python: I. Facilita a legibilidade. II. A expressividade da linguagem dificulta no desenvolvimento de algoritmos complexos de Machine Learning. III. Eficiência no gerenciamento de memória. IV. Comunidade muito ativa contribuindo para melhoria de bibliotecas. V. Possibilidade de vários paradigmas de programação. São verdadeiras: Alternativas: I - II. V. IV - V. I - III - IV - V. CORRETO I - II - IV. Resolução comentada: DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além disso, é composto basicamente por três elementos que são: seus dados armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de diferentes tipos. Resolução comentada: 06/10/2022 15:05 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 2/6 3) 4) Código da questão: 48943 Sobre os conceitos de Big Data e Apache Spark e Apache Spark Streaming, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos, aprendizado de máquina (machine learning), processamento de imagens e processamento de dados em streaming e em batch. II. Em Python (PySpark), os objetos DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(). III. PySpark é a biblioteca do Python do Apache Spark. No PySpark, os Resilient Distributed Dataset (RDDs) suportam os mesmos métodos que os equivalentes da linguagem de programação Scala, mas recebem funções do Python e retornam os tipos de coleção do Python. IV. Uma característica importante do RDD é que ele é uma estrutura de dados imutável, ou seja, um objeto cujo estado não pode ser modificado após a criação, mas certamente pode ser transformado. São verdadeiras: Alternativas: Todas as afirmações. Apenas I. I - II - III. Apenas II. II - III - IV. CORRETO Código da questão: 48977 A organização e visualização dos dados pode ser usada no processo de tomada de decisão em empresas. Através de inspeção e análises visuais é possível identificar novos padrões ou anormalidades nos dados. Sobre visualização de dados em Python, Matplotlib e Pandas, assinale a alternativa correta: Alternativas: Objetos DataFrames e Series são as principais estruturas de dados da biblioteca Matplotlib. A API do Pandas contém funções para obter informações de páginas HTML. CORRETO Matplotlib.pyplot é uma coleção de funções com sintaxe parecida com a linguagem de programação MATLAB. O Matplotlib foi desenvolvido utilizando o MATLAB, portanto, é necessária a instalação do MATLAB e do Python. A função Matplotlib.pyplot.setProperties é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos das linhas, legendas ou eixos. A API Pandas não tem suporte para a estrutura de dados dicionário do Python. Apenas a alternativa II está incorreta, pois o Python apresenta diversas vantagens, a expressividade da linguagem facilita o desenvolvimento de algoritmos mais complexos, sendo uma preocupação a menos para o desenvolvedor a dificuldade com a sintaxe da linguagem. Resolução comentada: O Apache Spark não contém API para processamento de imagens, portanto a opção I é falsa. Resolução comentada: A API do Pandas contém funções para obter informações de páginas HTML, através das funções read_html() e to_html(). Matplotlib.pyplot é uma coleção de funções no estilo de comando que fazem o matplotlib funcionar como MATLAB. Para utilizar a API Matplotlib é necessário 06/10/2022 15:05 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 3/6 5) 6) Código da questão: 48955 O __________ é uma representação da distribuição de frequências (ocorrências) de um determinado valor em um conjunto de dados. Essa representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes. Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________. É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: diagrama; DataSet; RDD; saveplot. Gráfico; DataFrame; Series; export. Gráfico; DataFrame; RDD; savefig. Histograma; DataFrame; RDD; savefig. Histograma; DataFrame; Series; savefig. CORRETO Código da questão: 48956 Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas. ( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais. ( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta. Alternativas: F – F – V – V. V – V – V – F. F – F – F – V. V – V– F – F. CORRETO V – F – F – V. apenas a instalação do Python. A função Matplotlib.pyplot.setp() é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos da linha, legendas, eixos etc. A API Pandas tem suporte para a estrutura de dados dicionário do Python, utilizando a estrutura de dados pandas.DataFrames. Objetos DataFrames e Series são as principais estruturas de dados da biblioteca Pandas. Resolução comentada: O histograma é uma representação da distribuição de frequências (ocorrências) dos dados. A representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes. Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e Series. É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizandoa função savefig(). Resolução comentada: 06/10/2022 15:05 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 4/6 7) 8) Código da questão: 48963 I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver problemas complexos em diversas áreas do conhecimento (engenharia, psicologia, medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas para reconhecimento facial e aplicações para segurança em diversos países. II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a IA e machine learning. 06/03/2018. Disponível em: https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia- e-machine-learning/. Acesso em: 13 nov. 2019). III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações desenvolvidas utilizando inteligência artificial. IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um grupo de homens em Datta Khel, no Paquistão, que estavam em assembleia para resolver um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017. Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia- artificial.ghtml. Acesso em: 13 nov. 2019). Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas. Alternativas: A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira. A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos para confirmação para a terceira. CORRETO A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira. A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da primeira e a quarta são citados exemplos para confirmação para a terceira. A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para confirmação para a terceira. Código da questão: 48969 O Apache Spark é uma plataforma de computação em cluster projetada para trabalhar com grande volume de dados (Big Data) de forma simples e eficiente (KARAU, 2015). O projeto Spark foi desenvolvido na linguagem ________ e executa em uma ____________. Além Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação forte. A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Resolução comentada: A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados dois exemplos para confirmação da terceira asserção. 06/10/2022 15:05 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 5/6 9) 10) da API principal do Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning). O Apache Spark contém duas estruturas de dados para trabalhar com coleções distribuídas: ____________ e _____________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: Python; máquina virtual Java; Hashset; ArrayLis.t Java; máquina virtual Java; DataFrame; DataSet. Scala; máquina virtual Java; DataFrame; DataSet. CORRETO Python; máquina virtual Java; DataFrame; ArrayList. Scala; máquina virtual Linux; DataFrame; ArrayList. Código da questão: 48971 Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas. ( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255. ( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta. Alternativas: V – V – F – V. V – V – F – F. CORRETO F – F – V – V. V – F – F – V. F – V – V – F. Código da questão: 60241 Uma das principais estruturas que o Pandas disponibiliza para a utilização são os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim, eles são organizados em __________ e __________, onde cada linha é um registro e cada coluna um campo. Assinale a alternativa que completa adequadamente as lacunas.: Alternativas: Resolução comentada: O Apache Spark foi desenvolvido na linguagem Scala, em 2009, pelo grupo de pesquisa do AMPLab da Universidade de Califórnia – Berkeley, e executado em uma máquina virtual Java (JVM). O Apache Spark contém duas estruturas de dados para trabalhar com coleções distribuídas: DataFrame e DataSet. Resolução comentada: Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a terceira afirmação é falsa. A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Portanto, a quarta afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. 06/10/2022 15:05 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2638812/4666226 6/6 Dataframes; Repositórios; tabular; X; Y. Frames; Frames; organizada; x; y. Dataframes; Dataframes; linear; linhas; colunas. Dataframes; Dataframes; tabular; linhas; colunas. CORRETO Repositórios; Repositórios; linear; colunas; linhas. Código da questão: 48951 Resolução comentada: Os DataFrames têm organização tabular, portanto são organizados em linhas e colunas. Arquivos e Links
Compartilhar