Prévia do material em texto
Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Yuri Vasconcelos de Almeida Sá (Especialização) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. Ressaltamos que a nota para aprovação nesta disciplina é 7,0 (sete) e será adquirida exclusivamente por meio da realização desta avaliação virtual. Seu certificado será emitido após a aprovação em todas as disciplinas do curso. Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações: I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens. II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R. III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado. IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica). São verdadeiras: Alternativas: II - III - IV. Todas as afirmações. II - III. Apenas I. Apenas III. CORRETO Código da questão: 48972 A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos arquivos de logs de servidores e/ou dispositivos aos dados do sensor, os cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações simultaneamente. Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. Alternativas: Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis. A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch. CORRETO A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R. No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros. Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream(). Resolução comentada: Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas. A API SQL Spark tem suporte para dados semiestruturados e estruturados, portanto a opção II também é falsa. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado, portando a opção III é correta. Resolução comentada: No processamento em batch ocorre a análise dos dados que já foram armazenados por um tempo, portanto a alternativa a. é falsa. Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados mais importante no PySpark; uma característica importante dos RDDs é que são objetos imutáveis, portanto a alternativa b. é falsa. 3) 4) 5) Código da questão: 48975 Sobre os conceitos de machine learning, considere as seguintes afirmações: I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas. II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo. III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters. IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides. São verdadeiras: Alternativas: Apenas I. Todas as afirmações. INCORRETO Apenas III. II - III - IV. I - III - IV. Código da questão: 48967 A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto geral. No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados? Alternativas: Scikit Learn. PyTorch, Keras. Numpy, Scipy e Pandas. CORRETO Matplotlib, Plotly. XGBoost, LightGBM, CatBoost. Código da questão: 48949 A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na __________, os valores das medidas: moda, mediana e média são iguais. Assinale a alternativa que completa adequadamente as lacunas acima: A API Apache Spark Streaming não tem suporte para a linguagem de programação R, portanto a alternativa c. é falsa. Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é falsa. Resolução comentada: A afirmação I é falsa, pois o aprendizado de máquina supervisionado (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados e é obrigatório rotular o conjunto de dados de entrada. Todas as demais afirmações são verdadeiras. Resolução comentada: As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e de manipulação de dados que permitem a limpeza e organização dos dados antes de qualquer tarefa de processamento. 6) 7) Alternativas: Média; correlação; desvio padrão; distribuição negativa. Moda; variância; desvio padrão; distribuição normal. CORRETO Média; variância; desvio padrão; distribuição positiva. Moda; correlação; desvio padrão; distribuição positiva. Moda; variância; histograma; distribuição normal. Código da questão: 48961 Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes ferramentas para mineração e análise de dados para computação científica em Python. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib. aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib. aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. CORRETO aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn. aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn. Código da questão: 48966 O __________ é uma representação da distribuição de frequências (ocorrências)de um determinado valor em um conjunto de dados. Essa representação gráfica pode ser exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes. Existem duas estruturas de dados principais na Biblioteca pandas: __________ e __________. É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: Histograma; DataFrame; Series; savefig. CORRETO Gráfico; DataFrame; RDD; savefig. Gráfico; DataFrame; Series; export. diagrama; DataSet; RDD; saveplot. Histograma; DataFrame; RDD; savefig. Resolução comentada: A moda é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Já a variância é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme. Na distribuição normal o valor da moda, mediana e média são iguais. Resolução comentada: Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser obrigatoriamente rotulado. Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma grande variedade de eficientes ferramentas para mineração e análise de dados. Já a biblioteca matplotlib contém funções com foco na visualizações dos dados. Resolução comentada: O histograma é uma representação da distribuição de frequências (ocorrências) dos dados. A representação gráfica pode ser 8) 9) Código da questão: 48956 I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver problemas complexos em diversas áreas do conhecimento (engenharia, psicologia, medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas para reconhecimento facial e aplicações para segurança em diversos países. II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a IA e machine learning. 06/03/2018. Disponível em: https://computerworld.com.br/brandpost /tecnologia-de-reconhecimento-facial-movida-ia-e-machine-learning/. Acesso em: 13 nov. 2019). III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações desenvolvidas utilizando inteligência artificial. IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um grupo de homens em Datta Khel, no Paquistão, que estavam em assembleia para resolver um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017. Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a- inteligencia-artificial.ghtml. Acesso em: 13 nov. 2019). Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas. Alternativas: A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos para confirmação para a terceira. CORRETO A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira. A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para confirmação para a terceira. A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira. A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da primeira e a quarta são citados exemplos para confirmação para a terceira. Código da questão: 48969 Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas. ( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255. ( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta. Alternativas: F – F – V – V. V – F – F – V. V – V – F – V. INCORRETO exibida por colunas ou em barras de um conjunto de dados previamente tabulados e divididos em classes uniformes ou não uniformes. Existem duas estruturas de dados principais na Biblioteca pandas: DataFrame e Series. É possível exportar as plotagens (gráfico, diagrama, histograma) desenvolvidas em Matplotlib, utilizando a função savefig(). Resolução comentada: A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados dois exemplos para confirmação da terceira asserção. 10) F – V – V – F. V – V – F – F. Código da questão: 60241 Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica. Com relação a essas características, podemos afirmar sobre Python: I. DataFrames estão disponíveis na biblioteca Pandas. II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas. III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes. IV. O DataFrame tem três componentes principais: dados, índice e colunas. V. DataFrame não possibilita a exclusão de colunas. São verdadeiras: Alternativas: V. IV - V. I - II. I - III - IV. CORRETO I - III - IV - V. Código da questão: 48952 Resolução comentada: Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a terceira afirmação é falsa. A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Portanto, a quarta afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. Resolução comentada: DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além disso, é composto basicamente por três elementos que são: seus dados armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de diferentes tipos. Prazo de agendamento: 02/08/2021 - 31/01/2022 CódigoAvaliação: 21848616 Arquivos e Links