Baixe o app para aproveitar ainda mais
Prévia do material em texto
28/12/2022 20:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 1/6 Linguagens de programação para ciência de dados (Python com Spark) Professor(a): Marcelo Tavares De Lima (Mestrado acadêmico) 1) 2) Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova! O Spark vem ganhando grande notoriedade e aumento de sua utilização, isso acontece porque ele tem alta taxa de escalabilidade e desempenho. Como o Spark agiliza a execução de tarefas sobre o mesmo conjunto de dados? Alternativas: Obtendo resultados intermediários e os armazenando diretamente em disco. Compartilhando dados em memória através de grafos direcionais acíclicos. CORRETO Contendo poucas bibliotecas e pouca diversidade de ferramentas. Movendo os dados durante seu processamento. Utilizando a estrutura HDFS padrão do Hadoop. Código da questão: 48939 Além da criação manual de Dataframes através de listas é possível criar Dataframes importando dados de arquivos, como, por exemplo, arquivos CSV que são muito utilizados para armazenamento de dados em formato texto. Assinale como verdadeira (V) ou falsa (F) as características mencionadas a seguir: ( ) O comando read_csv importa dados de um arquivo para uma estrutura de um Dataframe. ( ) A importação de dados exige que todas as colunas de dados sejam de um mesmo tipo. ( ) É possível criar funções lambda para a formatação de colunas do Dataframe. ( ) Após a utilização de um Dataframe é possível exportá-lo no formato CSV através do comando to_csv. ( ) Além de comando para exportação CSV é possível exportar arquivos de formato de MS Excel. Alternativas: F – V – F – V – F. V – F – V – V – V. CORRETO V – V – V – V – F. F – F – V – V – F. F – V – V – V – V. Código da questão: 48954 Resolução comentada: O compartilhamento de dados em memória possibilita a otimização e agiliza o processamento dos dados, isso acontece pois acaba evitando a persistência dos dados em disco e o tráfego dos dados em rede, que são gargalos que podem causar lentidão. Resolução comentada: O Dataframe realiza leitura de arquivo CSV através do comando read_csv. É possível realizar a exportação para CSV através do comando to_csv e ainda existe a possibilidade de exportação para arquivo no formato MS Excel, além de não exigir que as colunas de dados possuam um mesmo tipo 28/12/2022 20:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 2/6 3) 4) Os modelos de aprendizado de máquina são algoritmos que automatizam tarefas de tomada de decisão, a partir de rótulos ou atributos pré-determinados. Nesta configuração, esse modelo é conhecido como ________________ , ou seja, o usuário fornece ao algoritmo entradas (atributos ou rótulos) ___________e saídas desejadas, e o algoritmo irá aprender a melhor maneira de produzir a saída solicitada. No aprendizado de máquinas _________________, apenas os dados de entrada são conhecidos e nenhuma informação sobre a saída é fornecida ao algoritmo. A biblioteca __________ contém uma grande variedade de eficientes ferramentas para mineração e análise de dados para computação científica em Python. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: aprendizado não-supervisionado; não-rotuladas; supervisionado; Matplotlib. aprendizado supervisionado; rotuladas; não supervisionado; scikit-learn. CORRETO aprendizado não-supervisionado; não-rotuladas; supervisionado; scikit-learn. aprendizado não-supervisionado; não-rotuladas; não supervisionado; scikit-learn. aprendizado supervisionado; não-rotuladas; não supervisionado; Matplotlib. Código da questão: 48966 Sobre os conceitos de machine learning, considere as seguintes afirmações: I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas. II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo. III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters. IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides. São verdadeiras: Alternativas: Apenas III. II - III - IV. CORRETO Todas as afirmações. I - III - IV. Apenas I. Código da questão: 48967 Resolução comentada: Na aprendizagem de máquina supervisionada, o conjunto de dados de entrada devem ser obrigatoriamente rotulado. Uma biblioteca do Python bastante utilizada em machine learning é scikit-learn. O scikit-learn contém uma grande variedade de eficientes ferramentas para mineração e análise de dados. Já a biblioteca matplotlib contém funções com foco na visualizações dos dados. Resolução comentada: A afirmação I é falsa, pois o aprendizado de máquina supervisionado (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados e é obrigatório rotular o conjunto de dados de entrada. Todas as demais afirmações são verdadeiras. 28/12/2022 20:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 3/6 5) 6) Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações: ( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas. ( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais. ( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca. ( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Assinale a alternativa que contenha a sequência correta. Alternativas: F – F – V – V. V – V– F – F. CORRETO V – V – V – F. F – F – F – V. V – F – F – V. Código da questão: 48963 I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver problemas complexos em diversas áreas do conhecimento (engenharia, psicologia, medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas para reconhecimento facial e aplicações para segurança em diversos países. II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a IA e machine learning. 06/03/2018. Disponível em: https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia- e-machine-learning/. Acesso em: 13 nov. 2019). III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações desenvolvidas utilizando inteligência artificial. IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um grupo de homens em Datta Khel,no Paquistão, que estavam em assembleia para resolver um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017. Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia- artificial.ghtml. Acesso em: 13 nov. 2019). Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas. Alternativas: A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da primeira e a quarta são citados exemplos para confirmação para a terceira. A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira. A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos para confirmação para a terceira. CORRETO Resolução comentada: Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação forte. A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. 28/12/2022 20:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 4/6 7) 8) A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para confirmação para a terceira. A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira. Código da questão: 48969 O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam Big Data. Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar processamento de streaming usando operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming fornece uma API com suporte para as linguagens de programação _________, Java e Python. Atualmente muitas empresas usam Apache Spark Streaming na produção de aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, no entanto, a API DStreams é baseada em operações de nível relativamente baixo em objetos _______ ou __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: DStreams; R; Resilient Distributed Dataset (RDD); R; Python. API DataFrames; Java; DataSet; R; Scala. DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python. API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python. CORRETO API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python. Código da questão: 48976 Organização e visualização dos dados são tarefas essenciais para a área de ciência de dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens, diagramas, histogramas, gráficos ou animação para melhor representar a informação. Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem (ROUGIER, 2019). O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados manipulados no Pandas são frequentemente usados para trabalhar com análises estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn (MCKINNEY, 2019). Fontes: MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit. Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em Resolução comentada: A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados dois exemplos para confirmação da terceira asserção. Resolução comentada: Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams e não DataFrames e DataSet. A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte para a linguagem de programação R. A API DStreams é baseada em operações de nível relativamente baixo em objetos Java ou Python. 28/12/2022 20:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 5/6 9) https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019. ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em: 28 out. 2019. Analise as seguintes afirmações, indicando aquelas verdadeiras: I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas em arquivo MS Excel. II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots). III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos da linha, legendas ou eixos. IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet (ODS). Alternativas: II - III - IV. I - II - IV. I -, III - IV. CORRETO Apenas III. Todas as afirmações são verdadeiras.. Código da questão: 48959 Os DataFrames são uma maneira de armazenar dados em formato de tabela de dados que podem ser facilmente visualizadas. Cada linha dessas tabelas corresponde a uma instância do dado, enquanto cada coluna é um vetor que contém dados para uma variável específica. Com relação a essas características, podemos afirmar sobre Python: I. DataFrames estão disponíveis na biblioteca Pandas. II. DataFrames armazenam apenas um tipo de dado, independentemente da quantidade de colunas. III. DataFrames são estruturas de dados rotuladas bidimensionais com colunas de tipos potencialmente diferentes. IV. O DataFrame tem três componentes principais: dados, índice e colunas. V. DataFrame não possibilita a exclusão de colunas. São verdadeiras: Alternativas: I - III - IV - V. IV - V. V. I - II. I - III - IV. CORRETO Código da questão: 48952 Resolução comentada: A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto a opção II é falsa. Resolução comentada: DataFrames estão contidos na biblioteca Pandas e são estruturas bidimensionais que possibilitam a inserção de dados diferentes em cada uma de suas colunas. Além disso, é composto basicamente por três elementos que são: seus dados armazenados, seus índices para acesso rápido e as colunas. Ele armazena dados de diferentes tipos. 28/12/2022 20:57 Cosmos · Cosmos https://kroton.platosedu.io/lms/m/aluno/disciplina/index/2686603/4996102 6/6 10) No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma de __________, mas também no formato de computação __________. Assinale a alternativa que completa adequadamente as lacunas. Alternativas: API’s – servidor autônomo – distribuída. CORRETO Tecnologias – programação assíncrona – distribuída. Documentações – algoritmo único – evolutiva. API’s - software – online. Informações – grafos – paralela. Código da questão: 48941 Resolução comentada: Através do uso de API’s o Spark possibilita o desenvolvimento em diversas linguagens,gerando implementações autônomas ou distribuídas. Arquivos e Links
Compartilhar