Prévia do material em texto
MACHINE LEARNING – a2 Questão 1 Existem diversas classificações das tarefas da Mineração de Dados. Alguns autores dividem as tarefas de Mineração de Dados em preditivas e descritivas. Outros autores dividem as tarefas de Mineração de Dados em classificação e regressão; mineração de padrões frequentes, associações e correlações, análise de agrupamentos e estudos sobre outliers. Sobre os modelos e técnicas de aprendizado preditivo e descritivo, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) As técnicas de aprendizado preditivo tem por objetivo desenvolver modelos e gerar conhecimento a partir de bases de dados e experiências anteriores que possam ser utilizadas no futuro. II. ( ) Tarefas descritivas seguem o paradigma de aprendizado não supervisionado, de tal forma que busca-se uma função a qual, a partir de dados passados ou de treinamento, permita sua utilização para prever valores no futuro ou a previsão de um rótulo. III. ( ) Algoritmos de aprendizado preditivo estão associados à hipótese por indução, seguindo o paradigma de aprendizado não supervisionado e buscando regras de associação que relacionam um grupo de atributos a outro grupo de atributos. IV. ( ) As tarefas preditivas são divididas em tarefas de classificação e regressão. As tarefas de classificação são chamadas de predição discreta e as tarefas de regressão são chamadas de predição contínua. Assinale a alternativa que apresenta a sequência correta. d. V, F, F, V. Questão 2 Na etapa de mineração de dados, são utilizados algoritmos com capacidade de aprender a partir de exemplos (ou aprendizado indutivo). A aprendizagem de máquina pode seguir um paradigma de aprendizagem supervisionada ou um paradigma de aprendizagem não supervisionada. Nos dois casos, são utilizadas ferramentas matemáticas e estatísticas para implementar tais paradigmas. A respeito do aprendizado supervisionado e não supervisionado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) No aprendizado supervisionado, o analista está de posse de um conjunto de objetos em que os valores resposta (ou saídas) são conhecidos. Alternativamente, o analista possui informações sobre o comportamento esperado pelo sistema. II. ( ) No aprendizado não supervisionado, nós temos rótulos (labels) associados com os valores de saída da variável resposta. III. ( ) Um exemplo de algoritmo utilizado na aprendizagem não supervisionada é a regressão linear. IV. ( ) Como exemplo de algoritmo de aprendizagem não supervisionada podemos citar a clusterização. Na clusterização, esperamos classificar objetos a partir de seus atributos. Por exemplo, esperamos classificar espécies de plantas a partir do tamanho das sépalas e das pétalas. Assinale a alternativa que apresenta a sequência correta. a. V, F, F, V. Questão 3 O R é uma linguagem orientada a objetos, desenvolvida pelo neozelandês Ross Ihaka e pelo canadense Robert Gentleman a partir de um projeto de pesquisa na Universidade de Auckland, na Nova Zelândia. O R está inserido no Projeto GNU e vem sendo desenvolvido a partir de trabalho colaborativo por um grupo que se denomina R Core Team. Nesse sentido, sobre o software R é correto afirmar que: d. Para ler dados de uma tabela csv no R, podemos usar o comando read.table(). Esse comando já vem instalado no Rbase. Questão 4 A linguagem R é uma linguagem orientada a objetos, de código livre, de acesso gratuito e com uma comunidade mundial (e brasileira) de colaboradores que desenvolve os chamados pacotes (packages) voltados à resolução de problemas específicos da Estatística, Ciência de Dados e Machine Learning. Em maio de 2021, a linguagem R possuía mais de 17.000 pacotes em seu repositório oficial. THE R Project for Statistical Computing. R-project, [2021]. Disponível em: https://www.r-project.org/. Acesso em: 10 jun. 2021. Considere a utilização do software R para aplicar o algoritmo k-médias a um conjunto de dados e assinale a alternativa correta. e. O k-médias tem como uma de suas principais características trabalhar por meio de técnica de refinamento iterativo. Questão 5 A tarefa de classificação é a tarefa que possui a maior quantidade de algoritmos na Mineração de Dados. Na classificação, pretende-se determinar a classe de um objeto em uma base de dados. Os algoritmos de agrupamento pretendem particionar um conjunto de dados em k grupos. Como exemplos de algoritmos de agrupamento, temos o k-médias, o k-medoid, o DBSCAN e o Hierárquico. A respeito da classificação, agrupamento, predição discreta e contínua, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) Um exemplo de predição contínua é prever, com base em características do viajante (sexo, renda familiar, posse de automóvel), se ele vai utilizar automóvel (transporte individual) ou ônibus (transporte coletivo). II. ( ) Algoritmos de agrupamento caracterizam-se por agruparem os dados por similaridade. São exemplos recorrentes de aprendizado não supervisionado. III. ( ) As árvores de decisão constituem uma das mais difundidas famílias de classificadores. A classificação é considerada predição discreta. IV. ( ) Tarefas de classificação podem ser consideradas como casos particulares de uma estimação na qual a variável resposta é discreta. Assim, qualquer algoritmo de estimação pode ser utilizado na classificação. Assinale a alternativa que apresenta a sequência correta. b. F, V, V, V. Questão 6 A análise de componentes principais é uma técnica na qual um conjunto de variáveis é reescrito por meio de transformações lineares em outro conjunto de variáveis que recebe o nome de componentes principais. O propósito da PCA é reduzir a dimensão da massa de dados, mas reduzindo, ao máximo, a perda de informação. Em relação à técnica PCA, considere as afirmações a seguir. I. ( ) A PCA é uma técnica que utiliza álgebra de Lie e, portanto, apresenta elevado custo computacional. II. ( ) A técnica de PCA pode ser aplicada exclusivamente a bases de dados com duas dimensões. III. ( ) PCA tem como uma de suas características permitir a identificação de padrões ocultos nos dados. IV. ( ) A PCA implementa uma correlação entre as variáveis. Assinale a alternativa que apresenta a sequência correta. b. F, F, V, V. Questão 7 Na análise preditiva, pretendemos descobrir relações entre objetos de um conjunto de dados descritos por atributos (características) e os rótulos associados a tais objetos. Na análise de agrupamentos, temos um processo que busca descobrir relações entre objetos de um conjunto de dados descritos por atributos (ou características). Tanto a análise preditiva quanto a análise de agrupamentos possuem relações, cada uma delas, com aprendizado supervisionado e não supervisionado. Sobre as características dos aprendizados supervisionado e não supervisionado, assinale a alternativa correta. d. No aprendizado não supervisionado, o algoritmo deve aprender a categorizar os objetos. O algoritmo deve partir de um conjunto de dados sem rótulos e classificar os objetos a partir de seus atributos. Questão 8 Dentre as tarefas mais utilizadas na mineração de dados estão a regressão, a classificação e as tarefas de agrupamento. Tanto na classificação quanto no agrupamento existem várias famílias de algoritmos, cada uma com suas características próprias. A tarefa de classificação é a tarefa da mineração de dados que possui maior família de algoritmos. A respeito das diferenças entre classificação e agrupamento, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) Na clusterização, buscamos agrupar os dados em categorias de objetos similares. A clusterização é uma técnica não supervisionada. II. ( ) Na classificação, a base não é rotulada. A tarefa dos algoritmos de classificação é identificar a classe à qual pertence um novo objeto ainda não apresentado e com rótulo conhecido. III. ( ) Uma dasaplicações da clusterização seria segmentar a base de clientes, a partir de atributos como idade, sexo ou faixa de renda, entre clientes com maior probabilidade de adquirir o produto X (de menor preço) e clientes com maior probabilidade de adquirir o produto Y (de maior preço). IV. ( ) Dentre os algoritmos de agrupamentos mais usados, citamos: k-médias, DBSCAN e k-medoides. Assinale a alternativa que apresenta a sequência correta. d. V, F, V, V. Questão 9 Enquanto nos algoritmos classificadores temos um atributo (classe) para o qual devemos efetuar a previsão a partir dos outros atributos, nos algoritmos de agrupamento não existe esse atributo ou classe. Assim, os dados nesse tipo de situação não apresentam uma característica que constitua o objetivo de previsão. Considerando os algoritmos fuzzy k-médias, k-médias e medoide, e métodos baseados em particionamento, assinale a alternativa correta. d. O algoritmo fuzzy k-médias é uma extensão do algoritmo k-médias, sendo que, no algoritmo fuzzy k-médias, um objeto pode pertencer a mais de um grupo.