Baixe o app para aproveitar ainda mais
Prévia do material em texto
Lista de exercícios 02 Tópicos Especiais: Aprendizado de Máquina 23/05/2014 Entregar em: 10/06/2014 - Alguns exercícios serão selecionados para serem resolvidos em sala por alunos que serão sorteados na hora. Obs.: As menções a capítulos abaixo são do livro “Introduction to Data Mining – Tan, Steinbach, and Kumar”. • Questões sobre clustering: 1) Considere o seguinte conjunto de exemplos não rotulados: Utilize o algoritmo k-means com k=3 para clusterização deste conjunto de dados. Calcule e mostre a posição dos centroides durante todas as iterações do algoritmo. 2) Capítulo 8, exercício 16 (clustering hierárquico). 3) Aplique o algoritmo DBSCAN para os pontos abaixo. Utilize Eps=1 e MinPts=5. Mostre antes a matriz de distância. Indique os rótulos de cada objeto (core, border ou noise) e os grupos. 4) Execute manualmente iterações do EM na base de dados abaixo, cujas instâncias (10) possuem 1 só atributo e supõe-se haver 2 modelos gaussianos misturados. Para simplificar suponha que já se saiba os desvios padrões de cada distribuição: σ1 = 1.5455 e σ2 = 0.8892. Assim, só é necessário estimar as médias µ1 e µ2 de cada uma. Considere os seguintes valores iniciais para as médias: µ1 = 1e µ2 = 1. 5) Capítulo 8, exercício 23 (avaliando pontos, clusters, e clustering via coeficiente de silhueta). 6) Capítulo 8, exercício 24 (avaliando clustering através de correlação). 7) Capítulo 8, exercício 32 (avaliando clustering através de matriz de similaridade). • Questões sobre classificação: 8) Dado o gráfico abaixo que, para duas dimensões, exibe a classe (cor) para vários exemplos, utilize o método dos k-vizinhos-mais-próximos para classificar o exemplo U. Utilize k=3 e o esquema de votação com pesos, onde o peso de cada vizinho é dado por 1/d2. Objeto x 1 0 2 -1 3 6,5 4 1,5 5 7 6 0,3 7 8,8 8 6 9 4 10 5 9) Capítulo 5, exercício 7 (Naïve Bayes). 10) Capítulo 5, exercício 12 (Redes Bayesianas). 11) Considere o seguinte conjunto de treinamento: Treine um perceptron com este conjunto de dados de acordo com o algoritmo mostrado em sala. Inicialize todos os pesos com 0 e considere uma taxa de aprendizagem de 0.5. Mostre todo o processo iteração a iteração, como está no exemplo passado em sala. 12) Dado o gráfico abaixo que mostra duas possíveis linhas de decisão (linhas sólidas) para separar elementos de duas classes (representadas por cor): a) Quanto é o erro de treinamento das duas linhas de decisão? b) Qual destas linhas generaliza melhor, ou seja, está menos sujeita a overfitting? c) Explique a ideia por trás do método de classificação SVM para buscar a linha de melhor generalização. d) No método SVM, qual é a técnica utilizada quando os dados não são linearmente separáveis? x1 x2 classe 0 0 0 0 1 0 1 0 0 1 1 1
Compartilhar