Baixe o app para aproveitar ainda mais
Prévia do material em texto
Lista de exercícios 01 Tópicos Especiais: Aprendizado de Máquina 22/04/2014 Entregar em: 14/05/2014 Alguns exercícios serão selecionados para serem resolvidos em sala por alunos que serão sorteados na hora. Obs.: As menções a capítulos abaixo são do livro “Introduction to Data Mining – Tan, Steinbach, and Kumar”. 1) No slide 40 da aula sobre “Data”, capítulo 2, começamos a análise de qual dos atributos: Refund ou Marital status teria mais relevância com relação à classe. Para isto, utilizamos o método Information Gain. O ganho para o atributo Refund já foi calculado. Continue os cálculos. Calcule o ganho para o atributo Marital status e conclua qual dos dois atributos traz mais informação com relação à classe. 2) Para os seguintes vetores, x e y, calcule a medida de similaridade ou distância indicada: a) x = (1,1,1,1), y = (2,2,2,2) cosseno, correlação, Euclideana. b) x = (0,1,0,1), y = (1,0,1,0) cosseno, correlação, Euclideana, Jaccard. c) x = (0,-1,0,1), y = (1,0,-1,0) cosseno, correlação, Euclideana. d) x = (1,1,0,1,0,1), y = (1,1,1,0,0,1) cosseno, correlação, Jaccard. e) x = (2,-1,0,2,0,-3), y = (-1,1,-1,0,0,-1) cosseno, correlação. 3) Capítulo 4, exercício 2. 4) Capítulo 4, exercício 3. 5) Capítulo 4, exercício 8. 6) Capítulo 4, exercício 9. 7) No slide 84 da aula referente ao capítulo 4, mostramos um conjunto de treinamento com 10 instâncias e suas classes. Também mostramos uma coluna que é a probabilidade que um modelo, M1, que fora treinado produziu para cada instância. Imagine que resolvemos testar um outro método de classificação no mesmo conjunto de dados e, desta vez, as respostas do modelo resultante, M2, foram como na tabela abaixo. Se considerarmos um valor de probabilidade discriminante de 0.5, já dá para ver, através da acurácia, que M2 parece ser melhor. Corrobore esta afirmação plotando a curva ROC para M2. Plote as duas curvas juntas, a que foi mostrada no slide 85 e a que vai construir a partir das respostas abaixo, e constate que a área sob a curva ROC (AUC – Area Under the Curve) de M2 é maior que a área sob a curva ROC de M1. 8) No exemplo dado no slide 92 da aula referente ao capítulo 4, vimos que um modelo M1 deu uma taxa de erro (proporção de instâncias incorretamente classificadas) de 0.15 em um conjunto de dados de 30 instâncias, enquanto que outro modelo M2 deu uma taxa de erro de 0.25 em um conjunto de dados de 5000 instâncias. Olhando os valores absolutos, parece-nos que M1 é superior. No entanto, a pergunta é: será que esta diferença é real ou é mera flutuação ao acaso? Veja que estes valores podem ser considerados estimadores dos valores reais das taxas de erro, mas não necessariamente serão iguais a estes. Assim, é interessante calcular um intervalo de confiança para cada um. Se constatarmos que os intervalos não têm interseção, podemos concluir que estas taxas são mesmo distintas e pegamos o modelo que nos dá o menor erro como sendo significativamente melhor que o outro. Alternativamente, podemos fazer como no exemplo, ou seja, calculamos a diferença das taxas de erro. Se for zero, então não há diferença de um método para outro. No entanto, pode não ser exatamente zero por mera flutuação ao acaso. Usando o mesmo raciocínio anterior, podemos calcular um intervalo de confiança desta diferença. Se o intervalo não contiver o valor zero, então há grande chance da diferença ser estatisticamente significante e, da mesma forma que antes, pegamos o classificador que dá a menor taxa como sendo o de performance superior. No exemplo do slide, não pudemos concluir que M1 é superior a M2 (que é o que parecia a princípio olhando-se os valores absolutos de erro), pois o intervalo de confiança para a diferença incluía o valor zero. Agora que revimos a ideia por trás do exemplo, suponha que temos um conjunto de dados com 200 instâncias e usamos dois métodos de classificação distintos no mesmo conjunto, obtendo como resultado dois modelos M1 e M2. Agora gostaríamos de saber, baseado nas taxas de erro, se há superioridade de algum. Imagine que M1 tenha produzido uma taxa de erro e1 = 0.08 e M2 resultou numa taxa de erro e2 = 0.15. Olhando o valor absoluto, M1 parece ser superior. Tarefa: veja se esta diferença de taxa de erro é estatisticamente significante, utilizando o método mostrado no slide. Considere, da mesma forma, uma confiança de 95% (Z = 1.96) para o cálculo do intervalo. Instance P(+|A) True class 1 1.00 + 2 0.90 + 3 0.10 - 4 0.05 - 5 0.75 - 6 0.87 + 7 0.30 - 8 0.53 + 9 0.41 - 10 0.38 +
Compartilhar