Buscar

lista1-Aprendizado de Máquina

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Lista de exercícios 01
Tópicos Especiais: Aprendizado de Máquina
22/04/2014
Entregar em: 14/05/2014
Alguns exercícios serão selecionados para serem resolvidos em sala por alunos que serão
sorteados na hora.
Obs.: As menções a capítulos abaixo são do livro “Introduction to Data Mining – Tan, Steinbach,
and Kumar”.
1) No slide 40 da aula sobre “Data”, capítulo 2, começamos a análise de qual dos atributos: Refund
ou Marital status teria mais relevância com relação à classe. Para isto, utilizamos o método
Information Gain. O ganho para o atributo Refund já foi calculado. Continue os cálculos. Calcule o
ganho para o atributo Marital status e conclua qual dos dois atributos traz mais informação com
relação à classe.
2) Para os seguintes vetores, x e y, calcule a medida de similaridade ou distância indicada:
a) x = (1,1,1,1), y = (2,2,2,2) cosseno, correlação, Euclideana.
b) x = (0,1,0,1), y = (1,0,1,0) cosseno, correlação, Euclideana, Jaccard.
c) x = (0,-1,0,1), y = (1,0,-1,0) cosseno, correlação, Euclideana.
d) x = (1,1,0,1,0,1), y = (1,1,1,0,0,1) cosseno, correlação, Jaccard.
e) x = (2,-1,0,2,0,-3), y = (-1,1,-1,0,0,-1) cosseno, correlação.
3) Capítulo 4, exercício 2.
4) Capítulo 4, exercício 3.
5) Capítulo 4, exercício 8.
6) Capítulo 4, exercício 9.
7) No slide 84 da aula referente ao capítulo 4, mostramos um conjunto de treinamento com 10
instâncias e suas classes. Também mostramos uma coluna que é a probabilidade que um modelo,
M1, que fora treinado produziu para cada instância. Imagine que resolvemos testar um outro
método de classificação no mesmo conjunto de dados e, desta vez, as respostas do modelo
resultante, M2, foram como na tabela abaixo. Se considerarmos um valor de probabilidade
discriminante de 0.5, já dá para ver, através da acurácia, que M2 parece ser melhor. Corrobore esta
afirmação plotando a curva ROC para M2. Plote as duas curvas juntas, a que foi mostrada no slide
85 e a que vai construir a partir das respostas abaixo, e constate que a área sob a curva ROC (AUC
– Area Under the Curve) de M2 é maior que a área sob a curva ROC de M1.
8) No exemplo dado no slide 92 da aula referente ao capítulo 4, vimos que um modelo M1 deu uma
taxa de erro (proporção de instâncias incorretamente classificadas) de 0.15 em um conjunto de
dados de 30 instâncias, enquanto que outro modelo M2 deu uma taxa de erro de 0.25 em um
conjunto de dados de 5000 instâncias. Olhando os valores absolutos, parece-nos que M1 é superior.
No entanto, a pergunta é: será que esta diferença é real ou é mera flutuação ao acaso? Veja que estes
valores podem ser considerados estimadores dos valores reais das taxas de erro, mas não
necessariamente serão iguais a estes. Assim, é interessante calcular um intervalo de confiança para
cada um. Se constatarmos que os intervalos não têm interseção, podemos concluir que estas taxas
são mesmo distintas e pegamos o modelo que nos dá o menor erro como sendo significativamente
melhor que o outro. Alternativamente, podemos fazer como no exemplo, ou seja, calculamos a
diferença das taxas de erro. Se for zero, então não há diferença de um método para outro. No
entanto, pode não ser exatamente zero por mera flutuação ao acaso. Usando o mesmo raciocínio
anterior, podemos calcular um intervalo de confiança desta diferença. Se o intervalo não contiver o
valor zero, então há grande chance da diferença ser estatisticamente significante e, da mesma forma
que antes, pegamos o classificador que dá a menor taxa como sendo o de performance superior. No
exemplo do slide, não pudemos concluir que M1 é superior a M2 (que é o que parecia a princípio
olhando-se os valores absolutos de erro), pois o intervalo de confiança para a diferença incluía o
valor zero.
Agora que revimos a ideia por trás do exemplo, suponha que temos um conjunto de dados
com 200 instâncias e usamos dois métodos de classificação distintos no mesmo conjunto, obtendo
como resultado dois modelos M1 e M2. Agora gostaríamos de saber, baseado nas taxas de erro, se
há superioridade de algum. Imagine que M1 tenha produzido uma taxa de erro e1 = 0.08 e M2
resultou numa taxa de erro e2 = 0.15. Olhando o valor absoluto, M1 parece ser superior. Tarefa:
veja se esta diferença de taxa de erro é estatisticamente significante, utilizando o método mostrado
no slide. Considere, da mesma forma, uma confiança de 95% (Z = 1.96) para o cálculo do intervalo.
Instance P(+|A) True class
1 1.00 +
2 0.90 +
3 0.10 -
4 0.05 -
5 0.75 -
6 0.87 +
7 0.30 -
8 0.53 +
9 0.41 -
10 0.38 +

Outros materiais