13-aprendizagem_conceitos_basicos

•
UEM

Marcel William Gomes
24/09/2013
Prévia do material em texto
AGENTES QUE APRENDEM 
 
 
 
Aprendizagem 
¨  Aprendizagem é a capacidade de melhorar seu 
comportamento com base na experiência. 
¤  A variedade de comportamentos é expandida: o agente pode fazer 
mais. 
¤  Melhora a precisão nas tarefas: o agente pode fazer as coisas melhor. 
¤  A velocidade é melhorada: o agente pode fazer coisas mais 
rapidamente. 
Tarefa de aprendizagem Learning task
experiences/
data
background knowledge/
bias
problem/
task
answer/
performance
Learning agent
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.1, Page 3
Agente de Aprendizagem 
¨  É aquele que contém um 
que decide 
que ações executar e; 
¨  Um 
que 
modifica o elemento de 
desempenho para que 
tome ações melhores. 
Arquitetura de aprendizagem Learning architecture
�����
������
����
����	�������������	��
�
��
������
�
����
�������
������
����
�������
�����������
��
������
�	
���������
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.1, Page 4
Representação da Informação 
¨  Também desempenha um papel muito importante na 
determinação de como o algoritmo de aprendizagem deve 
funcionar. 
¨  Os componentes podem ser representados com quaisquer um 
dos esquemas de representação: 
¤  Sentenças lógicas proposicionais 
¤  Sentenças lógicas de primeira ordem 
¤  Redes Semânticas/Frames 
¤  Regras de produção 
¤  Descrições probabilísticas (redes bayesianas) 
¤  ... 
Escolhendo uma representação 
¨  Quanto mais rica a representação, mais útil é para resolução 
de problemas posteriores. 
¨  Quanto mais rica a representação, mais difícil é para 
aprender. 
Conhecimento Anterior 
¨  Quando melhor o conhecimento prévio do domínio, melhor o 
funcionamento do algoritmo indutor. 
¨  Inclui informações a respeito dos valores válidos de atributos, 
critérios de preferência na escolha de atributos, etc. 
Aprendizagem Indutiva 
¨  O objetivo de um é extrair um bom 
classificador a partir de um conjunto de exemplos rotulados. 
¨  A pode ser usada para classificar exemplos 
novos. 
¨  Um pode ser chamado também de , 
ou e é uma que descreve 
o objeto de interesse. 
¨  Um é uma propriedade, ou aspecto, de um 
exemplo. 
Aprendizagem Indutiva 
é um atributo especial que descreve o fenômeno de 
interesse. Também denominado . Podem ser ou 
. 
¨  ou é uma estrutura que permite 
predizer com a maior precisão possível um novo exemplo de 
objeto. 
Aprendizagem Indutiva 
¨  Recebe como entrada o valor correto de uma função 
desconhecida para entradas específicas e tenta recuperar a 
função original. 
¨  Dada uma coleção de exemplos de , retornar uma função 
que se aproxime de f. 
¤  f é a função alvo. 
¤  h é a hipótese. 
¤  (x, f(x)) são exemplos de entrada. 
Aprendizagem Indutiva 
¨  É o ato de construir/ajustar h de forma que ela concorde com f 
no conjunto de treinamento. 
¨  h é se concorda com todos os exemplos dados. 
¨  Uma boa h irá bem – prever corretamente 
exemplos ainda não vistos. 
Aprendizagem Indutiva 
Aprendizagem Indutiva 
Aprendizagem Indutiva 
Lâmina de Ockham 
¨  Como escolher a melhor hipótese de indução dentre as 
diversas disponíveis? 
¨  Prefira a consistente com os 
dados. 
¨  Hipóteses que são mais complexas que os dados estão 
deixando de extrair algum padrão dos dados! 
Aprendizagem Indutiva 
¨  As vezes é melhor ajustar 
uma simples linha reta que 
não seja exatamente 
consistente, mas possa 
fazer previsões razoáveis. 
Aprendizagem Indutiva 
¨  Deve-se ter em mente que a 
 ou 
 de encontrar 
uma hipótese simples e 
consistente depende do 
. 
¨  ax+ b + c sen x 
Problema de aprendizagem realizável 
¨  Um problema de aprendizagem é se o espaço 
de hipótese contém a função verdadeira. 
¤  Isto nem sempre é possível de decidir, pois a função verdadeira não é 
conhecida. 
¨  É importante utilizar para derivar um 
espaço de hipóteses em que sabemos que a função 
verdadeira existe. 
Problema de aprendizagem realizável 
¨  Utilizar o maior espaço de hipóteses possível: 
¤  Por que não H = classe de todas as máquinas de Turing? (já que toda 
função computável pode ser representada por uma máquina de Turing) 
¤  Ajuste de retas é fácil, ajustar polinômios de graus elevados é mais 
difícil e ajustar máquinas de Turing à realidade é muito difícil! 
¨  Por isso, a maior parte do trabalho em aprendizagem se 
concentra em representações simples! 
Feedback 
¨  Tarefas de aprendizagem pode ser caracterizadas pelo 
feedback dado para o aprendiz. 
¤  o que tem de ser aprendido é 
especificado para cada exemplo. 
¤  nenhuma classificação é dada; o 
aprendiz tem de descobrir categorias e regularidades nos dados. 
¤  o feedback ocorre após uma sequência 
de ações. 
Tarefas comuns de aprendizagem 
¨  dado um conjunto de 
exemplos de treinamento pré-classificados, classificar uma 
nova instância. 
¨  encontrar classes 
naturais para exemplos. 
¨  determinar o que fazer com 
base em recompensas e punições. 
¨  raciocinar mais rápido usando a 
experiência da aprendizagem. 
¨  construir modelos mais ricos 
em termos de programas de lógica. 
: Aprendizagem Supervisionada 
1.  Agente aprende a regra condição-ação: 
¤  Função de estados para uma saída booleana (frear ou não). 
¤  O valor correto da saída é dado por um instrutor. 
2.  Agente aprende a reconhecer um ônibus: 
¤  Função a partir de imagens para uma saída booleana (a imagem 
contém ou não o ônibus). 
¤  O valor correto da saída é dado por um instrutor. 
3.  Agente aprende a teoria de frear: 
¤  Função de estados e ações para, por exemplo, a distância de parada. 
¤  A saída está disponível diretamente a partir das percepções do agente. 
: Aprendizagem Não Supervisionada 
¨  O indutor analisa os exemplos fornecidos e tenta determinar 
se alguns deles podem ser agrupados de alguma maneira, 
formando ou . 
¤  Em geral, após o agrupamento é necessário uma análise para 
determinar o que cada agrupamento significa no contexto do 
problema. 
: Quais são as propriedades principais dos clientes? 
(segmentação do mercado) 
: Aprendizagem por Reforço 
¨  Costuma incluir o subproblema de aprender como o ambiente 
funciona. 
¨  Obtém um feedback na forma de quão bem estamos fazendo 
(e não o que deveríamos estar fazendo), isto é, o sistema faz 
uma hipótese lhe dizemos “bom/ruim”. 
¨  Útil para o controle de robôs. 
Dados de exemplo para classificação 
¨  Queremos classificar exemplos novos sobre a propriedade 
 baseado em exemplos , , , 
e . 
  Ação Autor Conversa Comprimento Onde 
e1 pula conhecido nova longa em casa 
e2 lê desconhecido nova curta trabalho 
e3 pula desconhecido antiga longa trabalho 
e4 pula conhecido antiga longa em casa
 
 
e5 lê conhecido nova curta em casa
 
 
e6 pula conhecido antiga longa trabalho 
Mendindo o sucesso 
¨  A não descreve quão bem o agente 
desempenha sobre os exemplos de treinamento, mas quão 
bem o agente desempenha para novos exemplos. 
¨  Considere dois agentes: 
 afirma que os exemplos negativos vistos são os únicos exemplos 
negativos. Todas as outras instâncias são positivas. 
 afirma que os exemplos positivos vistos são os únicos exemplos 
positivos. Todas as outras instâncias são negativas. 
¨  Ambos os agentes classificam corretamente cada exemplo de 
treinamento, mas discordam sobre todos os outros exemplos. 
Viés (Bias) 
¨  A tendência a preferir uma hipótese sobre outra é chamada 
de ( ). 
¨  Dizer que uma hipótese é melhor do que as hipóteses deou 
 não é algo que é obtido a partir dos dados. 
¨  Para que qualquer processo indutivo faça previsões sobre 
dados desconhecidos, você precisa de um viés. 
¨  O que constituí um bom viés é uma questão empírica sobre 
quais vieses funcionam melhor na prática. 
Aprendizagem como busca 
¨  Dada uma representação e um viés, o problema de 
aprendizagem pode ser reduzido a uma busca. 
¨  Aprendizagem é uma busca através do 
 procurando pela representação ou 
representações que melhor se adequam os dados, dado o 
viés. 
¨  Estes espaços de busca normalmente são excessivamente 
grandes para a busca sistemática. Use . 
¨  Um algoritmo de aprendizagem é feito de um espaço de 
busca, uma função de avaliação e um método de busca. 
Ruído 
¨  Dados não são perfeitos: 
¤  Alguns dos atributos tem atribuídos o valor errado. 
¤  Os atributos dados são insuficientes para prever a classificação. 
¤  Há exemplos com ausência de atributos. 
¨  ( ) ocorre quando uma distinção 
aparece nos dados, mas não aparece nos exemplos 
desconhecidos. Isso ocorre por causa de correlações aleatórias 
no conjunto de treinamento. 
Caracterizações de aprendizagem 
¨  Encontrar a melhor representação de acordo com os dados. 
¨  Delinear a classe de representações consistentes de acordo 
com os dados. 
¨  Encontrar uma distribuição de probabilidade das 
representações de acordo com os dados. 
Aprendizado supervisionado 
Dado: 
¤  um conjunto de X1, …, Xn. 
¤  um conjunto de Y1, …, Yk. 
¤  um conjunto de , nos quais os valores para os 
propriedades de entrada e as propriedades de destino são dadas 
para cada exemplo. 
¤  um , no qual apenas os valores para as propriedades de 
entrada são dadas. 
prever os valores para as propriedades de destino do novo 
exemplo. 
¤  quando o Yi são discretos. 
¤  quando o Yi são contínuos. 
Aprendizado supervisionado 
Dado: 
¤  um conjunto de X1, …, Xn. 
¤  um conjunto de Y1, …, Yk. 
¤  um conjunto de , nos quais os valores para os 
propriedades de entrada e as propriedades de destino são dadas 
para cada exemplo. 
¤  um , no qual apenas os valores para as propriedades de 
entrada são dadas. 
prever os valores para as propriedades de destino do novo 
exemplo. 
quando o Yi são discretos. 
quando o Yi são contínuos. 
Avaliando previsões 
¨  Suponha que é um recurso e é um exemplo: 
¤  é o valor da característica F para o exemplo e. 
¤  é o valor previsto da característica F para o exemplo e. 
¤  O da previsão é uma medida de quão perto pval(e, Y) está de 
val(e, Y). 
¤  Existem muitas formas possíveis de erros que podem ser medidos. 
Representações de dados de exemplos 
¨  Um agente de viagens quer prever o tamanho preferido de uma 
viagem de férias, que pode ser de 1 a 6 dias. (Não há 
propriedade de entrada). 
 Duas representações dos mesmos dados (cada Yi é uma 
): 
¨  O que é uma previsão? 
Example Y   Example Y1 Y2 Y3 Y4 Y5 Y6 
e1 1   e1 1 0 0 0 0 0 
e2 6   e2 0 0 0 0 0 1 
e3 6   e3 0 0 0 0 0 1 
e4 2   e4 0 1 0 0 0 0 
e5 1   e5 1 0 0 0 0 0 
Medidas de erro 
 é o conjunto de exemplos. é o conjunto de propriedades de 
destino. 
: 
¨  Erro da soma dos quadrados: 
¨  Erro do pior caso: 
¨  Um erro baseado em custo leva em conta os custos de vários erros. 
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Medidas de erro 
 é o conjunto de exemplos. é o conjunto de propriedades de 
destino. 
: 
: 
¨  Erro do pior caso: 
¨  Um erro baseado em custo leva em conta os custos de vários erros. 
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Medidas de erro 
 é o conjunto de exemplos. é o conjunto de propriedades de 
destino. 
: 
: 
: 
¨  Um erro baseado em custo leva em conta os custos de vários erros. 
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
Measures of error
E is the set of examples. T is the set of target features.
absolute error�
e�E
�
Y�T
|val(e,Y )� pval(e,Y )|
sum of squares error�
e�E
�
Y�T
(val(e,Y )� pval(e,Y ))2
worst-case error :
max
e�E
max
Y�T
|val(e,Y )� pval(e,Y )| .
A cost-based error takes into account costs of various
errors.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8
: Previsões lineares 
¨  P1 minimiza o erro absoluto 
¨  P2 minimiza o erro da soma dos quadrados 
¨  P3 minimiza do erro do pior caso 7.2. Supervised Learning 291
8
7
6
5
5
P1
P2
P3
4
4
3
3
2
2
1
1
0
0Figure 7.2: Linear predictions for a simple prediction example. Filled circles are the
training examples. P1 is the prediction that minimizes the absolute error of the
training examples. P2 is the prediction that minimizes the sum-of-squares error
of the training examples. P3 is the prediction that minimizes the worst-case error
of the training examples. See Example 7.3.
This measure treats large errors as worse than small errors. An error twice
as big is four times as bad, and an error 10 times as big is 100 times worse.
• The worst-case error on E is the maximum absolute error:
max
e∈E
max
Y∈T |val(e,Y)− pval(e,Y)| .
In this case, the learner is evaluated by how bad it can be.
Example 7.3 Suppose there is a real-valued target feature, Y, that is based on
a single real-valued input feature, X. Suppose the data contains the following
(X,Y) points:
(0.7, 1.7), (1.1, 2.4), (1.3, 2.5), (1.9, 1.7), (2.6, 2.1), (3.1, 2.3), (3.9, 7).
Figure 7.2 shows a plot of the training data (filled circles) and three lines, P1, P2,
and P3, that predict the Y-value for all X points. P1 is the line that minimizes
the absolute error, P2 is the line that minimizes the sum-of-squares error, and
P3 minimizes the worst-case error of the training examples.
Lines P1 and P2 give similar predictions forX=1.1; namely, P1 predicts 1.805
and P2 predicts 1.709, whereas the data contain a data point (1.1, 2.4). P3 pre-
dicts 0.7. They give predictions within 1.5 of each other when interpolating in
the range [1, 3]. Their predictions diverge when extrapolating from the data. P1
and P3 give very different predictions for X=10.
The difference between the lines that minimize the various error measures
is most pronounced in how they handle the outlier examples, in this case the
point (3.9, 7). The other points are approximately in a line.
The prediction with the least worse-case error for this example, P3, only
depends on three data points, (1.1, 2.4), (3.1, 2.3), and (3.9, 7), each of which
has the same worst-case error for prediction P3. The other data points could be
Medidas de erro (cont.) 
¨  Quando as propriedades de destino quando são {0,1}: 
( ): 
 o modelo com o maior grau de probabilidade é o modelo com 
 grau de probabilidde máxima ( ) 
¨  : 
Measures of error (cont.)
When target features are {0, 1}:
likelihood of the data⇥
e2E
⇥
Y2T
pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y ))
entropy
�
�
e2E
�
Y2T
[val(e,Y ) log pval(e,Y )+
(1� val(e,Y )) log(1� pval(e,Y ))]
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 9
Measures of error (cont.)
When target features are {0, 1}:
likelihood of the data⇥
e2E
⇥
Y2T
pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y ))
entropy
�
�
e2E
�
Y2T
[val(e,Y ) log pval(e,Y )+
(1� val(e,Y )) log(1� pval(e,Y ))]
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 10
Medidas de erro (cont.) 
¨  Quando as propriedades de destino quando são {0,1}: 
( ): 
 o modelo com o maior grau de probabilidade é o modelo com 
 grau de probabilidde máxima ( ) 
: 
Measures of error (cont.)
When target features are {0, 1}:
likelihood of the data⇥
e2E
⇥
Y2T
pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y ))
entropy
�
�
e2E
�
Y2T
[val(e,Y ) log pval(e,Y )+
(1� val(e,Y )) log(1� pval(e,Y ))]
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 9
Measures of error (cont.)
When target features are {0, 1}:
likelihood of the data⇥
e2E
⇥
Y2T
pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y ))
entropy
�
�
e2E
�
Y2T
[val(e,Y ) log pval(e,Y )+
(1� val(e,Y )) log(1� pval(e,Y ))]
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 10
Tipo de erros na predição 
¨  Um erro , é uma predição positiva que está 
errada. 
¨  Um erro , é uma predição falsa que está 
errada. 
¨  É possível separar as questões sobre o agente ter um bom 
algoritmo de aprendizagem dele fazer uma boa predição 
baseado nas preferencias que estão for a do agente. 
Tipo de erros na predição (sistemas binários) 
 
 
 = tp/(tp + fp) 
 = tp /(tn + fn) à taxa de positivos verdadeiros 
¨  Taxa de = fp / (fp + tn) 
Observação/Predição Positivo verdadeiro Negativo verdadeiro 
Predição positiva Positivo Verdadeiro (tp) Falso positivo (fp) 
Predição negativa Falso negativo (fn) Negativo verdadeiro (tn) 
Curvas para análise de qualidade 
Precisão X Recupração Curva R.O.C. 
Curvas para análise de qualidade 
Estimativas de ponto 
¨  Suponha que exista um único recurso numérico, . Deixe ser os exemplos 
de treinamento. Há uma previsão única para todos os exemplos. 
¤  A previsão que minimiza a soma de em E é a de Y. 
¤  A previsão de que minimiza o é a de Y. 
¤  A previsão de que minimiza o erro do pior caso é (máximo + mínimo)/2. 
¤  Quando Y tem domínio {0, 1}, a previsão que maximiza o grau de probabilidade é 
a probabilidade empírica. 
¤  Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a 
probabilidade empírica. 
¨  Mas isso não significa que essas previsões minimizam o erro para previsões 
futuras. 
Estimativas de ponto 
¨  Suponha que exista um único recurso numérico, . Deixe ser os exemplos 
de treinamento. Há uma previsão única para todos os exemplos. 
¤  A previsão que minimiza a soma de em E é a de Y. 
¤  A previsão de que minimiza o é a de Y. 
¤  A previsão de que minimiza o erro do pior caso é (máximo + mínimo)/2. 
¤  Quando Y tem domínio {0, 1}, a previsão que maximiza o grau de probabilidade é 
a probabilidade empírica. 
¤  Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a 
probabilidade empírica. 
¨  Mas isso não significa que essas previsões minimizam o erro para previsões 
futuras. 
Estimativas de ponto 
¨  Suponha que exista um único recurso numérico, . Deixe ser os exemplos 
de treinamento. Há uma previsão única para todos os exemplos. 
¤  A previsão que minimiza a soma de em E é a de Y. 
¤  A previsão de que minimiza o é a de Y. 
¤  A previsão de que minimiza o é (máximo + mínimo)/2. 
¤  Quando Y tem domínio {0, 1}, a previsão que maximiza o grau de probabilidade é 
a probabilidade empírica. 
¤  Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a 
probabilidade empírica. 
¨  Mas isso não significa que essas previsões minimizam o erro para previsões 
futuras. 
Estimativas de ponto 
¨  Suponha que exista um único recurso numérico, . Deixe ser os exemplos 
de treinamento. Há uma previsão única para todos os exemplos. 
¤  A previsão que minimiza a soma de em E é a de Y. 
¤  A previsão de que minimiza o é a de Y. 
¤  A previsão de que minimiza o é (máximo + mínimo)/2. 
¤  Quando tem domínio {0, 1}, a previsão que maximiza o é 
a . 
¤  Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a 
probabilidade empírica. 
¨  Mas isso não significa que essas previsões minimizam o erro para previsões 
futuras. 
Estimativas de ponto 
¨  Suponha que exista um único recurso numérico, . Deixe ser os exemplos 
de treinamento. Há uma previsão única para todos os exemplos. 
¤  A previsão que minimiza a soma de em E é a de Y. 
¤  A previsão de que minimiza o é a de Y. 
¤  A previsão de que minimiza o é (máximo + mínimo)/2. 
¤  Quando tem domínio {0, 1}, a previsão que maximiza o é 
a . 
¤  Quando tem domínio {0, 1}, a previsão que minimiza a é a 
. 
¨  Mas isso não significa que essas previsões minimizam o erro para previsões 
futuras. 
Estimativas de ponto 
¨  Suponha que exista um único recurso numérico, . Deixe ser os exemplos 
de treinamento. Há uma previsão única para todos os exemplos.¤  A previsão que minimiza a soma de em E é a de Y. 
¤  A previsão de que minimiza o é a de Y. 
¤  A previsão de que minimiza o é (máximo + mínimo)/2. 
¤  Quando tem domínio {0, 1}, a previsão que maximiza o é 
a . 
¤  Quando tem domínio {0, 1}, a previsão que minimiza a é a 
. 
¨  Mas isso não significa que essas previsões minimizam o erro para previsões 
futuras. 
Previsão ótima para classificação binária 
¨  Seja n0 número de exemplo 0 e n1 número de exemplo 1, sem 
propriedades de entrada. 
7.2. Supervised Learning 295
Prediction Measure of Optimal
measure prediction p for prediction for
the training data training data
absolute error n0p+ n1(1− p) median(n0, n1)
sum squares n0p2 + n1(1− p)2 n1n0+n1
worst case
 p if n1 = 01− p if n0 = 0max(p, 1− p) otherwise
 0 if n1 = 01 if n0 = 00.5 otherwise
likelihood pn1(1− p)n0 n1n0+n1
entropy −n1 log p− n0 log(1− p) n1n0+n1
Figure 7.3: Optimal prediction for binary classification where the training data
consist of n0 examples of 0 and n1 examples of 1, with no input features.
median(n0, n1) is 0 if n0 > n1, 1 if n0 < n1, and any value in [0, 1] if n0 = n1.
(b) The absolute error is a piecewise linear function of v. The slope for a value
that is not in V depends on the number of elements greater minus the num-
ber of elements less than that value: v is a minimum if there are the same
number of elements greater than v as there are less than v.
(c) This prediction has an error of (max−min)/2; increasing or decreasing the
prediction will increase the error.
When the target feature has domain {0, 1}, the training examples can be
summarized in two numbers: n0, the number of examples with the value 0,
and n1, the number of examples with value 1. The prediction for each new case
is the same number, p.
The optimal prediction p depends on the optimality criteria. The value of
the optimality criteria for the training examples can be computed analytically
and can be optimized analytically. The results are summarized in Figure 7.3.
Notice that optimizing the absolute error means predicting the median,
which in this case is also the mode; this should not be surprising because the
error is linear in p.
The optimal prediction for the training data for the other criteria is to pre-
dict the empirical frequency: the proportion of 1’s in the training data, namely
n1
n0+n1 . This can be seen as a prediction of the probability. The empirical fre-
quency is often called themaximum-likelihood estimate.
This analysis does not specify the optimal prediction for the test data. We
would not expect the empirical frequency of the training data to be the optimal
prediction for the test data for maximizing the likelihood or minimizing the
entropy. If n0 = 0 or if n1 = 0, all of the training data are classified the same.
However, if just one of the test examples is not classified in this way, the likeli-
hood would be 0 (its lowest possible value) and the entropy would be infinite.
See Exercise 1 (page 342).
Conjuntos de Treinamento e de Teste 
Para avaliar o quão bem um aprendiz funcionará em previsões 
futuras, podemos dividir os exemplos em: 
¤  que são usados para treinar o aprendiz. 
¤  que são usados para avaliar o aprendiz 
... os quais deve ser mantidos separados. 
Aprendendo Probabilidades 
¨  Probabilidades empíricas não criam bons previsores quando avaliadas 
pelo grau de probabilidade (likelihood) ou entropia. 
¨  Por que? Uma probabilidade de zero significa "impossível" e tem custo 
infinito se há um verdadeiro caso no conjunto de teste. 
: Adicione pseudo-contadores (não-negativos) para os dados. 
Suponha que ni é o número de exemplos com X = vi, e ci é o pseudo-
contador: 
¨  Pseudo-contadores transmitem o conhecimento prévio. Considere: "quanto 
mais eu acreditaria vi se eu tivesse visto um exemplo com vi verdadeiro do 
que se eu não tivesse visto exemplos algum com vi verdadeiro?" 
Learning Probabilities
Empirical probabilities do not make good predictors when
evaluated by likelihood or entropy.
Why? A probability of zero means “impossible” and has
infinite cost if there is one true case in test set.
Solution: add (non-negative) pseudo-counts to the data.
Suppose ni is the number of examples with X = vi , and
ci is the pseudo-count:
P(X = vi) =
ci + ni�
i 0 ci 0 + ni 0
Pseudo-counts convey prior knowledge. Consider: “how
much more would I believe vi if I had seen one example
with vi true than if I has seen no examples with vi true?”
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 20
Aprendendo Probabilidades 
¨  Probabilidades empíricas não criam bons previsores quando avaliadas 
pelo grau de probabilidade (likelihood) ou entropia. 
¨  Por que? Uma probabilidade de significa algo "impossível" e tem 
custo infinito se há um verdadeiro caso no conjunto de teste. 
: Adicione pseudo-contadores (não-negativos) para os dados. 
Suponha que ni é o número de exemplos com X = vi, e ci é o pseudo-
contador: 
¨  Pseudo-contadores transmitem o conhecimento prévio. Considere: "quanto 
mais eu acreditaria vi se eu tivesse visto um exemplo com vi verdadeiro do 
que se eu não tivesse visto exemplos algum com vi verdadeiro?" 
Learning Probabilities
Empirical probabilities do not make good predictors when
evaluated by likelihood or entropy.
Why? A probability of zero means “impossible” and has
infinite cost if there is one true case in test set.
Solution: add (non-negative) pseudo-counts to the data.
Suppose ni is the number of examples with X = vi , and
ci is the pseudo-count:
P(X = vi) =
ci + ni�
i 0 ci 0 + ni 0
Pseudo-counts convey prior knowledge. Consider: “how
much more would I believe vi if I had seen one example
with vi true than if I has seen no examples with vi true?”
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 20
Aprendendo Probabilidades 
¨  Probabilidades empíricas não criam bons previsores quando avaliadas 
pelo grau de probabilidade (likelihood) ou entropia. 
¨  Por que? Uma probabilidade de significa algo "impossível" e tem 
custo infinito se há um verdadeiro caso no conjunto de teste. 
¨  Solução: Adicione (não-negativos) para os dados. 
Suponha que ni é o número de exemplos com X = vi, e ci é o pseudo-
contador: 
¨  Pseudo-contadores transmitem o conhecimento prévio. 
¤  Considere: "quanto mais eu acreditaria no valor vi se eu tivesse visto um exemplo 
com vi verdadeiro do que se eu não tivesse visto exemplos algum com vi verdadeiro?" 
Learning Probabilities
Empirical probabilities do not make good predictors when
evaluated by likelihood or entropy.
Why? A probability of zero means “impossible” and has
infinite cost if there is one true case in test set.
Solution: add (non-negative) pseudo-counts to the data.
Suppose ni is the number of examples with X = vi , and
ci is the pseudo-count:
P(X = vi) =
ci + ni�
i 0 ci 0 + ni 0
Pseudo-counts convey prior knowledge. Consider: “how
much more would I believe vi if I had seen one example
with vi true than if I has seen no examples with vi true?”
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 20