Prévia do material em texto
AGENTES QUE APRENDEM Aprendizagem ¨ Aprendizagem é a capacidade de melhorar seu comportamento com base na experiência. ¤ A variedade de comportamentos é expandida: o agente pode fazer mais. ¤ Melhora a precisão nas tarefas: o agente pode fazer as coisas melhor. ¤ A velocidade é melhorada: o agente pode fazer coisas mais rapidamente. Tarefa de aprendizagem Learning task experiences/ data background knowledge/ bias problem/ task answer/ performance Learning agent c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.1, Page 3 Agente de Aprendizagem ¨ É aquele que contém um que decide que ações executar e; ¨ Um que modifica o elemento de desempenho para que tome ações melhores. Arquitetura de aprendizagem Learning architecture ����� ������ ���� ���� ������������� �� � �� ������ � ���� ������� ������ ���� ������� ����������� �� ������ � ��������� c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.1, Page 4 Representação da Informação ¨ Também desempenha um papel muito importante na determinação de como o algoritmo de aprendizagem deve funcionar. ¨ Os componentes podem ser representados com quaisquer um dos esquemas de representação: ¤ Sentenças lógicas proposicionais ¤ Sentenças lógicas de primeira ordem ¤ Redes Semânticas/Frames ¤ Regras de produção ¤ Descrições probabilísticas (redes bayesianas) ¤ ... Escolhendo uma representação ¨ Quanto mais rica a representação, mais útil é para resolução de problemas posteriores. ¨ Quanto mais rica a representação, mais difícil é para aprender. Conhecimento Anterior ¨ Quando melhor o conhecimento prévio do domínio, melhor o funcionamento do algoritmo indutor. ¨ Inclui informações a respeito dos valores válidos de atributos, critérios de preferência na escolha de atributos, etc. Aprendizagem Indutiva ¨ O objetivo de um é extrair um bom classificador a partir de um conjunto de exemplos rotulados. ¨ A pode ser usada para classificar exemplos novos. ¨ Um pode ser chamado também de , ou e é uma que descreve o objeto de interesse. ¨ Um é uma propriedade, ou aspecto, de um exemplo. Aprendizagem Indutiva é um atributo especial que descreve o fenômeno de interesse. Também denominado . Podem ser ou . ¨ ou é uma estrutura que permite predizer com a maior precisão possível um novo exemplo de objeto. Aprendizagem Indutiva ¨ Recebe como entrada o valor correto de uma função desconhecida para entradas específicas e tenta recuperar a função original. ¨ Dada uma coleção de exemplos de , retornar uma função que se aproxime de f. ¤ f é a função alvo. ¤ h é a hipótese. ¤ (x, f(x)) são exemplos de entrada. Aprendizagem Indutiva ¨ É o ato de construir/ajustar h de forma que ela concorde com f no conjunto de treinamento. ¨ h é se concorda com todos os exemplos dados. ¨ Uma boa h irá bem – prever corretamente exemplos ainda não vistos. Aprendizagem Indutiva Aprendizagem Indutiva Aprendizagem Indutiva Lâmina de Ockham ¨ Como escolher a melhor hipótese de indução dentre as diversas disponíveis? ¨ Prefira a consistente com os dados. ¨ Hipóteses que são mais complexas que os dados estão deixando de extrair algum padrão dos dados! Aprendizagem Indutiva ¨ As vezes é melhor ajustar uma simples linha reta que não seja exatamente consistente, mas possa fazer previsões razoáveis. Aprendizagem Indutiva ¨ Deve-se ter em mente que a ou de encontrar uma hipótese simples e consistente depende do . ¨ ax+ b + c sen x Problema de aprendizagem realizável ¨ Um problema de aprendizagem é se o espaço de hipótese contém a função verdadeira. ¤ Isto nem sempre é possível de decidir, pois a função verdadeira não é conhecida. ¨ É importante utilizar para derivar um espaço de hipóteses em que sabemos que a função verdadeira existe. Problema de aprendizagem realizável ¨ Utilizar o maior espaço de hipóteses possível: ¤ Por que não H = classe de todas as máquinas de Turing? (já que toda função computável pode ser representada por uma máquina de Turing) ¤ Ajuste de retas é fácil, ajustar polinômios de graus elevados é mais difícil e ajustar máquinas de Turing à realidade é muito difícil! ¨ Por isso, a maior parte do trabalho em aprendizagem se concentra em representações simples! Feedback ¨ Tarefas de aprendizagem pode ser caracterizadas pelo feedback dado para o aprendiz. ¤ o que tem de ser aprendido é especificado para cada exemplo. ¤ nenhuma classificação é dada; o aprendiz tem de descobrir categorias e regularidades nos dados. ¤ o feedback ocorre após uma sequência de ações. Tarefas comuns de aprendizagem ¨ dado um conjunto de exemplos de treinamento pré-classificados, classificar uma nova instância. ¨ encontrar classes naturais para exemplos. ¨ determinar o que fazer com base em recompensas e punições. ¨ raciocinar mais rápido usando a experiência da aprendizagem. ¨ construir modelos mais ricos em termos de programas de lógica. : Aprendizagem Supervisionada 1. Agente aprende a regra condição-ação: ¤ Função de estados para uma saída booleana (frear ou não). ¤ O valor correto da saída é dado por um instrutor. 2. Agente aprende a reconhecer um ônibus: ¤ Função a partir de imagens para uma saída booleana (a imagem contém ou não o ônibus). ¤ O valor correto da saída é dado por um instrutor. 3. Agente aprende a teoria de frear: ¤ Função de estados e ações para, por exemplo, a distância de parada. ¤ A saída está disponível diretamente a partir das percepções do agente. : Aprendizagem Não Supervisionada ¨ O indutor analisa os exemplos fornecidos e tenta determinar se alguns deles podem ser agrupados de alguma maneira, formando ou . ¤ Em geral, após o agrupamento é necessário uma análise para determinar o que cada agrupamento significa no contexto do problema. : Quais são as propriedades principais dos clientes? (segmentação do mercado) : Aprendizagem por Reforço ¨ Costuma incluir o subproblema de aprender como o ambiente funciona. ¨ Obtém um feedback na forma de quão bem estamos fazendo (e não o que deveríamos estar fazendo), isto é, o sistema faz uma hipótese lhe dizemos “bom/ruim”. ¨ Útil para o controle de robôs. Dados de exemplo para classificação ¨ Queremos classificar exemplos novos sobre a propriedade baseado em exemplos , , , e . Ação Autor Conversa Comprimento Onde e1 pula conhecido nova longa em casa e2 lê desconhecido nova curta trabalho e3 pula desconhecido antiga longa trabalho e4 pula conhecido antiga longa em casa e5 lê conhecido nova curta em casa e6 pula conhecido antiga longa trabalho Mendindo o sucesso ¨ A não descreve quão bem o agente desempenha sobre os exemplos de treinamento, mas quão bem o agente desempenha para novos exemplos. ¨ Considere dois agentes: afirma que os exemplos negativos vistos são os únicos exemplos negativos. Todas as outras instâncias são positivas. afirma que os exemplos positivos vistos são os únicos exemplos positivos. Todas as outras instâncias são negativas. ¨ Ambos os agentes classificam corretamente cada exemplo de treinamento, mas discordam sobre todos os outros exemplos. Viés (Bias) ¨ A tendência a preferir uma hipótese sobre outra é chamada de ( ). ¨ Dizer que uma hipótese é melhor do que as hipóteses deou não é algo que é obtido a partir dos dados. ¨ Para que qualquer processo indutivo faça previsões sobre dados desconhecidos, você precisa de um viés. ¨ O que constituí um bom viés é uma questão empírica sobre quais vieses funcionam melhor na prática. Aprendizagem como busca ¨ Dada uma representação e um viés, o problema de aprendizagem pode ser reduzido a uma busca. ¨ Aprendizagem é uma busca através do procurando pela representação ou representações que melhor se adequam os dados, dado o viés. ¨ Estes espaços de busca normalmente são excessivamente grandes para a busca sistemática. Use . ¨ Um algoritmo de aprendizagem é feito de um espaço de busca, uma função de avaliação e um método de busca. Ruído ¨ Dados não são perfeitos: ¤ Alguns dos atributos tem atribuídos o valor errado. ¤ Os atributos dados são insuficientes para prever a classificação. ¤ Há exemplos com ausência de atributos. ¨ ( ) ocorre quando uma distinção aparece nos dados, mas não aparece nos exemplos desconhecidos. Isso ocorre por causa de correlações aleatórias no conjunto de treinamento. Caracterizações de aprendizagem ¨ Encontrar a melhor representação de acordo com os dados. ¨ Delinear a classe de representações consistentes de acordo com os dados. ¨ Encontrar uma distribuição de probabilidade das representações de acordo com os dados. Aprendizado supervisionado Dado: ¤ um conjunto de X1, …, Xn. ¤ um conjunto de Y1, …, Yk. ¤ um conjunto de , nos quais os valores para os propriedades de entrada e as propriedades de destino são dadas para cada exemplo. ¤ um , no qual apenas os valores para as propriedades de entrada são dadas. prever os valores para as propriedades de destino do novo exemplo. ¤ quando o Yi são discretos. ¤ quando o Yi são contínuos. Aprendizado supervisionado Dado: ¤ um conjunto de X1, …, Xn. ¤ um conjunto de Y1, …, Yk. ¤ um conjunto de , nos quais os valores para os propriedades de entrada e as propriedades de destino são dadas para cada exemplo. ¤ um , no qual apenas os valores para as propriedades de entrada são dadas. prever os valores para as propriedades de destino do novo exemplo. quando o Yi são discretos. quando o Yi são contínuos. Avaliando previsões ¨ Suponha que é um recurso e é um exemplo: ¤ é o valor da característica F para o exemplo e. ¤ é o valor previsto da característica F para o exemplo e. ¤ O da previsão é uma medida de quão perto pval(e, Y) está de val(e, Y). ¤ Existem muitas formas possíveis de erros que podem ser medidos. Representações de dados de exemplos ¨ Um agente de viagens quer prever o tamanho preferido de uma viagem de férias, que pode ser de 1 a 6 dias. (Não há propriedade de entrada). Duas representações dos mesmos dados (cada Yi é uma ): ¨ O que é uma previsão? Example Y Example Y1 Y2 Y3 Y4 Y5 Y6 e1 1 e1 1 0 0 0 0 0 e2 6 e2 0 0 0 0 0 1 e3 6 e3 0 0 0 0 0 1 e4 2 e4 0 1 0 0 0 0 e5 1 e5 1 0 0 0 0 0 Medidas de erro é o conjunto de exemplos. é o conjunto de propriedades de destino. : ¨ Erro da soma dos quadrados: ¨ Erro do pior caso: ¨ Um erro baseado em custo leva em conta os custos de vários erros. Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Medidas de erro é o conjunto de exemplos. é o conjunto de propriedades de destino. : : ¨ Erro do pior caso: ¨ Um erro baseado em custo leva em conta os custos de vários erros. Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Medidas de erro é o conjunto de exemplos. é o conjunto de propriedades de destino. : : : ¨ Um erro baseado em custo leva em conta os custos de vários erros. Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 Measures of error E is the set of examples. T is the set of target features. absolute error� e�E � Y�T |val(e,Y )� pval(e,Y )| sum of squares error� e�E � Y�T (val(e,Y )� pval(e,Y ))2 worst-case error : max e�E max Y�T |val(e,Y )� pval(e,Y )| . A cost-based error takes into account costs of various errors. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 8 : Previsões lineares ¨ P1 minimiza o erro absoluto ¨ P2 minimiza o erro da soma dos quadrados ¨ P3 minimiza do erro do pior caso 7.2. Supervised Learning 291 8 7 6 5 5 P1 P2 P3 4 4 3 3 2 2 1 1 0 0Figure 7.2: Linear predictions for a simple prediction example. Filled circles are the training examples. P1 is the prediction that minimizes the absolute error of the training examples. P2 is the prediction that minimizes the sum-of-squares error of the training examples. P3 is the prediction that minimizes the worst-case error of the training examples. See Example 7.3. This measure treats large errors as worse than small errors. An error twice as big is four times as bad, and an error 10 times as big is 100 times worse. • The worst-case error on E is the maximum absolute error: max e∈E max Y∈T |val(e,Y)− pval(e,Y)| . In this case, the learner is evaluated by how bad it can be. Example 7.3 Suppose there is a real-valued target feature, Y, that is based on a single real-valued input feature, X. Suppose the data contains the following (X,Y) points: (0.7, 1.7), (1.1, 2.4), (1.3, 2.5), (1.9, 1.7), (2.6, 2.1), (3.1, 2.3), (3.9, 7). Figure 7.2 shows a plot of the training data (filled circles) and three lines, P1, P2, and P3, that predict the Y-value for all X points. P1 is the line that minimizes the absolute error, P2 is the line that minimizes the sum-of-squares error, and P3 minimizes the worst-case error of the training examples. Lines P1 and P2 give similar predictions forX=1.1; namely, P1 predicts 1.805 and P2 predicts 1.709, whereas the data contain a data point (1.1, 2.4). P3 pre- dicts 0.7. They give predictions within 1.5 of each other when interpolating in the range [1, 3]. Their predictions diverge when extrapolating from the data. P1 and P3 give very different predictions for X=10. The difference between the lines that minimize the various error measures is most pronounced in how they handle the outlier examples, in this case the point (3.9, 7). The other points are approximately in a line. The prediction with the least worse-case error for this example, P3, only depends on three data points, (1.1, 2.4), (3.1, 2.3), and (3.9, 7), each of which has the same worst-case error for prediction P3. The other data points could be Medidas de erro (cont.) ¨ Quando as propriedades de destino quando são {0,1}: ( ): o modelo com o maior grau de probabilidade é o modelo com grau de probabilidde máxima ( ) ¨ : Measures of error (cont.) When target features are {0, 1}: likelihood of the data⇥ e2E ⇥ Y2T pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y )) entropy � � e2E � Y2T [val(e,Y ) log pval(e,Y )+ (1� val(e,Y )) log(1� pval(e,Y ))] c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 9 Measures of error (cont.) When target features are {0, 1}: likelihood of the data⇥ e2E ⇥ Y2T pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y )) entropy � � e2E � Y2T [val(e,Y ) log pval(e,Y )+ (1� val(e,Y )) log(1� pval(e,Y ))] c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 10 Medidas de erro (cont.) ¨ Quando as propriedades de destino quando são {0,1}: ( ): o modelo com o maior grau de probabilidade é o modelo com grau de probabilidde máxima ( ) : Measures of error (cont.) When target features are {0, 1}: likelihood of the data⇥ e2E ⇥ Y2T pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y )) entropy � � e2E � Y2T [val(e,Y ) log pval(e,Y )+ (1� val(e,Y )) log(1� pval(e,Y ))] c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 9 Measures of error (cont.) When target features are {0, 1}: likelihood of the data⇥ e2E ⇥ Y2T pval(e,Y )val(e,Y )(1� pval(e,Y ))(1�val(e,Y )) entropy � � e2E � Y2T [val(e,Y ) log pval(e,Y )+ (1� val(e,Y )) log(1� pval(e,Y ))] c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 10 Tipo de erros na predição ¨ Um erro , é uma predição positiva que está errada. ¨ Um erro , é uma predição falsa que está errada. ¨ É possível separar as questões sobre o agente ter um bom algoritmo de aprendizagem dele fazer uma boa predição baseado nas preferencias que estão for a do agente. Tipo de erros na predição (sistemas binários) = tp/(tp + fp) = tp /(tn + fn) à taxa de positivos verdadeiros ¨ Taxa de = fp / (fp + tn) Observação/Predição Positivo verdadeiro Negativo verdadeiro Predição positiva Positivo Verdadeiro (tp) Falso positivo (fp) Predição negativa Falso negativo (fn) Negativo verdadeiro (tn) Curvas para análise de qualidade Precisão X Recupração Curva R.O.C. Curvas para análise de qualidade Estimativas de ponto ¨ Suponha que exista um único recurso numérico, . Deixe ser os exemplos de treinamento. Há uma previsão única para todos os exemplos. ¤ A previsão que minimiza a soma de em E é a de Y. ¤ A previsão de que minimiza o é a de Y. ¤ A previsão de que minimiza o erro do pior caso é (máximo + mínimo)/2. ¤ Quando Y tem domínio {0, 1}, a previsão que maximiza o grau de probabilidade é a probabilidade empírica. ¤ Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a probabilidade empírica. ¨ Mas isso não significa que essas previsões minimizam o erro para previsões futuras. Estimativas de ponto ¨ Suponha que exista um único recurso numérico, . Deixe ser os exemplos de treinamento. Há uma previsão única para todos os exemplos. ¤ A previsão que minimiza a soma de em E é a de Y. ¤ A previsão de que minimiza o é a de Y. ¤ A previsão de que minimiza o erro do pior caso é (máximo + mínimo)/2. ¤ Quando Y tem domínio {0, 1}, a previsão que maximiza o grau de probabilidade é a probabilidade empírica. ¤ Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a probabilidade empírica. ¨ Mas isso não significa que essas previsões minimizam o erro para previsões futuras. Estimativas de ponto ¨ Suponha que exista um único recurso numérico, . Deixe ser os exemplos de treinamento. Há uma previsão única para todos os exemplos. ¤ A previsão que minimiza a soma de em E é a de Y. ¤ A previsão de que minimiza o é a de Y. ¤ A previsão de que minimiza o é (máximo + mínimo)/2. ¤ Quando Y tem domínio {0, 1}, a previsão que maximiza o grau de probabilidade é a probabilidade empírica. ¤ Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a probabilidade empírica. ¨ Mas isso não significa que essas previsões minimizam o erro para previsões futuras. Estimativas de ponto ¨ Suponha que exista um único recurso numérico, . Deixe ser os exemplos de treinamento. Há uma previsão única para todos os exemplos. ¤ A previsão que minimiza a soma de em E é a de Y. ¤ A previsão de que minimiza o é a de Y. ¤ A previsão de que minimiza o é (máximo + mínimo)/2. ¤ Quando tem domínio {0, 1}, a previsão que maximiza o é a . ¤ Quando Y tem domínio {0, 1}, a previsão que minimiza a entropia é a probabilidade empírica. ¨ Mas isso não significa que essas previsões minimizam o erro para previsões futuras. Estimativas de ponto ¨ Suponha que exista um único recurso numérico, . Deixe ser os exemplos de treinamento. Há uma previsão única para todos os exemplos. ¤ A previsão que minimiza a soma de em E é a de Y. ¤ A previsão de que minimiza o é a de Y. ¤ A previsão de que minimiza o é (máximo + mínimo)/2. ¤ Quando tem domínio {0, 1}, a previsão que maximiza o é a . ¤ Quando tem domínio {0, 1}, a previsão que minimiza a é a . ¨ Mas isso não significa que essas previsões minimizam o erro para previsões futuras. Estimativas de ponto ¨ Suponha que exista um único recurso numérico, . Deixe ser os exemplos de treinamento. Há uma previsão única para todos os exemplos.¤ A previsão que minimiza a soma de em E é a de Y. ¤ A previsão de que minimiza o é a de Y. ¤ A previsão de que minimiza o é (máximo + mínimo)/2. ¤ Quando tem domínio {0, 1}, a previsão que maximiza o é a . ¤ Quando tem domínio {0, 1}, a previsão que minimiza a é a . ¨ Mas isso não significa que essas previsões minimizam o erro para previsões futuras. Previsão ótima para classificação binária ¨ Seja n0 número de exemplo 0 e n1 número de exemplo 1, sem propriedades de entrada. 7.2. Supervised Learning 295 Prediction Measure of Optimal measure prediction p for prediction for the training data training data absolute error n0p+ n1(1− p) median(n0, n1) sum squares n0p2 + n1(1− p)2 n1n0+n1 worst case p if n1 = 01− p if n0 = 0max(p, 1− p) otherwise 0 if n1 = 01 if n0 = 00.5 otherwise likelihood pn1(1− p)n0 n1n0+n1 entropy −n1 log p− n0 log(1− p) n1n0+n1 Figure 7.3: Optimal prediction for binary classification where the training data consist of n0 examples of 0 and n1 examples of 1, with no input features. median(n0, n1) is 0 if n0 > n1, 1 if n0 < n1, and any value in [0, 1] if n0 = n1. (b) The absolute error is a piecewise linear function of v. The slope for a value that is not in V depends on the number of elements greater minus the num- ber of elements less than that value: v is a minimum if there are the same number of elements greater than v as there are less than v. (c) This prediction has an error of (max−min)/2; increasing or decreasing the prediction will increase the error. When the target feature has domain {0, 1}, the training examples can be summarized in two numbers: n0, the number of examples with the value 0, and n1, the number of examples with value 1. The prediction for each new case is the same number, p. The optimal prediction p depends on the optimality criteria. The value of the optimality criteria for the training examples can be computed analytically and can be optimized analytically. The results are summarized in Figure 7.3. Notice that optimizing the absolute error means predicting the median, which in this case is also the mode; this should not be surprising because the error is linear in p. The optimal prediction for the training data for the other criteria is to pre- dict the empirical frequency: the proportion of 1’s in the training data, namely n1 n0+n1 . This can be seen as a prediction of the probability. The empirical fre- quency is often called themaximum-likelihood estimate. This analysis does not specify the optimal prediction for the test data. We would not expect the empirical frequency of the training data to be the optimal prediction for the test data for maximizing the likelihood or minimizing the entropy. If n0 = 0 or if n1 = 0, all of the training data are classified the same. However, if just one of the test examples is not classified in this way, the likeli- hood would be 0 (its lowest possible value) and the entropy would be infinite. See Exercise 1 (page 342). Conjuntos de Treinamento e de Teste Para avaliar o quão bem um aprendiz funcionará em previsões futuras, podemos dividir os exemplos em: ¤ que são usados para treinar o aprendiz. ¤ que são usados para avaliar o aprendiz ... os quais deve ser mantidos separados. Aprendendo Probabilidades ¨ Probabilidades empíricas não criam bons previsores quando avaliadas pelo grau de probabilidade (likelihood) ou entropia. ¨ Por que? Uma probabilidade de zero significa "impossível" e tem custo infinito se há um verdadeiro caso no conjunto de teste. : Adicione pseudo-contadores (não-negativos) para os dados. Suponha que ni é o número de exemplos com X = vi, e ci é o pseudo- contador: ¨ Pseudo-contadores transmitem o conhecimento prévio. Considere: "quanto mais eu acreditaria vi se eu tivesse visto um exemplo com vi verdadeiro do que se eu não tivesse visto exemplos algum com vi verdadeiro?" Learning Probabilities Empirical probabilities do not make good predictors when evaluated by likelihood or entropy. Why? A probability of zero means “impossible” and has infinite cost if there is one true case in test set. Solution: add (non-negative) pseudo-counts to the data. Suppose ni is the number of examples with X = vi , and ci is the pseudo-count: P(X = vi) = ci + ni� i 0 ci 0 + ni 0 Pseudo-counts convey prior knowledge. Consider: “how much more would I believe vi if I had seen one example with vi true than if I has seen no examples with vi true?” c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 20 Aprendendo Probabilidades ¨ Probabilidades empíricas não criam bons previsores quando avaliadas pelo grau de probabilidade (likelihood) ou entropia. ¨ Por que? Uma probabilidade de significa algo "impossível" e tem custo infinito se há um verdadeiro caso no conjunto de teste. : Adicione pseudo-contadores (não-negativos) para os dados. Suponha que ni é o número de exemplos com X = vi, e ci é o pseudo- contador: ¨ Pseudo-contadores transmitem o conhecimento prévio. Considere: "quanto mais eu acreditaria vi se eu tivesse visto um exemplo com vi verdadeiro do que se eu não tivesse visto exemplos algum com vi verdadeiro?" Learning Probabilities Empirical probabilities do not make good predictors when evaluated by likelihood or entropy. Why? A probability of zero means “impossible” and has infinite cost if there is one true case in test set. Solution: add (non-negative) pseudo-counts to the data. Suppose ni is the number of examples with X = vi , and ci is the pseudo-count: P(X = vi) = ci + ni� i 0 ci 0 + ni 0 Pseudo-counts convey prior knowledge. Consider: “how much more would I believe vi if I had seen one example with vi true than if I has seen no examples with vi true?” c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 20 Aprendendo Probabilidades ¨ Probabilidades empíricas não criam bons previsores quando avaliadas pelo grau de probabilidade (likelihood) ou entropia. ¨ Por que? Uma probabilidade de significa algo "impossível" e tem custo infinito se há um verdadeiro caso no conjunto de teste. ¨ Solução: Adicione (não-negativos) para os dados. Suponha que ni é o número de exemplos com X = vi, e ci é o pseudo- contador: ¨ Pseudo-contadores transmitem o conhecimento prévio. ¤ Considere: "quanto mais eu acreditaria no valor vi se eu tivesse visto um exemplo com vi verdadeiro do que se eu não tivesse visto exemplos algum com vi verdadeiro?" Learning Probabilities Empirical probabilities do not make good predictors when evaluated by likelihood or entropy. Why? A probability of zero means “impossible” and has infinite cost if there is one true case in test set. Solution: add (non-negative) pseudo-counts to the data. Suppose ni is the number of examples with X = vi , and ci is the pseudo-count: P(X = vi) = ci + ni� i 0 ci 0 + ni 0 Pseudo-counts convey prior knowledge. Consider: “how much more would I believe vi if I had seen one example with vi true than if I has seen no examples with vi true?” c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 7.2, Page 20