Baixe o app para aproveitar ainda mais
Prévia do material em texto
DECISÕES SOBRE INCERTEZA • P • David Poole, Alan Mackworth e Randy Goebel - “Computational Intelligence – A logical approach” – cap 10. • Stuart Russel e Peter Norving - “Inteligência Artificial” - cap 16. Preferências de um agente ¨ Ações resultam em resultados. ¤ Agentes têm preferência sobre os resultados. ¤ Um agente racional realizará a ação que tem o melhor resultado para ele. ¨ Algumas vezes agentes não conhecem os resultados das ações, mas eles ainda precisam comparar ações. ¤ Agentes têm de agir (não fazer nada é (muitas vezes) uma ação). Uma teoria sobre Preferências ¨ Se o1 e o2 são resultados: ¤ significa que o1 é pelo menos tão desejável quanto o2. ¤ o1 ~ o2 significa que e . ¤ significa que e / . o2 o1 o2 o1 Loterias ¨ Um agente pode não saber os resultados de suas ações, mas pode ter uma distribuição de probabilidade dos resultados. ¨ Uma é uma distribuição de probabilidade sobre os resultados. Ela é escrita como: [p1 : o1, p2 : o2, ... , pk : ok] onde os oi são os resultados e pi > 0 tal que: ∑i pi = 1 A loteria especifica que o resultado oi ocorre com probabilidade pi. ¨ Quando falamos sobre os resultados, incluímos loterias. Propriedades das preferências : Os agentes devem agir, portanto eles devem ter preferências: : Preferências devem ser transitivas: caso contrário e e o3 ≻ o1. Se eles estão dispostos a pagar para obter de o1 para o3 → bomba de dinheiro. (Da mesma forma para misturas de ≻ e ) 122121 oooooo or∀∀ 313221 ooentãoooeoose o1o2 32 oo Propriedades das preferências : Um agente prefere uma maior chance de conseguir um resultado melhor do que a menor chance: ¤ Se o1 ≻ o2 e p > q então [p : o1, 1 - p : o2] ≻ [q : o1, 1 - q : o2] Propriedades das preferências cont. : Suponha que o1 ≻ o2 e o2 ≻ o3, então existe um p ∈ [0, 1] tal que: o2 ~ [p:o1,1- p:o3] : (nenhuma diversão em jogos de azar). Um agente é indiferente entre loterias que têm as mesmas probabilidades e resultados. Isso inclui loterias sobre loterias. Por : [p : o1, 1 - p : [q : o2, 1 - q : o3]] ~ [p : o1, (1 – p)q : o2, (1- p)(1- q) : o3] Propriedades das preferências cont. : se o1 ~ o2 então o agente é indiferente entre loterias que diferem apenas por o1 e o2: [p : o1, 1 - p : o3] ~ [p : o2, 1 - p : o3] Definição alternativa: : se então o agente fracamente prefere loterias que contêm o1 em vez de o2, tudo sendo igual. ¨ Ou seja, para qualquer número p e o resultado o3 : [p : o1, (1 - p) : o3] [p : o2, (1 - p) : o3] o1o2 O que gostaríamos ¨ Gostaríamos que uma medida de preferência que pode ser combinada com probabilidades. De forma que: valor([p : o1, 1 - p : o2]) = p × valor(o1) + (1 - p) × valor(o2) ¨ Dinheiro não age desta forma. O que você prefere: R$1, 000, 000 ou [0.5 : R$0; 0.5 : R$2, 000, 000]? ¨ Pode parecer que as preferências são demasiado complexas e mutifacetadas para ser representadas por números únicos. Utilidade em função do dinheiro Utility as a function of money !" !#$"""$""" %&'('&) " * +',-./012,1 +',- .314 &2/( +',-.,11-'35 c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 9.1, Page 18 Teorema ¨ Se as preferências seguem as propriedades anteriores, então elas podem ser medidas por uma função: : resultados → [0, 1] tal que: ¨ se e somente se utilidade(o1) ≥ utilidade(o2). ¨ utilidades são lineares com as probabilidades: o1o2 Prova ¨ Se todos os resultados são igualmente preferidos, defina utilidade(oi) = 0 para todos os resultados oi. ¨ Caso contrário, suponha que o melhor resultado é melhor e o pior resultado é pior. ¨ Para qualquer resultado oi, defina utilidade(oi) como o número ui tal que: oi ~ [ui : melhor, 1- ui : pior] ¨ Isso existe pela propriedade de Continuidade. Prova cont. ¨ Suponha que e utilidade(oi) = ui, então pela propriedade de Substituição, [u1 : melhor, 1- u1 : pior] [u2 : melhor, 1- u2 : pior] ¨ o que, por Completude e Monotonicidade implica u1 ≥ u2. ¨ Suponha que p = utilidade([p1 : o1, p2 : o2, ..., pk : ok]). ¨ Suponha que utilidade(oi) = ui . Nos sabemos que: oi ~ [ui : melhor, 1 - ui : pior] o1o2 Prova cont. ¨ Pela propriedade da Substituição, podemos substituir cada oi por [ui : melhor,1- ui : pior], portanto: p = utilidade( [ p1 : [u1 : melhor, 1 - u1 : pior] … pk : [uk : melhor, 1 - uk : pior] ] ) ¨ Pela propriedade de Decomposição, isto é equivalente a: p = utilidade( [ p1u1+ … + pkuk : melhor, p1(1 - u1) + … + pk(1- uk) : pior]]) ¨ Portanto, pela definição de utilidade, p = p1 × u1 + … + pk × uk Representação fatorada da utilidade ¨ Suponha que os resultados podem ser descritos em termos de características X1, … , Xn. ¨ Uma é aquela que pode ser decomposta em um conjunto de fatores: u(X1, . . . , Xn) = f1(X1) + ... + fn(Xn). isso supõe . : cada recurso tem um valor melhor e pior que não depende de outros recursos. Utilidade aditiva ¨ Uma utilidade aditiva tem uma representação canônica: u(X1, … , Xn)= w1 . u1(X1) + … + wn . un(Xn). ¨ Se melhori é o melhor valor de Xi, ui(Xi = melhori) = 1. ¨ Se piori é o pior valor de Xi, ui(Xi = piori) = 0. ¨ wi são pesos, ∑i wi = 1. Os pesos refletem a importância relativa de recursos. ¨ Podemos determinar pesos, comparando os resultados. w1 = u(melhor1, x2, … , xn) - u(pior1, x2, … , xn). para qualquer valor x2, … , xn of X2, … , Xn. Complementos e Substitutos ¨ Muitas vezes aditiva independência não é uma boa suposição. ¨ Valores x1 da característica X1 e x2 da característica X2 são se ter ambos é melhor do que a soma dos dois. ¨ Valores x1 da característica X1 e x2 da característica X2 são se ter ambos é pior do que a soma dos dois. : em um feriado você recebe um proposta de fazer u Uma excursão por 6 horas norte no dia 3. u Uma excursão por 6 horas a sul no dia 3. Exemplo: em um feriado Uma viagem para um local a 3 horas ao norte no dia 3. A viagem de retorno para o mesmo dia. Complementos e Substitutos ¨ Muitas vezes aditiva independência não é uma boa suposição. ¨ Valores x1 da característica X1 e x2 da característica X2 são se ter ambos é melhor do que a soma dos dois. ¨ Valores x1 da característica X1 e x2 da característica X2 são se ter ambos é pior do que a soma dos dois. de : em um feriado você recebe um proposta para fazer: u Uma excursão por 6 horas norte no dia 3. u Uma excursão por 6 horas a sul no dia 3. de : em um feriado você recebe um proposta para fazer: u Uma viagem para um local a 3 horas ao norte no dia 3. u A viagem de retorno para o mesmo dia. Utilidade aditiva generalizada ¨ Uma utilidade aditiva generalizada pode ser escrita como uma soma de fatores: u(X1, … , Xn) = f1(X1) + … + fk(Xk) na qual Xi ⊆ {X1, … , Xn}. ¨ É difícil de encontrar uma representação canônica intuitiva neste caso, porém ela pode representar complementos e substitutos. Tomada de decisões sob incerteza ¨ : Domínio do robô de entrega : Problema no domínio do robô de entrega l Considere o problema de ir de para no qual existe a chance de que o robô saia do curso e caia nas escadas. l Podemosvestir almofadas no robô. l Isto não muda a probabilidade de acidente, mas pode deixá-lo menos severo. l Mas as almofadas acrescentam peso extra. l O robô também pode fazer o caminho mais longo. l Isto reduz a probabilidade de acidente. l Mas faz a viagem mais lenta. l Existe uma variável randômica booleana sobre a existência ou não de um acidente. : Árvore de decisão para o robô de entrega l Para cada combinação das escolhas do agente, e se existe ou não um acidente, existe um resultado variando de severos prejuízos a chegar rapidamente sem peso extra. Qual decisão o agente deve tomar? l Depende de alguns fatores: l O quanto é importante chegar rapidamente? l O quanto o peso das almofadas importa? l O quanto importa reduzir os prejuízos de severos para moderados? l O quanto um acidente é provável dado a forma que o robô chegará lá? l Todas estas coisas podem parecer incomparáveis, mas quando o agente toma uma decisão, ele as compara implícita ou explicitamente. Tomada de decisões sob incerteza ¨ O que um agente deve fazer depende da(s): — quais opções estão disponíveis para ele. — as formas que o mundo poderia ser, dado o conhecimento do agente. Sensoriamento atualiza crenças do agente. — o que o agente quer e quais as compensações quando há riscos. ¨ A teoria da decisão especifica como balancear as conveniências e probabilidades dos resultados possíveis para ações concorrentes. Variáveis de decisão são como variáveis aleatórias que um agente obtém para escolher um valor. ¨ Um mundo possível especifica um valor para cada variável de decisão e cada variável aleatória. ¨ Para cada atribuição de valores para todas as variáveis de decisão, a medida do conjunto de mundos que satisfaçam essa atribuição somam 1. ¨ A probabilidade de uma proposição é indefinida, a menos que o agente condicione sobre os valores de todas as variáveis de decisão. Exemplo: Variáveis de decisão l Correspondem às escolhas de usar ou não almofadas e qual rota pegar. l Existem oito mundos possíveis correspondentes aos oito caminhos da árvore de decisão. l Cada um desses mundo tem uma utilidade para o agente. l Para cada escolha existe a probabilidade sobre os dois mundos possíveis que o agente pode terminar. Exemplo: Variáveis de decisão l : l Variáveis de decisão correspondem aos vários tratamentos e exames. l A utilidade pode depender dos medicamentos que o paciente toma, das doenças e alergias do paciente, das intervenções ocorridas e quando o tratamento acontece. l A utilidade tipicamente depende tanto das variáveis de decisão quanto das variáveis randômicas. Valor esperado ¨ O valor esperado de uma função de mundos possíveis é seu valor médio, ponderando mundos possíveis pela sua probabilidade. ¨ Suponha que f(ω) é o valor da função f no mundo ω. ¤ O de f é: ¤ O de f dado e é: Utilidade ¨ A utilidade é uma medida da conveniência dos mundos para um agente. Deixe u(ω) ser a utilidade do mundo ω para o agente. ¨ Objetivos simples podem ser especificados por: mundos que satisfazem a meta tem utilidade 1; outros mundos têm utilidade 0. ¨ Muitas vezes utilidades são mais complicadas: ¤ Por , alguma função do montante dos danos em um robô, quanta energia resta. que objetivos são atingidos e quanto tempo demorou. Decisões Simples : o agente escolhe o valor para cada variável de decisão. l Vamos compor a variável de decisão d como uma tupla de todas as variáveis de decisão originais. l O agente pode escolher D = di para qualquer di ∈ dom(D). l A da decisão d = di é : l Uma é a decisão D = dmax cuja utilidade esperada é máxima: : Domínio do robô de entrega l É um problema de decisão simples onde o robô tem que decidir sobre os valores das variáveis e . l A decisão simples é uma variável complexa <vestir_almofadas, qual_caminho> l Cada associação de valores para a decisão tem um valor esperado. l Por , a utilidade esperada de: vestir_almofadas = true ^ qual_caminho = curto é dada por: E(U|vestir_almofadas=true ∧ qual_caminho=short) = P(acidente|vestir_almofadas=true ∧ qual_caminho=short) x utilidade(w0) + (1- P(acidente|vestir_almofadas=true ∧ qual_caminho=curto)) x utilidade(w1) Redes de decisão de estágio único ¨ Estendem as redes de crença com: , para os quais o agente escolhe o valor. O domínio é o conjunto de ações possíveis. Desenhado como retângulo. , cujos os pais são as variáveis das quais depende a utilidade. Desenhado como um diamante. ¤ Isso mostra explicitamente quais nós afetam se houver um acidente. Single-stage decision networks Extend belief networks with: Decision nodes, that the agent chooses the value for. Domain is the set of possible actions. Drawn as rectangle. Utility node, the parents are the variables on which the utility depends. Drawn as a diamond. Which Way Accident Utility Wear Pads This shows explicitly which nodes a�ect whether there is an accident. c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 9.2, Page 7 Encontrando a melhor decisão ¨ Suponha que as variáveis aleatórias são X1, …, Xn, e a utilidade depende de XI1, … , Xik ¨ Para encontrar a melhor decisão: ¤ Criar um fator para cada probabilidade condicional e para a utilidade. ¤ Sumarize todas as variáveis aleatórias. ¤ Isso cria um fator em D que dá a utilidade esperada para cada D. ¤ Escolha o D com o valor máximo no fator. : Fatores iniciais Example Initial Factors Which Way Accident Value long true 0.01 long false 0.99 short true 0.2 short false 0.8 Which Way Accident Wear Pads Value long true true 30 long true false 0 long false true 75 long false false 80 short true true 35 short true false 3 short false true 95 short false false 100 c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 9.2, Page 9 Decisões sequenciais l Um agente inteligente não faz decisões no escuro (sem observações), nem faz somente decisões simples. l Um cenário mais típico é um no qual o agente observa, toma uma decisão condicionada à observação e age; observa, toma uma outra decisão condicionada à observação e age... l Ações subsequentes podem depender do que é observado. l O que é observado depende das ações anteriores. l Às vezes a única razão para executar uma ação é fornecer informação para ações futuras. l Por , testes de diagnóstico, espionagem... Decisões sequenciais l Um é uma sequencia de variáveis de decisão d1, …, dn. l Cada di tem um conjunto associado de variáveis chamado de escrito com πdi. l πdi é a tupla de variáveis para as quais os valores serão conhecidos quando a decisão di é feita. l Restrições são acíclicas porque o agente não tem como saber os resultados de ações futuras no momento de uma decisão. l Uma é um conjunto δ de funções, uma para cada di, δi: dom(πdi) → dom(di) l A política significa que quando o agente observar O ∈ dom(πdi) ele irá fazer δ(O). Redes de Decisão l Uma (ou ) é uma representação gráfica de um problema de decisão simples ou de um problema de decisão sequencial finito. l Estendem redes de crença para incluir variáveis de decisão e utilidade. l Especifica qual informação está disponível quando um agente tem que decidir. l Especifica de quais variáveis a utilidade depende. l São DAGs com três tipos de nós: variáveis randômicas, variáveis de decisão e de valor. Tipos de nós de uma Rede de Decisão l De são desenhadas como umaelipse. l São o mesmo tipo de nó de uma rede de crença. l Tem variáveis randômicas, domínios e tabelas de probabilidade associadas a eles. l De são desenhadas como um retângulo. l São rotulados com variáveis de decisão para as quais os valores podem ser setados pelo tomador de decisão. l Arcos entrando em um nó de decisão d representam informações disponíveis quando a decisão for feita (πd). l De são desenhados como um losângulo. l Representam a utilidade. Uma rede de decisão tem um único nó de valor. l Arcos entrando no nó representam valores dos quais o valor da utilidade depende. Exemplo de Rede de Decisão ¨ Mostrando explicitamente quais nós afetam a existência de um acidente. Exemplo de Rede de Decisão para a construção de um aeroporto Nós de variáveis randômicas e de decisão l Cada nó de variável randômica está associado a uma distribuição condicional de probabilidade que é indexada pelo estado dos nós pais. l Em redes de decisão os nós pais podem incluir nós que são variáveis aleatórias ou variáveis de decisão (local do aeroporto). l Cada nó com uma variável randômica poderia fazer parte de uma grande rede de crença. l Nós de variáveis de decisão representam pontos onde o tomador de decisão tem a possibilidade de escolher diferentes ações. : LocalAeroporto pode ter um valor diferente para cada local que está sendo considerado. l A escolha influencia o custo, a segurança e o ruído resultantes. Nós de valor l Nós de valor (ou de utilidade) representam a função de utilidade do agente. l Tem como pais todas as variáveis que descrevem o resultado que afeta diretamente a utilidade. l Associada a este nó temos uma descrição de utilidade do agente como uma função dos atributos do pai. Exercício: ¨ Considere um caso simples de diagnóstico no qual um médico resolve primeiro escolher alguns testes e, em seguida, começa a tratar o paciente, tendo em conta os resultados dos testes. O motivo que o médico pode decidir fazer um teste é que algumas informações (os resultados do teste) estarão disponíveis na próxima fase quando o tratamento pode ser realizado. Os resultados do teste vão ser a informação que está disponível quando o tratamento é decidido, mas não quando o teste for decidido. Muitas vezes é uma boa ideia testar, mesmo se o próprio teste pode prejudicar o paciente. ¨ As ações disponíveis são os testes possíveis e os possíveis tratamentos. Quando for tomada a decisão de teste, as informações disponíveis serão os sintomas exibidos pelo paciente. Quando for tomada a decisão de tratamento, as informações disponíveis serão os sintomas do paciente, que testes foram realizados e os resultados do teste. O efeito do teste é o resultado do teste, que depende de qual teste foi realizado e o que há de errado com o paciente. O efeito do tratamento é alguma função do tratamento e o que há de errado com o paciente. A utilidade inclui, por exemplo, os custos de testes e tratamentos, a dor e inconveniente para o paciente na curto prazo e o prognóstico a longo prazo. Rede de decisão para o diagnóstico 9.3. Sequential Decisions 389 Disease Symptoms Test Result Test Treatment Utility Outcome Figure 9.8: Decision network for diagnosis Suppose the utility function, Utility(Weather,Umbrella), is Weather Umbrella Utility norain takeIt 20 norain leaveIt 100 rain takeIt 70 rain leaveIt 0 There is no table specified for the Umbrella decision variable. It is the task of the planner to determine which value of Umbrella to select, depending on the forecast. Example 9.12 Figure 9.8 shows a decision network that represents the sce- nario of Example 9.10 (page 387). The symptoms depend on the disease. What test to perform is decided based on the symptoms. The test result depends on the disease and the test performed. The treatment decision is based on the symptoms, the test performed, and the test result. The outcome depends on the disease and the treatment. The utility depends on the costs and the side effects of the test and on the outcome. Note that the diagnostic assistant that is deciding on the tests and the treat- ments never actually finds out what disease the patient has, unless the test re- sult is definitive, which it typically is not. Example 9.13 Figure 9.9 (on the next page) gives a decision network that is an extension of the belief network of Figure 6.1 (page 237). The agent can receive a report of people leaving a building and has to decide whether or not to call the fire department. Before calling, the agent can check for smoke, but this has some cost associated with it. The utility depends on whether it calls, whether there is a fire, and the cost associated with checking for smoke. In this sequential decision problem, there are two decisions to be made. First, the agent must decide whether to check for smoke. The information that will be available when it makes this decision is whether there is a report of peo- ple leaving the building. Second, the agent must decide whether or not to call the fire department. When making this decision, the agent will know whether there was a report, whether it checked for smoke, andwhether it can see smoke. Assume that all of the variables are binary. Rede de Decisão para o problema do alarme Utilidade check fire call valor T T T -210 T T F -5010 T F T -210 T F F -10 F T T -200 F T F -5000 F F T -200 F F F 0 Política l Uma especifica o que o agente deve fazer em certas situações. l Consiste em um conjunto de , uma para cada variável de decisão. l A função de decisão especifica um valor para a variável de decisão para cada atribuição de valores de seus pais. l O agente quer encontrar uma , uma que maximiza sua utilidade esperada. l Exemplo: possíveis políticas para o exemplo do alarme: l Nunca checar por fumaça, e chamar os bombeiros somente se existir relatório. l Sempre checar por fumaça, e chamar os bombeiros somente se existir fumaça. l Checar por fumaça somente se existir relatório, e chamar os bombeiros somente se existir relatório e ver fumaça. Utilidade esperada de uma política l Políticas podem ser comparadas pela utilidade esperada obtidas pela aplicação desta política. l Uma agente deve adotar uma política que maximiza a utilidade esperada. l Um mundo possível especifica um valor para cada variável randômica e de decisão. l Um mundo possível satisfaz uma política se o valor de cada variável de decisão no mundo possível é o valor selecionado na função de decisão para aquela variável naquela política. l ω|=δ significa que o mundo possível ω satisfaz a política δ. l A utilidade esperada da política δ é: ∑ = = δω ωωρδ | )(*),()( PUE Política Ótima é uma política δ* para a qual E(δ*) ≥ E(δ) para todas as políticas. l Isto é, uma política ótima é aquela para a qual a utilidade esperada é máxima entre todas as políticas. l Suponha um nó de decisão binária que tem n pais binários. l Existem y=2n diferentes associações de valores para os pais e, consequentemente, 2y diferentes possíveis funções de decisão para este nó. l O número de políticas é o produto do número de funções de decisão para cada variável de decisão. l Assim, um algoritmo que enumera todas as políticas e escolhe a melhor é totalmente ineficiente, mesmo para problemas pequenos. Como encontrar a política ótima l Não precisamos enumerar todas as políticas, mas podemos usar para encontrá-la. l A utilidade esperada é o produto das probabilidades e da utilidade da rede, quando as decisões são tomadas. l Começaremos somando as variáveis que não são pais de um nó de decisão.l A ideia é primeiro considerar a última decisão e encontrar uma decisão ótima para cada valor de seus pais, produzindo um fator destes valores máximos. l A rede de decisão se torna, então uma nova rede com um nó de decisão a menos, que pode ser resolvida recursivamente. Rede de Decisão para o problema do alarme Utilidade check fire call valor T T T -210 T T F -5010 T F T -210 T F F -10 F T T -200 F T F -5000 F F T -200 F F F 0 ),,,( ),,(*),|(*)|(*)|()|(),|()()( ),,(*),|(*)|(*)|(*)|(*),|(*)(*)( ),,(*),|(*)|(*)|(*)|(*),|(*)(*)()( ),,(*),|(*)|(*)|(*)|(*),|(*)(*)()( ),,,( ),,,,( ),,,,,( ),,,,,,( CCkSsRf CCkFUSCkSsPLRPALPFSPFTAPFPTP CCkFUSCkSsPLRPALPFSPFTAPFPTP CCkFUSCkSsPLRPALPFSPFTAPFPTPUE CCkFUSCkSsPLRPALPFSPFTAPFPTPUE RSsUTFASL T CCkSsRf F CFCkSsRf A CFCkSsRAf S CFSCkSsRAf L T F A S L RSsUFASL RSsUASL RSsUSL RSsUL = = = = = ∑ ∑ ∑ ∑ ∑ ∑∑∑∑∑ ∑ Exemplo para a rede do alarme ),,,( ),,(*),|(*)|(*)|()|(),|()()( ),,(*),|(*)|(*)|(*)|(*),|(*)(*)( ),,(*),|(*)|(*)|(*)|(*),|(*)(*)()( ),,(*),|(*)|(*)|(*)|(*),|(*)(*)()( ),,,( ),,,,( ),,,,,( ),,,,,,( CCkSsRf CCkFUSCkSsPLRPALPFSPFTAPFPTP CCkFUSCkSsPLRPALPFSPFTAPFPTP CCkFUSCkSsPLRPALPFSPFTAPFPTPUE CCkFUSCkSsPLRPALPFSPFTAPFPTPUE RSsUTFASL T CCkSsRf F CFCkSsRf A CFCkSsRAf S CFSCkSsRAf L T F A S L RSsUFASL RSsUASL RSsUSL RSsUL = = = = = ∑ ∑ ∑ ∑ ∑ ∑∑∑∑∑ ∑ Exemplo para a rede do alarme Exemplo para a rede do alarme l fTFASLRSsU(R,Ss,Ck,C) = l Deste fator, podemos criar uma função de decisão ótima para Call, selecionando o valor de Call que maximiza Valor para cada associação das variáveis pais. : Quando R=T, Ss=T e Ck=T, chamaremos os bombeiros com utilidade esperada -1,33. Report CheckSmoke SeeSmoke Call Valor T T T T -1,33 T T T F -29,30 T T F T 0 T T F F 0 T F T T -4,86 T F T F -3,68 ... ... ... .. ... Exemplo para a rede do alarme l fTFASLRSsU(R,Ss,Ck,C) = l Deste fator, podemos criar uma função de decisão ótima para Call, selecionando o valor de Call que maximiza Valor para cada associação das variáveis pais. : Quando R=T, Ss=T e Ck=T, chamaremos os bombeiros com utilidade esperada -1,33. Report CheckSmoke SeeSmoke Call Valor T T T T -1,33 T T T F -29,30 T T F T 0 T T F F 0 T F T T -4,86 T F T F -3,68 ... ... ... .. ... Exemplo para a rede do alarme Função de decisão ótima para Call Report CheckSmoke SeeSmoke Call Valor T T T T -1,33 T T F T 0 T F T F -3,68 ... ... ... .. ... Fator resultante da maximização de Call Report CheckSmoke SeeSmoke Valor T T T -1,33 T T F 0 T F T -3,68 ... ... ... ... Exemplo para a rede do alarme l Somando-se a próxima variável randômica temos: l Deste fator, podemos criar uma função de decisão ótima para CheckSmoke, selecionando o valor de CheckSmoke que maximiza Valor para cada associação das variáveis pais. : Quando R=T, checamos por fumaça com utilidade esperada -5,01. Fator resultante da soma de SeeSmoke Report CheckSmoke Valor T T -5,01 T F -5,65 F T -23,77 F F -17,58. Exemplo para a rede do alarme l Somando-se o fator final sobre Report, temos o valor da = -22,6. Função de decisão ótima para CheckSmoke Report CheckSmoke T T F F Fator resultante da maximização de CheckSmoke Report Valor T -5,01 F -17,58 Valor da Informação ¨ O X para a decisão D é a utilidade da rede com um arco de X para D (+ os arcos de não esquecimento) menos a utilidade da rede sem o arco. ¨ O valor da informação é sempre não-negativo. Ele é positivo somente se o agente altera sua ação dependendo de X. ¨ O valor da informação fornece um limite sobre quanto um agente deve estar preparado para pagar por um sensor. ¤ Quanto uma previsão meteorológica melhor vale a pena? ¨ Temos de ter cuidado ao adicionar um arco para não criar um ciclo. ¤ Por exemplo, quanto valeria a pena conhecer se o carro de bombeiros vai chegar rapidamente ao decidir se deve chamá-los? Valor do Controle ¨ O de uma variável X é o valor da rede ao tornar X uma variável de decisão (e adicionar arcos de não esquecimento) menos o valor da rede quando X é uma variável aleatória. ¨ Você precisa ser explícito sobre que informação estará disponível quando você controla X. ¨ Se você controlar X sem observação, controlar o X pode ser pior do que observar X. ¤ e.g., controlando um termômetro. ¨ Se você mantiver os mesmos pais, o valor do controle é sempre não- negativo.
Compartilhar