Buscar

11-Decisoes_sobre_incerteza

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 59 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 59 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 59 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

DECISÕES SOBRE INCERTEZA 
 
 
 
 
• P 
• David Poole, Alan Mackworth e Randy Goebel - “Computational Intelligence – A logical approach” – cap 10. 
• Stuart Russel e Peter Norving - “Inteligência Artificial” - cap 16. 
 
Preferências de um agente 
¨  Ações resultam em resultados. 
¤  Agentes têm preferência sobre os resultados. 
¤  Um agente racional realizará a ação que tem o melhor resultado 
para ele. 
¨  Algumas vezes agentes não conhecem os resultados das ações, 
mas eles ainda precisam comparar ações. 
¤  Agentes têm de agir (não fazer nada é (muitas vezes) uma ação). 
Uma teoria sobre Preferências 
¨  Se o1 e o2 são resultados: 
¤  significa que o1 é pelo menos tão desejável quanto 
o2. 
¤  o1 ~ o2 significa que e . 
¤  significa que e / . 
o2 o1
o2 o1
Loterias 
¨  Um agente pode não saber os resultados de suas ações, mas pode ter uma 
distribuição de probabilidade dos resultados. 
¨  Uma é uma distribuição de probabilidade sobre os resultados. 
Ela é escrita como: 
 [p1 : o1, p2 : o2, ... , pk : ok] 
 
 onde os oi são os resultados e pi > 0 tal que: 
 
 ∑i pi = 1 
 A loteria especifica que o resultado oi ocorre com probabilidade pi. 
 
¨  Quando falamos sobre os resultados, incluímos loterias. 
Propriedades das preferências 
: Os agentes devem agir, portanto eles devem 
ter preferências: 
 
 
 
: Preferências devem ser transitivas: 
 
 caso contrário e e o3 ≻ o1. Se eles estão 
 dispostos a pagar para obter de o1 para o3 → bomba de 
 dinheiro. (Da mesma forma para misturas de ≻ e ) 
122121 oooooo  or∀∀
313221 ooentãoooeoose 
o1o2 32 oo 

Propriedades das preferências 
: Um agente prefere uma maior chance 
de conseguir um resultado melhor do que a menor chance: 
¤  Se o1 ≻ o2 e p > q então 
 
 [p : o1, 1 - p : o2] ≻ [q : o1, 1 - q : o2] 
Propriedades das preferências cont. 
: Suponha que o1 ≻ o2 e o2 ≻ o3, então existe 
um p ∈ [0, 1] tal que: 
 o2 ~ [p:o1,1- p:o3] 
 
: (nenhuma diversão em jogos de azar). 
Um agente é indiferente entre loterias que têm as mesmas 
probabilidades e resultados. Isso inclui loterias sobre loterias. 
Por : 
 [p : o1, 1 - p : [q : o2, 1 - q : o3]] 
 ~ [p : o1, (1 – p)q : o2, (1- p)(1- q) : o3] 
Propriedades das preferências cont. 
: se o1 ~ o2 então o 
agente é indiferente entre loterias que diferem apenas por o1 
e o2: 
 [p : o1, 1 - p : o3] ~ [p : o2, 1 - p : o3] 
 
 
Definição alternativa: 
: se então o 
agente fracamente prefere loterias que contêm o1 em vez de 
o2, tudo sendo igual. 
¨  Ou seja, para qualquer número p e o resultado o3 : 
 [p : o1, (1 - p) : o3] [p : o2, (1 - p) : o3] 
 

o1o2
O que gostaríamos 
¨  Gostaríamos que uma medida de preferência que pode ser 
combinada com probabilidades. De forma que: 
 valor([p : o1, 1 - p : o2]) 
 = p × valor(o1) + (1 - p) × valor(o2) 
¨  Dinheiro não age desta forma. O que você prefere: 
 R$1, 000, 000 ou [0.5 : R$0; 0.5 : R$2, 000, 000]? 
¨  Pode parecer que as preferências são demasiado complexas 
e mutifacetadas para ser representadas por números únicos. 
Utilidade em função do dinheiro Utility as a function of money
!" !#$"""$"""
%&'('&)
"
*
+',-./012,1
+',-
.314
&2/(
+',-.,11-'35
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 9.1, Page 18
Teorema 
¨  Se as preferências seguem as propriedades anteriores, então 
elas podem ser medidas por uma função: 
 : resultados → [0, 1] 
 tal que: 
¨  se e somente se utilidade(o1) ≥ utilidade(o2). 
¨  utilidades são lineares com as probabilidades: 
 
o1o2
Prova 
¨  Se todos os resultados são igualmente preferidos, defina 
utilidade(oi) = 0 para todos os resultados oi. 
¨  Caso contrário, suponha que o melhor resultado é melhor e o 
pior resultado é pior. 
¨  Para qualquer resultado oi, defina utilidade(oi) como o número 
ui tal que: 
 oi ~ [ui : melhor, 1- ui : pior] 
¨  Isso existe pela propriedade de Continuidade. 
Prova cont. 
¨  Suponha que e utilidade(oi) = ui, então pela 
propriedade de Substituição, 
 [u1 : melhor, 1- u1 : pior] [u2 : melhor, 1- u2 : pior] 
¨  o que, por Completude e Monotonicidade implica u1 ≥ u2. 
¨  Suponha que p = utilidade([p1 : o1, p2 : o2, ..., pk : ok]). 
¨  Suponha que utilidade(oi) = ui . Nos sabemos que: 
 oi ~ [ui : melhor, 1 - ui : pior] 
o1o2

Prova cont. 
¨  Pela propriedade da Substituição, podemos substituir cada oi por [ui : melhor,1- ui : 
pior], portanto: 
 
 p = utilidade( [ p1 : [u1 : melhor, 1 - u1 : pior] 
 … 
 pk : [uk : melhor, 1 - uk : pior] ] ) 
 
¨  Pela propriedade de Decomposição, isto é equivalente a: 
 p = utilidade( [ p1u1+ … + pkuk 
 : melhor, 
 p1(1 - u1) + … + pk(1- uk) 
 : pior]]) 
¨  Portanto, pela definição de utilidade, 
 p = p1 × u1 + … + pk × uk 
 
Representação fatorada da utilidade 
¨  Suponha que os resultados podem ser descritos em termos de 
características X1, … , Xn. 
¨  Uma é aquela que pode ser decomposta 
em um conjunto de fatores: 
 u(X1, . . . , Xn) = f1(X1) + ... + fn(Xn). 
 
 isso supõe . 
 
: cada recurso tem um valor melhor e pior que 
não depende de outros recursos. 
Utilidade aditiva 
¨  Uma utilidade aditiva tem uma representação canônica: 
 u(X1, … , Xn)= w1 . u1(X1) + … + wn . un(Xn). 
¨  Se melhori é o melhor valor de Xi, ui(Xi = melhori) = 1. 
¨  Se piori é o pior valor de Xi, ui(Xi = piori) = 0. 
¨  wi são pesos, ∑i wi = 1. Os pesos refletem a importância relativa de 
recursos. 
 
¨  Podemos determinar pesos, comparando os resultados. 
 w1 = u(melhor1, x2, … , xn) - u(pior1, x2, … , xn). 
 
 para qualquer valor x2, … , xn of X2, … , Xn. 
Complementos e Substitutos 
¨  Muitas vezes aditiva independência não é uma boa suposição. 
¨  Valores x1 da característica X1 e x2 da característica X2 são 
se ter ambos é melhor do que a soma dos dois. 
¨  Valores x1 da característica X1 e x2 da característica X2 são 
se ter ambos é pior do que a soma dos dois. 
: em um feriado você recebe um proposta de fazer 
u  Uma excursão por 6 horas norte no dia 3. 
u  Uma excursão por 6 horas a sul no dia 3. 
 
Exemplo: em um feriado 
Uma viagem para um local a 3 horas ao norte no dia 3. 
A viagem de retorno para o mesmo dia. 
Complementos e Substitutos 
¨  Muitas vezes aditiva independência não é uma boa suposição. 
¨  Valores x1 da característica X1 e x2 da característica X2 são 
se ter ambos é melhor do que a soma dos dois. 
¨  Valores x1 da característica X1 e x2 da característica X2 são se 
ter ambos é pior do que a soma dos dois. 
de : em um feriado você recebe um proposta para fazer: 
u  Uma excursão por 6 horas norte no dia 3. 
u  Uma excursão por 6 horas a sul no dia 3. 
de : em um feriado você recebe um proposta para 
fazer: 
u  Uma viagem para um local a 3 horas ao norte no dia 3. 
u  A viagem de retorno para o mesmo dia. 
Utilidade aditiva generalizada 
¨  Uma utilidade aditiva generalizada pode ser escrita como 
uma soma de fatores: 
 u(X1, … , Xn) = f1(X1) + … + fk(Xk) 
 na qual Xi ⊆ {X1, … , Xn}. 
 
¨  É difícil de encontrar uma representação canônica intuitiva 
neste caso, porém ela pode representar complementos e 
substitutos. 
Tomada de decisões sob incerteza 
¨  : Domínio do robô de entrega 
: Problema no domínio do robô de 
entrega 
l  Considere o problema de ir de para no qual existe a chance de 
que o robô saia do curso e caia nas escadas. 
l  Podemosvestir almofadas no robô. 
l  Isto não muda a probabilidade de acidente, mas pode deixá-lo menos severo. 
l  Mas as almofadas acrescentam peso extra. 
l  O robô também pode fazer o caminho mais longo. 
l  Isto reduz a probabilidade de acidente. 
l  Mas faz a viagem mais lenta. 
l  Existe uma variável randômica booleana sobre a existência ou 
não de um acidente. 
: Árvore de decisão para o robô de 
entrega 
l  Para cada combinação das escolhas do agente, e se existe ou 
não um acidente, existe um resultado variando de severos 
prejuízos a chegar rapidamente sem peso extra. 
Qual decisão o agente deve tomar? 
l  Depende de alguns fatores: 
l  O quanto é importante chegar rapidamente? 
l  O quanto o peso das almofadas importa? 
l  O quanto importa reduzir os prejuízos de severos para 
moderados? 
l  O quanto um acidente é provável dado a forma que o robô 
chegará lá? 
l  Todas estas coisas podem parecer incomparáveis, 
mas quando o agente toma uma decisão, ele as 
compara implícita ou explicitamente. 
Tomada de decisões sob incerteza 
¨  O que um agente deve fazer depende da(s): 
— quais opções estão disponíveis 
para ele. 
— as formas que o mundo poderia ser, 
dado o conhecimento do agente. 
Sensoriamento atualiza crenças do agente. 
— o que o agente quer e quais as 
compensações quando há riscos. 
¨  A teoria da decisão especifica como balancear as 
conveniências e probabilidades dos resultados possíveis para 
ações concorrentes. 
Variáveis de decisão 
são como variáveis aleatórias que 
um agente obtém para escolher um valor. 
¨  Um mundo possível especifica um valor para cada variável de 
decisão e cada variável aleatória. 
¨  Para cada atribuição de valores para todas as variáveis de 
decisão, a medida do conjunto de mundos que satisfaçam essa 
atribuição somam 1. 
¨  A probabilidade de uma proposição é indefinida, a menos 
que o agente condicione sobre os valores de todas as 
variáveis de decisão. 
Exemplo: Variáveis de decisão 
l  Correspondem às escolhas de usar ou não almofadas e qual rota pegar. 
l  Existem oito mundos possíveis correspondentes aos oito caminhos da árvore 
de decisão. 
l  Cada um desses mundo tem uma utilidade para o agente. 
l  Para cada escolha existe a probabilidade sobre os dois mundos possíveis 
que o agente pode terminar. 
Exemplo: Variáveis de decisão 
l  : 
l  Variáveis de decisão correspondem aos vários tratamentos 
e exames. 
l  A utilidade pode depender dos medicamentos que o 
paciente toma, das doenças e alergias do paciente, das 
intervenções ocorridas e quando o tratamento acontece. 
l  A utilidade tipicamente depende tanto das variáveis de 
decisão quanto das variáveis randômicas. 
Valor esperado 
¨  O valor esperado de uma função de mundos possíveis é seu valor médio, 
ponderando mundos possíveis pela sua probabilidade. 
¨  Suponha que f(ω) é o valor da função f no mundo ω. 
¤  O de f é: 
¤  O de f dado e é: 
Utilidade 
¨  A utilidade é uma medida da conveniência dos mundos para 
um agente. Deixe u(ω) ser a utilidade do mundo ω para o 
agente. 
¨  Objetivos simples podem ser especificados por: mundos que 
satisfazem a meta tem utilidade 1; outros mundos têm 
utilidade 0. 
¨  Muitas vezes utilidades são mais complicadas: 
¤  Por , alguma função do montante dos danos em um 
robô, quanta energia resta. que objetivos são atingidos e 
quanto tempo demorou. 
Decisões Simples 
: o agente escolhe o valor para cada variável de 
decisão. 
l  Vamos compor a variável de decisão d como uma tupla de todas as variáveis 
de decisão originais. 
l  O agente pode escolher D = di para qualquer di ∈ dom(D). 
l  A da decisão d = di é : 
l  Uma é a decisão D = dmax cuja utilidade esperada 
é máxima: 
: Domínio do robô de entrega 
l  É um problema de decisão simples onde o robô tem que decidir sobre os 
valores das variáveis e . 
l  A decisão simples é uma variável complexa <vestir_almofadas, 
qual_caminho> 
l  Cada associação de valores para a decisão tem um valor esperado. 
l  Por , a utilidade esperada de: 
 vestir_almofadas = true ^ qual_caminho = curto é dada por: 
 
 E(U|vestir_almofadas=true ∧ qual_caminho=short) = 
 P(acidente|vestir_almofadas=true ∧ qual_caminho=short) x utilidade(w0) 
 + (1- P(acidente|vestir_almofadas=true ∧ qual_caminho=curto)) x utilidade(w1) 
Redes de decisão de estágio único 
¨  Estendem as redes de crença com: 
, para os quais o agente escolhe o valor. O domínio é o conjunto 
de ações possíveis. Desenhado como retângulo. 
, cujos os pais são as variáveis das quais depende a utilidade. 
Desenhado como um diamante. 
¤  Isso mostra explicitamente quais nós afetam se houver um acidente. 
Single-stage decision networks
Extend belief networks with:
Decision nodes, that the agent chooses the value for.
Domain is the set of possible actions. Drawn as rectangle.
Utility node, the parents are the variables on which the
utility depends. Drawn as a diamond.
Which Way
Accident
Utility
Wear Pads
This shows explicitly which nodes a�ect whether there is an
accident.
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 9.2, Page 7
Encontrando a melhor decisão 
¨  Suponha que as variáveis aleatórias são X1, …, Xn, e a utilidade depende 
de XI1, … , Xik 
 
¨  Para encontrar a melhor decisão: 
¤  Criar um fator para cada probabilidade condicional e para a utilidade. 
¤  Sumarize todas as variáveis aleatórias. 
¤  Isso cria um fator em D que dá a utilidade esperada para cada D. 
¤  Escolha o D com o valor máximo no fator. 
: Fatores iniciais 
Example Initial Factors
Which Way Accident Value
long true 0.01
long false 0.99
short true 0.2
short false 0.8
Which Way Accident Wear Pads Value
long true true 30
long true false 0
long false true 75
long false false 80
short true true 35
short true false 3
short false true 95
short false false 100
c�D. Poole and A. Mackworth 2010 Artificial Intelligence, Lecture 9.2, Page 9
Decisões sequenciais 
l  Um agente inteligente não faz decisões no escuro (sem observações), nem 
faz somente decisões simples. 
l  Um cenário mais típico é um no qual o agente observa, toma uma decisão 
condicionada à observação e age; observa, toma uma outra decisão 
condicionada à observação e age... 
l  Ações subsequentes podem depender do que é observado. 
l  O que é observado depende das ações anteriores. 
l  Às vezes a única razão para executar uma ação é fornecer informação 
para ações futuras. 
l  Por , testes de diagnóstico, espionagem... 
Decisões sequenciais 
l  Um é uma sequencia de variáveis de 
decisão d1, …, dn. 
l  Cada di tem um conjunto associado de variáveis chamado de 
escrito com πdi. 
l  πdi é a tupla de variáveis para as quais os valores serão conhecidos 
quando a decisão di é feita. 
l  Restrições são acíclicas porque o agente não tem como saber os 
resultados de ações futuras no momento de uma decisão. 
l  Uma é um conjunto δ de funções, uma para cada di, 
 δi: dom(πdi) → dom(di) 
l  A política significa que quando o agente observar O ∈ dom(πdi) ele irá fazer 
δ(O). 
Redes de Decisão 
l  Uma (ou ) é uma 
representação gráfica de um problema de decisão simples ou de um 
problema de decisão sequencial finito. 
l  Estendem redes de crença para incluir variáveis de decisão e utilidade. 
l  Especifica qual informação está disponível quando um agente tem que decidir. 
l  Especifica de quais variáveis a utilidade depende. 
l  São DAGs com três tipos de nós: variáveis randômicas, variáveis de decisão e 
de valor. 
Tipos de nós de uma Rede de Decisão 
l  De são desenhadas como umaelipse. 
l  São o mesmo tipo de nó de uma rede de crença. 
l  Tem variáveis randômicas, domínios e tabelas de probabilidade 
associadas a eles. 
l  De são desenhadas como um 
retângulo. 
l  São rotulados com variáveis de decisão para as quais os valores 
podem ser setados pelo tomador de decisão. 
l  Arcos entrando em um nó de decisão d representam informações 
disponíveis quando a decisão for feita (πd). 
l  De são desenhados como um losângulo. 
l  Representam a utilidade. Uma rede de decisão tem um único nó 
de valor. 
l  Arcos entrando no nó representam valores dos quais o valor da 
utilidade depende. 
Exemplo de Rede de Decisão 
¨  Mostrando explicitamente quais nós afetam a existência de um acidente. 
Exemplo de Rede de Decisão para a construção 
de um aeroporto 
Nós de variáveis randômicas e de decisão 
l  Cada nó de variável randômica está associado a uma distribuição 
condicional de probabilidade que é indexada pelo estado dos nós pais. 
l  Em redes de decisão os nós pais podem incluir nós que são variáveis aleatórias 
ou variáveis de decisão (local do aeroporto). 
l  Cada nó com uma variável randômica poderia fazer parte de uma grande 
rede de crença. 
l  Nós de variáveis de decisão representam pontos onde o tomador de 
decisão tem a possibilidade de escolher diferentes ações. 
: LocalAeroporto pode ter um valor diferente para cada local que está 
sendo considerado. 
l  A escolha influencia o custo, a segurança e o ruído resultantes. 
Nós de valor 
l  Nós de valor (ou de utilidade) representam a função de utilidade do 
agente. 
l  Tem como pais todas as variáveis que descrevem o resultado que afeta 
diretamente a utilidade. 
l  Associada a este nó temos uma descrição de utilidade do agente como uma 
função dos atributos do pai. 
Exercício: 
¨  Considere um caso simples de diagnóstico no qual um médico resolve primeiro 
escolher alguns testes e, em seguida, começa a tratar o paciente, tendo em 
conta os resultados dos testes. O motivo que o médico pode decidir fazer um 
teste é que algumas informações (os resultados do teste) estarão disponíveis na 
próxima fase quando o tratamento pode ser realizado. Os resultados do teste 
vão ser a informação que está disponível quando o tratamento é decidido, mas 
não quando o teste for decidido. Muitas vezes é uma boa ideia testar, mesmo 
se o próprio teste pode prejudicar o paciente. 
¨  As ações disponíveis são os testes possíveis e os possíveis tratamentos. Quando 
for tomada a decisão de teste, as informações disponíveis serão os sintomas 
exibidos pelo paciente. Quando for tomada a decisão de tratamento, as 
informações disponíveis serão os sintomas do paciente, que testes foram 
realizados e os resultados do teste. O efeito do teste é o resultado do teste, 
que depende de qual teste foi realizado e o que há de errado com o 
paciente. O efeito do tratamento é alguma função do tratamento e o que há 
de errado com o paciente. A utilidade inclui, por exemplo, os custos de testes e 
tratamentos, a dor e inconveniente para o paciente na curto prazo e o 
prognóstico a longo prazo. 
Rede de decisão para o diagnóstico 9.3. Sequential Decisions 389
Disease
Symptoms
Test Result
Test
Treatment
Utility
Outcome
Figure 9.8: Decision network for diagnosis
Suppose the utility function, Utility(Weather,Umbrella), is
Weather Umbrella Utility
norain takeIt 20
norain leaveIt 100
rain takeIt 70
rain leaveIt 0
There is no table specified for the Umbrella decision variable. It is the task of
the planner to determine which value of Umbrella to select, depending on the
forecast.
Example 9.12 Figure 9.8 shows a decision network that represents the sce-
nario of Example 9.10 (page 387). The symptoms depend on the disease. What
test to perform is decided based on the symptoms. The test result depends
on the disease and the test performed. The treatment decision is based on the
symptoms, the test performed, and the test result. The outcome depends on the
disease and the treatment. The utility depends on the costs and the side effects
of the test and on the outcome.
Note that the diagnostic assistant that is deciding on the tests and the treat-
ments never actually finds out what disease the patient has, unless the test re-
sult is definitive, which it typically is not.
Example 9.13 Figure 9.9 (on the next page) gives a decision network that is an
extension of the belief network of Figure 6.1 (page 237). The agent can receive
a report of people leaving a building and has to decide whether or not to call
the fire department. Before calling, the agent can check for smoke, but this has
some cost associated with it. The utility depends on whether it calls, whether
there is a fire, and the cost associated with checking for smoke.
In this sequential decision problem, there are two decisions to be made.
First, the agent must decide whether to check for smoke. The information that
will be available when it makes this decision is whether there is a report of peo-
ple leaving the building. Second, the agent must decide whether or not to call
the fire department. When making this decision, the agent will know whether
there was a report, whether it checked for smoke, andwhether it can see smoke.
Assume that all of the variables are binary.
Rede de Decisão para o problema do 
alarme 
Utilidade
check fire call valor
T T T -210
T T F -5010
T F T -210
T F F -10
F T T -200
F T F -5000
F F T -200
F F F 0
Política 
l  Uma especifica o que o agente deve fazer em certas situações. 
l  Consiste em um conjunto de , uma para cada variável de 
decisão. 
l  A função de decisão especifica um valor para a variável de decisão para cada 
atribuição de valores de seus pais. 
l  O agente quer encontrar uma , uma que maximiza sua 
utilidade esperada. 
l  Exemplo: possíveis políticas para o exemplo do alarme: 
l  Nunca checar por fumaça, e chamar os bombeiros somente se existir relatório. 
l  Sempre checar por fumaça, e chamar os bombeiros somente se existir fumaça. 
l  Checar por fumaça somente se existir relatório, e chamar os bombeiros somente 
se existir relatório e ver fumaça. 
Utilidade esperada de uma política 
l  Políticas podem ser comparadas pela utilidade esperada obtidas pela 
aplicação desta política. 
l  Uma agente deve adotar uma política que maximiza a utilidade esperada. 
l  Um mundo possível especifica um valor para cada variável randômica e de 
decisão. 
l  Um mundo possível satisfaz uma política se o valor de cada variável de 
decisão no mundo possível é o valor selecionado na função de decisão 
para aquela variável naquela política. 
l  ω|=δ significa que o mundo possível ω satisfaz a política δ. 
l  A utilidade esperada da política δ é: ∑
=
=
δω
ωωρδ
|
)(*),()( PUE
Política Ótima 
é uma política δ* para a qual E(δ*) ≥ E(δ) para todas 
as políticas. 
l  Isto é, uma política ótima é aquela para a qual a utilidade esperada é máxima 
entre todas as políticas. 
l  Suponha um nó de decisão binária que tem n pais binários. 
l  Existem y=2n diferentes associações de valores para os pais e, 
consequentemente, 2y diferentes possíveis funções de decisão para este nó. 
l  O número de políticas é o produto do número de funções de decisão para cada 
variável de decisão. 
l  Assim, um algoritmo que enumera todas as políticas e escolhe a melhor é 
totalmente ineficiente, mesmo para problemas pequenos. 
Como encontrar a política ótima 
l  Não precisamos enumerar todas as políticas, mas podemos 
usar para encontrá-la. 
l  A utilidade esperada é o produto das probabilidades e da utilidade 
da rede, quando as decisões são tomadas. 
l  Começaremos somando as variáveis que não são pais de um nó de decisão.l  A ideia é primeiro considerar a última decisão e encontrar uma decisão 
ótima para cada valor de seus pais, produzindo um fator destes valores 
máximos. 
l  A rede de decisão se torna, então uma nova rede com um nó de 
decisão a menos, que pode ser resolvida recursivamente. 
Rede de Decisão para o problema do 
alarme 
Utilidade
check fire call valor
T T T -210
T T F -5010
T F T -210
T F F -10
F T T -200
F T F -5000
F F T -200
F F F 0
),,,(
),,(*),|(*)|(*)|()|(),|()()(
),,(*),|(*)|(*)|(*)|(*),|(*)(*)(
),,(*),|(*)|(*)|(*)|(*),|(*)(*)()(
),,(*),|(*)|(*)|(*)|(*),|(*)(*)()(
),,,(
),,,,(
),,,,,(
),,,,,,(
CCkSsRf
CCkFUSCkSsPLRPALPFSPFTAPFPTP
CCkFUSCkSsPLRPALPFSPFTAPFPTP
CCkFUSCkSsPLRPALPFSPFTAPFPTPUE
CCkFUSCkSsPLRPALPFSPFTAPFPTPUE
RSsUTFASL
T
CCkSsRf
F
CFCkSsRf
A
CFCkSsRAf
S
CFSCkSsRAf
L
T F A S L
RSsUFASL
RSsUASL
RSsUSL
RSsUL
=
=
=
=
=
∑ ∑ ∑ ∑ ∑
∑∑∑∑∑
∑
  
  
  
  
Exemplo para a rede do alarme 
),,,(
),,(*),|(*)|(*)|()|(),|()()(
),,(*),|(*)|(*)|(*)|(*),|(*)(*)(
),,(*),|(*)|(*)|(*)|(*),|(*)(*)()(
),,(*),|(*)|(*)|(*)|(*),|(*)(*)()(
),,,(
),,,,(
),,,,,(
),,,,,,(
CCkSsRf
CCkFUSCkSsPLRPALPFSPFTAPFPTP
CCkFUSCkSsPLRPALPFSPFTAPFPTP
CCkFUSCkSsPLRPALPFSPFTAPFPTPUE
CCkFUSCkSsPLRPALPFSPFTAPFPTPUE
RSsUTFASL
T
CCkSsRf
F
CFCkSsRf
A
CFCkSsRAf
S
CFSCkSsRAf
L
T F A S L
RSsUFASL
RSsUASL
RSsUSL
RSsUL
=
=
=
=
=
∑ ∑ ∑ ∑ ∑
∑∑∑∑∑
∑
  
  
  
  
Exemplo para a rede do alarme 
Exemplo para a rede do alarme 
l  fTFASLRSsU(R,Ss,Ck,C) = 
l  Deste fator, podemos criar uma função de decisão ótima para Call, 
selecionando o valor de Call que maximiza Valor para cada associação das 
variáveis pais. 
: Quando R=T, Ss=T e Ck=T, chamaremos os bombeiros com utilidade 
esperada -1,33. 
Report CheckSmoke SeeSmoke Call Valor
T T T T -1,33
T T T F -29,30
T T F T 0
T T F F 0
T F T T -4,86
T F T F -3,68
... ... ... .. ...
Exemplo para a rede do alarme 
l  fTFASLRSsU(R,Ss,Ck,C) = 
l  Deste fator, podemos criar uma função de decisão ótima para Call, 
selecionando o valor de Call que maximiza Valor para cada associação das 
variáveis pais. 
: Quando R=T, Ss=T e Ck=T, chamaremos os bombeiros com utilidade 
esperada -1,33. 
Report CheckSmoke SeeSmoke Call Valor
T T T T -1,33
T T T F -29,30
T T F T 0
T T F F 0
T F T T -4,86
T F T F -3,68
... ... ... .. ...
Exemplo para a rede do alarme 
Função de decisão ótima para Call
Report CheckSmoke SeeSmoke Call Valor
T T T T -1,33
T T F T 0
T F T F -3,68
... ... ... .. ...
Fator resultante da maximização de Call
Report CheckSmoke SeeSmoke Valor
T T T -1,33
T T F 0
T F T -3,68
... ... ... ...
Exemplo para a rede do alarme 
l  Somando-se a próxima variável randômica temos: 
 
l  Deste fator, podemos criar uma função de decisão ótima para 
CheckSmoke, selecionando o valor de CheckSmoke que maximiza 
Valor para cada associação das variáveis pais. 
: Quando R=T, checamos por fumaça com utilidade esperada 
-5,01. 
Fator resultante da soma de SeeSmoke
Report CheckSmoke Valor
T T -5,01
T F -5,65
F T -23,77
F F -17,58.
Exemplo para a rede do alarme 
 
l  Somando-se o fator final sobre Report, temos o valor da 
 = -22,6. 
Função de decisão ótima para 
CheckSmoke
Report CheckSmoke
T T
F F
Fator resultante da maximização de 
CheckSmoke
Report Valor
T -5,01
F -17,58
Valor da Informação 
¨  O X para a decisão D é a utilidade da rede 
com um arco de X para D (+ os arcos de não esquecimento) menos a 
utilidade da rede sem o arco. 
¨  O valor da informação é sempre não-negativo. Ele é positivo somente se o 
agente altera sua ação dependendo de X. 
¨  O valor da informação fornece um limite sobre quanto um agente deve 
estar preparado para pagar por um sensor. 
¤  Quanto uma previsão meteorológica melhor vale a pena? 
¨  Temos de ter cuidado ao adicionar um arco para não criar um ciclo. 
¤  Por exemplo, quanto valeria a pena conhecer se o carro de bombeiros vai 
chegar rapidamente ao decidir se deve chamá-los? 
Valor do Controle 
¨  O de uma variável X é o valor da rede ao tornar 
X uma variável de decisão (e adicionar arcos de não esquecimento) menos 
o valor da rede quando X é uma variável aleatória. 
¨  Você precisa ser explícito sobre que informação estará disponível quando 
você controla X. 
¨  Se você controlar X sem observação, controlar o X pode ser pior do que 
observar X. 
¤  e.g., controlando um termômetro. 
¨  Se você mantiver os mesmos pais, o valor do controle é sempre não-
negativo.

Outros materiais