Programação dinâmica em tempo real para Processos de Decisão Markovianos com Probabilidades Imprecisas
Apresentação realizada em 28/11/2014 para a defesa de mestrado do aluno Daniel Baptista Dias, realizada no Instituto de Matemática e Estatística da Universidade de São Paulo
usados como um arcabouço padrão para problemas de planejamento probabilístico.  Eles modelam a interação de um agente em um ambiente, que executam ações com efeitos probabilísticos que podem levar o agente a diferentes estados. 3
 As probabilidades imprecisas são dadas através de parâmetros nas transições de estados restritas por um conjunto de inequações  Geralmente modelados de duas maneiras:  MDP-IP enumerativo: estados com informações autocontidas  MDP-IP fatorado: estados representados por variáveis de estado  Solução para MDP-IPs fatorados: SPUDD-IP  Algoritmo de programação dinâmica síncrona fatorada  Supera o algoritmo clássico enumerativo Iteração de Valor em duas ordens de magnitude 6
por Bertsekas e Tsitsiklis (1991)  Considera um estado inicial e um conjunto de estados meta  Soluções comuns para SSP MDPs  Algoritmos de programação dinâmica assíncrona  Exploram a informação de um estado inicial do problema  Obtêm uma política ótima parcial  Algoritmos conhecidos: RTDP e SSiPP  Short Sighted SSP MDPs (Trevizan, 2013)  São problemas menores criados a partir de SSP MDP 7
para SSP MDP-IPs com restrições gerais  Deve-se adaptar algumas características do (L)RTDP e (L)SSiPP para se criar estes algoritmos para SSP MDP-IPs  As principais são:  Como garantir a convergência de soluções de programação dinâmica assíncrona para SSP MDP-IPs?  Como amostrar o próximo estado no trial dadas as probabilidades imprecisas?  Como criar os Short-Sighted SSP MDP-IPs a partir de SSP MDP-IPs? 9
novos algoritmos assíncronos para resolver SSP MDP-IPs enumerativos e fatorados, estendendo os algoritmos (L)RTDP e (L)SSiPP para lidar com um conjunto de probabilidades no lugar de probabilidades precisas. 10
e Tsitsiklis, 1991), é uma tupla S, , , , , 0 em que:  é um conjunto finito de estados  é um conjunto finito de ações  ∶ × → ℛ+ é uma função de custo  (′|, ) define a probabilidade de transição de se alcançar um estado ′ ∈ a partir de um estado ∈ , executando a ação ∈  ⊆ é um conjunto de estados meta, definidos como estados de absorção. Para cada ∈ , (|, ) = 1 e (, ) = 0 para todo ∈  0 ∈ é o estado inicial 12
pressupostos (Bertsekas e Tsitsiklis, 1991):  Política apropriada: Cada ∈ deve ter ao menos uma política apropriada, i.e., uma política que garante que um estado meta é alcançado com probabilidade 1.  Política imprópria: Cada política imprópria deve ter custo ∞ em todos os estados que não podem alcançar a meta com probabilidade 1. 13
um subproblema originado de um SSP MDP com estados alcançados por ações aplicadas a partir de .  Medida de distância entre os estados é: , ′ = 0 , = ′ 1 + min ∈ min : , >0 , ′ , á 14
um subproblema originado de um SSP MDP com estados alcançados por ações aplicadas a partir de .  Medida de distância entre os estados é: , ′ = 0 , = ′ 1 + min ∈ min : , >0 , ′ , á Exemplo de um Short-Sighted SSP MDP enraizado em 0 com = 2 15
MDP enraizado em ∈ e com profundidade ∈ +é uma tupla , , , , , , , , , onde:  e são definidos como em SSP MDPs;  , = {′ ∈ | , ′ ≤ }  , = ′ ∈ , ′ = ∪ ∩ ,  , ′, , ′′ = ′, , ′′ + (′′) ′, , ′′ ′′∈,\G á  Onde () é uma heurística definida para o estado  Neste trabalho o custo será considerado dependente apenas de e , i.e., (′, ) e ′′ = 0 16
proposto por Barto et al (1995)  Solução de programação dinâmica assíncrona:  Simula uma política gulosa a partir do estado inicial (trial)  A cada visita de estado, seu valor é atualizado usando a equação de Bellman e uma simulação da execução da melhor ação é feita a fim de visitar outro estado 18
o algoritmo encontra um determinado estado meta  A convergência do algoritmo pode demorar  Estados visitados com menos frequência sofrem poucas atualizações 19
Bonet e Geffner (2003)  Melhora a convergência através da rotulação dos estados que convergiram  Características:  Os trials são interrompidos quando um estado rotulado é encontrado  Ao final de um trial, os estados visitados são atualizados se necessário e a convergência dos mesmos é verificada (através do procedimento CheckSolved) 20
, , , , , 0 onde:  , , , e 0 são definidos como qualquer SSP MDP; e  é um conjunto de conjuntos credais de transição, onde um conjunto credal de transição é definido para cada par de estado-ação, i.e., ≤ = S × A .  São assumidos os pressupostos de políticas apropriadas e impróprias. 23
jogos  Utilizada para definir o valor de uma política  Assume-se que existe outro agente no sistema, a Natureza  Ela escolherá uma distribuição de probabilidades em um conjunto credal assumindo algum critério  Critério minimax  O agente seleciona as ações que minimizam o custo futuro  A Natureza escolhe a probabilidade que maximiza o custo esperado do agente (i.e., a Natureza é adversária) 26
de Bellman para SSP MDP-IPs é: ∗ = min ∈ max ∈ (, ) + ′ , ∗(′) ′∈  Existe de valor de equilíbrio para um SSP game alternado (Patek e Bertsekas, 1999)  Este valor pode ser calculado para SSP MDP-IPs com a equação de Bellman 27
mesmas definições que os Short-Sighted SSP MDP, com uma tupla , , , , , , , , .  Porém , e , ao invés de ser definido por , ′ , será definido pela função , ′ : , ′ = 0 , = ′ 1 + min ∈ min : , >0∀∈(⋅|,) , ′ , á 29
fatorado é um SSP MDP-IP em que:  Os estados são especificados como uma atribuição conjunta para um vetor de variáveis de estado (1 , … , )  As redes credais dinâmicas (Cozman, 2000, 2005 , Delgado et al, 2011) são utilizadas para representar a função de transição  Os PADDs (Delgado et al, 2011) podem ser usados para representar a função de transição 30
pode ser criado através de um fatorado pelo cálculo da probabilidades de transição conjunta: ′ , = ( ′| ′ , ) =1  As probabilidades de transição deste novo SSP MDP-IP enumerativo não serão mais lineares, pois podem envolver multiplicação de parâmetros 32
as seguintes alterações:  O Bellman backup para o estado atual visitado é executado considerando o critério minimax  A escolha do próximo estado é feita considerando as probabilidades imprecisas, isto é, dado uma ação gulosa, primeiro os valores para cada são escolhidos, sujeitos ao conjunto de restrições , para depois realizar a escolha real 35
MDPs, com as seguintes alterações:  O Bellman backup para o estado atual visitado é executado considerando o critério minimax  A escolha do próximo estado é feita considerando as probabilidades imprecisas, isto é, dado uma ação gulosa, primeiro os valores para cada são escolhidos, sujeitos ao conjunto de restrições , para depois realizar a escolha real 37
valor das probabilidades imprecisas pode ser feita de três formas:  Utilizando o mesmo valor computado pelo Bellman update (método minimax_parameter_choice)  Calculando um valor aleatório válido a cada visita de um estado durante o trial (método rand_parameter_choice)  Calculando um valor válido pré determinado apenas uma vez no início do algoritmo (método predefined_parameter_choice) 39
 rand_parameter_choice  predefined_parameter_choice  Procedimento:  Os vértices do conjunto credal (⋅ |, ) são enumerados através do software LRS;  Um ponto aleatório é amostrado como uma combinação linear de (Devroye, 1986) como: = × =0 40
Buffet e Aberdeen (2005)  Que por sua vez estende a prova de Barto et al. (1999)  Os seguintes pontos são provados para garantir a convergência do RTDP-IP:  O operador (Bellman Backup) é uma contração (Patek e Bertsekas, 1999)  A admissibilidade da função valor é mantida durante a execução do algoritmo  Ao realizar repetidos trials nos estados relevantes utilizando qualquer método de amostragem do próximo estado, o RTDP-IP converge. 41
O critério de parada do algoritmo e parada do trial são idênticos ao LRTDP  No fim de cada trial é verificado se o estado pode ser rotulado como resolvido através do método CheckSolved-IP  Ao se buscar os estados sucessores no CheckSolved-IP, considera-se todas as transições parametrizadas diferentes de 0 (zero) 42
que atualiza um estado por vez  Implementa o Bellman Update e a seleção do próximo estado de forma fatorada +1 = ∈ +1( , ) +1 , = ( , , ) ⊕ max ∈ ⊗=1 (( ( ′| 1 ′ , ), ) ⊗ (′) 1 ′ ,⋅, ′  O factLRTDP-IP também realiza as operações de forma fatorada, porém com chamadas ao método factCheckSolved-IP 43
 Ao segmentar um SSP MDP-IP ele gera um Short-Sighted SSP MDP-IP e chama um solver para SSP MDP-IPs para resolvê-lo  Ao simular a política devolvida pelo solver, ele leva em consideração os métodos de amostragem de próximo estado apresentados no RTDP-IP  O LSSiPP-IP considera os mesmos pontos e também utiliza o método CheckSolved-IP para rotular os estados resolvidos, considerando as probabilidades imprecisas. 44
os algoritmos assíncronos RTDP-IP, LRTDP-IP, factRTDP-IP e factLRTDP-IP com o algoritmo síncrono estado- da-arte SPUDD-IP  Outro comparando os algoritmos assíncronos LRTDP-IP e LSSiPP-IP  Todos os algoritmos foram comparados em relação a:  Tempo de Convergência  Taxa de Convergência  Chamadas ao Solver 46
domínios:  Navigation (IPPC-2011)  Relaxed Triangle Tireworld (IPPC-2005)  SysAdmin, topologia Uniring (Guestrin et al, 2003)  Todos os domínios foram adaptados para SSP MDP-IPs, a partir do RDDL e do PPDDL.  Em domínios com deadends, todos os algoritmos tem tratamento para detectá-los. 47
domínios:  Navigation (IPPC-2011)  Relaxed Triangle Tireworld (IPPC-2005)  NoRelaxed Triangle Tireworld (IPPC-2005)  A execução do LSSiPP-IP é feita com = 1, 3, 5 .  Os algoritmos utilizam o minimax_parameter_choice.  A detecção de deadends é realizada da mesma forma que no experimento anterior. 54
para SSP MDP-IPs  Criação de métodos de amostragem para o próximo estado  Algoritmos de programação dinâmica assíncrona para Short-Sighted SSP MDP-IP 58
que o SPUDD-IP em até três ordens, resolvendo problemas com até 120 variáveis  Esta melhoria não se aplica em domínios densos  Os diferentes métodos de amostragem não interferem no tempo de execução dos algoritmos  O LSSiPP-IP não consegue ser melhor que o LRTDP-IP, não reproduzindo o comportamento observado em SSP MDPs 59
(Kolobov et al, 2010)  Propor novas funções valor admissíveis para Short- Sighted SSP MDP-IPs  Adaptar outros algoritmos assíncronos de SSP MDPs para os SSP MDP-IPs  Investigar abordagens Bayesianas para SSP MDP-IPs 60
Bradtke e Satinder P. Singh. Learning to act using real-time dynamic programming. Artificial Intelligence, 72:81 - 138. ISSN 0004-3702.  Bertsekas e Tsitsiklis(1991) Dimitri P. Bertsekas e John N. Tsitsiklis. An analysis of stochastic shortest path problems. Math. Oper. Res., 16(3):580 - 595. ISSN 0364-765X.  Bonet e Geffner(2003) B. Bonet e H. Geffner. Labeled RTDP: Improving the convergence of real-time dynamic programming. Proceedings of 2003 International Conference on Automated Planning and Scheduling, páginas 12-21.  Buffet e Aberdeen(2005) Olivier Buffet e Douglas Aberdeen. Robust planning with LRTDP. Em Proceedings of 2005 International Joint Conference on Artificial Intelligence, páginas 1214-1219. 61
120:199-233.  Cozman(2005) F. G. Cozman. Graphical models for imprecise probabilities. International Journal of Approximate Reasoning, 39(2-3):167-184.  Delgado et al.(2011) Karina Valdivia Delgado, Scott Sanner e Leliane Nunes de Barros. Efficient solutions to factored MDPs with imprecise transition probabilities. Artificial Intelligence, 175:1498 - 1527. ISSN 0004-3702  Devroye(1986) Luc Devroye. Non-Uniform Random Variate Generation. Springer-Verlag. 62
Parr e Shobha Venkataraman. Efficient solution algorithms for factored MDPs. Journal of Artificial Intelligence Research, 19:399-468.  Holguin(2013) Mijail Gamarra Holguin. Planejamento probabilístico usando programação dinâmica assíncrona e fatorada. Dissertação de Mestrado, IME-USP.  Patek e Bertsekas(1999) Stephen D Patek e Dimitri P Bertsekas. Stochastic shortest path games. SIAM Journal on Control and Optimization, 37(3):804-824.  Trevizan(2013) Felipe W Trevizan. Short-sighted Probabilistic Planning. Tese de Doutorado, Carnegie Melon. 63