Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Mean-Variance RL (JAFEE 2023)

Avatar for MasaKat0 MasaKat0
August 17, 2023

Mean-Variance RL (JAFEE 2023)

JAFEE 2023

Avatar for MasaKat0

MasaKat0

August 17, 2023
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. Mean-Variance Efficient Reinforcement Learning 平均分散効率匷化孊習 JAFEE 2023 倏季倧䌚 加藀真倧 䞭川慧

    阿郚拳之 森村哲郎 https://arxiv.org/abs/2010.01404 https://speakerdeck.com/masakat0/mean-variance-rl-jafee-2023
  2. 動孊的最適化 Ø系列𝑡 = 1,2, 
 , 𝑛における゚ヌゞェントの意思決定問題 n 各期𝑡においお゚ヌゞェントはその期の状態に基づいお行動を遞び察応する報酬を埗る n

    ゚ヌゞェントの行動を決める関数を方策ず呌ぶ n ゚ヌゞェントの目暙は𝑡 = 1,2, 
 , 𝑛における环積報酬の最倧化 䟋動孊的ポヌトフォリオ最適化 • 各期𝑡 = 1,2, 
 , 𝑛においおある方策に基づいおポヌトフォリオを最適化する • ポヌトフォリオの構成を倉えるず取匕コストが生じる • 环積報酬を最倧化する方策を孊習する 2
  3. 匷化孊習 n 䞀般的な匷化孊習(Reinforcement Learning; RL)  リスク䞭立的な意思決定者を想定 • 期埅环積報酬の最倧化 n

    リスク回避的な意思決定者を想定环積報酬の分散も考慮ex. 平均分散ポヌトフォリオ →平均分散Mean-Variance; MVトレヌドオフも考慮するRL n 平均分散トレヌドオフ. ⬆ 期埅环積報酬を倧きくする → ⬆ 环積報酬の分散も倧きくなる ⬇ 环積報酬の分散を小さくする → ⬇ 期埅环積報酬も小さくなる n 环積報酬の分散も䜕らかの圢で目的関数に導入する • 叀兞的な平均分散ポヌトフォリオのような蚭定をRLの文脈で再考察 3
  4. 問題蚭定マルコフ決定過皋 n 未知の動孊的・確率的な環境ず関わる゚ヌゞェントを考える n 環境は離散時間マルコフ決定過皋Markov decision processMDPによっおモデル化 n MDPを組(𝒮, 𝒜,

    𝑟, 𝑃, 𝑃!)ずしお定矩する • 状態の集合𝒮. • 行動の集合𝒜. • 確率的な報酬関数𝑟: 𝒮×𝒜 → ℝ状態ず行動に察応しお報酬確率倉数を決める • 遷移カヌネル𝑃: 𝒮×𝒮×𝐎 → [0, 1] ある状態𝑠 ∈ 𝒮のもずで行動𝑎 ∈ 𝒜を遞んだ堎合に状態𝑠! ∈ 𝒮に遷移する確率は𝑃(𝑠, 𝑠!, 𝑀) • 初期状態の分垃𝑃" : 𝒮 → [0,1]最初の状態𝑠を䞎える関数 5
  5. 問題蚭定方策関数 n ゚ヌゞェントは方策関数に埓っお行動する • ニュヌラルネットワヌクのように䜕かのパラメヌタで特城づけられる方策を考える n 方策関数𝜋": 𝒜×𝒮 → [0,1]∑#∈𝒜

    𝜋" 𝑎 𝑥 = 1 • ある状態𝑠においお行動𝑎を遞択する確率 • パラメヌタ𝜃 ∈ Θで特城づけられおいる • デヌタを甚いお方策𝜋" を孊習する最適な𝜋" を埗る • ある目的関数に察しお募配法を甚いお最適化する方策募配法 6
  6. 問題蚭定环積報酬 n 各期の状態ず行動が(𝑆&, 𝐎&)であるずき1期から𝑛期たでの环積報酬は 𝐺 ≔ @ '() * 𝛟'+)𝑟

    𝑆', 𝐎' . • 割匕因子𝛟 ∈ (0, 1] n ある方策𝜋" のもずでの期埅報酬𝔌,# [𝐺] n ある方策𝜋" のもずでの分散𝕍,# [𝐺] Ø泚蚘𝛟 = 1の堎合方策が「正則」である必芁がある • Proper゚ヌゞェントはある状態𝑠∗に確率1で到達しその埌は報酬が0 7
  7. 問題蚭定平均分散トレヌドオフ n 通垞の匷化孊習 • 𝔌,# [𝐺]を最倧化するように方策𝜋" を孊習する n 平均分散のトレヌドオフを考慮する匷化孊習 •

    𝔌,# [𝐺]の最倧化だけでなく 𝕍,# [𝐺]も考慮しお方策𝜋" を孊習する • 䟋平均分散ポヌトフォリオ → 期埅环積報酬を枛少させる代わりに分散も枛少させたい 8
  8. 制玄付き最適化によるアプロヌチ Ø䟋Tamar et al. (2012) n 制玄付き最適化を眰則付き最適化に倉換しお解く • 目的関数適圓な眰則𝜆 >

    0に察しお max"𝔌,# 𝐺 + 𝜆 𝕍,# 𝐺 − 𝜂 . n ある系列から埗られるデヌタから募配∇" max"𝔌,# 𝐺 + 𝜆 𝕍,# 𝐺 − 𝜂 . を蚈算 n 募配を甚いおパラメヌタを曎新 10
  9. 制玄付き最適化によるアプロヌチ Double Sampling Issue n 分散を甚いる制玄付き最適化をRLで扱う堎合に生じる蚈算掚定䞊の問題 ØDouble sampling issue二重サンプリング問題 n

    分散由来の募配∇"𝕍,# 𝐺 を掚定するために系列𝑡 = 1,2, 
 , 𝑛を二぀生成するこずが必芁 • ∇"𝕍,# 𝐺 = 𝔌,# 𝐺. ∑'(! & ∇" log 𝜋"(𝐎&|𝑆&) − 2𝔌,# 𝐺 ∇"𝔌,# 𝐺 . • 䌌た事䟋サンプルサむズが1の堎合に分散を掚定するこずができない • 募配のサンプル近䌌には耇雑な操䜜が必芁 → 😚 蚈算負荷😚 アルゎリズムの性胜 11
  10. 制玄付き最適化によるアプロヌチ Double Sampling Issue n 分散𝕍,# 𝐺 の存圚が問題を難しくしおいる → 分散を目的関数に盎接取り入れるこずによっおこの問題が生じる

    n Double sampling issueに察する取り組み • Tamar et al. (ICML 2012): REINFORCE法を甚いる制玄付き最適化 • Prashanth et al. (NeurIPS 2013): Actor-Critic法を甚いる制玄付き最適化 • Xie et al. (NeurIPS 2018)ルゞャンドル倉換を甚いお緩和する制玄付き最適化 → どの手法も分散の近䌌に関しお耇雑な手順が必芁になる n 本研究では分散を陜に甚いずに平均分散トレヌドオフの考慮を行う方法・枠組みを考える 12
  11. 平均分散効率RL n 平均分散効率RLMean-Variance-efficient RLを新しいRLの枠組みずしお提案する n 平均分散Pareto効率的な方策を埗るこずを考える • 环積報酬の分散𝕍,# 𝐺 を増倧させずに

    期埅环積報酬𝔌,# 𝐺 を倧きくできない方策 • 期埅环積報酬𝔌,# 𝐺 を小さくさせずに 环積報酬の分散𝕍,# 𝐺 を枛らせない方策 n 平均分散効率RLでは方策が平均分散の効率的フロンティア 平均分散効率的な方策の集合に䜍眮する方策の孊習が目暙 n 平均分散効率RLは分散の掚定を避けお実珟するこずができる 13
  12. 期埅二次効甚関数の最倧化 n 叀兞的な知芋 • 期埅二次効甚を最倧化するポヌトフォリオは平均分散で効率的フロンティア䞊に䜍眮する → この結果をRLに拡匵する Ø期埅二次効甚最倧化RLExpected Quadratic Utility

    Maximization RL; EQUMRL). n 以䞋の目的関数期埅二次効甚を最倧化する 𝔌,# 𝑢 𝐺; 𝛌, 𝛜 = 𝛌𝔌,# 𝐺 − 1 2 𝛜𝔌,# 𝐺. . • 𝑢(𝐺; 𝛌, 𝛜)はパラメヌタ𝛌 > 0ず𝛜 ≥ 0を䌎う二次効甚関数 n 目的関数に分散𝕍,# 𝐺 が含たれおいない → Double sampling issueが生じない 14
  13. 期埅二次効甚関数最倧化 ØEQUMRLに関する解釈 n 平均分散トレヌドオフ • 期埅二次効甚を最倧化する方策は平均分散の効率的フロンティア䞊に䜍眮する n 経枈孊的解釈効甚関数の最倧化 n タヌゲット孊習

    • 期埅二次効甚を最倧化するこずは達成したい环積報酬のタヌゲット倀𝜁 > 0を定めおそ のタヌゲット𝜁ず环積報酬の期埅二乗誀差を最小化するこずず同倀 arg max " 𝔌,# 𝑢 𝐺; 𝛌, 𝛜 = arg min " 𝔌,# 𝜁 − 𝐺 . . 15
  14. 実装 n 適圓なパラメヌタのもずでEQUMRLは目的関数を定めおいるだけ → 最適化の方法には色々な候補がある ØEQUMRLはさたざたなRLの手法REINFORCE法やActor-Critic法ず組み合わせお実装可胜 n REINFORCE法を甚いおEQUMRLを行う堎合. • 以䞋の募配を甚いおパラメヌタを曎新する

    • ] ∇𝔌,# 𝑢 𝐺; 𝛌, 𝛜 = 𝛌 ^ 𝐺 − ) . 𝛜 ^ 𝐺. ∑&() * ∇" log 𝜋" 𝑆&, 𝐎& ここで ^ 𝐺 = ∑&() * 𝛟&+) 𝑟(𝑆&, 𝐎&) and ^ 𝐺. = ∑&() * 𝛟&+) 𝑟 𝑆&, 𝐎& . Ì状態に「過去の報酬」を代入する必芁がある 16
  15. 䟋動孊的ポヌトフォリオ最適化 ØEQUMRLはポヌトフォリオ最適化に応甚可胜 • 静孊的な平均分散ポヌトフォリオの自然な拡匵 n 制玄条件などを甚いる静孊的なポヌトフォリオ最適化 n 動孊的最適化では分散の募配の掚定のために蚈算が困難に → 期埅二次効甚の最倧化

    n 泚蚘分䜍点を考慮する匷化孊習では時間䞍敎合time inconsistencyの問題が生じるこずが 知られおいる平均分散では時間䞍敎合の問題は生じない • 時間䞍敎合ある時点での最適蚈画がその埌の時点の最適蚈画ず必ずしも䞀臎しない 17
  16. 実隓 Ø金融の問題を事䟋に実隓 n 方策𝜋" ニュヌラルネットワヌク n 状態珟圚の保有資産過去の資産䟡栌の系列その時点たでの环積報酬の平均ず分散 • 時系列モデルの掚定は行わない本圓はした方がいい n

    行動ある資産を買うか売るか保持するか Ø実隓 • オプション取匕に関する数倀実隓 • ポヌトフォリオ運甚に関する実デヌタを甚いるシミュレヌション実隓 18
  17. 貢献ず結論 Ø平均分散トレヌドオフを考慮した動孊的意思決定問題 n Tamar et al. 2012らが報告しおいるdouble sampling issue n

    期埅二次効甚の最倧化ではdouble sampling issueは発生しない • 叀兞的な結果ずしお期埅二次効甚関数を最倧化する方策はざっくりず平均分散トレヌドオフに関しお効率的 • 静孊的な平均分散最適化ず異なり制玄付き最適化ず比范しお期埅二次効甚最倧化に利点 n 提案法はREINFORCEやActor-CriticなどのRLの孊習手法ず組み合わせるこずができる • REINFORCE法に関しお サンプル近䌌された期埅二次効甚を最倧化する方策が挞近的に最適な方策に収束するこずを蚌明 • Actor-Critic法に関しお募配の蚈算が少し耇雑double sampling issueよりは簡単 21
  18. Take-Home Message n 静孊的な蚭定では制玄付き最適化で最適なポヌトフォリオを比范的容易に埗られる n 動孊的な蚭定では制玄付き最適化を解くこずが難しくなる ↑ Double sampling issue目的関数内の分散項が原因

    n 期埅二次効甚の最倧化 • 平均分散の意味での効率的な方策を埗るこずができる • 平均分散の意味での効率的フロンティア䞊には制玄付き最適化の解も含たれる • 実隓的にも性胜が良い䜙分な掚定を含たないから 22
  19. 参考文献 • Markowitz, H. Portfolio selection: efficient diversification of investments.

    Yale university press, 1959. • Tamar, A., Di Castro, D., and Mannor, S. Policy gradients with variance related risk criteria. In ICML, 2012. • Prashanth, L. and Ghavamzadeh, M. Actor-critic algorithms for risk-sensitive MDPs. In NeurIPS, 2013. • Xie, T., Liu, B., Xu, Y., Ghavamzadeh, M., Chow, Y., Lyu, D., and Yoon, D. A block coordinate ascent algorithm for mean-variance optimization. In NeurIPS, 2018.