Mean-Variance RL (JAFEE 2023)

Mean-Variance Efficient Reinforcement Learning 平均分散効率強化学習 JAFEE 2023 夏季大会加藤真大中川慧
阿部拳之森村哲郎 https://arxiv.org/abs/2010.01404 https://speakerdeck.com/masakat0/mean-variance-rl-jafee-2023

動学的最適化 Ø系列𝑡 = 1,2, … , 𝑛におけるエージェントの意思決定問題． n 各期𝑡において，エージェントはその期の状態に基づいて行動を選び，対応する報酬を得る． n
エージェントの行動を決める関数を方策と呼ぶ． n エージェントの目標は𝑡 = 1,2, … , 𝑛における累積報酬の最大化．例：動学的ポートフォリオ最適化． • 各期𝑡 = 1,2, … , 𝑛において，ある方策に基づいてポートフォリオを最適化する． • ポートフォリオの構成を変えると取引コストが生じる． • 累積報酬を最大化する方策を学習する． 2

強化学習 n 一般的な強化学習(Reinforcement Learning; RL) ＝リスク中立的な意思決定者を想定． • 期待累積報酬の最大化． n
リスク回避的な意思決定者を想定．累積報酬の分散も考慮（ex. 平均分散ポートフォリオ）． →平均分散（Mean-Variance; MV）トレードオフも考慮するRL． n 平均分散トレードオフ. ⬆ 期待累積報酬を大きくする → ⬆ 累積報酬の分散も大きくなる． ⬇ 累積報酬の分散を小さくする → ⬇ 期待累積報酬も小さくなる． n 累積報酬の分散も（何らかの形で）目的関数に導入する． • 古典的な平均分散ポートフォリオのような設定をRLの文脈で再考察． 3

平均分散を考慮する強化学習 n 累積報酬の分散の考慮の方法． • 制約付き最適化：目標とする累積報酬の分散，もしくは期待値を制約として最適化． • 期待二次効用最大化：期待二次効用を最大化する方策は平均分散の点でPareto最適． Ø方策勾配法による方策学習． n 制約付き最適化では，勾配の推定において計算的な困難が生じる（double
sampling issue）．期待二次効用の最大化ではそのような困難が生じない． →期待二次効用の最大化に基づくRLを提案． n そのRLアルゴリズムによって得られる方策は平均分散のPareto効率性の意味で最適． 4

問題設定：マルコフ決定過程 n 未知の動学的・確率的な環境と関わるエージェントを考える． n 環境は離散時間マルコフ決定過程（Markov decision process；MDP）によってモデル化． n MDPを組(𝒮, 𝒜,
𝑟, 𝑃, 𝑃!)として定義する： • 状態の集合𝒮. • 行動の集合𝒜. • （確率的な）報酬関数𝑟: 𝒮×𝒜 → ℝ．状態と行動に対応して報酬（確率変数）を決める． • 遷移カーネル𝑃: 𝒮×𝒮×𝐴 → [0, 1]．ある状態𝑠 ∈ 𝒮のもとで，行動𝑎 ∈ 𝒜を選んだ場合に，状態𝑠! ∈ 𝒮に遷移する確率は𝑃(𝑠, 𝑠!, 𝑤)． • 初期状態の分布𝑃" : 𝒮 → [0,1]．最初の状態𝑠を与える関数． 5

問題設定：方策関数 n エージェントは方策関数に従って行動する． • ニューラルネットワークのように何かのパラメータで特徴づけられる方策を考える． n 方策関数𝜋": 𝒜×𝒮 → [0,1]．∑#∈𝒜
𝜋" 𝑎 𝑥 = 1． • ある状態𝑠において行動𝑎を選択する確率． • パラメータ𝜃 ∈ Θで特徴づけられている． • データを用いて方策𝜋" を学習する（最適な𝜋" を得る）． • ある目的関数に対して，勾配法を用いて最適化する（方策勾配法）． 6

問題設定：累積報酬 n 各期の状態と行動が(𝑆&, 𝐴&)であるとき，1期から𝑛期までの累積報酬は 𝐺 ≔ @ '() * 𝛾'+)𝑟
𝑆', 𝐴' . • 割引因子𝛾 ∈ (0, 1]． n ある方策𝜋" のもとでの期待報酬𝔼,# [𝐺]． n ある方策𝜋" のもとでの分散𝕍,# [𝐺]． Ø注記：𝛾 = 1の場合，方策が「正則」である必要がある． • Proper：エージェントはある状態𝑠∗に確率1で到達し，その後は報酬が0． 7

問題設定：平均分散トレードオフ n 通常の強化学習． • 𝔼,# [𝐺]を最大化するように方策𝜋" を学習する． n 平均分散のトレードオフを考慮する強化学習． •
𝔼,# [𝐺]の最大化だけでなく， 𝕍,# [𝐺]も考慮して，方策𝜋" を学習する． • 例：平均分散ポートフォリオ． → 期待累積報酬を減少させる代わりに分散も減少させたい． 8

制約付き最適化によるアプローチ Ø制約付き最適化を考える．以下の二通りが考えられる． • 累積報酬の分散に制約を課して期待累積報酬を最大化する． • 期待累積報酬に制約を課して累積報酬の分散を最小化する． n 例：累積報酬𝐺と定数𝜂 > 0に対して，
max"𝔼,# 𝐺 s. t. 𝕍,# 𝐺 = 𝜂 を解くことで方策𝜋" を学習する． n ∇"𝔼,# 𝐺 と∇"𝕍,# 𝐺 を伴う勾配降下法によって最適な方策を得る． • 参考文献：Tamar et al. (2012)やPrashanth et al. (2013)など． 9

制約付き最適化によるアプローチ Ø例：Tamar et al. (2012)． n 制約付き最適化を罰則付き最適化に変換して解く． • 目的関数：適当な罰則𝜆 >
0に対して， max"𝔼,# 𝐺 + 𝜆 𝕍,# 𝐺 − 𝜂 . n ある系列から得られるデータから勾配∇" max"𝔼,# 𝐺 + 𝜆 𝕍,# 𝐺 − 𝜂 . を計算． n 勾配を用いてパラメータを更新． 10

制約付き最適化によるアプローチ： Double Sampling Issue n 分散を用いる制約付き最適化をRLで扱う場合に生じる計算（推定）上の問題． ØDouble sampling issue（二重サンプリング問題）． n
分散由来の勾配∇"𝕍,# 𝐺 を推定するために，系列𝑡 = 1,2, … , 𝑛を二つ生成することが必要． • ∇"𝕍,# 𝐺 = 𝔼,# 𝐺. ∑'(! & ∇" log 𝜋"(𝐴&|𝑆&) − 2𝔼,# 𝐺 ∇"𝔼,# 𝐺 . • 似た事例：サンプルサイズが1の場合に分散を推定することができない． • 勾配のサンプル近似には複雑な操作が必要 → 😨 計算負荷．😨 アルゴリズムの性能． 11

制約付き最適化によるアプローチ： Double Sampling Issue n 分散𝕍,# 𝐺 の存在が問題を難しくしている． → 分散を目的関数に直接取り入れることによってこの問題が生じる．
n Double sampling issueに対する取り組み． • Tamar et al. (ICML 2012): REINFORCE法を用いる制約付き最適化． • Prashanth et al. (NeurIPS 2013): Actor-Critic法を用いる制約付き最適化． • Xie et al. (NeurIPS 2018)：ルジャンドル変換を用いて緩和する制約付き最適化． → どの手法も分散の近似に関して複雑な手順が必要になる． n 本研究では，分散を陽に用いずに，平均分散トレードオフの考慮を行う方法・枠組みを考える． 12

平均分散効率RL n 平均分散効率RL（Mean-Variance-efficient RL）を新しいRLの枠組みとして提案する． n 平均分散（Pareto）効率的な方策を得ることを考える． • 累積報酬の分散𝕍,# 𝐺 を増大させずに，
期待累積報酬𝔼,# 𝐺 を大きくできない方策． • 期待累積報酬𝔼,# 𝐺 を小さくさせずに，累積報酬の分散𝕍,# 𝐺 を減らせない方策． n 平均分散効率RLでは，方策が平均分散の効率的フロンティア（平均分散効率的な方策の集合）に位置する方策の学習が目標． n 平均分散効率RLは，分散の推定を避けて実現することができる．． 13

期待二次効用関数の最大化 n 古典的な知見． • 期待二次効用を最大化するポートフォリオは平均分散で効率的フロンティア上に位置する． → この結果をRLに拡張する． Ø期待二次効用最大化RL（Expected Quadratic Utility
Maximization RL; EQUMRL). n 以下の目的関数（期待二次効用）を最大化する： 𝔼,# 𝑢 𝐺; 𝛼, 𝛽 = 𝛼𝔼,# 𝐺 − 1 2 𝛽𝔼,# 𝐺. . • 𝑢(𝐺; 𝛼, 𝛽)はパラメータ𝛼 > 0と𝛽 ≥ 0を伴う二次効用関数． n 目的関数に分散𝕍,# 𝐺 が含まれていない → Double sampling issueが生じない． 14

期待二次効用関数最大化 ØEQUMRLに関する解釈． n 平均分散トレードオフ． • 期待二次効用を最大化する方策は平均分散の効率的フロンティア上に位置する． n 経済学的解釈（効用関数の最大化）． n ターゲット学習．
• 期待二次効用を最大化することは，達成したい累積報酬のターゲット値𝜁 > 0を定めて，そのターゲット𝜁と累積報酬の期待二乗誤差を最小化することと同値： arg max " 𝔼,# 𝑢 𝐺; 𝛼, 𝛽 = arg min " 𝔼,# 𝜁 − 𝐺 . . 15

実装 n 適当なパラメータのもとでEQUMRLは目的関数を定めているだけ． → 最適化の方法には色々な候補がある． ØEQUMRLはさまざまなRLの手法（REINFORCE法やActor-Critic法）と組み合わせて実装可能． n REINFORCE法を用いてEQUMRLを行う場合. • 以下の勾配を用いてパラメータを更新する．
• ] ∇𝔼,# 𝑢 𝐺; 𝛼, 𝛽 = 𝛼 ^ 𝐺 − ) . 𝛽 ^ 𝐺. ∑&() * ∇" log 𝜋" 𝑆&, 𝐴& ここで， ^ 𝐺 = ∑&() * 𝛾&+) 𝑟(𝑆&, 𝐴&) and ^ 𝐺. = ∑&() * 𝛾&+) 𝑟 𝑆&, 𝐴& . ü状態に「過去の報酬」を代入する必要がある． 16

例：動学的ポートフォリオ最適化 ØEQUMRLはポートフォリオ最適化に応用可能． • 静学的な平均分散ポートフォリオの自然な拡張． n 制約条件などを用いる静学的なポートフォリオ最適化． n 動学的最適化では分散の勾配の推定のために計算が困難に． → 期待二次効用の最大化．
n 注記：分位点を考慮する強化学習では，時間不整合（time inconsistency）の問題が生じることが知られている．平均分散では時間不整合の問題は生じない． • 時間不整合：ある時点での最適計画が，その後の時点の最適計画と必ずしも一致しない． 17

実験 Ø金融の問題を事例に実験． n 方策𝜋" ：ニューラルネットワーク． n 状態：現在の保有資産，過去の資産価格の系列，その時点までの累積報酬の平均と分散． • 時系列モデルの推定は行わない（本当はした方がいい？）． n
行動：ある資産を買うか売るか保持するか． Ø実験． • オプション取引に関する数値実験． • ポートフォリオ運用に関する実データを用いるシミュレーション実験． 18

実験１：シミュレーションデータ n 金融に関する数値実験（左：流動的・非流動的な二つの資産の取引．右：オプション取引）． • 提案手法を制約付き最適化に基づく手法であるTamar et al. (2012)とXie et al.
(2018)と比較． • 𝑦軸：アルゴリズムのもとでの累積報酬の平均．𝑥軸：アルゴリズムのもとでの累積報酬の分散． 19

実験２：Fama-Frenchデータ n Fama-Frenchデータセットを用いた2000年から2020年までのポートフォリオ運用の実験． • CR（累積報酬の平均）・Var（分散）・R/R（リスク調整後累積報酬）・MaxDD（最大ドローダウン）を報告． • EW：各資産を等しい比率で保有，MV：（動学的ではない）平均分散ポートフォリオ，EGO（ Kelly growth optimal
portfolio），BLD（Thompson sampling） 20

貢献と結論 Ø平均分散トレードオフを考慮した動学的意思決定問題． n Tamar et al. 2012らが報告しているdouble sampling issue． n
期待二次効用の最大化ではdouble sampling issueは発生しない． • （古典的な結果として）期待二次効用関数を最大化する方策は（ざっくりと）平均分散トレードオフに関して効率的． • 静学的な平均分散最適化と異なり，制約付き最適化と比較して，期待二次効用最大化に利点． n 提案法はREINFORCEやActor-CriticなどのRLの学習手法と組み合わせることができる． • REINFORCE法に関して：サンプル近似された期待二次効用を最大化する方策が，漸近的に最適な方策に収束することを証明． • Actor-Critic法に関して：勾配の計算が少し複雑（double sampling issueよりは簡単）． 21

Take-Home Message n 静学的な設定では，制約付き最適化で最適なポートフォリオを比較的容易に得られる． n 動学的な設定では，制約付き最適化を解くことが難しくなる． ↑ Double sampling issue：目的関数内の分散項が原因．
n 期待二次効用の最大化． • 平均分散の意味での効率的な方策を得ることができる． • 平均分散の意味での効率的フロンティア上には制約付き最適化の解も含まれる． • 実験的にも性能が良い（余分な推定を含まないから？） 22

参考文献 • Markowitz, H. Portfolio selection: efficient diversification of investments.
Yale university press, 1959. • Tamar, A., Di Castro, D., and Mannor, S. Policy gradients with variance related risk criteria. In ICML, 2012. • Prashanth, L. and Ghavamzadeh, M. Actor-critic algorithms for risk-sensitive MDPs. In NeurIPS, 2013. • Xie, T., Liu, B., Xu, Y., Ghavamzadeh, M., Chow, Y., Lyu, D., and Yoon, D. A block coordinate ascent algorithm for mean-variance optimization. In NeurIPS, 2018.

Mean-Variance RL (JAFEE 2023)

Mean-Variance RL (JAFEE 2023)

MasaKat0

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

Mean-Variance Efficient Reinforcement Learning 平均分散効率強化学習 JAFEE 2023 夏季大会加藤真大中川慧

動学的最適化 Ø系列𝑡 = 1,2, … , 𝑛におけるエージェントの意思決定問題． n 各期𝑡において，エージェントはその期の状態に基づいて行動を選び，対応する報酬を得る． n

強化学習 n 一般的な強化学習(Reinforcement Learning; RL) ＝リスク中立的な意思決定者を想定． • 期待累積報酬の最大化． n

問題設定：マルコフ決定過程 n 未知の動学的・確率的な環境と関わるエージェントを考える． n 環境は離散時間マルコフ決定過程（Markov decision process；MDP）によってモデル化． n MDPを組(𝒮, 𝒜,

問題設定：方策関数 n エージェントは方策関数に従って行動する． • ニューラルネットワークのように何かのパラメータで特徴づけられる方策を考える． n 方策関数𝜋": 𝒜×𝒮 → [0,1]．∑#∈𝒜

問題設定：累積報酬 n 各期の状態と行動が(𝑆&, 𝐴&)であるとき，1期から𝑛期までの累積報酬は 𝐺 ≔ @ '() * 𝛾'+)𝑟

問題設定：平均分散トレードオフ n 通常の強化学習． • 𝔼,# [𝐺]を最大化するように方策𝜋" を学習する． n 平均分散のトレードオフを考慮する強化学習． •

制約付き最適化によるアプローチ Ø例：Tamar et al. (2012)． n 制約付き最適化を罰則付き最適化に変換して解く． • 目的関数：適当な罰則𝜆 >

制約付き最適化によるアプローチ： Double Sampling Issue n 分散を用いる制約付き最適化をRLで扱う場合に生じる計算（推定）上の問題． ØDouble sampling issue（二重サンプリング問題）． n

制約付き最適化によるアプローチ： Double Sampling Issue n 分散𝕍,# 𝐺 の存在が問題を難しくしている． → 分散を目的関数に直接取り入れることによってこの問題が生じる．

平均分散効率RL n 平均分散効率RL（Mean-Variance-efficient RL）を新しいRLの枠組みとして提案する． n 平均分散（Pareto）効率的な方策を得ることを考える． • 累積報酬の分散𝕍,# 𝐺 を増大させずに，

期待二次効用関数の最大化 n 古典的な知見． • 期待二次効用を最大化するポートフォリオは平均分散で効率的フロンティア上に位置する． → この結果をRLに拡張する． Ø期待二次効用最大化RL（Expected Quadratic Utility

期待二次効用関数最大化 ØEQUMRLに関する解釈． n 平均分散トレードオフ． • 期待二次効用を最大化する方策は平均分散の効率的フロンティア上に位置する． n 経済学的解釈（効用関数の最大化）． n ターゲット学習．

実験１：シミュレーションデータ n 金融に関する数値実験（左：流動的・非流動的な二つの資産の取引．右：オプション取引）． • 提案手法を制約付き最適化に基づく手法であるTamar et al. (2012)とXie et al.

貢献と結論 Ø平均分散トレードオフを考慮した動学的意思決定問題． n Tamar et al. 2012らが報告しているdouble sampling issue． n

Take-Home Message n 静学的な設定では，制約付き最適化で最適なポートフォリオを比較的容易に得られる． n 動学的な設定では，制約付き最適化を解くことが難しくなる． ↑ Double sampling issue：目的関数内の分散項が原因．

参考文献 • Markowitz, H. Portfolio selection: efficient diversification of investments.