r5_senior_thesis

制約条件のある環境下での余剰リソースの効率的運用の実現に向けた、マルチエージェント強化学習を用いるアプローチについて情報メディア学科 3120110 山田啓徒

制約条件のある環境下での余剰リソースの効率的運用とは概要・研究目的例 Amazonの倉庫ロボット • 限られたスペースで特定の数の荷物を扱う • ロボットの数は十分にあり、通常時は余剰なロボットが存在する • ロボットは充電が必要なため、限られた時間しか稼働できない
荷物を所定の場所に移動する最短時間・最小限のリソースで達成効率的運用上記条件※1の下で ※1 厳密には更に複雑な条件が絡み合う • 制約条件がある • 余剰リソースが存在する • 各リソースに限りがある条件の一般化 • 災害発生時の支援人員及び物資の搬送 • 送迎バスのルート決定 • Webシステムのロードバランサ一般化された条件を持つ環境をコンピュータ上で再現マルチエージェント強化学習を使用して、余剰リソースの効率的運用を目指す現代の多くの産業や人間活動に存在など様々な状況に応用できる可能性災害派遣 Amazonの倉庫ロボット

背景強化学習（Reinforcement Learning, RL）とは機械学習の一種で、エージェントが環境に対して試行錯誤しながら、報酬を最大化するような方策を学習する手法複数エージェント化マルチエージェント強化学習（Multi-Agent Reinforcement
Learning, MARL） • サッカーゲーム • 交通制御（自動運転車） • 多関節ロボット協力タスクに有効 • 長期依存関係の学習 • 動的な環境への適応 TransfQMix 今回使用したアルゴリズム Transformerを用いており、他のアルゴリズムよりも圧倒的に高性能時間的に遠い距離にあるトークン同士の関係を上手く学習環境の変化に応じて重要な情報に焦点を当てるため、非定常な環境で上手く学習このTransformerの良い性質が高性能化に繋がったと考えられる https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf 出典：TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems (13 Jan 2023) Figure 3

協力タスクで仕事をしないエージェント（余剰リソース）が大事なのではないか動機アリの2:6:2の法則これまでのマルチエージェント強化学習の協力タスクでは全てのエージェントが仕事をするが、アリの社会における労働分担に関する法則アリのコロニー内の労働は以下のように分配休憩中のアリが居ることで、緊急時や特別な状況（例えば、食料探しや巣の修理）でも迅速に動員可能結果、安定的なコロニー生存と繁栄に繋がるのアリがコロニーの大部分の仕事を行っている
のアリがあまり活動的でなく、時々仕事をするのアリがほとんどまたは全く働かない 20% 60% 20% 休憩中のアリ（余剰リソース）

使用した主なフレームワーク・ライブラリ・ツール TransfQMix PyMARL 様々なマルチエージェント強化学習のアルゴリズムを実験することができるフレームワークトランスフォーマーを用いた、マルチエージェント強化学習のアルゴリズム様々なマルチエージェント強化学習の環境を提供するライブラリコンテナ仮想化を用いて、アプリケーションを
開発・配置・実行するためのプラットフォーム

プログラムの全体構造 Dockerfile コンテナ学習モデルイメージビルド実行設定ファイル（spread.yaml） •
エージェントの数 • ランドマークの数 • エピソード数 ︙ コードベース ︙ • main.py • run.py • nq_transf_learner.py • core.py • simple_spread.py メインルーチン（設定ファイルの読み込み・エラーチェックなどを行う）学習のコントロール、ログの生成などを行う TransfQMixを用いた学習を行う環境のコアクラス（エージェントの属性やステップごとの環境の変化の定義など）環境の初期化や報酬関数、観測値の定義など追加学習も可能

TransfQMixの全体構造 • CTDE（Centralized Training with Decentralized Execution、中央集権学習・分散実行）学習パラダイムを採用 • IGM原則の尊重を保証 Mixing
Network Agent N Agent 1 Agent 1 の行動価値 Agent N の行動価値全体の行動価値 Agent 1 の観測値 Agent N の観測値 … … … 各エージェント固有の観測値方策各エージェント固有の行動価値 Transformer 全体の状態重み・バイアス・活性化関数全体の行動価値 Transformer Agent 1 の行動価値 Agent N の行動価値 … テスト時（分散実行）学習時（中央集権学習） TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems (13 Jan 2023) Figure 2を参考に作成 IGM（Individual-Global-Max）原則：個々のエージェントの最適な行動が集団全体の最適な結果につながるような状況を保証するための原則。具体的には、エージェントの行動選択がそのエージェントにとって最適である場合に、それが集団全体の行動価値の最大化に貢献することを意味する。この原則は、エージェントが自律的に行動を選択する際にも、全体の目標に沿った協調を行うことを保証する。

ベースとなる環境を改造し、余剰リソースが存在する環境を作成実験の準備ベースとなる環境 : PettingZoo Multi Particle Environments (MPE) Simple
Spread N個のランドマークとN個のエージェントが存在。(デフォルトはN=3) エージェントは他のエージェントとの衝突を回避しながら、全てのランドマークをカバーするように移動しなくてはならない。改造デフォルト改造後ランドマークの数 3 3 エージェントの数 3 5 余剰リソースの数 0 2 右表のように改造。ランドマークが3個、エージェントが 5個の時、ランドマークをカバーするのに必要なエージェントは3個のみなので、残りの2個のエージェントが余剰リソースとなる。

実験・考察（その１）報酬関数の既存の定義 • 各ランドマークから全てのエージェントへの距離を計算し、その最小値を報酬から差し引く。つまり、全てのランドマークがカバーされると報酬が最大になる。 • エージェント同士が衝突していた場合は報酬から1を差し引く。
余剰リソースが存在する場合を考慮していないため、余剰な2個のエージェントの無駄な動きが発生する。 • 各エージェントの1ステップ前の位置から現在の位置までの距離を報酬から差し引く。余剰な2個のエージェントの無駄な動きが抑制された。成功点課題点ランドマークから遠く、位置関係的に動く必要が無いエージェントも動いてしまう。 • 各エージェントの初期位置から現在の位置までの距離を報酬から差し引く。ランドマークから遠く、位置関係的に動く必要がないエージェントの無駄な動きが抑制された。報酬関数の改良新しい定義を追加追加した定義の改良成功点 1ステップ前の位置から現在の位置までの距離を報酬から差し引くことで、「移動に対してコストが発生する」という状況を再現でき、そのコストをなるべく抑えようとすることで無駄な動きが抑制されたと考えられる。結果考察現状問題点結果考察初期位置から現在の位置までの距離を報酬から差し引くことで、初期位置がランドマークから遠いエージェントは、ランドマークまで移動するコストが高くなり、ランドマークに近い他のエージェントにカバーを任せ、自分自身は位置関係的に動く必要がないと判断し、無駄な動きが抑制されたと考えられる。克服追加改良克服

実験・考察（その２）学習済みモデルの精度検証学習済みモデルを用いて100回の検証を行った ※ランドマークから遠く、位置関係的に動く必要がないエージェント良可不可全てのランドマークをカバーできている〇
〇余剰なエージェント※の無駄な動きが抑制されている〇モデルの評価基準良約20% 可約20% 不可約60% モデルの評価結果（N=100）考察不可の結果の多くは以下のパターンに当てはまることが分かったこれらのパターンは、どれもタスクの複雑さを増加させる一因になっていると考えられる。そのため、エージェントは複雑なタスクを解決できるよう、多くのパターンを経験し、複雑な方策を学習しなければならない。今回は200万エピソードまで学習したが、複雑な方策を得るにはエピソード数（経験の数）が足りなかったと考えられる。ランドマーク同士が近すぎる正確にランドマークを把握できていない可能性すべてのエージェントがランドマークから遠い移動コストの増大を予想し、移動を躊躇している可能性ランドマークへの距離がほぼ同じエージェントが複数存在する譲り合いが発生している可能性

今後の課題 ※ 「CPU：Intel® CoreTM i5-8350U, RAM：16GB, GPU：非搭載」のPC環境での学習に要した時間現実世界においては、より多くのエージェントが存在する状況が一般的である。この現実に即した問題解決への適用に近づけるため、
エージェント数10・ランドマーク数6とした環境での学習実験を行った。しかし、200万エピソードを経ても精度は全く向上せず、高い精度を達成するためには、さらに多くのエピソード数にわたる学習と報酬関数の改良が必要である。 200万エピソードまで学習するのに要した時間：約72時間※ エージェント数5・ランドマーク数3の環境において、200万エピソードの学習では不十分だったため、高い精度を達成するためには、さらに多くのエピソード数にわたる学習が必要である。それでも精度の改善が見られない場合は、さらなる報酬関数の改良も視野に入れる必要がある。 200万エピソードまで学習するのに要した時間：約24時間※

参考文献・URL • TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf • TransfQMix GitHubリポジトリ https://github.com/mttga/pymarl_transformers • マルチエージェント強化学習における近年の協調方策学習アルゴリズムの発展 https://www.docswell.com/s/DeepLearning2023/ZGX66N-dl-254480259 • PyMARL GitHubリポジトリ https://github.com/oxwhirl/pymarl • The StarCraft Multi-Agent Challenge https://arxiv.org/pdf/1902.04043.pdf • PettingZoo Documentation https://pettingzoo.farama.org/ • PettingZoo GitHubリポジトリ https://github.com/Farama-Foundation/PettingZoo • Docker: Accelerated Container Application Development https://www.docker.com/

ご清聴ありがとうございました

メモこの研究では、余剰リソース（仕事をしないエージェント、サボり）を実装するにあたって、「同一モデルを用いたエージェントが状況に応じて異なる振る舞いをする方策を学習できるのか」という疑問に常に直面していた。そこで、TransfQMixの論文（https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf）では、『将来的に複数の異なるタスクを同一のモデルでこなすことを目標にしている』（原文を簡潔に意訳）と述べられている。この観点から、複数の異なるタスクを同一のモデルでこなす方法が確立されれば、余剰リソースの実装においても、「仕事をするべき状況」と「サボるべき状況」を別々のタスクと考え、両方のタスクに対応した方策を学習することが出来る可能性がある。

r5_senior_thesis

r5_senior_thesis

Keito Yamada

More Decks by Keito Yamada

Featured

Transcript

制約条件のある環境下での余剰リソースの効率的運用の実現に向けた、マルチエージェント強化学習を用いるアプローチについて情報メディア学科 3120110 山田啓徒

プログラムの全体構造 Dockerfile コンテナ学習モデルイメージビルド実行設定ファイル（spread.yaml） •

TransfQMixの全体構造 • CTDE（Centralized Training with Decentralized Execution、中央集権学習・分散実行）学習パラダイムを採用 • IGM原則の尊重を保証 Mixing

ベースとなる環境を改造し、余剰リソースが存在する環境を作成実験の準備ベースとなる環境 : PettingZoo Multi Particle Environments (MPE) Simple

実験・考察（その２）学習済みモデルの精度検証学習済みモデルを用いて100回の検証を行った ※ランドマークから遠く、位置関係的に動く必要がないエージェント良可不可全てのランドマークをカバーできている〇

参考文献・URL • TransfQMix: Transformers for Leveraging the Graph Structure of

ご清聴ありがとうございました