Upgrade to Pro — share decks privately, control downloads, hide ads and more …

r5_senior_thesis

Keito Yamada
March 01, 2024
22

 r5_senior_thesis

Keito Yamada

March 01, 2024
Tweet

Transcript

  1. 制約条件のある環境下での余剰リソースの効率的運用とは 概要・研究目的 例 Amazonの倉庫ロボット • 限られたスペースで特定の数の荷物を扱う • ロボットの数は十分にあり、通常時は余剰なロボットが存在する • ロボットは充電が必要なため、限られた時間しか稼働できない

    荷物を所定の場所に移動する 最短時間・最小限のリソースで達成 効率的運用 上記条件※1の下で ※1 厳密には更に複雑な条件が絡み合う • 制約条件がある • 余剰リソースが存在する • 各リソースに限りがある 条件の一般化 • 災害発生時の支援人員及び物資の搬送 • 送迎バスのルート決定 • Webシステムのロードバランサ 一般化された条件を持つ環境をコンピュータ上で再現 マルチエージェント強化学習を使用して、 余剰リソースの効率的運用を目指す 現代の多くの産業や人間活動に存在 など 様々な状況に応用できる可能性 災害派遣 Amazonの倉庫ロボット
  2. 背景 強化学習(Reinforcement Learning, RL)とは 機械学習の一種で、エージェントが環境に対して試行錯誤しながら、 報酬を最大化するような方策を学習する手法 複数エージェント化 マルチエージェント強化学習 (Multi-Agent Reinforcement

    Learning, MARL) • サッカーゲーム • 交通制御(自動運転車) • 多関節ロボット 協力タスクに有効 • 長期依存関係の学習 • 動的な環境への適応 TransfQMix 今回使用したアルゴリズム Transformerを用いており、他のアルゴリズムよりも圧倒的に高性能 時間的に遠い距離にあるトークン同士の関係を上手く学習 環境の変化に応じて重要な情報に焦点を当てるため、非定常な環境で上手く学習 このTransformerの良い性質が高性能化に繋がったと考えられる https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf 出典:TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems (13 Jan 2023) Figure 3
  3. プログラムの全体構造 Dockerfile コンテナ 学習 モデル イメージ ビルド 実行 設定ファイル(spread.yaml) •

    エージェントの数 • ランドマークの数 • エピソード数 ︙ コードベース ︙ • main.py • run.py • nq_transf_learner.py • core.py • simple_spread.py メインルーチン(設定ファイルの読み込み・ エラーチェックなどを行う) 学習のコントロール、ログの生成などを行う TransfQMixを用いた学習を行う 環境のコアクラス(エージェントの属性や ステップごとの環境の変化の定義など) 環境の初期化や報酬関数、観測値の定義など 追加学習も可能
  4. TransfQMixの全体構造 • CTDE(Centralized Training with Decentralized Execution、中央集権学習・分散実行)学習パラダイムを採用 • IGM原則の尊重を保証 Mixing

    Network Agent N Agent 1 Agent 1 の 行動価値 Agent N の 行動価値 全体の行動価値 Agent 1 の 観測値 Agent N の 観測値 … … … 各エージェント固有の 観測値 方策 各エージェント固有の 行動価値 Transformer 全体の状態 重み・バイアス・活性化関数 全体の行動価値 Transformer Agent 1 の 行動価値 Agent N の 行動価値 … テスト時(分散実行) 学習時(中央集権学習) TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems (13 Jan 2023) Figure 2を参考に作成 IGM(Individual-Global-Max)原則:個々のエージェントの最適な行動が集団全体の最適な結果につながるような状況を保証するための原則。具体的には、 エージェントの行動選択がそのエージェントにとって最適である場合に、それが集団全体の行動価値の最大化に貢献することを意味する。この原則は、エージェン トが自律的に行動を選択する際にも、全体の目標に沿った協調を行うことを保証する。
  5. ベースとなる環境を改造し、余剰リソースが存在する環境を作成 実験の準備 ベースとなる環境 : PettingZoo Multi Particle Environments (MPE) Simple

    Spread N個のランドマークとN個のエージェントが存在。(デフォルトはN=3) エージェントは他のエージェントとの衝突を回避しながら、 全てのランドマークをカバーするように移動しなくてはならない。 改造 デフォルト 改造後 ランドマークの数 3 3 エージェントの数 3 5 余剰リソースの数 0 2 右表のように改造。 ランドマークが3個、エージェントが 5個の時、ランドマークをカバーする のに必要なエージェントは3個のみな ので、残りの2個のエージェントが 余剰リソースとなる。
  6. 実験・考察(その1) 報酬関数の既存の定義 • 各ランドマークから全てのエージェントへの距 離を計算し、その最小値を報酬から差し引く。 つまり、全てのランドマークがカバーされると 報酬が最大になる。 • エージェント同士が衝突していた場合は報酬か ら1を差し引く。

    余剰リソースが存在する場合を考慮していないため、 余剰な2個のエージェントの無駄な動きが発生する。 • 各エージェントの1ステップ前の位置から 現在の位置までの距離を報酬から差し引く。 余剰な2個のエージェントの無駄な動きが 抑制された。 成功点 課題点 ランドマークから遠く、位置関係的に動く 必要が無いエージェントも動いてしまう。 • 各エージェントの初期位置から現在の位置まで の距離を報酬から差し引く。 ランドマークから遠く、位置関係的に動く 必要がないエージェントの無駄な動きが抑 制された。 報酬関数の改良 新しい定義を追加 追加した定義の改良 成功点 1ステップ前の位置から現在の位置までの距離を報酬 から差し引くことで、「移動に対してコストが発生 する」という状況を再現でき、そのコストをなるべ く抑えようとすることで無駄な動きが抑制されたと 考えられる。 結果 考察 現状 問題点 結果 考察 初期位置から現在の位置までの距離を報酬から差し 引くことで、初期位置がランドマークから遠いエー ジェントは、ランドマークまで移動するコストが高 くなり、ランドマークに近い他のエージェントにカ バーを任せ、自分自身は位置関係的に動く必要がな いと判断し、無駄な動きが抑制されたと考えられる。 克服 追加 改良 克服
  7. 実験・考察(その2) 学習済みモデルの精度検証 学習済みモデルを用いて100回の検証を行った ※ランドマークから遠く、位置関係的に動く必要がないエージェント 良 可 不可 全てのランドマークを カバーできている 〇

    〇 余剰なエージェント※の 無駄な動きが抑制されている 〇 モデルの評価基準 良 約20% 可 約20% 不可 約60% モデルの評価結果(N=100) 考察 不可の結果の多くは以下のパターンに当てはまることが分かった これらのパターンは、どれもタスクの複雑さを増加させる一因に なっていると考えられる。 そのため、エージェントは複雑なタスクを解決できるよう、 多くのパターンを経験し、複雑な方策を学習しなければならない。 今回は200万エピソードまで学習したが、複雑な方策を得るには エピソード数(経験の数)が足りなかったと考えられる。 ランドマーク同士が 近すぎる 正確にランドマークを把握で きていない可能性 すべてのエージェントが ランドマークから遠い 移動コストの増大を予想し、 移動を躊躇している可能性 ランドマークへの距離が ほぼ同じエージェントが 複数存在する 譲り合いが発生している可能性
  8. 今後の課題 ※ 「CPU:Intel® CoreTM i5-8350U, RAM:16GB, GPU:非搭載」のPC環境での学習に要した時間 現実世界においては、より多くのエージェントが 存在する状況が一般的である。 この現実に即した問題解決への適用に近づけるため、

    エージェント数10・ランドマーク数6とした環境での 学習実験を行った。 しかし、200万エピソードを経ても精度は全く向上せず、 高い精度を達成するためには、さらに多くのエピソード 数にわたる学習と報酬関数の改良が必要である。 200万エピソードまで学習するのに要した時間:約72時間※ エージェント数5・ランドマーク数3の環境において、200万エピソードの学習では不十分だったため、 高い精度を達成するためには、さらに多くのエピソード数にわたる学習が必要である。 それでも精度の改善が見られない場合は、さらなる報酬関数の改良も視野に入れる必要がある。 200万エピソードまで学習するのに要した時間:約24時間※
  9. 参考文献・URL • TransfQMix: Transformers for Leveraging the Graph Structure of

    Multi-Agent Reinforcement Learning Problems https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf • TransfQMix GitHubリポジトリ https://github.com/mttga/pymarl_transformers • マルチエージェント強化学習における近年の協調方策学習アルゴリズムの発展 https://www.docswell.com/s/DeepLearning2023/ZGX66N-dl-254480259 • PyMARL GitHubリポジトリ https://github.com/oxwhirl/pymarl • The StarCraft Multi-Agent Challenge https://arxiv.org/pdf/1902.04043.pdf • PettingZoo Documentation https://pettingzoo.farama.org/ • PettingZoo GitHubリポジトリ https://github.com/Farama-Foundation/PettingZoo • Docker: Accelerated Container Application Development https://www.docker.com/