Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

r5_senior_thesis

Avatar for Keito Yamada Keito Yamada
March 01, 2024
34

 r5_senior_thesis

Avatar for Keito Yamada

Keito Yamada

March 01, 2024
Tweet

Transcript

  1. 制玄条件のある環境䞋での䜙剰リ゜ヌスの効率的運甚ずは 抂芁・研究目的 䟋 Amazonの倉庫ロボット • 限られたスペヌスで特定の数の荷物を扱う • ロボットの数は十分にあり、通垞時は䜙剰なロボットが存圚する • ロボットは充電が必芁なため、限られた時間しか皌働できない

    荷物を所定の堎所に移動する 最短時間・最小限のリ゜ヌスで達成 効率的運甚 䞊蚘条件※1の䞋で ※1 厳密には曎に耇雑な条件が絡み合う • 制玄条件がある • 䜙剰リ゜ヌスが存圚する • 各リ゜ヌスに限りがある 条件の䞀般化 • 灜害発生時の支揎人員及び物資の搬送 • 送迎バスのルヌト決定 • Webシステムのロヌドバランサ 䞀般化された条件を持぀環境をコンピュヌタ䞊で再珟 マルチ゚ヌゞェント匷化孊習を䜿甚しお、 䜙剰リ゜ヌスの効率的運甚を目指す 珟代の倚くの産業や人間掻動に存圚 など 様々な状況に応甚できる可胜性 灜害掟遣 Amazonの倉庫ロボット
  2. 背景 匷化孊習Reinforcement Learning, RLずは 機械孊習の䞀皮で、゚ヌゞェントが環境に察しお詊行錯誀しながら、 報酬を最倧化するような方策を孊習する手法 耇数゚ヌゞェント化 マルチ゚ヌゞェント匷化孊習 Multi-Agent Reinforcement

    Learning, MARL • サッカヌゲヌム • 亀通制埡自動運転車 • 倚関節ロボット 協力タスクに有効 • 長期䟝存関係の孊習 • 動的な環境ぞの適応 TransfQMix 今回䜿甚したアルゎリズム Transformerを甚いおおり、他のアルゎリズムよりも圧倒的に高性胜 時間的に遠い距離にあるトヌクン同士の関係を䞊手く孊習 環境の倉化に応じお重芁な情報に焊点を圓おるため、非定垞な環境で䞊手く孊習 このTransformerの良い性質が高性胜化に繋がったず考えられる https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf 出兞TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems (13 Jan 2023) Figure 3
  3. 協力タスクで仕事をしない゚ヌゞェント䜙剰リ゜ヌスが倧事なのではないか 動機 アリの2:6:2の法則 これたでのマルチ゚ヌゞェント匷化孊習の協力タスクでは党おの゚ヌゞェントが仕事をするが、 アリの瀟䌚における劎働分担に関する法則 アリのコロニヌ内の劎働は以䞋のように分配 䌑憩䞭のアリが居るこずで、緊急時や特別な状況䟋えば、食料探しや巣の修理でも迅速に動員可胜 結果、安定的なコロニヌ生存ず繁栄に繋がる のアリがコロニヌの 倧郚分の仕事を行っおいる

    のアリがあたり掻動的でなく、 時々仕事をする のアリがほずんど たたは党く働かない 20% 60% 20% 䌑憩䞭のアリ䜙剰リ゜ヌス
  4. プログラムの党䜓構造 Dockerfile コンテナ å­Šç¿’ モデル むメヌゞ ビルド 実行 蚭定ファむルspread.yaml •

    ゚ヌゞェントの数 • ランドマヌクの数 • ゚ピ゜ヌド数 ïž™ コヌドベヌス ïž™ • main.py • run.py • nq_transf_learner.py • core.py • simple_spread.py メむンルヌチン蚭定ファむルの読み蟌み・ ゚ラヌチェックなどを行う 孊習のコントロヌル、ログの生成などを行う TransfQMixを甚いた孊習を行う 環境のコアクラス゚ヌゞェントの属性や ステップごずの環境の倉化の定矩など 環境の初期化や報酬関数、芳枬倀の定矩など 远加孊習も可胜
  5. TransfQMixの党䜓構造 • CTDECentralized Training with Decentralized Execution、䞭倮集暩孊習・分散実行孊習パラダむムを採甚 • IGM原則の尊重を保蚌 Mixing

    Network Agent N Agent 1 Agent 1 の 行動䟡倀 Agent N の 行動䟡倀 党䜓の行動䟡倀 Agent 1 の 芳枬倀 Agent N の 芳枬倀 
 
 
 各゚ヌゞェント固有の 芳枬倀 方策 各゚ヌゞェント固有の 行動䟡倀 Transformer 党䜓の状態 重み・バむアス・掻性化関数 党䜓の行動䟡倀 Transformer Agent 1 の 行動䟡倀 Agent N の 行動䟡倀 
 テスト時分散実行 孊習時䞭倮集暩孊習 TransfQMix: Transformers for Leveraging the Graph Structure of Multi-Agent Reinforcement Learning Problems (13 Jan 2023) Figure 2を参考に䜜成 IGMIndividual-Global-Max原則個々の゚ヌゞェントの最適な行動が集団党䜓の最適な結果に぀ながるような状況を保蚌するための原則。具䜓的には、 ゚ヌゞェントの行動遞択がその゚ヌゞェントにずっお最適である堎合に、それが集団党䜓の行動䟡倀の最倧化に貢献するこずを意味する。この原則は、゚ヌゞェン トが自埋的に行動を遞択する際にも、党䜓の目暙に沿った協調を行うこずを保蚌する。
  6. ベヌスずなる環境を改造し、䜙剰リ゜ヌスが存圚する環境を䜜成 実隓の準備 ベヌスずなる環境 : PettingZoo Multi Particle Environments (MPE) Simple

    Spread N個のランドマヌクずN個の゚ヌゞェントが存圚。(デフォルトはN=3) ゚ヌゞェントは他の゚ヌゞェントずの衝突を回避しながら、 党おのランドマヌクをカバヌするように移動しなくおはならない。 改造 デフォルト 改造埌 ランドマヌクの数 3 3 ゚ヌゞェントの数 3 5 䜙剰リ゜ヌスの数 0 2 右衚のように改造。 ランドマヌクが3個、゚ヌゞェントが 5個の時、ランドマヌクをカバヌする のに必芁な゚ヌゞェントは3個のみな ので、残りの2個の゚ヌゞェントが 䜙剰リ゜ヌスずなる。
  7. 実隓・考察その 報酬関数の既存の定矩 • 各ランドマヌクから党おの゚ヌゞェントぞの距 離を蚈算し、その最小倀を報酬から差し匕く。 ぀たり、党おのランドマヌクがカバヌされるず 報酬が最倧になる。 • ゚ヌゞェント同士が衝突しおいた堎合は報酬か ら1を差し匕く。

    䜙剰リ゜ヌスが存圚する堎合を考慮しおいないため、 䜙剰な2個の゚ヌゞェントの無駄な動きが発生する。 • 各゚ヌゞェントの1ステップ前の䜍眮から 珟圚の䜍眮たでの距離を報酬から差し匕く。 䜙剰な2個の゚ヌゞェントの無駄な動きが 抑制された。 成功点 課題点 ランドマヌクから遠く、䜍眮関係的に動く 必芁が無い゚ヌゞェントも動いおしたう。 • 各゚ヌゞェントの初期䜍眮から珟圚の䜍眮たで の距離を報酬から差し匕く。 ランドマヌクから遠く、䜍眮関係的に動く 必芁がない゚ヌゞェントの無駄な動きが抑 制された。 報酬関数の改良 新しい定矩を远加 远加した定矩の改良 成功点 1ステップ前の䜍眮から珟圚の䜍眮たでの距離を報酬 から差し匕くこずで、「移動に察しおコストが発生 する」ずいう状況を再珟でき、そのコストをなるべ く抑えようずするこずで無駄な動きが抑制されたず 考えられる。 結果 考察 珟状 問題点 結果 考察 初期䜍眮から珟圚の䜍眮たでの距離を報酬から差し 匕くこずで、初期䜍眮がランドマヌクから遠い゚ヌ ゞェントは、ランドマヌクたで移動するコストが高 くなり、ランドマヌクに近い他の゚ヌゞェントにカ バヌを任せ、自分自身は䜍眮関係的に動く必芁がな いず刀断し、無駄な動きが抑制されたず考えられる。 克服 远加 改良 克服
  8. 実隓・考察その 孊習枈みモデルの粟床怜蚌 孊習枈みモデルを甚いお100回の怜蚌を行った ※ランドマヌクから遠く、䜍眮関係的に動く必芁がない゚ヌゞェント 良 可 䞍可 党おのランドマヌクを カバヌできおいる 〇

    〇 䜙剰な゚ヌゞェント※の 無駄な動きが抑制されおいる 〇 モデルの評䟡基準 良 箄20% 可 箄20% 䞍可 箄60% モデルの評䟡結果N=100 考察 䞍可の結果の倚くは以䞋のパタヌンに圓おはたるこずが分かった これらのパタヌンは、どれもタスクの耇雑さを増加させる䞀因に なっおいるず考えられる。 そのため、゚ヌゞェントは耇雑なタスクを解決できるよう、 倚くのパタヌンを経隓し、耇雑な方策を孊習しなければならない。 今回は200䞇゚ピ゜ヌドたで孊習したが、耇雑な方策を埗るには ゚ピ゜ヌド数経隓の数が足りなかったず考えられる。 ランドマヌク同士が 近すぎる 正確にランドマヌクを把握で きおいない可胜性 すべおの゚ヌゞェントが ランドマヌクから遠い 移動コストの増倧を予想し、 移動を躊躇しおいる可胜性 ランドマヌクぞの距離が ほが同じ゚ヌゞェントが 耇数存圚する 譲り合いが発生しおいる可胜性
  9. 今埌の課題 ※ 「CPUIntel® CoreTM i5-8350U, RAM16GB, GPU非搭茉」のPC環境での孊習に芁した時間 珟実䞖界においおは、より倚くの゚ヌゞェントが 存圚する状況が䞀般的である。 この珟実に即した問題解決ぞの適甚に近づけるため、

    ゚ヌゞェント数10・ランドマヌク数6ずした環境での 孊習実隓を行った。 しかし、200䞇゚ピ゜ヌドを経おも粟床は党く向䞊せず、 高い粟床を達成するためには、さらに倚くの゚ピ゜ヌド 数にわたる孊習ず報酬関数の改良が必芁である。 200䞇゚ピ゜ヌドたで孊習するのに芁した時間玄72時間※ ゚ヌゞェント数5・ランドマヌク数3の環境においお、200䞇゚ピ゜ヌドの孊習では䞍十分だったため、 高い粟床を達成するためには、さらに倚くの゚ピ゜ヌド数にわたる孊習が必芁である。 それでも粟床の改善が芋られない堎合は、さらなる報酬関数の改良も芖野に入れる必芁がある。 200䞇゚ピ゜ヌドたで孊習するのに芁した時間玄24時間※
  10. 参考文献・URL • TransfQMix: Transformers for Leveraging the Graph Structure of

    Multi-Agent Reinforcement Learning Problems https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdf • TransfQMix GitHubリポゞトリ https://github.com/mttga/pymarl_transformers • マルチ゚ヌゞェント匷化孊習における近幎の協調方策孊習アルゎリズムの発展 https://www.docswell.com/s/DeepLearning2023/ZGX66N-dl-254480259 • PyMARL GitHubリポゞトリ https://github.com/oxwhirl/pymarl • The StarCraft Multi-Agent Challenge https://arxiv.org/pdf/1902.04043.pdf • PettingZoo Documentation https://pettingzoo.farama.org/ • PettingZoo GitHubリポゞトリ https://github.com/Farama-Foundation/PettingZoo • Docker: Accelerated Container Application Development https://www.docker.com/
  11. メモ この研究では、䜙剰リ゜ヌス仕事をしない゚ヌゞェント、サボりを実装するにあたっお、「同䞀モデルを 甚いた゚ヌゞェントが状況に応じお異なる振る舞いをする方策を孊習できるのか」ずいう疑問に垞に盎面しお いた。 そこで、TransfQMixの論文https://arxiv.org/ftp/arxiv/papers/2301/2301.05334.pdfでは、『将 来的に耇数の異なるタスクを同䞀のモデルでこなすこずを目暙にしおいる』原文を簡朔に意蚳ず述べられ おいる。 この芳点から、耇数の異なるタスクを同䞀のモデルでこなす方法が確立されれば、䜙剰リ゜ヌスの実装におい おも、「仕事をするべき状況」ず「サボるべき状況」を別々のタスクず考え、䞡方のタスクに察応した方策を 孊習するこずが出来る可胜性がある。