Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Transformer-based World Models Are Happy...
Search
tt1717
January 31, 2024
Research
190
0
Share
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 31, 2024
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
67
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
53
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
41
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
44
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
87
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
85
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
140
[論文サーベイ] Survey on GPT for Games
tt1717
0
92
Other Decks in Research
See All in Research
コーディングエージェントとABNを再考
hf149
2
690
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
170
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
160
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.1k
typst の使い方:言語学を研究する学生のために
gitomochang
0
440
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
240
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
490
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
200
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
2
130
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
790
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.5k
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
460
Featured
See All Featured
A designer walks into a library…
pauljervisheath
211
24k
Mind Mapping
helmedeiros
PRO
1
220
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
240
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
410
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
460
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
My Coaching Mixtape
mlcsv
0
140
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
190
Scaling GitHub
holman
464
140k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・Atari 100kベンチマークを使用して評価し,「中央値,四分位平 均 (IQM),平均スコア」で高い性能を示した ・予測された報酬を世界モデルにフィードバックすることで,現在 どれだけの報酬が出力されているかという情報を提供する
・Dreamerv2の損失関数を修正して,関係するエントロピー項とク ロスエントロピー項の相対的な重みを微調整した ・強化学習におけるサンプル効率の向上を目指し,Transformer-XL アーキテクチャを基にした新しい自己回帰型の世界モデル (TWM)を 提案した ・提案されたTWMは,Atari 100kベンチマークで既存のモデルフ リー or モデルベースの強化学習アルゴリズムを上回る性能を示した Transformer-based World Models Are Happy With 100k Interactions (ICLR 2023) Jan Robine, Marc Höftmann, Tobias Uelwer, Stefan Harmeling https://arxiv.org/abs/2303.07109 2024/01/31 論文を表す画像 被引用数:13 1/9 ・Transformer-XLアーキテクチャを活用することで長期依存関係を 学習し,計算効率を保持している ・TWMは推論時にTransformerを必要としないため,計算コストを 削減している
❖ 観測のエンコード: ➢ 観測otはCNNを使用して潜在状態ztに変換 ❖ 潜在状態,行動,報酬の埋め込み: ➢ 生成された潜在状態zt,行動at,報酬rtはそれぞれ線形埋め込みを通して 処理される ❖
Transformerの活用: ➢ 埋め込まれた潜在状態,行動,報酬はTransformerに入力され,各時間に おいて決定論的な隠れ状態htを計算する モデル 2/9
モデル 3/9 ❖ MLPを使用した予測 ➢ Transformerによって計算された隠れ状態htを元に,MLPを使用して次の 潜在状態zt+1^,報酬rt^,割引率γt^の予測を行う ❖ 時系列データの処理 ➢
Transformerはht-Lからhtまでのシーケンスを処理することで過去のデー タに基づいて現在の隠れ状態htを更新する
損失関数の設計 (観測モデル) 4/9 ❖ decoder:観測デコーダ ➢ モデルがデータをどれだけうまく再構成できているかを測る項 ❖ entropy regularizer:エントロピー正則化項
➢ 潜在状態の分布が一様になりすぎることを防ぐための項 ❖ consistency:一貫性損失 ➢ エンコーダとダイナミクスモデルが生成する潜在状態の分布の一貫性を測 る項 ❖ α1, α2:ハイパラ ➢ エントロピー正則化項と一貫性損失の重みを制御する
❖ latent state predictor:潜在状態予測器 ➢ 次の時間における潜在状態 zt+1 の予測のクロスエントロピー ❖ reward
predictor:報酬予測器 ➢ モデルが予測する報酬 rt の負の対数尤度 ❖ discount predictor:割引予測器 ➢ 割引率 γt の予測の負の対数尤度,エピソード終了時 dt=1 のときγt=0で それ以外のときは,γt=γとなる ❖ β1, β2:ハイパラ ➢ 報酬予測器と割引予測器の重みを制御する 損失関数の設計 (ダイナミクスモデル) 5/9
Atari 100kベンチマーク結果 (定量評価) 6/9 ❖ 100エピソードで訓練したモデ ルで5回評価したスコアから 「中央値と平均値」を算出 ❖ Normalized
Mean ➢ 人間プレイヤーの平均スコア に対する各アルゴリズムのス コアの正規化平均 ❖ Normalized Median ➢ 人間プレイヤーの平均スコア に対する各アルゴリズムのス コアの正規化中央値 ❖ ほとんどのゲームで従来手法を 上回る性能 ❖ Normalized Meanのスコアが 高いことから人間プレイヤーに 匹敵する性能を示している
❖ Boxing ➢ プレイヤー (白) が攻撃 (赤フレーム)を行い,次のフレームで報酬を獲得 している (緑フレーム) ❖
Freeway ➢ プレイヤーは上方向に移動するアクションを継続して選択している (赤い 横枠) ❖ モデルは行動を取り,その結果として期待される報酬を計算し,ゲー ムの進行を「想像」することができている ゲームタスクの観測軌道 (定性評価) 7/9
まとめ 8/9 ❖ World model × Transformerによるモデルを提案した ❖ Dreamerv2の損失関数の設計を修正した ❖
定量評価において,平均スコアは人間とほぼ同等性能 ❖ 定性評価では,提案モデルが観測ot,行動at,報酬rtを予測しゲーム 進行を再現できている
感想 9/9 ❖ 推論時にTransformerを使用しないことで,計算コスト削減しているの がIRISとの違い (だと思う) ❖ このモデルをオフラインデータで実験したらどのようになるのか気に なる ➢
githubを見た限りデータセットはないのでオンライン学習だと思う