Slide 1
Slide 1 text
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
どうやって有効だと検証した?
・Atari 100kベンチマークを使用して評価し,「中央値,四分位平
均 (IQM),平均スコア」で高い性能を示した
・予測された報酬を世界モデルにフィードバックすることで,現在
どれだけの報酬が出力されているかという情報を提供する
・Dreamerv2の損失関数を修正して,関係するエントロピー項とク
ロスエントロピー項の相対的な重みを微調整した
・強化学習におけるサンプル効率の向上を目指し,Transformer-XL
アーキテクチャを基にした新しい自己回帰型の世界モデル (TWM)を
提案した
・提案されたTWMは,Atari 100kベンチマークで既存のモデルフ
リー or モデルベースの強化学習アルゴリズムを上回る性能を示した
Transformer-based World Models Are Happy With 100k Interactions
(ICLR 2023) Jan Robine, Marc Höftmann, Tobias Uelwer, Stefan Harmeling
https://arxiv.org/abs/2303.07109
2024/01/31
論文を表す画像
被引用数:13
1/9
・Transformer-XLアーキテクチャを活用することで長期依存関係を
学習し,計算効率を保持している
・TWMは推論時にTransformerを必要としないため,計算コストを
削減している