Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Mastering Diverse Domains through World ...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
October 25, 2023
Research
130
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[論文紹介] Mastering Diverse Domains through World Models
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
73
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
59
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
47
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
48
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
91
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
86
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
140
[論文サーベイ] Survey on GPT for Games
tt1717
0
95
Other Decks in Research
See All in Research
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
320
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
550
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
260
PGDM: Physically Guided Diffusion Model for L Downscaling
satai
2
290
NLP colloquium: AI Safety Survey
kanekomasahiro
0
750
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
590
(SIGQS17) Frasco-VS:フラグメントに基づく薬剤候補化合物選抜の量子アニーリングによる実現
keisukeyanagisawa
PRO
0
130
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.7k
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
3
180
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
120
Claude Code × autoresearch 実践
mathbullet
0
170
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
230
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
187
22k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
210
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
450
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
170
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
210
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
The Language of Interfaces
destraynor
162
27k
Embracing the Ebb and Flow
colly
88
5.1k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
370
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・先行研究では特定タスクやドメインに特化していたが,Dreamerv3で は多くのドメインにわたるタスクを解決できる汎用的でスケーリング特 性をもつ手法を提案. ・チューニングが少なくて済み,タスクや環境の変化に対して堅牢. ・優れたスケーリング特性により先行研究よりも大規模で複雑なタスク を処理できる.
・複数のベンチマークで性能評価 行動空間が離散or連続,空間が2Dor3D,報酬が疎or密なものを対 象. ・モデルサイズの変更による性能評価 ・世界モデルによる未来予測 ・Minecraftダイヤモンド収集タスクによる評価 ・Dreamerv2をより汎用的に使える手法にするためにいくつか工夫 ・ドメインが変わっても常に同じハイパラで学習できるように 1.観測や報酬の値をsymlog関数で変換する. 2.Actorの目的関数ではλ収益の値を正規化する. ・固定ハイパラを用いた広範囲のドメインにおいて,既存手法を超 えた. ・Dreamerv3はスケーリング特性により,大きなモデルを使用する と高いデータ効率と高い最終パフォーマンスを獲得. ・「人間のデータ」「カリキュラム学習」を使わずに,ゼロから Minecraftでダイヤモンド採集タスクに成功した. Mastering Diverse Domains through World Models (arXiv 2023)Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap https://arxiv.org/pdf/2301.04104v1.pdf 2023/05/06 論文を表す画像 被引用数:947 1/11
Symlog Prediction ❏ ドメインが変わると,観測や報酬の値のスケールが変わるので,逐一 ハイパラを調整する必要がある ❏ それをしなくていいように,symlog関数をかけることで値をある程度 揃える ❏ 可逆な関数なので,逆関数をかければ元の値に戻せる
2/11
λ収益の正規化 ❏ エントロピー正則化付きでactorを学習する場合,その係数のチューニ ングは報酬のスケールやスパース性に依存するので難しい ❏ うまく報酬の値を正規化できれば,ドメインによらずエントロピー項 の係数を固定できるはず ❏ 収益を5~95%分位数の幅で正規化する ❏
単純に分散で正規化すると,報酬がスパースなときに,収益が過大評 価されてしまうので,外れ値を弾けるようにこの形にする 3/11
実験(ベンチマーク) ❏ すべてのドメイン・タスクで同じハイパラで高い性能が出せる ❏ チューニングの必要がなくなる 4/11
実験(スケーリング) ❏ モデルサイズによって性能がスケールすることを確認 ❏ 最終パフォーマンスとデータ効率向上 ❏ 勾配ステップ数を増やすと,データ効率がさらに向上 ❏ 最終パフォーマンスはどれも同じ 5/11
実験(データ効率) ❏ DMLabタスクでDreamerv3はIMPALAの約1/130のデータ効率 ❏ さらに,Dreamerv3の最終パフォーマンスがIMPALAを超えている 6/11
実験(世界モデルにおける未来予測) ❏ 上2段がDMLabタスクにおける結果 ❏ 下2段がControl Suiteタスクにおける結果 7/11
実験(Minecraftタスク) ❏ Minecraftタスクで初めてRL agentがダイヤモンドを取ることに成功 8/11
まとめ ❏ Dreamerv2の発展版を提案 ❏ Minecraftタスクでダイヤモンドを採取できるのはすごいと感じた ❏ Minecraftタスク40回のプレイすべてで,ダイヤモンドを採取できな い ❏ 人間だと40回の全プレイにおいて,ダイヤモンドを採取できると
予想 ❏ より横断的にゲーム環境のタスクでテストの実施が必要 9/11
補足:用語の意味 ❏ カリキュラム学習 ❏ タスクの難易度を徐々に上げて,効率的にエージェントを学習さ せる方法 ❏ トレーニング率 ❏ ステップ数に対するトレーニング中に実行された環境ステップ数
の比率 10/11
参考文献 ❏ モリカトロンAIラボ ❏ 松尾研究室スライド ❏ Danijar Hafnerサイト ❏ ステートオブAIガイド
11/11