Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Human-level control through deep reinfor...
Search
tt1717
April 29, 2024
Research
700
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[論文紹介] Human-level control through deep reinforcement learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
April 29, 2024
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
73
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
57
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
47
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
47
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
90
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
86
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
140
[論文サーベイ] Survey on GPT for Games
tt1717
0
94
Other Decks in Research
See All in Research
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
290
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.7k
人間中心の意思決定支援AI
yukinobaba
PRO
6
2.9k
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
320
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
640
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
290
COFFEE-Japan PROJECT Impact Report(Uminomukou Coffee)
ontheslope
0
200
正規分布と最適化について
koide3
1
260
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
640
事後確率分布の共分散について
koide3
0
140
The mathematics of transformers
gpeyre
0
330
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
200
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
340
58k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
From π to Pie charts
rasagy
0
210
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
300
Google's AI Overviews - The New Search
badams
0
1k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
How to build a perfect <img>
jonoalderson
1
5.7k
Transcript
・Atari 2600の49種類のゲームを使用して性能を評価した. ・各ゲームにおいてDQNは観測画像を入力として使用し,従来研究 や人間と比較して高いスコアを達成した. ・先行研究では,特徴を手動で設計する必要があり,低次元の状態 空間でのタスクに限定されていた. ・本研究で提案されたDQNは高次元の入力から直接学習を行うこと ができる. ・CNNを用いて状態空間を処理し,行動価値関数を近似することが 技術的な肝となっている.
・経験再生を使用して,サンプル間の相関関係を低減した.これに より,例えばゲームの次のステップでどのような状態に遷移するか わかりやすいデータの相関を断ち切ることが可能になった. ・高次元の状態入力から方策を学習できるDQNを提案した. ・Atari2600のゲームタスクにおいて,ゲーム内の画像 (状態)を入 力として人間超えの性能を示した. ・DQNが広範なタスクに対して効果的であることを証明した. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? Human-level control through deep reinforcement learning (Nature 2015) Volodymyr Mnih et al., Google DeepMind et al. https://www.nature.com/articles/nature14236 2024/04/29 論文を表す画像 被引用数:29625 1/9
提案手法 ❖ 入力:前処理によって作成された84x84x4の画像を用いる.直近4フレームの ビデオフレームを単一の入力として扱う ❖ CNN層:3つのCNN層があり,それぞれが異なるサイズとストライドのフィル タを使用して入力画像を処理する ➢ 各CNN層での処理後は,ReLU関数で処理される 2/9
❖ 全結合層:各CNN層の後に512の隠れユニットを持つ全結合層によって処理さ れる ➢ この層は,観測状態を基にした行動価値 (Q値) を計算するために使用される ❖ 出力層:各ゲームタスクに応じた行動数だけ出力を持つ ➢
これにより,各行動の予想される行動価値 (Q値) が出力される 提案手法 3/9
❖ a (左):Space Invadersでの平均スコア ➢ エポック数が増えていくと,スコアも向上している ❖ b (右):Seaquestでの平均スコア ➢
エポック数が増えていくと,スコアも向上している ❖ この結果は,DQNが異なるゲーム環境においても効果的にタスクを学 習できることを示している 実験結果 4/9
❖ a (左):Space Invadersでの状態集合に対する平均行動価値 ➢ エポック数が増えていくと,Q値も向上している ❖ b (右):Seaquestでの状態集合に対する平均行動価値 ➢
エポック数が増えていくと,Q値も向上している ❖ DQNエージェントが異なるゲーム環境において効果的に行動価値を予 測できるようになっていく様子がグラフからわかる 実験結果 5/9
❖ 縦軸:各ゲーム ❖ 横軸:人間方策とランダム方策 によるスコアを基準にして正規 化したもの (%) ❖ At human-level
or above ➢ この基準線以上のゲームタスク ではDQNは高い学習能力を 持っていることを示す ❖ Below human-level ➢ この基準線以下のゲームタスク ではDQNエージェントのさら なる改善の必要性がある ❖ すべてのゲームで一様に高性能 というわけではなく,タスクに よっては人間の方が上手なタス クもある 実験結果 6/9
❖ 最後の隠れ層表現を2次元t-SNE を用いて視覚化したもの ❖ 行動価値 (Q値) を色の範囲で示す ➢ 赤 (高い)
から青 (低い) ❖ 特定のゲーム状態の行動価値が視 覚的に説明され,状態の有利さを 示す ❖ ゲーム状態の評価 ➢ 期待される報酬の高い or 低い ➢ 有利なゲーム状態(敵が多い) で高い状態価値が予測される ➢ 不利なゲーム状態(敵が少な い)では低い状態価値が予測さ れる ❖ 期待される報酬が高い or 低い ゲーム状態でマッピングされる 実験結果 7/9
まとめ 8/9 ❖ 状態空間の多いゲームタスクにおいてCNNを用いた特徴抽出によって 人間超えを達成した ❖ 一部のゲームタスクでは人間に劣るものの,ほとんどのゲームタスク では提案手法が優勢であった
❖ 観測画像をCNNで処理して,それを強化学習における行動選択に落と し込むアイデアが斬新だった ❖ Minecraftなどの奥行きがある3Dゲームでは,提案手法は有効なの か? 感想 9/9