Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Human-level control through deep reinforcement learning
Search
tt1717
April 29, 2024
Research
0
11
[論文紹介] Human-level control through deep reinforcement learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
April 29, 2024
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
11
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
6
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
32
[論文紹介] Deep Learning for Video Game Playing
tt1717
0
21
[論文紹介] Playing Atari with Deep Reinforcement Learning
tt1717
0
15
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
tt1717
0
20
[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習
tt1717
0
20
[論文サーベイ] Survey on Minecraft AI
tt1717
0
32
[論文サーベイ] Survey on Sim-to-Real
tt1717
0
15
Other Decks in Research
See All in Research
Accurate Method and Variable Tracking in Commit History
tsantalis
0
300
眠眠ガチャ:ガチャを活用した睡眠意欲向上アプリの開発 / EC71inui
yumulab
1
200
研究効率化Tips_2024 / Research Efficiency Tips 2024
ryo_nakamura
5
3.5k
待機電力を削減したネットワーク更新型電子ペーパーサイネージの開発と評価 / IOT64
yumulab
0
120
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
780
Discovering Universal Geometry in Embeddings with ICA
momoseoyama
1
390
VAR モデルによる OSS プロジェクト同士が生存性に与える 影響の分析
noppoman
0
140
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
540
機械学習と最適化の融合動的ロットサイズ決定問題を例として
mickey_kubo
2
300
論文紹介 AST: Audio Spectrogram Transformer
kazu07
0
110
Introduction of NII S. Koyama's Lab (AY2024)
skoyamalab
0
180
My Journey as a UX Researcher
aranciap
0
1.2k
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
91
13k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
Visualization
eitanlees
137
14k
Building a Modern Day E-commerce SEO Strategy
aleyda
22
6.4k
How to Ace a Technical Interview
jacobian
273
22k
Designing on Purpose - Digital PM Summit 2013
jponch
111
6.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
244
12k
Robots, Beer and Maslow
schacon
PRO
155
7.9k
What the flash - Photography Introduction
edds
64
11k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
In The Pink: A Labor of Love
frogandcode
138
21k
Transcript
・Atari 2600の49種類のゲームを使用して性能を評価した. ・各ゲームにおいてDQNは観測画像を入力として使用し,従来研究 や人間と比較して高いスコアを達成した. ・先行研究では,特徴を手動で設計する必要があり,低次元の状態 空間でのタスクに限定されていた. ・本研究で提案されたDQNは高次元の入力から直接学習を行うこと ができる. ・CNNを用いて状態空間を処理し,行動価値関数を近似することが 技術的な肝となっている.
・経験再生を使用して,サンプル間の相関関係を低減した.これに より,例えばゲームの次のステップでどのような状態に遷移するか わかりやすいデータの相関を断ち切ることが可能になった. ・高次元の状態入力から方策を学習できるDQNを提案した. ・Atari2600のゲームタスクにおいて,ゲーム内の画像 (状態)を入 力として人間超えの性能を示した. ・DQNが広範なタスクに対して効果的であることを証明した. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? Human-level control through deep reinforcement learning (Nature 2015) Volodymyr Mnih et al., Google DeepMind et al. https://www.nature.com/articles/nature14236 2024/04/29 論文を表す画像 被引用数:29625 1/9
提案手法 ❖ 入力:前処理によって作成された84x84x4の画像を用いる.直近4フレームの ビデオフレームを単一の入力として扱う ❖ CNN層:3つのCNN層があり,それぞれが異なるサイズとストライドのフィル タを使用して入力画像を処理する ➢ 各CNN層での処理後は,ReLU関数で処理される 2/9
❖ 全結合層:各CNN層の後に512の隠れユニットを持つ全結合層によって処理さ れる ➢ この層は,観測状態を基にした行動価値 (Q値) を計算するために使用される ❖ 出力層:各ゲームタスクに応じた行動数だけ出力を持つ ➢
これにより,各行動の予想される行動価値 (Q値) が出力される 提案手法 3/9
❖ a (左):Space Invadersでの平均スコア ➢ エポック数が増えていくと,スコアも向上している ❖ b (右):Seaquestでの平均スコア ➢
エポック数が増えていくと,スコアも向上している ❖ この結果は,DQNが異なるゲーム環境においても効果的にタスクを学 習できることを示している 実験結果 4/9
❖ a (左):Space Invadersでの状態集合に対する平均行動価値 ➢ エポック数が増えていくと,Q値も向上している ❖ b (右):Seaquestでの状態集合に対する平均行動価値 ➢
エポック数が増えていくと,Q値も向上している ❖ DQNエージェントが異なるゲーム環境において効果的に行動価値を予 測できるようになっていく様子がグラフからわかる 実験結果 5/9
❖ 縦軸:各ゲーム ❖ 横軸:人間方策とランダム方策 によるスコアを基準にして正規 化したもの (%) ❖ At human-level
or above ➢ この基準線以上のゲームタスク ではDQNは高い学習能力を 持っていることを示す ❖ Below human-level ➢ この基準線以下のゲームタスク ではDQNエージェントのさら なる改善の必要性がある ❖ すべてのゲームで一様に高性能 というわけではなく,タスクに よっては人間の方が上手なタス クもある 実験結果 6/9
❖ 最後の隠れ層表現を2次元t-SNE を用いて視覚化したもの ❖ 行動価値 (Q値) を色の範囲で示す ➢ 赤 (高い)
から青 (低い) ❖ 特定のゲーム状態の行動価値が視 覚的に説明され,状態の有利さを 示す ❖ ゲーム状態の評価 ➢ 期待される報酬の高い or 低い ➢ 有利なゲーム状態(敵が多い) で高い状態価値が予測される ➢ 不利なゲーム状態(敵が少な い)では低い状態価値が予測さ れる ❖ 期待される報酬が高い or 低い ゲーム状態でマッピングされる 実験結果 7/9
まとめ 8/9 ❖ 状態空間の多いゲームタスクにおいてCNNを用いた特徴抽出によって 人間超えを達成した ❖ 一部のゲームタスクでは人間に劣るものの,ほとんどのゲームタスク では提案手法が優勢であった
❖ 観測画像をCNNで処理して,それを強化学習における行動選択に落と し込むアイデアが斬新だった ❖ Minecraftなどの奥行きがある3Dゲームでは,提案手法は有効なの か? 感想 9/9