Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Human-level control through deep reinfor...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
April 29, 2024
Research
680
0
Share
[論文紹介] Human-level control through deep reinforcement learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
April 29, 2024
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
66
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
52
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
41
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
43
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
87
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
85
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
130
[論文サーベイ] Survey on GPT for Games
tt1717
0
92
Other Decks in Research
See All in Research
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.4k
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
180
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
820
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.1k
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
150
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
290
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
100
R&Dチームを起ち上げる
shibuiwilliam
1
260
羽田新ルート運用6年の検証
1manken
0
160
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
210
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
1.2k
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
730
Featured
See All Featured
Thoughts on Productivity
jonyablonski
76
5.2k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
The Curious Case for Waylosing
cassininazir
1
360
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
140
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
310
The SEO identity crisis: Don't let AI make you average
varn
0
480
Into the Great Unknown - MozCon
thekraken
41
2.5k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
120
Google's AI Overviews - The New Search
badams
0
1k
Site-Speed That Sticks
csswizardry
13
1.2k
Scaling GitHub
holman
464
140k
Transcript
・Atari 2600の49種類のゲームを使用して性能を評価した. ・各ゲームにおいてDQNは観測画像を入力として使用し,従来研究 や人間と比較して高いスコアを達成した. ・先行研究では,特徴を手動で設計する必要があり,低次元の状態 空間でのタスクに限定されていた. ・本研究で提案されたDQNは高次元の入力から直接学習を行うこと ができる. ・CNNを用いて状態空間を処理し,行動価値関数を近似することが 技術的な肝となっている.
・経験再生を使用して,サンプル間の相関関係を低減した.これに より,例えばゲームの次のステップでどのような状態に遷移するか わかりやすいデータの相関を断ち切ることが可能になった. ・高次元の状態入力から方策を学習できるDQNを提案した. ・Atari2600のゲームタスクにおいて,ゲーム内の画像 (状態)を入 力として人間超えの性能を示した. ・DQNが広範なタスクに対して効果的であることを証明した. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? Human-level control through deep reinforcement learning (Nature 2015) Volodymyr Mnih et al., Google DeepMind et al. https://www.nature.com/articles/nature14236 2024/04/29 論文を表す画像 被引用数:29625 1/9
提案手法 ❖ 入力:前処理によって作成された84x84x4の画像を用いる.直近4フレームの ビデオフレームを単一の入力として扱う ❖ CNN層:3つのCNN層があり,それぞれが異なるサイズとストライドのフィル タを使用して入力画像を処理する ➢ 各CNN層での処理後は,ReLU関数で処理される 2/9
❖ 全結合層:各CNN層の後に512の隠れユニットを持つ全結合層によって処理さ れる ➢ この層は,観測状態を基にした行動価値 (Q値) を計算するために使用される ❖ 出力層:各ゲームタスクに応じた行動数だけ出力を持つ ➢
これにより,各行動の予想される行動価値 (Q値) が出力される 提案手法 3/9
❖ a (左):Space Invadersでの平均スコア ➢ エポック数が増えていくと,スコアも向上している ❖ b (右):Seaquestでの平均スコア ➢
エポック数が増えていくと,スコアも向上している ❖ この結果は,DQNが異なるゲーム環境においても効果的にタスクを学 習できることを示している 実験結果 4/9
❖ a (左):Space Invadersでの状態集合に対する平均行動価値 ➢ エポック数が増えていくと,Q値も向上している ❖ b (右):Seaquestでの状態集合に対する平均行動価値 ➢
エポック数が増えていくと,Q値も向上している ❖ DQNエージェントが異なるゲーム環境において効果的に行動価値を予 測できるようになっていく様子がグラフからわかる 実験結果 5/9
❖ 縦軸:各ゲーム ❖ 横軸:人間方策とランダム方策 によるスコアを基準にして正規 化したもの (%) ❖ At human-level
or above ➢ この基準線以上のゲームタスク ではDQNは高い学習能力を 持っていることを示す ❖ Below human-level ➢ この基準線以下のゲームタスク ではDQNエージェントのさら なる改善の必要性がある ❖ すべてのゲームで一様に高性能 というわけではなく,タスクに よっては人間の方が上手なタス クもある 実験結果 6/9
❖ 最後の隠れ層表現を2次元t-SNE を用いて視覚化したもの ❖ 行動価値 (Q値) を色の範囲で示す ➢ 赤 (高い)
から青 (低い) ❖ 特定のゲーム状態の行動価値が視 覚的に説明され,状態の有利さを 示す ❖ ゲーム状態の評価 ➢ 期待される報酬の高い or 低い ➢ 有利なゲーム状態(敵が多い) で高い状態価値が予測される ➢ 不利なゲーム状態(敵が少な い)では低い状態価値が予測さ れる ❖ 期待される報酬が高い or 低い ゲーム状態でマッピングされる 実験結果 7/9
まとめ 8/9 ❖ 状態空間の多いゲームタスクにおいてCNNを用いた特徴抽出によって 人間超えを達成した ❖ 一部のゲームタスクでは人間に劣るものの,ほとんどのゲームタスク では提案手法が優勢であった
❖ 観測画像をCNNで処理して,それを強化学習における行動選択に落と し込むアイデアが斬新だった ❖ Minecraftなどの奥行きがある3Dゲームでは,提案手法は有効なの か? 感想 9/9