Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Playing Atari with Deep Reinforcement Le...
Search
tt1717
January 30, 2024
Research
250
0
Share
[論文紹介] Playing Atari with Deep Reinforcement Learning
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
January 30, 2024
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
56
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
47
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
33
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
31
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
83
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
78
[論文サーベイ] Survey on Pokemon AI
tt1717
0
110
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
130
[論文サーベイ] Survey on GPT for Games
tt1717
0
82
Other Decks in Research
See All in Research
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
250
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1.5k
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
360
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
360
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
210
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.5k
2025-11-21-DA-10th-satellite
yegusa
0
140
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
130
台湾モデルに学ぶ詐欺広告対策:市民参加の必要性
dd2030
0
300
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
0
300
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
1.2k
進学校の生徒にはア行の苗字が多いのか
ozekinote
0
320
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
247
13k
Leo the Paperboy
mayatellez
7
1.6k
SEO for Brand Visibility & Recognition
aleyda
0
4.5k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
97
WENDY [Excerpt]
tessaabrams
9
37k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
260
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
720
Docker and Python
trallard
47
3.8k
Speed Design
sergeychernyshev
33
1.6k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
160
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・Atari2600タスクの6/7で先行研究のRLアルゴリズムを上回った ・3つのタスクで人間のエキスパート (プロゲーマー)を上回った ・経験データを使って重み更新をするためサンプル効率が高い ・7つのゲームで,全て同じアーキテクチャ,アルゴリズム,ハイパ ラを設定
・「ランダム行動,Sarsa,Contingency,2時間程度ゲームした人 間」とDQN (提案手法)を比較した ・Atariフレーム (3, 210, 160)を前処理フレーム (1, 84, 84)にする ・前処理フレームを4つ重ねて処理する (4, 84, 84) ・CNNで複数回処理して,最後に完全結合層で処理する ・出力は,行動 (action)が出力される ・Atari2600タスクに対して,CNNで特徴量を獲得してDQNで学習 してゲームタスクを解いたもの Playing Atari with Deep Reinforcement Learning (NIPS Deep Learning Workshop 2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller https://arxiv.org/abs/1312.5602 2024/01/30 論文を表す画像 被引用数:13964 1/10
提案手法のアルゴリズム (1/2) 2/10 1. リプレイメモリの初期化: a. リプレイメモリDを容量Nで 初期化する 2. 行動価値関数の初期化:
a. 行動価値関数Qをランダム な重みで初期化する 3. エピソードの繰り返し: a. 1,...,Mステップ繰り返す b. シーケンスの初期化 c. タイムステップの繰り返し (次のスライドに続く)
提案手法のアルゴリズム (2/2) 3/10 1. タイムステップの繰り返し a. 行動の選択 i. εでランダム行動選択 b.
行動の実行と報酬の観測 i. 報酬rtと次の画像xt+1 c. 状態の更新と前処理 i. st+1 = st,at,xt+1 d. トランジションの保存 i. (Φt,at,rt,Φt+1) をリプレイメモリDに保存 e. ミニバッチのサンプリング i. Dからミニバッチによるランダムサンプリング f. 目標値yiの設定 i. 終了条件の分岐 g. 勾配降下ステップの実行 i. 誤差に基づいて,Q関数の重み更新
提案手法の利点 4/10 ❏ 経験データからランダム サンプリングすることで 経験データ間での相関が 崩れる ❏ 経験再生を使うことで, ハイパラの振動や発散を
回避できる
前処理とモデル 5/10 ❏ Atariフレーム (210 × 160, RGB)をグレースケールに変換 ❏ 110
× 84 の画像にダウンサンプリング ❏ 最後に,84 × 84の画像に変換する ❏ この前処理した画像を4つ重ねて処理を行う ❏ 85 (height) × 84 (width) × 4 (frame)となる 1. 第1層 (CNN):ストライド4,フィルタ8 × 8で16回畳み込み 2. 第2層 (CNN):ストライド2,フィルタ4 × 4で32回畳み込み 3. 完全結合層:256の次元に変換 4. 出力層: アクションごとに1つの出力を持つ完全結合層 (アクション数 は4個〜18個) 前処理 モデル
価値関数の可視化 6/10 A.画面左側に敵が現れた後,予測値が上昇している B.エージェントが敵に魚雷を発射し,命中しそうになると予測値がピーク に達する C.敵が消滅した後,予測値はベースの値に戻る 価値関数がどのようにゲームタスクに対応しているか可視化している
実験設定 7/10 ❏ 報酬クリップを導入 (ポジティブ報酬を1,ネガティブ報酬を-1,それ 以外は0) ❏ サイズ32のミニバッチを用いた,RMSpropによる最適化を使用 ❏ 1000万フレームの学習を行い,100万フレームはリプレイバッファに
格納する ❏ 7つのゲームで,「全て同じアーキテクチャ,アルゴリズム,ハイパ ラ」を設定することで様々なゲームでの動作に対して適応できる (ロバ スト)であることを示す
ε=0.05でのスコア結果 8/10 ❏ 平均スコアでは,従来手法と比較して7/7で上回る ❏ Q*bert,Seaquest,Space InvadersではDQNは人間超えができな かった ❏ HNeat
BestとDQN Bestを比較すると,6/7でDQN性能が良い ❏ HNeatは決定論的な方策で,DQNはε=0.05のε-greedey方策を使用
まとめ 9/10 ❏ Atariタスクの1フレーム (画像)からCNNを使って特徴量を獲得し, 「確率的勾配降下法」「経験再生」を使ってDQNアルゴリズムで学習 を行った
感想 10/10 ❏ 画像をCNNを使って特徴量を獲得している部分を改良するアイデアが ありそう ❏ e.g.) 敵対的サンプルを入れる,ViTを使う ❏ ゲームタスクの画像から強化学習をする論文を初めて読んで,学びが
多かった ❏ また,強化学習ではボードゲームなどの完全情報を扱っているのが多 い印象だったが「画像を観測」として使えることに驚いた