これからの教科学習 - Gunosy データマイニング研究会 #117

Gunosyデータマイニング研究会 #117

阿部陽介大学時代の専門は物理（博士）　　ニュートリノ混合角θ 13 の精密測定 2015.4 大手ネット企業 2016.8 Gunosyデータ分析部　　ニュースパスのロジックと分析担当
自己紹介「データ分析ブログ」で検索！

これからの強化学習目的：強化学習の現在の研究を俯瞰すること。これから研究を始める大学院生や研究者向け第１章　強化学習の基礎的理論第２章　強化学習の発展的理論第３章　強化学習の工学応用第４章　知能モデルとしての強化学習

1.1 強化学習とは対象について不完全な知識しかなく、また、対象へのはたらきかけによって観測できることが変わってくる場合に、最適なはたらきかけ方の系列を発見するような問題である強化学習の要素 • エージェント • 環境 •
行動 • 状態 • 報酬 • 方策強化学習試行錯誤しながらデータを収集して方策を改善していく

p.5 探索と利用のトレードオフ不完全な知識の上で、知識を収集しながら最適な行動を計画するにはどうする？利用: これまで試した中で一番いい方策を選ぶこと探索: さらにいい方策がないか試すこと利用ばかりしていると、探索できずに機会損失となる探索を増やすとこれまで学習した最良の行動と異なる行動が増え、報酬が減るこれを探索と利用のトレードオフという

1.1.2 多腕バンディット問題腕がK本あるスロットマシン（多腕ってなんだ・・・？）払い戻される額をR 腕i(kではなく？)を引いたときに、あたりが出る確率をp k とするどうすれば収益を最大化できるかいくつかアルゴリズムがある

1.1.3 greedy アルゴリズム (貪欲法) まず各腕をn回ずつ引く。その後平均報酬の高い腕を引き続ける問題点 - 最適でない腕をn回ずつ引くので、nを大きくするとコストが大きい - 試行回数が少ない場合は誤って最適でない腕を選択する可能性が増える
誤り方には２種類ある（次ページ）

最適でない腕を選択してしまうパターンまだ良い局所解への落ち込み払戻率が悪い腕を引き続けてしまう

ε-greedy アルゴリズムまだ選んだことのない腕がある場合は、その腕から選ぶ確率εでランダムな腕を選ぶ確率1-εで平均報酬が最大の腕を選ぶ • 局所最適への落ち込みを避けることができる • 確率εでランダムの腕を選び続けるコスト •
εを減らしていくというアプローチもある(2.2)

1.1.5 不確かなときは楽観的に楽観主義原理　局所解への落ち込みを避けるある選択肢の期待値が真の値より小さく見積もられる場合は,間違いを修正することは困難であるが,ある選択肢の期待値を真の値より大きく見積もった場合には,何度かその選択肢を選ぶうちに間違いが修正されるのであるそのため,期待値に不確実性があるときには,その不確実性の範囲のなかで,大きい期待値を仮定すべき (楽観的に見積もるべき)

楽観的初期値法 μ' i が最大の腕を選ぶ r sup : 報酬の上界 K: 定数
あまり引いていない腕の結果がよく見えるように下駄をはかせる最初は探索多め、時間ステップの経過とともに利用が多くなる

UCB1アルゴリズムすべての選択肢に対して必要な探索が行われることを保証しつつ、探索のコストも最適解を間違えるリスクも少なくできることが証明されている μ i +U i が最大となる腕iを選ぶ

多腕バンディット問題の学習の例 K=4, 払戻率がそれぞれ0.2, 0.3, 0.4, 0.5として、10000時間ステップの学習を10000回繰り返した場合限界がある収束する

多腕バンディット問題と一般の強化学習問題の違い多腕バンディット問題強化学習の特別な場合で、腕の選択という行動のみを考慮していて状態は考慮していない一般の強化学習問題状態は行動によって変化するため、時間的な経過を取り扱う必要がある。

1.2 強化学習の構成要素強化学習の理論を組み立てていくために必要な概念についてマルコフ決定過程: 強化学習の基本的な枠組みと相互作用を記述する数理モデル収益、価値、方策の定式化

1.2.1 強化学習の基本的な枠組みエージェント: 行動決定の主体環境: エージェントが相互作用を行う対象相互作用: 情報の受け取りと引き渡しを行うこと強化学習ではエージェントの内部構造を設計できるが環境は与えられたものただし、エージェントと環境はあいまい。
例: ロボット制御のアクチュエーターの指令値を行動とするのか、出力そのものを行動とするのか

マルコフ決定過程一番基本的なモデル。エージェントと環境は１時間ステップごとに状態、行動、報酬を受け取ったり引き渡したりする。例　倒立振り子状態: 振り子の角度と角速度行動: 振り子に与えるトルクの大きさ報酬: その行動の即時的な良さ

方策エージェントが行動を決定するためのルール　振り子の傾きに比例して反対にトルクをかけるみたいな。できるだけ多くの報酬を受け取れるように方策を設計することが目的

1.2.2 マルコフ決定過程による時間発展の記述以下の要素によって記述される確率過程状態空間 S: すべての状態からなる集合行動空間 A(s): ある状態sにおける選択可能なすべての行動初期状態分布
P 0 状態遷移確率 P(s' | s, a): 状態sにおいて行動aを決定したとき、s'に遷移する確率報酬関数 r(s, a, s'): 確率分布として定義することもあるが、ここでは一意に定まる関数とする

マルコフ性の由来どこがマルコフ？ t+1時間ステップにおける状態S t+1 はtステップ目の状態S t とその状態で選ばれた行動を A t としたとき、
S t+1 ~ P(s' | S t , A t ) によって定まる。 S t+1 はS t-1 やA t-1 に依存せず、直前の状態のみにより決まる

エージェントの行動決定の定式方策はπで表す状態sで行動aが選択される確率　　　　π(a | s) 行動選択確率

1.2.3 良い方策とは何か？ A. 収益を最大化する方策が良い方策収益は自由に定義できる。例. ある期間を決めて報酬を足し合わせたもの例. 割引報酬和近い未来に価値を置く
(0 < γ < 1)

状態価値収益は区間の開始時点での状態に依存して相互作用の内容が確率的に決定されるため、収益も確率的に変動してしまう。収益そのものは、このままでは行動指標として扱いづらい。状態を条件として収益の期待値をとる。これが状態価値もしくは価値これを使って良い方策を定義する。

例えば、T=1の有限区間収益のとき G t = R t+1 を考える。 t+1で状態がs'となる確率これを使って、状態価値が以下のように表される状態遷移確率
行動選択確率

良い方策とは何か？（再）収益を最大化する方策 = 価値を最大化する方策 π*: 最適方策, V*(s): 最適状態価値観数 tのときの行動も条件とする場合 (A
t =a) 行動価値観数最適行動価値観数

1.2.4 良い方策はどのように求めるか？ greedy方策 ε-greedy方策ボルツマン方策 Tは時間ではなくて、温度。T→0でgreedy方策、T→∞で一様にランダムな行動 (熱力学だとexpの中にマイナスがつく)

おわり価値を推定できれば方策を求めることができる。価値の推定の仕方は1.3から。価値を使わない方策も求め方もあるらしい。これは1.4から。

これからの教科学習 - Gunosy データマイニング研究会 #117

これからの教科学習 - Gunosy データマイニング研究会 #117

Yosuke Abe

Other Decks in Technology

Featured

Transcript

Gunosyデータマイニング研究会 #117

阿部陽介大学時代の専門は物理（博士）　　ニュートリノ混合角θ 13 の精密測定 2015.4 大手ネット企業 2016.8 Gunosyデータ分析部　　ニュースパスのロジックと分析担当

最適でない腕を選択してしまうパターンまだ良い局所解への落ち込み払戻率が悪い腕を引き続けてしまう

楽観的初期値法 μ' i が最大の腕を選ぶ r sup : 報酬の上界 K: 定数

UCB1アルゴリズムすべての選択肢に対して必要な探索が行われることを保証しつつ、探索のコストも最適解を間違えるリスクも少なくできることが証明されている μ i +U i が最大となる腕iを選ぶ

多腕バンディット問題の学習の例 K=4, 払戻率がそれぞれ0.2, 0.3, 0.4, 0.5として、10000時間ステップの学習を10000回繰り返した場合限界がある収束する

1.2 強化学習の構成要素強化学習の理論を組み立てていくために必要な概念についてマルコフ決定過程: 強化学習の基本的な枠組みと相互作用を記述する数理モデル収益、価値、方策の定式化

方策エージェントが行動を決定するためのルール　振り子の傾きに比例して反対にトルクをかけるみたいな。できるだけ多くの報酬を受け取れるように方策を設計することが目的

1.2.2 マルコフ決定過程による時間発展の記述以下の要素によって記述される確率過程状態空間 S: すべての状態からなる集合行動空間 A(s): ある状態sにおける選択可能なすべての行動初期状態分布

マルコフ性の由来どこがマルコフ？ t+1時間ステップにおける状態S t+1 はtステップ目の状態S t とその状態で選ばれた行動を A t としたとき、

エージェントの行動決定の定式方策はπで表す状態sで行動aが選択される確率　　　　π(a | s) 行動選択確率

1.2.3 良い方策とは何か？ A. 収益を最大化する方策が良い方策収益は自由に定義できる。例. ある期間を決めて報酬を足し合わせたもの例. 割引報酬和近い未来に価値を置く

例えば、T=1の有限区間収益のとき G t = R t+1 を考える。 t+1で状態がs'となる確率これを使って、状態価値が以下のように表される状態遷移確率

良い方策とは何か？（再）収益を最大化する方策 = 価値を最大化する方策 π: 最適方策, V(s): 最適状態価値観数 tのときの行動も条件とする場合 (A

1.2.4 良い方策はどのように求めるか？ greedy方策 ε-greedy方策ボルツマン方策 Tは時間ではなくて、温度。T→0でgreedy方策、T→∞で一様にランダムな行動 (熱力学だとexpの中にマイナスがつく)

おわり価値を推定できれば方策を求めることができる。価値の推定の仕方は1.3から。価値を使わない方策も求め方もあるらしい。これは1.4から。