AIか何かについて.pdf

AIか何かについて  kunou 2019/7/19 

今回は  「強化学習」  の話をしようと思います 

強化学習って何？ 

強化学習って何？  強化学習（きょうかがくしゅう、英: Reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムで
ある。 https://ja.wikipedia.org/wiki/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92

強化学習って何？  https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83 %95%E6%B1%BA%E5%AE%9A%E9%81%8E%E7%A8%8B マルコフ決定過程ある状態(S0 | S1 | S2 )の時に、ある行動(a0
| a1 )を取ると、確率的に報酬を得て次の状態に遷移する。強化学習では、解きたい問題をこのモデルに当てはめ、得られる報酬が最大になる組み合わせを自動で探し出し学習する。

DEMO  時間に余裕があるうちにDEMOをします

DEMO  時間に余裕があるうちにDEMOをします今回はCatcherという非常に単純なゲームを学習させました画面上部から落ちてくるボールをバーを左右に動かして受け止めるゲームです。ボールを受け止められるとスコアが増え、ボールを落とすとスコアが減ります。ボールを３回落とすとゲームオーバーになります。

どうやって行動を決定してるの？ 

どうやって行動を決定してるの？  今回はニューラルネットワーク (学習済み) 0(左) 1(右) 2(入力なし) 直近4フレームから
※1 実際は回帰問題なので分類問題では無いのですが、説明を単純にするため便宜上分類問題のように書いていますアクションを決定している ※1

どうやって行動を決定してるの？  今回はニューラルネットワーク (学習済み) 0(左) 1(右) 2(入力なし) 直近4フレームから
アクションを決定している ※1 ※1 実際は回帰問題なので分類問題では無いのですが、説明を単純にするため便宜上分類問題のように書いていますデータとしては、縦、横、フレームの 3 次元配列で表現できる ※2 ※2 この問題の場合は色は重要ではないのでグレースケールとして扱っている

どうやって行動を決定してるの？  今回はニューラルネットワーク (学習済み) 0(左) 1(右) 2(入力なし) 直近4フレームを表す配
列を受け取りアクションに応じた数値を返す ※1 ※1 実際は回帰問題なので分類問題では無いのですが、説明を単純にするため便宜上分類問題のように書いています [ [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], : ]

どうやって学習してるの？ 

どうやって学習してるの？  今回はQ-learningという手法を使っています。

どうやって学習してるの？  今回はQ-learningという手法を使っています。概念的にはQTableと呼ばれる表をイメージすると理解しやすいです。

どうやって学習してるの？  QTable(初期状態) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111
0.222 0.333 -0.432 0.543 0.325 各セルを乱数で初期化を行う

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111
0.222 0.333 -0.432 0.543 0.325

0.222 0.333 -0.432 0.543 0.325 もしこの状態に一致するならば…

0.222 0.333 -0.432 0.543 0.325 もしこの状態に一致するならば… 報酬が最大になるアクションを選択する

0.222 0.333 -0.432 0.543 0.325 もしこの状態に一致するならば… 報酬が最大になるアクションを選択するその結果ボールを落とす

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111
0.222 0.333 -0.432 0.543 0.325 もしこの状態に一致するならば… ボールを落としたので報酬を減らす※ ※1 実際の計算方法については省略

0.222 0.333 -0.432 0.543 0.325 再度この状態に一致するならば…

0.222 0.333 -0.432 0.543 0.325 再度この状態に一致するならば… 報酬が最大になるアクションを選択する

0.222 0.333 -0.432 0.543 0.325 再度この状態に一致するならば… 報酬が最大になるアクションを選択するその結果、ボールを得られる

0.222 0.333 -0.432 0.543 0.325 再度この状態に一致するならば… ボールを得られたので報酬を増やす

どうやって学習してるの？  以降これを繰り返すことで学習が進んでいきます。

どうやって学習してるの？  以降これを繰り返すことで学習が進んでいきます。ただし実際のQTableの状態は、256階調のグレースケール画像として、 256の25600(80 x 80 x 4)乗ものとてつもなく膨大な組み合わせ数が存在することになります。 Google先生も匙を
投げる大きさ

どうやって学習してるの？  以降これを繰り返すことで学習が進んでいきます。ただし実際のQTableの状態は、256階調のグレースケール画像として、 256の25600(80 x 80 x 4)乗ものとてつもなく膨大な組み合わせ数が存在することになります。そのため、実際には畳み込みニューラルネットワークを利用して
画面の特徴量をニューラルネットワークに学習させることで、状態数が爆発的に増えるのを防いでいます。 Google先生も匙を投げる大きさ

まとまってないまとめ  ライブラリやドキュメントが整備されてきたため、個人でも強化学習を簡単に出来るようになってきました。 (ただしマシンパワー必須) AIの用途として画像分類や自然言語解析など実用性の高いものも面白いですが、ゲームを操作させるというのはより人工知能らしくて面白いので、興味がある人はいかがでしょうか。

付録

ニューラルネットって何してるの？  例えば画像分類だとニューラルネットワーク (学習済み) 0(猫) 1(犬) ある画像を受け取り分類に応じたラベルを返す

ニューラルネットって何してるの？  例えば画像分類だとニューラルネットワーク (学習済み) 0(猫) 1(犬) ある画像を受け取り分類に応じたラベルを返す
データとしては、縦、横、 RGBの3 次元配列で表現できる

ニューラルネットって何してるの？  例えば画像分類だと関数 0 [ [[256, 128, 192], [211, 73,
81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], : ] 1 [ [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], : ] ある配列を受け取り分類に応じた数値を返す

ニューラルネットって何してるの？  つまり、ニューラルネットワークとは非常に複雑な関数の実装

どうやって学習してるの？ 

どうやって学習してるの？  時間切れ気力があったら書きます

AIか何かについて.pdf

AIか何かについて.pdf

kunou

More Decks by kunou

Featured

Transcript

AIか何かについて  kunou 2019/7/19

今回は  「強化学習」  の話をしようと思います

強化学習って何？

強化学習って何？  https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83 %95%E6%B1%BA%E5%AE%9A%E9%81%8E%E7%A8%8B マルコフ決定過程ある状態(S0 | S1 | S2 )の時に、ある行動(a0

DEMO  時間に余裕があるうちにDEMOをします

どうやって行動を決定してるの？

どうやって行動を決定してるの？  今回はニューラルネットワーク (学習済み) 0(左) 1(右) 2(入力なし) 直近4フレームから

どうやって行動を決定してるの？  今回はニューラルネットワーク (学習済み) 0(左) 1(右) 2(入力なし) 直近4フレームから

どうやって行動を決定してるの？  今回はニューラルネットワーク (学習済み) 0(左) 1(右) 2(入力なし) 直近4フレームを表す配

どうやって学習してるの？

どうやって学習してるの？  今回はQ-learningという手法を使っています。

どうやって学習してるの？  今回はQ-learningという手法を使っています。概念的にはQTableと呼ばれる表をイメージすると理解しやすいです。

どうやって学習してるの？  QTable(初期状態) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

どうやって学習してるの？  QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.534 -0.111

どうやって学習してるの？  以降これを繰り返すことで学習が進んでいきます。

付録

ニューラルネットって何してるの？  例えば画像分類だとニューラルネットワーク (学習済み) 0(猫) 1(犬) ある画像を受け取り分類に応じたラベルを返す

ニューラルネットって何してるの？  例えば画像分類だとニューラルネットワーク (学習済み) 0(猫) 1(犬) ある画像を受け取り分類に応じたラベルを返す

ニューラルネットって何してるの？  例えば画像分類だと関数 0 [ [[256, 128, 192], [211, 73,

ニューラルネットって何してるの？  つまり、ニューラルネットワークとは非常に複雑な関数の実装

どうやって学習してるの？

どうやって学習してるの？  時間切れ気力があったら書きます