Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIか何かについて.pdf

kunou
July 19, 2019
25

 AIか何かについて.pdf

kunou

July 19, 2019
Tweet

Transcript

  1. 強化学習って何?
 https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83 %95%E6%B1%BA%E5%AE%9A%E9%81%8E%E7%A8%8B マルコフ決定過程 ある状態(S0 | S1 | S2 )の時に、ある行動(a0

    | a1 )を取ると、 確率的に報酬を得て次の状態に遷移する。 強化学習では、解きたい問題をこのモデルに当てはめ、 得られる報酬が最大になる組み合わせを 自動で探し出し学習する。
  2. どうやって行動を決定してるの?
 今回は ニューラル ネットワーク (学習済み) 0(左) 1(右) 2(入力 なし) 直近4フレームから

    ※1 実際は回帰問題なので分類問題では 無いのですが、説明を単純にするため便 宜上分類問題のように書いています アクションを決定してい る ※1
  3. どうやって行動を決定してるの?
 今回は ニューラル ネットワーク (学習済み) 0(左) 1(右) 2(入力 なし) 直近4フレームから

    アクションを決定してい る ※1 ※1 実際は回帰問題なので分類問題では 無いのですが、説明を単純にするため便 宜上分類問題のように書いています データとしては、縦、横、フレームの 3 次元配列で表現できる ※2 ※2 この問題の場合は色は重要ではない のでグレースケールとして扱っている
  4. どうやって行動を決定してるの?
 今回は ニューラル ネットワーク (学習済み) 0(左) 1(右) 2(入力 なし) 直近4フレームを表す配

    列を受け取り アクションに応じた数値 を返す ※1 ※1 実際は回帰問題なので分類問題では 無いのですが、説明を単純にするため便 宜上分類問題のように書いています [ [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], [[256, 128, 192, 192], ...], : ]
  5. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば…
  6. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば… 報酬が最大になる アクションを選択す る
  7. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま 0.323 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば… 報酬が最大になる アクションを選択す る その結果ボールを 落とす
  8. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 もしこの状態に 一致するならば… ボールを落としたの で報酬を減らす※ ※1 実際の計算方法については省略
  9. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば…
  10. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば… 報酬が最大になる アクションを選択す る
  11. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.234 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば… 報酬が最大になる アクションを選択す る その結果、ボール を得られる
  12. どうやって学習してるの?
 QTable(学習中) 状態\行動 ← → そのまま -0.123 -0.345 0.534 -0.111

    0.222 0.333 -0.432 0.543 0.325 再度この状態に 一致するならば… ボールを得られた ので報酬を増やす
  13. ニューラルネットって何してるの?
 例えば画像分類だと 関数 0 [ [[256, 128, 192], [211, 73,

    81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], : ] 1 [ [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], [[256, 128, 192], [211, 73, 81], ...], : ] ある配列を受け取り 分類に応じた数値を返 す