Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning: An Introduction 輪読会 第3回

kiyo
June 29, 2021
450

Reinforcement Learning: An Introduction 輪読会 第3回

強化学習若手の会で行っているReinforcement Learning: An Introduction 輪読会の第3回発表資料です。

kiyo

June 29, 2021
Tweet

Transcript

  1. 自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 • 深層生成モデル、画像の変換 •

    ゲームの強化学習 • ポケモンとか風来のシレンとか に興味があります。 強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。
  2. 3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明 ・エージェントと環境の相互作用 ・エージェントの目的と報酬 ・方策関数と価値関数

    ・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction   (http://incompleteideas.net/book/the-book.html)
  3. エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める

    2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す