Slide 11
Slide 11 text
AI 11
用語の説明
サッカーゲームを例に説明
状態(State)
環境 (Environment)
報酬(Reward)
エージェント (Agent)
行動(Action)
得点したら+1
失点したら-1
下記論文中の画像をもとに作成
Kurach, Karol, et al. "Google research football: A novel reinforcement learning environment." (2020) https://arxiv.org/pdf/1907.11180.pdf
目的関数
最大化したいものを自分で定義する
ゲーム状態を表すデータ
形式は様々
プレイヤーの操作対象
より良い方策(Policy)を得るのが強化学習の目的
方策とは行動確率のこと
policy=[シュート:0.0, パス:0,2, 左移動:0.5…]
受け取った状態がプレイヤーにとって優勢かどう
かを示す状態価値(Value)をAgentに推定させる
こともある
ゲームエンジンのこと。
以下が基本的なインターフェイス
● エージェント行動を受け取る
● stepを進める
● 次の状態と報酬を返す