機械学習実装にあたって • 代表的な機械学習アプローチ 教師あり学習 ü 学習データと答え(教師)のセット • 必要なもの • メリット ü 学習が比較的容易 • デメリット ü 教師以上の強さにはならない ü 新スキルへの対応に弱い 強化学習 ü CPU同士での自動対戦環境(&報酬) • 必要なもの • メリット ü 強さの上限がない ü 新スキルにも対応 • デメリット ü 学習にかなりの時間がかかる ü 報酬設計の難しさ
機械学習実装にあたって • 双⽅の⼿法を検証 • 効果と限界が確認できた段階で、組み合わせを検証 Ø 教師ありモデル学習を強化学習の事前学習とし、重みを転⽤ 教師あり学習 ü 学習データと答え(教師)のセット • 必要なもの • メリット ü 学習が比較的容易 • デメリット ü 教師以上の強さにはならない ü 新スキルへの対応に弱い 強化学習 ü CPU同士での自動対戦環境(&報酬) • 必要なもの • メリット ü 強さの上限がない ü 新スキルにも対応 • デメリット ü 学習にかなりの時間がかかる ü 報酬設計の難しさ
Training Data (tfrecord) 学習済みモデル Ohio Region Tokyo Region 学習済みモデル コピー アーキテクチャ Notebook Instance 推論 API (p3 Instance) Game Logic (Elixir) CPU思考処理で推論APIに リクエストを投げる deploy 推論結果を 選択確率で返す Training Instance (p3 Instance) ローカルマシン