Slide 34
Slide 34 text
モデル選択の自由度
• 使用するモデル
方策ベース?価値ベース?
• 観測範囲
state, action, rewardについて,
各々local, neighbor, globalのどの範囲で観察できるか?
• ConsensusとCommunication
どの範囲での情報共有を設定するか?
• 階層(ヒエラルキー)
中央集権的に行うか?どこまで自主性に任せるか?
• その他
RNN, GNN, Attention, Importance Sampling, Distributed, etc.
2020/5/17
強化学習とゲーム理論(MARL)@deeplab
清原 明加 34