Example 5.1 Blackjack プレイヤーの手札が20または21のときはスティック(手札を確定)、そうでない場合はヒット (カードを1枚追加)を選択する場合の状態価値 50万エピソード後の価値関数はよく近似されているらしい 多分戦術が弱すぎて20 or 21以外のところではほぼ負け(-1)のところがそう見えるという話 7
Example 5.4 Off-policy Estimation of a Blackjack State Value Ordinary Importance SamplingとWeighed Importance Samplingでの𝑣𝑏 と𝑣𝜋 の誤差 (target policyはExample 5.1で設定した20 or 21でのみスティックするやつ) 22 • どちらのImportance Samplingでもエピソード数を増やせば誤差は0に近づく • Weighed Importance Samplingはエピソード数が少なくても誤差が小さい