Functional Approximation
2
● これまでは、State Value Function v(s) 、もしくは、Action-State Value Function q(s, a)
の値をすべての状態 s について個別に記録(Tabular Method)
● 状態数が爆発的に増加する問題では、メモリーの不足、計算時間の増加といった問題が発生
● 少数のパラメーター w を持った関数で v(s) 、もしくは、 q(s, a) を表現して、w をチューニン
グすることで、近似的に計算する