!) , #:$ = N !"# $ ! n ⾏動⽅策のもとでのステップ状態分布と定常分布: ! ( , = Pr ! = , ! = # ∼ #, + ∼ + + ,,#:$ ( , = ∑!"# $ !! ((, ) ∑!"# $ ! , , ( = lim $→/ ,,#:$ ( . • 表記の簡単化のため, = 1のときは,,#:$ ( のを落として, (とする. • 周辺状態分布を( = ∫ 0 ( , とする.同様に'を定義する. n でとのKL距離を表す.つまり, = 12 ∥ である. 8