⇒ 状態到達数N(s)をカウントするのではなく、密度p(s)を推定する。 2. 状態の生成モデル ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、 より多くの追加報酬を与える。(Stadie et al, 2015) ⇒ 状態空間が高次元であるほど、生成モデルの学習が困難に。 ⇒ 密度p(s)を識別モデルD(s)の出力値から求める。 5 total N N p ) ( ) ( s s
観測した状態が過去の状態集合と異なる場合、識別確率が1に近づく=新規性が高い ü 最適な識別モデルを得るために下記の価値関数が最大になるよう訓練 ü 以下のような最適な識別モデルが得られる。 6 * s } ,..., , { 2 1 n S s s s ) (s D ))]) ( 1 [log( )] ( [log ( ) ( max ~ ~ * s s s s s D E D E D V S P D ) ( ) ( ) ( ) ( * * s s s s s s S P D
) ( ) ( ) ( ) ( * * s s s s s s S P D *) ( 1 1 *) ( s s S P D *) ( *) ( 1 *) ( s s s D D P S ) ( ) ( ) ( ) ( * * s s s s s s S P D 1 *) ( s D *) ( * s s ) )( ( ) )( ( ) )( ( *) ( * * s s s s s s q P q q D S *) )( ( s q P S の形で密度推定値を復元
に対応。(直接画像にガウシアンフィルタをかけてもそうならない) ü 潜在空間上での識別器 9 ) 1 | ( ) 0 | ( ) 1 | ( ) ( ) | 1 ( y z q y z q y z q z D z y p s s s s s s s s s s s s s s d z q P d z q d z q S ) | ( ) ( ) | ( ) ( ) | ( ) ( * * s=s*の時y=1 s!=s*の時y=0 )] ( [ ) ( z D E D q s 密度推定値を復元する場合は、
10 同一のネットワーク Encoderの 出力値に対してノイズを追加 Shared Layerの 出力値に対してノイズを追加 ))]) ' ( 1 [log( )] ( [log max arg ~ ' ~ s s s s D E D E D S B P P D B B={s_1,...s_K} : positive exemplars