Slide 32
Slide 32 text
32/38
OpenAIの言語生成ではPPOが利用され始めている
ベースライン付きREINFORCE
𝑙𝑜𝑠𝑠 = −𝔼
𝑌~𝜋𝜃
𝑡=1
𝑇
log 𝜋𝜃
𝑦𝑡
|𝑠𝑡
𝐴 𝑠𝑡
, 𝑦
Proximal Policy Optimization (PPO)
ただし、𝐴 𝑠𝑡
, 𝑦 = 𝑅
𝑌, 𝑌 − 𝑏 𝑠
(報酬は時刻ごとに一定とみなす)
𝑙𝑜𝑠𝑠 = −𝔼
𝑌~𝜋𝑜𝑙𝑑
min
𝑡=1
𝑇 𝜋𝜃
𝑦𝑡
|𝑠𝑡
𝜋𝑜𝑙𝑑
𝑦𝑡
|𝑠𝑡
𝐴 𝑠𝑡
, 𝑦 , 𝑐𝑙𝑖𝑝
𝜋𝜃
𝑦𝑡
|𝑠𝑡
𝜋𝑜𝑙𝑑
𝑦𝑡
|𝑠𝑡
, 1 − 𝜖, 1 + 𝜖 𝐴 𝑠𝑡
, 𝑦
2021/4/8 2021ⒸSEITARO SHINAGAWA
𝜋𝜃
:更新対象の方策
𝜋𝑜𝑙𝑑
:更新ひとつ前の方策(文生成に
使った方策)
方策の更新が大きくなりすぎないように
クリッピングを行う