18/38 There is a girl by the table . A man stands on the floor . A man is standing by a dog . 報酬関数 𝑅 𝑌 , 𝑌 参照文𝑌(正解文) A man and dog are working on the floor 生成文 𝑌 0.1 →既存の自動評価尺度やスコアの予測モデルをタスクに合わせて使える 例:BLEU, CIDEr, BERTScore,… 0.8 0.6 REINFORCEの手順②:報酬関数(or報酬モデル)による評価 生成系列を報酬関数(評価関数)に通して得たスコアを報酬とする 利点:報酬関数、および報酬関数への入力は微分不可能でもよい 方策 𝜋 𝑦𝑡 |𝑠𝑡 スコア (報酬) 2021/4/8 2021ⒸSEITARO SHINAGAWA
19/38 生成文と評価値の組 𝑌𝑖 , 𝑅 𝑌𝑖 , 𝑌𝑖 が得られた。 これを使って評価値の高い文の尤度を上げるには・・・? 𝑌𝑖 𝑅 𝑌𝑖 , 𝑌𝑖 There is a girl by the table . A man stands on the floor . A man is standing by a dog . 0.1 0.8 0.6 2021/4/8 2021ⒸSEITARO SHINAGAWA