Slide 5
Slide 5 text
背景:RLHF (1/2)
◼ 1. 報酬モデル 𝑟𝜙
𝑥, 𝑦 の学習
出力 𝑦1
が 𝑦2
よりも好まれる確率
を使って 𝐷 = 𝑥, 𝑦𝑤
, 𝑦𝑙
𝑛 で最尤推定
… 直感的には,𝑟𝜙
𝑥, 𝑦𝑤
> 𝑟𝜙
(𝑥, 𝑦𝑙
) になるように学習
5
𝑝 𝑦1
≻ 𝑦2
|𝑥 =
exp(𝑟𝜙
(𝑥, 𝑦1
))
exp(𝑟𝜙
𝑥, 𝑦1
, +exp(𝑟(𝑥, 𝑦2
)))
𝐿𝑅
= −𝔼𝐷
[log𝜎( 𝑟𝜙
𝑥, 𝑦𝑤
− 𝑟𝜙
(𝑥, 𝑦𝑙
))]
← Bradley-Terry model
← 報酬モデルの目的関数