Slide 4
Slide 4 text
用語
PRM (Process Reward Model):
プロセス報酬モデル、解答過程の各ステップを評価
▶
ORM (Outcome Reward Model):
結果報酬モデル、最終結果のみを評価
▶
FLOPs:
浮動小数点演算回数、計算量の指標
▶
best-of-N: N
個の候補から最良を選択する手法
▶
ビーム探索:
複数の候補を並行して探索する手法
▶
MCMC:
マルコフ連鎖モンテカルロ法
▶
R
値:
推論/
事前学習トークン比
▶
テスト時計算:
推論時に追加的に行う計算処理
▶
提案分布:
モデルが生成する確率分布
▶
4