GPT学習パイプライン
RLHF
ChatGPT, Claude
生成された回答を人手でランキング付け
強化学習によって「より良い」回答を学習
Slide 36
Slide 36 text
なぜRLHFが必要なのか
Slide 37
Slide 37 text
なぜRLHFが必要なのか
A: いい感じに動くから
Slide 38
Slide 38 text
なぜRLHFが必要なのか
A: いい感じに動くから
[2203.02155] Training language models to follow instructions with human feedback
Slide 39
Slide 39 text
なぜRLHFが必要なのか
A: いい感じに動くから
[2203.02155] Training language models to follow instructions with human feedback
生成よりも比較のほうが簡単であるという非対称
が潜在的な理由かも
Slide 40
Slide 40 text
RLHFによる悪影響
Slide 41
Slide 41 text
LLM使用のベストプラクティス
● Chain of Thought (CoT) : “Let’s think step by step”
● Self-consistency : 複数の答えから選ばせる
● ASK for Reflection : “Was the task accomplished?”
● Tree of Thought : 複数の結果を維持し、うまくいったものを残す
● 「Expertとして振る舞ってください」