Slide 14
Slide 14 text
© Recruit Co., Ltd. All Rights Reserved
強化学習でLLMに協調性を教える(alignment)
1. プロンプトと望ましい出力のペアを人手で作る
2. 1を教師データとしてGPT-3をファインチューニングする(初期方策)
3. 初期方策から複数の出力をサンプルし、人手で好ましい順に序列を与える
4. 3を教師データとして報酬モデル(
2とは別のGPT-3)を訓練する
5. 4の報酬モデルを使って
2の方策を強化学習で訓練する(
InstructGPT)
GPT-3は、大量のテキストコーパスで学習された大規模言
語モデルです。2020年にOpenAIによって開発されました。
2020年にOpenAIによって開発されました。
2020年に
OpenAIによって開発されました
…
GPT-3は、2020年にNVIDIAが開発したGPUです。
🤖
GPT-3って何ですか?
次のトークンを予測するというタスクで
訓練されたLLMは、望ましくない挙動を
することがある
繰り返し
嘘・デタラメ
GPT-3は、大量のテキストコーパスで学習された大規模言
語
モデルです。OpenAIが開発した素晴らしい技術です
。
価値判断(偏見などを含む)
align
GPT-3の改善版:InstructGPT
ChatGPTも同様の
アプローチ(RLHF)
強化学習
初期方策
元モデル
[Ouyang22]