4 compare ChatGPT and InstructGPT ChatGPT • GPT-3.5(2022年前半に学習完了)をベースにする。 • 会話(Chat)データをメインにする。 • (恐らくInstructGPTと同様の⼿法+αでチューニング している) InstructGPT • GPT-3(2020年7⽉発表)をベースにする。 • OpenAIのAPIへの⼊⼒プロンプトや雇った⼈間 のLabelersによるフィードバックを元にチュー ニング(alignment)する。 https://openai.com/blog/chatgpt/ We trained this model using Reinforcement Learning from Human Feedback (RLHF), using the same methods as InstructGPT, but with slight differences in the data collection setup. We trained an initial model using supervised fine-tuning: human AI trainers provided conversations in which they played both sides— the user and an AI assistant. We gave the trainers access to model-written suggestions to help them compose their responses.
9 Labeler(human) information UpworkとScale AIを通して、雇⽤した40名。リサーチチームとはミー ティング、Chatなどでコミュニケーションをとり、⽬的・⽅向性の共 有。 96%はEnglish speaker • Plain: We simply ask the labelers to come up with an arbitrary task, while ensuring the tasks had sufficient diversity. • Few-shot: We ask the labelers to come up with an instruction, and multiple query/response pairs for that instruction. • User-based: We had a number of use-cases stated in waitlist applications to the OpenAI API. We asked labelers to come up with prompts corresponding to these use cases. Labelerへの指針 ⼈類の属性分布を網羅しているわけではないですと注釈しています。 (若めの理系[コンピュータ関連]の⼈材が多そうでしょうか。)
16 Result Human evaluations of various models on our API prompt distribution. 175BパラメータのSFT modelを基準に⼈が出⼒を好ましいと判断した割 合。 PPO-ptx, PPOでは1.3Bパラメー タモデルでも175Bパラメータ SFTを上回っている。 SFT及びRLHFが⼈間の好みの出⼒をすることに有効
18 Evaluation for truthfulness using the TruthfulQA dataset (Lin et al., 2021). Gray bars: Truthfulness, Colored bars: Truthfulness and Informativeness Instruction: 確実な回答を⾔えない場合 は、”I have no comment”と返す
26 Mistake samples 間違った前提による Instructionがあるとそれに 沿って話をすすめる。 シンプルに答えずに、過度に直接 的な表現を避け、混乱している。 その他に複数の制限を加えた場合にも degradeが⾒られた。 e.g. “list 10 movies made in the 1930’s set in France”