Slide 4
Slide 4 text
4
compare ChatGPT and InstructGPT
ChatGPT
• GPT-3.5(2022年前半に学習完了)をベースにする。
• 会話(Chat)データをメインにする。
• (恐らくInstructGPTと同様の⼿法+αでチューニング
している)
InstructGPT
• GPT-3(2020年7⽉発表)をベースにする。
• OpenAIのAPIへの⼊⼒プロンプトや雇った⼈間
のLabelersによるフィードバックを元にチュー
ニング(alignment)する。
https://openai.com/blog/chatgpt/
We trained this model using Reinforcement
Learning from Human Feedback (RLHF), using
the same methods as InstructGPT, but with
slight differences in the data collection setup.
We trained an initial model using supervised
fine-tuning: human AI trainers provided
conversations in which they played both sides—
the user and an AI assistant. We gave the
trainers access to model-written suggestions to
help them compose their responses.