Slide 49
Slide 49 text
©MIXI
with Instruction (研究中)
● 目的
○ 精度向上
○ 負例を与えての学習
● Instruct GPT ( https://arxiv.org/pdf/2203.02155.pdf )
○ ChatGPT で使われた学習方法
○ 通常の学習に強化学習を組み合わせ効率化
i. GPT3 を教師データでファインチューン
ii. モデル出力候補を人手でランク付け、リワードモデルの作成
iii. (ii) がより高い数値を出すよう (i) を強化学習(PPO)
● Romi では
○ Long-term Memory 生成や会話生成での有効性検証
https://arxiv.org/abs/2203.02155
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang,
Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller,
Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe,Training language
models to follow instructions with human feedback, arXiv:2203.02155 (2022) p3, Figure 2 より引用