Deep reinforcement learning from human preferences 2017年 arxiv : 1706.03741 リンク ✓ Learning to summarize from human feedback 2020年 arxiv : 2009.01325 リンク ▪RLHFで使用されている強化学習アルゴリズムPPOの研究論文 ✓ Proximal Policy Optimization Algorithms 2017年 arXiv : 1707.06347 リンク ▪GPT3にRLHFを適用した研究論文※OpenAI社の研究 ✓ Training language models to follow instructions with human feedback 2022年 arXiv : 2203.02155 リンク ➡本日は、こちらの論文を説明します。 12
a log. Two leave, but three join. The number of frogs on the log is now?(丸太の上に6匹のカエルがいます。 2匹は去るが、3 匹が加わる。 丸太に載っているカエルの数は今何匹ですか?) ※原文の英語で実行(日本語に翻訳しています) 【回答】 正解は7匹なのに、論文では17(seventeen)と誤答するという結果になってい たが。。 GPT3.5では7と正確に回答!ロジック問題の精度が上がってい る(かも) ※GPT2やGPT3が試せなかったので断定は避けます。 22