Slide 9
Slide 9 text
Awesome LLM Strawberry (OpenAI o1)
OpenAI Strawberry(o1) と Reasoningに関する研究論文とブログを集めたリポジトリ
o1の貢献者が著者である論文も集めている
[Nathan Lambert] OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference
• AIの性能向上は、モデルの学習よりも推論時に多くの計算リソースを割り当てることで大きな成果が得られると主張
• モデルの生成は探索の単純な形式と見れる(次の出力を選択するためにトークンの分布からサンプリングするため)
• 歴史的にもAlphaGoやDeepBlueの成功は、探索アルゴリズムの計算のスケーリングから来ていることから推論スケーリングが重要になる
• o1が「自分自身に話しかけているように見える」ような推論過程を示す点が興味深い
• これを「self-talk」と呼び、複雑な問題解決において有効である可能性がある
[Nathan Lambert] Reverse engineering OpenAI’s o1
• RLの報酬は軌跡全体に1つ割り当てるため、途中でどこで間違いが生じたかを理解するのは困難
• 最近の研究では、推論のすべてのステップに報酬を与える設計をしている(PRM: プロセス報酬モデル)
• Q* は PRM を使用して Tree of Thoughts 推論データをスコアリングし、その後オフライン RL で最適化しているのではないか
• o1もQ*が関係していると仮定すると、ツリー思考からプロセス報酬に基づき現状の推論を止め、別の価値の高いノードに遷移し推論をす
ることで間違いに気づき対処するのか
[Andreas Stuhlmüller, jungofthewon] Supervise Process, not Outcomes
• 2022年のブログで機械学習システムは結果ベースとプロセスベースがある
• 結果ベースは、入力と最終結果の教師データをエンドツーエンドで学習する従来の方法
• プロセスベースは、人間が理解できるタスク分解に基づき、推論ステップを直接監督する方法
• 短期的なタスクでは、結果データを収集して人間の能力を超える方がはるかに簡単
• 長期的な予測、政策決定、理論研究など、結果データが得られにくいタスクにプロセスの強みがある
• プロセスが正しいから結果を信じられるという考え方
https://github.com/hijkzzz/Awesome-LLM-Strawberry
9月23日 更新分