Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM Reasoning Ability and HLE

Avatar for Satorien Satorien
September 27, 2025
48

LLM Reasoning Ability and HLE

2025/9/27
GDGs Innovative Crosstalk 2025 DevFest UTokyo
にて15分の枠で登壇した際の発表資料

Avatar for Satorien

Satorien

September 27, 2025
Tweet

Transcript

  1. LLMにおける推論(Reasoning)とは? “Reasoning models ... are LLMs trained with reinforcement learning

    ... Reasoning models think before they answer… Reasoning models excel in complex problem solving, coding, scientific reasoning, and multi-step planning for agentic workflows.” - OpenAI (引用元:https://platform.openai.com/docs/guides/reasoning) 要するに推論モデルは • 強化学習で実現 • 回答前に内部で考えを繰り返す • コードや計画立案などに対応
  2. 推論能力はどう測るのか? • Ph.Dレベルのベンチマークで正答率90%程度が達成されてしまっている • Humanity’s Last Exam (人類最後の試験) ◦ 答えが一意に決まる学術的ベンチマークとして最後のものと想定して作成

    ◦ 数学・化学・コーディング・人文科学 など幅広い分野から選択肢・短答式で計2500 問を用意→多くのモデルが苦戦 2025/4 公開時点 引用元:https://agi.safe.ai
  3. 推論能力はどのようにして拡張されるのか? • 昨年、世間を賑わしたDeepSeek-R1の場合 ◦ 基盤モデルDeepSeek-V3 + SFT(CoT) + GRPO ▪

    CoT(Chain of Thought)を活用するように鍛える→よく考えて答えを導く ▪ GRPO • 従来の強化学習手法よりも効率的に報酬を与える ◦ 従来(PPO):モデルの出力を報酬モデルが良い回答を選択 ◦ 新規(GRPO):モデルの出力の中で相対的に良いものを選択 ▪ モデルの既存知識を最大限活かす
  4. 最近の推論モデルはどこまで戦えているのか? • 全モデル(マルチモーダル含む) ◦ gpt-5-2025-08-07 ▪ 現行最高モデルでも 25% ▪ コード実行・検索ありなら44%

    ▪ Grok 4も同等の精度 ◦ gemini-2.5-pro-preview-06-05 • オープンソースモデル(Textのみ) ◦ gpt-oss-120b ◦ Qwen3-235B-A22B-Thinking-2507 ◦ DeepSeek-R1-0528 引用元 :https://scale.com/leaderboard/humanitys_la st_exam
  5. さらに推論能力を伸ばすにはどうすれば良いのか? • 膨大な数の実験により 新規手法が提案されている • 学習方法 ◦ DFT(SFTの発展) ◦ ORPO(DPOの発展)

    ◦ SimPO(DPOの発展) • データセット ◦ nvidia/OpenScienceReasoning-2 ◦ nvidia/OpenMathReasoning ◦ AI-MO/NuminaMath-CoT • ベースモデル ◦ 事前学習済みの基盤モデル ▪ CoTを理解できる程度の知識量 Gemini 2.5 Proのリサーチより
  6. 実際にやってみました • 東京大学松尾・岩澤研究室がNEDOのプロジェクトの一環で行う 「松尾研LLM開発プロジェクト(コンペティション)」に参加 ◦ 予選 13チーム 6週間 3ノード × H100(80GB) × 8

    ◦ 決勝 3チーム  3週間 8ノード × H100(80GB) × 8 ▪ 昨日モデル提出締め切り → 今回の発表内容含む多くの学びがあったので共有します ※本プロジェクトは、国⽴研究開発法⼈新エネルギー‧産業技術総合開発 機構(以下「NEDO」)の「⽇本語版医療特化型LLMの社会実装に向けた安 全性検証‧実証」における基盤モデルの開発プロジェクトの⼀環として⾏ われます。
  7. 実際に学習に必要なもの • GPUメモリ:モデルサイズ次第 ◦ 100Bのモデルを16ビットの重みで保持するならそれだけで 200GB必要 ◦ 理論上は8Bのモデルなら32GBのGPUメモリで学習可能 ▪ 分散学習の手法などにより差が出る

    • ライブラリ:LLMの学習をサポートするフレームワーク ◦ 分散・学習アルゴリズム・リソース分配 ▪ 分散学習 • FSDP/DeepSpeed/Megatron ▪ 学習アルゴリズム • ms-swift/verl/axolotl/ LLaMA-Factory/Unsloth
  8. 結果 内部評価としては辛差でオープンソースの SOTAを達成 ベース:18.26% => 開発モデル: 19.11% • 多くの学習手法で性能が大きく向上することはなかった ◦

    すでに高性能の推論モデルをベースラインに据えたため大きな調整が失敗 ▪ 繊細なハイパラ調整によって精度向上の道筋が開ける ▪ ただ、大規模モデルのため試行錯誤に時間を要する ◦ 精度が良かった手法 ▪ オリジナルCoTデータセットでSFT/DPO
  9. 今後の推論モデルはどうなるのか? • 日々とてつもない勢いで新たな手法が提案されている ◦ 精度向上+モデルのコンパクト化が進む • 人間が答えを出せる問題のその先 ◦ 現状は既存の知識から推論しているだけ ◦

    Open-endedの問題に対して専門的な答えを出していくと評価が難しい ▪ LLM-as-a-Judge • ユーザ視点での変化 ◦ より大規模な推論が可能になる ▪ より長いコード ▪ より大きなデータを要する問題