Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM Reasoning Ability and HLE
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Satorien
September 27, 2025
51
0
Share
LLM Reasoning Ability and HLE
2025/9/27
GDGs Innovative Crosstalk 2025 DevFest UTokyo
にて15分の枠で登壇した際の発表資料
Satorien
September 27, 2025
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Building the Perfect Custom Keyboard
takai
2
720
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.2k
Speed Design
sergeychernyshev
33
1.6k
Into the Great Unknown - MozCon
thekraken
40
2.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Scaling GitHub
holman
464
140k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
YesSQL, Process and Tooling at Scale
rocio
174
15k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
170
Transcript
LLMの推論能力と人類最後の試験 東京大学大学院 佐藤諒平 2025/9/27 GDGs Innovative Crosstalk 2025 DevFest UTokyo
自己紹介:佐藤諒平 • 東京大学大学院 情報理工学系研究科 修士1年 • 人間の脳の複雑さやAIとの関係などに興味 • 研究 ◦ 脳の記憶モデルによるシミュレーション •
趣味 ◦ オリエンテーリング ▪ コンパスと地図だけ持って森を走る ▪ 実は東大は強豪校
LLMにおける推論(Reasoning)とは? “Reasoning models ... are LLMs trained with reinforcement learning
... Reasoning models think before they answer… Reasoning models excel in complex problem solving, coding, scientific reasoning, and multi-step planning for agentic workflows.” - OpenAI (引用元:https://platform.openai.com/docs/guides/reasoning) 要するに推論モデルは • 強化学習で実現 • 回答前に内部で考えを繰り返す • コードや計画立案などに対応
推論能力はどう測るのか? • Ph.Dレベルのベンチマークで正答率90%程度が達成されてしまっている • Humanity’s Last Exam (人類最後の試験) ◦ 答えが一意に決まる学術的ベンチマークとして最後のものと想定して作成
◦ 数学・化学・コーディング・人文科学 など幅広い分野から選択肢・短答式で計2500 問を用意→多くのモデルが苦戦 2025/4 公開時点 引用元:https://agi.safe.ai
推論モデルはどう作るのか? • 基盤モデルからSFT+RL ◦ ただし、それぞれ様々な手法が存在 引用元 :https://magazine.sebastianraschka.com/p/new-llm-pre-training-and-post-traini ng
推論能力はどのようにして拡張されるのか? • 昨年、世間を賑わしたDeepSeek-R1の場合 ◦ 基盤モデルDeepSeek-V3 + SFT(CoT) + GRPO ▪
CoT(Chain of Thought)を活用するように鍛える→よく考えて答えを導く ▪ GRPO • 従来の強化学習手法よりも効率的に報酬を与える ◦ 従来(PPO):モデルの出力を報酬モデルが良い回答を選択 ◦ 新規(GRPO):モデルの出力の中で相対的に良いものを選択 ▪ モデルの既存知識を最大限活かす
最近の推論モデルはどこまで戦えているのか? • 全モデル(マルチモーダル含む) ◦ gpt-5-2025-08-07 ▪ 現行最高モデルでも 25% ▪ コード実行・検索ありなら44%
▪ Grok 4も同等の精度 ◦ gemini-2.5-pro-preview-06-05 • オープンソースモデル(Textのみ) ◦ gpt-oss-120b ◦ Qwen3-235B-A22B-Thinking-2507 ◦ DeepSeek-R1-0528 引用元 :https://scale.com/leaderboard/humanitys_la st_exam
さらに推論能力を伸ばすにはどうすれば良いのか? • 膨大な数の実験により 新規手法が提案されている • 学習方法 ◦ DFT(SFTの発展) ◦ ORPO(DPOの発展)
◦ SimPO(DPOの発展) • データセット ◦ nvidia/OpenScienceReasoning-2 ◦ nvidia/OpenMathReasoning ◦ AI-MO/NuminaMath-CoT • ベースモデル ◦ 事前学習済みの基盤モデル ▪ CoTを理解できる程度の知識量 Gemini 2.5 Proのリサーチより
実際にやってみました • 東京大学松尾・岩澤研究室がNEDOのプロジェクトの一環で行う 「松尾研LLM開発プロジェクト(コンペティション)」に参加 ◦ 予選 13チーム 6週間 3ノード × H100(80GB) × 8
◦ 決勝 3チーム 3週間 8ノード × H100(80GB) × 8 ▪ 昨日モデル提出締め切り → 今回の発表内容含む多くの学びがあったので共有します ※本プロジェクトは、国⽴研究開発法⼈新エネルギー‧産業技術総合開発 機構(以下「NEDO」)の「⽇本語版医療特化型LLMの社会実装に向けた安 全性検証‧実証」における基盤モデルの開発プロジェクトの⼀環として⾏ われます。
実際に学習に必要なもの • GPUメモリ:モデルサイズ次第 ◦ 100Bのモデルを16ビットの重みで保持するならそれだけで 200GB必要 ◦ 理論上は8Bのモデルなら32GBのGPUメモリで学習可能 ▪ 分散学習の手法などにより差が出る
• ライブラリ:LLMの学習をサポートするフレームワーク ◦ 分散・学習アルゴリズム・リソース分配 ▪ 分散学習 • FSDP/DeepSpeed/Megatron ▪ 学習アルゴリズム • ms-swift/verl/axolotl/ LLaMA-Factory/Unsloth
結果 内部評価としては辛差でオープンソースの SOTAを達成 ベース:18.26% => 開発モデル: 19.11% • 多くの学習手法で性能が大きく向上することはなかった ◦
すでに高性能の推論モデルをベースラインに据えたため大きな調整が失敗 ▪ 繊細なハイパラ調整によって精度向上の道筋が開ける ▪ ただ、大規模モデルのため試行錯誤に時間を要する ◦ 精度が良かった手法 ▪ オリジナルCoTデータセットでSFT/DPO
今後の推論モデルはどうなるのか? • 日々とてつもない勢いで新たな手法が提案されている ◦ 精度向上+モデルのコンパクト化が進む • 人間が答えを出せる問題のその先 ◦ 現状は既存の知識から推論しているだけ ◦
Open-endedの問題に対して専門的な答えを出していくと評価が難しい ▪ LLM-as-a-Judge • ユーザ視点での変化 ◦ より大規模な推論が可能になる ▪ より長いコード ▪ より大きなデータを要する問題