推論グラフから見る Reasoning LLM の「思考のかたち」

推論グラフから見る Reasoning LLM の「思考のかたち」 Neurips 2025, Topology of Reasoning ICLR
2026, RL Squeezes, SFT Expands 峰岸剛基

04 今日のトークに関する論文

自己紹介 02 峰岸剛基 • 所属 ◦ 東京大学博士1年, 松尾研究室
• 研究: 深層学習モデルの解釈性 (Interpretability) ◦ 文脈内学習(ICL) ▪ ICLのメタ学習能力と段階的な回路の形成の研究 (ICML2025) ▪ ICLが絡み合った表現から不要情報を除去していると示した研究 (ICLR2026) ◦ Reasoning ▪ Reasoning能力をグラフで分析した研究 (Neurips2025) ▪ RLとSFTでどんなグラフ特性の違いを分析した研究 (ICLR2026) ▪ Transformerにおけるアナロジー推論の創発を分析した研究 (Preprint.) LLMがなんであれほど賢いのかを”モデルの内側”から理解したい人です． Home page X: @GoukiMinegishi

自己紹介 02 峰岸剛基 • 所属 ◦ 東京大学博士1年, 松尾研究室
• 研究: 深層学習モデルの解釈性 (Interpretability) ◦ 文脈内学習(ICL) ▪ ICLのメタ学習能力と段階的な回路の形成の研究 (ICML2025) ▪ ICLが絡み合った表現から不要情報を除去していると示した研究 (ICLR2026) ◦ Reasoning ▪ Reasoning能力をグラフで分析した研究 (Neurips2025) ▪ RLとSFTでどんなグラフ特性の違いを分析した研究 (ICLR2026) ▪ Transformerにおけるアナロジー推論の創発を分析した研究 (Preprint.) LLMがなんであれほど賢いのかを”モデルの内側”から理解したい人です． Home page X: @GoukiMinegishi 今日話す内容

推論グラフで Reasoning能力を理解する Topology of Reasoning: Understanding Large Reasoning Models through
Reasoning Graph Properties

Reasoningモデル 02 2024年9月 OpenAI-o1公開強化学習でLLMの推論能力（数オリなど）を大幅に向上させたモデルは発表されたが，どのように学習されたかは不明 2025年1月 Deepseek-R1の論文が公開 GRPO (Group
Relative Policy Optimization)を用いた強化学習で推論能力を伸ばす検証可能な報酬を用いた強化学習（Reinforcement Learning with Verifiable Rewards, RLVR）が急速に普及（数学・コードなど，Verifierで自動採点できる領域でスケール） 2026年現在 Reasoningモデル・推論モードは多くの分野で実質デフォルト各社がReasoningモデルを提供（OpenAI, Google, Anthropic, xAI, …）出典) https://openai.com/ja-JP/index/learning-to-reason-with-llms/

答える前に長く考える 02 Q A 1 最終回答の前に大量の思考（Chain of Thought, CoT）を生成する正解に到達した軌跡に報酬が与えられ，その生成分布が強化される
A 2 A 3 質問 OpenAIのCEOは？イーロン・マスクサム・アルトマンドナルド・トランプ Reasoningモデルの特徴

思考の軌跡でLLMは何をしている？ 02 ゴール地点（最終的な答え）があっているかどうかで報酬を与えているため，途中の軌跡では人間が想定していなかったような挙動を見せる．（e.g., 自分の生成した軌跡を反省し始める）他にも，複数の言語が混同する[Li et al.], 同じトークンを繰り返しまくる[Yang et
al.]など，人間には理解しにくい挙動が確認されているちょっと待って！考え直すわ出典) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning Understanding Aha Moments: from External Observations to Internal Mechanisms The Impact of Language Mixing on Bilingual LLM Reasoning Q A 1 A 2 A 3 Aha moment Aha Moment

依然としてBlack BoxなLLM 02 Q A 1 A 2 A 3
質問 OpenAIのCEOは？イーロン・マスクサム・アルトマンドナルド・トランプ Black Box 最終回答の前に大量の思考（Chain of Thought, CoT）を生成する正解に到達した軌跡に報酬が与えられ，その生成分布が強化される自然言語では書かれているものの，LLMがどのような軌跡を作り上げて推論性能のブレークスルーが起きたのかは，依然としてBlack Boxである Reasoningモデルの特徴

推論グラフのトポロジー 02 思考の軌跡を推論
グラフ（有向グラフ）と捉えて，そのトポロジー（グラフ特性）を分析することで，Reasoningモデルの性能向上の秘訣をより深く知りたい Q A 1 A 2 A 3 推論グラフ本研究の提案

05 LLMの内部表現をKmeansクラスタリング推論グラフの抽出方法 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] 1推論ステップ数学タスク(e.g.,
GSM8K)を解くLLMの内部表現を各推論ステップごとにクラスタリングするクラスタの中心を推論グラフのノード(v)候補とする DeepSeek-R1-Distill-Qwen-32Bの57層目の内部表現から得られたノード出典）Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation

05 各質問ごとに推論グラフを構築推論グラフの抽出方法 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] LLMの内部表現をKmeansクラスタリング 1推論ステップ
数学タスク(e.g., GSM8K)を解くLLMの内部表現を各推論ステップごとにクラスタリングするクラスタの中心を推論グラフのノード(v)候補とする質問が入力されて，LLMが答えに辿り着くまでに訪れるノードを追跡し，推論グラフ(G=(V,E))を作る出典）Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation

推論グラフの抽出方法（詳細） 03 01 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] ノードの定義（状態の離散化）全てのデータのsに対してK-meansを適用
クラスタの中心（v k ）をノードとして定義 02 エッジの構築（遷移の抽出）各質問について，ノードの出現順に接続する 03 i番目の推論ステップ i番目の推論ステップのtトークン目のell 層目の内部表現出典）Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation 推論1ステップに対応する表現の獲得思考の軌跡を各ステップごとに内部表現を平均化 3-1=2 2*5=10 10 (3-1)*5=?

推論グラフの可視化 12 Qwen2.5-32B DeepSeek-R1-Qwen-32B (Reasoning LLM) AIME2024 26.7 AIME2024 72.6
t-SNEでReasoningモデルとBaseモデルの推論グラフを比較 sample #5 sample #21 sample #45 sample #211 sample #5 sample #21 sample #45 sample #211

Reasoningモデルを特徴づける推論グラフのKey Property 28 サイクル構造グラフの直径局所クラスタ性

推論グラフのKey Property | サイクル構造 11 Reasoningモデルは推論グラフにサイクル
構造を含んでいることが多い通常のLLM: 有向非巡回グラフ (DAG) Reasoning LLM: 有向巡回グラフ → Aha momentとも対応サイクル構造モデルサイズが大きくなるに連れて，性能が上がるとともに推論グラフの中に含まれるサイクル構造の数も増えていく．モデルサイズの影響 Q A 2 サイクル構造

推論グラフのKey Property | グラフの直径 11 グラフ内で最も離れた2つのノード間の最短距離 Reasoningにおける探索範囲に対応 Reasoningモデルはより広範な探索をして最終的な答えに辿り着いている．グラフの直径
直径=d(v1,v3)+d(v3,v2)+d(v2,v4) d(v1,v3) d(v3,v2) d(v2,v4)

推論グラフのKey Property | 局所クラスタ性 11 クラスター係数：隣接するノード同士が隣接している割合（友達の友達が友達である割合）平均経路長：任意の2ノード間の平均距離クラスター係数と平均経路長 Reasoningモデルは，クラスター係数は高い（局所的なクラスタ構造
は多い）が平均経路長は長い（遠くのノードに行くのに多くのステップを生成する，効率が悪い）特徴がある右上みたいなグラフになっているということ高いクラスター係数と長い平均経路長

推論グラフの直径で高品質なSFTデータを判別する 11 SFTデータをteacher forcingでモデルに入力し，内部表現から推
論グラフを取り出すことで，学習をする前にSFTデータの質を測ることができる．良いSFTデータ=推論グラフの直径の大きいデータ実際の高品質なSFTデータ(e.g., s1 [Muennighoff er al.])は “wait”などのトークンを明示的に入れて作られている．これはLLMの内部の推論グラフのトポロジーを操作していることに相当する s1: Simple test-time scaling

RLとSFTが形作る推論グラフの違い RL Squeezes, SFT Expands: A Comparative Study of Reasoning
LLMs

05 RL: 自身の出力に対して外部から与えられる報酬を最大化する（期待報酬最大化） SFT: 教師モデルの推論過程を模倣する（尤度最大化） LLMのReasoning能力を上げる2つの方法実際は，“cold-start”と呼ばれるSFTとRLの2段階で学習することが多い RLとSFTがどのように異なる推論グラフの形作るのか．

05 モデル Pass@K K オープンモデルを使用性能（Pass@1）は SFT+RL > RL≒SFT >
Base

10 RLは圧縮し，SFTは拡張する不正解のユニークな推論グラフの数正解したユニークな推論グラフの数 base model (1) Baseモデル (2) RLモデル
(3) SFT モデル (4) SFT +RLモデルで同じ質問に対して複数回サンプリングし，ユニークな推論グラフの数を計算． RLは、不正解のグラフ数を縮小する、ただし正解のグラフ数は拡張しない SFTは、正解のグラフ数を拡張する、ただし不正解のグラフ数は減らさない Q A 1 A 2 A 3 ✅ ❌ ❌ Q A 1 A 2 A 3 ✅ ❌ ❌ Q A 1 A 2 A 3 ✅ ❌ ❌ Base A 2 ✅ A 2 ✅ RL SFT

サイクル構造 10 サイクル構造 Graphlets 推論グラフの中に，graphletsがどれくらい多く含まれているかを数え上げ． RL, SFTで推論グラフの中にサイクル構造が増える．逆に一直線の構造は減る．
どちらもサイクル構造は獲得できていそう．サイクル構造

10 RLは少数のノードに推論グラフの機能
（e.g., ハブ、中心ノード）を集中させ、SFTは多くのノードに機能を分散させる． RLとSFTで推論グラフにおける各ノードの(1)訪問頻度と(2)次数を計算 Q A ハブノード RLによるハブノードの出現

04 推論グラフによるReasoning能力の解釈昨今のReasoning能力のブレークスルーを理解するための概念として「推論グラフ」を導入性能の高いReasoningモデルは，(1) サイクル構造 (2) 広範な探索空間 (3) 局所クラスタ性を示す推論グラフに持っている．
RLとSFTの違い RLは，ユニークな推論グラフを減らし，SFTはユニークな推論グラフを増やす．どちらもサイクル構造は獲得しているが，RLは特定のノードへ集中する．まとめ Future Direction 現状の方向性だと，遠いドメインへジャンプするような推論（アナロジカルな推論など，）はできなそう（もしくは相当効率が悪い探索なのでは）．

推論グラフから見る Reasoning LLM の「思考のかたち」

推論グラフから見る Reasoning LLM の「思考のかたち」

Gouki Minegishi

More Decks by Gouki Minegishi

Featured

Transcript

推論グラフから見る Reasoning LLM の「思考のかたち」 Neurips 2025, Topology of Reasoning ICLR

04 今日のトークに関する論文

自己紹介 02 峰岸剛基 • 所属 ◦ 東京大学博士1年, 松尾研究室

自己紹介 02 峰岸剛基 • 所属 ◦ 東京大学博士1年, 松尾研究室

推論グラフで Reasoning能力を理解する Topology of Reasoning: Understanding Large Reasoning Models through

Reasoningモデル 02 2024年9月 OpenAI-o1公開強化学習でLLMの推論能力（数オリなど）を大幅に向上させたモデルは発表されたが，どのように学習されたかは不明 2025年1月 Deepseek-R1の論文が公開 GRPO (Group

答える前に長く考える 02 Q A 1 最終回答の前に大量の思考（Chain of Thought, CoT）を生成する正解に到達した軌跡に報酬が与えられ，その生成分布が強化される

依然としてBlack BoxなLLM 02 Q A 1 A 2 A 3

推論グラフのトポロジー 02 思考の軌跡を推論

05 LLMの内部表現をKmeansクラスタリング推論グラフの抽出方法 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] 1推論ステップ数学タスク(e.g.,

05 各質問ごとに推論グラフを構築推論グラフの抽出方法 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] LLMの内部表現をKmeansクラスタリング 1推論ステップ

推論グラフの抽出方法（詳細） 03 01 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] ノードの定義（状態の離散化）全てのデータのsに対してK-meansを適用

推論グラフの可視化 12 Qwen2.5-32B DeepSeek-R1-Qwen-32B (Reasoning LLM) AIME2024 26.7 AIME2024 72.6

Reasoningモデルを特徴づける推論グラフのKey Property 28 サイクル構造グラフの直径局所クラスタ性

推論グラフのKey Property | サイクル構造 11 Reasoningモデルは推論グラフにサイクル

推論グラフのKey Property | グラフの直径 11 グラフ内で最も離れた2つのノード間の最短距離 Reasoningにおける探索範囲に対応 Reasoningモデルはより広範な探索をして最終的な答えに辿り着いている．グラフの直径

推論グラフの直径で高品質なSFTデータを判別する 11 SFTデータをteacher forcingでモデルに入力し，内部表現から推

RLとSFTが形作る推論グラフの違い RL Squeezes, SFT Expands: A Comparative Study of Reasoning

05 モデル Pass@K K オープンモデルを使用性能（Pass@1）は SFT+RL > RL≒SFT >

10 RLは圧縮し，SFTは拡張する不正解のユニークな推論グラフの数正解したユニークな推論グラフの数 base model (1) Baseモデル (2) RLモデル

サイクル構造 10 サイクル構造 Graphlets 推論グラフの中に，graphletsがどれくらい多く含まれているかを数え上げ． RL, SFTで推論グラフの中にサイクル構造が増える．逆に一直線の構造は減る．

10 RLは少数のノードに推論グラフの機能