Upgrade to Pro — share decks privately, control downloads, hide ads and more …

推論グラフから見る Reasoning LLM の「思考のかたち」

Avatar for Gouki Minegishi Gouki Minegishi
February 17, 2026
67

推論グラフから見る Reasoning LLM の「思考のかたち」

NLPコロキウム,2026/02/18 (Wed) 12:00–13:00 (JST)
昨今,LLM の reasoning 能力は目覚ましい発展を遂げており,最終的な答えを出す前に長い推論過程を生成することで,数学や論理タスクにおける性能が大きく向上しています。しかし一方で,その「考えている途中」においてモデル内部で何が起きているのかについては,依然として十分に理解されていません。本トークでは,LLM の推論過程を「推論グラフ(reasoning graph)」として捉えることで,Reasoning LLM が内部に持つ「思考のかたち」を可視化・分析します。推論モデルが,循環性や広い探索範囲といった特徴的なグラフ構造を有しており,それらが高い推論性能と関係していることをご紹介します。さらに,reasoning 能力を高める代表的な手法である SFT と RL に着目し,これらがどのように異なる推論グラフを形作るのかを比較・考察します。本トークが,近年の reasoning 能力のブレークスルーを考える上での一つの見方を提供できれば幸いです。

Avatar for Gouki Minegishi

Gouki Minegishi

February 17, 2026
Tweet

Transcript

  1. 自己紹介 02 峰岸 剛基 • 所属 ◦ 東京大学 博士1年, 松尾研究室

    • 研究: 深層学習モデルの解釈性 (Interpretability) ◦ 文脈内学習(ICL) ▪ ICLのメタ学習能力と段階的な回路の形成の研究 (ICML2025) ▪ ICLが絡み合った表現から不要情報を除去していると示した研究 (ICLR2026) ◦ Reasoning ▪ Reasoning能力をグラフで分析した研究 (Neurips2025) ▪ RLとSFTでどんなグラフ特性の違いを分析した研究 (ICLR2026) ▪ Transformerにおけるアナロジー推論の創発を分析した研究 (Preprint.) LLMがなんであれほど賢いのかを”モデルの内側”から理解したい人です. Home page X: @GoukiMinegishi
  2. 自己紹介 02 峰岸 剛基 • 所属 ◦ 東京大学 博士1年, 松尾研究室

    • 研究: 深層学習モデルの解釈性 (Interpretability) ◦ 文脈内学習(ICL) ▪ ICLのメタ学習能力と段階的な回路の形成の研究 (ICML2025) ▪ ICLが絡み合った表現から不要情報を除去していると示した研究 (ICLR2026) ◦ Reasoning ▪ Reasoning能力をグラフで分析した研究 (Neurips2025) ▪ RLとSFTでどんなグラフ特性の違いを分析した研究 (ICLR2026) ▪ Transformerにおけるアナロジー推論の創発を分析した研究 (Preprint.) LLMがなんであれほど賢いのかを”モデルの内側”から理解したい人です. Home page X: @GoukiMinegishi 今日話す内容
  3. Reasoningモデル 02 2024年9月 OpenAI-o1公開 強化学習でLLMの推論能力(数オリなど)を大幅に向上させたモデ ルは発表されたが,どのように学習されたかは不明 2025年1月 Deepseek-R1の論文が公開 GRPO (Group

    Relative Policy Optimization)を用いた強化学習で推論能力を伸ばす 検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards, RLVR) が急速に普及(数学・コードなど,Verifierで自動採点できる領域でスケール) 2026年現在 Reasoningモデル・推論モードは多くの分野で実質デフォルト 各社がReasoningモデルを提供(OpenAI, Google, Anthropic, xAI, …) 出典) https://openai.com/ja-JP/index/learning-to-reason-with-llms/
  4. 答える前に長く考える 02 Q A 1 最終回答の前に大量の思考(Chain of Thought, CoT)を生成する 正解に到達した軌跡に報酬が与えられ,その生成分布が強化される

    A 2 A 3 質問 OpenAIのCEOは? イーロン・マスク サム・アルトマン ドナルド・トランプ Reasoningモデルの特徴
  5. 思考の軌跡でLLMは何をしている? 02 ゴール地点(最終的な答え)があっているかどうかで報酬を与えているため,途中の軌跡では人間が想定し ていなかったような挙動を見せる.(e.g., 自分の生成した軌跡を反省し始める) 他にも,複数の言語が混同する[Li et al.], 同じトークンを繰り返しまくる[Yang et

    al.]など, 人間には理解しにくい挙動が確認されている ちょっと待って! 考え直すわ 出典) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning Understanding Aha Moments: from External Observations to Internal Mechanisms The Impact of Language Mixing on Bilingual LLM Reasoning Q A 1 A 2 A 3 Aha moment Aha Moment
  6. 依然としてBlack BoxなLLM 02 Q A 1 A 2 A 3

    質問 OpenAIのCEOは? イーロン・マスク サム・アルトマン ドナルド・トランプ Black Box 最終回答の前に大量の思考(Chain of Thought, CoT)を生成する 正解に到達した軌跡に報酬が与えられ,その生成分布が強化される 自然言語では書かれているものの,LLMがどのような軌跡を作り上げて推論性能のブレークスルーが起 きたのかは,依然としてBlack Boxである Reasoningモデルの特徴
  7. 推論グラフのトポロジー 02 思 考 の 軌 跡 を 推 論

    グラフ ( 有 向 グラフ)と 捉 えて,そのトポロジー(グラフ 特 性 )を 分 析 することで ,Reasoningモデルの性能向上の秘訣をより深く知りたい Q A 1 A 2 A 3 推論グラフ 本研究の提案
  8. 05 LLMの内部表現をKmeansクラスタリング 推論グラフの抽出方法 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] 1推論ステップ 数学タスク(e.g.,

    GSM8K)を解くLLMの内部表現を 各推論ステップごとにクラスタリングする クラスタの中心を推論グラフのノード(v)候補とする DeepSeek-R1-Distill-Qwen-32Bの57層目の内部表現から得られたノード 出典)Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation
  9. 05 各質問ごとに推論グラフを構築 推論グラフの抽出方法 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] LLMの内部表現をKmeansクラスタリング 1推論ステップ

    数学タスク(e.g., GSM8K)を解くLLMの内部表現を 各推論ステップごとにクラスタリングする クラスタの中心を推論グラフのノード(v)候補とする 質 問 が 入 力 されて,LLMが 答 えに 辿 り 着 くまでに 訪れるノードを追跡し,推論グラフ(G=(V,E))を作る 出典)Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation
  10. 推論グラフの抽出方法(詳細) 03 01 LLMの内部表現からグラフを取り出す [Wang et al. ICML’24] ノードの定義(状態の離散化) 全てのデータのsに対してK-meansを適用

    クラスタの中心(v k )をノードとして定義 02 エッジの構築(遷移の抽出) 各質問について,ノードの出現順に接続する 03 i番目の推論ステップ i番目の推論ステップのtトークン目のell 層目の内部表現 出典)Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation 推論1ステップに対応する表現の獲得 思考の軌跡を各ステップごとに内部表現を平均化 3-1=2 2*5=10 10 (3-1)*5=?
  11. 推論グラフの可視化 12 Qwen2.5-32B DeepSeek-R1-Qwen-32B (Reasoning LLM) AIME2024 26.7 AIME2024 72.6

    t-SNEでReasoningモデルとBaseモデルの推論グラフを比較 sample #5 sample #21 sample #45 sample #211 sample #5 sample #21 sample #45 sample #211
  12. 推論グラフのKey Property | サイクル構造 11 Reasoningモデルは 推 論 グラフにサイク ル

    構 造 を 含 んでいることが 多 い 通常のLLM: 有向非巡回グラフ (DAG) Reasoning LLM: 有向巡回グラフ → Aha momentとも対応 サイクル構造 モデルサイズが大きくなるに連れて,性能が上がるとともに推論グラ フの中に含まれるサイクル構造の数も増えていく. モデルサイズの影響 Q A 2 サイクル構造
  13. 推論グラフのKey Property | 局所クラスタ性 11 クラスター係数:隣接するノード同士が隣接している割合(友 達の友達が友達である割合) 平均経路長:任意の2ノード間の平均距離 クラスター係数と平均経路長 Reasoningモデルは,クラスター係数は高い(局所的なクラスタ構造

    は多い)が平均経路長は長い(遠くのノードに行くのに多くのステップ を生成する,効率が悪い)特徴がある 右上みたいなグラフになっているということ 高いクラスター係数と長い平均経路長
  14. 推論グラフの直径で高品質なSFTデータを判別する 11 SFTデータをteacher forcingでモデルに入力し, 内 部 表 現 から 推

    論 グラフを 取 り 出 すことで, 学習をする前にSFTデータの質を測ることができる. 良いSFTデータ=推論グラフの直径の大きいデータ 実際の高品質なSFTデータ(e.g., s1 [Muennighoff er al.])は “wait”などのトークンを明示的に入れて作られている. これはLLMの内部の推論グラフのトポロジーを操作しているこ とに相当する s1: Simple test-time scaling
  15. 10 RLは圧縮し,SFTは拡張する 不正解のユニークな推論グラフの数 正解したユニークな推論グラフの数 base model (1) Baseモデル (2) RLモデル

    (3) SFT モデル (4) SFT +RLモデルで 同じ質問に対して複数回サンプリングし,ユニークな推論グラフの数を計算. RLは、不正解のグラフ数を縮小する、ただし正解のグラフ数は拡張しない SFTは、正解のグラフ数を拡張する、ただし不正解のグラフ数は減らさない Q A 1 A 2 A 3 ✅ ❌ ❌ Q A 1 A 2 A 3 ✅ ❌ ❌ Q A 1 A 2 A 3 ✅ ❌ ❌ Base A 2 ✅ A 2 ✅ RL SFT
  16. 10 RLは 少 数 のノードに 推 論 グラフの 機 能

    (e.g., ハブ、中心ノード)を集中させ、SFTは多くのノードに 機能を分散させる. RLとSFTで推論グラフにおける 各ノードの(1)訪問頻度と(2)次数を計算 Q A ハブノード RLによるハブノードの出現
  17. 04 推論グラフによるReasoning能力の解釈 昨今のReasoning能力のブレークスルーを理解するための概念として「推論グラフ」を導入 性能の高いReasoningモデルは,(1) サイクル構造 (2) 広範な探索空間 (3) 局所クラスタ性を示す推論 グラフに持っている.

    RLとSFTの違い RLは,ユニークな推論グラフを減らし,SFTはユニークな推論グラフを増やす. どちらもサイクル構造は獲得しているが,RLは特定のノードへ集中する. まとめ Future Direction 現 状 の 方 向 性 だと, 遠 いドメインへジャンプするような 推 論 (アナロジカルな 推 論 など,)は できなそう(もしくは相当効率が悪い探索なのでは).