その LLM 制御、本当に信頼できますか？ / Can We Reliably Control LLMs?

その LLM 制御、本当に信頼できますか？北⽥俊輔電気通信⼤学原研究室 [email protected] 【Sansan×
IVRy】NLP2026 参加報告会@SanSanオフィス, 2026/04/21

⾃⼰紹介 | 北⽥俊輔経歴 • ʻ25/05〜電気通信⼤学⾮常勤研究員 @原研究室
• ʻ23/04〜 LINE ➜ ʻ23/10 LINEヤフー Research Scientist • ʻ23/03〜法政⼤学⼤学院彌冨研博⼠ (⼯学) / 学振 DC2 研究分野 • ⾃然⾔語処理 (NLP) / 画像処理 (CV) ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Accessʼ21, Appl. Intell.ʼ22] • 計算機広告 (Multi-modal / Vision & Language) ◦ デジタル広告の効果最⼤化 [Kitada+ KDDʼ19, Kitada+ Appl. Sci.ʼ22] • デザイン⽣成 AI ◦ レイアウト⽣成の⾃⼰修正 [Iwai+ ECCVʼ24, Zhang+ arXivʼ24] • LLM のミスアライメント抑制 @電通⼤原研究室 ◦ ステアリングベクトルは⽇本語 LLM を制御できる？ [Kitada+ ANLPʼ26] 2 🏠: shunk031.me / 𝕏: @shunk031

背景 | LLM への動作介⼊⼤規模⾔語モデル (Large Language Model; LLM) の挙動制御
• ⼤規模事前学習 ➜ ⼀般知識を得ることが可能 ◦ でもそのままではユーザの意図に必ずしも従わない ◦ 有⽤性・真実性・無害性・指⽰追従性など別途制御の余地が必要 • SFT や RLHFなどの事後学習による調整 ◦ SFT (supervised ﬁne-tuning) : 望ましい応答パターンを教える ◦ RLHF (reinforcement learning from human feedback) : ⼈の好みや定義した評価軸に寄せる事後学習だけでは挙動の制御は難しい • 既存知識の忘却や副作⽤の懸念 / ⼈の好みを学習しすぎた結果の過度の同調・迎合 • ハルシネーションやドメインシフト・最新情報を考慮した更新のたびに再学習は重い LLM への内部介⼊：「更に学習」より「より細かく制御」の研究分野 • 重みを変えず推論時に内部表現へ局所介⼊して LLN の挙動を制御したい • 必要であれば知識も局所更新したい / LLM のどの表現が何を担うか理解したい 3

NLPʼ26 で発表された LLM 介⼊研究の中⼼課題 LLM の安全性を良くしたい [北⽥+, ⾨⾕+, 原+, 武並+,
…] • もっともらしい誤答、迎合、⾃⾝の予測への偏りを減らす ◦ 「困る挙動」を直接下げる⽅向の研究群 LLM の出⼒や推論を制御したい [⾵間+, 鐘+, Zwirner+, …] • 途中の考え⽅や出⼒⾔語そのものをコントロールする ◦ 「何を答えるか」だけでなく「どう考え、どう出すか」を触る LLM の知識を局所的に変えたい [⽯垣+, ⽚岡+, …] • 古い事実だけを直したいが、既存知識周辺へ影響が波及しないかが問題 ◦ 局所的な知識の編集性や複数回の編集に耐えうるか LLM への介⼊の⼟台を整えたい [菊⾕+, …] • どのような特徴を学習しているか、その特徴の発⾒⾃体を安定化 ◦ LLM 介⼊の道具そのものをより良くできるか 4

本発表者の北⽥が関わった NLPʼ26 の研究 B1-13 [北⽥+ら]: ⽇本語 LLM で差分ベクトル介⼊は安定か？
• LLM の推論を制御可能なステアリングベクトルに着⽬ ◦ 効く層やモデル、データはそれぞれ ◦ ステアリングの逆効果や未知データに対する不安定さを観測 B5-10 [菊⾕+]: SAE による特徴分解の安定化 • Sparse Auto Encoder (SAE)：LLM が学習している特徴を解釈するための道具 • SAE 学習時に初期値が違うと学ぶ特徴がブレる • モデルの内部の重みを初期値に使うことで性能を保ったまま学習の安定性向上 5 望ましい挙動と望ましくない挙動の差分を取ることでステアリングベクトルを構築（図は北⽥らより引⽤）異なる乱数シードで学習したときに得られた特徴の⼀致度合いを可視化。提案⼿法 SAE-MD のほうがよりよい⼀致を⽰している（図は菊⾕らより引⽤）

LLM の安全性を直接良くする研究 B2-17 [⾨⾕+]: もっともらしい誤答を減らす • 嘘をつきやすい⽅向を打ち消し、事実寄りの内部表現へ動かす • 2 つのモデルを同時に回す
anti-expert より軽い形を狙っている B3-11 [原+]: 過度な同調や迎合を減らす • ヘッドを 1 個ずつではなく、共有して働くグループ単位で介⼊する • 迎合は 1 部品だけでなく、分散した回路で起きるとみている B5-5 [武並+]: 最初の数字に引っ張られる偏りを減らす • 最初の数字に引っぱられる注意先を特定して抑える • 他タスク性能は損なわれなかったと報告本研究領域の要点 • 「何を触るか」より「どこを触るか」の介⼊設計が効く 6 既存の外部モデルに頼ることなく単⼀モデルで出⼒確率を直接操作しながら内部表現を事実性が向上する⽅向に編集可能にする（図は⾨⾕らより引⽤）

LLM の出⼒や推論を制御する研究 B4-6 [⾵間+ら]: 途中の考え⽅をよくする • 最終答えではなく、途中の reasoning の軌道をよい領域へ寄せる •
答えが合っていても考え⽅が破綻する問題に向き合っている B6-5 [鐘+]: 少数の⾔語固有次元で⾔語を切り替える • 50 ⽂ほどで⾔語固有次元を⾒つけ、そこだけ操作する • 学習なしでも、意味を保ちながら出⼒⾔語を切り替えやすい B6-9 [Zwirner+]: 介⼊とプロンプトを組み合わせる • steering だけ、prompt だけ、両⽅、を⽐較している • 結果は「併⽤がいちばん安定」という整理本研究領域の要点 • 実⽤では「介⼊だけで全部解く」より、組み合わせたほうがよりよい制御を得られる 7

LLM の知識介⼊・編集とその限界 B6-19 [⽯垣+]: 知識編集は積み重ねると崩れやすい • ⼀つの編集が次の編集に⼲渉し、既編集知識と未編集知識の保持が難しくなる • しかもグラフ上の次数や距離だけでは説明しきれない B9-8
[⽚岡+]: 狙った知識だけを編集するのは難しい • 編集対象と主語・⽬的語を共有する近い知識も評価に⼊れる • その設定だと既存⼿法はまだ⼗分強くない 8 既存ベンチマークの局所編集性 (Locality) 評価⽤データには編集知識と主語・⽬的語を共有する別の知識はほとんど含まれていなかった。提案されている Tighter Locality はそのような知識を収集している（図は⽚岡らより引⽤）

結論全体の結論 • 研究の焦点は「介⼊を作る」から「介⼊が壊れにくいことを⽰す」に移⾏しつつある発表者の北⽥らの研究の位置づけ • B1-13 [北⽥+]
の⽇本語 LLM でその信頼性評価を前に出した点に意味があると考えています • B5-10 [菊⾕+] の研究を添えると「⼟台」と「評価」の両⾯を抑えられていると感じています 9 この⽇のために 2回ブリーチして電通⼤カラーの⻘にしてきました😤 宣伝：原研究室では AI のミスアライメントを減らす研究に従事する研究員を探しています!! もしご興味ある⽅いらっしゃればご連絡ください!

その LLM 制御、本当に信頼できますか？ / Can We Reliably Control...

その LLM 制御、本当に信頼できますか？ / Can We Reliably Control LLMs?

Shunsuke KITADA

More Decks by Shunsuke KITADA

Featured

Transcript

その LLM 制御、本当に信頼できますか？北⽥俊輔電気通信⼤学原研究室 [email protected] 【Sansan×

⾃⼰紹介 | 北⽥俊輔経歴 • ʻ25/05〜電気通信⼤学⾮常勤研究員 @原研究室

背景 | LLM への動作介⼊⼤規模⾔語モデル (Large Language Model; LLM) の挙動制御

NLPʼ26 で発表された LLM 介⼊研究の中⼼課題 LLM の安全性を良くしたい [北⽥+, ⾨⾕+, 原+, 武並+,

本発表者の北⽥が関わった NLPʼ26 の研究 B1-13 [北⽥+ら]: ⽇本語 LLM で差分ベクトル介⼊は安定か？

LLM の安全性を直接良くする研究 B2-17 [⾨⾕+]: もっともらしい誤答を減らす • 嘘をつきやすい⽅向を打ち消し、事実寄りの内部表現へ動かす • 2 つのモデルを同時に回す

LLM の出⼒や推論を制御する研究 B4-6 [⾵間+ら]: 途中の考え⽅をよくする • 最終答えではなく、途中の reasoning の軌道をよい領域へ寄せる •

結論全体の結論 • 研究の焦点は「介⼊を作る」から「介⼊が壊れにくいことを⽰す」に移⾏しつつある発表者の北⽥らの研究の位置づけ • B1-13 [北⽥+]