Upgrade to Pro — share decks privately, control downloads, hide ads and more …

その LLM 制御、本当に信頼できますか? / Can We Reliably Control...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Shunsuke KITADA Shunsuke KITADA
April 21, 2026
65

その LLM 制御、本当に信頼できますか? / Can We Reliably Control LLMs?

大規模言語モデル(LLM)に対する内部介入(steering / intervention)は、重み更新を伴わずに推論時の振る舞いを制御できる手法として、近年急速に注目を集めています。本発表では、この軽量かつ柔軟な制御パラダイムの可能性と限界について、言語処理学会 2026 における関連研究を体系的に整理しながら概観します。特に、北田+「ステアリングベクトルは日本語LLMを堅牢に制御できるか?」を中心に、評価・安全性・多言語制御・表現学習といった観点から、内部介入がどこまで信頼できる制御として機能するのかを議論します。

■【Sansan × IVRy】NLP2026 参加報告会
https://sansan.connpass.com/event/388590/

■ 登壇概要
タイトル:その LLM 制御、本当に信頼できますか?

■ 言語処理学会第32回年次大会(NLP2026)
https://www.anlp.jp/nlp2026/

■ 北田+ "ステアリングベクトルは日本語 LLM を堅牢に制御できるか?"
https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/B1-13.pdf

Avatar for Shunsuke KITADA

Shunsuke KITADA

April 21, 2026

More Decks by Shunsuke KITADA

Transcript

  1. ⾃⼰紹介 | 北⽥ 俊輔 経歴 • ʻ25/05〜 電気通信⼤学 ⾮常勤研究員 @原研究室

    • ʻ23/04〜 LINE ➜ ʻ23/10 LINEヤフー Research Scientist • ʻ23/03〜 法政⼤学⼤学院 彌冨研 博⼠ (⼯学) / 学振 DC2 研究分野 • ⾃然⾔語処理 (NLP) / 画像処理 (CV) ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Accessʼ21, Appl. Intell.ʼ22] • 計算機広告 (Multi-modal / Vision & Language) ◦ デジタル広告の効果最⼤化 [Kitada+ KDDʼ19, Kitada+ Appl. Sci.ʼ22] • デザイン⽣成 AI ◦ レイアウト⽣成の⾃⼰修正 [Iwai+ ECCVʼ24, Zhang+ arXivʼ24] • LLM のミスアライメント抑制 @電通⼤ 原研究室 ◦ ステアリングベクトルは⽇本語 LLM を制御できる? [Kitada+ ANLPʼ26] 2 🏠: shunk031.me / 𝕏: @shunk031
  2. 背景 | LLM への動作介⼊ ⼤規模⾔語モデル (Large Language Model; LLM) の挙動制御

    • ⼤規模事前学習 ➜ ⼀般知識を得ることが可能 ◦ でもそのままではユーザの意図に必ずしも従わない ◦ 有⽤性・真実性・無害性・指⽰追従性 など別途制御の余地が必要 • SFT や RLHFなどの事後学習による調整 ◦ SFT (supervised fine-tuning) : 望ましい応答パターンを教える ◦ RLHF (reinforcement learning from human feedback) : ⼈の好みや定義した評価軸に寄せる 事後学習だけでは挙動の制御は難しい • 既存知識の忘却や副作⽤の懸念 / ⼈の好みを学習しすぎた結果の過度の同調・迎合 • ハルシネーションやドメインシフト・最新情報を考慮した更新のたびに再学習は重い LLM への内部介⼊:「更に学習」より「より細かく制御」の研究分野 • 重みを変えず推論時に内部表現へ局所介⼊して LLN の挙動を制御したい • 必要であれば知識も局所更新したい / LLM のどの表現が何を担うか理解したい 3
  3. NLPʼ26 で発表された LLM 介⼊研究の中⼼課題 LLM の安全性を良くしたい [北⽥+, ⾨⾕+, 原+, 武並+,

    …] • もっともらしい誤答、迎合、⾃⾝の予測への偏りを減らす ◦ 「困る挙動」を直接下げる⽅向の研究群 LLM の出⼒や推論を制御したい [⾵間+, 鐘+, Zwirner+, …] • 途中の考え⽅や出⼒⾔語そのものをコントロールする ◦ 「何を答えるか」だけでなく「どう考え、どう出すか」を触る LLM の知識を局所的に変えたい [⽯垣+, ⽚岡+, …] • 古い事実だけを直したいが、既存知識周辺へ影響が波及しないかが問題 ◦ 局所的な知識の編集性や複数回の編集に耐えうるか LLM への介⼊の⼟台を整えたい [菊⾕+, …] • どのような特徴を学習しているか、その特徴の発⾒⾃体を安定化 ◦ LLM 介⼊の道具そのものをより良くできるか 4
  4. 本発表者の 北⽥ が関わった NLPʼ26 の研究 B1-13 [北⽥+ら]: ⽇本語 LLM で差分ベクトル介⼊は安定か?

    • LLM の推論を制御可能なステアリングベクトルに着⽬ ◦ 効く層やモデル、データはそれぞれ ◦ ステアリングの逆効果や 未知データに対する不安定さを観測 B5-10 [菊⾕+]: SAE による特徴分解の安定化 • Sparse Auto Encoder (SAE):LLM が 学習している特徴を解釈するための道具 • SAE 学習時に初期値が違うと学ぶ特徴がブレる • モデルの内部の重みを初期値に使うことで 性能を保ったまま学習の安定性向上 5 望ましい挙動と望ましくない挙動の 差分を取ることでステアリングベクトルを 構築(図は 北⽥ら より引⽤) 異なる乱数シードで学習したときに 得られた特徴の⼀致度合いを可視化。 提案⼿法 SAE-MD のほうがよりよい ⼀致を⽰している(図は 菊⾕ら より引⽤)
  5. LLM の安全性を直接良くする研究 B2-17 [⾨⾕+]: もっともらしい誤答を減らす • 嘘をつきやすい⽅向を打ち消し、事実寄りの内部表現へ動かす • 2 つのモデルを同時に回す

    anti-expert より軽い形を狙っている B3-11 [原+]: 過度な同調や迎合を減らす • ヘッドを 1 個ずつではなく、共有して働くグループ単位で介⼊する • 迎合は 1 部品だけでなく、分散した回路で起きるとみている B5-5 [武並+]: 最初の数字に引っ張られる偏りを減らす • 最初の数字に引っぱられる注意先を特定して抑える • 他タスク性能は損なわれなかったと報告 本研究領域の要点 • 「何を触るか」より「どこを触るか」の介⼊設計が効く 6 既存の外部モデルに頼ることなく 単⼀モデルで出⼒確率を直接操作しながら 内部表現を事実性が向上する⽅向に 編集可能にする(図は ⾨⾕ら より引⽤)
  6. LLM の出⼒や推論を制御する研究 B4-6 [⾵間+ら]: 途中の考え⽅をよくする • 最終答えではなく、途中の reasoning の軌道をよい領域へ寄せる •

    答えが合っていても考え⽅が破綻する問題に向き合っている B6-5 [鐘+]: 少数の⾔語固有次元で⾔語を切り替える • 50 ⽂ほどで⾔語固有次元を⾒つけ、そこだけ操作する • 学習なしでも、意味を保ちながら出⼒⾔語を切り替えやすい B6-9 [Zwirner+]: 介⼊とプロンプトを組み合わせる • steering だけ、prompt だけ、両⽅、を⽐較している • 結果は「併⽤がいちばん安定」という整理 本研究領域の要点 • 実⽤では「介⼊だけで全部解く」より、組み合わせたほうがよりよい制御を得られる 7
  7. LLM の知識介⼊・編集とその限界 B6-19 [⽯垣+]: 知識編集は積み重ねると崩れやすい • ⼀つの編集が次の編集に⼲渉し、既編集知識と未編集知識の保持が難しくなる • しかもグラフ上の次数や距離だけでは説明しきれない B9-8

    [⽚岡+]: 狙った知識だけを編集するのは難しい • 編集対象と主語・⽬的語を共有する近い知識も評価に⼊れる • その設定だと既存⼿法はまだ⼗分強くない 8 既存ベンチマークの局所編集性 (Locality) 評価⽤データには編集知識と主語・⽬的語を共有する別の知識はほとんど 含まれていなかった。提案されている Tighter Locality はそのような知識を収集している(図は ⽚岡ら より引⽤)
  8. 結論 全体の結論 • 研究の焦点は「介⼊を作る」から 「介⼊が壊れにくいことを⽰す」に 移⾏しつつある 発表者の北⽥らの研究の位置づけ • B1-13 [北⽥+]

    の⽇本語 LLM で その信頼性評価を前に出した点に 意味があると考えています • B5-10 [菊⾕+] の研究を添えると 「⼟台」と「評価」の両⾯を 抑えられていると感じています 9 この⽇のために 2回ブリーチして 電通⼤カラーの ⻘にしてきました😤 宣伝:原研究室では AI のミスアライメントを 減らす研究 に従事する研究員を探しています!! もしご興味ある⽅いらっしゃればご連絡ください!