大規模言語モデル(LLM)に対する内部介入(steering / intervention)は、重み更新を伴わずに推論時の振る舞いを制御できる手法として、近年急速に注目を集めています。本発表では、この軽量かつ柔軟な制御パラダイムの可能性と限界について、言語処理学会 2026 における関連研究を体系的に整理しながら概観します。特に、北田+「ステアリングベクトルは日本語LLMを堅牢に制御できるか?」を中心に、評価・安全性・多言語制御・表現学習といった観点から、内部介入がどこまで信頼できる制御として機能するのかを議論します。
■【Sansan × IVRy】NLP2026 参加報告会
https://sansan.connpass.com/event/388590/
■ 登壇概要
タイトル:その LLM 制御、本当に信頼できますか?
■ 言語処理学会第32回年次大会(NLP2026)
https://www.anlp.jp/nlp2026/
■ 北田+ "ステアリングベクトルは日本語 LLM を堅牢に制御できるか?"
https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/B1-13.pdf