Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介20251007
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Shota Sato
March 26, 2026
4
0
Share
論文紹介20251007
Shota Sato
March 26, 2026
More Decks by Shota Sato
See All by Shota Sato
20241119_論文紹介_Discovering Universal Geometry in Embeddings with ICA
shotasato01
0
5
Featured
See All Featured
Game over? The fight for quality and originality in the time of robots
wayneb77
1
160
A designer walks into a library…
pauljervisheath
211
24k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
99
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
490
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
370
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
53k
A better future with KSS
kneath
240
18k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
My Coaching Mixtape
mlcsv
0
110
Transcript
Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs Yaniv
Nikankin, Dana Arad, Yossi Gandelsman, Yonatan Belinkov 小町研究室 M1 佐藤祥太 ※注釈がない図表は論文からの引用です 1
事前知識(1) • VLMについて[1] ◦ 画像と言語を入力 ◦ 画像と言語を別々にエンコード ◦ 画像特徴を言語特徴空間に射影 ◦
それぞれの特徴をLLMに入力 ◦ 言語の出力を得る • 画像のエンコード (ViT) [2] ◦ 画像を分割して系列に ◦ Transformerアーキテクチャ [2] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE [Dosovitskiy+, 21] [1] Visual Instruction Tuning [Liu+, 23] 2
事前知識(2) • テキストバイアスについて [3] ◦ VLMはテキストに依存してる ◦ 本当は画像をちゃんと見て回答してほしい (お気持ち) [3]
Words or Vision: Do Vision-Language Models Have Blind Faith in Text? [Deng+,25] どんなメカニズムで起こっているのだろう ...?🤔 3
ここから本題 4
概要 + Takehome message • モダリティごとにモデルのどの「回路」が作用しているかを特定 ◦ 作用している「回路」はモダリティによって異なる ◦ データを処理している部分に機能的な違いがある
• Back patchingによるモダリティ間の性能差を低減 5
言葉の定義 • 回路:モデルがある処理を行うときの構成要素の最小部分集合 → 処理に必要な情報が流れているところ • 構成要素: ◦ 1つのアテンションヘッド ◦
特定の出力位置におけるMLPニューロン → 処理に必要な情報が集約されているところ 6
回路の構築方法 • 構成要素の重要度スコア → 入力の変化に対して、その構成要素が出力に及ぼす影響 7 2つの入力での活性値の 差 e→e’に変えたときのロジット差の勾配の平均 実際にどれくらい動いたか
× その動きがどれだけ影響するか スコア上位 p%の構成要素を選択して回路を構築する 入力p:猫が2匹の画像 入力p’:猫が3匹の画像 質問:猫は何匹いますか? →数値に寄与するところが重要
回路の評価方法 • 忠実性:回路がモデル全体のタスク性能をどの程度説明できるか 8 pに有効な構成要素を回路 Cだけにしたときのロジット差 全ての構成要素を p’に有効なものにしたとき モデルが本来持っている pに有効な寄与
( 回路cの寄与 ÷ モデル全体の寄与 ) を全ての評価ペアで平均
タスクの設定-1 • 下記5種類のタスクを設定 ◦ クエリ + データ で構成される ◦ データは画像
or テキスト 9
タスクの設定-2 • 制約 ◦ 答えは一単語で表される ◦ 同一タスクでは、同一のテンプレートを使う ※回答に該当するのはプロンプトの最終トークンのみ 10 データ
クエリ 回答
手法の妥当性評価-1 • パッチング効果 :重要度スコアの位置・層ごとの合計 ◦ 例) Qwen2-7B-VLのカウントタスク 11 位置ごとに異なる「構成要素の重要度パターン」が明らかになる
手法の妥当性評価-2 • 上位p%の回路の忠実性 ◦ 忠実度≥80%の回路をタスクに対して「十分」とする 12 タスク毎にもっとも重要な構成要素を回路として抽出できている
タスクの性能 • 定義したタスクの性能を評価 13 テキストの方が画像よりも高い精度を示すところに着目
分析-1 • 構造的な交差: 2つの回路の構成要素の重なり 14 画像回路とテキスト回路の重なり ランダムに構築した各回路の重なり ランダムなケースを除去した回路の重なり 「偶然」をのぞいたモダリティ間の回路の重なり度合い 画像回路とテキスト回路が完全一致
分析-2 • 構造的な交差: 2つの回路の構成要素の重なり 15 両モダリティはタスクの処理に異なる回路を利用している
分析-3 • 機能的な交差: 2つの回路の機能的な重なり 16 クエリ処理の回路を V→Lに変えたときの忠実性 クエリ処理の回路を L→Vに変えたときの忠実性 ある処理の回路を他モダリティの回路に置き換えた時の回路の有効度合い
これをランダムベースを下限、回路全体を上限として正規化
分析-4 • 機能的な交差: 2つの回路の構成要素の重なり 17 データトークンの処理を行う構成要素に機能的な違いがある
分析-5 • モダリティ間の表現の整合性 18 後段の層の特徴を早い段階で利用できれば性能が上がるのでは?
分析-6 • Back-Patching[4]による性能改善 →後段層の隠れ表現を前段層に差 し戻し、推論のミスを修正 • より言語と画像が整合した表現を 前の層から使う 19 [4]
Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries [Biran+,25]
まとめ (再掲) • モダリティごとにモデルのどの「回路」が作用しているかを特定 ◦ 作用している「回路」はモダリティによって異なる ◦ データを処理している部分に機能的な違いがある • Back
patchingによるモダリティ間の性能差を低減 20
雑感+議論 • すごい面白い話 ◦ 分析も丁寧だし、知見としても面白い ◦ 見出しの絵で全て説明できるくらいわかりやすい面白さ • 頑張って粗探しすると ◦
タスクの種類が5種類で良いのか? ◦ 今回の画像→テキストの置き換えは妥当なのか? 21
おしまい 22
回路の構築方法-1 • 構成要素の重要度スコア → 入力の変化に対して、その構成要素が出力に及ぼす影響 ・u:構成要素 ・e:pの埋め込み表現 ・p:プロンプト ・k (= 5) :補完経路上の分割数
・r :答え ・LD(r,r’| • ):rとr’のロジット差 23
回路の評価方法-1 • 忠実性:回路がモデル全体のタスク性能をどの程度説明できるか ・c:回路 ・a:構成要素uの活性値 ・T:テストデータ ・|T|:テストデータのサイズ ・LD(r,r’| • ):rとr’のロジット差 ・LDM(r,r’):モデルの全てのuをp’の活性値に置き換えたとき
24