論文紹介20251007

Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs Yaniv
Nikankin, Dana Arad, Yossi Gandelsman, Yonatan Belinkov 小町研究室 M1 佐藤祥太 ※注釈がない図表は論文からの引用です 1

事前知識(1) • VLMについて[1] ◦ 画像と言語を入力 ◦ 画像と言語を別々にエンコード ◦ 画像特徴を言語特徴空間に射影 ◦
それぞれの特徴をLLMに入力 ◦ 言語の出力を得る • 画像のエンコード (ViT) [2] ◦ 画像を分割して系列に ◦ Transformerアーキテクチャ [2] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE [Dosovitskiy+, 21] [1] Visual Instruction Tuning [Liu+, 23] 2

事前知識(2) • テキストバイアスについて [3] ◦ VLMはテキストに依存してる ◦ 本当は画像をちゃんと見て回答してほしい (お気持ち) [3]
Words or Vision: Do Vision-Language Models Have Blind Faith in Text? [Deng+,25] どんなメカニズムで起こっているのだろう ...?🤔 3

ここから本題 4

概要 + Takehome message • モダリティごとにモデルのどの「回路」が作用しているかを特定 ◦ 作用している「回路」はモダリティによって異なる ◦ データを処理している部分に機能的な違いがある
• Back patchingによるモダリティ間の性能差を低減 5

言葉の定義 • 回路：モデルがある処理を行うときの構成要素の最小部分集合　　→ 処理に必要な情報が流れているところ • 構成要素： ◦ 1つのアテンションヘッド ◦
特定の出力位置におけるMLPニューロン　　→ 処理に必要な情報が集約されているところ 6

回路の構築方法 • 構成要素の重要度スコア → 入力の変化に対して、その構成要素が出力に及ぼす影響 7 2つの入力での活性値の差 e→e’に変えたときのロジット差の勾配の平均実際にどれくらい動いたか　
× 　その動きがどれだけ影響するかスコア上位 p%の構成要素を選択して回路を構築する入力p：猫が2匹の画像入力p’：猫が3匹の画像質問：猫は何匹いますか？ →数値に寄与するところが重要

回路の評価方法 • 忠実性：回路がモデル全体のタスク性能をどの程度説明できるか 8 pに有効な構成要素を回路 Cだけにしたときのロジット差全ての構成要素を p’に有効なものにしたときモデルが本来持っている pに有効な寄与
( 回路cの寄与 ÷ モデル全体の寄与 ) を全ての評価ペアで平均

タスクの設定-1 • 下記5種類のタスクを設定 ◦ クエリ + データで構成される ◦ データは画像
or テキスト 9

タスクの設定-2 • 制約 ◦ 答えは一単語で表される ◦ 同一タスクでは、同一のテンプレートを使う ※回答に該当するのはプロンプトの最終トークンのみ 10 データ
クエリ回答

手法の妥当性評価-1 • パッチング効果：重要度スコアの位置・層ごとの合計 ◦ 例) Qwen2-7B-VLのカウントタスク 11 位置ごとに異なる「構成要素の重要度パターン」が明らかになる

手法の妥当性評価-2 • 上位p%の回路の忠実性 ◦ 忠実度≥80%の回路をタスクに対して「十分」とする 12 タスク毎にもっとも重要な構成要素を回路として抽出できている

タスクの性能 • 定義したタスクの性能を評価 13 テキストの方が画像よりも高い精度を示すところに着目

分析-1 • 構造的な交差： 2つの回路の構成要素の重なり 14 画像回路とテキスト回路の重なりランダムに構築した各回路の重なりランダムなケースを除去した回路の重なり「偶然」をのぞいたモダリティ間の回路の重なり度合い画像回路とテキスト回路が完全一致

分析-2 • 構造的な交差： 2つの回路の構成要素の重なり 15 両モダリティはタスクの処理に異なる回路を利用している

分析-3 • 機能的な交差： 2つの回路の機能的な重なり 16 クエリ処理の回路を V→Lに変えたときの忠実性クエリ処理の回路を L→Vに変えたときの忠実性ある処理の回路を他モダリティの回路に置き換えた時の回路の有効度合い
これをランダムベースを下限、回路全体を上限として正規化

分析-4 • 機能的な交差： 2つの回路の構成要素の重なり 17 データトークンの処理を行う構成要素に機能的な違いがある

分析-5 • モダリティ間の表現の整合性 18 後段の層の特徴を早い段階で利用できれば性能が上がるのでは？

分析-6 • Back-Patching[4]による性能改善 →後段層の隠れ表現を前段層に差し戻し、推論のミスを修正 • より言語と画像が整合した表現を前の層から使う 19 [4]
Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries [Biran+,25]

まとめ (再掲) • モダリティごとにモデルのどの「回路」が作用しているかを特定 ◦ 作用している「回路」はモダリティによって異なる ◦ データを処理している部分に機能的な違いがある • Back
patchingによるモダリティ間の性能差を低減 20

雑感＋議論 • すごい面白い話 ◦ 分析も丁寧だし、知見としても面白い ◦ 見出しの絵で全て説明できるくらいわかりやすい面白さ • 頑張って粗探しすると ◦
タスクの種類が5種類で良いのか？ ◦ 今回の画像→テキストの置き換えは妥当なのか？ 21

おしまい 22

回路の構築方法-1 • 構成要素の重要度スコア → 入力の変化に対して、その構成要素が出力に及ぼす影響・u：構成要素　　　・e：pの埋め込み表現・p：プロンプト　　・k (= 5) ：補完経路上の分割数
・r ：答え　　　　　・LD(r,r’| • )：rとr’のロジット差 23

回路の評価方法-1 • 忠実性：回路がモデル全体のタスク性能をどの程度説明できるか・c：回路　　　　　　・a：構成要素uの活性値・T：テストデータ　　・|T|：テストデータのサイズ・LD(r,r’| • )：rとr’のロジット差・LDM(r,r’)：モデルの全てのuをp’の活性値に置き換えたとき
24

論文紹介20251007

論文紹介20251007

Shota Sato

More Decks by Shota Sato

Featured

Transcript

Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs Yaniv

事前知識(1) • VLMについて[1] ◦ 画像と言語を入力 ◦ 画像と言語を別々にエンコード ◦ 画像特徴を言語特徴空間に射影 ◦

事前知識(2) • テキストバイアスについて [3] ◦ VLMはテキストに依存してる ◦ 本当は画像をちゃんと見て回答してほしい (お気持ち) [3]

ここから本題 4

概要 + Takehome message • モダリティごとにモデルのどの「回路」が作用しているかを特定 ◦ 作用している「回路」はモダリティによって異なる ◦ データを処理している部分に機能的な違いがある

言葉の定義 • 回路：モデルがある処理を行うときの構成要素の最小部分集合　　→ 処理に必要な情報が流れているところ • 構成要素： ◦ 1つのアテンションヘッド ◦

回路の構築方法 • 構成要素の重要度スコア → 入力の変化に対して、その構成要素が出力に及ぼす影響 7 2つの入力での活性値の差 e→e’に変えたときのロジット差の勾配の平均実際にどれくらい動いたか

タスクの設定-1 • 下記5種類のタスクを設定 ◦ クエリ + データで構成される ◦ データは画像

タスクの設定-2 • 制約 ◦ 答えは一単語で表される ◦ 同一タスクでは、同一のテンプレートを使う ※回答に該当するのはプロンプトの最終トークンのみ 10 データ

手法の妥当性評価-1 • パッチング効果：重要度スコアの位置・層ごとの合計 ◦ 例) Qwen2-7B-VLのカウントタスク 11 位置ごとに異なる「構成要素の重要度パターン」が明らかになる

手法の妥当性評価-2 • 上位p%の回路の忠実性 ◦ 忠実度≥80%の回路をタスクに対して「十分」とする 12 タスク毎にもっとも重要な構成要素を回路として抽出できている

タスクの性能 • 定義したタスクの性能を評価 13 テキストの方が画像よりも高い精度を示すところに着目

分析-2 • 構造的な交差： 2つの回路の構成要素の重なり 15 両モダリティはタスクの処理に異なる回路を利用している

分析-4 • 機能的な交差： 2つの回路の構成要素の重なり 17 データトークンの処理を行う構成要素に機能的な違いがある

分析-5 • モダリティ間の表現の整合性 18 後段の層の特徴を早い段階で利用できれば性能が上がるのでは？

分析-6 • Back-Patching[4]による性能改善 →後段層の隠れ表現を前段層に差し戻し、推論のミスを修正 • より言語と画像が整合した表現を前の層から使う 19 [4]

まとめ (再掲) • モダリティごとにモデルのどの「回路」が作用しているかを特定 ◦ 作用している「回路」はモダリティによって異なる ◦ データを処理している部分に機能的な違いがある • Back

雑感＋議論 • すごい面白い話 ◦ 分析も丁寧だし、知見としても面白い ◦ 見出しの絵で全て説明できるくらいわかりやすい面白さ • 頑張って粗探しすると ◦

おしまい 22

回路の構築方法-1 • 構成要素の重要度スコア → 入力の変化に対して、その構成要素が出力に及ぼす影響・u：構成要素　　　・e：pの埋め込み表現・p：プロンプト　　・k (= 5) ：補完経路上の分割数