et al. 1991. n “Example-based machine translation” Sato. 1992. n “Memory-based language processing” Daelemans. 2005 n 「nearest neighbor」 n “Nearest neighbor machine translation” Khandelwal et al. 2020 n “Nearest neighbor language models” Khandelwal et al. 2019 n 「contrastive learning」
dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率 スコア (ロジット) wB wI wO Softmax n 重み⾏列Wの各⾏ベクトルは 1つのラベル(クラス)に紐づく (重みベクトルと呼ぶ) 特徴 ベクトル Franz1 はBラベルが正解 Kafka2 はIラベルが正解 Came3 はOラベルが正解
dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率 スコア (ロジット) wB wI wO Softmax n 各ラベルの重みベクトル w の代わりに 学習事例の特徴ベクトル h を使うと… (我々の)事例ベースモデル ベ ク ト ル 空 間 上 で 可 視 化 h1 3.4 -0.2 1.7 wB wI wO 特徴 ベクトル
h1 Barack Obama was born … I Franz Liszt played … B They had to … O 5.3 2.4 1.9 2.2 2.4+2.2+5.3+1.9=11.8 ラベルB のスコア (我々の)事例ベースモデル (Instance-based Model) h1 3.4 -0.2 1.7 wB wI wO 学 習事 例 の 特 徴 ベ クト ル を 利 ⽤
リ ) n Sup p o rt ( サ ポー ト ) 𝒟 学習データ ROOT Kafka wrote novels ROOT Because I have … ROOT John loves Mary ROOT She wrote books ・・・ ・・・ Support Random Sampling Query ミニバッチ (32 sents) (10 sents) Feature Extractor (BERT + BiLSTM) h2,3 h1,3 h0,3 正解エッジ に近づく 不正解エッジ から離れる n 損失関数はいつものクロスエントロピー
the true reasoning process of the model? Plausibility (妥当性) Is it convincing as an explanation to the interpreted process? n モデルの設計上、我々のモデルは学習事例を⽤いて「忠実」な説明が可能 n 残すは「妥当性」だが、どうやって定量的に評価するの? n 「解釈性」の2つの側⾯ [Jacovi&Goldberg, ACL2020]
for evidence should belong to the same latent subclass as that of the test instance Minimal Requirement Measure agreement between the latent subclasses of each predicted instance and its nearest training instance Sanity Check n 解釈妥当性の評価はオープンクエスション n ⼿ごろなアプローチが提案された[Hanawa+, ICLR2021] wrote novels ✔ This candidate “wrote → novels” is a dependency because it is similar to “published → books” TEST obj published books TRAIN obj wrote novels TEST ✖ obj the novels TRAIN det This candidate “wrote → novels” is a dependency because it is similar to “novels → the”
ー タ ) 最 近 傍 ベ ス ト 3 事 例 ベ ー ス + d o t 最 近 傍 ベ ス ト 3 事 例 ベ ー ス + c o s ど れ も 同 じ よ う な 学 習 事 例 が 近 傍 に 来 て い る Ø 「 ハ ブ ( h u b s ) 」 の 出 現 A small number of specific training instances that often appear in the neighborhood regardless of queries [Radovanovic et al., JMLR2010]