Slide 1

Slide 1 text

Instance-Based Neural Dependency Parsing ⼤内啓樹1,3 鈴⽊潤2,3 ⼩林颯介2,4 横井祥2,3 栗林樹⽣2,5 吉川将司2,3 乾健太郎2,3 1奈 良 先 端 科 学 技 術 ⼤ 学 院 ⼤ 学 2東 北 ⼤ 学 3理 化 学 研 究 所 4株 式 会 社 P r e f e r r e d N e t w o r k s 5L a n g s m i t h 株 式 会 社 1 2 /0 1 N L P コ ロキ ウム

Slide 2

Slide 2 text

研究の出発点 「なぜこんな予測に?」 2 「モデルの予測根拠がわかりやすいといいなあ」 細い 猫の ⽬ 海辺 の カフカ O 固有表現 ニューラルモデル 依存構造 ニューラルモデル O B B I I 正解: ⼊⼒: 予測: ⼊⼒: 予測: 正解:

Slide 3

Slide 3 text

今回は「事例ベース」の⼿法に着⽬ 「事例ベース」モデルのイメージ 3 学習事例との類似性に基づいて予測 Ø 予測根拠を学習事例にもとめられる

Slide 4

Slide 4 text

「事例ベース」っぽい⼿法はいろいろある 「事例ベース」に関連するキーワード 4 n 「instance-based」「example-based」「memory-based」 n “Instance-based learning algorithms” Aha et al. 1991. n “Example-based machine translation” Sato. 1992. n “Memory-based language processing” Daelemans. 2005 n 「nearest neighbor」 n “Nearest neighbor machine translation” Khandelwal et al. 2020 n “Nearest neighbor language models” Khandelwal et al. 2019 n 「contrastive learning」

Slide 5

Slide 5 text

最近の流⾏を考える 「事例ベース」って⼈気あるの? 5 n ACL Anthology にて「instance-based」で検索 n ACL2021 (2021年8⽉開催) でのヒット件数は0 n EMNLP2021 (2021年11⽉開催) でのヒット件数はまたも0 n 「contrastive learning」で検索 n 1年で6倍に n 2022年には108に増える⾒込み 0 3 11 18 0 5 10 15 20 ACL2020 EMNLP2020 ACL2021 EMNLP2021 「contrastive learning」でのヒット件数

Slide 6

Slide 6 text

本研究の⽴ち位置 事 例ベー ス × ニ ュー ラ ル 6 ニューラル ⾮ニューラル 重みベース 事例ベース 特徴抽出 予測 Ouchi+’20 Wiseman+’19 Ouchi+’21 Zhang+’17 Kulmizev+’19 Dozat+’18 他多数 他多数 Yamada& Matsumoto’03 Nivre’03 Nivre’04 MacDonald+’05 Daelemans’05 Daelemans’99 他多数 n 解析タスクの既存研究をざっくり分けると... こちらから 説明

Slide 7

Slide 7 text

ソフトマックス層の復習 各ラベル(クラス)の確⽴分布を計算 7 Franz1 Kafka2 came3 Feature Extractor dot dot dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率 スコア (ロジット) wB wI wO Softmax n 重み⾏列Wの各⾏ベクトルは 1つのラベル(クラス)に紐づく (重みベクトルと呼ぶ) 特徴 ベクトル Franz1 はBラベルが正解 Kafka2 はIラベルが正解 Came3 はOラベルが正解

Slide 8

Slide 8 text

スコア(ロジット)は次のように解釈できる ラベルベクトルと特徴ベクトルの類似度 8 Franz1 Kafka2 came3 Feature Extractor dot dot dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率 スコア (ロジット) wB wI wO Softmax n 各ラベルの重みベクトル w の代わりに 学習事例の特徴ベクトル h を使うと… (我々の)事例ベースモデル ベ ク ト ル 空 間 上 で 可 視 化 h1 3.4 -0.2 1.7 wB wI wO 特徴 ベクトル

Slide 9

Slide 9 text

提案する事例ベースモデル 事例間類似度を利⽤して解釈性向上をねらう 9 スコアを学習事例との類似度に分解 Ø 各学習事例のスコアへの貢献度がわかる 重みベースモデル (Weight-based Model) 各ラベルの重みベクトルを利⽤ h1 Barack Obama was born … I Franz Liszt played … B They had to … O 5.3 2.4 1.9 2.2 2.4+2.2+5.3+1.9=11.8 ラベルB のスコア (我々の)事例ベースモデル (Instance-based Model) h1 3.4 -0.2 1.7 wB wI wO 学 習事 例 の 特 徴 ベ クト ル を 利 ⽤

Slide 10

Slide 10 text

「単語・句」から「関係」へ 依存構造解析に取り組む 10 ROOT0 Kafka1 wrote2 novels3 w h2,3 h1,3 h0,3 n 主辞選択問題(Head Selection Approach) [Zhang+, EACL2017] [Dozat&Manning, ICLR2017] Ø 各単語の主辞(係り元; head)を当てる問題 Feature Extractor 重みベースモデル (Weight-based Model) (我々の)事例ベースモデル (Instance-based Model) ROOT0 Kafka1 wrote2 novels3 h2,3 h1,3 h0,3 Feature Extractor … wrote books … 6.1 4.3 2.8 3.2 2.8+4.3+6.1+3.2=16.4 write2 →novels3 のスコア 8.9 0.9 2.1 novels3 の主辞 を予測する場合

Slide 11

Slide 11 text

事例ベースモデルの学習 ミニバッチの作り⽅がいつもと少し違う 11 n 各ミニバッチは2種類の⽂から構成される n Qu ery ( クエ リ ) n Sup p o rt ( サ ポー ト ) 𝒟 学習データ ROOT Kafka wrote novels ROOT Because I have … ROOT John loves Mary ROOT She wrote books ・・・ ・・・ Support Random Sampling Query ミニバッチ (32 sents) (10 sents) Feature Extractor (BERT + BiLSTM) h2,3 h1,3 h0,3 正解エッジ に近づく 不正解エッジ から離れる n 損失関数はいつものクロスエントロピー

Slide 12

Slide 12 text

モデルを評価する 実験の概要 12 n ⽬的①:予測性能の評価 n 背 景:重 み ベー ス モ デル と 同 等 の 予 測 性能 を 事例 ベー スモ デル で 達成 する こ とは 容易 では な い とい う ⽰ 唆 が あ る [ W i s e m a n + , A C L 2 0 1 9 ] n 結 果:事 例 ベー ス モ デル ( 提 案 モ デル ) は 重 み ベー スモ デル( ベー スライン ) と 同 等 の 予測 性 能 を 記 録 n ⽬的②:解釈性の評価 n 背 景:そ も そも解 釈 性 の評 価 ⽅ 法 はオ ープ ン クエスション。本研究では [ Han awa+ I CL R20 21] で 提 案さ れ てい る⽅法 で評 価 ( 後ほ ど詳 述 ) n 結 果 ① :事 例 ベ ース モ デル をコサ イン 類似度 と組 み合 わせたときに 最低 限 の 解釈妥 当 性を満 た す 事例 を 予 測 根拠 とし て 提⽰可能 n 結 果 ② :内 積 を 利⽤ す ると 「 ハ ブ 」 と 呼ばれ る現 象が発 ⽣し て解釈 妥当 性 を ⼤きく 損 なうこ と が 判明

Slide 13

Slide 13 text

モデルを評価する 実験の詳細 13 n ⽐較モデル n ベースライン:重みベースモデル n 提案モデル:事例ベースモデル n 類似度関数 n 内積(dot) n コサイン類似度(cos) n 特徴抽出器 n Multilingual BERT + BiLSTL Layers n データセット n Universal Dependencies Ver.2.7 n 13⾔語の平均正解率を報告する

Slide 14

Slide 14 text

予測性能の評価 どちらのモデルも同等の予測性能 14 Model Sim Accuracy Weight-based dot 89.1 cos 89.0 Instance-based dot 89.3 cos 89.1 keep keep 予測性能はほぼほぼキープできた

Slide 15

Slide 15 text

解釈性を評価する前に… 「解釈性」という⽤語の曖昧性について 15 Faithfulness (忠実性) Does the explanation accurately describes the true reasoning process of the model? Plausibility (妥当性) Is it convincing as an explanation to the interpreted process? n モデルの設計上、我々のモデルは学習事例を⽤いて「忠実」な説明が可能 n 残すは「妥当性」だが、どうやって定量的に評価するの? n 「解釈性」の2つの側⾯ [Jacovi&Goldberg, ACL2020]

Slide 16

Slide 16 text

解釈妥当性を評価するための健全性テスト(Sanity Check) Identical Subclass Test (IST) 16 The similar instance for evidence should belong to the same latent subclass as that of the test instance Minimal Requirement Measure agreement between the latent subclasses of each predicted instance and its nearest training instance Sanity Check n 解釈妥当性の評価はオープンクエスション n ⼿ごろなアプローチが提案された[Hanawa+, ICLR2021] wrote novels ✔ This candidate “wrote → novels” is a dependency because it is similar to “published → books” TEST obj published books TRAIN obj wrote novels TEST ✖ obj the novels TRAIN det This candidate “wrote → novels” is a dependency because it is similar to “novels → the”

Slide 17

Slide 17 text

ISTの直感的な説明 依存構造解析におけるIST 17 ROOT If they continue エッジ(開発データ) to … If you want to … 最近傍のエッジ(学習データ) ROOT 同じだったら正解 mark mark n 各エッジ(開発データ)とその最近傍のエッジ(学習データ)の 潜在サブクラスの⼀致率を測定する

Slide 18

Slide 18 text

ISTの結果 コサインは良い、内積は悪い 18 Cosine is much better than Dot Instance-Based Model is better than Weight-Based Model コサイン類似度と組み合わせた事例ベースモデルは 「妥当」な学習事例を予測根拠として提⽰可能な場合が多い

Slide 19

Slide 19 text

分析:なぜ「内積(dot)」はうまく機能していないのか? 「ハブ」が悪さをしているから 19 エ ッ ジ ( 開 発 デ ー タ ) 最 近 傍 ベ ス ト 3 事 例 ベ ー ス + d o t 最 近 傍 ベ ス ト 3 事 例 ベ ー ス + c o s ど れ も 同 じ よ う な 学 習 事 例 が 近 傍 に 来 て い る Ø 「 ハ ブ ( h u b s ) 」 の 出 現 A small number of specific training instances that often appear in the neighborhood regardless of queries [Radovanovic et al., JMLR2010]

Slide 20

Slide 20 text

「ハブ」に関する議論 なぜ「ハブ」は出現するのか? 20 n 特徴ベクトルのノルムが深く関係してそう n 実験においても、ハブとなっている事例の特徴ベクトルのノルム は極端に⼤きかった n コサイン類似度を使うときはノルムを正規化する(1にする)ので ハブが抑制された可能性 n 今後詳しく調べられるといい

Slide 21

Slide 21 text

事例ベース依存構造解析 まとめ 21 学習事例との類似度に基づいて 依存構造を予測するモデルを提案 今後の課題①:他のタスクにも広げる? 今後の課題②:「ハブ」の発⽣原因の詳しい調査 n 予測性能 n 解釈忠実性 n 解釈妥当性 □ □ □ ✔ 最低限の要件は満たす模様 ✔ ▲ 重みベースモデルと同等 忠実な予測根拠を提⽰可能

Slide 22

Slide 22 text

追加で 他に⾯⽩そうな今後の⽅向性 22 Figure 1 in [Carbonnelle&Vleeschouwer, ICLR2021] Figure 1 in [Qian+, ICCV2019] n Intraclass Clustering & Variance n 各 クラ ス の 教 師信 号 の みを 使 っ てク ラ ス 内 の適切 なクラ スタ ( 潜在 サ ブクラ ス ) を 捉 え られ る よ う な 表 現学 習 n Instance-based/Contrastive Learningで予測性能勝負 n Few- Sh o t Setti n g sな ど で 効 果 を 発 揮 する 模様

Slide 23

Slide 23 text

もし何か興味が重なれば ぜひ共同研究をしましょう [email protected]