Instance-Based Neural Dependency Parsing

Slide 1

Slide 1 text

Instance-Based Neural Dependency Parsing ⼤内啓樹1,3 鈴⽊潤2,3 ⼩林颯介2,4 横井祥2,3 栗林樹⽣2,5 吉川将司2,3 乾健太郎2,3 1奈良先端科学技術⼤学院⼤学 2東北⼤学 3理化学研究所 4株式会社 P r e f e r r e d N e t w o r k s 5L a n g s m i t h 株式会社 1 2 /0 1 N L P コロキウム

Slide 2

Slide 2 text

研究の出発点「なぜこんな予測に？」 2 「モデルの予測根拠がわかりやすいといいなあ」細い猫の⽬海辺のカフカ O 固有表現ニューラルモデル依存構造ニューラルモデル O B B I I 正解: ⼊⼒: 予測: ⼊⼒: 予測: 正解:

Slide 3

Slide 3 text

今回は「事例ベース」の⼿法に着⽬「事例ベース」モデルのイメージ 3 学習事例との類似性に基づいて予測 Ø 予測根拠を学習事例にもとめられる

Slide 4

Slide 4 text

「事例ベース」っぽい⼿法はいろいろある「事例ベース」に関連するキーワード 4 n 「instance-based」「example-based」「memory-based」 n “Instance-based learning algorithms” Aha et al. 1991. n “Example-based machine translation” Sato. 1992. n “Memory-based language processing” Daelemans. 2005 n 「nearest neighbor」 n “Nearest neighbor machine translation” Khandelwal et al. 2020 n “Nearest neighbor language models” Khandelwal et al. 2019 n 「contrastive learning」

Slide 5

Slide 5 text

最近の流⾏を考える「事例ベース」って⼈気あるの？ 5 n ACL Anthology にて「instance-based」で検索 n ACL2021 (2021年8⽉開催) でのヒット件数は0 n EMNLP2021 (2021年11⽉開催) でのヒット件数はまたも0 n 「contrastive learning」で検索 n 1年で6倍に n 2022年には108に増える⾒込み 0 3 11 18 0 5 10 15 20 ACL2020 EMNLP2020 ACL2021 EMNLP2021 「contrastive learning」でのヒット件数

Slide 6

Slide 6 text

本研究の⽴ち位置事例ベース × ニューラル 6 ニューラル⾮ニューラル重みベース事例ベース特徴抽出予測 Ouchi+’20 Wiseman+’19 Ouchi+’21 Zhang+’17 Kulmizev+’19 Dozat+’18 他多数他多数 Yamada& Matsumoto’03 Nivre’03 Nivre’04 MacDonald+’05 Daelemans’05 Daelemans’99 他多数 n 解析タスクの既存研究をざっくり分けると... こちらから説明

Slide 7

Slide 7 text

ソフトマックス層の復習各ラベル(クラス)の確⽴分布を計算 7 Franz1 Kafka2 came3 Feature Extractor dot dot dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率スコア (ロジット) wB wI wO Softmax n 重み⾏列Wの各⾏ベクトルは 1つのラベル(クラス)に紐づく（重みベクトルと呼ぶ）特徴ベクトル Franz1 はBラベルが正解 Kafka2 はIラベルが正解 Came3 はOラベルが正解

Slide 8

Slide 8 text

スコア(ロジット)は次のように解釈できるラベルベクトルと特徴ベクトルの類似度 8 Franz1 Kafka2 came3 Feature Extractor dot dot dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率スコア (ロジット) wB wI wO Softmax n 各ラベルの重みベクトル w の代わりに学習事例の特徴ベクトル h を使うと… (我々の)事例ベースモデルベクトル空間上で可視化 h1 3.4 -0.2 1.7 wB wI wO 特徴ベクトル

Slide 9

Slide 9 text

提案する事例ベースモデル事例間類似度を利⽤して解釈性向上をねらう 9 スコアを学習事例との類似度に分解 Ø 各学習事例のスコアへの貢献度がわかる重みベースモデル (Weight-based Model) 各ラベルの重みベクトルを利⽤ h1 Barack Obama was born … I Franz Liszt played … B They had to … O 5.3 2.4 1.9 2.2 2.4+2.2+5.3+1.9=11.8 ラベルB のスコア (我々の)事例ベースモデル (Instance-based Model) h1 3.4 -0.2 1.7 wB wI wO 学習事例の特徴ベクトルを利⽤

Slide 10

Slide 10 text

「単語・句」から「関係」へ依存構造解析に取り組む 10 ROOT0 Kafka1 wrote2 novels3 w h2,3 h1,3 h0,3 n 主辞選択問題(Head Selection Approach) [Zhang+, EACL2017] [Dozat&Manning, ICLR2017] Ø 各単語の主辞(係り元; head)を当てる問題 Feature Extractor 重みベースモデル (Weight-based Model) (我々の)事例ベースモデル (Instance-based Model) ROOT0 Kafka1 wrote2 novels3 h2,3 h1,3 h0,3 Feature Extractor … wrote books … 6.1 4.3 2.8 3.2 2.8+4.3+6.1+3.2=16.4 write2 →novels3 のスコア 8.9 0.9 2.1 novels3 の主辞を予測する場合

Slide 11

Slide 11 text

事例ベースモデルの学習ミニバッチの作り⽅がいつもと少し違う 11 n 各ミニバッチは2種類の⽂から構成される n Qu ery ( クエリ ) n Sup p o rt ( サポート ) 𝒟 学習データ ROOT Kafka wrote novels ROOT Because I have … ROOT John loves Mary ROOT She wrote books ・・・・・・ Support Random Sampling Query ミニバッチ (32 sents) (10 sents) Feature Extractor (BERT + BiLSTM) h2,3 h1,3 h0,3 正解エッジに近づく不正解エッジから離れる n 損失関数はいつものクロスエントロピー

Slide 12

Slide 12 text

モデルを評価する実験の概要 12 n ⽬的①：予測性能の評価 n 背景：重みベースモデルと同等の予測性能を事例ベースモデルで達成することは容易ではないという⽰唆がある [ W i s e m a n + , A C L 2 0 1 9 ] n 結果：事例ベースモデル ( 提案モデル ) は重みベースモデル（ベースライン）と同等の予測性能を記録 n ⽬的②：解釈性の評価 n 背景：そもそも解釈性の評価⽅法はオープンクエスション。本研究では [ Han awa+ I CL R20 21] で提案されている⽅法で評価 ( 後ほど詳述 ) n 結果 ① ：事例ベースモデルをコサイン類似度と組み合わせたときに最低限の解釈妥当性を満たす事例を予測根拠として提⽰可能 n 結果 ② ：内積を利⽤すると「ハブ」と呼ばれる現象が発⽣して解釈妥当性を⼤きく損なうことが判明

Slide 13

Slide 13 text

モデルを評価する実験の詳細 13 n ⽐較モデル n ベースライン：重みベースモデル n 提案モデル：事例ベースモデル n 類似度関数 n 内積(dot) n コサイン類似度(cos) n 特徴抽出器 n Multilingual BERT + BiLSTL Layers n データセット n Universal Dependencies Ver.2.7 n 13⾔語の平均正解率を報告する

Slide 14

Slide 14 text

予測性能の評価どちらのモデルも同等の予測性能 14 Model Sim Accuracy Weight-based dot 89.1 cos 89.0 Instance-based dot 89.3 cos 89.1 keep keep 予測性能はほぼほぼキープできた

Slide 15

Slide 15 text

解釈性を評価する前に… 「解釈性」という⽤語の曖昧性について 15 Faithfulness (忠実性) Does the explanation accurately describes the true reasoning process of the model? Plausibility (妥当性) Is it convincing as an explanation to the interpreted process? n モデルの設計上、我々のモデルは学習事例を⽤いて「忠実」な説明が可能 n 残すは「妥当性」だが、どうやって定量的に評価するの？ n 「解釈性」の2つの側⾯ [Jacovi&Goldberg, ACL2020]

Slide 16

Slide 16 text

解釈妥当性を評価するための健全性テスト(Sanity Check) Identical Subclass Test (IST) 16 The similar instance for evidence should belong to the same latent subclass as that of the test instance Minimal Requirement Measure agreement between the latent subclasses of each predicted instance and its nearest training instance Sanity Check n 解釈妥当性の評価はオープンクエスション n ⼿ごろなアプローチが提案された[Hanawa+, ICLR2021] wrote novels ✔ This candidate “wrote → novels” is a dependency because it is similar to “published → books” TEST obj published books TRAIN obj wrote novels TEST ✖ obj the novels TRAIN det This candidate “wrote → novels” is a dependency because it is similar to “novels → the”

Slide 17

Slide 17 text

ISTの直感的な説明依存構造解析におけるIST 17 ROOT If they continue エッジ(開発データ) to … If you want to … 最近傍のエッジ(学習データ) ROOT 同じだったら正解 mark mark n 各エッジ(開発データ)とその最近傍のエッジ(学習データ)の潜在サブクラスの⼀致率を測定する

Slide 18

Slide 18 text

ISTの結果コサインは良い、内積は悪い 18 Cosine is much better than Dot Instance-Based Model is better than Weight-Based Model コサイン類似度と組み合わせた事例ベースモデルは「妥当」な学習事例を予測根拠として提⽰可能な場合が多い

Slide 19

Slide 19 text

分析：なぜ「内積(dot)」はうまく機能していないのか？「ハブ」が悪さをしているから 19 エッジ ( 開発データ ) 最近傍ベスト 3 事例ベース＋ d o t 最近傍ベスト 3 事例ベース＋ c o s どれも同じような学習事例が近傍に来ている Ø 「ハブ ( h u b s ) 」の出現 A small number of specific training instances that often appear in the neighborhood regardless of queries [Radovanovic et al., JMLR2010]

Slide 20

Slide 20 text

「ハブ」に関する議論なぜ「ハブ」は出現するのか？ 20 n 特徴ベクトルのノルムが深く関係してそう n 実験においても、ハブとなっている事例の特徴ベクトルのノルムは極端に⼤きかった n コサイン類似度を使うときはノルムを正規化する(1にする)のでハブが抑制された可能性 n 今後詳しく調べられるといい

Slide 21

Slide 21 text

事例ベース依存構造解析まとめ 21 学習事例との類似度に基づいて依存構造を予測するモデルを提案今後の課題①：他のタスクにも広げる？今後の課題②：「ハブ」の発⽣原因の詳しい調査 n 予測性能 n 解釈忠実性 n 解釈妥当性 □ □ □ ✔ 最低限の要件は満たす模様 ✔ ▲ 重みベースモデルと同等忠実な予測根拠を提⽰可能

Slide 22

Slide 22 text

追加で他に⾯⽩そうな今後の⽅向性 22 Figure 1 in [Carbonnelle&Vleeschouwer, ICLR2021] Figure 1 in [Qian+, ICCV2019] n Intraclass Clustering & Variance n 各クラスの教師信号のみを使ってクラス内の適切なクラスタ ( 潜在サブクラス ) を捉えられるような表現学習 n Instance-based/Contrastive Learningで予測性能勝負 n Few- Sh o t Setti n g sなどで効果を発揮する模様

Slide 23

Slide 23 text

もし何か興味が重なればぜひ共同研究をしましょう [email protected]