Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Instance-Based Neural Dependency Parsing

2c204cedbe74b85d8fe2494ce9bd846c?s=47 Hiroki Ouchi
December 18, 2021

Instance-Based Neural Dependency Parsing

NLPコロキウム( https://nlp-colloquium-jp.github.io/schedule/2021-12-01_hiroki-ouchi/ )で使用した発表スライド(一部修正版)

2c204cedbe74b85d8fe2494ce9bd846c?s=128

Hiroki Ouchi

December 18, 2021
Tweet

More Decks by Hiroki Ouchi

Other Decks in Research

Transcript

  1. Instance-Based Neural Dependency Parsing ⼤内啓樹1,3 鈴⽊潤2,3 ⼩林颯介2,4 横井祥2,3 栗林樹⽣2,5 吉川将司2,3

    乾健太郎2,3 1奈 良 先 端 科 学 技 術 ⼤ 学 院 ⼤ 学 2東 北 ⼤ 学 3理 化 学 研 究 所 4株 式 会 社 P r e f e r r e d N e t w o r k s 5L a n g s m i t h 株 式 会 社 1 2 /0 1 N L P コ ロキ ウム
  2. 研究の出発点 「なぜこんな予測に?」 2 「モデルの予測根拠がわかりやすいといいなあ」 細い 猫の ⽬ 海辺 の カフカ

    O 固有表現 ニューラルモデル 依存構造 ニューラルモデル O B B I I 正解: ⼊⼒: 予測: ⼊⼒: 予測: 正解:
  3. 今回は「事例ベース」の⼿法に着⽬ 「事例ベース」モデルのイメージ 3 学習事例との類似性に基づいて予測 Ø 予測根拠を学習事例にもとめられる

  4. 「事例ベース」っぽい⼿法はいろいろある 「事例ベース」に関連するキーワード 4 n 「instance-based」「example-based」「memory-based」 n “Instance-based learning algorithms” Aha

    et al. 1991. n “Example-based machine translation” Sato. 1992. n “Memory-based language processing” Daelemans. 2005 n 「nearest neighbor」 n “Nearest neighbor machine translation” Khandelwal et al. 2020 n “Nearest neighbor language models” Khandelwal et al. 2019 n 「contrastive learning」
  5. 最近の流⾏を考える 「事例ベース」って⼈気あるの? 5 n ACL Anthology にて「instance-based」で検索 n ACL2021 (2021年8⽉開催)

    でのヒット件数は0 n EMNLP2021 (2021年11⽉開催) でのヒット件数はまたも0 n 「contrastive learning」で検索 n 1年で6倍に n 2022年には108に増える⾒込み 0 3 11 18 0 5 10 15 20 ACL2020 EMNLP2020 ACL2021 EMNLP2021 「contrastive learning」でのヒット件数
  6. 本研究の⽴ち位置 事 例ベー ス × ニ ュー ラ ル 6

    ニューラル ⾮ニューラル 重みベース 事例ベース 特徴抽出 予測 Ouchi+’20 Wiseman+’19 Ouchi+’21 Zhang+’17 Kulmizev+’19 Dozat+’18 他多数 他多数 Yamada& Matsumoto’03 Nivre’03 Nivre’04 MacDonald+’05 Daelemans’05 Daelemans’99 他多数 n 解析タスクの既存研究をざっくり分けると... こちらから 説明
  7. ソフトマックス層の復習 各ラベル(クラス)の確⽴分布を計算 7 Franz1 Kafka2 came3 Feature Extractor dot dot

    dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率 スコア (ロジット) wB wI wO Softmax n 重み⾏列Wの各⾏ベクトルは 1つのラベル(クラス)に紐づく (重みベクトルと呼ぶ) 特徴 ベクトル Franz1 はBラベルが正解 Kafka2 はIラベルが正解 Came3 はOラベルが正解
  8. スコア(ロジット)は次のように解釈できる ラベルベクトルと特徴ベクトルの類似度 8 Franz1 Kafka2 came3 Feature Extractor dot dot

    dot h1 h2 h3 W 3.4 1.7 -0.2 B 0.6 0.2 0.0 I 0.3 0.7 0.1 O 0.1 0.1 0.9 B I O 0.9 2.1 -0.6 -6.2 -3.1 5.8 確率 スコア (ロジット) wB wI wO Softmax n 各ラベルの重みベクトル w の代わりに 学習事例の特徴ベクトル h を使うと… (我々の)事例ベースモデル ベ ク ト ル 空 間 上 で 可 視 化 h1 3.4 -0.2 1.7 wB wI wO 特徴 ベクトル
  9. 提案する事例ベースモデル 事例間類似度を利⽤して解釈性向上をねらう 9 スコアを学習事例との類似度に分解 Ø 各学習事例のスコアへの貢献度がわかる 重みベースモデル (Weight-based Model) 各ラベルの重みベクトルを利⽤

    h1 Barack Obama was born … I Franz Liszt played … B They had to … O 5.3 2.4 1.9 2.2 2.4+2.2+5.3+1.9=11.8 ラベルB のスコア (我々の)事例ベースモデル (Instance-based Model) h1 3.4 -0.2 1.7 wB wI wO 学 習事 例 の 特 徴 ベ クト ル を 利 ⽤
  10. 「単語・句」から「関係」へ 依存構造解析に取り組む 10 ROOT0 Kafka1 wrote2 novels3 w h2,3 h1,3

    h0,3 n 主辞選択問題(Head Selection Approach) [Zhang+, EACL2017] [Dozat&Manning, ICLR2017] Ø 各単語の主辞(係り元; head)を当てる問題 Feature Extractor 重みベースモデル (Weight-based Model) (我々の)事例ベースモデル (Instance-based Model) ROOT0 Kafka1 wrote2 novels3 h2,3 h1,3 h0,3 Feature Extractor … wrote books … 6.1 4.3 2.8 3.2 2.8+4.3+6.1+3.2=16.4 write2 →novels3 のスコア 8.9 0.9 2.1 novels3 の主辞 を予測する場合
  11. 事例ベースモデルの学習 ミニバッチの作り⽅がいつもと少し違う 11 n 各ミニバッチは2種類の⽂から構成される n Qu ery ( クエ

    リ ) n Sup p o rt ( サ ポー ト ) 𝒟 学習データ ROOT Kafka wrote novels ROOT Because I have … ROOT John loves Mary ROOT She wrote books ・・・ ・・・ Support Random Sampling Query ミニバッチ (32 sents) (10 sents) Feature Extractor (BERT + BiLSTM) h2,3 h1,3 h0,3 正解エッジ に近づく 不正解エッジ から離れる n 損失関数はいつものクロスエントロピー
  12. モデルを評価する 実験の概要 12 n ⽬的①:予測性能の評価 n 背 景:重 み ベー

    ス モ デル と 同 等 の 予 測 性能 を 事例 ベー スモ デル で 達成 する こ とは 容易 では な い とい う ⽰ 唆 が あ る [ W i s e m a n + , A C L 2 0 1 9 ] n 結 果:事 例 ベー ス モ デル ( 提 案 モ デル ) は 重 み ベー スモ デル( ベー スライン ) と 同 等 の 予測 性 能 を 記 録 n ⽬的②:解釈性の評価 n 背 景:そ も そも解 釈 性 の評 価 ⽅ 法 はオ ープ ン クエスション。本研究では [ Han awa+ I CL R20 21] で 提 案さ れ てい る⽅法 で評 価 ( 後ほ ど詳 述 ) n 結 果 ① :事 例 ベ ース モ デル をコサ イン 類似度 と組 み合 わせたときに 最低 限 の 解釈妥 当 性を満 た す 事例 を 予 測 根拠 とし て 提⽰可能 n 結 果 ② :内 積 を 利⽤ す ると 「 ハ ブ 」 と 呼ばれ る現 象が発 ⽣し て解釈 妥当 性 を ⼤きく 損 なうこ と が 判明
  13. モデルを評価する 実験の詳細 13 n ⽐較モデル n ベースライン:重みベースモデル n 提案モデル:事例ベースモデル n

    類似度関数 n 内積(dot) n コサイン類似度(cos) n 特徴抽出器 n Multilingual BERT + BiLSTL Layers n データセット n Universal Dependencies Ver.2.7 n 13⾔語の平均正解率を報告する
  14. 予測性能の評価 どちらのモデルも同等の予測性能 14 Model Sim Accuracy Weight-based dot 89.1 cos

    89.0 Instance-based dot 89.3 cos 89.1 keep keep 予測性能はほぼほぼキープできた
  15. 解釈性を評価する前に… 「解釈性」という⽤語の曖昧性について 15 Faithfulness (忠実性) Does the explanation accurately describes

    the true reasoning process of the model? Plausibility (妥当性) Is it convincing as an explanation to the interpreted process? n モデルの設計上、我々のモデルは学習事例を⽤いて「忠実」な説明が可能 n 残すは「妥当性」だが、どうやって定量的に評価するの? n 「解釈性」の2つの側⾯ [Jacovi&Goldberg, ACL2020]
  16. 解釈妥当性を評価するための健全性テスト(Sanity Check) Identical Subclass Test (IST) 16 The similar instance

    for evidence should belong to the same latent subclass as that of the test instance Minimal Requirement Measure agreement between the latent subclasses of each predicted instance and its nearest training instance Sanity Check n 解釈妥当性の評価はオープンクエスション n ⼿ごろなアプローチが提案された[Hanawa+, ICLR2021] wrote novels ✔ This candidate “wrote → novels” is a dependency because it is similar to “published → books” TEST obj published books TRAIN obj wrote novels TEST ✖ obj the novels TRAIN det This candidate “wrote → novels” is a dependency because it is similar to “novels → the”
  17. ISTの直感的な説明 依存構造解析におけるIST 17 ROOT If they continue エッジ(開発データ) to …

    If you want to … 最近傍のエッジ(学習データ) ROOT 同じだったら正解 mark mark n 各エッジ(開発データ)とその最近傍のエッジ(学習データ)の 潜在サブクラスの⼀致率を測定する
  18. ISTの結果 コサインは良い、内積は悪い 18 Cosine is much better than Dot Instance-Based

    Model is better than Weight-Based Model コサイン類似度と組み合わせた事例ベースモデルは 「妥当」な学習事例を予測根拠として提⽰可能な場合が多い
  19. 分析:なぜ「内積(dot)」はうまく機能していないのか? 「ハブ」が悪さをしているから 19 エ ッ ジ ( 開 発 デ

    ー タ ) 最 近 傍 ベ ス ト 3 事 例 ベ ー ス + d o t 最 近 傍 ベ ス ト 3 事 例 ベ ー ス + c o s ど れ も 同 じ よ う な 学 習 事 例 が 近 傍 に 来 て い る Ø 「 ハ ブ ( h u b s ) 」 の 出 現 A small number of specific training instances that often appear in the neighborhood regardless of queries [Radovanovic et al., JMLR2010]
  20. 「ハブ」に関する議論 なぜ「ハブ」は出現するのか? 20 n 特徴ベクトルのノルムが深く関係してそう n 実験においても、ハブとなっている事例の特徴ベクトルのノルム は極端に⼤きかった n コサイン類似度を使うときはノルムを正規化する(1にする)ので

    ハブが抑制された可能性 n 今後詳しく調べられるといい
  21. 事例ベース依存構造解析 まとめ 21 学習事例との類似度に基づいて 依存構造を予測するモデルを提案 今後の課題①:他のタスクにも広げる? 今後の課題②:「ハブ」の発⽣原因の詳しい調査 n 予測性能 n

    解釈忠実性 n 解釈妥当性 □ □ □ ✔ 最低限の要件は満たす模様 ✔ ▲ 重みベースモデルと同等 忠実な予測根拠を提⽰可能
  22. 追加で 他に⾯⽩そうな今後の⽅向性 22 Figure 1 in [Carbonnelle&Vleeschouwer, ICLR2021] Figure 1

    in [Qian+, ICCV2019] n Intraclass Clustering & Variance n 各 クラ ス の 教 師信 号 の みを 使 っ てク ラ ス 内 の適切 なクラ スタ ( 潜在 サ ブクラ ス ) を 捉 え られ る よ う な 表 現学 習 n Instance-based/Contrastive Learningで予測性能勝負 n Few- Sh o t Setti n g sな ど で 効 果 を 発 揮 する 模様
  23. もし何か興味が重なれば ぜひ共同研究をしましょう hiroki.ouchi@is.naist.jp