Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Instance-Based Neural Dependency Parsing

Hiroki Ouchi
December 18, 2021

Instance-Based Neural Dependency Parsing

NLPコロキウム( https://nlp-colloquium-jp.github.io/schedule/2021-12-01_hiroki-ouchi/ )で使用した発表スライド(一部修正版)

Hiroki Ouchi

December 18, 2021
Tweet

More Decks by Hiroki Ouchi

Other Decks in Research

Transcript

  1. Instance-Based
    Neural Dependency Parsing
    ⼤内啓樹1,3 鈴⽊潤2,3 ⼩林颯介2,4
    横井祥2,3 栗林樹⽣2,5 吉川将司2,3 乾健太郎2,3
    1奈 良 先 端 科 学 技 術 ⼤ 学 院 ⼤ 学 2東 北 ⼤ 学 3理 化 学 研 究 所
    4株 式 会 社 P r e f e r r e d N e t w o r k s 5L a n g s m i t h 株 式 会 社
    1 2 /0 1 N L P コ ロキ ウム

    View Slide

  2. 研究の出発点
    「なぜこんな予測に?」
    2
    「モデルの予測根拠がわかりやすいといいなあ」
    細い 猫の ⽬
    海辺 の カフカ
    O
    固有表現
    ニューラルモデル
    依存構造
    ニューラルモデル
    O B
    B I I
    正解:
    ⼊⼒:
    予測:
    ⼊⼒:
    予測:
    正解:

    View Slide

  3. 今回は「事例ベース」の⼿法に着⽬
    「事例ベース」モデルのイメージ
    3
    学習事例との類似性に基づいて予測
    Ø 予測根拠を学習事例にもとめられる

    View Slide

  4. 「事例ベース」っぽい⼿法はいろいろある
    「事例ベース」に関連するキーワード
    4
    n 「instance-based」「example-based」「memory-based」
    n “Instance-based learning algorithms” Aha et al. 1991.
    n “Example-based machine translation” Sato. 1992.
    n “Memory-based language processing” Daelemans. 2005
    n 「nearest neighbor」
    n “Nearest neighbor machine translation” Khandelwal et al. 2020
    n “Nearest neighbor language models” Khandelwal et al. 2019
    n 「contrastive learning」

    View Slide

  5. 最近の流⾏を考える
    「事例ベース」って⼈気あるの?
    5
    n ACL Anthology にて「instance-based」で検索
    n ACL2021 (2021年8⽉開催) でのヒット件数は0
    n EMNLP2021 (2021年11⽉開催) でのヒット件数はまたも0
    n 「contrastive learning」で検索
    n 1年で6倍に
    n 2022年には108に増える⾒込み
    0
    3
    11
    18
    0
    5
    10
    15
    20
    ACL2020 EMNLP2020 ACL2021 EMNLP2021
    「contrastive learning」でのヒット件数

    View Slide

  6. 本研究の⽴ち位置
    事 例ベー ス × ニ ュー ラ ル
    6
    ニューラル
    ⾮ニューラル
    重みベース
    事例ベース
    特徴抽出
    予測
    Ouchi+’20
    Wiseman+’19
    Ouchi+’21
    Zhang+’17
    Kulmizev+’19
    Dozat+’18
    他多数
    他多数
    Yamada&
    Matsumoto’03
    Nivre’03
    Nivre’04
    MacDonald+’05
    Daelemans’05
    Daelemans’99
    他多数
    n 解析タスクの既存研究をざっくり分けると...
    こちらから
    説明

    View Slide

  7. ソフトマックス層の復習
    各ラベル(クラス)の確⽴分布を計算
    7
    Franz1
    Kafka2
    came3
    Feature Extractor
    dot dot dot
    h1
    h2
    h3
    W
    3.4
    1.7
    -0.2
    B 0.6 0.2 0.0
    I 0.3 0.7 0.1
    O 0.1 0.1 0.9
    B
    I
    O
    0.9
    2.1
    -0.6
    -6.2
    -3.1
    5.8
    確率
    スコア
    (ロジット)
    wB
    wI
    wO
    Softmax
    n 重み⾏列Wの各⾏ベクトルは
    1つのラベル(クラス)に紐づく
    (重みベクトルと呼ぶ)
    特徴
    ベクトル
    Franz1
    はBラベルが正解
    Kafka2
    はIラベルが正解
    Came3
    はOラベルが正解

    View Slide

  8. スコア(ロジット)は次のように解釈できる
    ラベルベクトルと特徴ベクトルの類似度
    8
    Franz1
    Kafka2
    came3
    Feature Extractor
    dot dot dot
    h1
    h2
    h3
    W
    3.4
    1.7
    -0.2
    B 0.6 0.2 0.0
    I 0.3 0.7 0.1
    O 0.1 0.1 0.9
    B
    I
    O
    0.9
    2.1
    -0.6
    -6.2
    -3.1
    5.8
    確率
    スコア
    (ロジット)
    wB
    wI
    wO
    Softmax
    n 各ラベルの重みベクトル w の代わりに
    学習事例の特徴ベクトル h を使うと…
    (我々の)事例ベースモデル
    ベ ク ト ル
    空 間 上 で
    可 視 化
    h1
    3.4
    -0.2
    1.7
    wB
    wI
    wO
    特徴
    ベクトル

    View Slide

  9. 提案する事例ベースモデル
    事例間類似度を利⽤して解釈性向上をねらう
    9
    スコアを学習事例との類似度に分解
    Ø 各学習事例のスコアへの貢献度がわかる
    重みベースモデル
    (Weight-based Model)
    各ラベルの重みベクトルを利⽤
    h1
    Barack Obama was born …
    I
    Franz Liszt played …
    B
    They had to …
    O
    5.3
    2.4
    1.9
    2.2
    2.4+2.2+5.3+1.9=11.8
    ラベルB
    のスコア
    (我々の)事例ベースモデル
    (Instance-based Model)
    h1
    3.4
    -0.2
    1.7
    wB
    wI
    wO
    学 習事 例 の 特 徴
    ベ クト ル を 利 ⽤

    View Slide

  10. 「単語・句」から「関係」へ
    依存構造解析に取り組む
    10
    ROOT0
    Kafka1
    wrote2
    novels3
    w
    h2,3
    h1,3
    h0,3
    n 主辞選択問題(Head Selection Approach) [Zhang+, EACL2017] [Dozat&Manning, ICLR2017]
    Ø 各単語の主辞(係り元; head)を当てる問題
    Feature Extractor
    重みベースモデル
    (Weight-based Model)
    (我々の)事例ベースモデル
    (Instance-based Model)
    ROOT0
    Kafka1
    wrote2
    novels3
    h2,3
    h1,3
    h0,3
    Feature Extractor
    … wrote books …
    6.1
    4.3
    2.8
    3.2
    2.8+4.3+6.1+3.2=16.4
    write2
    →novels3
    のスコア
    8.9
    0.9
    2.1
    novels3
    の主辞
    を予測する場合

    View Slide

  11. 事例ベースモデルの学習
    ミニバッチの作り⽅がいつもと少し違う
    11
    n 各ミニバッチは2種類の⽂から構成される
    n Qu ery ( クエ リ )
    n Sup p o rt ( サ ポー ト )
    𝒟 学習データ
    ROOT Kafka wrote novels
    ROOT Because I have …
    ROOT John loves Mary
    ROOT She wrote books
    ・・・
    ・・・
    Support
    Random
    Sampling
    Query
    ミニバッチ
    (32 sents)
    (10 sents)
    Feature Extractor
    (BERT + BiLSTM)
    h2,3
    h1,3 h0,3
    正解エッジ
    に近づく
    不正解エッジ
    から離れる
    n 損失関数はいつものクロスエントロピー

    View Slide

  12. モデルを評価する
    実験の概要
    12
    n ⽬的①:予測性能の評価
    n 背 景:重 み ベー ス モ デル と 同 等 の 予 測 性能 を 事例 ベー スモ デル で 達成 する
    こ とは 容易 では な い とい う ⽰ 唆 が あ る [ W i s e m a n + , A C L 2 0 1 9 ]
    n 結 果:事 例 ベー ス モ デル ( 提 案 モ デル ) は 重 み ベー スモ デル( ベー スライン )
    と 同 等 の 予測 性 能 を 記 録
    n ⽬的②:解釈性の評価
    n 背 景:そ も そも解 釈 性 の評 価 ⽅ 法 はオ ープ ン クエスション。本研究では
    [ Han awa+ I CL R20 21] で 提 案さ れ てい る⽅法 で評 価 ( 後ほ ど詳 述 )
    n 結 果 ① :事 例 ベ ース モ デル をコサ イン 類似度 と組 み合 わせたときに 最低 限
    の 解釈妥 当 性を満 た す 事例 を 予 測 根拠 とし て 提⽰可能
    n 結 果 ② :内 積 を 利⽤ す ると 「 ハ ブ 」 と 呼ばれ る現 象が発 ⽣し て解釈 妥当 性
    を ⼤きく 損 なうこ と が 判明

    View Slide

  13. モデルを評価する
    実験の詳細
    13
    n ⽐較モデル
    n ベースライン:重みベースモデル
    n 提案モデル:事例ベースモデル
    n 類似度関数
    n 内積(dot)
    n コサイン類似度(cos)
    n 特徴抽出器
    n Multilingual BERT + BiLSTL Layers
    n データセット
    n Universal Dependencies Ver.2.7
    n 13⾔語の平均正解率を報告する

    View Slide

  14. 予測性能の評価
    どちらのモデルも同等の予測性能
    14
    Model Sim Accuracy
    Weight-based
    dot 89.1
    cos 89.0
    Instance-based
    dot 89.3
    cos 89.1 keep
    keep
    予測性能はほぼほぼキープできた

    View Slide

  15. 解釈性を評価する前に…
    「解釈性」という⽤語の曖昧性について
    15
    Faithfulness (忠実性)
    Does the explanation accurately describes
    the true reasoning process of the model?
    Plausibility (妥当性)
    Is it convincing as an explanation to
    the interpreted process?
    n モデルの設計上、我々のモデルは学習事例を⽤いて「忠実」な説明が可能
    n 残すは「妥当性」だが、どうやって定量的に評価するの?
    n 「解釈性」の2つの側⾯ [Jacovi&Goldberg, ACL2020]

    View Slide

  16. 解釈妥当性を評価するための健全性テスト(Sanity Check)
    Identical Subclass Test (IST)
    16
    The similar instance for evidence should
    belong to the same latent subclass as
    that of the test instance
    Minimal Requirement
    Measure agreement between the latent
    subclasses of each predicted instance
    and its nearest training instance
    Sanity Check
    n 解釈妥当性の評価はオープンクエスション
    n ⼿ごろなアプローチが提案された[Hanawa+, ICLR2021]
    wrote novels

    This candidate “wrote → novels” is a dependency
    because it is similar to “published → books”
    TEST obj
    published books
    TRAIN obj
    wrote novels
    TEST
    ✖ obj
    the novels
    TRAIN det
    This candidate “wrote → novels” is a dependency
    because it is similar to “novels → the”

    View Slide

  17. ISTの直感的な説明
    依存構造解析におけるIST
    17
    ROOT If they continue
    エッジ(開発データ)
    to …
    If you want to …
    最近傍のエッジ(学習データ)
    ROOT
    同じだったら正解
    mark
    mark
    n 各エッジ(開発データ)とその最近傍のエッジ(学習データ)の
    潜在サブクラスの⼀致率を測定する

    View Slide

  18. ISTの結果
    コサインは良い、内積は悪い
    18
    Cosine is much better than Dot
    Instance-Based Model is better
    than Weight-Based Model
    コサイン類似度と組み合わせた事例ベースモデルは
    「妥当」な学習事例を予測根拠として提⽰可能な場合が多い

    View Slide

  19. 分析:なぜ「内積(dot)」はうまく機能していないのか?
    「ハブ」が悪さをしているから
    19
    エ ッ ジ
    ( 開 発 デ ー タ )
    最 近 傍 ベ ス ト 3
    事 例 ベ ー ス + d o t
    最 近 傍 ベ ス ト 3
    事 例 ベ ー ス + c o s
    ど れ も 同 じ よ う な 学 習 事 例
    が 近 傍 に 来 て い る
    Ø 「 ハ ブ ( h u b s ) 」 の 出 現
    A small number of specific
    training instances that often
    appear in the neighborhood
    regardless of queries
    [Radovanovic et al., JMLR2010]

    View Slide

  20. 「ハブ」に関する議論
    なぜ「ハブ」は出現するのか?
    20
    n 特徴ベクトルのノルムが深く関係してそう
    n 実験においても、ハブとなっている事例の特徴ベクトルのノルム
    は極端に⼤きかった
    n コサイン類似度を使うときはノルムを正規化する(1にする)ので
    ハブが抑制された可能性
    n 今後詳しく調べられるといい

    View Slide

  21. 事例ベース依存構造解析
    まとめ
    21
    学習事例との類似度に基づいて
    依存構造を予測するモデルを提案
    今後の課題①:他のタスクにも広げる?
    今後の課題②:「ハブ」の発⽣原因の詳しい調査
    n 予測性能
    n 解釈忠実性
    n 解釈妥当性




    最低限の要件は満たす模様


    重みベースモデルと同等
    忠実な予測根拠を提⽰可能

    View Slide

  22. 追加で
    他に⾯⽩そうな今後の⽅向性
    22
    Figure 1 in [Carbonnelle&Vleeschouwer, ICLR2021] Figure 1 in [Qian+, ICCV2019]
    n Intraclass Clustering & Variance
    n 各 クラ ス の 教 師信 号 の みを 使 っ てク ラ ス 内 の適切 なクラ スタ
    ( 潜在 サ ブクラ ス ) を 捉 え られ る よ う な 表 現学 習
    n Instance-based/Contrastive Learningで予測性能勝負
    n Few- Sh o t Setti n g sな ど で 効 果 を 発 揮 する 模様

    View Slide

  23. もし何か興味が重なれば
    ぜひ共同研究をしましょう
    [email protected]

    View Slide