Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP勉強会2024: TTM-RE Memory-Augmented Document...

Ryuki Ida
August 25, 2024
100

最先端NLP勉強会2024: TTM-RE Memory-Augmented Document-Level Relation Extraction

Ryuki Ida

August 25, 2024
Tweet

Transcript

  1. ※図表は論文より引用 TTM-RE: Memory-Augmented Document-Level Relation Extraction 著者:Chufan Gao1 , Xuan

    Wang2†, Jimeng Sun13† (1University of Illinois Urbana-Champaign 2Virginia Tech 3Carle Illinois College of Medicine) @ACL2024 読み手:井田龍希(豊田工業大学 知識データ工学研究室 D1) 2024/8/26 第16回最先端NLP勉強会 1
  2. まとめ • 文書レベル関係抽出において,初めてメモリを導入したモデルを提案 • メモリは学習されるパラメタ,エンティティ表現にメモリの情報を追加 • メモリは多様なエンティティに共通する汎用的な表現を表すようになる? • 遠距離教師データを効果的に活用し,大幅な性能向上を実現 •

    著者の主張:「遠距離教師データを上手く使うためにメモリ機構を導入」 • 実際は逆?メモリを入れたら,遠距離教師データで上手くいくことが分かった? • 少ないメモリで表現するため,重要な部分だけが残り,ノイズ除去できている? • 本論文の選定理由 • 疑問が残る部分もあるが,メモリ機構の導入のみで遠距離教師データを上手く活用 • 遠距離教師データの作成コストは低いので,他のタスクにも応用しやすい 2024/8/26 第16回最先端NLP勉強会 2
  3. ベースモデル 1. メンションの前後にマーカー(*)を挿入した文書全体をエンコード 2. エンティティ表現の作成 • 前方マーカーの埋め込みをメンション表現として使用 • 複数のメンション表現をプーリングしてエンティティ表現を作成 3.

    関係分類:エンティティ表現のペアを用いて関係を分類 2024/8/26 第16回最先端NLP勉強会 [Zhou et al., Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling, AAAI2021] 提案手法ではエンティティ表現に メモリの情報を追加 5 ※エンティティペアごとにエンコードは大変なので
  4. 提案手法の概要 • 文書レベル関係抽出のベースモデルに学習可能なメモリを追加 • メモリには,CV分野で提案されたToken Turing Machine (TTM) を採用 •

    文書をエンコードして獲得したエンティティ表現にメモリの情報を追加 • メモリ導入の意図:多様なエンティティに共通する汎用的な表現を学習? 2024/8/26 第16回最先端NLP勉強会 この手法が遠距離教師データを効果的に 活用できると考えた動機や理由は曖昧 ※ RoBERTa 6 メモリはn個のトークンから成る (実験ではn = 200)
  5. TTM|メモリからの読み込み • メモリはエンティティ表現と同じ次元のn個のトークンで構成される • 入力(エンティティ表現のペア)とメモリの要約として実現される • 必要なのはメモリの一部の情報 + 既にメモリにある情報を考慮すると入力は冗長 •

    入力部分とメモリ部分を区別するため学習可能な位置埋め込みの追加 2024/8/26 第16回最先端NLP勉強会 [Ryoo et al., Token Turing Machines, CVPR2023 8 メモリの情報を追加したエンティティ表現を 利用して関係分類 メモリは関係分類のロスのみで更新される
  6. TTM|メモリの要約 • 入力 V:n個のメモリトークンとエンティティ表現のペア • 出力 Z:メモリの情報を追加したエンティティ表現のペア 1. 入力 V

    から各トークンの重要度を計算 2. 出力のi番目のトークンは重み付け和で計算される 2024/8/26 第16回最先端NLP勉強会 9 (M : メモリ,I : エンティティ表現のペア)
  7. 実験設定|概要 • 提案手法のベースはATLOP + SSR-PU • 評価指標:適合率,再現率,F値 • 5回の異なる乱数シードで実行し標準偏差を算出 •

    データセット • ReDocRED:文書レベル関係抽出のベンチマーク • 大量の遠距離教師データが用意されている • ChemDisGene:生物医学ドメインのデータセット • 学習データが遠距離教師データのみ 2024/8/26 第16回最先端NLP勉強会 11 ReDocREDの統計 ChemDisGeneの統計
  8. 実験設定|データの使用設定 • ReDocRED • Original (Human Annotation Only):教師データのみで学習 • 比較手法:ATLOP,DREEAM,KD-DocRE,SSR-PU

    • Distant Only:遠距離教師データのみで学習 • 比較手法:SSR-PU • Human + Distant:両方のデータで学習 • 比較手法:上記のすべてのモデル • ChemDisGen • 学習データが遠距離教師データなので,Distant Onlyに相当する設定のみ • 比較手法:BRAN,PubmedBert ,PubmedBert + BRAN,ATLOP, SSR-PUの論文の各バリエーション 2024/8/26 第16回最先端NLP勉強会 12
  9. 結果|ReDocRED • Human Annotation Only:SOTAと同等 • Distant OnlyとHuman + Distantでは

    他の手法を上回る → 大規模な学習データでより効果的 • 他の手法では,+ Distantしても 大幅な改善は見られない → 遠距離教師データを上手く使えている 2024/8/26 第16回最先端NLP勉強会 13
  10. 結果|ReDocRED • Human Annotation Only:SOTAと同等 • Distant OnlyとHuman + Distantでは

    他の手法を上回る → 大規模な学習データでより効果的 • 他の手法では,+ Distantしても 大幅な改善は見られない → 遠距離教師データを上手く使えている 2024/8/26 第16回最先端NLP勉強会 14
  11. 所感 • 感想 • 簡単なモデルの変更によって,遠距離教師データの効果的な活用を可能にし, 大幅な性能向上を実現している点は良い • 遠距離教師データの活用が成功した理由についての考察が不足している • 気になった点

    • メモリトークンをどの程度活用するように学習されているのか? • (全く使わないように学習されれば,ベースラインと等価) • 異なる関係タイプや文脈でのメモリトークンの利用は違いがあるか? 2024/8/26 第16回最先端NLP勉強会 20