文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

2020/01/28の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

January 28, 2020
Tweet

Transcript

  1. Open Domain Web Keyphrase Extraction Beyond Language Modeling 文献紹介 2020/01/28

    長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature 2 Title: Open Domain Web Keyphrase Extraction Beyond Language

    Modeling Authors: Lee Xiong, Chuan Hu, Chenyan Xiong, Daniel Campos, Arnold Overwijk Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5175-5184 Year: 2019
  3. Abstract • 様々なドメインや品質の文書でのキーフレーズ抽出 (KPE; KeyPhrase Extraction) • 専門家による注釈を持つ約10万のWeb文書をKPEの データセット(OpenKP)として公開 •

    検索クエリからの弱教師ありと文書の視覚的表現を 使用したKPEモデル(BLING-KPE)を開発 • 結果からモデルの有効性、汎化性能の向上を実証 3
  4. Introduction • キーフレーズの自動抽出は文書理解に不可欠 • 様々なNLPタスクがKPEシステムの恩恵を受ける • 近年の研究は科学分野の文書を対象にしたものが多い ← 著者がキーフレーズを付与したデータが多いため •

    科学論文とはかなり異なる多様な文書を処理できる ことが現実のKPEに求められている 4
  5. OpenKP (Documents) • 2018年11月から2019年2月までの間にBingで米国の ユーザに表示されたページからサンプリングされた 約7万件のWebページで構成 • ニュース記事からビデオページ、多くのリンクを持つ インデックスページなど文書の種類を限定しない →

    インターネット上のWeb文書の多様な特性を反映 5
  6. OpenKP (Keyphrase Labels) • レンダリング後のWebページから手動でラベル付与 • キーフレーズは以下の定義に従う 1. ページの本質的意味を曖昧さなく捉える (Salience)

    2. 文書中に出現する (Extraction) 3. 一般的なトピックでない (Fine-Grained) 例えば「スポーツ」や「政治」は適さない 4. 名詞句であり節や文でない (Correct & Succinct) 6
  7. OpenKP (Annotators) • Web文書に高品質の注釈を付与することを専門と する訓練を受けた従業員が注釈を担当 • プロダクションシステムでの注釈における標準的な 慣行に従い、混乱の理解のための定期的な接点や 曖昧さ解決のための判断指針の更新を実施 7

  8. Task Difficulty • 5人の注釈者が同じ50ページに注釈を付与 • 上位3つのキーフレーズの完全一致は全体の約43% • 完全一致ではなくUnigram重複の方が大幅に一致 → 分割の不一致

    (“Protein Synthesis”を分割するか等) 8
  9. Task Difficulty • 2番目と3番目のキーフレーズの不一致が多い • 注釈が付与されたキーフレーズ自体は誤りでないが どれを選ぶかで不一致が生じている • 注釈の付与を10個に増やせば不一致は減らせるが 高コストになり文書数が減る

    → 現在の設計を選択 9
  10. OpenKP (Statistics) • 共通のキーフレーズの共有は少ない • 文書を5,000のドメインに分類 → 最頻のトピックである“healthcare”ですら3.7% → 多様な文書が集まっている

    10
  11. BLING-KPE (Architecture) 11

  12. BLING-KPE (Visual Features) • Size 単語が表示されるブロックの高さと幅 • Location 単語の2次元位置 •

    Font フォントサイズ、太字か否か • DOM 単語がインライン or ブロックのタグに出現するか DOMツリーのリーフノードか 12
  13. BLING-KPE (Visual Features) • 単語の親ブロックも入力 → 特徴量は2倍になる • OpenKPは本特徴量を含む 13

  14. Weak Supervisions from Search • 検索におけるユーザのクリックをフィードバック信号 としてクエリ予測で弱教師あり学習を行なう • Document d,

    Queries Q = {q1 , …, qm } 14
  15. Experiments (Datasets) • OpenKP • Query Prediction 案内型のクエリと攻撃的クエリを除去 文書にn-gramとして含まれるクエリのみを保持 •

    DUC-2001 309のニュース記事に平均8つのキーフレーズが 付与されている 今回はテストセットとして使用 15
  16. Experiments (Baselines) • TF-IDF 頻度ベースの教師なし手法 • TextRank グラフベースの教師なし手法 • LeToR

    LambdaMartを使用したランキング学習モデル 16
  17. Experiments (Baselines) • PROD 入念に特徴量を設計したLambdaMartを使用する 現在の実働システム • PROD(Body) body要素のみを使用するPROD •

    CopyRNN コピー機構を持つRNN Encoder-Decoderモデル 17
  18. Experiments (BLING-KPE) • 最大n-gram長K=5 • 文書の最大長は256 (CopyRNNも同様) 18

  19. Results (Overall Accuracy) • TFIDFは両タスクで強力なベースライン 19

  20. Results (Overall Accuracy) • LeTorはOpenKPで良好だがQuery Predictionで悪化 20

  21. Results (Overall Accuracy) • TextRankは本データセットでうまく動作していない ← ノイズにより単語グラフがうまく機能しないか 21

  22. Results (Overall Accuracy) • 実稼働のPRODは他のベースラインよりもとても優秀 ×新しいタスクやドメインへの適合が大変 ×クエリ予測に直接適用してもうまく動作しない ×タイトル情報が必要 22

  23. Results (Overall Accuracy) • CopyRNNは@3, @5で比較的高性能 ×文書構造を単語系列として処理するのは理想的でない 23

  24. Results (Overall Accuracy) • BLING-KPEは他手法よりとても優秀 • 改善は両タスク、両評価、全深さに見られ頑健 24

  25. Results (Ablation Study) • ELMoをWordPiece token embeddingに置換 • 文脈を考慮したembeddingは必要 25

  26. Results (Ablation Study) • Transformerはクエリ予測に大きく貢献 • Position embeddingはほとんど役に立たない → Webページは1つのテキスト系列ではないため

    26
  27. Results (Ablation Study) • 言語理解を超えた視覚的な特徴とクエリの事前学習 はいずれもスコアに大きく貢献 27

  28. Results (Ablation Study) • ELMoが一般的な言語理解に有効 • 視覚的特徴と検索の情報が現実のWeb文書の モデリングにおいて有効 28

  29. Results (Generalization Ability) • 学習にないDUC-2001で評価 • 視覚的特徴, 事前学習は不使用 • BLING-KPEはTFIDFを超える

    唯一のニューラル手法 29
  30. Results (Case study) • 緑は視覚的特徴を用いて抽出 されたキーフレーズ (正解) • 赤は視覚情報を用いずに抽出 されたキーフレーズ

    • 赤は文書先頭に配置しており 緑は太字で強調されている • 視覚的特徴を用いることで 正しく正解できている例 30
  31. Conclusion • 今後のKPEの研究を促進するためのOpenKPを公開 • 検索ベースの弱教師ありと視覚情報を活用した 現実の文書をモデル化するBLING-KPEを開発 • BLING-KPEの頑健な改善を実証 • OpenKPのさらなる拡張と下流タスクへの接続を予定

    31