$30 off During Our Annual Pro Sale. View Details »

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

Yumeto Inaoka
January 28, 2020

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

2020/01/28の文献紹介で発表

Yumeto Inaoka

January 28, 2020
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Open Domain Web Keyphrase Extraction
    Beyond Language Modeling
    文献紹介 2020/01/28
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人

    View Slide

  2. Literature
    2
    Title: Open Domain Web Keyphrase Extraction Beyond Language Modeling
    Authors: Lee Xiong, Chuan Hu, Chenyan Xiong, Daniel Campos, Arnold Overwijk
    Volume:
    Proceedings of the 2019 Conference on Empirical Methods in Natural
    Language Processing and the 9th International Joint Conference on
    Natural Language Processing (EMNLP-IJCNLP)
    Pages: 5175-5184
    Year: 2019

    View Slide

  3. Abstract
    • 様々なドメインや品質の文書でのキーフレーズ抽出
    (KPE; KeyPhrase Extraction)
    • 専門家による注釈を持つ約10万のWeb文書をKPEの
    データセット(OpenKP)として公開
    • 検索クエリからの弱教師ありと文書の視覚的表現を
    使用したKPEモデル(BLING-KPE)を開発
    • 結果からモデルの有効性、汎化性能の向上を実証
    3

    View Slide

  4. Introduction
    • キーフレーズの自動抽出は文書理解に不可欠
    • 様々なNLPタスクがKPEシステムの恩恵を受ける
    • 近年の研究は科学分野の文書を対象にしたものが多い
    ← 著者がキーフレーズを付与したデータが多いため
    • 科学論文とはかなり異なる多様な文書を処理できる
    ことが現実のKPEに求められている
    4

    View Slide

  5. OpenKP (Documents)
    • 2018年11月から2019年2月までの間にBingで米国の
    ユーザに表示されたページからサンプリングされた
    約7万件のWebページで構成
    • ニュース記事からビデオページ、多くのリンクを持つ
    インデックスページなど文書の種類を限定しない
    → インターネット上のWeb文書の多様な特性を反映
    5

    View Slide

  6. OpenKP (Keyphrase Labels)
    • レンダリング後のWebページから手動でラベル付与
    • キーフレーズは以下の定義に従う
    1. ページの本質的意味を曖昧さなく捉える (Salience)
    2. 文書中に出現する (Extraction)
    3. 一般的なトピックでない (Fine-Grained)
    例えば「スポーツ」や「政治」は適さない
    4. 名詞句であり節や文でない (Correct & Succinct)
    6

    View Slide

  7. OpenKP (Annotators)
    • Web文書に高品質の注釈を付与することを専門と
    する訓練を受けた従業員が注釈を担当
    • プロダクションシステムでの注釈における標準的な
    慣行に従い、混乱の理解のための定期的な接点や
    曖昧さ解決のための判断指針の更新を実施
    7

    View Slide

  8. Task Difficulty
    • 5人の注釈者が同じ50ページに注釈を付与
    • 上位3つのキーフレーズの完全一致は全体の約43%
    • 完全一致ではなくUnigram重複の方が大幅に一致
    → 分割の不一致 (“Protein Synthesis”を分割するか等)
    8

    View Slide

  9. Task Difficulty
    • 2番目と3番目のキーフレーズの不一致が多い
    • 注釈が付与されたキーフレーズ自体は誤りでないが
    どれを選ぶかで不一致が生じている
    • 注釈の付与を10個に増やせば不一致は減らせるが
    高コストになり文書数が減る → 現在の設計を選択
    9

    View Slide

  10. OpenKP (Statistics)
    • 共通のキーフレーズの共有は少ない
    • 文書を5,000のドメインに分類
    → 最頻のトピックである“healthcare”ですら3.7%
    → 多様な文書が集まっている
    10

    View Slide

  11. BLING-KPE (Architecture)
    11

    View Slide

  12. BLING-KPE (Visual Features)
    • Size
    単語が表示されるブロックの高さと幅
    • Location
    単語の2次元位置
    • Font
    フォントサイズ、太字か否か
    • DOM
    単語がインライン or ブロックのタグに出現するか
    DOMツリーのリーフノードか
    12

    View Slide

  13. BLING-KPE (Visual Features)
    • 単語の親ブロックも入力
    → 特徴量は2倍になる
    • OpenKPは本特徴量を含む
    13

    View Slide

  14. Weak Supervisions from Search
    • 検索におけるユーザのクリックをフィードバック信号
    としてクエリ予測で弱教師あり学習を行なう
    • Document d, Queries Q = {q1
    , …, qm
    }
    14

    View Slide

  15. Experiments (Datasets)
    • OpenKP
    • Query Prediction
    案内型のクエリと攻撃的クエリを除去
    文書にn-gramとして含まれるクエリのみを保持
    • DUC-2001
    309のニュース記事に平均8つのキーフレーズが
    付与されている 今回はテストセットとして使用
    15

    View Slide

  16. Experiments (Baselines)
    • TF-IDF
    頻度ベースの教師なし手法
    • TextRank
    グラフベースの教師なし手法
    • LeToR
    LambdaMartを使用したランキング学習モデル
    16

    View Slide

  17. Experiments (Baselines)
    • PROD
    入念に特徴量を設計したLambdaMartを使用する
    現在の実働システム
    • PROD(Body)
    body要素のみを使用するPROD
    • CopyRNN
    コピー機構を持つRNN Encoder-Decoderモデル
    17

    View Slide

  18. Experiments (BLING-KPE)
    • 最大n-gram長K=5
    • 文書の最大長は256 (CopyRNNも同様)
    18

    View Slide

  19. Results (Overall Accuracy)
    • TFIDFは両タスクで強力なベースライン
    19

    View Slide

  20. Results (Overall Accuracy)
    • LeTorはOpenKPで良好だがQuery Predictionで悪化
    20

    View Slide

  21. Results (Overall Accuracy)
    • TextRankは本データセットでうまく動作していない
    ← ノイズにより単語グラフがうまく機能しないか
    21

    View Slide

  22. Results (Overall Accuracy)
    • 実稼働のPRODは他のベースラインよりもとても優秀
    ×新しいタスクやドメインへの適合が大変
    ×クエリ予測に直接適用してもうまく動作しない
    ×タイトル情報が必要
    22

    View Slide

  23. Results (Overall Accuracy)
    • CopyRNNは@3, @5で比較的高性能
    ×文書構造を単語系列として処理するのは理想的でない
    23

    View Slide

  24. Results (Overall Accuracy)
    • BLING-KPEは他手法よりとても優秀
    • 改善は両タスク、両評価、全深さに見られ頑健
    24

    View Slide

  25. Results (Ablation Study)
    • ELMoをWordPiece token embeddingに置換
    • 文脈を考慮したembeddingは必要
    25

    View Slide

  26. Results (Ablation Study)
    • Transformerはクエリ予測に大きく貢献
    • Position embeddingはほとんど役に立たない
    → Webページは1つのテキスト系列ではないため
    26

    View Slide

  27. Results (Ablation Study)
    • 言語理解を超えた視覚的な特徴とクエリの事前学習
    はいずれもスコアに大きく貢献
    27

    View Slide

  28. Results (Ablation Study)
    • ELMoが一般的な言語理解に有効
    • 視覚的特徴と検索の情報が現実のWeb文書の
    モデリングにおいて有効
    28

    View Slide

  29. Results (Generalization Ability)
    • 学習にないDUC-2001で評価
    • 視覚的特徴, 事前学習は不使用
    • BLING-KPEはTFIDFを超える
    唯一のニューラル手法
    29

    View Slide

  30. Results (Case study)
    • 緑は視覚的特徴を用いて抽出
    されたキーフレーズ (正解)
    • 赤は視覚情報を用いずに抽出
    されたキーフレーズ
    • 赤は文書先頭に配置しており
    緑は太字で強調されている
    • 視覚的特徴を用いることで
    正しく正解できている例
    30

    View Slide

  31. Conclusion
    • 今後のKPEの研究を促進するためのOpenKPを公開
    • 検索ベースの弱教師ありと視覚情報を活用した
    現実の文書をモデル化するBLING-KPEを開発
    • BLING-KPEの頑健な改善を実証
    • OpenKPのさらなる拡張と下流タスクへの接続を予定
    31

    View Slide