Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

Yumeto Inaoka
January 28, 2020

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

2020/01/28の文献紹介で発表

Yumeto Inaoka

January 28, 2020
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Open Domain Web Keyphrase Extraction Beyond Language Modeling 文献紹介 2020/01/28

    長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature 2 Title: Open Domain Web Keyphrase Extraction Beyond Language

    Modeling Authors: Lee Xiong, Chuan Hu, Chenyan Xiong, Daniel Campos, Arnold Overwijk Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5175-5184 Year: 2019
  3. Abstract • 様々なドメインや品質の文書でのキーフレーズ抽出 (KPE; KeyPhrase Extraction) • 専門家による注釈を持つ約10万のWeb文書をKPEの データセット(OpenKP)として公開 •

    検索クエリからの弱教師ありと文書の視覚的表現を 使用したKPEモデル(BLING-KPE)を開発 • 結果からモデルの有効性、汎化性能の向上を実証 3
  4. OpenKP (Keyphrase Labels) • レンダリング後のWebページから手動でラベル付与 • キーフレーズは以下の定義に従う 1. ページの本質的意味を曖昧さなく捉える (Salience)

    2. 文書中に出現する (Extraction) 3. 一般的なトピックでない (Fine-Grained) 例えば「スポーツ」や「政治」は適さない 4. 名詞句であり節や文でない (Correct & Succinct) 6
  5. BLING-KPE (Visual Features) • Size 単語が表示されるブロックの高さと幅 • Location 単語の2次元位置 •

    Font フォントサイズ、太字か否か • DOM 単語がインライン or ブロックのタグに出現するか DOMツリーのリーフノードか 12
  6. Experiments (Datasets) • OpenKP • Query Prediction 案内型のクエリと攻撃的クエリを除去 文書にn-gramとして含まれるクエリのみを保持 •

    DUC-2001 309のニュース記事に平均8つのキーフレーズが 付与されている 今回はテストセットとして使用 15
  7. Results (Case study) • 緑は視覚的特徴を用いて抽出 されたキーフレーズ (正解) • 赤は視覚情報を用いずに抽出 されたキーフレーズ

    • 赤は文書先頭に配置しており 緑は太字で強調されている • 視覚的特徴を用いることで 正しく正解できている例 30