Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Open Domain Web Keyphrase Extraction Beyo...

Avatar for Yumeto Inaoka Yumeto Inaoka
January 28, 2020

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

2020/01/28の文献紹介で発表

Avatar for Yumeto Inaoka

Yumeto Inaoka

January 28, 2020
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Open Domain Web Keyphrase Extraction Beyond Language Modeling 文献紹介 2020/01/28

    長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature 2 Title: Open Domain Web Keyphrase Extraction Beyond Language

    Modeling Authors: Lee Xiong, Chuan Hu, Chenyan Xiong, Daniel Campos, Arnold Overwijk Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5175-5184 Year: 2019
  3. Abstract • 様々なドメインや品質の文書でのキーフレーズ抽出 (KPE; KeyPhrase Extraction) • 専門家による注釈を持つ約10万のWeb文書をKPEの データセット(OpenKP)として公開 •

    検索クエリからの弱教師ありと文書の視覚的表現を 使用したKPEモデル(BLING-KPE)を開発 • 結果からモデルの有効性、汎化性能の向上を実証 3
  4. OpenKP (Keyphrase Labels) • レンダリング後のWebページから手動でラベル付与 • キーフレーズは以下の定義に従う 1. ページの本質的意味を曖昧さなく捉える (Salience)

    2. 文書中に出現する (Extraction) 3. 一般的なトピックでない (Fine-Grained) 例えば「スポーツ」や「政治」は適さない 4. 名詞句であり節や文でない (Correct & Succinct) 6
  5. BLING-KPE (Visual Features) • Size 単語が表示されるブロックの高さと幅 • Location 単語の2次元位置 •

    Font フォントサイズ、太字か否か • DOM 単語がインライン or ブロックのタグに出現するか DOMツリーのリーフノードか 12
  6. Experiments (Datasets) • OpenKP • Query Prediction 案内型のクエリと攻撃的クエリを除去 文書にn-gramとして含まれるクエリのみを保持 •

    DUC-2001 309のニュース記事に平均8つのキーフレーズが 付与されている 今回はテストセットとして使用 15
  7. Results (Case study) • 緑は視覚的特徴を用いて抽出 されたキーフレーズ (正解) • 赤は視覚情報を用いずに抽出 されたキーフレーズ

    • 赤は文書先頭に配置しており 緑は太字で強調されている • 視覚的特徴を用いることで 正しく正解できている例 30