文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

Open Domain Web Keyphrase Extraction Beyond Language Modeling 文献紹介 2020/01/28
長岡技術科学大学自然言語処理研究室稲岡夢人

Literature 2 Title: Open Domain Web Keyphrase Extraction Beyond Language
Modeling Authors: Lee Xiong, Chuan Hu, Chenyan Xiong, Daniel Campos, Arnold Overwijk Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 5175-5184 Year: 2019

Abstract • 様々なドメインや品質の文書でのキーフレーズ抽出 (KPE; KeyPhrase Extraction) • 専門家による注釈を持つ約10万のWeb文書をKPEのデータセット(OpenKP)として公開 •
検索クエリからの弱教師ありと文書の視覚的表現を使用したKPEモデル(BLING-KPE)を開発 • 結果からモデルの有効性、汎化性能の向上を実証 3

Introduction • キーフレーズの自動抽出は文書理解に不可欠 • 様々なNLPタスクがKPEシステムの恩恵を受ける • 近年の研究は科学分野の文書を対象にしたものが多い ← 著者がキーフレーズを付与したデータが多いため •
科学論文とはかなり異なる多様な文書を処理できることが現実のKPEに求められている 4

OpenKP (Documents) • 2018年11月から2019年2月までの間にBingで米国のユーザに表示されたページからサンプリングされた約7万件のWebページで構成 • ニュース記事からビデオページ、多くのリンクを持つインデックスページなど文書の種類を限定しない →
インターネット上のWeb文書の多様な特性を反映 5

OpenKP (Keyphrase Labels) • レンダリング後のWebページから手動でラベル付与 • キーフレーズは以下の定義に従う 1. ページの本質的意味を曖昧さなく捉える (Salience)
2. 文書中に出現する (Extraction) 3. 一般的なトピックでない (Fine-Grained) 例えば「スポーツ」や「政治」は適さない 4. 名詞句であり節や文でない (Correct & Succinct) 6

OpenKP (Annotators) • Web文書に高品質の注釈を付与することを専門とする訓練を受けた従業員が注釈を担当 • プロダクションシステムでの注釈における標準的な慣行に従い、混乱の理解のための定期的な接点や曖昧さ解決のための判断指針の更新を実施 7

Task Difficulty • 5人の注釈者が同じ50ページに注釈を付与 • 上位3つのキーフレーズの完全一致は全体の約43% • 完全一致ではなくUnigram重複の方が大幅に一致 → 分割の不一致
(“Protein Synthesis”を分割するか等) 8

Task Difficulty • 2番目と3番目のキーフレーズの不一致が多い • 注釈が付与されたキーフレーズ自体は誤りでないがどれを選ぶかで不一致が生じている • 注釈の付与を10個に増やせば不一致は減らせるが高コストになり文書数が減る
→ 現在の設計を選択 9

OpenKP (Statistics) • 共通のキーフレーズの共有は少ない • 文書を5,000のドメインに分類 → 最頻のトピックである“healthcare”ですら3.7% → 多様な文書が集まっている
10

BLING-KPE (Architecture) 11

BLING-KPE (Visual Features) • Size 単語が表示されるブロックの高さと幅 • Location 単語の2次元位置 •
Font フォントサイズ、太字か否か • DOM 単語がインライン or ブロックのタグに出現するか DOMツリーのリーフノードか 12

BLING-KPE (Visual Features) • 単語の親ブロックも入力 → 特徴量は2倍になる • OpenKPは本特徴量を含む 13

Weak Supervisions from Search • 検索におけるユーザのクリックをフィードバック信号としてクエリ予測で弱教師あり学習を行なう • Document d,
Queries Q = {q1 , …, qm } 14

Experiments (Datasets) • OpenKP • Query Prediction 案内型のクエリと攻撃的クエリを除去文書にn-gramとして含まれるクエリのみを保持 •
DUC-2001 309のニュース記事に平均8つのキーフレーズが付与されている今回はテストセットとして使用 15

Experiments (Baselines) • TF-IDF 頻度ベースの教師なし手法 • TextRank グラフベースの教師なし手法 • LeToR
LambdaMartを使用したランキング学習モデル 16

Experiments (Baselines) • PROD 入念に特徴量を設計したLambdaMartを使用する現在の実働システム • PROD(Body) body要素のみを使用するPROD •
CopyRNN コピー機構を持つRNN Encoder-Decoderモデル 17

Experiments (BLING-KPE) • 最大n-gram長K=5 • 文書の最大長は256 (CopyRNNも同様) 18

Results (Overall Accuracy) • TFIDFは両タスクで強力なベースライン 19

Results (Overall Accuracy) • LeTorはOpenKPで良好だがQuery Predictionで悪化 20

Results (Overall Accuracy) • TextRankは本データセットでうまく動作していない ← ノイズにより単語グラフがうまく機能しないか 21

Results (Overall Accuracy) • 実稼働のPRODは他のベースラインよりもとても優秀 ×新しいタスクやドメインへの適合が大変 ×クエリ予測に直接適用してもうまく動作しない ×タイトル情報が必要 22

Results (Overall Accuracy) • CopyRNNは@3, @5で比較的高性能 ×文書構造を単語系列として処理するのは理想的でない 23

Results (Overall Accuracy) • BLING-KPEは他手法よりとても優秀 • 改善は両タスク、両評価、全深さに見られ頑健 24

Results (Ablation Study) • ELMoをWordPiece token embeddingに置換 • 文脈を考慮したembeddingは必要 25

Results (Ablation Study) • Transformerはクエリ予測に大きく貢献 • Position embeddingはほとんど役に立たない → Webページは1つのテキスト系列ではないため
26

Results (Ablation Study) • 言語理解を超えた視覚的な特徴とクエリの事前学習はいずれもスコアに大きく貢献 27

Results (Ablation Study) • ELMoが一般的な言語理解に有効 • 視覚的特徴と検索の情報が現実のWeb文書のモデリングにおいて有効 28

Results (Generalization Ability) • 学習にないDUC-2001で評価 • 視覚的特徴, 事前学習は不使用 • BLING-KPEはTFIDFを超える
唯一のニューラル手法 29

Results (Case study) • 緑は視覚的特徴を用いて抽出されたキーフレーズ (正解) • 赤は視覚情報を用いずに抽出されたキーフレーズ
• 赤は文書先頭に配置しており緑は太字で強調されている • 視覚的特徴を用いることで正しく正解できている例 30

Conclusion • 今後のKPEの研究を促進するためのOpenKPを公開 • 検索ベースの弱教師ありと視覚情報を活用した現実の文書をモデル化するBLING-KPEを開発 • BLING-KPEの頑健な改善を実証 • OpenKPのさらなる拡張と下流タスクへの接続を予定
31

文献紹介: Open Domain Web Keyphrase Extraction Beyo...

文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Open Domain Web Keyphrase Extraction Beyond Language Modeling 文献紹介 2020/01/28

Literature 2 Title: Open Domain Web Keyphrase Extraction Beyond Language

Abstract • 様々なドメインや品質の文書でのキーフレーズ抽出 (KPE; KeyPhrase Extraction) • 専門家による注釈を持つ約10万のWeb文書をKPEのデータセット(OpenKP)として公開 •

Introduction • キーフレーズの自動抽出は文書理解に不可欠 • 様々なNLPタスクがKPEシステムの恩恵を受ける • 近年の研究は科学分野の文書を対象にしたものが多い ← 著者がキーフレーズを付与したデータが多いため •

OpenKP (Keyphrase Labels) • レンダリング後のWebページから手動でラベル付与 • キーフレーズは以下の定義に従う 1. ページの本質的意味を曖昧さなく捉える (Salience)

Task Difficulty • 5人の注釈者が同じ50ページに注釈を付与 • 上位3つのキーフレーズの完全一致は全体の約43% • 完全一致ではなくUnigram重複の方が大幅に一致 → 分割の不一致

OpenKP (Statistics) • 共通のキーフレーズの共有は少ない • 文書を5,000のドメインに分類 → 最頻のトピックである“healthcare”ですら3.7% → 多様な文書が集まっている

BLING-KPE (Architecture) 11

BLING-KPE (Visual Features) • Size 単語が表示されるブロックの高さと幅 • Location 単語の2次元位置 •

BLING-KPE (Visual Features) • 単語の親ブロックも入力 → 特徴量は2倍になる • OpenKPは本特徴量を含む 13

Weak Supervisions from Search • 検索におけるユーザのクリックをフィードバック信号としてクエリ予測で弱教師あり学習を行なう • Document d,

Experiments (Datasets) • OpenKP • Query Prediction 案内型のクエリと攻撃的クエリを除去文書にn-gramとして含まれるクエリのみを保持 •

Experiments (Baselines) • TF-IDF 頻度ベースの教師なし手法 • TextRank グラフベースの教師なし手法 • LeToR

Experiments (Baselines) • PROD 入念に特徴量を設計したLambdaMartを使用する現在の実働システム • PROD(Body) body要素のみを使用するPROD •