【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models

OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models Liu et al.
Kaito Sugimoto Aizawa Lab. M1 2021/05/24 1 / 16

どんな論文？ • ドメイン知識を考慮した学術論文事前学習モデルを提案 • Open Academic Graph (OAG) を活用して, 論文のテキストだけで
なく Author, Field of Study, Venue, Aﬃliation などの Entity 情報を同時に学習する • Entity 情報が重要になる各種タスクにおいて, SciBERT のスコアを上回る 2 / 16

Academic Graph とは • 論文, 著者, Venue (会議 or ジャーナル)
などの Entity と, authorship (論文-著者間), paper-publish-in-venue (論文-Venue 間), co-authorship (著者-著者間) などの Relation から構成されるグラフ 3 / 16

Academic Graph の例 • AMiner (KDD ’08) • Microsoft Academic
Graph (MAG) (WWW ’15) • Open Academic Graph (OAG) (KDD ’19) • AMiner を開発した Tsinghua University(精華大学) と MAG を開発した Microsoft の共同研究プロジェクト • https://www.microsoft.com/en-us/research/project/ open-academic-graph/ 4 / 16

OAG 5 / 16

OAG-BERT • 論文に関係する様々な Entity 情報も含めて学習を行う • 以下の 2 つのステップに分かれる •
First Stage: Pre-train the vanilla OAG-BERT. • Second Stage: Enrich OAG-BERT with entity knowledge. 6 / 16

First Stage: Pre-train the vanilla OAG-BERT vanilla version (Entity 情報を含めない,
SciBERT と同じテキストだけの学習) の OAG-BERT を作成する AMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論文テキストを学習に使う SciBERT との違いは？ • SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本の論文で事前学習していた. • SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタイトルと要旨の間に著者名も挿入する → この時点で著者の vocabularary が多い 7 / 16

Second Stage: Enrich OAG-BERT with entity knowledge 8 / 16

Second Stage: Enrich OAG-BERT with entity knowledge Entity-aware 2D-positional encoding
• Entity 間の区別と, Entity 内の語順の識別のために行う Span-aware entity masking • ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同様, いくつかの連続した token を MASK して予測させる • MASK する span の長さは幾何分布からサンプル (SpanBERT で効果的だったから (？ )) 9 / 16

Second Stage: Enrich OAG-BERT with entity knowledge 学習 • 少なくとも
3 本は論文を出している著者の論文からランダムに選び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Aﬃliation とともに学習で使う • vanilla version の学習と異なり, この段階では Text 部分は title + abstract しか用いない 10 / 16

実験評価タスク • Zero-shot Inference • Supervised Classiﬁcation • Name
Disambiguation • Link Prediction • NLP Tasks 11 / 16

Zero-shot Inference prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること 12
/ 16

他のタスク Supervised Classification → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT
を全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ互角になる author 情報を加えると affiliation 分類に役立つ（割と当たり前）, field of study 情報は venue 分類に役立つが affiliation 分類にはあまり役立たない, などの傾向も見られる 13 / 16

他のタスク Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラスタさせるタスク) → SciBERT を上回る (F1
で 0.05 ポイント程度) Link Prediction (Paper-Field, Paper-Venue リンク) heterogeneous graph transformer (HGT) において文字を encode する部分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる（SciBERT で置き換えた場合よりも高い） 14 / 16

NLP tasks 15 / 16

まとめ・感想 • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあまり影響を受けないというのが面白い • わざわざ vanilla
バージョンで著者含めて tokenize したことから考えるに、vocabulary の情報がかなり重要そう？ • CS, BioMed 以外の分野の論文で事前学習して違いを調べたりしてほしいが, 世の中の研究者にそういうモチベーションがあまりないのかもしれない 16 / 16

【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-...

【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models Liu et al.

どんな論文？ • ドメイン知識を考慮した学術論文事前学習モデルを提案 • Open Academic Graph (OAG) を活用して, 論文のテキストだけで

Academic Graph とは • 論文, 著者, Venue (会議 or ジャーナル)

Academic Graph の例 • AMiner (KDD ’08) • Microsoft Academic

OAG 5 / 16

OAG-BERT • 論文に関係する様々な Entity 情報も含めて学習を行う • 以下の 2 つのステップに分かれる •

First Stage: Pre-train the vanilla OAG-BERT vanilla version (Entity 情報を含めない,

Second Stage: Enrich OAG-BERT with entity knowledge 8 / 16

Second Stage: Enrich OAG-BERT with entity knowledge Entity-aware 2D-positional encoding

Second Stage: Enrich OAG-BERT with entity knowledge 学習 • 少なくとも

実験評価タスク • Zero-shot Inference • Supervised Classiﬁcation • Name

Zero-shot Inference prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること 12

他のタスク Supervised Classiﬁcation → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT

他のタスク Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラスタさせるタスク) → SciBERT を上回る (F1

NLP tasks 15 / 16

まとめ・感想 • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあまり影響を受けないというのが面白い • わざわざ vanilla