研究室の日本語輪読会で発表したスライドです。 内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
OAG-BERT: Pre-train HeterogeneousEntity-augmented Academic Language ModelsLiu et al.Kaito SugimotoAizawa Lab. M12021/05/241 / 16
View Slide
どんな論文?• ドメイン知識を考慮した学術論文事前学習モデルを提案• Open Academic Graph (OAG) を活用して, 論文のテキストだけでなく Author, Field of Study, Venue, Affiliation などの Entity 情報を同時に学習する• Entity 情報が重要になる各種タスクにおいて, SciBERT のスコアを上回る2 / 16
Academic Graph とは• 論文, 著者, Venue (会議 or ジャーナル) などの Entity と, authorship(論文-著者 間), paper-publish-in-venue (論文-Venue 間),co-authorship (著者-著者 間) などの Relation から構成されるグラフ3 / 16
Academic Graph の例• AMiner (KDD ’08)• Microsoft Academic Graph (MAG) (WWW ’15)• Open Academic Graph (OAG) (KDD ’19)• AMiner を開発した Tsinghua University(精華大学) と MAG を開発したMicrosoft の共同研究プロジェクト• https://www.microsoft.com/en-us/research/project/open-academic-graph/4 / 16
OAG5 / 16
OAG-BERT• 論文に関係する様々な Entity 情報も含めて学習を行う• 以下の 2 つのステップに分かれる• First Stage: Pre-train the vanilla OAG-BERT.• Second Stage: Enrich OAG-BERT with entity knowledge.6 / 16
First Stage: Pre-train the vanilla OAG-BERTvanilla version (Entity 情報を含めない, SciBERT と同じテキストだけの学習) の OAG-BERT を作成するAMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論文テキストを学習に使うSciBERT との違いは?• SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本の論文で事前学習していた.• SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタイトルと要旨の間に著者名も挿入する → この時点で著者のvocabularary が多い7 / 16
Second Stage: Enrich OAG-BERT with entity knowledge8 / 16
Second Stage: Enrich OAG-BERT with entity knowledgeEntity-aware 2D-positional encoding• Entity 間の区別と, Entity 内の語順の識別のために行うSpan-aware entity masking• ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同様, いくつかの連続した token を MASK して予測させる• MASK する span の長さは幾何分布からサンプル (SpanBERT で効果的だったから (? ))9 / 16
Second Stage: Enrich OAG-BERT with entity knowledge学習• 少なくとも 3 本は論文を出している著者の論文からランダムに選び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Affiliationとともに学習で使う• vanilla version の学習と異なり, この段階では Text 部分 は title +abstract しか用いない10 / 16
実験評価タスク• Zero-shot Inference• Supervised Classification• Name Disambiguation• Link Prediction• NLP Tasks11 / 16
Zero-shot Inferenceprompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること12 / 16
他のタスクSupervised Classification→ モデルの重みそのままの freeze 設定では OAG-BERT が SciBERTを全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ互角になるauthor 情報を加えると affiliation 分類に役立つ(割と当たり前), fieldof study 情報は venue 分類に役立つが affiliation 分類にはあまり役立たない, などの傾向も見られる13 / 16
他のタスクName Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラスタさせるタスク)→ SciBERT を上回る (F1 で 0.05 ポイント程度)Link Prediction (Paper-Field, Paper-Venue リンク)heterogeneous graph transformer (HGT) において文字を encode する部分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる(SciBERT で置き換えた場合よりも高い)14 / 16
NLP tasks15 / 16
まとめ・感想• 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあまり影響を受けないというのが面白い• わざわざ vanilla バージョンで著者含めて tokenize したことから考えるに、vocabulary の情報がかなり重要そう?• CS, BioMed 以外の分野の論文で事前学習して違いを調べたりしてほしいが, 世の中の研究者にそういうモチベーションがあまりないのかもしれない16 / 16