Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models

【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

May 24, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. OAG-BERT: Pre-train Heterogeneous
    Entity-augmented Academic Language Models
    Liu et al.
    Kaito Sugimoto
    Aizawa Lab. M1
    2021/05/24
    1 / 16

    View Slide

  2. どんな論文?
    • ドメイン知識を考慮した学術論文事前学習モデルを提案
    • Open Academic Graph (OAG) を活用して, 論文のテキストだけで
    なく Author, Field of Study, Venue, Affiliation などの Entity 情報を同
    時に学習する
    • Entity 情報が重要になる各種タスクにおいて, SciBERT のスコア
    を上回る
    2 / 16

    View Slide

  3. Academic Graph とは
    • 論文, 著者, Venue (会議 or ジャーナル) などの Entity と, authorship
    (論文-著者 間), paper-publish-in-venue (論文-Venue 間),
    co-authorship (著者-著者 間) などの Relation から構成されるグ
    ラフ
    3 / 16

    View Slide

  4. Academic Graph の例
    • AMiner (KDD ’08)
    • Microsoft Academic Graph (MAG) (WWW ’15)
    • Open Academic Graph (OAG) (KDD ’19)
    • AMiner を開発した Tsinghua University(精華大学) と MAG を開発した
    Microsoft の共同研究プロジェクト
    • https://www.microsoft.com/en-us/research/project/
    open-academic-graph/
    4 / 16

    View Slide

  5. OAG
    5 / 16

    View Slide

  6. OAG-BERT
    • 論文に関係する様々な Entity 情報も含めて学習を行う
    • 以下の 2 つのステップに分かれる
    • First Stage: Pre-train the vanilla OAG-BERT.
    • Second Stage: Enrich OAG-BERT with entity knowledge.
    6 / 16

    View Slide

  7. First Stage: Pre-train the vanilla OAG-BERT
    vanilla version (Entity 情報を含めない, SciBERT と同じテキストだけの
    学習) の OAG-BERT を作成する
    AMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論
    文テキストを学習に使う
    SciBERT との違いは?
    • SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本
    の論文で事前学習していた.
    • SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタ
    イトルと要旨の間に著者名も挿入する → この時点で著者の
    vocabularary が多い
    7 / 16

    View Slide

  8. Second Stage: Enrich OAG-BERT with entity knowledge
    8 / 16

    View Slide

  9. Second Stage: Enrich OAG-BERT with entity knowledge
    Entity-aware 2D-positional encoding
    • Entity 間の区別と, Entity 内の語順の識別のために行う
    Span-aware entity masking
    • ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同
    様, いくつかの連続した token を MASK して予測させる
    • MASK する span の長さは幾何分布からサンプル (SpanBERT で効
    果的だったから (? ))
    9 / 16

    View Slide

  10. Second Stage: Enrich OAG-BERT with entity knowledge
    学習
    • 少なくとも 3 本は論文を出している著者の論文からランダムに選
    び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Affiliation
    とともに学習で使う
    • vanilla version の学習と異なり, この段階では Text 部分 は title +
    abstract しか用いない
    10 / 16

    View Slide

  11. 実験
    評価タスク
    • Zero-shot Inference
    • Supervised Classification
    • Name Disambiguation
    • Link Prediction
    • NLP Tasks
    11 / 16

    View Slide

  12. Zero-shot Inference
    prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること
    12 / 16

    View Slide

  13. 他のタスク
    Supervised Classification
    → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT
    を全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ
    互角になる
    author 情報を加えると affiliation 分類に役立つ(割と当たり前), field
    of study 情報は venue 分類に役立つが affiliation 分類にはあまり役立た
    ない, などの傾向も見られる
    13 / 16

    View Slide

  14. 他のタスク
    Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラス
    タさせるタスク)
    → SciBERT を上回る (F1 で 0.05 ポイント程度)
    Link Prediction (Paper-Field, Paper-Venue リンク)
    heterogeneous graph transformer (HGT) において文字を encode する部
    分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる
    (SciBERT で置き換えた場合よりも高い)
    14 / 16

    View Slide

  15. NLP tasks
    15 / 16

    View Slide

  16. まとめ・感想
    • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあま
    り影響を受けないというのが面白い
    • わざわざ vanilla バージョンで著者含めて tokenize したことから
    考えるに、vocabulary の情報がかなり重要そう?
    • CS, BioMed 以外の分野の論文で事前学習して違いを調べたりし
    てほしいが, 世の中の研究者にそういうモチベーションがあまり
    ないのかもしれない
    16 / 16

    View Slide