$30 off During Our Annual Pro Sale. View Details »

【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers

Kaito Sugimoto
November 02, 2020

【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

November 02, 2020
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. SPECTER: Document-level Representation
    Learning using Citation-informed Transformers
    Cohan et al., ACL 2020
    杉本 海人
    Aizawa Lab. B4
    2020/11/02
    1 / 17

    View Slide

  2. 読んだ論文
    ACL 2020
    https://www.aclweb.org/anthology/2020.acl-main.207.pdf
    2 / 17

    View Slide

  3. どんな論文?
    • 文書間の関係の情報(引用ネットワークなど)を BERT に取り入
    れて, document representation を生成する方法を新たに提案
    • 論文の分類や推薦などの多くの downstream task で有効性を確認
    なぜ読んだか:
    • context-aware citation recommendation という, 論文の特定の位置
    からその箇所に対応づけるべき論文を選ぶタスクに興味を持っ
    ているが, BERT はまだ殆ど使われていない.
    論文の埋め込みは BERT でどのように行うのが良いのかに興味
    があった
    3 / 17

    View Slide

  4. 論文の背景
    • BERT のような pre-trained のニューラル言語モデルが word や
    sentence 単位の埋め込みにおいて有用であることは広く研究さ
    れてきたが, document 全体の埋め込みに関しては相対的に研究が
    少ない
    • 特に scientific paper analysis において, 引用ネットワークの埋め込
    み自体は Graph Convolutional Network など研究されてきたが, そ
    れを BERT の 学習時に活かせていなかった
    4 / 17

    View Slide

  5. 関連研究
    hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL
    2018): (BERT ではないが引用の情報を意識して学習)
    5 / 17

    View Slide

  6. 関連研究
    A Context-Aware Citation Recommendation Model with BERT and Graph
    Convolutional Networks (2019)
    (BERT と GCN を組み合わせて論文推薦, ここでは引用の情報は
    BERT とは別物になっている)
    6 / 17

    View Slide

  7. 提案手法
    SPECTER: Scientific Paper Embeddings using Citation-informed
    TransformERs
    • 論文の埋め込みを Transformer ベースで得る新たな手法
    • Transformer を SciBERT(Semantic Scholar の論文で pre-trained さ
    れた BERT)で初期化する
    • SciBERT はすでに論文の中身に関する言語情報を獲得している
    と考えられるが, 論文間の関係情報は一切考慮していない。これ
    を考慮できるようにさらに学習する
    7 / 17

    View Slide

  8. 提案手法: Training
    クエリの論文 PQ だけでなく, positive paper P+, negative paper P− も加
    えた 3 つ組 を入力として使う。
    8 / 17

    View Slide

  9. 提案手法: Training
    P+: PQ が引用した論文
    P−: 2 種類の選び方がある。1 つは, PQ が引用していない論文からラ
    ンダムに 1 つ選ぶ。
    もう 1 つは, P+ が引用しているにもかかわらず PQ が引用していない
    論文からランダムに 1 つ選ぶ(hard neagtives)
    。もし全くクエリに関
    係ない論文なら, そのクエリが引用した論文とも全く関係ないのは自
    明であるが, hard negatives では自明でない例を学習するということに
    なる。
    9 / 17

    View Slide

  10. 提案手法: Training
    PQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ,
    [CLS] トークンの出力から埋め込みを得る.
    入力形式は, 基本的には「論文のタイトル + abstract」としている。後
    の実験で, abstract を使わないタイトルのみ場合や author(著者),
    venue(会議名)のメタ情報を入力に加えた場合とも比較している。
    これら 3 つの埋め込みについて, 以下のような TripletMarginLoss を計
    算し, back propagation する.
    10 / 17

    View Slide

  11. 提案手法: Evaluation
    • クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トーク
    ンの出力から埋め込みを得る
    • 推論時には引用ネットワーク情報が不要というのがポイント
    11 / 17

    View Slide

  12. 実験: pre-trained model の作成
    • Semantic Scholar から 146K のクエリ論文を訓練用に, 32K の論文
    を validation 用に抽出した。クエリ論文 1 つに対し, 最大 5 つの
    PQ, P+, P− の 3 つ組を作成。
    5 つの 3 つ組のうち 2 つは hard negatives, 3 つは easy negatives
    となっている。
    累計 684K の 3 つ組を訓練用に, 145K を validation 用に用意した
    • https://github.com/allenai/specter
    12 / 17

    View Slide

  13. 実験: タスク・データセット
    scientific paper embeddings を包括的に評価するための新たなフレーム
    ワークである SCIDOCS を用意した(この論文のもう 1 つのポイ
    ント)

    SCIDOCS では論文に関する 7 つのタスクで評価する。
    • MeSH Classification
    • Paper Topic Classification
    • Citation Prediction (Direct Citations)
    • Citation Prediction (Co-Citations)
    • User Activity (Co-Views)
    • User Activity (Co-Reads)
    • Recommendation
    13 / 17

    View Slide

  14. 結果
    14 / 17

    View Slide

  15. 分析: Ablation Study
    15 / 17

    View Slide

  16. 分析: Visualization
    16 / 17

    View Slide

  17. 分析: Comparison with Task Specific Fine-Tuning
    17 / 17

    View Slide