【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers

SPECTER: Document-level Representation Learning using Citation-informed Transformers Cohan et al.,
ACL 2020 杉本海人 Aizawa Lab. B4 2020/11/02 1 / 17

読んだ論文 ACL 2020 https://www.aclweb.org/anthology/2020.acl-main.207.pdf 2 / 17

どんな論文？ • 文書間の関係の情報（引用ネットワークなど）を BERT に取り入れて, document representation を生成する方法を新たに提案 •
論文の分類や推薦などの多くの downstream task で有効性を確認なぜ読んだか: • context-aware citation recommendation という, 論文の特定の位置からその箇所に対応づけるべき論文を選ぶタスクに興味を持っているが, BERT はまだ殆ど使われていない. 論文の埋め込みは BERT でどのように行うのが良いのかに興味があった 3 / 17

論文の背景 • BERT のような pre-trained のニューラル言語モデルが word や sentence 単位の埋め込みにおいて有用であることは広く研究さ
れてきたが, document 全体の埋め込みに関しては相対的に研究が少ない • 特に scientiﬁc paper analysis において, 引用ネットワークの埋め込み自体は Graph Convolutional Network など研究されてきたが, それを BERT の学習時に活かせていなかった 4 / 17

関連研究 hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL 2018): （BERT
ではないが引用の情報を意識して学習） 5 / 17

関連研究 A Context-Aware Citation Recommendation Model with BERT and Graph
Convolutional Networks (2019) （BERT と GCN を組み合わせて論文推薦, ここでは引用の情報は BERT とは別物になっている） 6 / 17

提案手法 SPECTER: Scientiﬁc Paper Embeddings using Citation-informed TransformERs • 論文の埋め込みを
Transformer ベースで得る新たな手法 • Transformer を SciBERT（Semantic Scholar の論文で pre-trained された BERT）で初期化する • SciBERT はすでに論文の中身に関する言語情報を獲得していると考えられるが, 論文間の関係情報は一切考慮していない。これを考慮できるようにさらに学習する 7 / 17

提案手法: Training クエリの論文 PQ だけでなく, positive paper P+, negative paper
P− も加えた 3 つ組を入力として使う。 8 / 17

提案手法: Training P+: PQ が引用した論文 P−: 2 種類の選び方がある。1 つは, PQ
が引用していない論文からランダムに 1 つ選ぶ。もう 1 つは, P+ が引用しているにもかかわらず PQ が引用していない論文からランダムに 1 つ選ぶ（hard neagtives）。もし全くクエリに関係ない論文なら, そのクエリが引用した論文とも全く関係ないのは自明であるが, hard negatives では自明でない例を学習するということになる。 9 / 17

提案手法: Training PQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ, [CLS] トークンの出力から埋め込みを得る.
入力形式は, 基本的には「論文のタイトル + abstract」としている。後の実験で, abstract を使わないタイトルのみ場合や author（著者）, venue（会議名）のメタ情報を入力に加えた場合とも比較している。これら 3 つの埋め込みについて, 以下のような TripletMarginLoss を計算し, back propagation する. 10 / 17

提案手法: Evaluation • クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トーク
ンの出力から埋め込みを得る • 推論時には引用ネットワーク情報が不要というのがポイント 11 / 17

実験: pre-trained model の作成 • Semantic Scholar から 146K のクエリ論文を訓練用に,
32K の論文を validation 用に抽出した。クエリ論文 1 つに対し, 最大 5 つの PQ, P+, P− の 3 つ組を作成。 5 つの 3 つ組のうち 2 つは hard negatives, 3 つは easy negatives となっている。累計 684K の 3 つ組を訓練用に, 145K を validation 用に用意した • https://github.com/allenai/specter 12 / 17

実験: タスク・データセット scientific paper embeddings を包括的に評価するための新たなフレームワークである SCIDOCS を用意した（この論文のもう 1
つのポイント）。 SCIDOCS では論文に関する 7 つのタスクで評価する。 • MeSH Classification • Paper Topic Classification • Citation Prediction (Direct Citations) • Citation Prediction (Co-Citations) • User Activity (Co-Views) • User Activity (Co-Reads) • Recommendation 13 / 17

結果 14 / 17

分析: Ablation Study 15 / 17

分析: Visualization 16 / 17

分析: Comparison with Task Speciﬁc Fine-Tuning 17 / 17

【論文紹介】SPECTER: Document-level Representation Le...

【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

SPECTER: Document-level Representation Learning using Citation-informed Transformers Cohan et al.,

読んだ論文 ACL 2020 https://www.aclweb.org/anthology/2020.acl-main.207.pdf 2 / 17

どんな論文？ • 文書間の関係の情報（引用ネットワークなど）を BERT に取り入れて, document representation を生成する方法を新たに提案 •

論文の背景 • BERT のような pre-trained のニューラル言語モデルが word や sentence 単位の埋め込みにおいて有用であることは広く研究さ

関連研究 hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL 2018): （BERT

関連研究 A Context-Aware Citation Recommendation Model with BERT and Graph

提案手法 SPECTER: Scientiﬁc Paper Embeddings using Citation-informed TransformERs • 論文の埋め込みを

提案手法: Training クエリの論文 PQ だけでなく, positive paper P+, negative paper

提案手法: Training P+: PQ が引用した論文 P−: 2 種類の選び方がある。1 つは, PQ

提案手法: Training PQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ, [CLS] トークンの出力から埋め込みを得る.

提案手法: Evaluation • クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トーク

実験: pre-trained model の作成 • Semantic Scholar から 146K のクエリ論文を訓練用に,

実験: タスク・データセット scientiﬁc paper embeddings を包括的に評価するための新たなフレームワークである SCIDOCS を用意した（この論文のもう 1

結果 14 / 17

分析: Ablation Study 15 / 17

分析: Visualization 16 / 17

分析: Comparison with Task Speciﬁc Fine-Tuning 17 / 17