研究室の日本語輪読会で発表したスライドです。 内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
SPECTER: Document-level RepresentationLearning using Citation-informed TransformersCohan et al., ACL 2020杉本 海人Aizawa Lab. B42020/11/021 / 17
View Slide
読んだ論文ACL 2020https://www.aclweb.org/anthology/2020.acl-main.207.pdf2 / 17
どんな論文?• 文書間の関係の情報(引用ネットワークなど)を BERT に取り入れて, document representation を生成する方法を新たに提案• 論文の分類や推薦などの多くの downstream task で有効性を確認なぜ読んだか:• context-aware citation recommendation という, 論文の特定の位置からその箇所に対応づけるべき論文を選ぶタスクに興味を持っているが, BERT はまだ殆ど使われていない.論文の埋め込みは BERT でどのように行うのが良いのかに興味があった3 / 17
論文の背景• BERT のような pre-trained のニューラル言語モデルが word やsentence 単位の埋め込みにおいて有用であることは広く研究されてきたが, document 全体の埋め込みに関しては相対的に研究が少ない• 特に scientific paper analysis において, 引用ネットワークの埋め込み自体は Graph Convolutional Network など研究されてきたが, それを BERT の 学習時に活かせていなかった4 / 17
関連研究hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL2018): (BERT ではないが引用の情報を意識して学習)5 / 17
関連研究A Context-Aware Citation Recommendation Model with BERT and GraphConvolutional Networks (2019)(BERT と GCN を組み合わせて論文推薦, ここでは引用の情報はBERT とは別物になっている)6 / 17
提案手法SPECTER: Scientific Paper Embeddings using Citation-informedTransformERs• 論文の埋め込みを Transformer ベースで得る新たな手法• Transformer を SciBERT(Semantic Scholar の論文で pre-trained された BERT)で初期化する• SciBERT はすでに論文の中身に関する言語情報を獲得していると考えられるが, 論文間の関係情報は一切考慮していない。これを考慮できるようにさらに学習する7 / 17
提案手法: Trainingクエリの論文 PQ だけでなく, positive paper P+, negative paper P− も加えた 3 つ組 を入力として使う。8 / 17
提案手法: TrainingP+: PQ が引用した論文P−: 2 種類の選び方がある。1 つは, PQ が引用していない論文からランダムに 1 つ選ぶ。もう 1 つは, P+ が引用しているにもかかわらず PQ が引用していない論文からランダムに 1 つ選ぶ(hard neagtives)。もし全くクエリに関係ない論文なら, そのクエリが引用した論文とも全く関係ないのは自明であるが, hard negatives では自明でない例を学習するということになる。9 / 17
提案手法: TrainingPQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ,[CLS] トークンの出力から埋め込みを得る.入力形式は, 基本的には「論文のタイトル + abstract」としている。後の実験で, abstract を使わないタイトルのみ場合や author(著者),venue(会議名)のメタ情報を入力に加えた場合とも比較している。これら 3 つの埋め込みについて, 以下のような TripletMarginLoss を計算し, back propagation する.10 / 17
提案手法: Evaluation• クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トークンの出力から埋め込みを得る• 推論時には引用ネットワーク情報が不要というのがポイント11 / 17
実験: pre-trained model の作成• Semantic Scholar から 146K のクエリ論文を訓練用に, 32K の論文を validation 用に抽出した。クエリ論文 1 つに対し, 最大 5 つのPQ, P+, P− の 3 つ組を作成。5 つの 3 つ組のうち 2 つは hard negatives, 3 つは easy negativesとなっている。累計 684K の 3 つ組を訓練用に, 145K を validation 用に用意した• https://github.com/allenai/specter12 / 17
実験: タスク・データセットscientific paper embeddings を包括的に評価するための新たなフレームワークである SCIDOCS を用意した(この論文のもう 1 つのポイント)。SCIDOCS では論文に関する 7 つのタスクで評価する。• MeSH Classification• Paper Topic Classification• Citation Prediction (Direct Citations)• Citation Prediction (Co-Citations)• User Activity (Co-Views)• User Activity (Co-Reads)• Recommendation13 / 17
結果14 / 17
分析: Ablation Study15 / 17
分析: Visualization16 / 17
分析: Comparison with Task Specific Fine-Tuning17 / 17