Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】SPECTER: Document-level Representation Le...
Search
Kaito Sugimoto
November 02, 2020
Research
0
460
【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
November 02, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
120
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
270
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
260
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
500
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
260
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
160
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
460
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
980
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
270
Other Decks in Research
See All in Research
90 分で学ぶ P 対 NP 問題
e869120
19
7.7k
一人称視点映像解析の最先端(MIRU2025 チュートリアル)
takumayagi
5
1.9k
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
1
250
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
150
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
810
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
1.3k
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
24
17k
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
630
NLP2025参加報告会 LT資料
hargon24
1
340
Ad-DS Paper Circle #1
ykaneko1992
0
5.7k
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
530
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
7
1.1k
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
390
YesSQL, Process and Tooling at Scale
rocio
173
14k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
54k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Making Projects Easy
brettharned
117
6.3k
Thoughts on Productivity
jonyablonski
69
4.8k
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
Transcript
SPECTER: Document-level Representation Learning using Citation-informed Transformers Cohan et al.,
ACL 2020 杉本 海人 Aizawa Lab. B4 2020/11/02 1 / 17
読んだ論文 ACL 2020 https://www.aclweb.org/anthology/2020.acl-main.207.pdf 2 / 17
どんな論文? • 文書間の関係の情報(引用ネットワークなど)を BERT に取り入 れて, document representation を生成する方法を新たに提案 •
論文の分類や推薦などの多くの downstream task で有効性を確認 なぜ読んだか: • context-aware citation recommendation という, 論文の特定の位置 からその箇所に対応づけるべき論文を選ぶタスクに興味を持っ ているが, BERT はまだ殆ど使われていない. 論文の埋め込みは BERT でどのように行うのが良いのかに興味 があった 3 / 17
論文の背景 • BERT のような pre-trained のニューラル言語モデルが word や sentence 単位の埋め込みにおいて有用であることは広く研究さ
れてきたが, document 全体の埋め込みに関しては相対的に研究が 少ない • 特に scientific paper analysis において, 引用ネットワークの埋め込 み自体は Graph Convolutional Network など研究されてきたが, そ れを BERT の 学習時に活かせていなかった 4 / 17
関連研究 hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL 2018): (BERT
ではないが引用の情報を意識して学習) 5 / 17
関連研究 A Context-Aware Citation Recommendation Model with BERT and Graph
Convolutional Networks (2019) (BERT と GCN を組み合わせて論文推薦, ここでは引用の情報は BERT とは別物になっている) 6 / 17
提案手法 SPECTER: Scientific Paper Embeddings using Citation-informed TransformERs • 論文の埋め込みを
Transformer ベースで得る新たな手法 • Transformer を SciBERT(Semantic Scholar の論文で pre-trained さ れた BERT)で初期化する • SciBERT はすでに論文の中身に関する言語情報を獲得している と考えられるが, 論文間の関係情報は一切考慮していない。これ を考慮できるようにさらに学習する 7 / 17
提案手法: Training クエリの論文 PQ だけでなく, positive paper P+, negative paper
P− も加 えた 3 つ組 を入力として使う。 8 / 17
提案手法: Training P+: PQ が引用した論文 P−: 2 種類の選び方がある。1 つは, PQ
が引用していない論文からラ ンダムに 1 つ選ぶ。 もう 1 つは, P+ が引用しているにもかかわらず PQ が引用していない 論文からランダムに 1 つ選ぶ(hard neagtives) 。もし全くクエリに関 係ない論文なら, そのクエリが引用した論文とも全く関係ないのは自 明であるが, hard negatives では自明でない例を学習するということに なる。 9 / 17
提案手法: Training PQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ, [CLS] トークンの出力から埋め込みを得る.
入力形式は, 基本的には「論文のタイトル + abstract」としている。後 の実験で, abstract を使わないタイトルのみ場合や author(著者), venue(会議名)のメタ情報を入力に加えた場合とも比較している。 これら 3 つの埋め込みについて, 以下のような TripletMarginLoss を計 算し, back propagation する. 10 / 17
提案手法: Evaluation • クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トーク
ンの出力から埋め込みを得る • 推論時には引用ネットワーク情報が不要というのがポイント 11 / 17
実験: pre-trained model の作成 • Semantic Scholar から 146K のクエリ論文を訓練用に,
32K の論文 を validation 用に抽出した。クエリ論文 1 つに対し, 最大 5 つの PQ, P+, P− の 3 つ組を作成。 5 つの 3 つ組のうち 2 つは hard negatives, 3 つは easy negatives となっている。 累計 684K の 3 つ組を訓練用に, 145K を validation 用に用意した • https://github.com/allenai/specter 12 / 17
実験: タスク・データセット scientific paper embeddings を包括的に評価するための新たなフレーム ワークである SCIDOCS を用意した(この論文のもう 1
つのポイ ント) 。 SCIDOCS では論文に関する 7 つのタスクで評価する。 • MeSH Classification • Paper Topic Classification • Citation Prediction (Direct Citations) • Citation Prediction (Co-Citations) • User Activity (Co-Views) • User Activity (Co-Reads) • Recommendation 13 / 17
結果 14 / 17
分析: Ablation Study 15 / 17
分析: Visualization 16 / 17
分析: Comparison with Task Specific Fine-Tuning 17 / 17