Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】SPECTER: Document-level Representation Le...
Search
Kaito Sugimoto
November 02, 2020
Research
0
410
【論文紹介】SPECTER: Document-level Representation Learning using Citation-informed Transformers
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
November 02, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
100
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
220
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
240
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
440
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
210
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
140
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
400
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
890
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
240
Other Decks in Research
See All in Research
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
300
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
850
20241226_くまもと公共交通新時代シンポジウム
trafficbrain
0
420
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
550
Whoisの闇
hirachan
3
310
CoRL2024サーベイ
rpc
1
1.6k
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
570
研究を支える拡張性の高い ワークフローツールの提案 / Proposal of highly expandable workflow tools to support research
linyows
0
310
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
220
書き手はどこを訪れたか? - 言語モデルで訪問行動を読み取る -
hiroki13
0
150
Weekly AI Agents News!
masatoto
31
54k
Evaluating Tool-Augmented Agents in Remote Sensing Platforms
satai
3
150
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7.1k
For a Future-Friendly Web
brad_frost
176
9.6k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
570
How GitHub (no longer) Works
holman
314
140k
Faster Mobile Websites
deanohume
306
31k
Bash Introduction
62gerente
611
210k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Mobile First: as difficult as doing things right
swwweet
223
9.4k
Visualization
eitanlees
146
15k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Done Done
chrislema
182
16k
Transcript
SPECTER: Document-level Representation Learning using Citation-informed Transformers Cohan et al.,
ACL 2020 杉本 海人 Aizawa Lab. B4 2020/11/02 1 / 17
読んだ論文 ACL 2020 https://www.aclweb.org/anthology/2020.acl-main.207.pdf 2 / 17
どんな論文? • 文書間の関係の情報(引用ネットワークなど)を BERT に取り入 れて, document representation を生成する方法を新たに提案 •
論文の分類や推薦などの多くの downstream task で有効性を確認 なぜ読んだか: • context-aware citation recommendation という, 論文の特定の位置 からその箇所に対応づけるべき論文を選ぶタスクに興味を持っ ているが, BERT はまだ殆ど使われていない. 論文の埋め込みは BERT でどのように行うのが良いのかに興味 があった 3 / 17
論文の背景 • BERT のような pre-trained のニューラル言語モデルが word や sentence 単位の埋め込みにおいて有用であることは広く研究さ
れてきたが, document 全体の埋め込みに関しては相対的に研究が 少ない • 特に scientific paper analysis において, 引用ネットワークの埋め込 み自体は Graph Convolutional Network など研究されてきたが, そ れを BERT の 学習時に活かせていなかった 4 / 17
関連研究 hyperdoc2vec: Distributed Representations of Hypertext Documents (ACL 2018): (BERT
ではないが引用の情報を意識して学習) 5 / 17
関連研究 A Context-Aware Citation Recommendation Model with BERT and Graph
Convolutional Networks (2019) (BERT と GCN を組み合わせて論文推薦, ここでは引用の情報は BERT とは別物になっている) 6 / 17
提案手法 SPECTER: Scientific Paper Embeddings using Citation-informed TransformERs • 論文の埋め込みを
Transformer ベースで得る新たな手法 • Transformer を SciBERT(Semantic Scholar の論文で pre-trained さ れた BERT)で初期化する • SciBERT はすでに論文の中身に関する言語情報を獲得している と考えられるが, 論文間の関係情報は一切考慮していない。これ を考慮できるようにさらに学習する 7 / 17
提案手法: Training クエリの論文 PQ だけでなく, positive paper P+, negative paper
P− も加 えた 3 つ組 を入力として使う。 8 / 17
提案手法: Training P+: PQ が引用した論文 P−: 2 種類の選び方がある。1 つは, PQ
が引用していない論文からラ ンダムに 1 つ選ぶ。 もう 1 つは, P+ が引用しているにもかかわらず PQ が引用していない 論文からランダムに 1 つ選ぶ(hard neagtives) 。もし全くクエリに関 係ない論文なら, そのクエリが引用した論文とも全く関係ないのは自 明であるが, hard negatives では自明でない例を学習するということに なる。 9 / 17
提案手法: Training PQ, P+, P− それぞれの論文を入力として, Transformer モデルに入れ, [CLS] トークンの出力から埋め込みを得る.
入力形式は, 基本的には「論文のタイトル + abstract」としている。後 の実験で, abstract を使わないタイトルのみ場合や author(著者), venue(会議名)のメタ情報を入力に加えた場合とも比較している。 これら 3 つの埋め込みについて, 以下のような TripletMarginLoss を計 算し, back propagation する. 10 / 17
提案手法: Evaluation • クエリ論文 P を学習した Transformer モデルに入れ, [CLS] トーク
ンの出力から埋め込みを得る • 推論時には引用ネットワーク情報が不要というのがポイント 11 / 17
実験: pre-trained model の作成 • Semantic Scholar から 146K のクエリ論文を訓練用に,
32K の論文 を validation 用に抽出した。クエリ論文 1 つに対し, 最大 5 つの PQ, P+, P− の 3 つ組を作成。 5 つの 3 つ組のうち 2 つは hard negatives, 3 つは easy negatives となっている。 累計 684K の 3 つ組を訓練用に, 145K を validation 用に用意した • https://github.com/allenai/specter 12 / 17
実験: タスク・データセット scientific paper embeddings を包括的に評価するための新たなフレーム ワークである SCIDOCS を用意した(この論文のもう 1
つのポイ ント) 。 SCIDOCS では論文に関する 7 つのタスクで評価する。 • MeSH Classification • Paper Topic Classification • Citation Prediction (Direct Citations) • Citation Prediction (Co-Citations) • User Activity (Co-Views) • User Activity (Co-Reads) • Recommendation 13 / 17
結果 14 / 17
分析: Ablation Study 15 / 17
分析: Visualization 16 / 17
分析: Comparison with Task Specific Fine-Tuning 17 / 17