Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kaito Sugimoto
May 24, 2021
Research
0
230
【論文紹介】OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 24, 2021
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
150
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
340
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
290
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
560
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
340
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
180
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
500
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
1.1k
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
310
Other Decks in Research
See All in Research
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
390
A History of Approximate Nearest Neighbor Search from an Applications Perspective
matsui_528
1
190
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
190
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
1
720
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
290
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1.1k
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
620
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2k
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
150
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
340
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
6.8k
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
210
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.8k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
My Coaching Mixtape
mlcsv
0
69
A designer walks into a library…
pauljervisheath
210
24k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.8k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.5k
Deep Space Network (abreviated)
tonyrice
0
89
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
120
Designing Experiences People Love
moore
143
24k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Transcript
OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models Liu et al.
Kaito Sugimoto Aizawa Lab. M1 2021/05/24 1 / 16
どんな論文? • ドメイン知識を考慮した学術論文事前学習モデルを提案 • Open Academic Graph (OAG) を活用して, 論文のテキストだけで
なく Author, Field of Study, Venue, Affiliation などの Entity 情報を同 時に学習する • Entity 情報が重要になる各種タスクにおいて, SciBERT のスコア を上回る 2 / 16
Academic Graph とは • 論文, 著者, Venue (会議 or ジャーナル)
などの Entity と, authorship (論文-著者 間), paper-publish-in-venue (論文-Venue 間), co-authorship (著者-著者 間) などの Relation から構成されるグ ラフ 3 / 16
Academic Graph の例 • AMiner (KDD ’08) • Microsoft Academic
Graph (MAG) (WWW ’15) • Open Academic Graph (OAG) (KDD ’19) • AMiner を開発した Tsinghua University(精華大学) と MAG を開発した Microsoft の共同研究プロジェクト • https://www.microsoft.com/en-us/research/project/ open-academic-graph/ 4 / 16
OAG 5 / 16
OAG-BERT • 論文に関係する様々な Entity 情報も含めて学習を行う • 以下の 2 つのステップに分かれる •
First Stage: Pre-train the vanilla OAG-BERT. • Second Stage: Enrich OAG-BERT with entity knowledge. 6 / 16
First Stage: Pre-train the vanilla OAG-BERT vanilla version (Entity 情報を含めない,
SciBERT と同じテキストだけの 学習) の OAG-BERT を作成する AMiner に含まれる論文 PDF および PubMed XML の合計 500 万本の論 文テキストを学習に使う SciBERT との違いは? • SciBERT は Semantic Scholar から CS+BioMed 分野の計 114 万本 の論文で事前学習していた. • SciBERT は本文テキストを使うのに対し, OAG-BERT は本文のタ イトルと要旨の間に著者名も挿入する → この時点で著者の vocabularary が多い 7 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 8 / 16
Second Stage: Enrich OAG-BERT with entity knowledge Entity-aware 2D-positional encoding
• Entity 間の区別と, Entity 内の語順の識別のために行う Span-aware entity masking • ERNIE や SpanBERT などの既存の Entity を考慮するモデルと同 様, いくつかの連続した token を MASK して予測させる • MASK する span の長さは幾何分布からサンプル (SpanBERT で効 果的だったから (? )) 9 / 16
Second Stage: Enrich OAG-BERT with entity knowledge 学習 • 少なくとも
3 本は論文を出している著者の論文からランダムに選 び, 1 億 2000 万本の論文を, Author, Fields of Study, Venue, Affiliation とともに学習で使う • vanilla version の学習と異なり, この段階では Text 部分 は title + abstract しか用いない 10 / 16
実験 評価タスク • Zero-shot Inference • Supervised Classification • Name
Disambiguation • Link Prediction • NLP Tasks 11 / 16
Zero-shot Inference prompt とは... 出力部の前に "Field of study:" のようなトークンを出力すること 12
/ 16
他のタスク Supervised Classification → モデルの重みそのままの freeze 設定では OAG-BERT が SciBERT
を全般的に上回るが, 訓練データで fine-tuning すると SciBERT がほぼ 互角になる author 情報を加えると affiliation 分類に役立つ(割と当たり前), field of study 情報は venue 分類に役立つが affiliation 分類にはあまり役立た ない, などの傾向も見られる 13 / 16
他のタスク Name Disambiguation (同じ著者の名前の論文を, 同じ人ごとにクラス タさせるタスク) → SciBERT を上回る (F1
で 0.05 ポイント程度) Link Prediction (Paper-Field, Paper-Venue リンク) heterogeneous graph transformer (HGT) において文字を encode する部 分を元の XLNet から OAG-BERT に置き換えるとスコアが高くなる (SciBERT で置き換えた場合よりも高い) 14 / 16
NLP tasks 15 / 16
まとめ・感想 • 特殊な方法で事前学習しても NLP tasks のパフォーマンスにあま り影響を受けないというのが面白い • わざわざ vanilla
バージョンで著者含めて tokenize したことから 考えるに、vocabulary の情報がかなり重要そう? • CS, BioMed 以外の分野の論文で事前学習して違いを調べたりし てほしいが, 世の中の研究者にそういうモチベーションがあまり ないのかもしれない 16 / 16