Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 Taking Notes on the Fly Helps Language Pre...
Search
Reo
June 10, 2021
Research
0
43
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
Reo
June 10, 2021
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Reformer: The Efficient Transformer
reo11
0
260
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
170
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
260
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
reo11
0
190
NAACL読み会 Attention is not Explanation
reo11
0
160
Other Decks in Research
See All in Research
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
130
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.5k
【SIGGRAPH Asia 2025】Lo-Fi Photograph with Lo-Fi Communication
toremolo72
0
120
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
280
CoRL2025速報
rpc
4
4.2k
2025-11-21-DA-10th-satellite
yegusa
0
120
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
460
POI: Proof of Identity
katsyoshi
0
140
データサイエンティストの業務変化
datascientistsociety
PRO
0
230
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
120
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.4k
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
500
Featured
See All Featured
New Earth Scene 8
popppiees
1
1.5k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
110
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
340
So, you think you're a good person
axbom
PRO
2
1.9k
Why Our Code Smells
bkeepers
PRO
340
58k
Amusing Abliteration
ianozsvald
0
110
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7k
The Curse of the Amulet
leimatthew05
1
8.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Thoughts on Productivity
jonyablonski
74
5k
Transcript
Taking Notes on the Fly Helps Language Pre-Training Qiyu Wu,
Chen Xing, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu Peking University, Nankai University, Microsoft Research ICLR 2021 紹介者: 平尾 礼央(TMU, M2, 小町研究室) 9 June, 2021 @論文紹介
Abstract • 言語モデルの低頻度語問題 ◦ BERT等のモデルは教師なしで言語表現を学習しているが、低頻度語は十分なデータがな く、最適化が不十分でノイズとなりやすい • 低頻度語の辞書を別に用意することで解決 ◦ 低頻語の辞書(Note
Embedding)を追加する、Taking Notes on the Fly(TNF)を提案 ◦ 低頻度語出現時にそちらのベクトルも使用、更新 • BERT、ELECTRAで実験 ◦ 同じlossになるまでの事前学習時間が 60%短縮 ◦ 同じiteration数でGLUEスコア上昇
Introduction • 左下の図のようなMLMの学習を行う場合、低頻度語「COVID-19」の情報が少ないので、周辺 の文脈から予測し、間違った単語を予測してしまう • 低頻度語用の辞書を別に持ち、都度更新することで「 COVID-19」が出現する別の文の情報を 増やすことができる
Taking Notes on the Fly • データセット ◦ BERTと同じWikipedia corpusとBook
corpus ◦ 合計3.47B words • 低頻度語の定義 ◦ 事前学習データセットの中で 100~500回出現する単語 ◦ 合計200K words程度出現 • 低頻度語の辞書(NoteDict) ◦ word/positional embeddingと同様の方法で初期化、以下の式で更新 ◦ Note: 単語wと入力系列xに対する、wのサブワードに対応する encoder出力(s-k~t+kでkは周辺語の 知識獲得の為のwindow幅) ◦ NoteDict: 学習時の更新方法(今回は γ=0.1, k=16)
The training framework of Taking Notes on the FLY
Pre-training Efficiency • 事前学習 ◦ BERT: Masked Language Modelのみ、ELECTRA: Replace
Token Detection • 事前学習の学習効率、GLUEスコア改善 ◦ 下図 (a), (b)で、TNFを使った方がlossの減りが早い ◦ (c)では、同じIteration数でもTNFの方がGLUEスコアが高い ▪ TNFにより低頻度語のノイズを減らせたため効率 ↑
Results • GLUEの各タスクと全体のスコア ◦ F: fine-tune時もNoteDictの更新 ◦ U: fine-tune時はback-propagationにより学習 ◦
TNFは下流タスクのデータが小さい時に特に効果的な初期状態を提供する
Conclusion • 言語モデル学習時の低頻度語問題に注目 ◦ 低頻度語の不十分な学習による、全体の事前学習効率低下の可能性を指摘 ◦ 低頻度語用の辞書を持つ Taking Notes on
the Fly(TNF)を提案 • 低頻度語用の辞書 ◦ 使用時にその辞書から呼び出すことで情報強化 ◦ encoder出力を使用し、直接更新をかける • まとめ ◦ 同じ性能に達するまでの事前学習時間 60%短縮 ◦ 同じ数のiteration数でTNFを使った方がGLUEスコアが高い ◦ 特に下流タスクのデータが少ない場合に有効 • open reviewのコメント ◦ シンプルな手法で良い結果になっているが、分析が不十分( 6,6,6,7)