Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 Taking Notes on the Fly Helps Language Pre...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Reo
June 10, 2021
Research
0
43
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
Reo
June 10, 2021
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Reformer: The Efficient Transformer
reo11
0
260
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
170
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
260
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
reo11
0
190
NAACL読み会 Attention is not Explanation
reo11
0
170
Other Decks in Research
See All in Research
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.3k
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.5k
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
570
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
190
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
990
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
610
データサイエンティストの業務変化
datascientistsociety
PRO
0
290
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
200
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
710
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
170
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.7k
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
530
Featured
See All Featured
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
480
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.8k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
99
Docker and Python
trallard
47
3.8k
Designing for humans not robots
tammielis
254
26k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.1k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
390
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
140
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.4k
AI: The stuff that nobody shows you
jnunemaker
PRO
3
370
Test your architecture with Archunit
thirion
1
2.2k
Transcript
Taking Notes on the Fly Helps Language Pre-Training Qiyu Wu,
Chen Xing, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu Peking University, Nankai University, Microsoft Research ICLR 2021 紹介者: 平尾 礼央(TMU, M2, 小町研究室) 9 June, 2021 @論文紹介
Abstract • 言語モデルの低頻度語問題 ◦ BERT等のモデルは教師なしで言語表現を学習しているが、低頻度語は十分なデータがな く、最適化が不十分でノイズとなりやすい • 低頻度語の辞書を別に用意することで解決 ◦ 低頻語の辞書(Note
Embedding)を追加する、Taking Notes on the Fly(TNF)を提案 ◦ 低頻度語出現時にそちらのベクトルも使用、更新 • BERT、ELECTRAで実験 ◦ 同じlossになるまでの事前学習時間が 60%短縮 ◦ 同じiteration数でGLUEスコア上昇
Introduction • 左下の図のようなMLMの学習を行う場合、低頻度語「COVID-19」の情報が少ないので、周辺 の文脈から予測し、間違った単語を予測してしまう • 低頻度語用の辞書を別に持ち、都度更新することで「 COVID-19」が出現する別の文の情報を 増やすことができる
Taking Notes on the Fly • データセット ◦ BERTと同じWikipedia corpusとBook
corpus ◦ 合計3.47B words • 低頻度語の定義 ◦ 事前学習データセットの中で 100~500回出現する単語 ◦ 合計200K words程度出現 • 低頻度語の辞書(NoteDict) ◦ word/positional embeddingと同様の方法で初期化、以下の式で更新 ◦ Note: 単語wと入力系列xに対する、wのサブワードに対応する encoder出力(s-k~t+kでkは周辺語の 知識獲得の為のwindow幅) ◦ NoteDict: 学習時の更新方法(今回は γ=0.1, k=16)
The training framework of Taking Notes on the FLY
Pre-training Efficiency • 事前学習 ◦ BERT: Masked Language Modelのみ、ELECTRA: Replace
Token Detection • 事前学習の学習効率、GLUEスコア改善 ◦ 下図 (a), (b)で、TNFを使った方がlossの減りが早い ◦ (c)では、同じIteration数でもTNFの方がGLUEスコアが高い ▪ TNFにより低頻度語のノイズを減らせたため効率 ↑
Results • GLUEの各タスクと全体のスコア ◦ F: fine-tune時もNoteDictの更新 ◦ U: fine-tune時はback-propagationにより学習 ◦
TNFは下流タスクのデータが小さい時に特に効果的な初期状態を提供する
Conclusion • 言語モデル学習時の低頻度語問題に注目 ◦ 低頻度語の不十分な学習による、全体の事前学習効率低下の可能性を指摘 ◦ 低頻度語用の辞書を持つ Taking Notes on
the Fly(TNF)を提案 • 低頻度語用の辞書 ◦ 使用時にその辞書から呼び出すことで情報強化 ◦ encoder出力を使用し、直接更新をかける • まとめ ◦ 同じ性能に達するまでの事前学習時間 60%短縮 ◦ 同じ数のiteration数でTNFを使った方がGLUEスコアが高い ◦ 特に下流タスクのデータが少ない場合に有効 • open reviewのコメント ◦ シンプルな手法で良い結果になっているが、分析が不十分( 6,6,6,7)