Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 Taking Notes on the Fly Helps Language Pre...
Search
Reo
June 10, 2021
Research
0
39
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
Reo
June 10, 2021
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Reformer: The Efficient Transformer
reo11
0
240
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
150
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
230
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
reo11
0
160
NAACL読み会 Attention is not Explanation
reo11
0
91
Other Decks in Research
See All in Research
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
120
データサイエンティストの就労意識~2015→2024 一般(個人)会員アンケートより
datascientistsociety
PRO
0
710
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
380
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.1k
NLP Colloquium
junokim
1
160
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
12
8.4k
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
業界横断 副業・兼業者の実態調査
fkske
0
190
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
320
数理最適化に基づく制御
mickey_kubo
5
680
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
750
近似動的計画入門
mickey_kubo
4
980
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Gamification - CAS2011
davidbonilla
81
5.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Optimizing for Happiness
mojombo
379
70k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
510
Designing for humans not robots
tammielis
253
25k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
Transcript
Taking Notes on the Fly Helps Language Pre-Training Qiyu Wu,
Chen Xing, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu Peking University, Nankai University, Microsoft Research ICLR 2021 紹介者: 平尾 礼央(TMU, M2, 小町研究室) 9 June, 2021 @論文紹介
Abstract • 言語モデルの低頻度語問題 ◦ BERT等のモデルは教師なしで言語表現を学習しているが、低頻度語は十分なデータがな く、最適化が不十分でノイズとなりやすい • 低頻度語の辞書を別に用意することで解決 ◦ 低頻語の辞書(Note
Embedding)を追加する、Taking Notes on the Fly(TNF)を提案 ◦ 低頻度語出現時にそちらのベクトルも使用、更新 • BERT、ELECTRAで実験 ◦ 同じlossになるまでの事前学習時間が 60%短縮 ◦ 同じiteration数でGLUEスコア上昇
Introduction • 左下の図のようなMLMの学習を行う場合、低頻度語「COVID-19」の情報が少ないので、周辺 の文脈から予測し、間違った単語を予測してしまう • 低頻度語用の辞書を別に持ち、都度更新することで「 COVID-19」が出現する別の文の情報を 増やすことができる
Taking Notes on the Fly • データセット ◦ BERTと同じWikipedia corpusとBook
corpus ◦ 合計3.47B words • 低頻度語の定義 ◦ 事前学習データセットの中で 100~500回出現する単語 ◦ 合計200K words程度出現 • 低頻度語の辞書(NoteDict) ◦ word/positional embeddingと同様の方法で初期化、以下の式で更新 ◦ Note: 単語wと入力系列xに対する、wのサブワードに対応する encoder出力(s-k~t+kでkは周辺語の 知識獲得の為のwindow幅) ◦ NoteDict: 学習時の更新方法(今回は γ=0.1, k=16)
The training framework of Taking Notes on the FLY
Pre-training Efficiency • 事前学習 ◦ BERT: Masked Language Modelのみ、ELECTRA: Replace
Token Detection • 事前学習の学習効率、GLUEスコア改善 ◦ 下図 (a), (b)で、TNFを使った方がlossの減りが早い ◦ (c)では、同じIteration数でもTNFの方がGLUEスコアが高い ▪ TNFにより低頻度語のノイズを減らせたため効率 ↑
Results • GLUEの各タスクと全体のスコア ◦ F: fine-tune時もNoteDictの更新 ◦ U: fine-tune時はback-propagationにより学習 ◦
TNFは下流タスクのデータが小さい時に特に効果的な初期状態を提供する
Conclusion • 言語モデル学習時の低頻度語問題に注目 ◦ 低頻度語の不十分な学習による、全体の事前学習効率低下の可能性を指摘 ◦ 低頻度語用の辞書を持つ Taking Notes on
the Fly(TNF)を提案 • 低頻度語用の辞書 ◦ 使用時にその辞書から呼び出すことで情報強化 ◦ encoder出力を使用し、直接更新をかける • まとめ ◦ 同じ性能に達するまでの事前学習時間 60%短縮 ◦ 同じ数のiteration数でTNFを使った方がGLUEスコアが高い ◦ 特に下流タスクのデータが少ない場合に有効 • open reviewのコメント ◦ シンプルな手法で良い結果になっているが、分析が不十分( 6,6,6,7)