Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 Taking Notes on the Fly Helps Language Pre...
Search
Reo
June 10, 2021
Research
0
32
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
Reo
June 10, 2021
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Reformer: The Efficient Transformer
reo11
0
200
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
130
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
180
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
reo11
0
140
NAACL読み会 Attention is not Explanation
reo11
0
73
Other Decks in Research
See All in Research
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
3
670
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
860
MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」
miso2024
3
2.2k
[2024.08.30] Gemma-Ko, 오픈 언어모델에 한국어 입히기 @ 머신러닝부트캠프2024
beomi
0
690
JMED-LLM: 日本語医療LLM評価データセットの公開
fta98
5
1.2k
Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)
kampersanda
2
170
LLM based AI Agents Overview -What, Why, How-
masatoto
2
640
SNLP2024:Planning Like Human: A Dual-process Framework for Dialogue Planning
yukizenimoto
1
320
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
370
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
490
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
1
260
大規模言語モデルのバイアス
yukinobaba
PRO
4
690
Featured
See All Featured
Visualization
eitanlees
145
15k
Imperfection Machines: The Place of Print at Facebook
scottboms
264
13k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Rails Girls Zürich Keynote
gr2m
93
13k
Building Applications with DynamoDB
mza
90
6.1k
Bash Introduction
62gerente
608
210k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
How GitHub (no longer) Works
holman
310
140k
Being A Developer After 40
akosma
86
590k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
505
140k
Transcript
Taking Notes on the Fly Helps Language Pre-Training Qiyu Wu,
Chen Xing, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu Peking University, Nankai University, Microsoft Research ICLR 2021 紹介者: 平尾 礼央(TMU, M2, 小町研究室) 9 June, 2021 @論文紹介
Abstract • 言語モデルの低頻度語問題 ◦ BERT等のモデルは教師なしで言語表現を学習しているが、低頻度語は十分なデータがな く、最適化が不十分でノイズとなりやすい • 低頻度語の辞書を別に用意することで解決 ◦ 低頻語の辞書(Note
Embedding)を追加する、Taking Notes on the Fly(TNF)を提案 ◦ 低頻度語出現時にそちらのベクトルも使用、更新 • BERT、ELECTRAで実験 ◦ 同じlossになるまでの事前学習時間が 60%短縮 ◦ 同じiteration数でGLUEスコア上昇
Introduction • 左下の図のようなMLMの学習を行う場合、低頻度語「COVID-19」の情報が少ないので、周辺 の文脈から予測し、間違った単語を予測してしまう • 低頻度語用の辞書を別に持ち、都度更新することで「 COVID-19」が出現する別の文の情報を 増やすことができる
Taking Notes on the Fly • データセット ◦ BERTと同じWikipedia corpusとBook
corpus ◦ 合計3.47B words • 低頻度語の定義 ◦ 事前学習データセットの中で 100~500回出現する単語 ◦ 合計200K words程度出現 • 低頻度語の辞書(NoteDict) ◦ word/positional embeddingと同様の方法で初期化、以下の式で更新 ◦ Note: 単語wと入力系列xに対する、wのサブワードに対応する encoder出力(s-k~t+kでkは周辺語の 知識獲得の為のwindow幅) ◦ NoteDict: 学習時の更新方法(今回は γ=0.1, k=16)
The training framework of Taking Notes on the FLY
Pre-training Efficiency • 事前学習 ◦ BERT: Masked Language Modelのみ、ELECTRA: Replace
Token Detection • 事前学習の学習効率、GLUEスコア改善 ◦ 下図 (a), (b)で、TNFを使った方がlossの減りが早い ◦ (c)では、同じIteration数でもTNFの方がGLUEスコアが高い ▪ TNFにより低頻度語のノイズを減らせたため効率 ↑
Results • GLUEの各タスクと全体のスコア ◦ F: fine-tune時もNoteDictの更新 ◦ U: fine-tune時はback-propagationにより学習 ◦
TNFは下流タスクのデータが小さい時に特に効果的な初期状態を提供する
Conclusion • 言語モデル学習時の低頻度語問題に注目 ◦ 低頻度語の不十分な学習による、全体の事前学習効率低下の可能性を指摘 ◦ 低頻度語用の辞書を持つ Taking Notes on
the Fly(TNF)を提案 • 低頻度語用の辞書 ◦ 使用時にその辞書から呼び出すことで情報強化 ◦ encoder出力を使用し、直接更新をかける • まとめ ◦ 同じ性能に達するまでの事前学習時間 60%短縮 ◦ 同じ数のiteration数でTNFを使った方がGLUEスコアが高い ◦ 特に下流タスクのデータが少ない場合に有効 • open reviewのコメント ◦ シンプルな手法で良い結果になっているが、分析が不十分( 6,6,6,7)