Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020COLING読み会_Linguistic-Profiling-of-a-Neural-Language-Model
Search
Ikumi Yamashita
January 19, 2021
Technology
0
81
2020COLING読み会_Linguistic-Profiling-of-a-Neural-Language-Model
Ikumi Yamashita
January 19, 2021
Tweet
Share
More Decks by Ikumi Yamashita
See All by Ikumi Yamashita
2021論文紹介_When-Do-You-Need-Billions-of-Words-of-Pretraining-Data?
ikumi193
0
140
2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models
ikumi193
0
51
2021論文紹介_CANINE:-Pre-training-an-Efficient-Tokenization-Free-Encoder-for-Language-Representation
ikumi193
0
250
2020EMNLP読み会_Identifying-Elements-Essential-for-BERT's-Multilinguality
ikumi193
0
87
2020ACL読み会_FastBERT:-a-Self-distilling-BERT-with-Adaptive-Inference-Time
ikumi193
0
120
2020論文紹介_Finding-Universal-Grammatical-Relations-in-Multilingual-BERT
ikumi193
0
210
2019EMNLP読み会_Unicoder_A_Universal_Language_Encoder_by_Pre-training_with_Multiple_Cross-lingual_Tasks
ikumi193
0
44
2019論文読み会_Language-Modeling-with-Shared-Grammar
ikumi193
0
130
2019ACL読み会_Choosing-Transfer-Languages-for-Cross-Lingual-Learning
ikumi193
0
38
Other Decks in Technology
See All in Technology
Oracle Database で機械学習を始めよう! Oracle Machine Learning
oracle4engineer
PRO
1
140
これまでのキャリアとこれからMLエンジニアとしてどう動くか
masatakashiwagi
0
290
Cloud Friendly(?) Jenkins. How we failed to make Jenkins cloud native and what we learned?
onenashev
PRO
0
110
技術広報として2023年度に頑張ったこと / What we did well in FY2023 as a DevRel
pauli
5
460
#51 “Empowering Azure Storage with RDMA”
cafenero_777
3
210
.NETの非同期戦略とUnityとの相互運用
neuecc
2
2.4k
暗黙知を集積するプラットフォーム : 「健常者エミュレータ事例集」の取り組み
sora32127
1
160
Autify Company Deck
autifyhq
1
30k
オーティファイ会社紹介資料 / Autify Company Deck
autifyhq
7
100k
BDD(Cucumber)コミュニティが無料提供しているコンテンツの紹介と現在起きている危機
nihonbuson
4
730
なんで私に登壇依頼が?! ~頼られるエンジニアになるためには~ /
mixi_engineers
PRO
2
200
KTC_DBRE.pdf
_awache
0
290
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
40
12k
The MySQL Ecosystem @ GitHub 2015
samlambert
242
12k
What's new in Ruby 2.0
geeforr
335
31k
The Straight Up "How To Draw Better" Workshop
denniskardys
227
130k
Building a Scalable Design System with Sketch
lauravandoore
455
32k
A Philosophy of Restraint
colly
195
15k
Building Adaptive Systems
keathley
29
1.8k
Done Done
chrislema
178
15k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
58
14k
What’s in a name? Adding method to the madness
productmarketing
PRO
14
2.6k
Why You Should Never Use an ORM
jnunemaker
PRO
50
8.6k
Raft: Consensus for Rubyists
vanstee
130
6.2k
Transcript
紹介者:⼭下郁海 (TMU M1 ⼩町研究室) 2020/01/19 @ COLING2020 読み会 1
• BERT の内部表現に対して詳細な分析を⾏った論⽂ Ø 様々な⾔語特性を反映した 68 のサブタスクを⽤いた分析 • Fine-tuning 前後での変化を確認
Ø 各⾔語での NLI での Fine-tuning により広範囲な⾔語特性をカバーする能 ⼒が失われることを確認 Ø 代わりによりタスク固有の知識を獲得している • BERT の持つ⾔語知識が下流タスクにどのような影響を与えるのかの調査 Ø より広範な⾔語特性をカバーしていれば、下流タスクの性能も向上するこ とを確認 Overview 2
Settings 3
Probing tasks • Profiling-UD: a Tool for Linguistic Profiling Text
[Brunato et al., 2020] に基づく 4
Models • NLM Ø pre-trained English BERT (12 layers, 768
hiddens) Ø ⽂レベルの表現を得るために CLS トークンを使⽤ • Probing Model Ø LinearSVR Ø BERT の CLS トークンを⼊⼒に、各 probing task の値を計算 例:⽂⻑、type token ration、POS タグの分布、など 5
Profiling BERT 6
Profiling BERT • 各グループの probing task に対する各層ごとのスピアマンの順位相関係数 ( スコア) を計算、平均をとったもの
Ø ベースライン:⽂⻑との相関で順位相関係数を計算したもの • 各層ごとのスコアのグラフ 7
Layerwise scores • 各 probing task に対する各層ごとのスピアマンの順位相関係数 ( スコア) Ø
ベースライン (B):⽂⻑との相関で順位相関係数を計算したもの 8
Hierarchical clustering • スコアによる階層クラスタリング (括弧内の数字は⽂⻑との相関による順位) 9
Impact of fine-tuning 10
NLI fine-tuning • NLI (Native Language Identification) Ø (Natural Language
Inference ではない) Ø 第⼆⾔語で書かれたエッセイから⺟国語を当てるタスク Ø 今回はイタリア語と各別⾔語の⼆値分類 Ø ベースラインは zero rule algorithm • 結果から BERT はどの⾔語でも性能が⾼いことがわかる Ø イタリア語から遠い⾔語ほど性能が⾼く、近い⾔語ほど性能が低い 11
Impact of fine-tuning • 各モデルのレイヤーごとの スコア Ø fine-tuning 後のモデルが⼀般的な⾔語知識を犠牲にしてタスク固有の能⼒ を得ていることが⽰唆されている
(特に近い⾔語対や出⼒層に近い層で顕 著) 12
Impact of fine-tuning • 出⼒層における各モデルと BERT-base モデルの スコアの差 13
Are BERT’s linguistic knowledge useful for downstream task? 14
Are linguistic features useful? • NLI のデータを正しく分類できたセットと正しく分類できなかったセットに 分割、各⽂に対して probing task
を実⾏ Ø 各セットにおいて probing task の予測値と実際の値の誤差を Wilcoxon Rank-sum test を⽤いて同⼀の分布であるか判定 → ⼤きく異なる分布であ ることを確認 Ø これは正しく分類できた⽂とできなかった⽂に対する BERT の能⼒が異な ることを⽰唆している 15
Are linguistic features useful? • NLI で正しく分類できた⽂の probing task の
MSE が分類できなかった⽂ probing task の MSE より低い feature の割合のグラフ Ø 正しく分類できた⽂に対しての⽅が、よく把握できている⾔語現象の割合 を⾒ている Ø この割合が⾼い = 正しく⾔語現象が把握できている⽂は下流タスクでも正 しく分類できており、⾔語現象がうまく把握できない⽂は下流タスクでも 正しく分類できない → BERT の⾔語知識は下流タスクにも重要な役割 16
Are linguistic features useful? • NLI で正しく分類できた⽂は他の⽂に⽐べて⽂⻑が⻑い • ⽂⻑のみを⼊⼒として probing
task を⾏う LinearSVR を新たに学習、NLI で正 しく分類できた⽂とできなかった⽂のそれぞれのセットで probing task スコ アを計算 Ø ⽂⻑のみで分類しているのではないか?という点の確認 • NLI で正しく分類できた⽂よりもできなかった⽂の probing task スコアの⽅が ⾼い Ø 正しく分類するには BERT の持つ複雑な⾔語能⼒が必要 17
Conclusion • BERT に対して probing task を⽤いて詳細な分析を実⾏ Ø BERT が広範な⾔語知識を獲得していることを確認
• fine-tuning 前後で⽐較することによって、元々持っていた⾔語知識の多くを 失い、代わりにタスク固有の知識を持つことを確認 • BERT の持つ⾔語知識が下流タスクを解く上で重要な役割を果たしていること を確認 Ø 特定の⽂に対して BERT の持つ⾔語知識が優れていれば、下流タスクの性 能も良い可能性 18