Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20190918NERchallenge_tathi_public.pdf
Search
tatHi
September 18, 2019
1
910
20190918NERchallenge_tathi_public.pdf
tatHi
September 18, 2019
Tweet
Share
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
350
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
580
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
550
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
tathi
1
750
要点を聞いてもらえるプレゼンを作ろう
tathi
13
5.8k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
580
論文紹介: Fast WordPiece Tokenization
tathi
0
480
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
590
文系的な興味を理系的な達成目標に変換する
tathi
7
4.6k
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Designing for Performance
lara
604
68k
Docker and Python
trallard
40
3.1k
Six Lessons from altMBA
skipperchong
27
3.5k
Become a Pro
speakerdeck
PRO
25
5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Scaling GitHub
holman
458
140k
A Philosophy of Restraint
colly
203
16k
The World Runs on Bad Software
bkeepers
PRO
65
11k
4 Signs Your Business is Dying
shpigford
180
21k
Writing Fast Ruby
sferik
627
61k
Transcript
About me • Tatsuya Hiraoka • ~2017.3 早⼤(英語教育/理論⾔語学) • ~2019.3
NAIST(松本研) • 2019.4~ 東⼯⼤(岡崎研)、D1 • そーしゃる: • Twitter: 7a7hi • GitHub: tathi 2019/9/18 NLP/CV SoTA Survey Challenge 1
Using Similarity Measures to Select Pretraining Data for NER Xiang
Dai, Sarvnaz Karimi, Ben Hachey, Cecile Paris NAACL 2019 2019/9/18 NLP/CV SoTA Survey Challenge 8
三⽂で • NERの事前学習⽤コーパスをどう選択するか • 三つの指標で事前学習⽤コーパスと メインタスクの類似度を数値化 • 類似度とタスクパフォーマンスに相関有り 2019/9/18 NLP/CV
SoTA Survey Challenge 9
NLPにおけるPretraining ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい 2019/9/18 NLP/CV SoTA
Survey Challenge 10
NLPにおけるPretraining ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 医療コーパス
新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source) 2019/9/18 NLP/CV SoTA Survey Challenge 11
ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) 医療コーパス 新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source)
NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的? 2019/9/18 NLP/CV SoTA Survey Challenge 12
ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) 医療コーパス 新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source)
NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的? ◦ × △ A: 直感で選べ! 2019/9/18 NLP/CV SoTA Survey Challenge 13
ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) 医療コーパス 新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source)
target/sourceの関係性を測るスコアが欲しい →定量的に事前学習コーパスを選択できるかも NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的? 2019/9/18 NLP/CV SoTA Survey Challenge 14 ◦ × △
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 相関があるはず 2019/9/18
NLP/CV SoTA Survey Challenge 15
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 学習器 2019/9/18 NLP/CV SoTA Survey Challenge 16
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 学習器 事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 17
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 学習器 メインタスクの学習 事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 18
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 類似度 学習器 メインタスクの学習 事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 19
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 類似度 学習器 メインタスクの学習 事前学習 性能と相関? 2019/9/18 NLP/CV SoTA Survey Challenge 20
コーパス間の類似度 1. コーパス間の単語の被覆率 2. ⾔語モデルによる指標 3. 単語分散表現による指標 ラベル付き 新聞コーパス ラベルなし
医療コーパス 類似度 𝐷! 𝐷" 2019/9/18 NLP/CV SoTA Survey Challenge 21
コーパス間の類似度 1. コーパス間の単語の被覆率 • sourceの語彙𝑉#! とtargetの語彙𝑉#" から計算 • 語彙が似ているほどスコアが⾼い(⾼いほど良い) ラベル付き
新聞コーパス ラベルなし 医療コーパス 類似度 𝐷! 𝐷" 𝑇𝑉𝐶 𝐷! , 𝐷" = 𝑉#! ∩ 𝑉#" |𝑉## | 𝑉#! 𝑉#" 2019/9/18 NLP/CV SoTA Survey Challenge 22
コーパス間の類似度 2. ⾔語モデルによる指標 • 𝐷! で学習した離散⾔語モデルによる 𝐷" でのパープレキシティを利⽤ • コーパス間の語彙や⽂脈が似ているほど
スコアが下がる(低いほど良い) ラベル付き 新聞コーパス ラベルなし 医療コーパス 類似度 𝐷! 𝐷" 𝑃𝑃𝐿 𝐷! , 𝐷" = . $%& ' 𝑃 𝐷" $ |𝜃#! ( & )$ ⾔語モデル 学習 PPL計測 2019/9/18 NLP/CV SoTA Survey Challenge 23
コーパス間の類似度 3. 単語分散表現による指標 • 𝐷! で単語分散表現を学習 →𝐷" で再学習し、どのくらい動いたかを計算 • コーパス間の語彙や⽂脈が似ているほど
スコアが下がる(低いほど良い) ラベル付き 新聞コーパス ラベルなし 医療コーパス 類似度 𝐷! 𝐷" 𝑊𝑊𝑉 𝐷! , 𝐷" = 1 |𝑉! | 1 𝑑 . $ *! . + , 𝑊 ! $,+ − 𝑊" $,+ . 単語分散表現 𝑊! 単語分散表現 𝑊" 𝑊𝑊𝑉 2019/9/18 NLP/CV SoTA Survey Challenge 24
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 2019/9/18 NLP/CV SoTA Survey Challenge
25
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス 2019/9/18 NLP/CV SoTA Survey Challenge 26
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 27
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2019/9/18 NLP/CV SoTA Survey Challenge 28
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2. ⾔語モデル による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 29
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2. ⾔語モデル による類似度 3. 単語分散表現 による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 30
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2. ⾔語モデル による類似度 3. 単語分散表現 による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 31
NERでの評価 様々なドメインで、 類似度と性能関係あり 薬剤 新聞 ⽣物 ⽣物 ⼯学 実験 2019/9/18
NLP/CV SoTA Survey Challenge 32
NERでの評価 様々なドメインで、 類似度と性能関係あり 薬剤 新聞 ⽣物 ⽣物 ⼯学 実験 2019/9/18
NLP/CV SoTA Survey Challenge 33
NERでの評価 様々なドメインで、 類似度と性能関係あり 薬剤 新聞 ⽣物 ⽣物 ⼯学 実験 類似度・性能の相関係数
内容語(名詞・動詞・形容詞)だけで 語彙被覆率を計算したTVcCが 単語分散表現・⾔語モデルの事前学習 双⽅で性能と強めの相関 2019/9/18 NLP/CV SoTA Survey Challenge 34
まとめと気持ち • シンプルなコーパス間の類似度が、 事前学習のメインタスクへの影響と相関する • 語彙が似たコーパスでの事前学習が効果的 • それはそう • NER以外にも応⽤できそう
• 直感を定量化したのがえらい 2019/9/18 NLP/CV SoTA Survey Challenge 35