Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NERのための転移学習
Search
altescy
September 18, 2019
Research
2
1.2k
NERのための転移学習
altescy
September 18, 2019
Tweet
Share
Other Decks in Research
See All in Research
言語モデルの内部機序:解析と解釈
eumesy
PRO
49
18k
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
880
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
5
2.7k
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
170
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
970
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.1k
学生向けアンケート<データサイエンティストについて>
datascientistsociety
PRO
0
3.3k
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
820
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
230
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
130
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
120
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
390
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Git: the NoSQL Database
bkeepers
PRO
430
65k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Navigating Team Friction
lara
187
15k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Practical Orchestrator
shlominoach
188
11k
Six Lessons from altMBA
skipperchong
28
3.9k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Transcript
NERのための転移学習 山口泰弘
自己紹介 山口 泰弘 / Yasuhiro Yamaguchi ID: @altescy 奈良先端科学技術大学院大学 修士1年
転移学習 • あるドメインのデータや学習済みモデルを使って他の ドメインのモデルを学習する手法 • 自然言語処理の分野における転移学習 ◦ Cross-Domain 例: ニュース →
SNS ◦ Cross-Lingual 例: 日本語 → 英語 • データの多いドメインから得られる知識を活用したい domain-specificなNERを行いたいと いう要求は現実問題として多そう
アプローチ 1. 単語翻訳 (cross-lingual) 2. Fine-Tuning 3. 潜在表現の共有
アプローチ: 単語翻訳 NER MODEL 翻訳 ソース言語 ターゲット言語 ラベル
アプローチ: 単語翻訳 • Cheap Translation for Cross-Lingual Named Entity Recognition
[Mayhew+, 2017] ◦ 単語翻訳によるCross-Lingual NERの提案 • Neural Cross-Lingual NER with Minimal Resources [Xie+, 2018] ◦ 単語埋め込みのアライメントによる単語翻訳 ◦ self-attentionによる語順の違いの吸収
アプローチ: Fine-Tuning NER MODEL NER MODEL ソースのデータで学習 ターゲットのデータで再学習
アプローチ: Fine-Tuning • How Transferable are Neural Networks in NLP
Applications? [Mou+, 2016] ◦ Fine-TuningによるNERタスクの転移学習の可能性を 考察 • Neural Adaptation Layers for Cross-domain Named Entity Recognition [Lin+, 2018] ◦ Fine-Tuningと,固定の学習済みエンコーダの前後に レイヤーを追加する手法の比較
アプローチ: 潜在表現の共有 NER MODEL 共有エンコーダ ソース ターゲット
アプローチ: 潜在表現の共有 • Adversarial Transfer Learning for Chinese Named Entity
Recognition with Self-Attention Mechanism [Cao+, 2018] ◦ 中国語における,単語分割→NERの転移学習 • Dual Adversarial Neural Transfer for Low-Resource Named Entity Recognition [Zhou1+, 2019] ◦ 高リソース→低リソースの転移学習 ◦ 今回はこれにフォーカスします
Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] 概要
• 高リソース→低リソースの転移学習 • 潜在表現を共有するモデル 提案手法 • リソース同士のデータの不均衡を考慮する (データ規模・予測の難しさ) • リソース特有の特徴を考慮する • 敵対訓練による正則化を行う
Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] DATNet-P
ソース / 共有 / ターゲット DATNet-F すべて共有
Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] Discriminator
• 共有の潜在表現がどちらのリソースのものか判別 • エンコーダは判別器が誤るように学習 • 不均衡を考慮した誤差関数 (いわゆる Focal-Loss) データ規模の不均衡を調整 予測の難しい例を学習 Adversarial Training • 単語埋め込みに敵対的摂動を与えながら学習
Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] POSなど追加の特徴量を使わず既存手法と同程度以上
cross-lingual cross-domain
Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] Cross-Lingual
(英→西) • ターゲットのデータ数が少ないときはDATNet-F, 多いと きはDATNet-Pがよい Cross-Domain (ニュース→SNS) • データ規模によらずDATNet-Fがよい
サーベイの所感 • ソースとターゲットで共有する情報と,ドメイン・ 言語特有の情報の処理を分けて学習する • self-attentionを利用する ◦ 大域的な依存関係を捉える ◦ 言語ごとの語順の違いを吸収する
• データの不均衡を考慮する ◦ ソース・ターゲットのデータ規模 ◦ 予測が簡単な例・難しい例