Slide 1

Slide 1 text

NERのための転移学習 山口泰弘

Slide 2

Slide 2 text

自己紹介 山口 泰弘 / Yasuhiro Yamaguchi ID: @altescy 奈良先端科学技術大学院大学 修士1年

Slide 3

Slide 3 text

転移学習 ● あるドメインのデータや学習済みモデルを使って他の ドメインのモデルを学習する手法 ● 自然言語処理の分野における転移学習 ○ Cross-Domain 例: ニュース → SNS ○ Cross-Lingual 例: 日本語 → 英語 ● データの多いドメインから得られる知識を活用したい domain-specificなNERを行いたいと いう要求は現実問題として多そう

Slide 4

Slide 4 text

アプローチ 1. 単語翻訳 (cross-lingual) 2. Fine-Tuning 3. 潜在表現の共有

Slide 5

Slide 5 text

アプローチ: 単語翻訳 NER MODEL 翻訳 ソース言語 ターゲット言語 ラベル

Slide 6

Slide 6 text

アプローチ: 単語翻訳 ● Cheap Translation for Cross-Lingual Named Entity Recognition [Mayhew+, 2017] ○ 単語翻訳によるCross-Lingual NERの提案 ● Neural Cross-Lingual NER with Minimal Resources [Xie+, 2018] ○ 単語埋め込みのアライメントによる単語翻訳 ○ self-attentionによる語順の違いの吸収

Slide 7

Slide 7 text

アプローチ: Fine-Tuning NER MODEL NER MODEL ソースのデータで学習 ターゲットのデータで再学習

Slide 8

Slide 8 text

アプローチ: Fine-Tuning ● How Transferable are Neural Networks in NLP Applications? [Mou+, 2016] ○ Fine-TuningによるNERタスクの転移学習の可能性を 考察 ● Neural Adaptation Layers for Cross-domain Named Entity Recognition [Lin+, 2018] ○ Fine-Tuningと,固定の学習済みエンコーダの前後に レイヤーを追加する手法の比較

Slide 9

Slide 9 text

アプローチ: 潜在表現の共有 NER MODEL 共有エンコーダ ソース ターゲット

Slide 10

Slide 10 text

アプローチ: 潜在表現の共有 ● Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism [Cao+, 2018] ○ 中国語における,単語分割→NERの転移学習 ● Dual Adversarial Neural Transfer for Low-Resource Named Entity Recognition [Zhou1+, 2019] ○ 高リソース→低リソースの転移学習 ○ 今回はこれにフォーカスします

Slide 11

Slide 11 text

Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] 概要 ● 高リソース→低リソースの転移学習 ● 潜在表現を共有するモデル 提案手法 ● リソース同士のデータの不均衡を考慮する (データ規模・予測の難しさ) ● リソース特有の特徴を考慮する ● 敵対訓練による正則化を行う

Slide 12

Slide 12 text

Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] DATNet-P ソース / 共有 / ターゲット DATNet-F すべて共有

Slide 13

Slide 13 text

Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] Discriminator ● 共有の潜在表現がどちらのリソースのものか判別 ● エンコーダは判別器が誤るように学習 ● 不均衡を考慮した誤差関数 (いわゆる Focal-Loss) データ規模の不均衡を調整 予測の難しい例を学習 Adversarial Training ● 単語埋め込みに敵対的摂動を与えながら学習

Slide 14

Slide 14 text

Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] POSなど追加の特徴量を使わず既存手法と同程度以上 cross-lingual cross-domain

Slide 15

Slide 15 text

Dual Adversarial Neural Transfer for Low-Resource NER [Zhou1+, 2019] Cross-Lingual (英→西) ● ターゲットのデータ数が少ないときはDATNet-F, 多いと きはDATNet-Pがよい Cross-Domain (ニュース→SNS) ● データ規模によらずDATNet-Fがよい

Slide 16

Slide 16 text

サーベイの所感 ● ソースとターゲットで共有する情報と,ドメイン・ 言語特有の情報の処理を分けて学習する ● self-attentionを利用する ○ 大域的な依存関係を捉える ○ 言語ごとの語順の違いを吸収する ● データの不均衡を考慮する ○ ソース・ターゲットのデータ規模 ○ 予測が簡単な例・難しい例