Slide 1

Slide 1 text

文献紹介: DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 496–505 Melbourne, Australia, July 15 - 20, 2018. 長岡技術科学大学 勝田 哲弘

Slide 2

Slide 2 text

Abstract ● Distant supervisoins ○ 外部データから効果的にラベルを付けることができる ○ ラベルにノイズがあることが問題 ● DSGAN ○ Generative Adversarial Networkを用いてデータセットのクリーニング ○ 生成器の出力を負例として判別器を学習 2

Slide 3

Slide 3 text

Introduction ● Relation extraction ○ 文中のentityペア間の関係を予測する ○ 例: The [owl] held the mouse in its [claw]. ■ Component-Whole ● DSによるデータの生成 ○ ノイズが多く含まれるため、ノイズ除去が課題 3

Slide 4

Slide 4 text

Adversarial Learning for Distant Supervision 4

Slide 5

Slide 5 text

Adversarial Learning for Distant Supervision 1. DSからデータセット作 成 2. True Positive (high), False Positive (low)をG に抽出させる 5

Slide 6

Slide 6 text

Adversarial Learning for Distant Supervision 1. DSからデータセット作成 2. True Positive (high), False Positive (low)をGに抽出させる 3. DはGのTPを負例として学習(GがTPを 抽出する能力が上がるほどDの性能は下 がる) 6

Slide 7

Slide 7 text

Pre-Training Strategy GANはPre-Trainingされたモデルのほうが収束しやすい DSデータセットからP, NG, NDを用意 ● Discriminator: simple CNN (P, ND) ○ Accuracyが90%を超えるまで学習 ● Generator: simple CNN (P, NG) ○ Pにオーバーフィットさせる 後に、GにFPの確率を徐々に減少させることを学ばせる。 7

Slide 8

Slide 8 text

DSGAN algorithm 8

Slide 9

Slide 9 text

Generator LGは離散サンプリングステップを含むため、勾配に基づくアルゴリズムで直接最適化が できない Policy Gradientに基づいて以下の確率を最大化する 9

Slide 10

Slide 10 text

Discriminator 以下のクロスエントロピー損失関数を最小化する 各エポックの始めにPre-Trainingされたパラメータをロードする 1エポックでDのパフォーマンスが大きく低下 -> robustなG 10

Slide 11

Slide 11 text

Optimizing Generator Gの品質をより反映するために、2つの角度から報酬rを定義 1. Dでpositiveと判断されるpositive samplesの信頼度を最大化 2. ND上でDの分類精度を下げる(pの最大化) 11

Slide 12

Slide 12 text

Cleaning Noisy Dataset with Generator ● 1つのrelationに対してGeneratorを1つ作成 ● GeneratorでDSデータセットを分類 ○ 正例、負例に分割 12

Slide 13

Slide 13 text

Experiments ● Reidel dataset ○ distant supervision relation extraction dataset ● Freebase ○ 数十億のtripleを含む知識ベース ● New York Times corpus(NYT) ● 評価 ○ 対応するラベル付きデータセットないためHold-Outで評価 13

Slide 14

Slide 14 text

Training Process of DSGAN NDでDiscriminatorを評価 ● 学習が進むにつれ、 Accuracyが下がる 正負の分類精度を評価 ● それぞれの手法でクリーニ ングしたデータで学習 14

Slide 15

Slide 15 text

Performance Relation Extractionの精度 15

Slide 16

Slide 16 text

Conclusion ● GANによるDistant Supervisionのノイズを除去する方法を提 案 ● タスクに依存しないため、あらゆるDistant Supervisionモデル に適用可 ● New York Time datasetで有意な向上が見られた 16