Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

文献紹介

長岡技術科学大学
勝田 哲弘

katsutan

May 15, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介:
    DSGAN: Generative Adversarial Training for
    Distant Supervision Relation Extraction
    Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers),
    pages 496–505 Melbourne, Australia, July 15 - 20, 2018.
    長岡技術科学大学
    勝田 哲弘

    View Slide

  2. Abstract
    ● Distant supervisoins
    ○ 外部データから効果的にラベルを付けることができる
    ○ ラベルにノイズがあることが問題
    ● DSGAN
    ○ Generative Adversarial Networkを用いてデータセットのクリーニング
    ○ 生成器の出力を負例として判別器を学習
    2

    View Slide

  3. Introduction
    ● Relation extraction
    ○ 文中のentityペア間の関係を予測する
    ○ 例: The [owl] held the mouse in its [claw].
    ■ Component-Whole
    ● DSによるデータの生成
    ○ ノイズが多く含まれるため、ノイズ除去が課題
    3

    View Slide

  4. Adversarial Learning for Distant Supervision
    4

    View Slide

  5. Adversarial Learning for Distant Supervision
    1. DSからデータセット作

    2. True Positive (high),
    False Positive (low)をG
    に抽出させる
    5

    View Slide

  6. Adversarial Learning for Distant Supervision
    1. DSからデータセット作成
    2. True Positive (high), False Positive
    (low)をGに抽出させる
    3. DはGのTPを負例として学習(GがTPを
    抽出する能力が上がるほどDの性能は下
    がる)
    6

    View Slide

  7. Pre-Training Strategy
    GANはPre-Trainingされたモデルのほうが収束しやすい
    DSデータセットからP, NG, NDを用意
    ● Discriminator: simple CNN (P, ND)
    ○ Accuracyが90%を超えるまで学習
    ● Generator: simple CNN (P, NG)
    ○ Pにオーバーフィットさせる
    後に、GにFPの確率を徐々に減少させることを学ばせる。
    7

    View Slide

  8. DSGAN algorithm
    8

    View Slide

  9. Generator
    LGは離散サンプリングステップを含むため、勾配に基づくアルゴリズムで直接最適化が
    できない
    Policy Gradientに基づいて以下の確率を最大化する
    9

    View Slide

  10. Discriminator
    以下のクロスエントロピー損失関数を最小化する
    各エポックの始めにPre-Trainingされたパラメータをロードする
    1エポックでDのパフォーマンスが大きく低下 -> robustなG
    10

    View Slide

  11. Optimizing Generator
    Gの品質をより反映するために、2つの角度から報酬rを定義
    1. Dでpositiveと判断されるpositive samplesの信頼度を最大化
    2. ND上でDの分類精度を下げる(pの最大化)
    11

    View Slide

  12. Cleaning Noisy Dataset with Generator
    ● 1つのrelationに対してGeneratorを1つ作成
    ● GeneratorでDSデータセットを分類
    ○ 正例、負例に分割
    12

    View Slide

  13. Experiments
    ● Reidel dataset
    ○ distant supervision relation extraction dataset
    ● Freebase
    ○ 数十億のtripleを含む知識ベース
    ● New York Times corpus(NYT)
    ● 評価
    ○ 対応するラベル付きデータセットないためHold-Outで評価
    13

    View Slide

  14. Training Process of DSGAN
    NDでDiscriminatorを評価
    ● 学習が進むにつれ、
    Accuracyが下がる
    正負の分類精度を評価
    ● それぞれの手法でクリーニ
    ングしたデータで学習
    14

    View Slide

  15. Performance
    Relation Extractionの精度
    15

    View Slide

  16. Conclusion
    ● GANによるDistant Supervisionのノイズを除去する方法を提

    ● タスクに依存しないため、あらゆるDistant Supervisionモデル
    に適用可
    ● New York Time datasetで有意な向上が見られた
    16

    View Slide