文献紹介:共変量シフトの問題としての 語義曖昧性解消の領域適応

7b478cab8e68f81b1f6830077b6649ca?s=47 Atom
March 25, 2019
45

文献紹介:共変量シフトの問題としての 語義曖昧性解消の領域適応

7b478cab8e68f81b1f6830077b6649ca?s=128

Atom

March 25, 2019
Tweet

Transcript

  1. 共変量シフトの問題としての 語義曖昧性解消の領域適応 新納 浩幸, 佐々木 稔 文献紹介 2019/3/25 長岡技術科学大学 自然言語処理研究室

    吉澤 亜斗武 自然言語処理 Vol.21 No.1 p.61-79, 2014
  2. 1. 概要 ・語義曖昧性解消(Word Sense Disambiguation, WSD)の 領域適応が共変量シフトの問題と見なせることを示し, 共変量シフトの解法である確率密度比を重みにした パラメータ学習によりWSDの領域適応の解決を図った. ・提案手法はDaumeの手法と同等以上の正解率を出した.

    ・教師なし領域適応への応用が期待 (自然言語処理 Vol.21 No.5 ,2014) 2
  3. 2. はじめに ・WSDとは文 内の多義語 の語義 ∈ を推定する問題 ・領域適応問題とは,コーパス (ソース領域)から学習された 分類器では,コーパス

    (ターゲット領域)のデータを 精度よく解析することができない. ・ベースライン:Daumeの手法 「素性空間拡張法(Feature Augmentation)」により 拡張されたデータを用いてSVMなどで識別を行う. 3
  4. 2. はじめに_素性空間拡張法 ・素性空間拡張法 ソース領域の訓練データのベクトル を = , , 0 とし,

    ターゲット領域の訓練データのベクトル を = 0, , とする. こうすることで,共通する特徴は重みづけされやすくなる. 4
  5. 2. はじめに_共変量シフトの問題 ・提案手法 素性空間拡張法により拡張されたデータを用いてWSDの 領域適応問題を共変量シフトの問題として捉える = () ≠ () ∴

    = , , = = 5
  6. 3. 理論_期待損失最小化(途中まで) 0 = � , (, , ) ,

    = � , (, , ) , , , = � , (, , ) , ≈ 1 � =1 ( , , ) 6
  7. 3. 理論_提案手法の数式化 7

  8. 2. 理論_確率密度比の算出 ・ , ()を求める際にはNaïve Bayes のモデルを用いる. 用例の素性リスト{1 , 2

    , ⋯ }を作成しておく. = � =1 = , + 1 + 2 8
  9. 4. 実験 ・BCCWJコーパスのPB(書籍),OC(Yahoo!知恵袋)及び PN(新聞)を異なった領域として実験を行う. ・SemEval-2の日本語WSDタスクの上記の領域のコーパスの 一部に語義タグを付けたデータを利用 ・ある程度の頻度のある多義語16単語をWSDの対象単語とする. ・8種類の素性を利用(単語の品詞,表記など) 9

  10. 4. 実験 10

  11. 4. 実験_評価方法 11

  12. 4. 実験結果 12

  13. 4. 考察 13 負の転移:ソース領域とターゲット領域間の距離が離れすぎると, ソース領域の知識を使いすぎによる分類器の精度が悪化が生じる

  14. 5. まとめ 14 ・本研究では素性空間拡張法により拡張されたデータに対して 共変量シフトの解法を行うことにより,WSDの領域適応の 解決が図れることを示した. ・BCCWJコーパスの3つの領域における16単語を対象に実験を 行い,Daumeの手法と同等以上の正答率を出した. ・教師なし領域適応への応用をしていきたい.