共変量シフトの問題としての語義曖昧性解消の領域適応新納 浩幸, 佐々木 稔文献紹介2019/3/25長岡技術科学大学自然言語処理研究室 吉澤 亜斗武自然言語処理 Vol.21 No.1 p.61-79, 2014
View Slide
1. 概要・語義曖昧性解消(Word Sense Disambiguation, WSD)の領域適応が共変量シフトの問題と見なせることを示し,共変量シフトの解法である確率密度比を重みにしたパラメータ学習によりWSDの領域適応の解決を図った.・提案手法はDaumeの手法と同等以上の正解率を出した.・教師なし領域適応への応用が期待(自然言語処理 Vol.21 No.5 ,2014)2
2. はじめに・WSDとは文 内の多義語 の語義 ∈ を推定する問題・領域適応問題とは,コーパス (ソース領域)から学習された分類器では,コーパス (ターゲット領域)のデータを精度よく解析することができない.・ベースライン:Daumeの手法「素性空間拡張法(Feature Augmentation)」により拡張されたデータを用いてSVMなどで識別を行う.3
2. はじめに_素性空間拡張法・素性空間拡張法ソース領域の訓練データのベクトルを= , , 0 とし,ターゲット領域の訓練データのベクトルを= 0, , とする.こうすることで,共通する特徴は重みづけされやすくなる.4
2. はじめに_共変量シフトの問題・提案手法素性空間拡張法により拡張されたデータを用いてWSDの領域適応問題を共変量シフトの問題として捉える = () ≠ ()∴ =, , = =5
3. 理論_期待損失最小化(途中まで)0= �,(, , ) , = �,(, , ), , , = �, (, , ) , ≈1�=1 (, , )6
3. 理論_提案手法の数式化7
2. 理論_確率密度比の算出・ , ()を求める際にはNaïve Bayes のモデルを用いる.用例の素性リスト{1, 2, ⋯ }を作成しておく. = �=1 = , + 1 + 28
4. 実験・BCCWJコーパスのPB(書籍),OC(Yahoo!知恵袋)及びPN(新聞)を異なった領域として実験を行う.・SemEval-2の日本語WSDタスクの上記の領域のコーパスの一部に語義タグを付けたデータを利用・ある程度の頻度のある多義語16単語をWSDの対象単語とする.・8種類の素性を利用(単語の品詞,表記など)9
4. 実験10
4. 実験_評価方法11
4. 実験結果12
4. 考察13負の転移:ソース領域とターゲット領域間の距離が離れすぎると,ソース領域の知識を使いすぎによる分類器の精度が悪化が生じる
5. まとめ14・本研究では素性空間拡張法により拡張されたデータに対して共変量シフトの解法を行うことにより,WSDの領域適応の解決が図れることを示した.・BCCWJコーパスの3つの領域における16単語を対象に実験を行い,Daumeの手法と同等以上の正答率を出した.・教師なし領域適応への応用をしていきたい.