Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Word Relatives om Context for Word Semse Disamb...

Avatar for miyanishi miyanishi
April 24, 2014
380

Word Relatives om Context for Word Semse Disambiguation

4/24 ぶんけんしょうかい

Avatar for miyanishi

miyanishi

April 24, 2014
Tweet

Transcript

  1. 論文情報  Martinez David, Eneko Agirre, and Xinglong Wang. “Word

    relatives in context for word sense disambiguation.” Proceedings of the 2006 Australasian Language Technology Workshop (ALTW2006), p42-50 1
  2. 背景 - Sensevalでの流行-  Sensevalの現状  教師あり学習が優勢  ベースラインを少し超える程度の精度 

    原因:訓練データ(=タグ付きコーパス)が足りない  タグ付きコーパス構築の問題点  コストが高い(人手でのアノテーション)  分野に依存している ⇒knowledge acquisition bottleneck (知識獲得に関するボトルネック) 4
  3. 関連研究 - 「一義の類似語」を用いる手法 (Leacock et al.,1998)-  特徴  Machine

    Learning(ML)を使用  ML用のトレーニング用の例は自動的に作成  ステップ ①目標語に類似する語の中で一義のものを選択 ②①で取得した類似語をネットで検索して例を取得 ③目標語と取得した例から訓練データを作成 ④MLに入れて学習 「目標語と同義」 かつ 「一義の語」 は少ない 6
  4. 提案手法 -概要-  関連研究との違い  類似語として多義の語も使用  MLを使用しない  大まかなステップ

     類似語を集める  類似語で置き換えたトークン列を検索する  検索で得た文をランク付け  ランクが高い類似語の語義が選択される 7
  5. 提案手法 -詳細2-  検索で得た文をランク付け  含まれるトークンの数  多ければ多いほどランクが高い  「類似語」の種類

     同義語>直近の下位語>直近の上位語>その他  ヒット数  多くの文がヒットすればランクが高い  ランクが高い類似語の語義が選択される 9
  6. 具体例(1)  “church”の意味 意味① キリスト教徒 意味② 教会(建築物) 意味③ 教会・教派(グループ) The

    church was rebuild in the 13th century and further modifications and restoration were carried out in the 15th century. 10
  7. 実験設定  データセット  Senseval-2(S2LS)・・・WordNet1.7 29個の名詞  Senseval-3(S3LS)・・・WordNet1.71 20個の名詞 

    評価方法  Sensevalが提供している評価用ソフトを使用  Recallで評価(必ず答えを返すのでPrecision=Recall)  表記  MR:関連研究(一義の語を用いたWSD)  RC:提案手法 12
  8. 他システムとの比較 -実験-  他システムの表記:  RK:自動ランキング(McCarthy et al, 2004) 

    MT:機械翻訳タスクの一部(Wang and Martinez,2006)  NR:類似語の数で評価  上記とMR&CRを比較  結果 15
  9. 他システムとの比較 -結果と考察-  RKの結果が一番良い  どのアルゴリズムも良いとは言えない結果  組み合わせて使ってみるのが良い? ⇒カッパ値を見てみる 

    似ている:組み合わせても意味がない  似ていない:組み合わせることで結果が変わる可能性有  全数値が1未満であり、互いに似ていないと判断 S2LS S3LS 16