Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Word Relatives om Context for Word Semse Disamb...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
April 24, 2014
380

Word Relatives om Context for Word Semse Disambiguation

4/24 ぶんけんしょうかい

Avatar for miyanishi

miyanishi

April 24, 2014

Transcript

  1. 論文情報  Martinez David, Eneko Agirre, and Xinglong Wang. “Word

    relatives in context for word sense disambiguation.” Proceedings of the 2006 Australasian Language Technology Workshop (ALTW2006), p42-50 1
  2. 背景 - Sensevalでの流行-  Sensevalの現状  教師あり学習が優勢  ベースラインを少し超える程度の精度 

    原因:訓練データ(=タグ付きコーパス)が足りない  タグ付きコーパス構築の問題点  コストが高い(人手でのアノテーション)  分野に依存している ⇒knowledge acquisition bottleneck (知識獲得に関するボトルネック) 4
  3. 関連研究 - 「一義の類似語」を用いる手法 (Leacock et al.,1998)-  特徴  Machine

    Learning(ML)を使用  ML用のトレーニング用の例は自動的に作成  ステップ ①目標語に類似する語の中で一義のものを選択 ②①で取得した類似語をネットで検索して例を取得 ③目標語と取得した例から訓練データを作成 ④MLに入れて学習 「目標語と同義」 かつ 「一義の語」 は少ない 6
  4. 提案手法 -概要-  関連研究との違い  類似語として多義の語も使用  MLを使用しない  大まかなステップ

     類似語を集める  類似語で置き換えたトークン列を検索する  検索で得た文をランク付け  ランクが高い類似語の語義が選択される 7
  5. 提案手法 -詳細2-  検索で得た文をランク付け  含まれるトークンの数  多ければ多いほどランクが高い  「類似語」の種類

     同義語>直近の下位語>直近の上位語>その他  ヒット数  多くの文がヒットすればランクが高い  ランクが高い類似語の語義が選択される 9
  6. 具体例(1)  “church”の意味 意味① キリスト教徒 意味② 教会(建築物) 意味③ 教会・教派(グループ) The

    church was rebuild in the 13th century and further modifications and restoration were carried out in the 15th century. 10
  7. 実験設定  データセット  Senseval-2(S2LS)・・・WordNet1.7 29個の名詞  Senseval-3(S3LS)・・・WordNet1.71 20個の名詞 

    評価方法  Sensevalが提供している評価用ソフトを使用  Recallで評価(必ず答えを返すのでPrecision=Recall)  表記  MR:関連研究(一義の語を用いたWSD)  RC:提案手法 12
  8. 他システムとの比較 -実験-  他システムの表記:  RK:自動ランキング(McCarthy et al, 2004) 

    MT:機械翻訳タスクの一部(Wang and Martinez,2006)  NR:類似語の数で評価  上記とMR&CRを比較  結果 15
  9. 他システムとの比較 -結果と考察-  RKの結果が一番良い  どのアルゴリズムも良いとは言えない結果  組み合わせて使ってみるのが良い? ⇒カッパ値を見てみる 

    似ている:組み合わせても意味がない  似ていない:組み合わせることで結果が変わる可能性有  全数値が1未満であり、互いに似ていないと判断 S2LS S3LS 16