Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介5月29日

miyanishi
May 29, 2014
370

 文献紹介5月29日

miyanishi

May 29, 2014
Tweet

Transcript

  1.  タイトル: Unsupervised WSD based on automatically retrieved examples: The

    importance of bias  著者: Eneko Agirre(IXA NLP Group) David Martinez(〃)  Proceeding of EMNLP 2004,p25-32 01
  2.  一義の類似語を使う手法  対象語の語義を WordNet中の一義な語に関連付ける  対象語の語義に近いほど信頼性UP ▪ 同義語(Type0) ▪

    直近の下位語(Type1) ▪ 直近の上位語(Type2) ▪ 遠方の上位語(Type2,3,4・・・) ▪ 兄弟関係にある語(Type3) 対象語に近い 対象語から遠い ※遠方の上位語は、距離によっては兄弟関係にある語より遠くなる 06
  3.  文の抽出  検索した一義語を中心に文or文の断片を抽出  一部の文を破棄 ▪ 長さが6語以下の文 ▪ 英数字以外の語を2語以上含む文

    ▪ 小文字より大文字が多い文  置換(一義語⇒対象語)  抽出した文:対象語の類似語(一義)を含む  学習に使用するため対象語に置換 09
  4.  1994年にYarowskyが提唱 ℎ , = log⁡ ( Pr⁡ ( |

    ) Pr⁡ ( | ) ≠ )  ℎが一番大きくなる語義 と素性 の 組み合わせを選択 15
  5.  Semcorコーパス  トレーニングデータに使用  SENSEVAL-2 英語語彙セット  基本は実験の評価用 

    素性の比較の際にはバイアスを使用(※)  2セット用意 ▪ A:Semcorに例文が10文以上ある16個の名詞 ▪ B:例文が10文以下しかない出現頻度の低い名詞 ※語彙セット中の語義に対する用例数と、コーパスの中の用例数の割合が一致 19
  6.  大規模コーパスの自動構築  実験  素性による変化  バイアスによる変化  Semcorとの比較

     教師なし手法と他のアプローチの比較  大規模コーパスの有用性を示す  Semcorや最頻語義選択と合わせると良い 26