Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介5月29日

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
May 29, 2014
390

 文献紹介5月29日

Avatar for miyanishi

miyanishi

May 29, 2014
Tweet

Transcript

  1.  タイトル: Unsupervised WSD based on automatically retrieved examples: The

    importance of bias  著者: Eneko Agirre(IXA NLP Group) David Martinez(〃)  Proceeding of EMNLP 2004,p25-32 01
  2.  一義の類似語を使う手法  対象語の語義を WordNet中の一義な語に関連付ける  対象語の語義に近いほど信頼性UP ▪ 同義語(Type0) ▪

    直近の下位語(Type1) ▪ 直近の上位語(Type2) ▪ 遠方の上位語(Type2,3,4・・・) ▪ 兄弟関係にある語(Type3) 対象語に近い 対象語から遠い ※遠方の上位語は、距離によっては兄弟関係にある語より遠くなる 06
  3.  文の抽出  検索した一義語を中心に文or文の断片を抽出  一部の文を破棄 ▪ 長さが6語以下の文 ▪ 英数字以外の語を2語以上含む文

    ▪ 小文字より大文字が多い文  置換(一義語⇒対象語)  抽出した文:対象語の類似語(一義)を含む  学習に使用するため対象語に置換 09
  4.  1994年にYarowskyが提唱 ℎ , = log⁡ ( Pr⁡ ( |

    ) Pr⁡ ( | ) ≠ )  ℎが一番大きくなる語義 と素性 の 組み合わせを選択 15
  5.  Semcorコーパス  トレーニングデータに使用  SENSEVAL-2 英語語彙セット  基本は実験の評価用 

    素性の比較の際にはバイアスを使用(※)  2セット用意 ▪ A:Semcorに例文が10文以上ある16個の名詞 ▪ B:例文が10文以下しかない出現頻度の低い名詞 ※語彙セット中の語義に対する用例数と、コーパスの中の用例数の割合が一致 19
  6.  大規模コーパスの自動構築  実験  素性による変化  バイアスによる変化  Semcorとの比較

     教師なし手法と他のアプローチの比較  大規模コーパスの有用性を示す  Semcorや最頻語義選択と合わせると良い 26