Upgrade to Pro — share decks privately, control downloads, hide ads and more …

10gatu

miyanishi
October 21, 2014
350

 10gatu

miyanishi

October 21, 2014
Tweet

Transcript

  1. 著者情報 • Title: Word-Sense Disambiguation Using Statistical Models of Roget’s

    Categories Trained on Large Corpora • 著者: David Yarowsky • COLING-92 p454-460 2
  2. システムについて • “語義”の定義 – 明確な定義がない – 今回:Roget’s International Thesaurus のカテゴリ

    • 使用するモデル – カテゴリの中で一番確率が高いものを選択 • 入出力 – 入力:文 – 出力:カテゴリ名 5
  3. contextの収集 • 使用コーパス – Grolier’s Encyclopedia(1991の最新版) • 手法 – コーパス内からカテゴリ内の語を検索

    – その周辺語100語の用語索引を引く • ノイズ除去 – 同じカテゴリにおいての多義性→許容 – その他→コーパス内の出現頻度の逆数を重みに 9
  4. 重要語の重み付け • 単純なイメージ – 重要語=そのカテゴリの文脈に頻繁に出る語! • 上記のイメージを式で表現 – 相互情報量:Pr⁡ (|)

    Pr⁡ () RCat= Roget’sカテゴリ Pr :単語の出現頻度 Pr⁡ (|):単語とカテゴリの条件付き確率 • 相互情報量のlogを重みとして付与 11
  5. 実験について • 12個の多義語を選択 – star, mole, galley, cone, bass, bow,

    taste, interest, issue, duty, sentence, slug 単語 語義 RCat 頻度 正解率 平均正解率 space object UNIVERSE 1422 96% celebrity ENTERTAINER 222 95% star-shaoed object INSIGNIA 56 82% star 96% 14
  6. 実験結果 • 全体として – 平均92% – 著者の予想より高い • 他手法との結果比較 –

    今までのWSD:50~85% – この著者の別論文:92% 単語 正解率 star 96% mole 99% galley 95% cone 77% bass 99% bow 91% taste 93% interest 72% issue 94% duty 96% sentence 98% slug 97% 平均 92% 15