Upgrade to Pro — share decks privately, control downloads, hide ads and more …

10gatu

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
October 21, 2014
350

 10gatu

Avatar for miyanishi

miyanishi

October 21, 2014
Tweet

Transcript

  1. 著者情報 • Title: Word-Sense Disambiguation Using Statistical Models of Roget’s

    Categories Trained on Large Corpora • 著者: David Yarowsky • COLING-92 p454-460 2
  2. システムについて • “語義”の定義 – 明確な定義がない – 今回:Roget’s International Thesaurus のカテゴリ

    • 使用するモデル – カテゴリの中で一番確率が高いものを選択 • 入出力 – 入力:文 – 出力:カテゴリ名 5
  3. contextの収集 • 使用コーパス – Grolier’s Encyclopedia(1991の最新版) • 手法 – コーパス内からカテゴリ内の語を検索

    – その周辺語100語の用語索引を引く • ノイズ除去 – 同じカテゴリにおいての多義性→許容 – その他→コーパス内の出現頻度の逆数を重みに 9
  4. 重要語の重み付け • 単純なイメージ – 重要語=そのカテゴリの文脈に頻繁に出る語! • 上記のイメージを式で表現 – 相互情報量:Pr⁡ (|)

    Pr⁡ () RCat= Roget’sカテゴリ Pr :単語の出現頻度 Pr⁡ (|):単語とカテゴリの条件付き確率 • 相互情報量のlogを重みとして付与 11
  5. 実験について • 12個の多義語を選択 – star, mole, galley, cone, bass, bow,

    taste, interest, issue, duty, sentence, slug 単語 語義 RCat 頻度 正解率 平均正解率 space object UNIVERSE 1422 96% celebrity ENTERTAINER 222 95% star-shaoed object INSIGNIA 56 82% star 96% 14
  6. 実験結果 • 全体として – 平均92% – 著者の予想より高い • 他手法との結果比較 –

    今までのWSD:50~85% – この著者の別論文:92% 単語 正解率 star 96% mole 99% galley 95% cone 77% bass 99% bow 91% taste 93% interest 72% issue 94% duty 96% sentence 98% slug 97% 平均 92% 15