Upgrade to Pro — share decks privately, control downloads, hide ads and more …

素性の相対性による分布類似度計算

 素性の相対性による分布類似度計算

朝倉 剛史, 山本 和英. 素性の相対性による分布類似度計算. 言語処理学会第16回年次大会, pp.688-691 (2010.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. システム全体の流れ 11 3.提案手法の説明 コーパス 単語と その素性 単語の素性を 自動収集 集めた素性の 足切り

    素性の特徴量 を求める シソーラス 単語と その素性 特徴量を考慮した 素性選択 類義語 集合 関数を用いた 類似度計算 1 2 3 4 5
  2. 評価方法 4.実験及び考察 18 「強」類義語 「中」類義語 「弱」類義語 「非」類義語 IC:LSI IC:太陽電池 IC:カード

    IC:国土庁 アジア:ヨーロッパ アジア:アメリカ アジア:我が国 アジア:システム 居酒屋:パブ 居酒屋:コンビニ 居酒屋:駅 居酒屋:地名 高 低 2組の類義語ペア(「強+中」「中+弱」「弱+非」)      を類似度計算した結果で2値分類する。
  3. 「強」 評価方法イメージ 「 強 」 類 義 語 ペ ア

          集 合 「 中 」 類 義 語 ペ ア       集 合 判定閾値 高 低 19 4.実験及び考察 類義語ペア 類 似 度 「強+中」の2値分類 「中」
  4. 実験結果 評価セット 柴田ら Z-G & D 本手法 「強+中」 0.702 0.791

    0.797 「中+弱」 0.748 0.771 0.773 「弱+非」 0.838 0.789 0.840 すべての評価セットにおいて、比較手法の精度 を上回った。    →有効性を確認 4.実験及び考察 22 ※数値はF値
  5. 改善例 「強」類義語ペア 『鉄板:鉄筋』 「中」類義語ペア 『合成樹脂:セメント』 柴田ら 0.103 0.265 Z-G &

    D 0.096 0.111 本手法 0.216 0.143 4.実験及び考察 23 本手法では適正な類似度水準を実現できた。 ※数値は類似度 評価セット「強+中」での一例
  6. 各類義語ペアの例 「強」類義語 「中」類義語 「弱」類義語 「非」類義語 JAL:NTT NTT:銀行 NTT:国立大学 NTT:導入 IC:LSI

    IC:太陽電池 IC:カード IC:国土庁 アジア:ヨーロッパ アジア:アメリカ アジア:我が国 アジア:システム アニメ:映画 アニメ:紙芝居 アニメ:SF アニメ:清酒 居酒屋:パブ 居酒屋:コンビニ 居酒屋:駅 居酒屋:地名 関西:四国 関西:アジア 関西:首都圏 関西:事前 生活費:交際費 生活費:物価 生活費:家賃 生活費:東日本 米国:イギリス 米国:アフリカ 米国:フランス人 米国:企業
  7. 改善例 「強」類義語ペア 『鉄板:鉄筋』 「中」類義語ペア 『合成樹脂:セメント』 柴田ら 0.1031 0.2652 Z-G &

    D 0.0958 0.1111 本手法 0.2160 0.1430 4.実験及び考察 23 本手法では適正な類似度水準を実現できた。 ※数値は類似度 評価セット「強+中」での一例
  8. 改善例 「強」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 鉄板(112):鉄筋(96) 15 0.1170 柴田ら

    鉄板(106):鉄筋(86) 12 0.1031 Z-G & D 鉄板(8):鉄筋(8) 1 0.0958 本手法 鉄板(26):鉄筋(21) 6 0.2160 「中」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 合成樹脂(156):セメント(238) 71 0.3375 柴田ら 合成樹脂(120):セメント(173) 43 0.2652 Z-G & D 合成樹脂(13):セメント(6) 1 0.1111 本手法 合成樹脂(61):セメント(40) 8 0.1430