素性の相対性による分布類似度計算

 素性の相対性による分布類似度計算

朝倉 剛史. 素性の相対性による分布類似度計算. 長岡技術科学大学課題研究報告書 (2010.3)

Transcript

  1. 14.

    問題点 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・

    単語の特徴を強く表さない要素が共通している場合、 2単語間の類似度計算に有効であると考える。 →除外されることで精度に影響を与える。 14 3.既存研究とその問題
  2. 16.

    予想される効果 16 3.既存研究とその問題 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・

    ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・ 例えば『醤油』と『味噌』の時は「を:投げる」を 除外しないため、有効な要素を残すことが可能 どちらも特徴を表していないが、 その度合いが近いので有効
  3. 17.

    予想される効果 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・

    例えば『醤油』と『石』の時は「を:投げる」を 除外するため、不要な要素を除外することが可能 3.既存研究とその問題 17 『石』では特徴を強く表しているが、 その度合いが遠いので無効
  4. 34.

    評価方法 類似度水準の違う類義語ペアを、 類似度計算した結果で2値分類する。 「 強 」 類 義 語 ペ

    ア 集 合 「 中 」 類 義 語 ペ ア 集 合 判定閾値 類似度高 類似度低 34 5.実験及び考察 類義語ペア 類 似 度 「強」 「中」
  5. 36.

    実験結果 評価セット 柴田ら Z-G & D 本手法 「強+中」 0.7015 0.7908

    0.7965(+0.0057) 「中+弱」 0.7474 0.7708 0.7727(+0.0019) 「弱+非」 0.8383 0.7890 0.8395(+0.0013) すべての評価セットにおいて、比較手法の精度 を上回った。 →有効性を確認 5.実験及び考察 36 ※数値はF値
  6. 38.

    改善例(2/2) 「強」類義語ペア 『鉄板:鉄筋』 類似度 「中」類義語ペア 『合成樹脂:セメント』 類似度 足切り無し 0.1170 0.3375

    柴田ら 0.1031 0.2652 Z-G & D 0.0958 0.1111 本手法 0.2160 0.1430 それぞれの手法における類似度の比較 5.実験及び考察 38
  7. 47.

    各類義語ペアの例 「強」類義語 「中」類義語 「弱」類義語 「非」類義語 JAL:NTT NTT:銀行 NTT:国立大学 NTT:導入 IC:LSI

    IC:太陽電池 IC:カード IC:国土庁 アジア:ヨーロッパ アジア:アメリカ アジア:我が国 アジア:システム アニメ:映画 アニメ:紙芝居 アニメ:SF アニメ:清酒 居酒屋:パブ 居酒屋:コンビニ 居酒屋:駅 居酒屋:地名 関西:四国 関西:アジア 関西:首都圏 関西:事前 生活費:交際費 生活費:物価 生活費:家賃 生活費:東日本 米国:イギリス 米国:アフリカ 米国:フランス人 米国:企業
  8. 52.

    改善例 「強」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 鉄板(112):鉄筋(96) 15 0.1170 柴田ら

    鉄板(106):鉄筋(86) 12 0.1031 Z-G & D 鉄板(8):鉄筋(8) 1 0.0958 本手法 鉄板(26):鉄筋(21) 6 0.2160 「中」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 合成樹脂(156):セメント(238) 71 0.3375 柴田ら 合成樹脂(120):セメント(173) 43 0.2652 Z-G & D 合成樹脂(13):セメント(6) 1 0.1111 本手法 合成樹脂(61):セメント(40) 8 0.1430