Upgrade to Pro — share decks privately, control downloads, hide ads and more …

素性の相対性による分布類似度計算

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 素性の相対性による分布類似度計算

朝倉 剛史. 素性の相対性による分布類似度計算. 長岡技術科学大学課題研究報告書 (2010.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 問題点 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・

    単語の特徴を強く表さない要素が共通している場合、 2単語間の類似度計算に有効であると考える。 →除外されることで精度に影響を与える。 14 3.既存研究とその問題
  2. 予想される効果 16 3.既存研究とその問題 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・

    ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・ 例えば『醤油』と『味噌』の時は「を:投げる」を 除外しないため、有効な要素を残すことが可能 どちらも特徴を表していないが、 その度合いが近いので有効
  3. 予想される効果 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・

    例えば『醤油』と『石』の時は「を:投げる」を 除外するため、不要な要素を除外することが可能 3.既存研究とその問題 17 『石』では特徴を強く表しているが、 その度合いが遠いので無効
  4. 評価方法 類似度水準の違う類義語ペアを、 類似度計算した結果で2値分類する。 「 強 」 類 義 語 ペ

    ア 集 合 「 中 」 類 義 語 ペ ア 集 合 判定閾値 類似度高 類似度低 34 5.実験及び考察 類義語ペア 類 似 度 「強」 「中」
  5. 実験結果 評価セット 柴田ら Z-G & D 本手法 「強+中」 0.7015 0.7908

    0.7965(+0.0057) 「中+弱」 0.7474 0.7708 0.7727(+0.0019) 「弱+非」 0.8383 0.7890 0.8395(+0.0013) すべての評価セットにおいて、比較手法の精度 を上回った。 →有効性を確認 5.実験及び考察 36 ※数値はF値
  6. 改善例(2/2) 「強」類義語ペア 『鉄板:鉄筋』 類似度 「中」類義語ペア 『合成樹脂:セメント』 類似度 足切り無し 0.1170 0.3375

    柴田ら 0.1031 0.2652 Z-G & D 0.0958 0.1111 本手法 0.2160 0.1430 それぞれの手法における類似度の比較 5.実験及び考察 38
  7. 各類義語ペアの例 「強」類義語 「中」類義語 「弱」類義語 「非」類義語 JAL:NTT NTT:銀行 NTT:国立大学 NTT:導入 IC:LSI

    IC:太陽電池 IC:カード IC:国土庁 アジア:ヨーロッパ アジア:アメリカ アジア:我が国 アジア:システム アニメ:映画 アニメ:紙芝居 アニメ:SF アニメ:清酒 居酒屋:パブ 居酒屋:コンビニ 居酒屋:駅 居酒屋:地名 関西:四国 関西:アジア 関西:首都圏 関西:事前 生活費:交際費 生活費:物価 生活費:家賃 生活費:東日本 米国:イギリス 米国:アフリカ 米国:フランス人 米国:企業
  8. 改善例 「強」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 鉄板(112):鉄筋(96) 15 0.1170 柴田ら

    鉄板(106):鉄筋(86) 12 0.1031 Z-G & D 鉄板(8):鉄筋(8) 1 0.0958 本手法 鉄板(26):鉄筋(21) 6 0.2160 「中」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 合成樹脂(156):セメント(238) 71 0.3375 柴田ら 合成樹脂(120):セメント(173) 43 0.2652 Z-G & D 合成樹脂(13):セメント(6) 1 0.1111 本手法 合成樹脂(61):セメント(40) 8 0.1430