確率的判定尺度を用いた比喩性検出手法

文献紹介：確率的判定尺度を用いた比喩性検出手法釧路工業高等専門学校２ S 関口育栄 2016/9/1 1

参考文献 • 桝井文人，福本淳一，椎野努，河合敦夫． • 確率的判定尺度を用いた比喩性検出手法 •
自然言語処理， Vol.9(2002) ， No.5 ， p71-92 2

概要 • 概念（単語）間の比喩性を検出するための確率的な尺度として，“顕現性落差”と“意外性”を設定する • 両尺度を用いた比喩性検出手法を検出するため，単語対データを 100 組用意し，判別実験を行った •
結果として， 70 ％以上の適合率で比喩関係単語対が判別できることがわかり，本手法の有効性が確認された 3

導入 • 心理学的実験手法による理論的モデルの検証 ⇒被験者数の確保やコスト等の制限がある • 比喩を構成するときの特徴の移動を定量化するモデル ⇒ 複数の顕現特徴を扱う場合に問題知識の大規模化，汎用化は解消されず •
テキスト中に出現する比喩の認識のため，確率的尺度を用いた比喩性検出手法を提案する 4

顕現性落差 • クローズアップされる特徴を抽出し、その特徴がいかに明確であるかをはかる尺度例：「卵のような車」 “卵”の特徴集合＝ { 丸い，白い，割れやすい， …} “車”の特徴集合＝
{ 速い，強い， … ，丸い，白い， …} “卵”と“車”の共有特徴集合＝ { 丸い，白い， …} “車”における｛丸い，白い， … ｝などの特徴を強調し、顕現性落差が生じる 5

顕現性落差計算のための知識ベース構築 • テキストコーパスから“修飾語－名詞”の共起関係と共起頻度を抽出、知識ベース化する ① 一日目には赤い花が一本売れた ② 二人は白い花の茨の影から出て、小さい沼の方へと歩く 6 ①を形態素解析した結果から
“花＝｛赤い #1.0 ｝” ②を同様に処理すると “花＝｛赤い #0.5 ，白い #0.5 ｝” “沼＝｛小さい #1.0 ｝”

顕現性落差の計算 7 「子供のような顔」の顕現性落差の計算 1. “子供”と“顔”それぞれの特徴集合に含まれる共有特徴を示す T （子供T （子供 ∩ 顔））
＝ { 幼い #0.222 ，たくましい #0.030} T （顔T （子供 ∩ 顔））＝ { 幼い #0.003 ，たくましい #0.005} 1- 0.222log 1 0.222 + 0.030log 1 0.030 log2 2. それぞれの冗長度を計算する r(T （子供T （子供 ∩ 顔）） ) ＝ 3. 生起確率の総和によって重み付けをして，両者を比較する Gap(A ， B) = 0.471 ＊ 0.253 ー 0.082 ＊ 0.008 ＝ 0.118

意外性 • 対比される概念の組み合わせの新鮮さをはかる尺度例：「スポーツカーのような車」 “スポーツカー”と“車”の共有特徴＝ { 速い，格好いい，燃費が悪い …} “車”の特徴を強調しているが、比喩性は認識されにくい ⇒ありふれた組み合わせで、表現の新鮮さに欠ける
8

意外性計算のための知識ベース構築 • 全ての名詞とその出現頻度、および一文をスコープとした場合の名詞共起とその共起頻度をコーパスから抽出し、構築する例：二人は白い花の茨の影から出て , 小さい沼の方へと歩く｛二人，花： 29
， 32 ， 4 ｝ 29 ：“二人”の出現頻度 32 ：“花”の出現頻度 4 ：“二人”と“花”の共起頻度 9

意外性の定量化 • 単語間の意味的距離を示す dice 関数を利用し、逆数を“意外性”の値とする 10 Nov(W s ,W
t ) = p s + p t 2(p s × p t ) t s W W , 二つの単語 t s p p , 単語の出現頻度

概念対の分類 “顕現性落差”と“意外性”が大きい程比喩性も大きい概念対（比喩・例示・無意味）の区別を対応付けると，表のような関係が仮定できる 11 顕現性落差大小負意
外性大比喩比喩 / 例示無意味：：：：小例示比喩 / 例示無意味 ?

評価方法検証のため、以下のような単語対データ 100 組を用意した 1. 知識ベース構築に用いたコーパスに現れる“ＡのようなＢ”というパターンで現れる単語対： 70 組 2.
知識ベースとは関係ないコーパスに現れる“ＡのようなＢ”というパターンで現れる単語対： 30 組分類の基準としてしきい値を設定した顕現性落差が 0 未満（） ⇒ 無意味単語対意外性が 146 以下（） ⇒ 例示 12

評価結果データ (1) データ (2) 13 人手による判別確率的尺度による判別正答数比喩
48 30 25 例示 17 18 9 無意味 5 22 4 人手による判別確率的尺度による判別正答数比喩 13 11 8 例示 12 8 6 無意味 5 11 4 比喩：適合率 83.3% 再現率 52.1% 比喩：適合率 72.7% 再現率 61.5%

まとめ • 比喩性を検出するための尺度として，“顕現性落差” と“意外性”を定義し，定量化した • 比喩性判定実験とその評価を行った結果，提案モデルが有効であることが確認された • 今後は単語の同義性を考慮した本手法の精密化や新聞以外のコーパスや概念辞書の利用を進める
14

確率的判定尺度を用いた比喩性検出手法

確率的判定尺度を用いた比喩性検出手法

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Technology

Featured

Transcript

文献紹介：確率的判定尺度を用いた比喩性検出手法釧路工業高等専門学校２ S 関口育栄 2016/9/1 1

参考文献 • 桝井文人，福本淳一，椎野努，河合敦夫． • 確率的判定尺度を用いた比喩性検出手法 •

概要 • 概念（単語）間の比喩性を検出するための確率的な尺度として，“顕現性落差”と“意外性”を設定する • 両尺度を用いた比喩性検出手法を検出するため，単語対データを 100 組用意し，判別実験を行った •

顕現性落差 • クローズアップされる特徴を抽出し、その特徴がいかに明確であるかをはかる尺度例：「卵のような車」 “卵”の特徴集合＝ { 丸い，白い，割れやすい， …} “車”の特徴集合＝

顕現性落差の計算 7 「子供のような顔」の顕現性落差の計算 1. “子供”と“顔”それぞれの特徴集合に含まれる共有特徴を示す T （子供T （子供 ∩ 顔））

意外性の定量化 • 単語間の意味的距離を示す dice 関数を利用し、逆数を“意外性”の値とする 10 Nov(W s ,W

概念対の分類 “顕現性落差”と“意外性”が大きい程比喩性も大きい概念対（比喩・例示・無意味）の区別を対応付けると，表のような関係が仮定できる 11 顕現性落差大小負意

評価方法検証のため、以下のような単語対データ 100 組を用意した 1. 知識ベース構築に用いたコーパスに現れる“ＡのようなＢ”というパターンで現れる単語対： 70 組 2.

評価結果データ (1) データ (2) 13 人手による判別確率的尺度による判別正答数比喩