Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
確率的判定尺度を用いた比喩性検出手法
Search
自然言語処理研究室
September 01, 2016
Technology
0
97
確率的判定尺度を用いた比喩性検出手法
桝井文人,福本淳一,椎野努,河合敦夫.
確率的判定尺度を用いた比喩性検出手法
自然言語処理,Vol.9(2002),No.5,p71-92
自然言語処理研究室
September 01, 2016
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
79
自然言語処理研究室 研究概要(2014年)
jnlp
0
92
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Technology
See All in Technology
UI State設計とテスト方針
rmakiyama
3
760
Oracle Cloud Infrastructure:2024年12月度サービス・アップデート
oracle4engineer
PRO
1
230
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
私なりのAIのご紹介 [2024年版]
qt_luigi
1
120
[Ruby] Develop a Morse Code Learning Gem & Beep from Strings
oguressive
1
190
サーバーなしでWordPress運用、できますよ。
sogaoh
PRO
0
120
株式会社ログラス − エンジニア向け会社説明資料 / Loglass Comapany Deck for Engineer
loglass2019
3
32k
レンジャーシステムズ | 会社紹介(採用ピッチ)
rssytems
0
260
ずっと昔に Star をつけたはずの思い出せない GitHub リポジトリを見つけたい!
rokuosan
0
160
1等無人航空機操縦士一発試験 合格までの道のり ドローンミートアップ@大阪 2024/12/18
excdinc
0
170
生成AIをより賢く エンジニアのための RAG入門 - Oracle AI Jam Session #20
kutsushitaneko
4
280
MLOps の現場から
asei
7
660
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Designing for Performance
lara
604
68k
Into the Great Unknown - MozCon
thekraken
33
1.5k
Visualization
eitanlees
146
15k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Git: the NoSQL Database
bkeepers
PRO
427
64k
The Cost Of JavaScript in 2023
addyosmani
46
7k
Rails Girls Zürich Keynote
gr2m
94
13k
Transcript
文献紹介: 確率的判定尺度を用いた比喩性検出手法 釧路工業高等専門学校 2 S 関口 育栄 2016/9/1 1
参考文献 • 桝井 文人,福本 淳一,椎野 努,河合 敦夫. • 確率的判定尺度を用いた比喩性検出手法 •
自然言語処理, Vol.9(2002) , No.5 , p71-92 2
概要 • 概念(単語)間の比喩性を検出するための確率的な 尺度として,“顕現性落差”と“意外性”を設定する • 両尺度を用いた比喩性検出手法を検出するため, 単語対データを 100 組用意し,判別実験を行った •
結果として, 70 %以上の適合率で比喩関係単語対 が判別できることがわかり,本手法の有効性が確認 された 3
導入 • 心理学的実験手法による理論的モデルの検証 ⇒被験者数の確保やコスト等の制限がある • 比喩を構成するときの特徴の移動を定量化するモデル ⇒ 複数の顕現特徴を扱う場合に問題 知識の大規模化,汎用化は解消されず •
テキスト中に出現する比喩の認識のため,確率的尺度 を用いた比喩性検出手法を提案する 4
顕現性落差 • クローズアップされる特徴を抽出し、その特徴がいかに明確で あるかをはかる尺度 例:「卵のような車」 “卵”の特徴集合= { 丸い,白い,割れやすい, …} “車”の特徴集合=
{ 速い,強い, … ,丸い,白い, …} “卵”と“車”の共有特徴集合= { 丸い,白い, …} “車”における{丸い,白い, … }などの特徴を強調し、顕現性落差 が生じる 5
顕現性落差計算のための知識ベース構築 • テキストコーパスから“修飾語-名詞”の共起関係と共起頻度 を抽出、知識ベース化する ① 一日目には赤い花が一本売れた ② 二人は白い花の茨の影から出て、小さい沼の方へと歩く 6 ①を形態素解析した結果から
“花 = {赤い #1.0 }” ②を同様に処理すると “花 = {赤い #0.5 ,白い #0.5 }” “沼 = {小さい #1.0 }”
顕現性落差の計算 7 「子供のような顔」の顕現性落差の計算 1. “子供”と“顔”それぞれの特徴集合に含まれる共有特徴を示す T (子供T (子供 ∩ 顔))
= { 幼い #0.222 ,たくましい #0.030} T (顔T (子供 ∩ 顔)) = { 幼い #0.003 ,たくましい #0.005} 1- 0.222log 1 0.222 + 0.030log 1 0.030 log2 2. それぞれの冗長度を計算する r(T (子供T (子供 ∩ 顔)) ) = 3. 生起確率の総和によって重み付けをして,両者を比較する Gap(A , B) = 0.471 * 0.253 ー 0.082 * 0.008 = 0.118
意外性 • 対比される概念の組み合わせの新鮮さをはかる尺度 例:「スポーツカーのような車」 “スポーツカー”と“車”の共有特徴= { 速い,格好いい,燃費が悪い …} “車”の特徴を強調しているが、比喩性は認識されにくい ⇒ありふれた組み合わせで、表現の新鮮さに欠ける
8
意外性計算のための知識ベース構築 • 全ての名詞とその出現頻度、および一文をスコープとした 場合の名詞共起とその共起頻度をコーパスから抽出し、構 築する 例:二人は白い花の茨の影から出て , 小さい沼の方へと歩く {二人,花: 29
, 32 , 4 } 29 :“二人”の出現頻度 32 :“花”の出現頻度 4 :“二人”と“花”の共起頻度 9
意外性の定量化 • 単語間の意味的距離を示す dice 関数を利用し、 逆数を“意外性”の値とする 10 Nov(W s ,W
t ) = p s + p t 2(p s × p t ) t s W W , 二つの単語 t s p p , 単語の出現頻度
概念対の分類 “顕現性落差”と“意外性”が大きい程比喩性も大きい 概念対(比喩・例示・無意味)の区別を対応付けると, 表のような関係が仮定できる 11 顕現性落差 大 小 負 意
外 性 大 比喩 比喩 / 例示 無意味 : : : : 小 例示 比喩 / 例示 無意味 ?
評価方法 検証のため、以下のような単語対データ 100 組を用意した 1. 知識ベース構築に用いたコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 70 組 2.
知識ベースとは関係ないコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 30 組 分類の基準としてしきい値を設定した 顕現性落差が 0 未満( ) ⇒ 無意味単語対 意外性が 146 以下( ) ⇒ 例示 12
評価結果 データ (1) データ (2) 13 人手による判別 確率的尺度による判別 正答数 比喩
48 30 25 例示 17 18 9 無意味 5 22 4 人手による判別 確率的尺度による判別 正答数 比喩 13 11 8 例示 12 8 6 無意味 5 11 4 比喩:適合率 83.3% 再現率 52.1% 比喩:適合率 72.7% 再現率 61.5%
まとめ • 比喩性を検出するための尺度として,“顕現性落差” と“意外性”を定義し,定量化した • 比喩性判定実験とその評価を行った結果,提案モデル が有効であることが確認された • 今後は単語の同義性を考慮した本手法の精密化や 新聞以外のコーパスや概念辞書の利用を進める
14