$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
確率的判定尺度を用いた比喩性検出手法
Search
自然言語処理研究室
September 01, 2016
Technology
0
110
確率的判定尺度を用いた比喩性検出手法
桝井文人,福本淳一,椎野努,河合敦夫.
確率的判定尺度を用いた比喩性検出手法
自然言語処理,Vol.9(2002),No.5,p71-92
自然言語処理研究室
September 01, 2016
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Technology
See All in Technology
生成AI時代の自動E2Eテスト運用とPlaywright実践知_引持力哉
legalontechnologies
PRO
0
210
プロダクトマネジメントの分業が生む「デリバリーの渋滞」を解消するTPMの越境
recruitengineers
PRO
3
710
AWS re:Invent 2025で見たGrafana最新機能の紹介
hamadakoji
0
100
著者と読み解くAIエージェント現場導入の勘所 Lancers TechBook#2
smiyawaki0820
12
5.8k
pmconf2025 - 他社事例を"自社仕様化"する技術_iRAFT法
daichi_yamashita
0
780
ブロックテーマとこれからの WordPress サイト制作 / Toyama WordPress Meetup Vol.81
torounit
0
390
AI時代の開発フローとともに気を付けたいこと
kkamegawa
0
2k
Overture Maps Foundationの3年を振り返る
moritoru
0
150
【AWS re:Invent 2025速報】AIビルダー向けアップデートをまとめて解説!
minorun365
4
460
世界最速級 memcached 互換サーバー作った
yasukata
0
320
re:Invent2025 コンテナ系アップデート振り返り(+CloudWatchログのアップデート紹介)
masukawa
0
300
直接メモリアクセス
koba789
0
280
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
54k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
Mobile First: as difficult as doing things right
swwweet
225
10k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
GitHub's CSS Performance
jonrohan
1032
470k
Designing Experiences People Love
moore
143
24k
Raft: Consensus for Rubyists
vanstee
141
7.2k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.4k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Transcript
文献紹介: 確率的判定尺度を用いた比喩性検出手法 釧路工業高等専門学校 2 S 関口 育栄 2016/9/1 1
参考文献 • 桝井 文人,福本 淳一,椎野 努,河合 敦夫. • 確率的判定尺度を用いた比喩性検出手法 •
自然言語処理, Vol.9(2002) , No.5 , p71-92 2
概要 • 概念(単語)間の比喩性を検出するための確率的な 尺度として,“顕現性落差”と“意外性”を設定する • 両尺度を用いた比喩性検出手法を検出するため, 単語対データを 100 組用意し,判別実験を行った •
結果として, 70 %以上の適合率で比喩関係単語対 が判別できることがわかり,本手法の有効性が確認 された 3
導入 • 心理学的実験手法による理論的モデルの検証 ⇒被験者数の確保やコスト等の制限がある • 比喩を構成するときの特徴の移動を定量化するモデル ⇒ 複数の顕現特徴を扱う場合に問題 知識の大規模化,汎用化は解消されず •
テキスト中に出現する比喩の認識のため,確率的尺度 を用いた比喩性検出手法を提案する 4
顕現性落差 • クローズアップされる特徴を抽出し、その特徴がいかに明確で あるかをはかる尺度 例:「卵のような車」 “卵”の特徴集合= { 丸い,白い,割れやすい, …} “車”の特徴集合=
{ 速い,強い, … ,丸い,白い, …} “卵”と“車”の共有特徴集合= { 丸い,白い, …} “車”における{丸い,白い, … }などの特徴を強調し、顕現性落差 が生じる 5
顕現性落差計算のための知識ベース構築 • テキストコーパスから“修飾語-名詞”の共起関係と共起頻度 を抽出、知識ベース化する ① 一日目には赤い花が一本売れた ② 二人は白い花の茨の影から出て、小さい沼の方へと歩く 6 ①を形態素解析した結果から
“花 = {赤い #1.0 }” ②を同様に処理すると “花 = {赤い #0.5 ,白い #0.5 }” “沼 = {小さい #1.0 }”
顕現性落差の計算 7 「子供のような顔」の顕現性落差の計算 1. “子供”と“顔”それぞれの特徴集合に含まれる共有特徴を示す T (子供T (子供 ∩ 顔))
= { 幼い #0.222 ,たくましい #0.030} T (顔T (子供 ∩ 顔)) = { 幼い #0.003 ,たくましい #0.005} 1- 0.222log 1 0.222 + 0.030log 1 0.030 log2 2. それぞれの冗長度を計算する r(T (子供T (子供 ∩ 顔)) ) = 3. 生起確率の総和によって重み付けをして,両者を比較する Gap(A , B) = 0.471 * 0.253 ー 0.082 * 0.008 = 0.118
意外性 • 対比される概念の組み合わせの新鮮さをはかる尺度 例:「スポーツカーのような車」 “スポーツカー”と“車”の共有特徴= { 速い,格好いい,燃費が悪い …} “車”の特徴を強調しているが、比喩性は認識されにくい ⇒ありふれた組み合わせで、表現の新鮮さに欠ける
8
意外性計算のための知識ベース構築 • 全ての名詞とその出現頻度、および一文をスコープとした 場合の名詞共起とその共起頻度をコーパスから抽出し、構 築する 例:二人は白い花の茨の影から出て , 小さい沼の方へと歩く {二人,花: 29
, 32 , 4 } 29 :“二人”の出現頻度 32 :“花”の出現頻度 4 :“二人”と“花”の共起頻度 9
意外性の定量化 • 単語間の意味的距離を示す dice 関数を利用し、 逆数を“意外性”の値とする 10 Nov(W s ,W
t ) = p s + p t 2(p s × p t ) t s W W , 二つの単語 t s p p , 単語の出現頻度
概念対の分類 “顕現性落差”と“意外性”が大きい程比喩性も大きい 概念対(比喩・例示・無意味)の区別を対応付けると, 表のような関係が仮定できる 11 顕現性落差 大 小 負 意
外 性 大 比喩 比喩 / 例示 無意味 : : : : 小 例示 比喩 / 例示 無意味 ?
評価方法 検証のため、以下のような単語対データ 100 組を用意した 1. 知識ベース構築に用いたコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 70 組 2.
知識ベースとは関係ないコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 30 組 分類の基準としてしきい値を設定した 顕現性落差が 0 未満( ) ⇒ 無意味単語対 意外性が 146 以下( ) ⇒ 例示 12
評価結果 データ (1) データ (2) 13 人手による判別 確率的尺度による判別 正答数 比喩
48 30 25 例示 17 18 9 無意味 5 22 4 人手による判別 確率的尺度による判別 正答数 比喩 13 11 8 例示 12 8 6 無意味 5 11 4 比喩:適合率 83.3% 再現率 52.1% 比喩:適合率 72.7% 再現率 61.5%
まとめ • 比喩性を検出するための尺度として,“顕現性落差” と“意外性”を定義し,定量化した • 比喩性判定実験とその評価を行った結果,提案モデル が有効であることが確認された • 今後は単語の同義性を考慮した本手法の精密化や 新聞以外のコーパスや概念辞書の利用を進める
14