Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
確率的判定尺度を用いた比喩性検出手法
Search
自然言語処理研究室
September 01, 2016
Technology
0
100
確率的判定尺度を用いた比喩性検出手法
桝井文人,福本淳一,椎野努,河合敦夫.
確率的判定尺度を用いた比喩性検出手法
自然言語処理,Vol.9(2002),No.5,p71-92
自然言語処理研究室
September 01, 2016
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Technology
See All in Technology
Observability в PHP без боли. Олег Мифле, тимлид Altenar
lamodatech
0
330
監視のこれまでとこれから/sakura monitoring seminar 2025
fujiwara3
11
3.8k
Абьюзим random_bytes(). Фёдор Кулаков, разработчик Lamoda Tech
lamodatech
0
330
25分で解説する「最小権限の原則」を実現するための AWS「ポリシー」大全 / 20250625-aws-summit-aws-policy
opelab
9
1.1k
AIエージェント最前線! Amazon Bedrock、Amazon Q、そしてMCPを使いこなそう
minorun365
PRO
13
4.9k
登壇ネタの見つけ方 / How to find talk topics
pinkumohikan
3
350
IIWレポートからみるID業界で話題のMCP
fujie
0
780
生成AIで小説を書くためにプロンプトの制約や原則について学ぶ / prompt-engineering-for-ai-fiction
nwiizo
3
800
CSS、JSをHTMLテンプレートにまとめるフロントエンド戦略
d120145
0
280
Fabric + Databricks 2025.6 の最新情報ピックアップ
ryomaru0825
1
130
第9回情シス転職ミートアップ_テックタッチ株式会社
forester3003
0
220
Amazon Bedrockで実現する 新たな学習体験
kzkmaeda
1
510
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Product Roadmaps are Hard
iamctodd
PRO
53
11k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Facilitating Awesome Meetings
lara
54
6.4k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.5k
The World Runs on Bad Software
bkeepers
PRO
69
11k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Transcript
文献紹介: 確率的判定尺度を用いた比喩性検出手法 釧路工業高等専門学校 2 S 関口 育栄 2016/9/1 1
参考文献 • 桝井 文人,福本 淳一,椎野 努,河合 敦夫. • 確率的判定尺度を用いた比喩性検出手法 •
自然言語処理, Vol.9(2002) , No.5 , p71-92 2
概要 • 概念(単語)間の比喩性を検出するための確率的な 尺度として,“顕現性落差”と“意外性”を設定する • 両尺度を用いた比喩性検出手法を検出するため, 単語対データを 100 組用意し,判別実験を行った •
結果として, 70 %以上の適合率で比喩関係単語対 が判別できることがわかり,本手法の有効性が確認 された 3
導入 • 心理学的実験手法による理論的モデルの検証 ⇒被験者数の確保やコスト等の制限がある • 比喩を構成するときの特徴の移動を定量化するモデル ⇒ 複数の顕現特徴を扱う場合に問題 知識の大規模化,汎用化は解消されず •
テキスト中に出現する比喩の認識のため,確率的尺度 を用いた比喩性検出手法を提案する 4
顕現性落差 • クローズアップされる特徴を抽出し、その特徴がいかに明確で あるかをはかる尺度 例:「卵のような車」 “卵”の特徴集合= { 丸い,白い,割れやすい, …} “車”の特徴集合=
{ 速い,強い, … ,丸い,白い, …} “卵”と“車”の共有特徴集合= { 丸い,白い, …} “車”における{丸い,白い, … }などの特徴を強調し、顕現性落差 が生じる 5
顕現性落差計算のための知識ベース構築 • テキストコーパスから“修飾語-名詞”の共起関係と共起頻度 を抽出、知識ベース化する ① 一日目には赤い花が一本売れた ② 二人は白い花の茨の影から出て、小さい沼の方へと歩く 6 ①を形態素解析した結果から
“花 = {赤い #1.0 }” ②を同様に処理すると “花 = {赤い #0.5 ,白い #0.5 }” “沼 = {小さい #1.0 }”
顕現性落差の計算 7 「子供のような顔」の顕現性落差の計算 1. “子供”と“顔”それぞれの特徴集合に含まれる共有特徴を示す T (子供T (子供 ∩ 顔))
= { 幼い #0.222 ,たくましい #0.030} T (顔T (子供 ∩ 顔)) = { 幼い #0.003 ,たくましい #0.005} 1- 0.222log 1 0.222 + 0.030log 1 0.030 log2 2. それぞれの冗長度を計算する r(T (子供T (子供 ∩ 顔)) ) = 3. 生起確率の総和によって重み付けをして,両者を比較する Gap(A , B) = 0.471 * 0.253 ー 0.082 * 0.008 = 0.118
意外性 • 対比される概念の組み合わせの新鮮さをはかる尺度 例:「スポーツカーのような車」 “スポーツカー”と“車”の共有特徴= { 速い,格好いい,燃費が悪い …} “車”の特徴を強調しているが、比喩性は認識されにくい ⇒ありふれた組み合わせで、表現の新鮮さに欠ける
8
意外性計算のための知識ベース構築 • 全ての名詞とその出現頻度、および一文をスコープとした 場合の名詞共起とその共起頻度をコーパスから抽出し、構 築する 例:二人は白い花の茨の影から出て , 小さい沼の方へと歩く {二人,花: 29
, 32 , 4 } 29 :“二人”の出現頻度 32 :“花”の出現頻度 4 :“二人”と“花”の共起頻度 9
意外性の定量化 • 単語間の意味的距離を示す dice 関数を利用し、 逆数を“意外性”の値とする 10 Nov(W s ,W
t ) = p s + p t 2(p s × p t ) t s W W , 二つの単語 t s p p , 単語の出現頻度
概念対の分類 “顕現性落差”と“意外性”が大きい程比喩性も大きい 概念対(比喩・例示・無意味)の区別を対応付けると, 表のような関係が仮定できる 11 顕現性落差 大 小 負 意
外 性 大 比喩 比喩 / 例示 無意味 : : : : 小 例示 比喩 / 例示 無意味 ?
評価方法 検証のため、以下のような単語対データ 100 組を用意した 1. 知識ベース構築に用いたコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 70 組 2.
知識ベースとは関係ないコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 30 組 分類の基準としてしきい値を設定した 顕現性落差が 0 未満( ) ⇒ 無意味単語対 意外性が 146 以下( ) ⇒ 例示 12
評価結果 データ (1) データ (2) 13 人手による判別 確率的尺度による判別 正答数 比喩
48 30 25 例示 17 18 9 無意味 5 22 4 人手による判別 確率的尺度による判別 正答数 比喩 13 11 8 例示 12 8 6 無意味 5 11 4 比喩:適合率 83.3% 再現率 52.1% 比喩:適合率 72.7% 再現率 61.5%
まとめ • 比喩性を検出するための尺度として,“顕現性落差” と“意外性”を定義し,定量化した • 比喩性判定実験とその評価を行った結果,提案モデル が有効であることが確認された • 今後は単語の同義性を考慮した本手法の精密化や 新聞以外のコーパスや概念辞書の利用を進める
14