Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
確率的判定尺度を用いた比喩性検出手法
Search
自然言語処理研究室
September 01, 2016
Technology
0
96
確率的判定尺度を用いた比喩性検出手法
桝井文人,福本淳一,椎野努,河合敦夫.
確率的判定尺度を用いた比喩性検出手法
自然言語処理,Vol.9(2002),No.5,p71-92
自然言語処理研究室
September 01, 2016
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
350
データサイエンス13_解析.pdf
jnlp
0
410
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
110
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
76
自然言語処理研究室 研究概要(2014年)
jnlp
0
89
自然言語処理研究室 研究概要(2015年)
jnlp
0
140
Other Decks in Technology
See All in Technology
AGIについてChatGPTに聞いてみた
blueb
0
130
静的解析で実現した効率的なi18n対応の仕組みづくり
minako__ph
1
100
SSMRunbook作成の勘所_20241120
koichiotomo
3
170
アプリエンジニアのためのGraphQL入門.pdf
spycwolf
0
110
DynamoDB でスロットリングが発生したとき_大盛りver/when_throttling_occurs_in_dynamodb_long
emiki
1
450
TanStack Routerに移行するのかい しないのかい、どっちなんだい! / Are you going to migrate to TanStack Router or not? Which one is it?
kaminashi
0
610
AI前提のサービス運用ってなんだろう?
ryuichi1208
8
1.4k
IBC 2024 動画技術関連レポート / IBC 2024 Report
cyberagentdevelopers
PRO
1
120
The Role of Developer Relations in AI Product Success.
giftojabu1
0
150
誰も全体を知らない ~ ロールの垣根を超えて引き上げる開発生産性 / Boosting Development Productivity Across Roles
kakehashi
2
230
AWS Media Services 最新サービスアップデート 2024
eijikominami
0
200
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
isaoshimizu
3
640
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Site-Speed That Sticks
csswizardry
0
33
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
BBQ
matthewcrist
85
9.3k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
Rails Girls Zürich Keynote
gr2m
94
13k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
Art, The Web, and Tiny UX
lynnandtonic
297
20k
Speed Design
sergeychernyshev
25
620
Visualization
eitanlees
145
15k
Transcript
文献紹介: 確率的判定尺度を用いた比喩性検出手法 釧路工業高等専門学校 2 S 関口 育栄 2016/9/1 1
参考文献 • 桝井 文人,福本 淳一,椎野 努,河合 敦夫. • 確率的判定尺度を用いた比喩性検出手法 •
自然言語処理, Vol.9(2002) , No.5 , p71-92 2
概要 • 概念(単語)間の比喩性を検出するための確率的な 尺度として,“顕現性落差”と“意外性”を設定する • 両尺度を用いた比喩性検出手法を検出するため, 単語対データを 100 組用意し,判別実験を行った •
結果として, 70 %以上の適合率で比喩関係単語対 が判別できることがわかり,本手法の有効性が確認 された 3
導入 • 心理学的実験手法による理論的モデルの検証 ⇒被験者数の確保やコスト等の制限がある • 比喩を構成するときの特徴の移動を定量化するモデル ⇒ 複数の顕現特徴を扱う場合に問題 知識の大規模化,汎用化は解消されず •
テキスト中に出現する比喩の認識のため,確率的尺度 を用いた比喩性検出手法を提案する 4
顕現性落差 • クローズアップされる特徴を抽出し、その特徴がいかに明確で あるかをはかる尺度 例:「卵のような車」 “卵”の特徴集合= { 丸い,白い,割れやすい, …} “車”の特徴集合=
{ 速い,強い, … ,丸い,白い, …} “卵”と“車”の共有特徴集合= { 丸い,白い, …} “車”における{丸い,白い, … }などの特徴を強調し、顕現性落差 が生じる 5
顕現性落差計算のための知識ベース構築 • テキストコーパスから“修飾語-名詞”の共起関係と共起頻度 を抽出、知識ベース化する ① 一日目には赤い花が一本売れた ② 二人は白い花の茨の影から出て、小さい沼の方へと歩く 6 ①を形態素解析した結果から
“花 = {赤い #1.0 }” ②を同様に処理すると “花 = {赤い #0.5 ,白い #0.5 }” “沼 = {小さい #1.0 }”
顕現性落差の計算 7 「子供のような顔」の顕現性落差の計算 1. “子供”と“顔”それぞれの特徴集合に含まれる共有特徴を示す T (子供T (子供 ∩ 顔))
= { 幼い #0.222 ,たくましい #0.030} T (顔T (子供 ∩ 顔)) = { 幼い #0.003 ,たくましい #0.005} 1- 0.222log 1 0.222 + 0.030log 1 0.030 log2 2. それぞれの冗長度を計算する r(T (子供T (子供 ∩ 顔)) ) = 3. 生起確率の総和によって重み付けをして,両者を比較する Gap(A , B) = 0.471 * 0.253 ー 0.082 * 0.008 = 0.118
意外性 • 対比される概念の組み合わせの新鮮さをはかる尺度 例:「スポーツカーのような車」 “スポーツカー”と“車”の共有特徴= { 速い,格好いい,燃費が悪い …} “車”の特徴を強調しているが、比喩性は認識されにくい ⇒ありふれた組み合わせで、表現の新鮮さに欠ける
8
意外性計算のための知識ベース構築 • 全ての名詞とその出現頻度、および一文をスコープとした 場合の名詞共起とその共起頻度をコーパスから抽出し、構 築する 例:二人は白い花の茨の影から出て , 小さい沼の方へと歩く {二人,花: 29
, 32 , 4 } 29 :“二人”の出現頻度 32 :“花”の出現頻度 4 :“二人”と“花”の共起頻度 9
意外性の定量化 • 単語間の意味的距離を示す dice 関数を利用し、 逆数を“意外性”の値とする 10 Nov(W s ,W
t ) = p s + p t 2(p s × p t ) t s W W , 二つの単語 t s p p , 単語の出現頻度
概念対の分類 “顕現性落差”と“意外性”が大きい程比喩性も大きい 概念対(比喩・例示・無意味)の区別を対応付けると, 表のような関係が仮定できる 11 顕現性落差 大 小 負 意
外 性 大 比喩 比喩 / 例示 無意味 : : : : 小 例示 比喩 / 例示 無意味 ?
評価方法 検証のため、以下のような単語対データ 100 組を用意した 1. 知識ベース構築に用いたコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 70 組 2.
知識ベースとは関係ないコーパスに現れる“AのようなB”と いうパターンで現れる単語対: 30 組 分類の基準としてしきい値を設定した 顕現性落差が 0 未満( ) ⇒ 無意味単語対 意外性が 146 以下( ) ⇒ 例示 12
評価結果 データ (1) データ (2) 13 人手による判別 確率的尺度による判別 正答数 比喩
48 30 25 例示 17 18 9 無意味 5 22 4 人手による判別 確率的尺度による判別 正答数 比喩 13 11 8 例示 12 8 6 無意味 5 11 4 比喩:適合率 83.3% 再現率 52.1% 比喩:適合率 72.7% 再現率 61.5%
まとめ • 比喩性を検出するための尺度として,“顕現性落差” と“意外性”を定義し,定量化した • 比喩性判定実験とその評価を行った結果,提案モデル が有効であることが確認された • 今後は単語の同義性を考慮した本手法の精密化や 新聞以外のコーパスや概念辞書の利用を進める
14