Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
n-gramを用いた日本語テキスト含意認識の検討
Search
自然言語処理研究室
March 31, 2010
Research
0
120
n-gramを用いた日本語テキスト含意認識の検討
宇髙 邦弘, 山本 和英. n-gramを用いた日本語テキスト含意認識の検討. 言語処理学会第16回年次大会, pp.462-465 (2010.3)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
220
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
180
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
satai
3
240
rtrec@dbem6
myui
6
870
Weekly AI Agents News!
masatoto
33
68k
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
190
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
820
Streamlit 総合解説 ~ PythonistaのためのWebアプリ開発 ~
mickey_kubo
1
920
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
1k
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
NLP Colloquium
junokim
1
160
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.5k
Speed Design
sergeychernyshev
32
1k
Done Done
chrislema
184
16k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
800
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
A designer walks into a library…
pauljervisheath
207
24k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Optimizing for Happiness
mojombo
379
70k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
n-gramを用いた テキスト含意認識の検討 長岡技術科学大学 電気系 山本研究室 宇高 邦弘,山本 和英 ① このPDFはpdfFactory試用版で作成されました
www.nsd.co.jp/share/pdffact
テキスト含意認識とは ・言語表現Aが言語表現Bの意味を含むか (=含意)を判断するタスク ・言語表現Aを「テキスト」,言語表現Bを「仮説」 テキスト :「日本の大豆生産量は世界16位だ」 仮説 :「日本は大豆を生産している」 含意認識 :含意
② このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
テキスト含意認識とは ・含意認識 ⇒ 要素技術の塊 ・各要素技術 ⇒ 実現が困難 ・実現が容易な技術の日本語含意認識有用性 ⇒ 議論されていない
述語項構造解析 換言知識 推論 含意認識 ETC ③ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
n-gramを用いた テキスト含意認識 ・n-gramによるテキスト比較 ⇒ 実装が容易 ・日本語テキスト含意認識において, n-gramのみを用いた含意認識研究はない n-gramから得られる情報のみを利用して 含意認識 ⇒
認識精度評価 ④ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
・言い換え表現の述語項構造解析への正規化と テキスト含意関係認識での利用 [小谷ら 09] ・言語表現を述語項構造に正規化 「数学を勉強する」 → 勉強する <ヲ格>数学 ・述語項構造を単位に2文間の一致をとる
先行研究 ⑤ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
使用するn-gram ・単語,自立語,文節の3つの要素を使用 言語表現「私は働く」 1)単語 → 私 は 働く 2)自立語 →
私 働く 3)文節 → 私は 働く ・要素数(n) 1~3まで使用 ⑥ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意判定方法 ⑦ テキスト n-gram 生成 n-gram 生成 仮説 両n-gram 完全一致数
を計算 仮説n-gram 完全一致率 を計算 閾値より 高い? 含意 非含意 Y N このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
本システムでの 含意認識例 テキスト :太郎 に 本 を 借り た が
無く し た 仮説 :太郎 に 本 を 借り た 単語2グラム,閾値50%の場合 a h a:両n-gram完全一致数 h:完全一致するn-gramと仮説n-gramの被覆数 ⑧ ×100 = 100 > 50 含意している このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
評価実験 ・テストセットを人手で作成 (テキストと仮説のペアを104個作成) ・テストセットは予め人間によって含意判定済み (含意,非含意ペア52個ずつで構成) ・閾値は10%~100%まで10%刻みで設定 ⑨ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
実験結果 ⑩ 55.8 104 50 2 自立語 55.8 104 50
3 単語 55.8 104 70 2 単語 56.7 104 70 2 自立語 精度 [%] ペア数[個] 閾値[%] 要素数 要素 ⇒精度は最高で50%後半 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意認識傾向についての考察 ⑪ 非含意 要素 形態素 自立語 文節 要素数 大 閾値
高 含意 小 低 要素,要素数,閾値の変化によって 含意判断傾向も変化 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意認識傾向についての考察 ・含意認識傾向から判定結果の重要度を計算 非含意傾向にある状態で含意と判断 ⇒重要度:高 ・要素、要素数、閾値ごとの含意認識結果から 総合して再判断 ⇒ 認識精度向上 ⑫ 結果から
重要度を 計算 重要度から 総合的に 含意判定 各含意認識結果 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
認識失敗例についての考察 ・換言知識を必要とする例 テキスト:芭蕉布作りは労多くて骨の折れる仕事です 仮説 :芭蕉布は作るのが難しい ・否定表現が存在する例 テキスト :岡下さんに大きな怪我はなかった 仮説 :岡下さんは大きな怪我をした
⇒共に特別な処理,知識を必要とする ⑬ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
結論 ・n-gramを用いてテキスト含意認識を行った →精度は最高で5割程度 ・生じる問題を理解 →換言関係や否定表現などの問題 今回の検討を下に,更なる精度向上を 目指す ⑭ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact