Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
n-gramを用いた日本語テキスト含意認識の検討
Search
自然言語処理研究室
March 31, 2010
Research
0
120
n-gramを用いた日本語テキスト含意認識の検討
宇髙 邦弘, 山本 和英. n-gramを用いた日本語テキスト含意認識の検討. 言語処理学会第16回年次大会, pp.462-465 (2010.3)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
【SIGGRAPH Asia 2025】Lo-Fi Photograph with Lo-Fi Communication
toremolo72
0
130
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
320
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
260
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
340
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
630
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
190
2025-11-21-DA-10th-satellite
yegusa
0
130
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
16
22k
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
490
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
180
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
320
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
680
Featured
See All Featured
Everyday Curiosity
cassininazir
0
160
Docker and Python
trallard
47
3.8k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
82
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
98
The Mindset for Success: Future Career Progression
greggifford
PRO
0
270
How to make the Groovebox
asonas
2
2k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Designing for Timeless Needs
cassininazir
0
160
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
78
Transcript
n-gramを用いた テキスト含意認識の検討 長岡技術科学大学 電気系 山本研究室 宇高 邦弘,山本 和英 ① このPDFはpdfFactory試用版で作成されました
www.nsd.co.jp/share/pdffact
テキスト含意認識とは ・言語表現Aが言語表現Bの意味を含むか (=含意)を判断するタスク ・言語表現Aを「テキスト」,言語表現Bを「仮説」 テキスト :「日本の大豆生産量は世界16位だ」 仮説 :「日本は大豆を生産している」 含意認識 :含意
② このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
テキスト含意認識とは ・含意認識 ⇒ 要素技術の塊 ・各要素技術 ⇒ 実現が困難 ・実現が容易な技術の日本語含意認識有用性 ⇒ 議論されていない
述語項構造解析 換言知識 推論 含意認識 ETC ③ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
n-gramを用いた テキスト含意認識 ・n-gramによるテキスト比較 ⇒ 実装が容易 ・日本語テキスト含意認識において, n-gramのみを用いた含意認識研究はない n-gramから得られる情報のみを利用して 含意認識 ⇒
認識精度評価 ④ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
・言い換え表現の述語項構造解析への正規化と テキスト含意関係認識での利用 [小谷ら 09] ・言語表現を述語項構造に正規化 「数学を勉強する」 → 勉強する <ヲ格>数学 ・述語項構造を単位に2文間の一致をとる
先行研究 ⑤ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
使用するn-gram ・単語,自立語,文節の3つの要素を使用 言語表現「私は働く」 1)単語 → 私 は 働く 2)自立語 →
私 働く 3)文節 → 私は 働く ・要素数(n) 1~3まで使用 ⑥ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意判定方法 ⑦ テキスト n-gram 生成 n-gram 生成 仮説 両n-gram 完全一致数
を計算 仮説n-gram 完全一致率 を計算 閾値より 高い? 含意 非含意 Y N このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
本システムでの 含意認識例 テキスト :太郎 に 本 を 借り た が
無く し た 仮説 :太郎 に 本 を 借り た 単語2グラム,閾値50%の場合 a h a:両n-gram完全一致数 h:完全一致するn-gramと仮説n-gramの被覆数 ⑧ ×100 = 100 > 50 含意している このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
評価実験 ・テストセットを人手で作成 (テキストと仮説のペアを104個作成) ・テストセットは予め人間によって含意判定済み (含意,非含意ペア52個ずつで構成) ・閾値は10%~100%まで10%刻みで設定 ⑨ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
実験結果 ⑩ 55.8 104 50 2 自立語 55.8 104 50
3 単語 55.8 104 70 2 単語 56.7 104 70 2 自立語 精度 [%] ペア数[個] 閾値[%] 要素数 要素 ⇒精度は最高で50%後半 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意認識傾向についての考察 ⑪ 非含意 要素 形態素 自立語 文節 要素数 大 閾値
高 含意 小 低 要素,要素数,閾値の変化によって 含意判断傾向も変化 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意認識傾向についての考察 ・含意認識傾向から判定結果の重要度を計算 非含意傾向にある状態で含意と判断 ⇒重要度:高 ・要素、要素数、閾値ごとの含意認識結果から 総合して再判断 ⇒ 認識精度向上 ⑫ 結果から
重要度を 計算 重要度から 総合的に 含意判定 各含意認識結果 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
認識失敗例についての考察 ・換言知識を必要とする例 テキスト:芭蕉布作りは労多くて骨の折れる仕事です 仮説 :芭蕉布は作るのが難しい ・否定表現が存在する例 テキスト :岡下さんに大きな怪我はなかった 仮説 :岡下さんは大きな怪我をした
⇒共に特別な処理,知識を必要とする ⑬ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
結論 ・n-gramを用いてテキスト含意認識を行った →精度は最高で5割程度 ・生じる問題を理解 →換言関係や否定表現などの問題 今回の検討を下に,更なる精度向上を 目指す ⑭ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact