Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
n-gramを用いた日本語テキスト含意認識の検討
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2010
Research
0
120
n-gramを用いた日本語テキスト含意認識の検討
宇髙 邦弘, 山本 和英. n-gramを用いた日本語テキスト含意認識の検討. 言語処理学会第16回年次大会, pp.462-465 (2010.3)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
510
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
150
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
470
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
380
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
680
湯村研究室の紹介2025 / yumulab2025
yumulab
0
300
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.5k
OWASP KansaiDAY 2025.09_文系OSINTハンズオン
owaspkansai
0
110
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
200
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
160
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.1k
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
160
Featured
See All Featured
Visualization
eitanlees
150
17k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Testing 201, or: Great Expectations
jmmastey
46
8k
How GitHub (no longer) Works
holman
316
140k
Faster Mobile Websites
deanohume
310
31k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Marketing to machines
jonoalderson
1
4.6k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
300
The untapped power of vector embeddings
frankvandijk
1
1.6k
Transcript
n-gramを用いた テキスト含意認識の検討 長岡技術科学大学 電気系 山本研究室 宇高 邦弘,山本 和英 ① このPDFはpdfFactory試用版で作成されました
www.nsd.co.jp/share/pdffact
テキスト含意認識とは ・言語表現Aが言語表現Bの意味を含むか (=含意)を判断するタスク ・言語表現Aを「テキスト」,言語表現Bを「仮説」 テキスト :「日本の大豆生産量は世界16位だ」 仮説 :「日本は大豆を生産している」 含意認識 :含意
② このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
テキスト含意認識とは ・含意認識 ⇒ 要素技術の塊 ・各要素技術 ⇒ 実現が困難 ・実現が容易な技術の日本語含意認識有用性 ⇒ 議論されていない
述語項構造解析 換言知識 推論 含意認識 ETC ③ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
n-gramを用いた テキスト含意認識 ・n-gramによるテキスト比較 ⇒ 実装が容易 ・日本語テキスト含意認識において, n-gramのみを用いた含意認識研究はない n-gramから得られる情報のみを利用して 含意認識 ⇒
認識精度評価 ④ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
・言い換え表現の述語項構造解析への正規化と テキスト含意関係認識での利用 [小谷ら 09] ・言語表現を述語項構造に正規化 「数学を勉強する」 → 勉強する <ヲ格>数学 ・述語項構造を単位に2文間の一致をとる
先行研究 ⑤ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
使用するn-gram ・単語,自立語,文節の3つの要素を使用 言語表現「私は働く」 1)単語 → 私 は 働く 2)自立語 →
私 働く 3)文節 → 私は 働く ・要素数(n) 1~3まで使用 ⑥ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意判定方法 ⑦ テキスト n-gram 生成 n-gram 生成 仮説 両n-gram 完全一致数
を計算 仮説n-gram 完全一致率 を計算 閾値より 高い? 含意 非含意 Y N このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
本システムでの 含意認識例 テキスト :太郎 に 本 を 借り た が
無く し た 仮説 :太郎 に 本 を 借り た 単語2グラム,閾値50%の場合 a h a:両n-gram完全一致数 h:完全一致するn-gramと仮説n-gramの被覆数 ⑧ ×100 = 100 > 50 含意している このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
評価実験 ・テストセットを人手で作成 (テキストと仮説のペアを104個作成) ・テストセットは予め人間によって含意判定済み (含意,非含意ペア52個ずつで構成) ・閾値は10%~100%まで10%刻みで設定 ⑨ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
実験結果 ⑩ 55.8 104 50 2 自立語 55.8 104 50
3 単語 55.8 104 70 2 単語 56.7 104 70 2 自立語 精度 [%] ペア数[個] 閾値[%] 要素数 要素 ⇒精度は最高で50%後半 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意認識傾向についての考察 ⑪ 非含意 要素 形態素 自立語 文節 要素数 大 閾値
高 含意 小 低 要素,要素数,閾値の変化によって 含意判断傾向も変化 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
含意認識傾向についての考察 ・含意認識傾向から判定結果の重要度を計算 非含意傾向にある状態で含意と判断 ⇒重要度:高 ・要素、要素数、閾値ごとの含意認識結果から 総合して再判断 ⇒ 認識精度向上 ⑫ 結果から
重要度を 計算 重要度から 総合的に 含意判定 各含意認識結果 このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
認識失敗例についての考察 ・換言知識を必要とする例 テキスト:芭蕉布作りは労多くて骨の折れる仕事です 仮説 :芭蕉布は作るのが難しい ・否定表現が存在する例 テキスト :岡下さんに大きな怪我はなかった 仮説 :岡下さんは大きな怪我をした
⇒共に特別な処理,知識を必要とする ⑬ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact
結論 ・n-gramを用いてテキスト含意認識を行った →精度は最高で5割程度 ・生じる問題を理解 →換言関係や否定表現などの問題 今回の検討を下に,更なる精度向上を 目指す ⑭ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact