n-gramを用いた日本語テキスト含意認識の検討

n-gramを用いたテキスト含意認識の検討長岡技術科学大学電気系山本研究室宇高邦弘，山本和英 ① このPDFはpdfFactory試用版で作成されました
www.nsd.co.jp/share/pdffact

テキスト含意認識とは・言語表現Ａが言語表現Ｂの意味を含むか（＝含意）を判断するタスク・言語表現Ａを「テキスト」，言語表現Ｂを「仮説」テキスト：「日本の大豆生産量は世界16位だ」仮説：「日本は大豆を生産している」含意認識：含意
② このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

テキスト含意認識とは・含意認識 ⇒ 要素技術の塊・各要素技術 ⇒ 実現が困難・実現が容易な技術の日本語含意認識有用性 ⇒ 議論されていない
述語項構造解析換言知識推論含意認識 ETC ③ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

n-gramを用いたテキスト含意認識・n-gramによるテキスト比較 ⇒ 実装が容易・日本語テキスト含意認識において， n-gramのみを用いた含意認識研究はない n-gramから得られる情報のみを利用して含意認識 ⇒
認識精度評価 ④ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

・言い換え表現の述語項構造解析への正規化とテキスト含意関係認識での利用 [小谷ら 09] ・言語表現を述語項構造に正規化「数学を勉強する」 → 勉強する <ヲ格>数学・述語項構造を単位に2文間の一致をとる
先行研究 ⑤ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

使用するn-gram ・単語，自立語，文節の３つの要素を使用言語表現「私は働く」１）単語 → 私は働く２）自立語 →
私働く３）文節 → 私は働く・要素数（n）１～３まで使用 ⑥ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

含意判定方法 ⑦ テキスト n-gram 生成 n-gram 生成仮説両n-gram 完全一致数
を計算仮説n-gram 完全一致率を計算閾値より高い？含意非含意 Y N このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

本システムでの含意認識例テキスト：太郎に本を借りたが
無くした仮説：太郎に本を借りた単語2グラム，閾値50%の場合 a h a:両n-gram完全一致数 h：完全一致するn-gramと仮説n-gramの被覆数 ⑧ ×100 ＝ 100 > 50 含意しているこのPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

評価実験・テストセットを人手で作成（テキストと仮説のペアを１０４個作成）・テストセットは予め人間によって含意判定済み（含意，非含意ペア５２個ずつで構成）・閾値は１０％～１００％まで１０％刻みで設定 ⑨ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

実験結果 ⑩ 55.8 104 50 ２自立語 55.8 104 50
３単語 55.8 104 70 ２単語 56.7 104 70 ２自立語精度 [％] ペア数[個] 閾値[％] 要素数要素 ⇒精度は最高で50%後半このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

含意認識傾向についての考察 ⑪ 非含意要素形態素自立語文節要素数大閾値
高含意小低要素，要素数，閾値の変化によって含意判断傾向も変化このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

含意認識傾向についての考察・含意認識傾向から判定結果の重要度を計算非含意傾向にある状態で含意と判断 ⇒重要度：高・要素、要素数、閾値ごとの含意認識結果から総合して再判断 ⇒ 認識精度向上 ⑫ 結果から
重要度を計算重要度から総合的に含意判定各含意認識結果このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

認識失敗例についての考察・換言知識を必要とする例テキスト：芭蕉布作りは労多くて骨の折れる仕事です仮説：芭蕉布は作るのが難しい・否定表現が存在する例テキスト：岡下さんに大きな怪我はなかった仮説：岡下さんは大きな怪我をした
⇒共に特別な処理，知識を必要とする ⑬ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

結論・n-gramを用いてテキスト含意認識を行った →精度は最高で5割程度・生じる問題を理解 →換言関係や否定表現などの問題今回の検討を下に，更なる精度向上を目指す ⑭ このPDFはpdfFactory試用版で作成されました www.nsd.co.jp/share/pdffact

n-gramを用いた日本語テキスト含意認識の検討

n-gramを用いた日本語テキスト含意認識の検討

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

n-gramを用いたテキスト含意認識の検討長岡技術科学大学電気系山本研究室宇高邦弘，山本和英 ① このPDFはpdfFactory試用版で作成されました

テキスト含意認識とは・含意認識 ⇒ 要素技術の塊・各要素技術 ⇒ 実現が困難・実現が容易な技術の日本語含意認識有用性 ⇒ 議論されていない

n-gramを用いたテキスト含意認識・n-gramによるテキスト比較 ⇒ 実装が容易・日本語テキスト含意認識において， n-gramのみを用いた含意認識研究はない n-gramから得られる情報のみを利用して含意認識 ⇒

・言い換え表現の述語項構造解析への正規化とテキスト含意関係認識での利用 [小谷ら 09] ・言語表現を述語項構造に正規化「数学を勉強する」 → 勉強する <ヲ格>数学・述語項構造を単位に2文間の一致をとる

使用するn-gram ・単語，自立語，文節の３つの要素を使用言語表現「私は働く」１）単語 → 私は働く２）自立語 →

含意判定方法 ⑦ テキスト n-gram 生成 n-gram 生成仮説両n-gram 完全一致数

本システムでの含意認識例テキスト：太郎に本を借りたが

実験結果 ⑩ 55.8 104 50 ２自立語 55.8 104 50

含意認識傾向についての考察 ⑪ 非含意要素形態素自立語文節要素数大閾値

含意認識傾向についての考察・含意認識傾向から判定結果の重要度を計算非含意傾向にある状態で含意と判断 ⇒重要度：高・要素、要素数、閾値ごとの含意認識結果から総合して再判断 ⇒ 認識精度向上 ⑫ 結果から