Learning Semantic Textual Relatedness using Natural Deduction Proofs

自然演繹に基づく論理推論の文間類似度学習・含意関係認識への応用自然言語処理 Vol.25 No.3 p.295-324, 2018 文献紹介 2019/1/29 長岡技術科学大学
自然言語処理研究室吉澤亜斗武

1. 概要・本研究では，文間の含意関係を高階論理の推論によって判定するシステムの実行過程から，文間の関連性に寄与する特徴を抽出し，文間の関連性を学習させる手法を提案・文書間類似度学習と含意関係認識のタスクに関して提案手法の評価を行った結果，いずれのタスクにおいても精度が向上した・含意関係認識用データセットの１つであるSICKによる評価では最高精度を達した 2

2. はじめに・文の意味表現では，ベクトル空間モデルや深層学習を用いる手法があるが，例えば”some”と”any”がほぼ同じ単語として扱われるなど，文の意味の違いをどのように捉えるかが課題である・一方，論理推論は含意関係認識のタスクでは高精度であるが，部分的・段階的な含意関係や類似関係を扱うことが困難である・本研究では，機械学習と論理推論とを組み合わせることで，文の関連性を学習する方法を提案 3

3.1 提案手法の全体像 4

・３種類のCCGパーザ（C&C, EasyCCG, depccg）おいて統語解析により英語の自然言語文をCCGの導出木に変換し，３種類のパーズ結果を用いて意味合成と推論を行い，適切なパーズ結果を選択する・トレーニングデータから特徴量を抽出する際は，含意関係の正解ラベルと同じ結果を導出するパーズ結果を優先．複数ある場合は精度順（depccg, EasyCCG,
C&C）で採用 5 3.2 組合せ範疇文法 (CCG) に基づく意味表現

6 3.2 組合せ範疇文法 (CCG) に基づく意味表現

定理証明器Coqとccg2lambdaを用いる 1. 文A, B を論理式A’, B’ と変換し，′ ⇒ ′, ′
⇒ ′ を行う 2. 1.の証明に失敗したら， ′ ⇒ ¬′, ′ ⇒ ¬′ を行う 3. 2.の証明も失敗したら，後述する定理の生成を行う 4. 1.および2.を生成された公理の下で行う 5. 4.の証明すらも失敗したら，強制終了する 6. 5.までにおける推論の情報をCoqの出力結果から抽出 7 3.5 自然演繹による証明戦略

1. WordNetを用いて前提と結論中の述語間の意味的関係（例：形態変化）をチェックし，マッチすれば確信度（共通する上位概念への最短経路の長さ）つきの公理を作成 2. WordNetに述語間の関係が存在しない場合は，Word2Vecの200次元単語ベクトル（Google News Corpus (約30億語)で学習済み）
を用いて前提と結論中の述語間の類似度を計算し，確信度（コサイン類似度）つきの公理を作成する確信度は0.0～1.0の値をとし，0.25未満は公理として採用しない 8 3.5 語彙知識を用いた公理の生成

特徴量（いずれも0.0から1.0の範囲に正規化する）・証明の実行過程と結果から導出した9種類の特徴量を用いる例）証明の結果，証明のステップ数，公理の数と確信度・表層情報と外部知識から導出した10種類の特徴量を用いる例）文の長さ，品詞の一致率，概念間の距離ランダムフォレスト回帰/分類を学習モデルとする．ハイパーパラメータはグリッドサーチを用いて最適化． 9 3.6 特徴量の設計と文の関連度学習

4.1 データセット・SemEval2014 Task1 SICK データセット文の意味的類似度と含意関係認識の評価用データセット類似度：1.0～5.0, 訓練データ：4,500件, 開発データ：500件
テストデータ：4,927件・SemEval2012 MSR-videoデータセット文の意味的類似度の評価用データセット類似度：0.0～5.0, 開発データ, テストデータが750件ずつ 10

4.1 データセット 11 一文あたりの平均単語数は10単語

4.1 データセット 12 一文あたりの平均単語数は6単語

4.2 既存手法との比較評価（類似度） 13 ・SICKの単語はほぼWordNetに含まれているので，WordNetと WordNet+Word2Vecの手法の精度はほぼ変わらない・SICKの方が平均単語数が多く，フレーズレベルでの言い換えが多いため， SICKではWord2Vecによって誤った公理の過剰生成がおこり，γが低い・MSR-videoではWord2Vecを用いて単語間の語彙知識を拡充し精度が向上

4.2 既存手法との比較評価（含意関係） 14 適合率：yes, noと予測した文ペアに対して，正解ラベルと同じ結果だったケースの割合再現率：正解ラベルがyes, noである文ペアに対して正解ラベルと予測ラベルが同じだったケースの割合正答率：yes, no,
unknownのすべての文ペアに対して正解ラベルと予測ラベルが同じだったケースの割合既存の最高精度モデル→

4.3 特徴量別の評価（類似度） 15 推論由来の特徴量それ以外の特徴量

16 4.3 特徴量別の評価（含意関係）推論由来の特徴量それ以外の特徴量

4.4 正解ラベル別の評価 17 ・提案手法は論理的関係がある（類似度が高い）文ペアにおいて高精度で類似度を予測することが示唆された．・文間の矛盾関係の判定のおいて高精度が発揮された

4.5 本研究の手法と深層学習による手法の比較 18 ・提案手法とMueller and Thyagarajan 2016 による予測類似度との比較すると，4,927件中 2,666件は提案手法の方が正解スコ
アに近い類似度を予測していた・2,666件について，言語現象の傾向を分析（表12）・提案手法が高精度で予測した文例数とテストデータ中の割合を計算した結果を表13に示す．

4.5 本研究の手法と深層学習による手法の比較 19

4.6 エラー分析 20 ・1264, 6637, 2831は含意関係を証明できず，公理を生成できなかった例・公理の過剰生成を防ぐためには，文脈に合わせて正しく公理の確信度を算出するように改善する必要がある（ID:1941）

5. まとめ・本研究では，文を高階述語論理式に変換し，文間の含意関係を高階論理の推論過程に関する情報から文間の関連性に寄与する特徴量を抽出し，文間の関連性を学習する手法を提案した．・SICKデータセットでの評価では最高精度を達成した・統語解析，意味合成，論理推論において改善策を検討していく・質問応答などの自然言語処理タスクへの適用が期待される 21

Learning Semantic Textual Relatedness using Nat...

Learning Semantic Textual Relatedness using Natural Deduction Proofs

Atom

More Decks by Atom

Featured

Transcript

自然演繹に基づく論理推論の文間類似度学習・含意関係認識への応用自然言語処理 Vol.25 No.3 p.295-324, 2018 文献紹介 2019/1/29 長岡技術科学大学