Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Building Evaluation Sets for Textual Entailment...

Building Evaluation Sets for Textual Entailment Recognition Using Lexical Knowledge and Recognition Experiments

村松 祐希(Yuki Muramatsu). Building Evaluation Sets for Textual Entailment Recognition Using Lexical Knowledge and Recognition Experiments. 長岡技術科学大学修士論文 (2011.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 10 関連研究 • SVMと文字列類似度を用いたテキスト含意 認識学習 (Prodromosら, 2007) –編集距離、品詞情報、分かち書き –精度は約62% •

    Recognising Textual Entailment Challenge (Daganら, 2005) –RTEワークショップを開催 –全17のRTE手法を分類
  2. 13 訓練データ Word Overlap Mutual Information Subpath Set SVM True

    False T:本文 H:仮説 含意判定 SVM features Resource Processing 提案手法(システム図)
  3. 14 訓練データ • 含意する事例(文字列)をスコア化(数値化) –評価事例の含意判定を推定 中 高 中 低 中

    中 中 高 高 中 中 高 手法C 手法B 手法A 訓練事例 i (含意) 訓練事例 j(含意) 訓練事例 k(含意しない) 評価事例 l (?)
  4. 15 訓練データ • 含意する事例(文字列)をスコア化(数値化) –評価データの含意判定を推定 中 高 中 低 中

    中 中 高 高 中 中 高 手法C 手法B 手法A 訓練事例 i (含意) 訓練事例 j(含意) 訓練事例 k(含意しない) 評価事例 l (含意)
  5. 16 訓練データ T: トヨタが高級車「レクサス」店を開業した。 H: レクサスは高級車だ。 含意判定: Talw T alw

    : Hが必ず真であるといえる場合 T may : Hが正しいと考えられる場合 F may : Hが真である可能性がある程度考えられる場合 F alw : Hが全くの誤りだとわかる場合
  6. 17 提案手法(Word Overlap) 1 ( , ) exp( log( )

    / ) exp(1 max{1, / }) n i i Bleu A B BP p n BP r c = = = − ∑ BLEUを用いた手法(Perez and Alfonseca, 2005) をベースとしたWord Overlapを使用 – A,B : 文 – p i : n-gramの被覆率 – n : n-gram. – c : 文Aの長さ – r : 文Bの長さ
  7. 20 提案手法(Mutual Information) , 1 ( 1| ) max (

    , ) ( ) ( , ) log ( ) ( ) V t u h u v u v P Trh t lep u v p n lep u v p n p u ∈ ∈ = = ≈ − ⋅ ∏ u – u : 仮説中の単語, v : テキスト中の単語 – P(n u ) : 単語uの出現確率 – P(n v ) : 単語vの出現確率 – P(n u,v ) :単語uとvの共起確率 Glickmanら(Glickmanら, 2005)の手法をベースとした 相互情報量を使用
  8. 26 実験条件(認識手法) • 評価方法は平均適合率をベースとした CWSを使用 (Daganら., 2005) • オープンテスト –

    10分割交差検定(one leave out) • 訓練データ –真データ T alw :924,T may : 662 –偽データ F may :262 ,F alw :624
  9. 27 認識手法の実験結果(オープンテスト) 64.1% 61.9% 49.9% SVM 61.1% 59.7% 45.0% Subpath

    Set 67.4% 55.6% 53.4% Mutual Informaition 59.3% 60.2% 39.0% Word Overlap Talw and Tmay Tmay Talw CWS
  10. 29 考察 • 正解条件によって組み合わせの有効性が 変わる? – 訓練データの汎化(分離超平面)に違いがある – 境界条件に近い訓練事例がより多くの貢献 •

    SVMに用いた素性の有効性は? – 素性を組み合わせを変えて実験 – 本手法の3つの素性から2つを選択し、比較
  11. 30 考察 64.1% 61.9% 49.9% WO+MI+SS 62.2% 60.9% 48.6% SS+WO

    63.4% 59.8% 55.2% MI+SS 65.3% 61.5% 41.2% WO+MI Talw and Tmay Tmay Talw CWS