Pro Yearly is on sale from $80 to $50! »

A simple pattern-matching algorithm for recovering empty nodes and their antecedents

6fe6b19f7204487ab25ceb3b3a70204e?s=47 takegue
May 08, 2015
75

A simple pattern-matching algorithm for recovering empty nodes and their antecedents

2015-05-08

6fe6b19f7204487ab25ceb3b3a70204e?s=128

takegue

May 08, 2015
Tweet

Transcript

  1. 1 文献紹介ゼミ A simple pattern-matching algorithm for recovering empty nodes

    and their antecedents 自然言語処理研究室 竹野 峻輔
  2. 2 概要 • Johnson, M. (2002). A simple pattern-matching algorithm

    for recovering empty nodes and their antecedents. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (pp. 136–143). • Penn TreeBankを対象とした ECの検出および 同一指標(co-index)の補完 • 知識非依存のパターンマッチングによる手法の提案 → F値 0.79の性能の達成 (Gold データに対しては 精度0.90)
  3. 3 導入 • Empty Category は 一種の構文情報 非局所的な 単語や句の関係を表している 疑問文や関係節による名詞句の移動(trace)

    命令文 等による主格の欠落 ...
  4. 4 導入 • 英語の場合, ECには大きな偏りが出現する → 高い適合率・再現率 が期待できる Section 2-21

    of Pen Treebank における 空範疇の統計情報. Antecedant = 先行詞
  5. 5 Pattern-matching algorithm 以下の手順に従って, 付与を行う 0.(前処理) 非明示的な アノテーション を 明示的に

    1.(抽出処理) 訓練データから検出パターンの抽出 2.パターンに基づきECとco-indexの挿入
  6. 6 Pattern-mathing algorithm:前処理 • 助動詞と他動詞について前処理を行う. • 助動詞(i.e. is, being) は

    AUX or AUXG に変更 • 他動詞を明示的にする( 主に VBZ_t のように _t ) →NPが後続に続く場合, 全てを変更 他動詞であるか否か は 非情に強力な素性
  7. 7 Pattern-mathing algorithm:抽出と置換 • ECと その先行詞(antecedants) を含む 構文が重要なコンテキスト いくつか方法があるが性能は対して変化無し, 最も単純な方法でも十分

    • EC と co-indexを含む 最小の木をパターンとして抽出 – Co-index は 1から振り直し – ECを除く単語は無視 → 約 11,000 パターン 抽出
  8. 8 Pattern-mathing algorithm:抽出と置換 • 検出したものについて抽出と置換を行う. • 抽出したパターンの中で より深いマッチングを優先

  9. 9 Pattern-mathing algorithm:厳選 • パターンの抽出と置換 後したデータから 復元のパターンリストを作成する. → より優れたパターンのみを抽出する

  10. 10 Pattern-mathing algorithm:厳選 パターンの出現頻度 / パターンのマッチング頻度を計算 → 67%信頼区間の下限()が 1/2 であるときパターンを削除

    頻度が少ないもの, 有効でない パターン が取り除かれる
  11. 11 実験・評価: • (ECの種類, 左隣の単語の位置, 右隣の単語の位置)単位 Gold データと System 出力データで評価

  12. 12 実験・評価: • Co-index を含めた評価