Slide 1

Slide 1 text

1 文献紹介ゼミ A simple pattern-matching algorithm for recovering empty nodes and their antecedents 自然言語処理研究室 竹野 峻輔

Slide 2

Slide 2 text

2 概要 ● Johnson, M. (2002). A simple pattern-matching algorithm for recovering empty nodes and their antecedents. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (pp. 136–143). ● Penn TreeBankを対象とした ECの検出および 同一指標(co-index)の補完 ● 知識非依存のパターンマッチングによる手法の提案 → F値 0.79の性能の達成 (Gold データに対しては 精度0.90)

Slide 3

Slide 3 text

3 導入 ● Empty Category は 一種の構文情報 非局所的な 単語や句の関係を表している 疑問文や関係節による名詞句の移動(trace) 命令文 等による主格の欠落 ...

Slide 4

Slide 4 text

4 導入 ● 英語の場合, ECには大きな偏りが出現する → 高い適合率・再現率 が期待できる Section 2-21 of Pen Treebank における 空範疇の統計情報. Antecedant = 先行詞

Slide 5

Slide 5 text

5 Pattern-matching algorithm 以下の手順に従って, 付与を行う 0.(前処理) 非明示的な アノテーション を 明示的に 1.(抽出処理) 訓練データから検出パターンの抽出 2.パターンに基づきECとco-indexの挿入

Slide 6

Slide 6 text

6 Pattern-mathing algorithm:前処理 ● 助動詞と他動詞について前処理を行う. ● 助動詞(i.e. is, being) は AUX or AUXG に変更 ● 他動詞を明示的にする( 主に VBZ_t のように _t ) →NPが後続に続く場合, 全てを変更 他動詞であるか否か は 非情に強力な素性

Slide 7

Slide 7 text

7 Pattern-mathing algorithm:抽出と置換 ● ECと その先行詞(antecedants) を含む 構文が重要なコンテキスト いくつか方法があるが性能は対して変化無し, 最も単純な方法でも十分 ● EC と co-indexを含む 最小の木をパターンとして抽出 – Co-index は 1から振り直し – ECを除く単語は無視 → 約 11,000 パターン 抽出

Slide 8

Slide 8 text

8 Pattern-mathing algorithm:抽出と置換 ● 検出したものについて抽出と置換を行う. ● 抽出したパターンの中で より深いマッチングを優先

Slide 9

Slide 9 text

9 Pattern-mathing algorithm:厳選 ● パターンの抽出と置換 後したデータから 復元のパターンリストを作成する. → より優れたパターンのみを抽出する

Slide 10

Slide 10 text

10 Pattern-mathing algorithm:厳選 パターンの出現頻度 / パターンのマッチング頻度を計算 → 67%信頼区間の下限()が 1/2 であるときパターンを削除 頻度が少ないもの, 有効でない パターン が取り除かれる

Slide 11

Slide 11 text

11 実験・評価: ● (ECの種類, 左隣の単語の位置, 右隣の単語の位置)単位 Gold データと System 出力データで評価

Slide 12

Slide 12 text

12 実験・評価: ● Co-index を含めた評価