Slide 1

Slide 1 text

文献紹介: Dependency-based empty category detection via phrase structure trees 長岡技術科学大学 自然言語処理研究室 竹野 峻輔

Slide 2

Slide 2 text

概要 Chinese Treebank における 空範疇検出. 係り受け構造 におけるモデル化 - 出力は係り受け構造 素性抽出は句構造から という特殊なモデル - 言語学的性質に着目した素性群の提案 Nianwen Xue and Yaqin Yang. 2013. Dependency-based empty category detection via phrase structure trees. In Proceedings of NAACL-HLT 2013, pages 1051–1060. .

Slide 3

Slide 3 text

導入 ● なぜ空範疇検出に取り組むのか? – pro-drop language では 頻繁に空範疇が出現する – 空範疇 ∋ ゼロ代名詞, NP痕跡, 関係代名詞の省略 … – 参照解決の問題. (文脈を機械的に理解するため) – 機械翻訳 では 大きな問題 ● Word alignment の精度の改善(Xiang, 2013) ● 空範疇を適切に埋めてやることでBLEUが大幅に向上 (Xian et al. 2013, Chung and Gildea 2010)

Slide 4

Slide 4 text

モデル 主辞hと隣接する単語t の (渉及, 的) → *OP*  組み合わせ (h, t)に対する空範疇の分類問題. - 複数の空範疇が連続する場合にも対応できる - 主辞 と 空範疇の関係 が 明示的になる 主辞単位で評価できるので 簡潔で明確

Slide 5

Slide 5 text

モデル ● 係り受け 構造に対して分類(上) ● 素性抽出は句構造(再パースしたもの)から抽出(下)

Slide 6

Slide 6 text

素性抽出:overviews ● 言語学的な性質に着目した素性群6種 – Horizonal features – Vertical features – Targeted grammatical constructions – Head information – Transitivity features – Semantic role features

Slide 7

Slide 7 text

素性抽出:ablation test

Slide 8

Slide 8 text

素性抽出:Horizonal features ● 主辞hや空範疇の隣接の単語p, t 前後関係を抽出したもの – 主辞h, 空範疇の隣接の単語p, tの 表層系およびPOS label – 上記ラベルの組み合わせ素性 – 主辞と空範疇の隣接の単語の距離 same, immediately before/after, near before/after, other – h ~ t までの間にある動詞の数 – h ~ t までの間にあるカンマの数

Slide 9

Slide 9 text

素性抽出:Vertical features ● 主辞h や 空範疇の隣接の単語p, t の構造的な特 徴に着目した素性 – t から p と t の共通の親 Aまでのパス – h ~ t までのパス – p と t の共通の親 A から hまでのパス

Slide 10

Slide 10 text

素性抽出:Targetd grammatical construction ● 言語学的構造(IP node) に 着目した 特徴 – 隣接の単語t が IPの始まりに位置するか? – 隣接の単語t が 主語の無いIPの始まりに位置するか? – tが左端にある 親IPの 左兄弟/右兄弟のラベル – tが左端にある親IPのgovernning-verbの 表層系 – tが左端にある親IPはlocalizer phraseの補語になるか? – tが左端に有る親IPは主格の役割を持っているか?

Slide 11

Slide 11 text

素性抽出:Head information ● 複数の述語が 一つの空範疇を共有する時の 構造情報を 捉えるための特徴 – 係り受け構造では ECに対し head はひとつのみ – IP中に VPが複数あるような構造を対象とした素性 – 動詞が head になりうるか否かを表す2値 ● 再パース 際の誤り も意識している ● おそらく RNR(右枝節繰り上がり)の検出に効果的

Slide 12

Slide 12 text

素性抽出:ablation test

Slide 13

Slide 13 text

実験 CTBの空範疇の種類 ● pro : small pro(ゼロ代名詞) ● PRO: big pro (主語代名詞. 文中に参照を持つ) ● OP : 関係代名詞の省略を表す空範疇 ● T : NP痕跡. 名詞句の移動を表す空範疇 ● RNR: 右枝接点繰り上げ 構文を表す ● * : 受動態や繰り上げの痕跡を表す ● ? : 不明. その他の空範疇

Slide 14

Slide 14 text

実験-データセット ● CTB v6.0

Slide 15

Slide 15 text

実験-結果

Slide 16

Slide 16 text

結論 ● 係り受け構造に対する空範疇検出モデルの提案 – ECが複数有る場合にも対応できる(再現率の改善) – 言語学的性質に着目することで (Cai et al. 2011) のモデルより 大きく改善 +7.4ポイント – pro に 対する性能はかなり低い ● cf. (Wang et al. 2015) では 大きく 改善されている