Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 文献紹介(Less Grammar, More Features)

takegue
August 01, 2014

自然言語処理研究室 文献紹介(Less Grammar, More Features)

文献紹介ゼミ

takegue

August 01, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. • David Hall, Greg Durrett, and Dan Klein. 2014. Less

    Grammar, More Features. Proceedings of the 2014 Association for Computational Linguistics. Abstract: We present a parser that relies primarily on extracting information directly from surface spans rather than on propagation information through enriched grammar structure. For example, instead of creating separate grammar symbol to mark the definiteness of an NP, our parser might instead from the first word of the NP. Moving the context out of grammar and onto surface features can greatly simplify the structural component of the parser: because so many deep syntactic cues have surface reflexes, our system can still parse accurately with context-free backbones. Keeping the structural backbone and moving features to new languages and even to new tasks.(Seddah et al., 2013) On the SPMRL 2013 multilingual constituency parsing shared task(Seddah et al.,2013) our system outperforms the top single parser system of Bjorkelund et al.(2013) on a range of languages. In addition, despite being designed for syntactic analysis, our system also achieves state-of-the-art numbers on the structural sentiment task of Socher et al.(2013). Finally, we show that, in the both syntactic analysis and sentiment analysis, many broad linguistic trends can be captured vi surface features. 要旨: 文法規則が少なくとも、表層系(surface)から得られる情報をしっかり使 うことで、文法規則を抑えつつも多くのタスクで大きい情報源となる、と 主張. 本研究ではそれをPCFGを中心に検証している。 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 Less Grammar, More Features.
  2. • 句構造解析(構文解析)の歴史 CFG(Context Free Grammar:文脈自由文法)における選好性 ・ CFGにおいて文法規則 (i.e NP →

    NP PP) ・ 人間の選好性を機械に学ばせる(PCFG) P(NP|S) * P(NP|VP) * … 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 1. 導入 S NP VP VP NP V NP P PP astronomers saw stars with ears S NP VP NP V NP P PP astronomers saw stars with ears NP
  3. • 句構造解析(構文解析)の歴史 – Naïve PCFG ではF値72.1% → 不十分 – Treebankから推定:(VP

    → V NP) 0.3, (PP → P NP) 1.0 – Head Lexicalization(Eisner’96; Collins’97; Charniak’97) – Structual annotation(Johonson’98; Klein and Maning’03) – State-splitting(Matsuzaki et al.’98; Petrov et al’06) • Berkeley Parser(F値 90.2 %) • 文法規則の増加 → 精度の向上 [言語依存, 計算量の増加] 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 1. 導入 S NP VP VP NP V NP P PP astronomers saw stars with ears S NP VP NP V NP P PP astronomers saw stars with ears NP
  4. • 本研究のアプローチ 文法規則をを最小限にしつつ、精度の向上は可能か? - 極端な例:文法規則が何もない状態で句の推定 → 文中のspan(i, j) におけるPOS taggingに相当

    → 依存構造(ネスト構造)があるため、規則は必要 表層形だけで人間が利用する文の多様さに適応できるか? → できる。 しかも多言語にも適応可能 文法規則が最低限:言語への依存性が少ない morphological rich languageにたいしても有効 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 1. 導入
  5. • 本研究のアプローチ 句とその周辺の語の表層の情報と文法規則だけで十分では? → 素性を Span Properties × Rule backoffs

    (直積集合) → モデルはCRF Parsing(Finkel et al. ’07) AdaGrad + L2 (オンライン学習) 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 1. 導入 Final Results Model
  6. • 本研究のアプローチ 句とその周辺の語の表層の情報と文法規則だけで十分では? → 素性を Span Properties × Rule backoffs

    (直積集合) span(r) と rule(r)を全て網羅することは不可能. → データ中の出現したもの(gold anotaed)のみ考慮 → 既存のCRF Parserではpositive(正例)のみ学習 しかし、負例学習も行いたい(×has のあと PRN[he, this]) ・ 正例学習は基本的に衝突しない、しかし負例学習は違う ・ 負例学習は衝突があるので bucketed(複数で1つの素性)にして学習を行う. 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 2. Features Framework
  7. • 素性はSpan Properties × Rule backoffs(固定) ・ RULE : 最小限の文法規則(以下固定)

    ・ 最初のSpan Propertiesだけで12ポイント改善 ・ 他のSpan Properties で合計4.9ポイント改善 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 3. Features
  8. • FIRST WORD SPAN → 動詞句(VP)ならば動詞が先頭に来やすい • LAST WORD SPAN

    → 名詞句(NP)ならば名詞が末尾に来やすい • LENGTH → 名詞句中(NP)の動詞句(VP)は短くなりやすい (動名詞) → 1,2,3,4,5,10,20, >=21 の8段階に 振り分けて学習してる。 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 3.1 Features – Basic Span Properties
  9. 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 3.2 Features – Span Context

    Properties • WORD BEFORE/AFTER SPAN – read は 動詞か、形容詞か? VP or NP – no × VP → VBP NNS が 負例となる
  10. 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 3.3 Features – Span Point

    Properties • Word BEFORE/AFTER SPLIT – impact のNPの後には. PP(on~)がきやすい – 各句のhead(中心的な意味をもつ)ものが前後両端のどちらにきやすい かという情報を利用(日本語だと句の終わりに気安い)
  11. • 素性はSpan Properties × Rule backoffs(固定) ・ RULE : 最小限の文法規則(以下固定)

    ・ 最初のSpan Propertiesだけで12ポイント改善 ・ 他のSpan Properties で合計4.9ポイント改善 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 3. Features
  12. 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 4. 多言語への適用 最終結果では、English Berkeleyには及ばず しかしながらSPMRL2013

    Taskの多言語での結果を比べると 提案手法が非常に効果が高いことが分かる. Berkeley-Rep, Berkeley-Tags が言語に対しチューニングしたもの
  13. 2014/8/1 長岡技術科学大学 自然言語処理研究室 2014年度 文献紹介 6. まとめ • 構文解析で精度をだすためには大量の文法規則を(自動・手 動)生成し文法規則を増やすべきだと考えられてきた

    • 本研究で提案されたような文法規則最小限の構造解析器 – 表層形のみの情報(だけ)でも、強力な素性が作り出せる – 言語依存も少なく、拡張性が高い – 素性を変更することで、多タスクへの応用が可能 • Epic Parser(https://github.com/dlwh/epic)として公開 David Hall, Greg Durrett, and Dan Klein. 2014. Less Grammar, More Features. Proceedings of the 2014 Association for Computational Linguistics. 奥村 学. 2010. 自然言語処理の基礎. 能地宏. 2014. ACL読み会2014. Less Grammar , More Features. Recursive Deep Models for Semantic Compositionality. 参考文献