Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模テキストを用いた2文接続関係の同定

 大規模テキストを用いた2文接続関係の同定

齋藤 真実、山本 和英、関根 聡. 大規模テキストを用いた2文接続関係の同定. 言語処理学会第12回年次大会, pp.969-972 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. Introduction 概要  2文間の接続関係を大量のコーパスから統計的に判断  1文目と2文目に含まれる単語ペアの利用  構文パタンによる判定 応用 

    談話解析、修辞構造解析  ドキュメント要約:2文→1文の要約等  QAシステム:原因を尋ねる質問等
  2. 関連研究 Marcu and Echihabi[2002]  大規模コーパスから接続詞のある2文を抽出  2文に含まれる単語のペアを素性とし、ナイー ブベイズ分類器を用いて分類 

    6分類(本研究とは異なる)で49.7% 横山ら[2003]  SVMを用いた談話構造解析  談話構造を付与した訓練データが必要
  3. 接続関係の分類 1.2% 例えば、たとえば(2個のみ) 例示 5.1% さて、ところで、では 転換 6.0% 一方、もしくは、つまり 並列

    12.1% だから、すると、ゆえに 因果 32.2% しかし、でも、ところが、だが 加反 43.0% また、そして、しかも 累加 出現頻度 接続詞の例 接続関係
  4. Step1: 不要な文節の削除  「助詞-連体化」の「の」で終わる文節とその文節の係り 元すべて  並列助詞で終わる文節 Step2: パタンの構成要素の取得→パタンの追加 

    (内容語)?(助詞|助動詞|。)+$  副詞$ 例3) 1.彼女の心にどんな思いがあったかはわからない 。   2.それはとても勇気がいることだったに違いない。 構文パタンの作成①
  5. 構文情報追加による向上 0.65 0.53 出現頻度を考慮 0.64 (192/300) 0.57(171/300) 合計 0.60 (30/50)

    0.56 (28/50) 例示 0.72 (36/50) 0.66 (33/50) 転換 0.58 (29/50) 0.58 (29/50) 並列 0.56 (28/50) 0.56 (28/50) 因果 0.86 (43/50) 0.62 (31/50) 加反 0.52 (26/50) 0.44 (22/50) 累加 構文情報を追加 単語ペアのみ 接続関係