文生成のための機能語の補完

 文生成のための機能語の補完

池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)

Transcript

  1. 文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14

  2. 問題設定  順序付きの単語群からの文生成  生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する

  3. 入力単語群の作成  入力単語群は要約文より作成  要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能  用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する

    →{安全,検査,簡素,化,する,方向,検討,する}
  4. 提案手法 1.機能語の補完対象箇所の同定  機能語の補完が必要か 2.助詞ノの補完  助詞ノは使い方が他の機能語と は違う 3.機能語の補完 

    ノ以外の機能語の補完
  5. 1.補完箇所の同定 及び 2.ノの補完  補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた  素性は単語、品詞、単語の出現位 置を用いた

     カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
  6. 3.機能語の補完 3.1 補完する機能語の候補を出力  コーパスを用いる 3.2 機能語の候補から補完語を決定  単語n-gramと機能語n-gram

  7. 3.1 補完候補の出力  補完箇所の前後の単語を利用する  以下のような順でコーパスから探す  候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」

    ②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
  8. 3.2 機能語の決定(1/2)  機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する  機能語n-gramとは機能語のみの n-gram  連続する機能語はまとめる

    当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
  9. 3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語

    , λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率)  機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
  10. 評価実験  NIKKEI-gooの要約文48618文  単語n-gram,機能語n-gram  SVMの学習データ  NIKKEI-gooの要約文1000文 

    テストデータ  日経新聞コーパス2000年度版  補完候補の出力
  11. 人手による評価  無作為に100文抽出  3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧

    2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
  12. 出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認

  13. 考察  被験者全員が不正解とした23文  文の大部分は正しく生成  1部のみ間違えていることが多い  これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。

     被験者2人以上が約4割の文を可読 性の評価で正解              →大きく精度向上が期待
  14. 誤った文  今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。  動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}

    →企業は今後採用した年金制度を…
  15. まとめ  文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた  可読性の評価で53%  補完箇所の同定、ノの補完の精度 向上による精度向上が見込める

     N-gram以外のスコア導入の検討  入力する単語の検討
  16. 以降手持ちスライド

  17. 概要  語順付き単語群からの文生成  入力単語群は名詞、動詞  生成は機能語の補完による  適用可能範囲 

    要約  テキストマイニング  機械翻訳補助
  18. 3.2 機能語の決定(3/3)  単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,

    B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1  ×Pb 1 ∣z 1 z 2 
  19. 正解例  ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する  2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス 

    新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
  20. 不正解例  先行の東京電力に対抗 先行東京電力は対抗  政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに 

    キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
  21. 補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05

    1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
  22. ノの補完 0 10 20 30 40 50 60 70 80

    90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]