国会会議録に対する文短縮による報知的要約手法

 国会会議録に対する文短縮による報知的要約手法

安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)

Transcript

  1. 国会会議録に対する 文短縮による報知的要約手法 長岡技術科学大学 電気系 山本研究室 報告者 安 達 康 昭

    指導教官 山本 和英 講師 2004年 2月 27日 1
  2. 1 . はじめに  日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与

    – 要約筆記 ・・・ 講演音声の文字伝達手段  話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
  3. 2 . 国会会議録  1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (

    2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB  書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
  4. 今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2) 

    挨拶文 ・・・ 「よろしくお願いします」等を削除  挿入句の削除 ・・・ 節の末尾で判断  敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
  5. 3 . 処理方法 (2/2)  “ と思います”表現 ・・・ 直前の形態素で判断 

    丁寧表現 ・・・ “です”,“ます”の削除  “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
  6. 4 . 実装と評価  処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (

    1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる  要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
  7. 5 . 会議録毎の要約率  平均要約率 ・・・ 80.0%  ばらつきが少ない要約 (

    標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
  8. 7 . おわりに  要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •

    さらに文を短縮する必要がある ( 今後の課題 )  処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8
  9. おわり 9