Upgrade to Pro — share decks privately, control downloads, hide ads and more …

国会会議録に対する文短縮による報知的要約手法

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 国会会議録に対する文短縮による報知的要約手法

安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 1 . はじめに  日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与

    – 要約筆記 ・・・ 講演音声の文字伝達手段  話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
  2. 2 . 国会会議録  1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (

    2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB  書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
  3. 今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2) 

    挨拶文 ・・・ 「よろしくお願いします」等を削除  挿入句の削除 ・・・ 節の末尾で判断  敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
  4. 3 . 処理方法 (2/2)  “ と思います”表現 ・・・ 直前の形態素で判断 

    丁寧表現 ・・・ “です”,“ます”の削除  “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
  5. 4 . 実装と評価  処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (

    1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる  要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
  6. 5 . 会議録毎の要約率  平均要約率 ・・・ 80.0%  ばらつきが少ない要約 (

    標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
  7. 7 . おわりに  要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •

    さらに文を短縮する必要がある ( 今後の課題 )  処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8