Upgrade to Pro — share decks privately, control downloads, hide ads and more …

国会会議録に対する文短縮による報知的要約手法

 国会会議録に対する文短縮による報知的要約手法

安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 国会会議録に対する
    文短縮による報知的要約手法
    長岡技術科学大学 電気系
    山本研究室
    報告者
    安 達 康 昭
    指導教官
    山本 和英 講師
    2004年 2月 27日
    1

    View full-size slide

  2. 1 . はじめに
     日本語話し言葉の要約
    – 字幕 ・・・ NHK ,民放数社が生放送に付与
    – 要約筆記 ・・・ 講演音声の文字伝達手段
     話し言葉の研究が少ない
    – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる
    2
    問題点 人間の読む能力に限界 ⇒ 報知的要約が必要
    解決策 国会会議録を話し言葉コーパスとして利用
    講演での発話の特徴も確認できる

    View full-size slide

  3. 2 . 国会会議録
     1947年からの会議録をWebで公開
    – 7.0 GB のテキストデータ ( 2003年5月時点 )
    ● 毎日新聞コーパス 1年分 ・・・ 21 MB
     書き起こし文書
    – 話し言葉資源として利用
    – 完全な書き起こしではない
    ● フィラーの削除
    ● 言いよどみの削除
    3

    View full-size slide

  4. 今直ちにお答えは無理かもしれませんけれども、 次年度に
    おきましてこれらに対して抜本的な施策をつくり上げていた
    だきたいと思いますが、 いかがでしょうか。
    3 . 処理方法 (1/2)
     挨拶文 ・・・ 「よろしくお願いします」等を削除
     挿入句の削除 ・・・ 節の末尾で判断
     敬語表現 ・・・ 敬語動詞を規則を用いて換言
    次年度におきましてこれらに対して抜本的な施策をつくり上
    げてほしいと思いますが、 どうでしょうか。
    4

    View full-size slide

  5. 3 . 処理方法 (2/2)
     “ と思います”表現 ・・・ 直前の形態素で判断
     丁寧表現 ・・・ “です”,“ます”の削除
     “ という”表現処理 ・・・ 前後の形態素で判断
    次年度におきましてこれらに対して抜本的な施策をつくり上
    げてほしいと思いますが、 どうでしょうか。
    次年度においてこれらに対して抜本的な施策をつくり上げて
    ほしいが、 どうか。
    物事を語り合ったり理解を深めるという点で問題点が多い
    ということは指摘されているとおりであります。
    5

    View full-size slide

  6. 4 . 実装と評価
     処理対象
    – 第100回から第155回の衆議院の会議録全て
    ● 約20年分 ( 1.08 GB)
    – ファイルサイズが120 kB 以上の会議録に限定
    ● 質疑応答形式の会議録は大きなファイルサイズになる
    ● この制約により3960の会議録が対象になる
     要約率で評価
    要約率=
    要約処理後の文字数
    原文文字数
    ×100 [%]
    6

    View full-size slide

  7. 5 . 会議録毎の要約率
     平均要約率 ・・・ 80.0%
     ばらつきが少ない要約 ( 標準偏差 2.1 )
    – 国会会議録の中で幅広く見られる表現を処理
    7

    View full-size slide

  8. 7 . おわりに
     要約率
    – 会議録,発言者に依存しない要約を実現
    – 80%を実現しているが字幕としては不十分
    ● さらに文を短縮する必要がある ( 今後の課題 )
     処理規則
    – 丁寧表現の処理 ⇒ 良好な換言結果
    – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%)
    ● 不自然な文になる ( 今後の課題 )
    8

    View full-size slide