話題の継続に着目した国会会議録要約

 話題の継続に着目した国会会議録要約

川端 正法. 話題の継続に着目した国会会議録要約. 長岡技術科学大学課題研究報告書 (2007.3)

Transcript

  1. 1 話題の継続に着目した 国会会議録要約 長岡技術科学大学 電気電子情報工学課程 4年 川端 正法

  2. 2 はじめに „ 目的の文書かどうかの判断が必要 „ 長い文書が大量にあると全て読むのは困難 → 内容を判断するための要約が必要 電子化された大量の文書 ・技術文書

    ・レポート ・会議録 ・講義の書き起こし 書き言葉 話し言葉
  3. 3 目的 „ 国会会議録 ‰ 一般に公開されており、入手が容易 ‰ 平均5万字という長い文書が多い „ 内容を判断するための自動要約手法を提案

    „ 要約は1000字以内で作成
  4. 4 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文

  5. 5 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文

  6. 6 話題の手がかりの抽出 „ 多くの話題が存在する国会会議録では、 長く議論された話題こそが要約に必要。 „ 話題の手がかり ‰ 助詞「の」で接続された名詞の組を原文から抽出 „

    話題の手がかりを指標として必要な部分を抽出 例1) イラク / の / 治安 / 状況 例2) 基本計画 / の / 文案 / の / 変更
  7. 7 継続段落数の算出 „ 全ての話題の手がかりに対して計算 イラク, 状況 イラク, 治安 イラク /

    の / 治安 / 状況 イラク, 状況 第1段落 第2段落 第5段落 第30段落 継 続 段 落 数 = 4
  8. 8 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文

  9. 9 導入段落候補の抽出 „ 長い話題はそのままでは1000字に収まらない → 話題の始まりと終わりを抽出 „ 話題の導入部分であるなら ‰ 同じ話題が以前で出現しない

    ‰ 同じ話題が以降で多数出現 イラクの治安 イラクの治安 空自の撤退 導入部分
  10. 10 結論段落候補の抽出 „ 導入段落候補に対してそれぞれ抽出 „ 話題の結論部分であるなら ‰ 同じ話題が以前に多く出現した ‰ 同じ話題が以降で出現しない

    „ 継続段落数を用いて抽出 イラクの治安 イラクの治安 レバノン情勢 結論部分
  11. 11 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文

  12. 12 要約文の生成 „ 導入段落候補の1位から順に出力 „ 導入段落と結論段落を組み合わせて出力する (導) 次に、水産資源の展開であります。 (結) 流通の効率化、加工業の事業基盤強化を通じ、

    水産業の構造改革を進めて参ります。
  13. 13 評価実験 „ 導入段落と結論段落の抽出精度について評価 „ 使用した文書 ‰ 本研究室で収集した国会会議録(第1回~第165回) から無作為に抽出した計10セット ‰

    導入段落候補の評価(7セット) ‰ 結論段落候補の評価(3セット) ‰ 9千字~14万字 „ 人手で正解データを作成
  14. 14 導入段落の評価 „ 適合率:22%, 再現率:19% „ 上位に導入段落ではない段落が存在 „ 候補の抽出時に再現率が低下 ‰

    話題の手がかりが継続しない ‰ 助詞「の」で接続された名詞以外の手がかりが必要 „ 候補の上位に導入段落が多い傾向がある
  15. 15 結論段落の評価 „ 1位のみの精度:8%, 3位までの精度:36% ‰ 上位に結論段落が抽出される傾向がある ‰ 必ずしも1位とは限らない „

    1位の精度が低いのは問題あり ‰ 要約文に正しい結論段落が出力されない
  16. 16 今後の課題 „ 話題の手がかりを増やす ‰ 段落に含まれる名詞 ‰ 同義語 „ 段落候補から不要段落を削除

    „ 段落から必要な部分を特定 ‰ 話題の手がかりが必ずしも導入部分に含まれている とは限らない
  17. 17 おわりに „ 国会会議録を1000字に要約する手法を提案 ‰ 導入段落の抽出精度:22% ‰ 結論段落の抽出精度:36% ‰ 候補の上位には正解が多い傾向があり、

    不要な段落を除くことで精度の向上が見込める。 問題点 ‰ 段落単位では文字数の調整が難しい „ 段落から必要部分の特定
  18. 18 おわり

  19. 19

  20. 20 導入段落候補の抽出精度 会議録ID 文字数[字] 適合率 再現率 再現率 (手がかりのみ) 1 9,258

    0.22 0.22 0.29 2 31,047 0.08 0.07 0.11 3 29,306 0.47 0.22 0.28 4 35,630 0.18 0.15 0.18 5 146,811 0.15 0.12 0.13 6 111,169 0.27 0.16 0.18 7 66,049 0.17 0.12 0.14 平均 61,324 0.22 0.15 0.19
  21. 21 段落数と話題の手がかりの数 会議録ID 段落数 話題の手がかりの数 導入段落候補 結論段落候補 1 147 271

    12 52 2 305 388 15 67 3 266 693 24 112 4 258 1,011 21 97 5 748 2,520 65 325 6 692 1,924 50 242 7 501 1,135 50 242
  22. 22 結論段落候補の抽出精度 会議録ID 導入段落候補数 1位のみの精度 3位までの精度 8 20 0.00(0) 0.20(4)

    9 18 0.11(2) 0.50(9) 10 48 0.15(7) 0.37(18) 平均 0.08 0.36
  23. 23 継続段落数の算出 N1 =イラク, N2 ={治安,状況} 第1段落 第2段落 第5段落 イラク,

    状況 イラク, 治安 ‰N1 , N2 の「前向き継続段落数」=4 ‰第5段落の「後向き継続段落数」=4 ‰全ての話題の手がかりに対して計算