Upgrade to Pro — share decks privately, control downloads, hide ads and more …

話題の継続に着目した国会会議録要約

 話題の継続に着目した国会会議録要約

川端 正法. 話題の継続に着目した国会会議録要約. 長岡技術科学大学課題研究報告書 (2007.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 6 話題の手がかりの抽出 „ 多くの話題が存在する国会会議録では、 長く議論された話題こそが要約に必要。 „ 話題の手がかり ‰ 助詞「の」で接続された名詞の組を原文から抽出 „

    話題の手がかりを指標として必要な部分を抽出 例1) イラク / の / 治安 / 状況 例2) 基本計画 / の / 文案 / の / 変更
  2. 7 継続段落数の算出 „ 全ての話題の手がかりに対して計算 イラク, 状況 イラク, 治安 イラク /

    の / 治安 / 状況 イラク, 状況 第1段落 第2段落 第5段落 第30段落 継 続 段 落 数 = 4
  3. 13 評価実験 „ 導入段落と結論段落の抽出精度について評価 „ 使用した文書 ‰ 本研究室で収集した国会会議録(第1回~第165回) から無作為に抽出した計10セット ‰

    導入段落候補の評価(7セット) ‰ 結論段落候補の評価(3セット) ‰ 9千字~14万字 „ 人手で正解データを作成
  4. 14 導入段落の評価 „ 適合率:22%, 再現率:19% „ 上位に導入段落ではない段落が存在 „ 候補の抽出時に再現率が低下 ‰

    話題の手がかりが継続しない ‰ 助詞「の」で接続された名詞以外の手がかりが必要 „ 候補の上位に導入段落が多い傾向がある
  5. 16 今後の課題 „ 話題の手がかりを増やす ‰ 段落に含まれる名詞 ‰ 同義語 „ 段落候補から不要段落を削除

    „ 段落から必要な部分を特定 ‰ 話題の手がかりが必ずしも導入部分に含まれている とは限らない
  6. 17 おわりに „ 国会会議録を1000字に要約する手法を提案 ‰ 導入段落の抽出精度:22% ‰ 結論段落の抽出精度:36% ‰ 候補の上位には正解が多い傾向があり、

    不要な段落を除くことで精度の向上が見込める。 問題点 ‰ 段落単位では文字数の調整が難しい „ 段落から必要部分の特定
  7. 19

  8. 20 導入段落候補の抽出精度 会議録ID 文字数[字] 適合率 再現率 再現率 (手がかりのみ) 1 9,258

    0.22 0.22 0.29 2 31,047 0.08 0.07 0.11 3 29,306 0.47 0.22 0.28 4 35,630 0.18 0.15 0.18 5 146,811 0.15 0.12 0.13 6 111,169 0.27 0.16 0.18 7 66,049 0.17 0.12 0.14 平均 61,324 0.22 0.15 0.19
  9. 21 段落数と話題の手がかりの数 会議録ID 段落数 話題の手がかりの数 導入段落候補 結論段落候補 1 147 271

    12 52 2 305 388 15 67 3 266 693 24 112 4 258 1,011 21 97 5 748 2,520 65 325 6 692 1,924 50 242 7 501 1,135 50 242
  10. 23 継続段落数の算出 N1 =イラク, N2 ={治安,状況} 第1段落 第2段落 第5段落 イラク,

    状況 イラク, 治安 ‰N1 , N2 の「前向き継続段落数」=4 ‰第5段落の「後向き継続段落数」=4 ‰全ての話題の手がかりに対して計算