Upgrade to Pro — share decks privately, control downloads, hide ads and more …

話題の継続に着目した国会会議録要約

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 話題の継続に着目した国会会議録要約

川端 正法. 話題の継続に着目した国会会議録要約. 長岡技術科学大学課題研究報告書 (2007.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 6 話題の手がかりの抽出 „ 多くの話題が存在する国会会議録では、 長く議論された話題こそが要約に必要。 „ 話題の手がかり ‰ 助詞「の」で接続された名詞の組を原文から抽出 „

    話題の手がかりを指標として必要な部分を抽出 例1) イラク / の / 治安 / 状況 例2) 基本計画 / の / 文案 / の / 変更
  2. 7 継続段落数の算出 „ 全ての話題の手がかりに対して計算 イラク, 状況 イラク, 治安 イラク /

    の / 治安 / 状況 イラク, 状況 第1段落 第2段落 第5段落 第30段落 継 続 段 落 数 = 4
  3. 13 評価実験 „ 導入段落と結論段落の抽出精度について評価 „ 使用した文書 ‰ 本研究室で収集した国会会議録(第1回~第165回) から無作為に抽出した計10セット ‰

    導入段落候補の評価(7セット) ‰ 結論段落候補の評価(3セット) ‰ 9千字~14万字 „ 人手で正解データを作成
  4. 14 導入段落の評価 „ 適合率:22%, 再現率:19% „ 上位に導入段落ではない段落が存在 „ 候補の抽出時に再現率が低下 ‰

    話題の手がかりが継続しない ‰ 助詞「の」で接続された名詞以外の手がかりが必要 „ 候補の上位に導入段落が多い傾向がある
  5. 16 今後の課題 „ 話題の手がかりを増やす ‰ 段落に含まれる名詞 ‰ 同義語 „ 段落候補から不要段落を削除

    „ 段落から必要な部分を特定 ‰ 話題の手がかりが必ずしも導入部分に含まれている とは限らない
  6. 17 おわりに „ 国会会議録を1000字に要約する手法を提案 ‰ 導入段落の抽出精度:22% ‰ 結論段落の抽出精度:36% ‰ 候補の上位には正解が多い傾向があり、

    不要な段落を除くことで精度の向上が見込める。 問題点 ‰ 段落単位では文字数の調整が難しい „ 段落から必要部分の特定
  7. 19

  8. 20 導入段落候補の抽出精度 会議録ID 文字数[字] 適合率 再現率 再現率 (手がかりのみ) 1 9,258

    0.22 0.22 0.29 2 31,047 0.08 0.07 0.11 3 29,306 0.47 0.22 0.28 4 35,630 0.18 0.15 0.18 5 146,811 0.15 0.12 0.13 6 111,169 0.27 0.16 0.18 7 66,049 0.17 0.12 0.14 平均 61,324 0.22 0.15 0.19
  9. 21 段落数と話題の手がかりの数 会議録ID 段落数 話題の手がかりの数 導入段落候補 結論段落候補 1 147 271

    12 52 2 305 388 15 67 3 266 693 24 112 4 258 1,011 21 97 5 748 2,520 65 325 6 692 1,924 50 242 7 501 1,135 50 242
  10. 23 継続段落数の算出 N1 =イラク, N2 ={治安,状況} 第1段落 第2段落 第5段落 イラク,

    状況 イラク, 治安 ‰N1 , N2 の「前向き継続段落数」=4 ‰第5段落の「後向き継続段落数」=4 ‰全ての話題の手がかりに対して計算