特徴的冗長表現に着目した国会会議録要約

 特徴的冗長表現に着目した国会会議録要約

安達 康昭, 山本 和英. 特徴的冗長表現に着目した国会会議録要約. 情報処理学会 研究報告, NL157-15 / FI72-15, pp.107-114 (2003.9)

C04e17d9b3810e5c0ad22cb8a12589de?s=128

自然言語処理研究室

September 30, 2003
Tweet

Transcript

  1. 特徴的冗長表現に着目した 国会会議録要約 安達 康昭 山本 和英 長岡技術科学大学 電気系 2003.9.30 1

  2. 研究背景 日本語話し言葉の要約 → 字幕付与、要約筆記 etc. 話し言葉資源の不足 → CSJ 、講演書き起こし等が一般的 しかし、規模は小さい

    そこで、国会会議録を利用 2
  3. 概 要 話し言葉要約 ・ 丁寧表現の換言 ・ 冗長部の削除 ・ 形態素解析器のみを使用 ・

    報知的な要約に 3
  4. 国会会議録 (1/2) 1947 年 5 月〜現在までの会議録が Web で公開 ・ 衆参両院合わせて

    7.0GB のテキストデータ (2003 年 5 月時点 ) 書き起こし文書 ・ 話し言葉資源の1つとして利用 ・ 完全な書き起こしではない 4
  5. 国会会議録 (2/2) 会議録の分類 ・ 質疑応答型 … TV 中継されているもの ・ 所信表明型

    … 大臣による演説 ・ 趣旨説明型 … 案件等の説明 ・ 承認型 … 案件などの承認 ・ 混合型 … 混ざっているもの  自由発話を対象   →質疑応答型、所信表明型 5
  6. 国会会議録の特徴 フィラー、感動詞が存在しない → 書き起こしの基準 話し言葉としての特徴 ・ 竹沢ら (1994) … 話し言葉の特徴の報告

    → 語順の交替、中止文、挿入句等 ・ 福島ら (2001) … 要約筆記の手法の報告 → 丁寧表現の簡略化 → 節レベルでの処理 6
  7. 関連研究 幅田 (2001) 講演音声の要約筆記を分析した結果から、 ・ フィラー ・ 言い直し・繰り返し ・ 挿入句

    ・ 丁寧表現 ・「〜という+名詞」表現 に着目し、これらを削除・換言処理 Ohtake et al.(2001), 大野ら (2003) 丁寧表現の換言処理 7
  8. 処理方法 幅田 (2001) を出発点にして検討 処理手順 1. 挿入句表現 2. 「と思います」表現 3.

    丁寧表現 4. 「という」表現 8
  9. 挿入句表現の処理 (1/2) 挿入句表現 文の途中にあって、その文の流れと は無関係に挿入された表現 9 挿入句表現処理対象の候補 ・ 〜ように、 ・

    〜けれども、 ・ 〜ますが、 など6つ 今回、これは検察審査会の議決ですから直接お答え される立場にはないとは思いますけれども、しかし、 結果として、却下理由として、…
  10. 挿入句表現の処理 (2/2) 挿入句表現の候補とは別に「先ほど」等、5つの 手がかり語を取り上げる。 処理規則  ・読点区切りした範囲「節」を処理単位とする。  ・挿入句表現の候補、手がかり語を用いて削除  ・次の制約を満たし候補の表現が含まれる節を削除 1) 当該節に年月日を含まない

    2) 当該節の直後の節に指示詞が存在しない 10
  11. 「と思います」表現の処理 (1/2) 11 「と思います」の他にも ・ 「と思う」 ・ 「と存じます」 ・ 「と存じる」

    を取り上げる。 処理規則 ・ 〜 { たい , ない , だろう } と思います。 簡潔にお願いをしたいと思います。 安全確保上ここに問題があってはならないと思います。 克服するのが行政マンの心意気というものだろうと思います。
  12. 「と思います」表現の処理 (2/2) 12 処理規則 ・ 〜Aと思います。 ・ 〜 w だと思います。

    → w が形式名詞以外の場合 → w が「ない { ところ , こと , の } 」の場合 ぜひ急いで検討を進めてほしいと思います。 その問題は国会側の問題だと思います。 当然我々としてやらなければいけないことだと思います。
  13. 丁寧表現の処理 (1/4) 13 「ござる」「ある」「おる」文末表現 例えば、 ・ 〜ございます ・ 〜あります ・

    〜おります など 簡単な換言規則で処理 鋭意検討している最中でございます。 鋭意検討している最中です。
  14. 丁寧表現の処理 (2/4) 14 「ます」が含まれる表現 ・「ます」と共に特殊な動詞が現れる → 辞書を作成して対応 処理規則 1. 「ます」の削除

    2. 直前の動詞を基本形にする 3. 特殊な動詞の場合は辞書を用いて換言 いろいろな人権体系等を見ますと、 いろいろな人権体系等を見ると、 少し見えてきた気がいたしますが、
  15. 丁寧表現の処理 (3/4) 15 「まし」が含まれる表現 ・処理は「ます」とほぼ同じ 但し、活用する必要がある → 益岡 , 田窪

    (1992) を参考にして 活用規則を作成して対応 実際に事案が起こった場合にどうか、 実際に事案が起こりました場合にどうか、
  16. 丁寧表現の処理 (4/4) 16 「です」が含まれる表現 ・「です」を「だ」にする 鋭意検討している最中だ。 鋭意検討している最中です。 例外処理として 17 の規則を作成

    国において厳しい管理を行なっている。 国において厳しい管理を行なっているところです。
  17. 「という」表現の処理 (1/3) 17 幅田 (2001) では、 ・ N1 [ という

    N2 ] ・ P [ という N ] ・ A [ という ] N ・ない [ という ] N ・ V [ という ] N ・〜と [ いうふうに ] の処理を行なっている。 ※ […] の範囲は削除部分 問題点 ・「 AUXV という N 」ヘの対応が少ない ・「 P という N 」で誤りがある
  18. 「という」表現の処理 (2/3) 18 「 {AUXV,P} という N 」の拡張 名詞が「こと」である場合に限定して処理 →

    「ということ」が多く見られるため 「 AUXV ということ」の処理 ・ AUXV + ということ + P + w → AUXV,P,w を参考する ・ 9 規則を作成 民主政治の日本だということは言えない 民主政治の日本だとは言えない
  19. 「という」表現の処理 (3/3) 19 「 P ということ」の処理 ・ w1 + P1

    + ということ + P2 + w2 → P1,P2,w1,w2 を参考する ・ 11 規則を作成 この議論がたしか終わったなということを覚えている。 この議論がたしか終わったなと覚えている。
  20. 評価実験 20 Perl を用いて実装 対象とした会議録は ・第 100 回〜第 155 回

    ( 約 20 年分 ) ・ファイルサイズが 120KB を越える会議録 → 自由発話が多いため 対象となる会議録数は 3960 要約率で評価 要約率 = 要約処理後の文字数 原文文字数 ×100 [%]
  21. 実験結果 (1/3) 21 会議録毎の要約率 ・ 平均要約率: 80.17 % ・ ばらつきが少ない

    ( 標準偏差: 2.046)
  22. 実験結果 (2/3) 22 発話者別の発話文字数と要約率   ( 調査対象:第 145 回予算委員会第 22

    号 ) 要約率… 70 〜 90% ⇒ 極端な要約率はない 発話文字数と要約率との関連性は低い
  23. 実験結果 (3/3) 23 各要約手法別の削除率 調査対象:全体の要約率が 80.17% の9会議録 各削除率にばらつきは見られない → 各表現が偏りなく出現し、削除されている

  24. 解析誤りの考察 (1/3) 24 挿入句表現 精度: 80.0 % (160/200) ( 調査対象:第

    155 回内閣委員会第 2 号 ) 誤り例 → 1 つの節が挿入句とは限らない そこで、国民的な、あるいは当事者同士の合意が なかなか進んでいない状況の中ですけれども、推 進事務局でどういうふうに作業を進められている のか、どこまで行っているのか、…
  25. 解析誤りの考察 (2/3) 25 丁寧表現の削除誤り ・接頭辞「お」を削除する場合 → 単純に削除するだけでは不十分 換言が必要 例 ×

    大臣はどういうふうにお考えになられますか。 ◯ 大臣はどういうふうに考えるか。 ・敬語表現の特殊な形式への対応が不十分 → 意味同定、辞書の拡張が必要
  26. 解析誤りの考察 (3/3) 26 「という」表現の削除誤り ・複合名詞の場合     ・連体節 ( 内容節 )

    の場合 山梨県の高根町に清里というリゾート地がある。 自衛隊を出せという要求
  27. まとめ 27 国会会議録を話し言葉コーパスとして利用 削除・換言による要約 要約率 平均 80% 、標準偏差 2.0 →

    ばらつきの少ない要約を実現 副詞、並列表現の削除処理 ( 今後の課題 ) 例 副詞 : そこはちょっと納得のできないところだ。 並列表現 あのときの破防法の適用の問題、公安審査委員会の決定に対 する批判等は随分報道でも拝見をした。
  28. おわり 28