Upgrade to Pro — share decks privately, control downloads, hide ads and more …

特徴的冗長表現に着目した国会会議録要約

 特徴的冗長表現に着目した国会会議録要約

安達 康昭, 山本 和英. 特徴的冗長表現に着目した国会会議録要約. 情報処理学会 研究報告, NL157-15 / FI72-15, pp.107-114 (2003.9)

自然言語処理研究室

September 30, 2003
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 国会会議録 (1/2) 1947 年 5 月〜現在までの会議録が Web で公開 ・ 衆参両院合わせて

    7.0GB のテキストデータ (2003 年 5 月時点 ) 書き起こし文書 ・ 話し言葉資源の1つとして利用 ・ 完全な書き起こしではない 4
  2. 国会会議録 (2/2) 会議録の分類 ・ 質疑応答型 … TV 中継されているもの ・ 所信表明型

    … 大臣による演説 ・ 趣旨説明型 … 案件等の説明 ・ 承認型 … 案件などの承認 ・ 混合型 … 混ざっているもの  自由発話を対象   →質疑応答型、所信表明型 5
  3. 国会会議録の特徴 フィラー、感動詞が存在しない → 書き起こしの基準 話し言葉としての特徴 ・ 竹沢ら (1994) … 話し言葉の特徴の報告

    → 語順の交替、中止文、挿入句等 ・ 福島ら (2001) … 要約筆記の手法の報告 → 丁寧表現の簡略化 → 節レベルでの処理 6
  4. 関連研究 幅田 (2001) 講演音声の要約筆記を分析した結果から、 ・ フィラー ・ 言い直し・繰り返し ・ 挿入句

    ・ 丁寧表現 ・「〜という+名詞」表現 に着目し、これらを削除・換言処理 Ohtake et al.(2001), 大野ら (2003) 丁寧表現の換言処理 7
  5. 挿入句表現の処理 (1/2) 挿入句表現 文の途中にあって、その文の流れと は無関係に挿入された表現 9 挿入句表現処理対象の候補 ・ 〜ように、 ・

    〜けれども、 ・ 〜ますが、 など6つ 今回、これは検察審査会の議決ですから直接お答え される立場にはないとは思いますけれども、しかし、 結果として、却下理由として、…
  6. 「と思います」表現の処理 (1/2) 11 「と思います」の他にも ・ 「と思う」 ・ 「と存じます」 ・ 「と存じる」

    を取り上げる。 処理規則 ・ 〜 { たい , ない , だろう } と思います。 簡潔にお願いをしたいと思います。 安全確保上ここに問題があってはならないと思います。 克服するのが行政マンの心意気というものだろうと思います。
  7. 「と思います」表現の処理 (2/2) 12 処理規則 ・ 〜Aと思います。 ・ 〜 w だと思います。

    → w が形式名詞以外の場合 → w が「ない { ところ , こと , の } 」の場合 ぜひ急いで検討を進めてほしいと思います。 その問題は国会側の問題だと思います。 当然我々としてやらなければいけないことだと思います。
  8. 丁寧表現の処理 (1/4) 13 「ござる」「ある」「おる」文末表現 例えば、 ・ 〜ございます ・ 〜あります ・

    〜おります など 簡単な換言規則で処理 鋭意検討している最中でございます。 鋭意検討している最中です。
  9. 丁寧表現の処理 (2/4) 14 「ます」が含まれる表現 ・「ます」と共に特殊な動詞が現れる → 辞書を作成して対応 処理規則 1. 「ます」の削除

    2. 直前の動詞を基本形にする 3. 特殊な動詞の場合は辞書を用いて換言 いろいろな人権体系等を見ますと、 いろいろな人権体系等を見ると、 少し見えてきた気がいたしますが、
  10. 丁寧表現の処理 (3/4) 15 「まし」が含まれる表現 ・処理は「ます」とほぼ同じ 但し、活用する必要がある → 益岡 , 田窪

    (1992) を参考にして 活用規則を作成して対応 実際に事案が起こった場合にどうか、 実際に事案が起こりました場合にどうか、
  11. 「という」表現の処理 (1/3) 17 幅田 (2001) では、 ・ N1 [ という

    N2 ] ・ P [ という N ] ・ A [ という ] N ・ない [ という ] N ・ V [ という ] N ・〜と [ いうふうに ] の処理を行なっている。 ※ […] の範囲は削除部分 問題点 ・「 AUXV という N 」ヘの対応が少ない ・「 P という N 」で誤りがある
  12. 「という」表現の処理 (2/3) 18 「 {AUXV,P} という N 」の拡張 名詞が「こと」である場合に限定して処理 →

    「ということ」が多く見られるため 「 AUXV ということ」の処理 ・ AUXV + ということ + P + w → AUXV,P,w を参考する ・ 9 規則を作成 民主政治の日本だということは言えない 民主政治の日本だとは言えない
  13. 「という」表現の処理 (3/3) 19 「 P ということ」の処理 ・ w1 + P1

    + ということ + P2 + w2 → P1,P2,w1,w2 を参考する ・ 11 規則を作成 この議論がたしか終わったなということを覚えている。 この議論がたしか終わったなと覚えている。
  14. 評価実験 20 Perl を用いて実装 対象とした会議録は ・第 100 回〜第 155 回

    ( 約 20 年分 ) ・ファイルサイズが 120KB を越える会議録 → 自由発話が多いため 対象となる会議録数は 3960 要約率で評価 要約率 = 要約処理後の文字数 原文文字数 ×100 [%]
  15. 実験結果 (2/3) 22 発話者別の発話文字数と要約率   ( 調査対象:第 145 回予算委員会第 22

    号 ) 要約率… 70 〜 90% ⇒ 極端な要約率はない 発話文字数と要約率との関連性は低い
  16. 解析誤りの考察 (1/3) 24 挿入句表現 精度: 80.0 % (160/200) ( 調査対象:第

    155 回内閣委員会第 2 号 ) 誤り例 → 1 つの節が挿入句とは限らない そこで、国民的な、あるいは当事者同士の合意が なかなか進んでいない状況の中ですけれども、推 進事務局でどういうふうに作業を進められている のか、どこまで行っているのか、…
  17. 解析誤りの考察 (2/3) 25 丁寧表現の削除誤り ・接頭辞「お」を削除する場合 → 単純に削除するだけでは不十分 換言が必要 例 ×

    大臣はどういうふうにお考えになられますか。 ◯ 大臣はどういうふうに考えるか。 ・敬語表現の特殊な形式への対応が不十分 → 意味同定、辞書の拡張が必要
  18. 解析誤りの考察 (3/3) 26 「という」表現の削除誤り ・複合名詞の場合     ・連体節 ( 内容節 )

    の場合 山梨県の高根町に清里というリゾート地がある。 自衛隊を出せという要求
  19. まとめ 27 国会会議録を話し言葉コーパスとして利用 削除・換言による要約 要約率 平均 80% 、標準偏差 2.0 →

    ばらつきの少ない要約を実現 副詞、並列表現の削除処理 ( 今後の課題 ) 例 副詞 : そこはちょっと納得のできないところだ。 並列表現 あのときの破防法の適用の問題、公安審査委員会の決定に対 する批判等は随分報道でも拝見をした。