Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
特徴的冗長表現に着目した国会会議録要約
Search
自然言語処理研究室
September 30, 2003
Research
1
180
特徴的冗長表現に着目した国会会議録要約
安達 康昭, 山本 和英. 特徴的冗長表現に着目した国会会議録要約. 情報処理学会 研究報告, NL157-15 / FI72-15, pp.107-114 (2003.9)
自然言語処理研究室
September 30, 2003
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
550
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.5k
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.1k
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
570
3D Gaussian Splattingによる高効率な新規視点合成技術とその応用
muskie82
5
2.7k
2025年度 生成AIの使い方/接し方
hkefka385
1
710
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
180
Streamlit 総合解説 ~ PythonistaのためのWebアプリ開発 ~
mickey_kubo
1
940
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.2k
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
420
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
970
Featured
See All Featured
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
950
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Documentation Writing (for coders)
carmenintech
72
4.9k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
960
Making the Leap to Tech Lead
cromwellryan
134
9.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Transcript
特徴的冗長表現に着目した 国会会議録要約 安達 康昭 山本 和英 長岡技術科学大学 電気系 2003.9.30 1
研究背景 日本語話し言葉の要約 → 字幕付与、要約筆記 etc. 話し言葉資源の不足 → CSJ 、講演書き起こし等が一般的 しかし、規模は小さい
そこで、国会会議録を利用 2
概 要 話し言葉要約 ・ 丁寧表現の換言 ・ 冗長部の削除 ・ 形態素解析器のみを使用 ・
報知的な要約に 3
国会会議録 (1/2) 1947 年 5 月〜現在までの会議録が Web で公開 ・ 衆参両院合わせて
7.0GB のテキストデータ (2003 年 5 月時点 ) 書き起こし文書 ・ 話し言葉資源の1つとして利用 ・ 完全な書き起こしではない 4
国会会議録 (2/2) 会議録の分類 ・ 質疑応答型 … TV 中継されているもの ・ 所信表明型
… 大臣による演説 ・ 趣旨説明型 … 案件等の説明 ・ 承認型 … 案件などの承認 ・ 混合型 … 混ざっているもの 自由発話を対象 →質疑応答型、所信表明型 5
国会会議録の特徴 フィラー、感動詞が存在しない → 書き起こしの基準 話し言葉としての特徴 ・ 竹沢ら (1994) … 話し言葉の特徴の報告
→ 語順の交替、中止文、挿入句等 ・ 福島ら (2001) … 要約筆記の手法の報告 → 丁寧表現の簡略化 → 節レベルでの処理 6
関連研究 幅田 (2001) 講演音声の要約筆記を分析した結果から、 ・ フィラー ・ 言い直し・繰り返し ・ 挿入句
・ 丁寧表現 ・「〜という+名詞」表現 に着目し、これらを削除・換言処理 Ohtake et al.(2001), 大野ら (2003) 丁寧表現の換言処理 7
処理方法 幅田 (2001) を出発点にして検討 処理手順 1. 挿入句表現 2. 「と思います」表現 3.
丁寧表現 4. 「という」表現 8
挿入句表現の処理 (1/2) 挿入句表現 文の途中にあって、その文の流れと は無関係に挿入された表現 9 挿入句表現処理対象の候補 ・ 〜ように、 ・
〜けれども、 ・ 〜ますが、 など6つ 今回、これは検察審査会の議決ですから直接お答え される立場にはないとは思いますけれども、しかし、 結果として、却下理由として、…
挿入句表現の処理 (2/2) 挿入句表現の候補とは別に「先ほど」等、5つの 手がかり語を取り上げる。 処理規則 ・読点区切りした範囲「節」を処理単位とする。 ・挿入句表現の候補、手がかり語を用いて削除 ・次の制約を満たし候補の表現が含まれる節を削除 1) 当該節に年月日を含まない
2) 当該節の直後の節に指示詞が存在しない 10
「と思います」表現の処理 (1/2) 11 「と思います」の他にも ・ 「と思う」 ・ 「と存じます」 ・ 「と存じる」
を取り上げる。 処理規則 ・ 〜 { たい , ない , だろう } と思います。 簡潔にお願いをしたいと思います。 安全確保上ここに問題があってはならないと思います。 克服するのが行政マンの心意気というものだろうと思います。
「と思います」表現の処理 (2/2) 12 処理規則 ・ 〜Aと思います。 ・ 〜 w だと思います。
→ w が形式名詞以外の場合 → w が「ない { ところ , こと , の } 」の場合 ぜひ急いで検討を進めてほしいと思います。 その問題は国会側の問題だと思います。 当然我々としてやらなければいけないことだと思います。
丁寧表現の処理 (1/4) 13 「ござる」「ある」「おる」文末表現 例えば、 ・ 〜ございます ・ 〜あります ・
〜おります など 簡単な換言規則で処理 鋭意検討している最中でございます。 鋭意検討している最中です。
丁寧表現の処理 (2/4) 14 「ます」が含まれる表現 ・「ます」と共に特殊な動詞が現れる → 辞書を作成して対応 処理規則 1. 「ます」の削除
2. 直前の動詞を基本形にする 3. 特殊な動詞の場合は辞書を用いて換言 いろいろな人権体系等を見ますと、 いろいろな人権体系等を見ると、 少し見えてきた気がいたしますが、
丁寧表現の処理 (3/4) 15 「まし」が含まれる表現 ・処理は「ます」とほぼ同じ 但し、活用する必要がある → 益岡 , 田窪
(1992) を参考にして 活用規則を作成して対応 実際に事案が起こった場合にどうか、 実際に事案が起こりました場合にどうか、
丁寧表現の処理 (4/4) 16 「です」が含まれる表現 ・「です」を「だ」にする 鋭意検討している最中だ。 鋭意検討している最中です。 例外処理として 17 の規則を作成
国において厳しい管理を行なっている。 国において厳しい管理を行なっているところです。
「という」表現の処理 (1/3) 17 幅田 (2001) では、 ・ N1 [ という
N2 ] ・ P [ という N ] ・ A [ という ] N ・ない [ という ] N ・ V [ という ] N ・〜と [ いうふうに ] の処理を行なっている。 ※ […] の範囲は削除部分 問題点 ・「 AUXV という N 」ヘの対応が少ない ・「 P という N 」で誤りがある
「という」表現の処理 (2/3) 18 「 {AUXV,P} という N 」の拡張 名詞が「こと」である場合に限定して処理 →
「ということ」が多く見られるため 「 AUXV ということ」の処理 ・ AUXV + ということ + P + w → AUXV,P,w を参考する ・ 9 規則を作成 民主政治の日本だということは言えない 民主政治の日本だとは言えない
「という」表現の処理 (3/3) 19 「 P ということ」の処理 ・ w1 + P1
+ ということ + P2 + w2 → P1,P2,w1,w2 を参考する ・ 11 規則を作成 この議論がたしか終わったなということを覚えている。 この議論がたしか終わったなと覚えている。
評価実験 20 Perl を用いて実装 対象とした会議録は ・第 100 回〜第 155 回
( 約 20 年分 ) ・ファイルサイズが 120KB を越える会議録 → 自由発話が多いため 対象となる会議録数は 3960 要約率で評価 要約率 = 要約処理後の文字数 原文文字数 ×100 [%]
実験結果 (1/3) 21 会議録毎の要約率 ・ 平均要約率: 80.17 % ・ ばらつきが少ない
( 標準偏差: 2.046)
実験結果 (2/3) 22 発話者別の発話文字数と要約率 ( 調査対象:第 145 回予算委員会第 22
号 ) 要約率… 70 〜 90% ⇒ 極端な要約率はない 発話文字数と要約率との関連性は低い
実験結果 (3/3) 23 各要約手法別の削除率 調査対象:全体の要約率が 80.17% の9会議録 各削除率にばらつきは見られない → 各表現が偏りなく出現し、削除されている
解析誤りの考察 (1/3) 24 挿入句表現 精度: 80.0 % (160/200) ( 調査対象:第
155 回内閣委員会第 2 号 ) 誤り例 → 1 つの節が挿入句とは限らない そこで、国民的な、あるいは当事者同士の合意が なかなか進んでいない状況の中ですけれども、推 進事務局でどういうふうに作業を進められている のか、どこまで行っているのか、…
解析誤りの考察 (2/3) 25 丁寧表現の削除誤り ・接頭辞「お」を削除する場合 → 単純に削除するだけでは不十分 換言が必要 例 ×
大臣はどういうふうにお考えになられますか。 ◯ 大臣はどういうふうに考えるか。 ・敬語表現の特殊な形式への対応が不十分 → 意味同定、辞書の拡張が必要
解析誤りの考察 (3/3) 26 「という」表現の削除誤り ・複合名詞の場合 ・連体節 ( 内容節 )
の場合 山梨県の高根町に清里というリゾート地がある。 自衛隊を出せという要求
まとめ 27 国会会議録を話し言葉コーパスとして利用 削除・換言による要約 要約率 平均 80% 、標準偏差 2.0 →
ばらつきの少ない要約を実現 副詞、並列表現の削除処理 ( 今後の課題 ) 例 副詞 : そこはちょっと納得のできないところだ。 並列表現 あのときの破防法の適用の問題、公安審査委員会の決定に対 する批判等は随分報道でも拝見をした。
おわり 28