Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
特徴的冗長表現に着目した国会会議録要約
Search
自然言語処理研究室
September 30, 2003
Research
190
1
Share
特徴的冗長表現に着目した国会会議録要約
安達 康昭, 山本 和英. 特徴的冗長表現に着目した国会会議録要約. 情報処理学会 研究報告, NL157-15 / FI72-15, pp.107-114 (2003.9)
自然言語処理研究室
September 30, 2003
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
230
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
230
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1k
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
110
姫路市 -都市OSの「再実装」-
hopin
0
1.7k
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
2.7k
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
600
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
500
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
860
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
1.6k
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
110
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
300
Featured
See All Featured
Crafting Experiences
bethany
1
100
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
200
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
120
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
140
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
81
Making Projects Easy
brettharned
120
6.6k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
250
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Test your architecture with Archunit
thirion
1
2.2k
エンジニアに許された特別な時間の終わり
watany
106
240k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
110
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
290
Transcript
特徴的冗長表現に着目した 国会会議録要約 安達 康昭 山本 和英 長岡技術科学大学 電気系 2003.9.30 1
研究背景 日本語話し言葉の要約 → 字幕付与、要約筆記 etc. 話し言葉資源の不足 → CSJ 、講演書き起こし等が一般的 しかし、規模は小さい
そこで、国会会議録を利用 2
概 要 話し言葉要約 ・ 丁寧表現の換言 ・ 冗長部の削除 ・ 形態素解析器のみを使用 ・
報知的な要約に 3
国会会議録 (1/2) 1947 年 5 月〜現在までの会議録が Web で公開 ・ 衆参両院合わせて
7.0GB のテキストデータ (2003 年 5 月時点 ) 書き起こし文書 ・ 話し言葉資源の1つとして利用 ・ 完全な書き起こしではない 4
国会会議録 (2/2) 会議録の分類 ・ 質疑応答型 … TV 中継されているもの ・ 所信表明型
… 大臣による演説 ・ 趣旨説明型 … 案件等の説明 ・ 承認型 … 案件などの承認 ・ 混合型 … 混ざっているもの 自由発話を対象 →質疑応答型、所信表明型 5
国会会議録の特徴 フィラー、感動詞が存在しない → 書き起こしの基準 話し言葉としての特徴 ・ 竹沢ら (1994) … 話し言葉の特徴の報告
→ 語順の交替、中止文、挿入句等 ・ 福島ら (2001) … 要約筆記の手法の報告 → 丁寧表現の簡略化 → 節レベルでの処理 6
関連研究 幅田 (2001) 講演音声の要約筆記を分析した結果から、 ・ フィラー ・ 言い直し・繰り返し ・ 挿入句
・ 丁寧表現 ・「〜という+名詞」表現 に着目し、これらを削除・換言処理 Ohtake et al.(2001), 大野ら (2003) 丁寧表現の換言処理 7
処理方法 幅田 (2001) を出発点にして検討 処理手順 1. 挿入句表現 2. 「と思います」表現 3.
丁寧表現 4. 「という」表現 8
挿入句表現の処理 (1/2) 挿入句表現 文の途中にあって、その文の流れと は無関係に挿入された表現 9 挿入句表現処理対象の候補 ・ 〜ように、 ・
〜けれども、 ・ 〜ますが、 など6つ 今回、これは検察審査会の議決ですから直接お答え される立場にはないとは思いますけれども、しかし、 結果として、却下理由として、…
挿入句表現の処理 (2/2) 挿入句表現の候補とは別に「先ほど」等、5つの 手がかり語を取り上げる。 処理規則 ・読点区切りした範囲「節」を処理単位とする。 ・挿入句表現の候補、手がかり語を用いて削除 ・次の制約を満たし候補の表現が含まれる節を削除 1) 当該節に年月日を含まない
2) 当該節の直後の節に指示詞が存在しない 10
「と思います」表現の処理 (1/2) 11 「と思います」の他にも ・ 「と思う」 ・ 「と存じます」 ・ 「と存じる」
を取り上げる。 処理規則 ・ 〜 { たい , ない , だろう } と思います。 簡潔にお願いをしたいと思います。 安全確保上ここに問題があってはならないと思います。 克服するのが行政マンの心意気というものだろうと思います。
「と思います」表現の処理 (2/2) 12 処理規則 ・ 〜Aと思います。 ・ 〜 w だと思います。
→ w が形式名詞以外の場合 → w が「ない { ところ , こと , の } 」の場合 ぜひ急いで検討を進めてほしいと思います。 その問題は国会側の問題だと思います。 当然我々としてやらなければいけないことだと思います。
丁寧表現の処理 (1/4) 13 「ござる」「ある」「おる」文末表現 例えば、 ・ 〜ございます ・ 〜あります ・
〜おります など 簡単な換言規則で処理 鋭意検討している最中でございます。 鋭意検討している最中です。
丁寧表現の処理 (2/4) 14 「ます」が含まれる表現 ・「ます」と共に特殊な動詞が現れる → 辞書を作成して対応 処理規則 1. 「ます」の削除
2. 直前の動詞を基本形にする 3. 特殊な動詞の場合は辞書を用いて換言 いろいろな人権体系等を見ますと、 いろいろな人権体系等を見ると、 少し見えてきた気がいたしますが、
丁寧表現の処理 (3/4) 15 「まし」が含まれる表現 ・処理は「ます」とほぼ同じ 但し、活用する必要がある → 益岡 , 田窪
(1992) を参考にして 活用規則を作成して対応 実際に事案が起こった場合にどうか、 実際に事案が起こりました場合にどうか、
丁寧表現の処理 (4/4) 16 「です」が含まれる表現 ・「です」を「だ」にする 鋭意検討している最中だ。 鋭意検討している最中です。 例外処理として 17 の規則を作成
国において厳しい管理を行なっている。 国において厳しい管理を行なっているところです。
「という」表現の処理 (1/3) 17 幅田 (2001) では、 ・ N1 [ という
N2 ] ・ P [ という N ] ・ A [ という ] N ・ない [ という ] N ・ V [ という ] N ・〜と [ いうふうに ] の処理を行なっている。 ※ […] の範囲は削除部分 問題点 ・「 AUXV という N 」ヘの対応が少ない ・「 P という N 」で誤りがある
「という」表現の処理 (2/3) 18 「 {AUXV,P} という N 」の拡張 名詞が「こと」である場合に限定して処理 →
「ということ」が多く見られるため 「 AUXV ということ」の処理 ・ AUXV + ということ + P + w → AUXV,P,w を参考する ・ 9 規則を作成 民主政治の日本だということは言えない 民主政治の日本だとは言えない
「という」表現の処理 (3/3) 19 「 P ということ」の処理 ・ w1 + P1
+ ということ + P2 + w2 → P1,P2,w1,w2 を参考する ・ 11 規則を作成 この議論がたしか終わったなということを覚えている。 この議論がたしか終わったなと覚えている。
評価実験 20 Perl を用いて実装 対象とした会議録は ・第 100 回〜第 155 回
( 約 20 年分 ) ・ファイルサイズが 120KB を越える会議録 → 自由発話が多いため 対象となる会議録数は 3960 要約率で評価 要約率 = 要約処理後の文字数 原文文字数 ×100 [%]
実験結果 (1/3) 21 会議録毎の要約率 ・ 平均要約率: 80.17 % ・ ばらつきが少ない
( 標準偏差: 2.046)
実験結果 (2/3) 22 発話者別の発話文字数と要約率 ( 調査対象:第 145 回予算委員会第 22
号 ) 要約率… 70 〜 90% ⇒ 極端な要約率はない 発話文字数と要約率との関連性は低い
実験結果 (3/3) 23 各要約手法別の削除率 調査対象:全体の要約率が 80.17% の9会議録 各削除率にばらつきは見られない → 各表現が偏りなく出現し、削除されている
解析誤りの考察 (1/3) 24 挿入句表現 精度: 80.0 % (160/200) ( 調査対象:第
155 回内閣委員会第 2 号 ) 誤り例 → 1 つの節が挿入句とは限らない そこで、国民的な、あるいは当事者同士の合意が なかなか進んでいない状況の中ですけれども、推 進事務局でどういうふうに作業を進められている のか、どこまで行っているのか、…
解析誤りの考察 (2/3) 25 丁寧表現の削除誤り ・接頭辞「お」を削除する場合 → 単純に削除するだけでは不十分 換言が必要 例 ×
大臣はどういうふうにお考えになられますか。 ◯ 大臣はどういうふうに考えるか。 ・敬語表現の特殊な形式への対応が不十分 → 意味同定、辞書の拡張が必要
解析誤りの考察 (3/3) 26 「という」表現の削除誤り ・複合名詞の場合 ・連体節 ( 内容節 )
の場合 山梨県の高根町に清里というリゾート地がある。 自衛隊を出せという要求
まとめ 27 国会会議録を話し言葉コーパスとして利用 削除・換言による要約 要約率 平均 80% 、標準偏差 2.0 →
ばらつきの少ない要約を実現 副詞、並列表現の削除処理 ( 今後の課題 ) 例 副詞 : そこはちょっと納得のできないところだ。 並列表現 あのときの破防法の適用の問題、公安審査委員会の決定に対 する批判等は随分報道でも拝見をした。
おわり 28