Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
特徴的冗長表現に着目した国会会議録要約
Search
自然言語処理研究室
September 30, 2003
Research
1
140
特徴的冗長表現に着目した国会会議録要約
安達 康昭, 山本 和英. 特徴的冗長表現に着目した国会会議録要約. 情報処理学会 研究報告, NL157-15 / FI72-15, pp.107-114 (2003.9)
自然言語処理研究室
September 30, 2003
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
64
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
MLtraq: Track your AI experiments at hyperspeed
micheda
1
100
第14回対話システムシンポジウム EMNLP 2023 参加報告
atsumoto
0
150
Deep State Space Models 101 / Mamba
kurita
9
3.5k
メタ動画データセットによる動作認識の現状と可能性
yuyay
0
180
3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation
nttcom
0
200
「EBPMエコシステム」の可能性
daimoriwaki
0
200
F0に基づいて伸縮された画像文字からの音声合成 [ASJ2024春]
nehi0615
0
120
My Journey as a UX Researcher
aranciap
0
1.1k
Refactoring Mining - The key to unlock software evolution
tsantalis
0
250
NeurIPS-23 参加報告 + DPO 解説
akifumi_wachi
4
1.4k
200名の育児中男性の声 「僕たちは、キャリアとライフをトレードオフにしたくない」共働き3.0世代の男性が 本当に求める働き方とは【ワーキングペアレンツの転職意識調査2023|XTalent株式会社】
xtalent
0
470
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
500
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
31
12k
Principles of Awesome APIs and How to Build Them.
keavy
120
16k
Fireside Chat
paigeccino
20
2.6k
Making the Leap to Tech Lead
cromwellryan
123
8.5k
Embracing the Ebb and Flow
colly
79
4.1k
Building a Scalable Design System with Sketch
lauravandoore
455
32k
Automating Front-end Workflow
addyosmani
1355
200k
Rebuilding a faster, lazier Slack
samanthasiow
72
8.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
36
2.5k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
226
16k
Clear Off the Table
cherdarchuk
83
310k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
30
6k
Transcript
特徴的冗長表現に着目した 国会会議録要約 安達 康昭 山本 和英 長岡技術科学大学 電気系 2003.9.30 1
研究背景 日本語話し言葉の要約 → 字幕付与、要約筆記 etc. 話し言葉資源の不足 → CSJ 、講演書き起こし等が一般的 しかし、規模は小さい
そこで、国会会議録を利用 2
概 要 話し言葉要約 ・ 丁寧表現の換言 ・ 冗長部の削除 ・ 形態素解析器のみを使用 ・
報知的な要約に 3
国会会議録 (1/2) 1947 年 5 月〜現在までの会議録が Web で公開 ・ 衆参両院合わせて
7.0GB のテキストデータ (2003 年 5 月時点 ) 書き起こし文書 ・ 話し言葉資源の1つとして利用 ・ 完全な書き起こしではない 4
国会会議録 (2/2) 会議録の分類 ・ 質疑応答型 … TV 中継されているもの ・ 所信表明型
… 大臣による演説 ・ 趣旨説明型 … 案件等の説明 ・ 承認型 … 案件などの承認 ・ 混合型 … 混ざっているもの 自由発話を対象 →質疑応答型、所信表明型 5
国会会議録の特徴 フィラー、感動詞が存在しない → 書き起こしの基準 話し言葉としての特徴 ・ 竹沢ら (1994) … 話し言葉の特徴の報告
→ 語順の交替、中止文、挿入句等 ・ 福島ら (2001) … 要約筆記の手法の報告 → 丁寧表現の簡略化 → 節レベルでの処理 6
関連研究 幅田 (2001) 講演音声の要約筆記を分析した結果から、 ・ フィラー ・ 言い直し・繰り返し ・ 挿入句
・ 丁寧表現 ・「〜という+名詞」表現 に着目し、これらを削除・換言処理 Ohtake et al.(2001), 大野ら (2003) 丁寧表現の換言処理 7
処理方法 幅田 (2001) を出発点にして検討 処理手順 1. 挿入句表現 2. 「と思います」表現 3.
丁寧表現 4. 「という」表現 8
挿入句表現の処理 (1/2) 挿入句表現 文の途中にあって、その文の流れと は無関係に挿入された表現 9 挿入句表現処理対象の候補 ・ 〜ように、 ・
〜けれども、 ・ 〜ますが、 など6つ 今回、これは検察審査会の議決ですから直接お答え される立場にはないとは思いますけれども、しかし、 結果として、却下理由として、…
挿入句表現の処理 (2/2) 挿入句表現の候補とは別に「先ほど」等、5つの 手がかり語を取り上げる。 処理規則 ・読点区切りした範囲「節」を処理単位とする。 ・挿入句表現の候補、手がかり語を用いて削除 ・次の制約を満たし候補の表現が含まれる節を削除 1) 当該節に年月日を含まない
2) 当該節の直後の節に指示詞が存在しない 10
「と思います」表現の処理 (1/2) 11 「と思います」の他にも ・ 「と思う」 ・ 「と存じます」 ・ 「と存じる」
を取り上げる。 処理規則 ・ 〜 { たい , ない , だろう } と思います。 簡潔にお願いをしたいと思います。 安全確保上ここに問題があってはならないと思います。 克服するのが行政マンの心意気というものだろうと思います。
「と思います」表現の処理 (2/2) 12 処理規則 ・ 〜Aと思います。 ・ 〜 w だと思います。
→ w が形式名詞以外の場合 → w が「ない { ところ , こと , の } 」の場合 ぜひ急いで検討を進めてほしいと思います。 その問題は国会側の問題だと思います。 当然我々としてやらなければいけないことだと思います。
丁寧表現の処理 (1/4) 13 「ござる」「ある」「おる」文末表現 例えば、 ・ 〜ございます ・ 〜あります ・
〜おります など 簡単な換言規則で処理 鋭意検討している最中でございます。 鋭意検討している最中です。
丁寧表現の処理 (2/4) 14 「ます」が含まれる表現 ・「ます」と共に特殊な動詞が現れる → 辞書を作成して対応 処理規則 1. 「ます」の削除
2. 直前の動詞を基本形にする 3. 特殊な動詞の場合は辞書を用いて換言 いろいろな人権体系等を見ますと、 いろいろな人権体系等を見ると、 少し見えてきた気がいたしますが、
丁寧表現の処理 (3/4) 15 「まし」が含まれる表現 ・処理は「ます」とほぼ同じ 但し、活用する必要がある → 益岡 , 田窪
(1992) を参考にして 活用規則を作成して対応 実際に事案が起こった場合にどうか、 実際に事案が起こりました場合にどうか、
丁寧表現の処理 (4/4) 16 「です」が含まれる表現 ・「です」を「だ」にする 鋭意検討している最中だ。 鋭意検討している最中です。 例外処理として 17 の規則を作成
国において厳しい管理を行なっている。 国において厳しい管理を行なっているところです。
「という」表現の処理 (1/3) 17 幅田 (2001) では、 ・ N1 [ という
N2 ] ・ P [ という N ] ・ A [ という ] N ・ない [ という ] N ・ V [ という ] N ・〜と [ いうふうに ] の処理を行なっている。 ※ […] の範囲は削除部分 問題点 ・「 AUXV という N 」ヘの対応が少ない ・「 P という N 」で誤りがある
「という」表現の処理 (2/3) 18 「 {AUXV,P} という N 」の拡張 名詞が「こと」である場合に限定して処理 →
「ということ」が多く見られるため 「 AUXV ということ」の処理 ・ AUXV + ということ + P + w → AUXV,P,w を参考する ・ 9 規則を作成 民主政治の日本だということは言えない 民主政治の日本だとは言えない
「という」表現の処理 (3/3) 19 「 P ということ」の処理 ・ w1 + P1
+ ということ + P2 + w2 → P1,P2,w1,w2 を参考する ・ 11 規則を作成 この議論がたしか終わったなということを覚えている。 この議論がたしか終わったなと覚えている。
評価実験 20 Perl を用いて実装 対象とした会議録は ・第 100 回〜第 155 回
( 約 20 年分 ) ・ファイルサイズが 120KB を越える会議録 → 自由発話が多いため 対象となる会議録数は 3960 要約率で評価 要約率 = 要約処理後の文字数 原文文字数 ×100 [%]
実験結果 (1/3) 21 会議録毎の要約率 ・ 平均要約率: 80.17 % ・ ばらつきが少ない
( 標準偏差: 2.046)
実験結果 (2/3) 22 発話者別の発話文字数と要約率 ( 調査対象:第 145 回予算委員会第 22
号 ) 要約率… 70 〜 90% ⇒ 極端な要約率はない 発話文字数と要約率との関連性は低い
実験結果 (3/3) 23 各要約手法別の削除率 調査対象:全体の要約率が 80.17% の9会議録 各削除率にばらつきは見られない → 各表現が偏りなく出現し、削除されている
解析誤りの考察 (1/3) 24 挿入句表現 精度: 80.0 % (160/200) ( 調査対象:第
155 回内閣委員会第 2 号 ) 誤り例 → 1 つの節が挿入句とは限らない そこで、国民的な、あるいは当事者同士の合意が なかなか進んでいない状況の中ですけれども、推 進事務局でどういうふうに作業を進められている のか、どこまで行っているのか、…
解析誤りの考察 (2/3) 25 丁寧表現の削除誤り ・接頭辞「お」を削除する場合 → 単純に削除するだけでは不十分 換言が必要 例 ×
大臣はどういうふうにお考えになられますか。 ◯ 大臣はどういうふうに考えるか。 ・敬語表現の特殊な形式への対応が不十分 → 意味同定、辞書の拡張が必要
解析誤りの考察 (3/3) 26 「という」表現の削除誤り ・複合名詞の場合 ・連体節 ( 内容節 )
の場合 山梨県の高根町に清里というリゾート地がある。 自衛隊を出せという要求
まとめ 27 国会会議録を話し言葉コーパスとして利用 削除・換言による要約 要約率 平均 80% 、標準偏差 2.0 →
ばらつきの少ない要約を実現 副詞、並列表現の削除処理 ( 今後の課題 ) 例 副詞 : そこはちょっと納得のできないところだ。 並列表現 あのときの破防法の適用の問題、公安審査委員会の決定に対 する批判等は随分報道でも拝見をした。
おわり 28