Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
国会会議録に対する文短縮による報知的要約手法
Search
自然言語処理研究室
March 31, 2004
Research
0
250
国会会議録に対する文短縮による報知的要約手法
安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Mathematics in the Age of AI and the 4 Generation University
hachama
0
160
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
240
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
250
Combinatorial Search with Generators
kei18
0
310
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
430
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
340
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
3.5k
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
990
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
300
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
950
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
業界横断 副業・兼業者の実態調査
fkske
0
160
Featured
See All Featured
A designer walks into a library…
pauljervisheath
207
24k
RailsConf 2023
tenderlove
30
1.1k
Why Our Code Smells
bkeepers
PRO
337
57k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
5
220
How STYLIGHT went responsive
nonsquared
100
5.6k
Unsuck your backbone
ammeep
671
58k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Site-Speed That Sticks
csswizardry
10
660
Faster Mobile Websites
deanohume
307
31k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
国会会議録に対する 文短縮による報知的要約手法 長岡技術科学大学 電気系 山本研究室 報告者 安 達 康 昭
指導教官 山本 和英 講師 2004年 2月 27日 1
1 . はじめに 日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与
– 要約筆記 ・・・ 講演音声の文字伝達手段 話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
2 . 国会会議録 1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (
2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB 書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2)
挨拶文 ・・・ 「よろしくお願いします」等を削除 挿入句の削除 ・・・ 節の末尾で判断 敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
3 . 処理方法 (2/2) “ と思います”表現 ・・・ 直前の形態素で判断
丁寧表現 ・・・ “です”,“ます”の削除 “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
4 . 実装と評価 処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (
1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる 要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
5 . 会議録毎の要約率 平均要約率 ・・・ 80.0% ばらつきが少ない要約 (
標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
7 . おわりに 要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •
さらに文を短縮する必要がある ( 今後の課題 ) 処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8
おわり 9