$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
国会会議録に対する文短縮による報知的要約手法
Search
自然言語処理研究室
March 31, 2004
Research
0
260
国会会議録に対する文短縮による報知的要約手法
安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
170
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
250
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
190
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
310
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.2k
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
kazutoshishinoda
0
140
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
110
投資戦略202508
pw
0
580
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
620
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
kurita
1
290
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
230
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
How to Think Like a Performance Engineer
csswizardry
28
2.4k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
How GitHub (no longer) Works
holman
316
140k
The World Runs on Bad Software
bkeepers
PRO
72
12k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Transcript
国会会議録に対する 文短縮による報知的要約手法 長岡技術科学大学 電気系 山本研究室 報告者 安 達 康 昭
指導教官 山本 和英 講師 2004年 2月 27日 1
1 . はじめに 日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与
– 要約筆記 ・・・ 講演音声の文字伝達手段 話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
2 . 国会会議録 1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (
2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB 書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2)
挨拶文 ・・・ 「よろしくお願いします」等を削除 挿入句の削除 ・・・ 節の末尾で判断 敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
3 . 処理方法 (2/2) “ と思います”表現 ・・・ 直前の形態素で判断
丁寧表現 ・・・ “です”,“ます”の削除 “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
4 . 実装と評価 処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (
1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる 要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
5 . 会議録毎の要約率 平均要約率 ・・・ 80.0% ばらつきが少ない要約 (
標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
7 . おわりに 要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •
さらに文を短縮する必要がある ( 今後の課題 ) 処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8
おわり 9