Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
国会会議録に対する文短縮による報知的要約手法
Search
自然言語処理研究室
March 31, 2004
Research
270
0
Share
国会会議録に対する文短縮による報知的要約手法
安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)
自然言語処理研究室
March 31, 2004
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
500
Recurrent neural network based language model
jnlp
0
170
自然言語処理研究室 研究概要(2012年)
jnlp
0
160
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
150
自然言語処理研究室 研究概要(2015年)
jnlp
0
230
Other Decks in Research
See All in Research
R&Dチームを起ち上げる
shibuiwilliam
1
260
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
270
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
250
明日から使える!研究効率化ツール入門
matsui_528
13
7.2k
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.2k
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
810
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
量子コンピュータの紹介
oqtopus
0
320
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
610
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
870
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
430
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
210
Featured
See All Featured
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
600
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
830
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
210
Exploring anti-patterns in Rails
aemeredith
3
390
How GitHub (no longer) Works
holman
316
150k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
290
sira's awesome portfolio website redesign presentation
elsirapls
0
270
エンジニアに許された特別な時間の終わり
watany
107
250k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Transcript
国会会議録に対する 文短縮による報知的要約手法 長岡技術科学大学 電気系 山本研究室 報告者 安 達 康 昭
指導教官 山本 和英 講師 2004年 2月 27日 1
1 . はじめに 日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与
– 要約筆記 ・・・ 講演音声の文字伝達手段 話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
2 . 国会会議録 1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (
2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB 書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2)
挨拶文 ・・・ 「よろしくお願いします」等を削除 挿入句の削除 ・・・ 節の末尾で判断 敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
3 . 処理方法 (2/2) “ と思います”表現 ・・・ 直前の形態素で判断
丁寧表現 ・・・ “です”,“ます”の削除 “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
4 . 実装と評価 処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (
1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる 要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
5 . 会議録毎の要約率 平均要約率 ・・・ 80.0% ばらつきが少ない要約 (
標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
7 . おわりに 要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •
さらに文を短縮する必要がある ( 今後の課題 ) 処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8
おわり 9