Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
国会会議録に対する文短縮による報知的要約手法
Search
自然言語処理研究室
March 31, 2004
Research
0
190
国会会議録に対する文短縮による報知的要約手法
安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
71
自然言語処理研究室 研究概要(2014年)
jnlp
0
67
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
機械学習と数理最適化の融合-文脈付き確率的最短路を例として-
mickey_kubo
2
510
データで診て考える合志市の渋滞と公共交通 ~めざせ 車1割削減、渋滞半減、公共交通2倍~
trafficbrain
0
480
AIを前提とした体験の実現に向けて/toward_ai_based_experiences
monochromegane
1
260
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
210
HP (Hitto Point: 筆頭ポイント)
tanichu
0
770
LiDARセキュリティ最前線
kentaroy47
0
290
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
9
3.7k
DeepCrysTet: A Deep Learning Approach Using Tetrahedral Mesh for Predicting Properties of Crystalline Materials
tsurubee
0
390
Introduction of NII S. Koyama's Lab (AY2024)
skoyamalab
0
160
媒介分析と疫学
kingqwert
0
130
Sosiaalisen median katsaus 02/2024
hponka
0
2.9k
クロスモーダル表現学習の研究動向: 音声関連を中心として
ryomasumura
3
630
Featured
See All Featured
A better future with KSS
kneath
231
16k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
352
28k
Building a Modern Day E-commerce SEO Strategy
aleyda
22
6.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
21
1.6k
Typedesign – Prime Four
hannesfritz
36
2.1k
Raft: Consensus for Rubyists
vanstee
133
6.3k
From Idea to $5000 a Month in 5 Months
shpigford
378
45k
RailsConf 2023
tenderlove
9
570
In The Pink: A Labor of Love
frogandcode
138
21k
Bash Introduction
62gerente
605
210k
Designing for Performance
lara
601
67k
Product Roadmaps are Hard
iamctodd
45
9.8k
Transcript
国会会議録に対する 文短縮による報知的要約手法 長岡技術科学大学 電気系 山本研究室 報告者 安 達 康 昭
指導教官 山本 和英 講師 2004年 2月 27日 1
1 . はじめに 日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与
– 要約筆記 ・・・ 講演音声の文字伝達手段 話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
2 . 国会会議録 1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (
2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB 書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2)
挨拶文 ・・・ 「よろしくお願いします」等を削除 挿入句の削除 ・・・ 節の末尾で判断 敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
3 . 処理方法 (2/2) “ と思います”表現 ・・・ 直前の形態素で判断
丁寧表現 ・・・ “です”,“ます”の削除 “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
4 . 実装と評価 処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (
1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる 要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
5 . 会議録毎の要約率 平均要約率 ・・・ 80.0% ばらつきが少ない要約 (
標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
7 . おわりに 要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •
さらに文を短縮する必要がある ( 今後の課題 ) 処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8
おわり 9