Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
国会会議録に対する文短縮による報知的要約手法
Search
自然言語処理研究室
March 31, 2004
Research
0
210
国会会議録に対する文短縮による報知的要約手法
安達 康昭. 国会会議録に対する文短縮による報知的要約手法. 長岡技術科学大学課題研究報告書 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
340
データサイエンス13_解析.pdf
jnlp
0
390
データサイエンス12_分類.pdf
jnlp
0
300
データサイエンス11_前処理.pdf
jnlp
0
410
Recurrent neural network based language model
jnlp
0
110
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
73
自然言語処理研究室 研究概要(2014年)
jnlp
0
75
自然言語処理研究室 研究概要(2015年)
jnlp
0
130
Other Decks in Research
See All in Research
HP (Hitto Point: 筆頭ポイント)
tanichu
0
900
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
410
SSII2024 [OS3] 基盤モデル(オープニング)
ssii
PRO
0
280
「人間にAIはどのように辿り着けばよいのか?ー 系統的汎化からの第一歩 ー」@第22回 Language and Robotics研究会
maguro27
0
410
第28回 著者ゼミ:Identification of drug responsible glycogene signature in liver carcinoma from meta-analysis using RNA-seq data
ktatsuya
2
200
この先生きのこるには
verypluming
3
4.5k
Threat Intelligence and Beyond
rishikadesai_7
0
240
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
ssii
PRO
0
640
How to Perform Manual Classification for Deep Learning Using CloudCompare
kentaitakura
0
950
継続的な研究費獲得のための考え方
moda0
2
540
中高生にSFを読んでもらうには
ichiiida
1
830
1on1ガイドへの想い(chachaki編)
chachakix
0
150
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
134
6.5k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
A Philosophy of Restraint
colly
200
16k
Facilitating Awesome Meetings
lara
46
5.8k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
189
16k
Design by the Numbers
sachag
277
18k
From Idea to $5000 a Month in 5 Months
shpigford
377
46k
5 minutes of I Can Smell Your CMS
philhawksworth
200
19k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.9k
Agile that works and the tools we love
rasmusluckow
325
20k
Ruby is Unlike a Banana
tanoku
96
10k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
248
20k
Transcript
国会会議録に対する 文短縮による報知的要約手法 長岡技術科学大学 電気系 山本研究室 報告者 安 達 康 昭
指導教官 山本 和英 講師 2004年 2月 27日 1
1 . はじめに 日本語話し言葉の要約 – 字幕 ・・・ NHK ,民放数社が生放送に付与
– 要約筆記 ・・・ 講演音声の文字伝達手段 話し言葉の研究が少ない – 言語資源 ( コーパス ) の不足 ⇒ コストがかかる 2 問題点 人間の読む能力に限界 ⇒ 報知的要約が必要 解決策 国会会議録を話し言葉コーパスとして利用 講演での発話の特徴も確認できる
2 . 国会会議録 1947年からの会議録をWebで公開 – 7.0 GB のテキストデータ (
2003年5月時点 ) • 毎日新聞コーパス 1年分 ・・・ 21 MB 書き起こし文書 – 話し言葉資源として利用 – 完全な書き起こしではない • フィラーの削除 • 言いよどみの削除 3
今直ちにお答えは無理かもしれませんけれども、 次年度に おきましてこれらに対して抜本的な施策をつくり上げていた だきたいと思いますが、 いかがでしょうか。 3 . 処理方法 (1/2)
挨拶文 ・・・ 「よろしくお願いします」等を削除 挿入句の削除 ・・・ 節の末尾で判断 敬語表現 ・・・ 敬語動詞を規則を用いて換言 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 4
3 . 処理方法 (2/2) “ と思います”表現 ・・・ 直前の形態素で判断
丁寧表現 ・・・ “です”,“ます”の削除 “ という”表現処理 ・・・ 前後の形態素で判断 次年度におきましてこれらに対して抜本的な施策をつくり上 げてほしいと思いますが、 どうでしょうか。 次年度においてこれらに対して抜本的な施策をつくり上げて ほしいが、 どうか。 物事を語り合ったり理解を深めるという点で問題点が多い ということは指摘されているとおりであります。 5
4 . 実装と評価 処理対象 – 第100回から第155回の衆議院の会議録全て • 約20年分 (
1.08 GB) – ファイルサイズが120 kB 以上の会議録に限定 • 質疑応答形式の会議録は大きなファイルサイズになる • この制約により3960の会議録が対象になる 要約率で評価 要約率= 要約処理後の文字数 原文文字数 ×100 [%] 6
5 . 会議録毎の要約率 平均要約率 ・・・ 80.0% ばらつきが少ない要約 (
標準偏差 2.1 ) – 国会会議録の中で幅広く見られる表現を処理 7
7 . おわりに 要約率 – 会議録,発言者に依存しない要約を実現 – 80%を実現しているが字幕としては不十分 •
さらに文を短縮する必要がある ( 今後の課題 ) 処理規則 – 丁寧表現の処理 ⇒ 良好な換言結果 – 挿入句表現 ( 精度 80%) ,「という」表現( 精度 86%) • 不自然な文になる ( 今後の課題 ) 8
おわり 9