Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
話題の継続に着目した国会会議録要約
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2007
Research
0
130
話題の継続に着目した国会会議録要約
川端 正法. 話題の継続に着目した国会会議録要約. 長岡技術科学大学課題研究報告書 (2007.3)
自然言語処理研究室
March 31, 2007
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
510
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
300
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.2k
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
120
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
170
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
5
1.3k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
230
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
170
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
340
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
580
音声感情認識技術の進展と展望
nagase
0
470
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
500
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.5k
Featured
See All Featured
New Earth Scene 8
popppiees
1
1.5k
Building Applications with DynamoDB
mza
96
6.9k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
130
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
270
Paper Plane
katiecoart
PRO
0
46k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
230
ラッコキーワード サービス紹介資料
rakko
1
2.3M
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
440
Designing Powerful Visuals for Engaging Learning
tmiket
0
240
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Done Done
chrislema
186
16k
Color Theory Basics | Prateek | Gurzu
gurzu
0
200
Transcript
1 話題の継続に着目した 国会会議録要約 長岡技術科学大学 電気電子情報工学課程 4年 川端 正法
2 はじめに 目的の文書かどうかの判断が必要 長い文書が大量にあると全て読むのは困難 → 内容を判断するための要約が必要 電子化された大量の文書 ・技術文書
・レポート ・会議録 ・講義の書き起こし 書き言葉 話し言葉
3 目的 国会会議録 一般に公開されており、入手が容易 平均5万字という長い文書が多い 内容を判断するための自動要約手法を提案
要約は1000字以内で作成
4 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文
5 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文
6 話題の手がかりの抽出 多くの話題が存在する国会会議録では、 長く議論された話題こそが要約に必要。 話題の手がかり 助詞「の」で接続された名詞の組を原文から抽出
話題の手がかりを指標として必要な部分を抽出 例1) イラク / の / 治安 / 状況 例2) 基本計画 / の / 文案 / の / 変更
7 継続段落数の算出 全ての話題の手がかりに対して計算 イラク, 状況 イラク, 治安 イラク /
の / 治安 / 状況 イラク, 状況 第1段落 第2段落 第5段落 第30段落 継 続 段 落 数 = 4
8 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文
9 導入段落候補の抽出 長い話題はそのままでは1000字に収まらない → 話題の始まりと終わりを抽出 話題の導入部分であるなら 同じ話題が以前で出現しない
同じ話題が以降で多数出現 イラクの治安 イラクの治安 空自の撤退 導入部分
10 結論段落候補の抽出 導入段落候補に対してそれぞれ抽出 話題の結論部分であるなら 同じ話題が以前に多く出現した 同じ話題が以降で出現しない
継続段落数を用いて抽出 イラクの治安 イラクの治安 レバノン情勢 結論部分
11 処理概要 話題の手がかりの抽出 継続段落数の算出 要約 導入段落・結論段落の抽出 要約文の生成 原文
12 要約文の生成 導入段落候補の1位から順に出力 導入段落と結論段落を組み合わせて出力する (導) 次に、水産資源の展開であります。 (結) 流通の効率化、加工業の事業基盤強化を通じ、
水産業の構造改革を進めて参ります。
13 評価実験 導入段落と結論段落の抽出精度について評価 使用した文書 本研究室で収集した国会会議録(第1回~第165回) から無作為に抽出した計10セット
導入段落候補の評価(7セット) 結論段落候補の評価(3セット) 9千字~14万字 人手で正解データを作成
14 導入段落の評価 適合率:22%, 再現率:19% 上位に導入段落ではない段落が存在 候補の抽出時に再現率が低下
話題の手がかりが継続しない 助詞「の」で接続された名詞以外の手がかりが必要 候補の上位に導入段落が多い傾向がある
15 結論段落の評価 1位のみの精度:8%, 3位までの精度:36% 上位に結論段落が抽出される傾向がある 必ずしも1位とは限らない
1位の精度が低いのは問題あり 要約文に正しい結論段落が出力されない
16 今後の課題 話題の手がかりを増やす 段落に含まれる名詞 同義語 段落候補から不要段落を削除
段落から必要な部分を特定 話題の手がかりが必ずしも導入部分に含まれている とは限らない
17 おわりに 国会会議録を1000字に要約する手法を提案 導入段落の抽出精度:22% 結論段落の抽出精度:36% 候補の上位には正解が多い傾向があり、
不要な段落を除くことで精度の向上が見込める。 問題点 段落単位では文字数の調整が難しい 段落から必要部分の特定
18 おわり
19
20 導入段落候補の抽出精度 会議録ID 文字数[字] 適合率 再現率 再現率 (手がかりのみ) 1 9,258
0.22 0.22 0.29 2 31,047 0.08 0.07 0.11 3 29,306 0.47 0.22 0.28 4 35,630 0.18 0.15 0.18 5 146,811 0.15 0.12 0.13 6 111,169 0.27 0.16 0.18 7 66,049 0.17 0.12 0.14 平均 61,324 0.22 0.15 0.19
21 段落数と話題の手がかりの数 会議録ID 段落数 話題の手がかりの数 導入段落候補 結論段落候補 1 147 271
12 52 2 305 388 15 67 3 266 693 24 112 4 258 1,011 21 97 5 748 2,520 65 325 6 692 1,924 50 242 7 501 1,135 50 242
22 結論段落候補の抽出精度 会議録ID 導入段落候補数 1位のみの精度 3位までの精度 8 20 0.00(0) 0.20(4)
9 18 0.11(2) 0.50(9) 10 48 0.15(7) 0.37(18) 平均 0.08 0.36
23 継続段落数の算出 N1 =イラク, N2 ={治安,状況} 第1段落 第2段落 第5段落 イラク,
状況 イラク, 治安 N1 , N2 の「前向き継続段落数」=4 第5段落の「後向き継続段落数」=4 全ての話題の手がかりに対して計算