Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
Search
Yumeto Inaoka
March 21, 2017
Technology
0
220
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
2017/03/21の文献紹介で発表
Yumeto Inaoka
March 21, 2017
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
110
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
150
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
110
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
110
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
78
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
200
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
250
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
170
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
160
Other Decks in Technology
See All in Technology
どうするコスト最適化のトレードオフ
tetsuyaooooo
1
510
On Your Data を超えていく!
hirotomotaguchi
2
670
MapLibreとAmazon Location Service
dayjournal
1
150
Kernel MemoryでAzure OpenAI Serviceとお手軽データソース連携
mitsuzono
1
240
現代CSSフレームワークの内部実装とその仕組み
poteboy
8
3.6k
MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
lycorptech_jp
PRO
5
500
エンジニア候補者向け資料2024.04.24.pdf
macloud
0
3.3k
GrafanaMeetup_AmazonManagedGrafanaのアクセス制御機能とマルチテナント環境下でのアクセス制御について
daitak
0
130
アクセシビリティを考慮したUI/CSSフレームワーク・ライブラリ選定
yajihum
2
1k
「スニダン」開発組織の構造に込めた意図 ~組織作りはパッションや政治ではない!~
rinchsan
3
550
いつか使うかも貯金してたらめちゃめちゃ機能が増えてた話
riyaamemiya
0
120
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
2.1k
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
243
12k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
19
1.7k
Building Effective Engineering Teams - LeadDev
addyosmani
28
1.8k
A designer walks into a library…
pauljervisheath
200
23k
What the flash - Photography Introduction
edds
64
11k
Into the Great Unknown - MozCon
thekraken
10
990
GitHub's CSS Performance
jonrohan
1025
450k
Stop Working from a Prison Cell
hatefulcrawdad
266
19k
VelocityConf: Rendering Performance Case Studies
addyosmani
320
23k
Statistics for Hackers
jakevdp
789
220k
Designing with Data
zakiwarfel
96
4.8k
Designing for Performance
lara
601
67k
Transcript
入れ子依存木の刈り込み による単一文書要約手法 菊池 悠太, 平尾 努, 高村 大也, 奥村 学,
永田 昌明 言語処理学会, Vol. 22, No. 3, pp.197-217, 2015 1 文献紹介(2017/03/21) 自然言語処理研究室 稲岡 夢人
概要 • 従来手法 ◦ 単語間の関係を利用して文を圧縮 ◦ 文と文の関係には着目せず • 提案手法 ◦
文書を文間、単語間の依存関係を表す 入れ子依存木とみなす ◦ 単語重要度の和が最大な木の刈り込み ◦ 要約精度の向上 2
抽出型要約 • 文書を文、節、単語等の集合とみなす • 部分集合の選択による要約文書の生成 • 一貫性、網羅性、要約長への柔軟な対応 3
一貫性 • 原文書の談話構造を保持した要約 • 談話構造を保持していない場合 →原文書の意図と違う解釈を誘発する要約 • 修辞構造理論(RST) ◦ 文書の大域的な談話構造を木で表現
◦ 文書中で扱う文書中の最小単位はEDU(節) 4
網羅性 • 原文書の重要な内容を網羅しているか • 整数計画問題と考える研究が盛ん ◦ 重要な部分集合を選択する問題 ◦ 部分集合が原文書の情報をなるべく 被覆するような目的関数を設定
5
網羅性と要約長の関係 • 文を抽出単位とすると、非常に短い 要約文書の要求時に情報の網羅性が低下 • 文抽出と文圧縮を組み合わせるアプローチ ◦ 文圧縮:単語、句の削除による短文化 ◦ 同時に行うアプローチの研究が盛ん
6
入れ子依存木 • 文間依存木 :文間の依存関係を表す木 • 単語間依存木:単語間の依存関係を表す木 • 入れ子依存木:上記の木が入れ子となる木 7
入れ子依存木 • 文間依存木の根ノードが部分木の根となる • 単語間依存木の根ノードは必ずしも 部分木の根とはならない →制約による網羅性向上の妨げを防止 8
入れ子依存木の構築 1. RSTの木構造を DEP-DTへ変換 2. DEP-DTを文が ノードの依存木 に変換 3. 依存構造解析で
単語間の依存木 を獲得 9
評価実験 • RST Discourse Treebankの要約評価用 テストセットを使用 • 原文書の25%(long), 10%(short)程度のトークン 数の参照要約を使用
• 比較手法としてEDU, 文を単位とした 要約手法を用意 • テストセットに含まれる修辞構造を用いた場合 と解析器で自動で解析した場合 10
評価実験 • n:原文書の文数 • m i :文iの単語数 • w ij
:i番目の文におけるj番目の単語の重み • z ij :i番目の文におけるj番目の単語を 要約に含めるときに1となる変数 • 目的関数:要約に含まれた単語の重みの総数 • tf ij は単語w ij の頻度 • depth(i)は文x i の根からの深 11
結果(修辞構造を用いた場合) • 任意部分木と根付き部分木で差はみられない • shortの場合は全ての場合で有意に上回る • longの場合は顕著な差は現れない 12
結果(解析器を用いた場合) • shortの場合は提案手法の方が劣化が大きい 13
結果(文間依存木の有無) • 木の深さ情報が重要箇所の同定に寄与 14
結果(部分木抽出手法の比較) • 目的節、that節のほうが重要な場合に有用 15
まとめ • 入れ子依存木の構築によりROUGEが向上 • 根にこだわらない任意部分木抽出手法が有用 • 修辞構造解析器による精度への影響を確認 16