Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
Yumeto Inaoka
March 21, 2017
Technology
0
140
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
2017/03/21の文献紹介で発表
Yumeto Inaoka
March 21, 2017
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
69
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
94
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
73
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
76
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
49
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
150
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
180
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
120
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
130
Other Decks in Technology
See All in Technology
plotlyで動くグラフを作る
kosshi
0
570
OCIコンテナサービス関連の技術詳細 /oke-ocir-details
oracle4engineer
PRO
0
730
速習 Machine Learning Lens
asei
1
400
Hasuraの本番運用に向けて
nori3tsu
0
250
Oktaの管理者権限を適切に移譲してみた
shimosyan
2
220
re:Invent re:Cap / AWS Lambda Updates
bulbulpaul
1
140
- Rでオブジェクト指向プログラミング- クラス設計入門の入門
kotatyamtema
1
530
「私考える人、あなた作業する人」を越えて、プロダクトマネジメントがあたりまえになるチームを明日から実現していく方法/product management rsgt2023
moriyuya
60
37k
1日5分!子育て中もインプットを続ける工夫
morihirok
1
350
2年で10→70人へ! スタートアップの 情報セキュリティ課題と施策
miekobayashi
1
170
Dev Containers ことはじめ - 失敗から学ぶ開発環境運用法
streamwest1629
0
230
データエンジニアを助けてくれるFivetranとSnowflakeの仕様&機能のご紹介
sagara
0
410
Featured
See All Featured
Visualization
eitanlees
128
12k
BBQ
matthewcrist
75
8.1k
Building Your Own Lightsaber
phodgson
96
4.9k
4 Signs Your Business is Dying
shpigford
171
20k
Reflections from 52 weeks, 52 projects
jeffersonlam
338
18k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
44
14k
Designing for humans not robots
tammielis
245
24k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
351
21k
Pencils Down: Stop Designing & Start Developing
hursman
114
10k
Building Adaptive Systems
keathley
27
1.3k
Writing Fast Ruby
sferik
613
58k
From Idea to $5000 a Month in 5 Months
shpigford
374
44k
Transcript
入れ子依存木の刈り込み による単一文書要約手法 菊池 悠太, 平尾 努, 高村 大也, 奥村 学,
永田 昌明 言語処理学会, Vol. 22, No. 3, pp.197-217, 2015 1 文献紹介(2017/03/21) 自然言語処理研究室 稲岡 夢人
概要 • 従来手法 ◦ 単語間の関係を利用して文を圧縮 ◦ 文と文の関係には着目せず • 提案手法 ◦
文書を文間、単語間の依存関係を表す 入れ子依存木とみなす ◦ 単語重要度の和が最大な木の刈り込み ◦ 要約精度の向上 2
抽出型要約 • 文書を文、節、単語等の集合とみなす • 部分集合の選択による要約文書の生成 • 一貫性、網羅性、要約長への柔軟な対応 3
一貫性 • 原文書の談話構造を保持した要約 • 談話構造を保持していない場合 →原文書の意図と違う解釈を誘発する要約 • 修辞構造理論(RST) ◦ 文書の大域的な談話構造を木で表現
◦ 文書中で扱う文書中の最小単位はEDU(節) 4
網羅性 • 原文書の重要な内容を網羅しているか • 整数計画問題と考える研究が盛ん ◦ 重要な部分集合を選択する問題 ◦ 部分集合が原文書の情報をなるべく 被覆するような目的関数を設定
5
網羅性と要約長の関係 • 文を抽出単位とすると、非常に短い 要約文書の要求時に情報の網羅性が低下 • 文抽出と文圧縮を組み合わせるアプローチ ◦ 文圧縮:単語、句の削除による短文化 ◦ 同時に行うアプローチの研究が盛ん
6
入れ子依存木 • 文間依存木 :文間の依存関係を表す木 • 単語間依存木:単語間の依存関係を表す木 • 入れ子依存木:上記の木が入れ子となる木 7
入れ子依存木 • 文間依存木の根ノードが部分木の根となる • 単語間依存木の根ノードは必ずしも 部分木の根とはならない →制約による網羅性向上の妨げを防止 8
入れ子依存木の構築 1. RSTの木構造を DEP-DTへ変換 2. DEP-DTを文が ノードの依存木 に変換 3. 依存構造解析で
単語間の依存木 を獲得 9
評価実験 • RST Discourse Treebankの要約評価用 テストセットを使用 • 原文書の25%(long), 10%(short)程度のトークン 数の参照要約を使用
• 比較手法としてEDU, 文を単位とした 要約手法を用意 • テストセットに含まれる修辞構造を用いた場合 と解析器で自動で解析した場合 10
評価実験 • n:原文書の文数 • m i :文iの単語数 • w ij
:i番目の文におけるj番目の単語の重み • z ij :i番目の文におけるj番目の単語を 要約に含めるときに1となる変数 • 目的関数:要約に含まれた単語の重みの総数 • tf ij は単語w ij の頻度 • depth(i)は文x i の根からの深 11
結果(修辞構造を用いた場合) • 任意部分木と根付き部分木で差はみられない • shortの場合は全ての場合で有意に上回る • longの場合は顕著な差は現れない 12
結果(解析器を用いた場合) • shortの場合は提案手法の方が劣化が大きい 13
結果(文間依存木の有無) • 木の深さ情報が重要箇所の同定に寄与 14
結果(部分木抽出手法の比較) • 目的節、that節のほうが重要な場合に有用 15
まとめ • 入れ子依存木の構築によりROUGEが向上 • 根にこだわらない任意部分木抽出手法が有用 • 修辞構造解析器による精度への影響を確認 16