Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
Search
Yumeto Inaoka
March 21, 2017
Technology
0
310
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
2017/03/21の文献紹介で発表
Yumeto Inaoka
March 21, 2017
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
130
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
170
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
120
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
120
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
93
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
210
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
270
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
180
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
180
Other Decks in Technology
See All in Technology
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
140
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
310
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
28
13k
rootlessコンテナのすゝめ - 研究室サーバーでもできる安全なコンテナ管理
kitsuya0828
3
390
強いチームと開発生産性
onk
PRO
34
11k
インフラとバックエンドとフロントエンドをくまなく調べて遅いアプリを早くした件
tubone24
1
430
Introduction to Works of ML Engineer in LY Corporation
lycorp_recruit_jp
0
120
Terraform未経験の御様に対してどの ように導⼊を進めていったか
tkikuchi
2
430
Lexical Analysis
shigashiyama
1
150
Application Development WG Intro at AppDeveloperCon
salaboy
0
190
EventHub Startup CTO of the year 2024 ピッチ資料
eventhub
0
120
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
37
12k
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Producing Creativity
orderedlist
PRO
341
39k
GraphQLとの向き合い方2022年版
quramy
43
13k
[RailsConf 2023] Rails as a piece of cake
palkan
52
4.9k
How STYLIGHT went responsive
nonsquared
95
5.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Building an army of robots
kneath
302
43k
Writing Fast Ruby
sferik
627
61k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Transcript
入れ子依存木の刈り込み による単一文書要約手法 菊池 悠太, 平尾 努, 高村 大也, 奥村 学,
永田 昌明 言語処理学会, Vol. 22, No. 3, pp.197-217, 2015 1 文献紹介(2017/03/21) 自然言語処理研究室 稲岡 夢人
概要 • 従来手法 ◦ 単語間の関係を利用して文を圧縮 ◦ 文と文の関係には着目せず • 提案手法 ◦
文書を文間、単語間の依存関係を表す 入れ子依存木とみなす ◦ 単語重要度の和が最大な木の刈り込み ◦ 要約精度の向上 2
抽出型要約 • 文書を文、節、単語等の集合とみなす • 部分集合の選択による要約文書の生成 • 一貫性、網羅性、要約長への柔軟な対応 3
一貫性 • 原文書の談話構造を保持した要約 • 談話構造を保持していない場合 →原文書の意図と違う解釈を誘発する要約 • 修辞構造理論(RST) ◦ 文書の大域的な談話構造を木で表現
◦ 文書中で扱う文書中の最小単位はEDU(節) 4
網羅性 • 原文書の重要な内容を網羅しているか • 整数計画問題と考える研究が盛ん ◦ 重要な部分集合を選択する問題 ◦ 部分集合が原文書の情報をなるべく 被覆するような目的関数を設定
5
網羅性と要約長の関係 • 文を抽出単位とすると、非常に短い 要約文書の要求時に情報の網羅性が低下 • 文抽出と文圧縮を組み合わせるアプローチ ◦ 文圧縮:単語、句の削除による短文化 ◦ 同時に行うアプローチの研究が盛ん
6
入れ子依存木 • 文間依存木 :文間の依存関係を表す木 • 単語間依存木:単語間の依存関係を表す木 • 入れ子依存木:上記の木が入れ子となる木 7
入れ子依存木 • 文間依存木の根ノードが部分木の根となる • 単語間依存木の根ノードは必ずしも 部分木の根とはならない →制約による網羅性向上の妨げを防止 8
入れ子依存木の構築 1. RSTの木構造を DEP-DTへ変換 2. DEP-DTを文が ノードの依存木 に変換 3. 依存構造解析で
単語間の依存木 を獲得 9
評価実験 • RST Discourse Treebankの要約評価用 テストセットを使用 • 原文書の25%(long), 10%(short)程度のトークン 数の参照要約を使用
• 比較手法としてEDU, 文を単位とした 要約手法を用意 • テストセットに含まれる修辞構造を用いた場合 と解析器で自動で解析した場合 10
評価実験 • n:原文書の文数 • m i :文iの単語数 • w ij
:i番目の文におけるj番目の単語の重み • z ij :i番目の文におけるj番目の単語を 要約に含めるときに1となる変数 • 目的関数:要約に含まれた単語の重みの総数 • tf ij は単語w ij の頻度 • depth(i)は文x i の根からの深 11
結果(修辞構造を用いた場合) • 任意部分木と根付き部分木で差はみられない • shortの場合は全ての場合で有意に上回る • longの場合は顕著な差は現れない 12
結果(解析器を用いた場合) • shortの場合は提案手法の方が劣化が大きい 13
結果(文間依存木の有無) • 木の深さ情報が重要箇所の同定に寄与 14
結果(部分木抽出手法の比較) • 目的節、that節のほうが重要な場合に有用 15
まとめ • 入れ子依存木の構築によりROUGEが向上 • 根にこだわらない任意部分木抽出手法が有用 • 修辞構造解析器による精度への影響を確認 16