Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
Search
Yumeto Inaoka
March 21, 2017
Technology
0
330
文献紹介: 入れ子依存木の刈り込みによる単一文書要約手法
2017/03/21の文献紹介で発表
Yumeto Inaoka
March 21, 2017
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
150
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
200
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
140
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
140
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
120
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
240
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
300
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
200
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
200
Other Decks in Technology
See All in Technology
生成AI×財務経理:PoCで挑むSlack AI Bot開発と現場巻き込みのリアル
pohdccoe
1
780
フォーイット_エンジニア向け会社紹介資料_Forit_Company_Profile.pdf
forit_tech
1
1.7k
2025/3/1 公共交通オープンデータデイ2025
morohoshi
0
100
EDRの検知の仕組みと検知回避について
chayakonanaika
12
5.2k
"TEAM"を導入したら最高のエンジニア"Team"を実現できた / Deploying "TEAM" and Building the Best Engineering "Team"
yuj1osm
1
230
E2Eテスト自動化入門
devops_vtj
1
100
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
11k
ExaDB-XSで利用されているExadata Exascaleについて
oracle4engineer
PRO
3
280
OPENLOGI Company Profile for engineer
hr01
1
20k
MIMEと文字コードの闇
hirachan
2
1.4k
Amazon Athenaから利用時のGlueのIcebergテーブルのメンテナンスについて
nayuts
0
110
役員・マネージャー・著者・エンジニアそれぞれの立場から見たAWS認定資格
nrinetcom
PRO
4
6.5k
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
10
520
A Modern Web Designer's Workflow
chriscoyier
693
190k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
Bash Introduction
62gerente
611
210k
Optimizing for Happiness
mojombo
377
70k
Testing 201, or: Great Expectations
jmmastey
42
7.2k
Producing Creativity
orderedlist
PRO
344
40k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Transcript
入れ子依存木の刈り込み による単一文書要約手法 菊池 悠太, 平尾 努, 高村 大也, 奥村 学,
永田 昌明 言語処理学会, Vol. 22, No. 3, pp.197-217, 2015 1 文献紹介(2017/03/21) 自然言語処理研究室 稲岡 夢人
概要 • 従来手法 ◦ 単語間の関係を利用して文を圧縮 ◦ 文と文の関係には着目せず • 提案手法 ◦
文書を文間、単語間の依存関係を表す 入れ子依存木とみなす ◦ 単語重要度の和が最大な木の刈り込み ◦ 要約精度の向上 2
抽出型要約 • 文書を文、節、単語等の集合とみなす • 部分集合の選択による要約文書の生成 • 一貫性、網羅性、要約長への柔軟な対応 3
一貫性 • 原文書の談話構造を保持した要約 • 談話構造を保持していない場合 →原文書の意図と違う解釈を誘発する要約 • 修辞構造理論(RST) ◦ 文書の大域的な談話構造を木で表現
◦ 文書中で扱う文書中の最小単位はEDU(節) 4
網羅性 • 原文書の重要な内容を網羅しているか • 整数計画問題と考える研究が盛ん ◦ 重要な部分集合を選択する問題 ◦ 部分集合が原文書の情報をなるべく 被覆するような目的関数を設定
5
網羅性と要約長の関係 • 文を抽出単位とすると、非常に短い 要約文書の要求時に情報の網羅性が低下 • 文抽出と文圧縮を組み合わせるアプローチ ◦ 文圧縮:単語、句の削除による短文化 ◦ 同時に行うアプローチの研究が盛ん
6
入れ子依存木 • 文間依存木 :文間の依存関係を表す木 • 単語間依存木:単語間の依存関係を表す木 • 入れ子依存木:上記の木が入れ子となる木 7
入れ子依存木 • 文間依存木の根ノードが部分木の根となる • 単語間依存木の根ノードは必ずしも 部分木の根とはならない →制約による網羅性向上の妨げを防止 8
入れ子依存木の構築 1. RSTの木構造を DEP-DTへ変換 2. DEP-DTを文が ノードの依存木 に変換 3. 依存構造解析で
単語間の依存木 を獲得 9
評価実験 • RST Discourse Treebankの要約評価用 テストセットを使用 • 原文書の25%(long), 10%(short)程度のトークン 数の参照要約を使用
• 比較手法としてEDU, 文を単位とした 要約手法を用意 • テストセットに含まれる修辞構造を用いた場合 と解析器で自動で解析した場合 10
評価実験 • n:原文書の文数 • m i :文iの単語数 • w ij
:i番目の文におけるj番目の単語の重み • z ij :i番目の文におけるj番目の単語を 要約に含めるときに1となる変数 • 目的関数:要約に含まれた単語の重みの総数 • tf ij は単語w ij の頻度 • depth(i)は文x i の根からの深 11
結果(修辞構造を用いた場合) • 任意部分木と根付き部分木で差はみられない • shortの場合は全ての場合で有意に上回る • longの場合は顕著な差は現れない 12
結果(解析器を用いた場合) • shortの場合は提案手法の方が劣化が大きい 13
結果(文間依存木の有無) • 木の深さ情報が重要箇所の同定に寄与 14
結果(部分木抽出手法の比較) • 目的節、that節のほうが重要な場合に有用 15
まとめ • 入れ子依存木の構築によりROUGEが向上 • 根にこだわらない任意部分木抽出手法が有用 • 修辞構造解析器による精度への影響を確認 16