Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文書生成のための文の並べ替え
Search
自然言語処理研究室
March 31, 2009
Research
210
0
Share
文書生成のための文の並べ替え
大田 浩志, 山本 和英. 文書生成のための文の並べ替え. 言語処理学会第15回年次大会, pp.813-816 (2009.3)
自然言語処理研究室
March 31, 2009
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
430
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
310
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
1.5k
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
140
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
190
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
440
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
680
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
170
2026.01ウェビナー資料
elith
0
330
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.6k
R&Dチームを起ち上げる
shibuiwilliam
1
210
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
440
Featured
See All Featured
Deep Space Network (abreviated)
tonyrice
0
99
We Are The Robots
honzajavorek
0
210
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
170
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
620
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
160
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
240
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
260
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.8k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.2k
Transcript
文書生成のための 文の並べ替え 長岡技術科学大学 電気系 大田浩志, 山本和英 1
背景と目的 • 文の並び順は文書の読みやすさに影響をあたえる [Barzilay et al.,02] • 自動で文を尤もらしい順に並べる = 文書生成
文脈を統計的にとらえることを考える 並べ替え対象による異なりを調査する 2
問題設定:文を元の並びに戻す • • • • 1.人手実験 • 人間はどの程度並べ替えができるか • 新聞記事・レビューによる差異があるか
2.自動並べ替え • 文脈をとらえることができるか 3 1ーーーーーー。 2ーーーーーー。 3ーーーーーー。 3ーーーーー。 1ーーーーー。 2ーーーーー。 ?ーーーーーー。 ?ーーーーーー。 ?ーーーーーー。 バラバラ 並べる
関連研究 複数文書要約 • 要約元文書の時間情報等を用いた並べ替え [Mckeown et al.,1999] • 複数の手法を組み合わせることで並べ替え精度向上 [Bollegala
et al.,05] 4
予備実験・人手による文の並べ替え(1) • 目的 • 2つの対象の性質の違いを確認 新聞記事 レビュー • 実験方法 •
文順序をバラバラにして提示、並べ替え • 並べ替えを行ったあと自己評価 5
予備実験・人手による文の並べ替え(2) • 並べ替えた結果を評価 評価(1) 並べ替えた順序以外では読みにくい 評価(2) 他の順序でも読めるが、並べ替えた順序が 尤もらしい 評価(3)
順序を持たない文を含む 6
予備実験・人手による文の並べ替え(3) • 相関値:元々の順序 - 並べ替え順序 • ケンドールの順位相関係数τ 文順序の尤もらしさの自動評価に有効[Lapata,05] 7
予備実験・人手による文の並べ替え(4) • レビューは新聞記事と比較して、 • 文の並びの自由度が高い =決まった構成がない(or少ない) • 統計的にとらえることができるもの • 新聞:新聞の構造、文書らしさ
• レビュー:文書らしさ(文脈) 8
既存手法 • 統計による文の並べ替え[Lapata,03] • 文の連接しやすさ • 文の連接確率 を 単語の連接確率の積 で表す
Sentence S i : S j : Word 9
提案:文の連接しにくさの尺度 文の連接しにくさ • 単語の連接しにくさの総加平均 • 単語の連接しにくさ 連続する2文における共起 1文書内での共起 f(a,b): a,bの共起頻度
N:文書数 10
実験:文の連接しにくさの尺度 • a文離れた文同士のスコアを算出 ーーーーーーーー。 ーーーーーー。 ーーーーーー。 ーーーーーーー。 a=3 +a 11
提案手法による文の並べ替え • 文の連接しにくさ だけでは並べ替えはできない • 相互情報量に基づく指標 • 方向を持たない • 単語の連接しやすさと単語の連接しにくさを
併せて用いる 12
実験:異なる文数のレビュー • 学習はレビュー • 相関係数τ 13
実験:学習データと並べ替え対象 • 文脈をとらえることができたか 14
まとめ • 統計情報を用いた文の並べ替え手法を提案 • 文の連接しにくさの尺度を提案 • 既存手法とは異なる結果 • 新聞記事とレビュー記事を並べ替え •
レビューの文順序は自由度が高い • 生成したい文書を考慮した学習データの選択が必要 15
計算式:ケンドールの順位相関係数 • 文書1:1,2,3 • 文書2:2,1,3 • I=1
計算式:PMI • f(a <i,j> ):i文目のj個目の単語aの出現回数 • N d :文書dの総数