Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
濃縮還元型文要約モデルの検討
Search
自然言語処理研究室
July 31, 2006
Research
1
49
濃縮還元型文要約モデルの検討
池田 諭史, 牧野 恵, 山本 和英. 濃縮還元型文要約モデルの検討. 情報処理学会 研究報告, NL174-13 (2006.7)
自然言語処理研究室
July 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
64
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
LLMマルチエージェントを俯瞰する
masatoto
26
15k
CASCON 2023 Most Influential Paper Award Talk
tsantalis
0
110
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
Equivalence of Geodesics and Importance Weighting from the Perspective of Information Geometry
mkimura
0
130
Alexander Mielke Hellinger--Kantorovich (a.k.a. Wasserstein-Fisher-Rao) Spaces and Gradient Flows
jjzhu
3
180
Cross-Media Information Spaces and Architectures
signer
PRO
0
120
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
500
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
170
200名の育児中男性の声 「僕たちは、キャリアとライフをトレードオフにしたくない」共働き3.0世代の男性が 本当に求める働き方とは【ワーキングペアレンツの転職意識調査2023|XTalent株式会社】
xtalent
0
460
Target trial emulationの概要
shuntaros
2
1.1k
「歴史的農業環境閲覧システム」と「迅速測図」について
wata909
1
580
自己教師あり学習による事前学習(CVIMチュートリアル)
naok615
2
1.4k
Featured
See All Featured
WebSockets: Embracing the real-time Web
robhawkes
59
7k
GitHub's CSS Performance
jonrohan
1023
450k
Writing Fast Ruby
sferik
620
60k
How STYLIGHT went responsive
nonsquared
92
4.8k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.1k
Music & Morning Musume
bryan
41
5.6k
Six Lessons from altMBA
skipperchong
20
3k
Designing with Data
zakiwarfel
95
4.8k
Stop Working from a Prison Cell
hatefulcrawdad
266
19k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
226
16k
How to Ace a Technical Interview
jacobian
272
22k
A Philosophy of Restraint
colly
196
16k
Transcript
濃縮還元型文要約モデルの検討 池田諭史 牧野恵 山本和英 長岡技術科学大学 電気系 2006.7.28
背景 現在の文単位での要約 文より不要部の削除を行う 冗長部の削除 文の必要な部分を取り出し並べる 重要部分の抽出 人のように、より自然な要約文を作成したい ・・・イラクで行方不明になっていた
になっていた民間人ら・・・ ・・・イラクで行方不明の の民間人ら・・・
目的 人間が文要約を行う際 原文からの必要な単語の抽出 抽出した単語の並び換え 単語からの文の生成 上記の手順で行うことがある 自動要約でも同様の手法で行えないか
単語の抽出(濃縮) 単語群からの文の生成(還元)
提案手法(濃縮還元型要約) 人手で要約する際の手法を取り入れて要約 を行う 単語抽出部(濃縮) 原文から必要な単語を抽出する 抽出にはSVMを使用 文生成部(還元)
抽出した単語より要約文を生成 生成は機能語を補完することで行う
単語群の並べ替えについて 本来は文生成する前に単語の順を決定す る必要がある これを行うことにより、現在の自動要約手法で は出ないような原文に無い表現が作成可能に 本研究では問題の簡単化のために原文で の出現順で生成を行う
関連研究 文生成の先行研究 内元ら(2002) {国,政策,発足}のような3単語からの文の生成 池田ら(2006) 要約文で使われた単語を用いて、同じ意味の 文を生成 {安全,検査,簡素,化,する,方向,検討,する}
安全検査を簡素化する方向で検討する。
単語抽出部(1/2) 文を生成するのに必要な単語とは 人が文意を取るためには内容語が必要 速読する際に、内容語のみを読むことがある 要約文では形容詞、副詞は省略が多い 修飾節は省かれやすい 本研究における文生成に必要な単語
名詞 動詞
単語抽出部(2/2) SVMによる単語抽出 要約対を用意する 要約文に存在する原文の単語を正例 要約文に存在しない原文の単語を負例 素性 対象単語と前後各2単語の表層と品詞 TF(Term
Frequency) IDF(Inverse Document Frequency) カーネル 線形カーネル
文生成部(1/4) 単語群から文を生成する 生成は機能語を補完することで行う 文生成部の流れ 補完候補の出力 機能語の決定
文生成部(2/4) 補完候補の出力 補完候補の出力にはコーパスを用いる 「政府+(機能語)+要請」で出現する機能語 「政府要請」という形で出現する場合は ε (補完し ない)を補完候補に
補完候補がない場合は「政府+(機能語)」で探す {政府,要請,受ける}
文生成部(3/4)機能語の決定 HMMを用いたタグ付与問題をもとに行う 観測xが与えられたときに確率最大となるラベ ル列yを求める 私 は 学生 です 名詞
助詞 名詞 助動詞 y x argmax y∈∑ y T ∏ t=1 T Px t ∣y t P y t ∣y t−1 T :ラベル数 Px t ∣y t :出力確率 P y t ∣y t−1 :遷移確率
文生成部(4/4)機能語の決定 HMMのタグ付与問題の 観測xを抽出した単語群とする ラベル列yを補完する機能語列 私 学生 y x
は です argmax y∈∑ y T ∏ t=1 T P y t ∣x t Px t1 ∣y t Py t ∣y t−1 T :ラベル数 P y t ∣x t :前方の連接確率 Px t1 ∣y t :後方の連接確率 P y t ∣y t−1 :遷移確率
評価実験 要約対 原文:NIKKEI NETのWebニュース記事 要約文:Nikkei-gooのメールサービスの記事 記事対応をとり、1文目を要約対とした
3300要約対 33分割の交差検定 連接確率及び補完候補の出力 日経新聞2000年度版
要約率 本手法では抽出単語数を変更することで要 約率を可変にできる 抽出単語割合における要約率を調査 要約率は約80% となる抽出単語率 70%を使用 0 10
20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100 110 単語抽出率 [%] 要約率 [%] y=1.08x3.50
人手による評価 100文を3人の被験者が独立に評価 人による揺れが大きい 約5割の文に対して意味が変わっているの で単語の抽出精度の向上が必要 正解とした評価者数 ≧1 ≧2 =3 可読性の評価
80% 36% 10% 意味同一性の評価 78% 45% 13%
考察 単語抽出の精度 ベースラインよりも良いことがわかる 0 10 20 30 40 50 60
70 80 90 100 10 20 30 40 50 60 70 80 90 100 適合率 再現率 F 値 ベースライン( F 値) 単語抽出割合 [%] 精度 [%]
考察 人手で文生成 抽出した単語群を人手で文生成した 各被験者が文生成不可能とした文が約4割 単語抽出部の精度向上が必要 被験者 A B 文生成可能
意味同一性の評価 59文(/100文) 65文(/100文) 40文(/59文) 38文(/65文)
考察 人手で文生成不可能な例 「増やしする」→「増やす」で正解 本手法では出現形で動詞を使っているが活 用も考慮する必要がある 「する」をサ変名詞や前の単語とつなげて1つ の動詞とする A社は14日、1株当たりの年間配当金を15セント増やし、 同55セントにすると発表した。 ↓
{A社,14日,1株,当たり,年間,配当金,増やし,する,発表,し} ↓ A社は14日1株当たりの年間の配当金を 増やしすると発表した。
考察 「する」について 「(サ変名詞)+する」の「する」のみが単語抽 出部で抽出される 日本語が作れない 本手法でサ変名詞と「する」を分けて使った のは のような要約も考慮したためである。 「する」については特別な処理が必要である A社は14日、同業のB社を買収することで合意した。 ↓
A社は14日、B社の買収で合意した。
考察 文生成部について 以前我々が行った先行研究と比較した 先行研究よりも良くなっていることがわかる 過半数が正解としたときに正解とするなら 約6割の正解率が得られた 正解とした評価者数 1 ≧ 2
≧ 可読性の評価 本手法 93% 61% 33% 先行研究 77% 53% 33% 本手法 83% 58% 20% 先行研究 46% 23% 15% =3 意味同一性の 評価
考察 文生成時における単語数 単語数が増加すると 精度が下がる傾向がある 2-gramしか考慮していないため 大局的に間違った文でもスコアの低下が ない(助詞「の」の連続等) 人手だと精度が上がる傾向がある
単語群より得られる情報が多い 大局的に考えて生成が可能 本手法は単語数が少ない方が精度が良い
今後の課題 単語抽出部での「する」の処理 文生成部での大局的なスコアの導入 単語抽出後の単語の順序入れ替え 単語抽出部、文生成部相互に関係するよう なモデルの作成
まとめ 原文より単語を抜き出し、その単語から文 を生成することで要約するモデル(濃縮還元 モデル)の検討を行った。 目標とした要約文が生成された。 英下院で15日、イングランドとウェールズでの猟犬を使った キツネ狩りを禁止する法案が賛成多数で可決した。 ↓ 猟犬を使ったキツネ狩りを禁止する法案を可決した。
おわり
以下質疑応答用の説明スライド
先行研究との比較 堀ら(2002)との比較を行った 意味的な評価は本手法の方が優れている ROUGE-1 ROUGE-2 人手の評価 可読性 意味 本手法 0.62
0.43 36% 45% 先行研究 0.71 0.52 53% 21%