Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文生成のための機能語の補完
Search
自然言語処理研究室
March 31, 2006
Research
0
160
文生成のための機能語の補完
池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
96
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.5k
SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery
satai
3
260
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
14
6.7k
近似動的計画入門
mickey_kubo
4
1k
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
220
20250725-bet-ai-day
cipepser
2
370
最適決定木を用いた処方的価格最適化
mickey_kubo
4
1.8k
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
1.1k
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
1.2k
Computational OT #1 - Monge and Kantorovitch
gpeyre
0
220
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
8
4k
Mechanistic Interpretability:解釈可能性研究の新たな潮流
koshiro_aoki
1
390
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Music & Morning Musume
bryan
46
6.7k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
KATA
mclloyd
32
14k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
139
34k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
The Invisible Side of Design
smashingmag
301
51k
Scaling GitHub
holman
462
140k
Automating Front-end Workflow
addyosmani
1370
200k
Raft: Consensus for Rubyists
vanstee
140
7.1k
Testing 201, or: Great Expectations
jmmastey
45
7.6k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Transcript
文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14
問題設定 順序付きの単語群からの文生成 生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する
入力単語群の作成 入力単語群は要約文より作成 要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能 用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する
→{安全,検査,簡素,化,する,方向,検討,する}
提案手法 1.機能語の補完対象箇所の同定 機能語の補完が必要か 2.助詞ノの補完 助詞ノは使い方が他の機能語と は違う 3.機能語の補完
ノ以外の機能語の補完
1.補完箇所の同定 及び 2.ノの補完 補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた 素性は単語、品詞、単語の出現位 置を用いた
カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
3.機能語の補完 3.1 補完する機能語の候補を出力 コーパスを用いる 3.2 機能語の候補から補完語を決定 単語n-gramと機能語n-gram
3.1 補完候補の出力 補完箇所の前後の単語を利用する 以下のような順でコーパスから探す 候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」
②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
3.2 機能語の決定(1/2) 機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する 機能語n-gramとは機能語のみの n-gram 連続する機能語はまとめる
当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語
, λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率) 機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
評価実験 NIKKEI-gooの要約文48618文 単語n-gram,機能語n-gram SVMの学習データ NIKKEI-gooの要約文1000文
テストデータ 日経新聞コーパス2000年度版 補完候補の出力
人手による評価 無作為に100文抽出 3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧
2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認
考察 被験者全員が不正解とした23文 文の大部分は正しく生成 1部のみ間違えていることが多い これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。
被験者2人以上が約4割の文を可読 性の評価で正解 →大きく精度向上が期待
誤った文 今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。 動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}
→企業は今後採用した年金制度を…
まとめ 文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた 可読性の評価で53% 補完箇所の同定、ノの補完の精度 向上による精度向上が見込める
N-gram以外のスコア導入の検討 入力する単語の検討
以降手持ちスライド
概要 語順付き単語群からの文生成 入力単語群は名詞、動詞 生成は機能語の補完による 適用可能範囲
要約 テキストマイニング 機械翻訳補助
3.2 機能語の決定(3/3) 単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,
B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1 ×Pb 1 ∣z 1 z 2
正解例 ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する 2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス
新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
不正解例 先行の東京電力に対抗 先行東京電力は対抗 政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに
キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05
1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
ノの補完 0 10 20 30 40 50 60 70 80
90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]