Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文生成のための機能語の補完
Search
自然言語処理研究室
March 31, 2006
Research
0
97
文生成のための機能語の補完
池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
370
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
98
自然言語処理研究室 研究概要(2013年)
jnlp
0
66
自然言語処理研究室 研究概要(2014年)
jnlp
0
62
自然言語処理研究室 研究概要(2015年)
jnlp
0
110
Other Decks in Research
See All in Research
Cross-Media Information Spaces and Architectures
signer
PRO
0
120
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
130
Refactoring Mining - The key to unlock software evolution
tsantalis
0
210
20240127_熊本から今いちど真面目に都市交通~めざせ「車1割削減、渋滞半減、公共交通2倍」~ 全国路面電車サミット2024宇都宮
trafficbrain
1
600
熊本都市交通リノベーション_熊本青年会議所ローカルマニフェスト検証会
trafficbrain
1
510
Pathfinding for 10k agents
kei18
1
3k
Embodied AIについて / About Embodied AI
nttcom
1
360
CoRL2023速報
rpc
1
1.9k
[2023 CCSE] ZOZOTOWN検索における 研究開発の取り組みについて
tomoyayama
0
120
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
150
Alexander Mielke Hellinger--Kantorovich (a.k.a. Wasserstein-Fisher-Rao) Spaces and Gradient Flows
jjzhu
3
150
Gmail の「メール送信者のガイドライン」強化から 1 ヵ月、今後予想されるメールセキュリティの変化とは
hirachan
1
200
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
130
6.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
355
22k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
124
32k
Debugging Ruby Performance
tmm1
68
11k
What the flash - Photography Introduction
edds
64
11k
Faster Mobile Websites
deanohume
296
30k
Making the Leap to Tech Lead
cromwellryan
123
8.4k
Building an army of robots
kneath
300
41k
We Have a Design System, Now What?
morganepeng
42
6.7k
Fireside Chat
paigeccino
19
2.6k
How to Ace a Technical Interview
jacobian
272
22k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
24
2.2k
Transcript
文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14
問題設定 順序付きの単語群からの文生成 生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する
入力単語群の作成 入力単語群は要約文より作成 要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能 用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する
→{安全,検査,簡素,化,する,方向,検討,する}
提案手法 1.機能語の補完対象箇所の同定 機能語の補完が必要か 2.助詞ノの補完 助詞ノは使い方が他の機能語と は違う 3.機能語の補完
ノ以外の機能語の補完
1.補完箇所の同定 及び 2.ノの補完 補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた 素性は単語、品詞、単語の出現位 置を用いた
カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
3.機能語の補完 3.1 補完する機能語の候補を出力 コーパスを用いる 3.2 機能語の候補から補完語を決定 単語n-gramと機能語n-gram
3.1 補完候補の出力 補完箇所の前後の単語を利用する 以下のような順でコーパスから探す 候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」
②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
3.2 機能語の決定(1/2) 機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する 機能語n-gramとは機能語のみの n-gram 連続する機能語はまとめる
当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語
, λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率) 機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
評価実験 NIKKEI-gooの要約文48618文 単語n-gram,機能語n-gram SVMの学習データ NIKKEI-gooの要約文1000文
テストデータ 日経新聞コーパス2000年度版 補完候補の出力
人手による評価 無作為に100文抽出 3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧
2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認
考察 被験者全員が不正解とした23文 文の大部分は正しく生成 1部のみ間違えていることが多い これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。
被験者2人以上が約4割の文を可読 性の評価で正解 →大きく精度向上が期待
誤った文 今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。 動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}
→企業は今後採用した年金制度を…
まとめ 文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた 可読性の評価で53% 補完箇所の同定、ノの補完の精度 向上による精度向上が見込める
N-gram以外のスコア導入の検討 入力する単語の検討
以降手持ちスライド
概要 語順付き単語群からの文生成 入力単語群は名詞、動詞 生成は機能語の補完による 適用可能範囲
要約 テキストマイニング 機械翻訳補助
3.2 機能語の決定(3/3) 単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,
B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1 ×Pb 1 ∣z 1 z 2
正解例 ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する 2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス
新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
不正解例 先行の東京電力に対抗 先行東京電力は対抗 政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに
キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05
1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
ノの補完 0 10 20 30 40 50 60 70 80
90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]