Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文生成のための機能語の補完
Search
自然言語処理研究室
March 31, 2006
Research
0
160
文生成のための機能語の補完
池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
97
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
100
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
430
Language Models Are Implicitly Continuous
eumesy
PRO
0
220
能動適応的実験計画
masakat0
2
800
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
930
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
10
4.2k
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
190
NLP Colloquium
junokim
1
200
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.3k
A scalable, annual aboveground biomass product for monitoring carbon impacts of ecosystem restoration projects
satai
4
230
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
160
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
110
Featured
See All Featured
Side Projects
sachag
455
43k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Faster Mobile Websites
deanohume
309
31k
Navigating Team Friction
lara
189
15k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
580
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Building an army of robots
kneath
306
46k
The Power of CSS Pseudo Elements
geoffreycrofte
77
6k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
51
5.6k
Into the Great Unknown - MozCon
thekraken
40
2k
Visualization
eitanlees
148
16k
Transcript
文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14
問題設定 順序付きの単語群からの文生成 生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する
入力単語群の作成 入力単語群は要約文より作成 要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能 用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する
→{安全,検査,簡素,化,する,方向,検討,する}
提案手法 1.機能語の補完対象箇所の同定 機能語の補完が必要か 2.助詞ノの補完 助詞ノは使い方が他の機能語と は違う 3.機能語の補完
ノ以外の機能語の補完
1.補完箇所の同定 及び 2.ノの補完 補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた 素性は単語、品詞、単語の出現位 置を用いた
カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
3.機能語の補完 3.1 補完する機能語の候補を出力 コーパスを用いる 3.2 機能語の候補から補完語を決定 単語n-gramと機能語n-gram
3.1 補完候補の出力 補完箇所の前後の単語を利用する 以下のような順でコーパスから探す 候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」
②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
3.2 機能語の決定(1/2) 機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する 機能語n-gramとは機能語のみの n-gram 連続する機能語はまとめる
当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語
, λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率) 機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
評価実験 NIKKEI-gooの要約文48618文 単語n-gram,機能語n-gram SVMの学習データ NIKKEI-gooの要約文1000文
テストデータ 日経新聞コーパス2000年度版 補完候補の出力
人手による評価 無作為に100文抽出 3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧
2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認
考察 被験者全員が不正解とした23文 文の大部分は正しく生成 1部のみ間違えていることが多い これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。
被験者2人以上が約4割の文を可読 性の評価で正解 →大きく精度向上が期待
誤った文 今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。 動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}
→企業は今後採用した年金制度を…
まとめ 文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた 可読性の評価で53% 補完箇所の同定、ノの補完の精度 向上による精度向上が見込める
N-gram以外のスコア導入の検討 入力する単語の検討
以降手持ちスライド
概要 語順付き単語群からの文生成 入力単語群は名詞、動詞 生成は機能語の補完による 適用可能範囲
要約 テキストマイニング 機械翻訳補助
3.2 機能語の決定(3/3) 単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,
B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1 ×Pb 1 ∣z 1 z 2
正解例 ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する 2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス
新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
不正解例 先行の東京電力に対抗 先行東京電力は対抗 政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに
キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05
1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
ノの補完 0 10 20 30 40 50 60 70 80
90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]