Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文生成のための機能語の補完
Search
自然言語処理研究室
March 31, 2006
Research
0
160
文生成のための機能語の補完
池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
490
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
100
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
200
Other Decks in Research
See All in Research
論文紹介: ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement
hisaokatsumi
0
110
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2k
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
240
ip71_contraflow_reconfiguration
stkmsd
0
110
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
150
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
380
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
140
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
960
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
430
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1k
Combinatorial Search with Generators
kei18
0
1k
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
0
200
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Docker and Python
trallard
46
3.6k
Designing for humans not robots
tammielis
254
26k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Side Projects
sachag
455
43k
Statistics for Hackers
jakevdp
799
220k
Making Projects Easy
brettharned
120
6.4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Writing Fast Ruby
sferik
630
62k
Into the Great Unknown - MozCon
thekraken
40
2.1k
Transcript
文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14
問題設定  順序付きの単語群からの文生成  生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する
入力単語群の作成  入力単語群は要約文より作成  要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能  用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する
→{安全,検査,簡素,化,する,方向,検討,する}
提案手法 1.機能語の補完対象箇所の同定  機能語の補完が必要か 2.助詞ノの補完  助詞ノは使い方が他の機能語と は違う 3.機能語の補完 
ノ以外の機能語の補完
1.補完箇所の同定 及び 2.ノの補完  補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた  素性は単語、品詞、単語の出現位 置を用いた
 カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
3.機能語の補完 3.1 補完する機能語の候補を出力  コーパスを用いる 3.2 機能語の候補から補完語を決定  単語n-gramと機能語n-gram
3.1 補完候補の出力  補完箇所の前後の単語を利用する  以下のような順でコーパスから探す  候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」
②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
3.2 機能語の決定(1/2)  機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する  機能語n-gramとは機能語のみの n-gram  連続する機能語はまとめる
当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語
, λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率)  機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
評価実験  NIKKEI-gooの要約文48618文  単語n-gram,機能語n-gram  SVMの学習データ  NIKKEI-gooの要約文1000文 
テストデータ  日経新聞コーパス2000年度版  補完候補の出力
人手による評価  無作為に100文抽出  3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧
2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認
考察  被験者全員が不正解とした23文  文の大部分は正しく生成  1部のみ間違えていることが多い  これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。
 被験者2人以上が約4割の文を可読 性の評価で正解 →大きく精度向上が期待
誤った文  今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。  動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}
→企業は今後採用した年金制度を…
まとめ  文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた  可読性の評価で53%  補完箇所の同定、ノの補完の精度 向上による精度向上が見込める
 N-gram以外のスコア導入の検討  入力する単語の検討
以降手持ちスライド
概要  語順付き単語群からの文生成  入力単語群は名詞、動詞  生成は機能語の補完による  適用可能範囲 
要約  テキストマイニング  機械翻訳補助
3.2 機能語の決定(3/3)  単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,
B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1  ×Pb 1 ∣z 1 z 2 
正解例  ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する  2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス 
新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
不正解例  先行の東京電力に対抗 先行東京電力は対抗  政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに 
キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05
1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
ノの補完 0 10 20 30 40 50 60 70 80
90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]