Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文生成のための機能語の補完
Search
自然言語処理研究室
March 31, 2006
Research
0
160
文生成のための機能語の補完
池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
490
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
100
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
200
Other Decks in Research
See All in Research
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
2k
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
0
200
Minimax and Bayes Optimal Best-arm Identification: Adaptive Experimental Design for Treatment Choice
masakat0
0
180
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
240
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
650
Generative Models 2025
takahashihiroshi
25
13k
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
140
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
600
超高速データサイエンス
matsui_528
1
150
投資戦略202508
pw
0
560
Time to Cash: The Full Stack Breakdown of Modern ATM Attacks
ratatata
0
160
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
610
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
54
11k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Become a Pro
speakerdeck
PRO
29
5.5k
Gamification - CAS2011
davidbonilla
81
5.5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.5k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
2.7k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Fireside Chat
paigeccino
40
3.7k
Building an army of robots
kneath
306
46k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.1k
RailsConf 2023
tenderlove
30
1.2k
GraphQLとの向き合い方2022年版
quramy
49
14k
Transcript
文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14
問題設定 順序付きの単語群からの文生成 生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する
入力単語群の作成 入力単語群は要約文より作成 要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能 用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する
→{安全,検査,簡素,化,する,方向,検討,する}
提案手法 1.機能語の補完対象箇所の同定 機能語の補完が必要か 2.助詞ノの補完 助詞ノは使い方が他の機能語と は違う 3.機能語の補完
ノ以外の機能語の補完
1.補完箇所の同定 及び 2.ノの補完 補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた 素性は単語、品詞、単語の出現位 置を用いた
カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
3.機能語の補完 3.1 補完する機能語の候補を出力 コーパスを用いる 3.2 機能語の候補から補完語を決定 単語n-gramと機能語n-gram
3.1 補完候補の出力 補完箇所の前後の単語を利用する 以下のような順でコーパスから探す 候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」
②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
3.2 機能語の決定(1/2) 機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する 機能語n-gramとは機能語のみの n-gram 連続する機能語はまとめる
当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語
, λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率) 機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
評価実験 NIKKEI-gooの要約文48618文 単語n-gram,機能語n-gram SVMの学習データ NIKKEI-gooの要約文1000文
テストデータ 日経新聞コーパス2000年度版 補完候補の出力
人手による評価 無作為に100文抽出 3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧
2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認
考察 被験者全員が不正解とした23文 文の大部分は正しく生成 1部のみ間違えていることが多い これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。
被験者2人以上が約4割の文を可読 性の評価で正解 →大きく精度向上が期待
誤った文 今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。 動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}
→企業は今後採用した年金制度を…
まとめ 文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた 可読性の評価で53% 補完箇所の同定、ノの補完の精度 向上による精度向上が見込める
N-gram以外のスコア導入の検討 入力する単語の検討
以降手持ちスライド
概要 語順付き単語群からの文生成 入力単語群は名詞、動詞 生成は機能語の補完による 適用可能範囲
要約 テキストマイニング 機械翻訳補助
3.2 機能語の決定(3/3) 単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,
B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1 ×Pb 1 ∣z 1 z 2
正解例 ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する 2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス
新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
不正解例 先行の東京電力に対抗 先行東京電力は対抗 政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに
キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05
1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
ノの補完 0 10 20 30 40 50 60 70 80
90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]