Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文生成のための機能語の補完
Search
自然言語処理研究室
March 31, 2006
Research
0
160
文生成のための機能語の補完
池田 諭史、沢井 康孝、山本 和英. 文生成のための機能語の補完. 言語処理学会第12回年次大会, pp.208-211 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs
satai
4
490
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
250
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
310
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
120
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
120
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
950
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
820
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
360
論文紹介: ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement
hisaokatsumi
0
140
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
870
能動適応的実験計画
masakat0
2
1.1k
Open Gateway 5GC利用への期待と不安
stellarcraft
2
160
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
Producing Creativity
orderedlist
PRO
348
40k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
54k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Raft: Consensus for Rubyists
vanstee
141
7.2k
KATA
mclloyd
PRO
32
15k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Git: the NoSQL Database
bkeepers
PRO
432
66k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Site-Speed That Sticks
csswizardry
13
990
Transcript
文生成のための 機能語の補完 池田諭史 沢井康孝 山本和英 長岡技術科学大学 電気系 2006.3.14
問題設定 順序付きの単語群からの文生成 生成は機能語の補完 {安全,検査,簡素,化,する,方向,検討,する} 安全検査を簡素化する方向で検討する
入力単語群の作成 入力単語群は要約文より作成 要約文の単語より文が生成でき れば原文より必要な単語を抜き 出すことで要約可能 用いる単語は名詞、動詞 安全検査を簡素化する方向で検討する
→{安全,検査,簡素,化,する,方向,検討,する}
提案手法 1.機能語の補完対象箇所の同定 機能語の補完が必要か 2.助詞ノの補完 助詞ノは使い方が他の機能語と は違う 3.機能語の補完
ノ以外の機能語の補完
1.補完箇所の同定 及び 2.ノの補完 補完箇所の同定とノの補完は SVM(Tiny SVM)を用いた 素性は単語、品詞、単語の出現位 置を用いた
カーネルは線形カーネル 安全検査を簡素化する方向で検討する →{安全,検査,簡素,化,する,方向,検討,する} →{安全検査,簡素化する方向,検討する}
3.機能語の補完 3.1 補完する機能語の候補を出力 コーパスを用いる 3.2 機能語の候補から補完語を決定 単語n-gramと機能語n-gram
3.1 補完候補の出力 補完箇所の前後の単語を利用する 以下のような順でコーパスから探す 候補が出た手順で終了する {安全検査,簡素化する方向}の場合 ①「安全検査+(機能語)+簡素化する方向」
②「安全検査+(機能語)」 ③「検査+(機能語)+簡素」 ④「検査+(機能語)」
3.2 機能語の決定(1/2) 機能語は単語n-gramと機能語 n-gramによりスコアを求め決定する 機能語n-gramとは機能語のみの n-gram 連続する機能語はまとめる
当時の社会状況では違法とは言えない。 →{の,では,とは,ない} →機能語n-gram確率
3.2 機能語の決定(2/2) A , B: 単語 , Z : 機能語
, λ:重み係数 ScoreA , B , Z: AZB 単語列 のスコア LA , B , Z: 局所的なスコア ( n 単語 −gram確率を使用) GZ: 大局的なスコア ( n 機能語 −gram確率) 機能語決定のスコアは以下により 求める Score A , B ,Z =log {LA , B ,Z }λlog {GZ }
評価実験 NIKKEI-gooの要約文48618文 単語n-gram,機能語n-gram SVMの学習データ NIKKEI-gooの要約文1000文
テストデータ 日経新聞コーパス2000年度版 補完候補の出力
人手による評価 無作為に100文抽出 3人の被験者が独立に評価 人による評価の揺れが大きい 可読性の評価で正解の約半分が文意 が変化 1 ≧
2 ≧ 可読性の評価 77% 53% 33% 意味の評価 46% 23% 15% =3
出力例(正解) 米国防長官は26日、来年早々にも海兵隊3 大隊をイラクに派遣運用する計画を承認 →{米,国防,長官,2,6,日,来年,早々,海,兵隊,3, 大隊,イラク,派遣,する,運用,計画, 承認} →米国防長官が26日来年早々に海兵隊を3 大隊イラクに派遣する運用計画を承認
考察 被験者全員が不正解とした23文 文の大部分は正しく生成 1部のみ間違えていることが多い これらに補完箇所の同定及びノの補完 の誤りが無い状態で補完を行った。
被験者2人以上が約4割の文を可読 性の評価で正解 →大きく精度向上が期待
誤った文 今後という単語を使っているがこれ らは未来をあらわす単語であるの で人間は「する」を「した」にすること は無い。 動詞の時制部分の扱いに注意 企業は今後採用したい年金制度は… →{企業,今後,採用,し,年金,制度}
→企業は今後採用した年金制度を…
まとめ 文短縮を想定して機能語を補完す ることによる名詞、動詞からの文の 生成を試みた 可読性の評価で53% 補完箇所の同定、ノの補完の精度 向上による精度向上が見込める
N-gram以外のスコア導入の検討 入力する単語の検討
以降手持ちスライド
概要 語順付き単語群からの文生成 入力単語群は名詞、動詞 生成は機能語の補完による 適用可能範囲
要約 テキストマイニング 機械翻訳補助
3.2 機能語の決定(3/3) 単語A,B、機能語Zがそれぞれ (a1,a2), (b1,b2),(z1,z2)という形 態素からなるとすると L A ,
B ,Z =Pz 1 ∣a 1 a 2 ×Pz 2 ∣a 2 z 1 ×Pb 1 ∣z 1 z 2
正解例 ソニーは今後3年間で世界の生産体制を再編する ソニーは今後3年間で世界生産体制を再編する 2月の商業販売額は前年同月比0.5%増で2年8 カ月ぶりプラスに 2月の商業販売額は前年同月比0.5%増の2年8 カ月ぶりにプラス
新潟県警は約1500人態勢で警戒 新潟県警は約1500人態勢で警戒
不正解例 先行の東京電力に対抗 先行東京電力は対抗 政府が検討していた公務員改革基本指針案が明ら かに 政府が検討していを公務員改革に関する基本指針 案が明らかに
キヤノンの今期連結純利益は2000億円強となり、 四期連続で最高益を更新する見通しだ キヤノンは今期連結純利益を2000億円強になり 四期連続で最高益を更新する見通し
補完箇所の同定 70 75 80 85 90 95 1.E+03 1.E+04 1.E+05
1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]
ノの補完 0 10 20 30 40 50 60 70 80
90 100 1.E+03 1.E+04 1.E+05 1.E+06 エント リ 数 精度[% ] 適合率[% ] 再現率[% ]