Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
『源氏物語』の引き歌をベクトル検索によって検出する方法
Search
Yasuhiro Kondo
June 12, 2024
0
97
『源氏物語』の引き歌をベクトル検索によって検出する方法
Yasuhiro Kondo
June 12, 2024
Tweet
Share
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
大規模言語モデル(LLM)について人文学研究者が知っておきたいこと
yhkondo
0
20
国立国語研究所通時コーパスシンポジウム2025
yhkondo
0
260
AIによる古典語・古典文学研究の方法について
yhkondo
0
260
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
60
古典語の係り結びと情報構造
yhkondo
0
130
『百人一首』の歌風は何か?
yhkondo
0
95
大規模言語モデルを用いた意味分析による辞書記述への応用
yhkondo
1
1.5k
ChatGPTは何を生成しているのか
yhkondo
0
92
日本語研究から見たChatGPT
yhkondo
0
820
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
For a Future-Friendly Web
brad_frost
179
9.8k
Agile that works and the tools we love
rasmusluckow
329
21k
Visualization
eitanlees
146
16k
4 Signs Your Business is Dying
shpigford
184
22k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
16
930
GraphQLとの向き合い方2022年版
quramy
46
14k
Fireside Chat
paigeccino
37
3.5k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
228
22k
Transcript
『源氏物語』の引き歌をベクトル検索によって 検出する方法 IN-OS-18-3 人工知能学会第38回大会(JSAI2024)発表 2024年5月28日 アクトシティ浜松 近藤泰弘(青山学院大学)
[email protected]
1
研究概要 背景1・2 引き歌・ミーム 提案する手法 手法の詳細 実験結果 今後の課題 / 参考文献・謝辞 01 02
03 04 05 06 発表目次 2
この研究では、日本の古典文学における修辞法である「引き 歌」をデジタル的手法で検出する方法を提案する 具体的には、『源氏物語』の文のベクトルと『古今集』の和歌 の文ベクトルを比較し、N-gramも加味したハイブリッド検索に より、高精度で引き歌を検出する 研究概要 3
背景 1 - 引き歌とは 源氏物語・柏木「短める命待つ間も,つらき御心は見えぬべければ」 (短く見えるこの命待つ間でも,つらいお気持ちが見えてしまうので) (古今集・雑下・平貞文)「ありはてぬ命待つ間のほどばかり憂きこと繁く思 はずもがな」 (限りある人生の間くらいは,嫌なことをあまり考えたくないものだな)
『源氏物語』の読者は、「命待つ間」でかならず「ああ、あれね」と『古今 集』のこの和歌を連想する=このような暗示的な和歌の引用を「引き歌」と言 う。(実は、「命待つ間」という表現は、著名な日本古典でこの二つだけ。) 4
背景 1 - memeと引き歌 5 ネット上のイラスト meme ミーム 文化伝達における遺伝子 (リチャード・ドーキンス) OGE
GFEOD OGE DOGE Much noble, so respect. Comic Sans MS font 2013年 眞子様婚約 2017年
背景 2 - 解決されていない問題 平安時代のミームであるので、単に語句が一致していれば必ず「引き 歌」になるわけでもないわけで、文脈全体の類似度が必要になってく る。『源氏物語』の引き歌がどれであるのかについては、すでに室町時 代の『源氏物語』注釈書にその研究が見え、各種和歌作品からの「引き 歌」が、現在では全部で1000個程度あがっているが、全貌は明らかで はない。
先の「幸せならOK」や、DOGE(柴犬のかぼす・暗号通貨)でも、あと 100年もすれば、インターネット・ミームであることがわからなくなっ てしまうだろう。文化・文脈の解釈が重要である。ミームは、世界の文 学にも多い技法。「人はパンのみにて生くるものにあらず」(聖書)6
背景2ー以前の方法と今回の提案手法 かつて、近藤が案出した方法(近藤1999)では、15グラムまでの平仮 名文字N-gramの一致による引き歌の検出を行ったが、30000個以上の 膨大な一致文字列の中から目視での確認が必要だった。 本研究では、まず、文埋め込みベクトルを用いたベクトル検索によっ て、より効率的に引き歌の候補を検出し、その後、N-gram一致でフィ ルターをかけることで、ハイブリッドな検索を行うことで、最適な引き 歌を検出できる。 7
今回の提案手法 提案手法は、以下の5つのステップからなる 1. 源氏物語センテンスと和歌のそれぞれの埋め込みベクトルの取得 2. ベクトルインデクスの作成 3. 近傍ベクトルの類似度による候補テキストの出力 4. N-gram文字列一致によるフィルタリング
5. 文脈による適・不適の判断(人間の内省) 8
提案手法による実装実験 STEP1:OpenAIのクラウドAPIを使用して、『源氏物語』『古今集』を 文埋め込みベクトル化する(OpenAIのtext-embedding-ada-002は古 典語にも対応している) STEP2:ベクトル値をFaceBookで開発された近傍検索ライブラリの Faissのインデクスに変換(高速検索が可能) STEP3:『古今集』1首について、値が近い『源氏物語』を5つ選ぶ STEP4:N-gramの一致を見て、一致度が高いものだけを残す STEP5:文脈を読んで人間が判断 9
提案手法による実験詳細 STEP3:『古今集』1首について、値が近い『源氏物語』を5つ選ぶ STEP4:N-gramの一致を見て、一致度が高いものだけを残す 10 古今集1首の文ベクトル 源氏物語全センテンス の文ベクトル 源氏の中で最もコサイン類似度が高い文から5つを選ぶ この操作を古今集全1063首で行い、5315種の候補ペアを選ぶ。 そのペアを、N-gramの一致でフィルタリングし、より絞り込む
提案手法による実験詳細 11
提案手法による実験詳細 12
提案手法による実験結果1 近傍ベクトル検索で近似性が高い和歌と文で、かつN-gram一致度も高 い例(9グラムの一致例・わかりやすい) 262,ちはやぶる神の斎垣にはふ葛も秋にはあへずうつろひにけり 〇十月中の十日なれば神の斎垣にはふ葛も色変りて松の下紅葉など音に のみ秋を聞かぬ顔なり 962,わくらばに問ふ人あらば須磨の浦に藻塩たれつつわぶとこたへよ 〇あまの世をよそに聞かめや須磨の浦に藻塩たれしも誰ならなくにさま ざまなる世の定めなさを心に思ひつめて今まで後れきこえぬる口惜しさ を思し棄てつとも避りがたき御回向の中にはまづこそはとあはれになむ
など多く聞こえたまへり 13
提案手法による実験結果2 近傍ベクトル検索で近似性が高い和歌と文だが、N-gram一致度は5グラ ムでやや低い例(普通はわかりにくいが、引き歌だと考えられる) 396,飽かずして別るる涙滝にそふ水まさるとやしもは見るらむ 〇行くと来とせきとめがたき涙をや絶えぬ清水と人は見るらむ え知りたまはじかしと思ふにいとかひなし。 このように全部で5315候補あるものをN-gram一致でフィルターをか け、ハイブリッド検索にすることで検索の能率をアップできた。N>6あ たりでは、半分程度以上は引き歌に相当する。 14
今後の課題・発展 ベクトル検索とN-gram一致によるハイブリッド手法で、従来よりも 正確に引き歌を検出できることを示した 今後は、ベクトル生成の新型モデルの使用、類似度の検索方法の改 善や、日本古典における漢籍の引用の検出など、さらなる研究を進 めていく予定。(OpenAIの埋め込みモデルでは、漢文=古典中国語 の文ベクトルと、古典日本語の文ベクトルが同一ベクトル空間にあ るため、そのまま、コサイン類似度等で近傍検索が可能である) 15
主要参考文献・謝辞 伊井春樹編, 『源氏物語引歌索引』, 笠間書院, 1974 近藤泰弘, 「《文化資源》としてのデジタルテキストー国語学と国 文学の共通の課題としてー」, 『国語と国文学』77巻11号, 1999
鈴木日出男, 『源氏物語引歌総覧』, 風間書房, 2013 リチャード・ドーキンス『利己的な遺伝子〈増補新装版〉』紀伊國 屋書店・2006 16 この研究を進めるにあたり、国立国語研究所の「日本語歴史コーパス」 (CHJ)を使用しました。関係者の皆様に感謝申し上げます。