Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIによる古典語・古典文学研究の方法について
Search
Yasuhiro Kondo
June 22, 2024
Education
1.1k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIによる古典語・古典文学研究の方法について
Yasuhiro Kondo
June 22, 2024
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
日本語史から見た聖書の日本語訳
yhkondo
0
22
コンピュータ分析から見た主語
yhkondo
2
230
AIによる言語資源の利用法ー辞書データを中心にー
yhkondo
0
64
JOS2025国立国会図書館デジタルコレクションのOCRデータからの復元
yhkondo
5
1.2k
大規模言語モデル(LLM)について人文学研究者が知っておきたいこと
yhkondo
0
170
国立国語研究所通時コーパスシンポジウム2025
yhkondo
0
370
『源氏物語』の引き歌をベクトル検索によって検出する方法
yhkondo
0
200
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
120
古典語の係り結びと情報構造
yhkondo
0
250
Other Decks in Education
See All in Education
The Art & Science of Elearning
tmiket
1
220
SL AMIGOS 教育格差と私たちの取り組み - スリランカの支援学校への支援プロジェクト:リシンドゥ リオ 氏 (別府溝部学園短期大学 ビジネス観光コース 留学生):2720 Japan O.K. ロータリーEクラブ2026年4月6日卓話
2720japanoke
0
620
Visionary Initiative: Materials-Positive Society 「モノの進化をポジティブな社会の原動力に」|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
400
2026年度春学期 統計学 第6回 データの関係を知る(1)ー 相関関係 (2026. 5. 14)
akiraasano
PRO
0
120
2026年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2026. 5. 7)
akiraasano
PRO
0
140
AI進化史:LLMからAIエージェントへ
mickey_kubo
0
190
Public Space Is Not For Sale
drikkes
0
110
Case Studies and Future Research - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
170
事業紹介資料(トレーナー養成講座)
kentaro1981
0
450
Catecismo 26 #2 - Do Credo; Introdução ao 1º artigo
cm_manaus
0
120
View Manipulation and Reduction - Lecture 9 - Information Visualisation (4019538FNR)
signer
PRO
1
2.7k
AI-Based Speaking Assessment of a Short-Term Study Abroad Program
uranoken
0
310
Featured
See All Featured
Writing Fast Ruby
sferik
630
63k
Designing for Timeless Needs
cassininazir
1
250
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
Producing Creativity
orderedlist
PRO
348
40k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Docker and Python
trallard
47
3.9k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Transcript
青山学院大学名誉教授(日本文学科元教授)・近藤泰弘 2024年度・青山学院大学日本文学会春季大会・2024年6月22日 青山キャンパス14号館大会議室 AIを用いた古典語・古典 文学研究の方法について
自己紹介 1 日本語研究者・デジタル人文学 文学部出身であるが、プログラミ ングは大好き (FORTRAN,COBOL,PL/I,Pascal, Perl,Python) 19才の頃からコンピュータに親し んでいる X(twitter)ではyhkondoとして活
動(フォロワー12000人以上)
内容 生成AIとは 1. 単語・文のベクトル 2. 和歌の歌風の研究 3. 引き歌の研究 4. 今後の課題
5. 2
議題のページに戻る 生成AIの仕組み 3
議題のページに戻る テキストを「トークン」(単語)に 分割し、これを位置などを配慮した ベクトル(数値)に変換。 文脈を考慮(アテンション)しつ つ、モデルに学習させる。結果はベ クトル値としてネットワークの各層 に保存される。 モデルの訓練 生成AIの仕組み
CLM(次の単語を予測する)方法で 学習する 事前学習時 前の文脈だけを見て、次と合致する かで正解を決めて学習していく。 「吾輩は猫で」「ある」 プロンプトが初期入力となり、次の 単語を繰り返し予測生成する。 生成時 「あるは夏目漱石の作品として有名 である。漱石は明治時代の文豪とし て、森鴎外などと並び称される。」 「吾輩は猫で」 decoder のみの transformer 4
議題のページに戻る 生成AIの仕組み 5
議題のページに戻る 生成AIの仕組み 6
生成AIの仕組み GPT-4o(OpenAI)……万能で、ファイルやURLを元に答える機能があ り、絵を描いたり、ファイルを作成したりすることもできる。 Gemini 1.5 pro(Google)……非常に長大な文書をプロンプトに入れ て、それについての解説などをさせることができる。 Claude 3.5 Sonnet(Anthropic)……現在最高性能。読む者の感情に
訴えるような文書を作るのが得意。図が上手。 7
生成AIの仕組み 8
生成AIの仕組み 9 Q.源氏物語の大島本と青表紙本との関係について説明してください。 A. 源氏物語の大島本と青表紙本の関係について、簡潔に説明いたします。 大島本と青表紙本は、共に源氏物語の重要な写本系統です。 1青表紙本: 藤原定家が校訂した本で、現存する源氏物語の写本の中で最も広く流布しています。 平安時代末期から鎌倉時代初期に成立したとされています。 2大島本:
鎌倉時代中期に成立したとされる写本系統です。 青表紙本とは異なる本文を持っています。
内容 生成AIとは 1. 単語・文のベクトル 2. 和歌の歌風の研究 3. 引き歌の研究 4. 今後の課題
5. 10
埋め込みベクトルの 考え方1 議題のページに戻る 高い 長い 登る 流れる 頂上 橋 山 [ 1 0 1 0 1 0 ]
川 [ 0 1 0 1 0 1 ] 山 [101010] 川 [010101] (6次元の共起行列による ベクトル表現) 丘 [101000 ] 「川」より「山」に近い。 実質的に意味を示している。 11
単語ベクトルと 文ベクトル 各トークンそのものあるいは、その 合成されたベクトル 単語ベクトル 文を構成するトークンのベ クトルの平均値など 文ベクトル 議題のページに戻る 12
議題のページに戻る OpenAIの提供する 埋め込みベクトル OpenAIのクラウド 単語やセンテンス 埋め込みベクトル 1536次元 (API) text-embedding-ada-001 13
ベクトルの利用 単語の埋め込みベクトルは次元圧縮をし て、ベクトルの遠近関係を見ることができ る。多くは主成分分析で2次元にする 14
単語ベクトルの分析(動物の特徴) 15
ベクトルの利用 単語の埋め込みベクトルは次元圧縮をし て、ベクトルの遠近関係を見ることがで きたが、文ベクトルにも同じようなこと が可能である。文と文との近さを測り、 マッピングすることもできる。 16
文ベクトルの利用 1,私はとても猫が大好きです。 2,私はとても犬が大好きです。 3,吾輩は猫である。 4,我輩は犬である。 5,あなたはバナナを食べています。 6,バナナは熱帯地方で栽培されています。 17
文ベクトルの利用 18
文ベクトルによる文章の解析 単語ベクトルと同じように、文ベクトルもその意味を 反映するので、ひとつの文章内の文ベクトルを主成分 分析することで、その文章の中で、どのような文が、 中核的な構造を持っているかを調べることができる。 それは、すなわち、そのテキストの「主題」と言って もよい。 19
内容 生成AIとは 1. 単語・文のベクトル 2. 和歌の歌風の研究 3. 引き歌の研究 4. 今後の課題
5. 20
文ベクトルによる古今集の解析 21
文ベクトルによる古今集の解析 第1次元・上位・人間の感情 (Rank 1): 人を思ふ心は我にあらねばや身のまどふだに知られざるらむ (Rank 2): 思ひけむ人をぞともに思はましまさしやむくいなかりけりやは (Rank 3):
身を捨ててゆきやしにけむ思ふよりほかなるものは心なりけり 第1次元・下位・自然の風景 (Rank 1): 秋ちかう野はなりにけり白露の置ける草葉も色かはりゆく (Rank 2): 秋の月山辺さやかに照らせるは落つる紅葉のかずを見よとか (Rank 3): 秋風の吹きと吹きぬる武蔵野はなべて草葉の色かはりけり 22
文ベクトルによる古今集の解析 第2次元・上位・聴覚の美=鳥 (Rank 1): まかねふく吉備の中山帯にせる細谷川の音のさやけさ (Rank 2): 郭公声もきこえず山彦は外に鳴く音をこたへやはせぬ (Rank 3):
しほの山さしでの磯にすむ千鳥君が御代をば八千代とぞ鳴く 第2次元・下位・視覚の美=花 (Rank 1): 春ごとに花のさかりはありなめどあひ見むことは命なりけり (Rank 2): 色見えで移ろふものは世の中の人の心の花にぞありける (Rank 3): 花見れば心さへにぞ移りける色にはいでじ人もこそ知れ 23 世の中にある人・・・見るもの聞くものにつけて、言ひ出せるなり(古今集・仮名序)
文ベクトルによる古今集の解析 鳥 | | 景物 --------+--------- 人事 | |
花 「人事」と「景物」、そして「鳥」と「花」が『古今集』の主要な意味構造 の軸となっていることが、埋め込みベクトルで実証できる。これ自体は古典 研究の常識だが、AIがそれを「読めている」ことは驚嘆に値する。 「花鳥風月」というが、「花・月」が視覚、「鳥・風」が聴覚であることも ここからわかる。また、これは実は漢詩の影響であることも実証できる。 24
百人秀歌の解析 25 (第1次元・上位)= 人事 X-axis Max (Rank 1): あはれともいふべき人は思ほえで身のいたづらになりぬべきかな X-axis Max
(Rank 2): 忘らるる身をば思はず誓ひてし人の命の惜しくもあるかな X-axis Max (Rank 3): 今はただ思ひ絶えなむとばかりを人づてならでいふよしもがな X-axis Max (Rank 4): 君がため惜しからざりし命さへ長くもがなと思ひぬるかな X-axis Max (Rank 5): 逢ふことの絶えてしなくはなかなかに人をも身をも恨みざらまし (第1次元・下位)= 景物 X-axis Min (Rank 1): 嵐吹く三室の山のもみぢ葉は竜田の川の錦なりけり X-axis Min (Rank 2): 夕されば門田の稲葉おとづれて葦のまろ屋に秋風ぞ吹く X-axis Min (Rank 3): 村雨の露もまだひぬ槙の葉に霧立ちのぼる秋の夕暮れ X-axis Min (Rank 4): 春すぎて夏来にけらし白妙の衣ほすてふ天の香具山 X-axis Min (Rank 5): 白露に風の吹きしく秋の野は貫きとめぬ玉ぞ散りける
百人秀歌の解析 26 (第2次元・上位)= 夜(夕) Y-axis Max (Rank 1): 夏の夜はまだ宵ながら明けぬるを雲のいづくに月宿るらむ Y-axis Max
(Rank 2): 今来んといひしばかりに長月の有明の月を待ち出でつるかな Y-axis Max (Rank 3): 心にもあらで憂き世に長らへば恋しかるべき夜半の月かな Y-axis Max (Rank 4): やすらはで寝なましものをさ夜ふけてかたぶくまでの月を見しかな Y-axis Max (Rank 5): 夜もすがらもの思ふころは明けやらぬ閨のひまさへつれなかりけり (第2次元・下位)= 水 Y-axis Min (Rank 1): わたの原八十島かけて漕ぎいでぬと人にはつげよ海人の釣舟 Y-axis Min (Rank 2): ちはやぶる神代も聞かず竜田川からくれなゐに水くくるとは Y-axis Min (Rank 3): 見せばやな雄島の海人の袖だにも濡れにぞ濡れし色は変らず Y-axis Min (Rank 4): 我が袖は潮干に見えぬ沖の石の人こそ知らねかわく間もなし Y-axis Min (Rank 5): 契りきなかたみに袖を絞りつつ末の松山波越さじとは
27 『百人秀歌』の埋め込みベクトル(XY軸) 夜 | | 景物 -----+-------人事
| | 水 山 | | 景物-----+-------人事 | | 海 百人秀歌 参考・万葉集 来ぬ人を 松帆の浦の 夕凪に 焼くやもしほの 身もこがれつつ(百人秀歌・藤原定家) (「夜」と「水」の両要素を含む歌) 見渡せば花も紅葉もなかりけり浦の苫屋の秋の夕暮(新古今・定家)
内容 生成AIとは 1. 単語・文のベクトル 2. 和歌の歌風の研究 3. 引き歌の研究 4. 今後の課題
5. 28
『源氏物語』の引き歌の解析 ネットミーム「でも、幸せならOKです。」 「ミーム」は、リチャード・ドーキンスの概念。文化遺伝子。 29
ミーム=引き歌(それとはわからない形での和歌の引用) 「短める命待つ間も,つらき御心は見えぬべければ」(短く見えるこの人生 の間でも,つらいお気持ちが見えてしまうので) (源氏物語・柏木) 「ありはてぬ命待つ間のほどばかり憂きこと繁く思はずもがな」(限りある 人生の間くらいは,嫌なことをあまり考えたくないものだな) (古今集・雑下・平貞文) 『源氏物語』の引き歌の解析 30 引き歌(「命待つ間」=人生)
(ベクトル検索) (古今集原文) 1, 年のうちに春は来にけりひととせを去年とやいはむ今年と やいはむ 2, 袖ひちてむすびし水のこほれるを春立つけふの風やとくら む (源氏物語全文) 1,
いづれの御時にか女御更衣あまたさぶらひたまひける中に いとやむごと なき際にはあらぬがすぐれて時めきたまふありけ り 2, はじめより我はと思ひあがりたまへる御方々めざましきも のにおとしめ そねみたまふ それぞれ文ベクトルに変換して、ベクトル値の近いものの検索を行う。 『源氏物語』の引き歌の解析 31
(近傍検索の結果+一致文字列) 13, 花の香を風のたよりにたぐへてぞ鶯さそふしるべにはやる 〇ゆるるかにうち吹く風にえならず匂ひたる御簾の内の薫 りも吹きあはせ て鶯さそふつまにしつべくいみじき殿のあたり のにほひなり(若菜下) 〇つとめてこの君のまかづるになほざりなるやうにて花の香にさそはれぬべ き身なりせば風のたよりを過ぐさましやはさ てなほ今は翁どもにさかしら
せさせで忍びやかにとかへすがへすのたまひてこの君も東のをばやむごとな く睦ましう思ひましたり(紅梅) 『源氏物語』の引き歌の解析 32
(近傍検索の結果+一致文字列) 13, 花の香を風のたよりにたぐへてぞ鶯さそふしるべにはやる 〇ゆるるかにうち吹く風にえならず匂ひたる御簾の内の薫 りも吹きあはせ て鶯さそふつまにしつべくいみじき殿のあたり のにほひなり(若菜下) 〇つとめてこの君のまかづるになほざりなるやうにて花の香にさそはれぬべ き身なりせば風のたよりを過ぐさましやはさ てなほ今は翁どもにさかしら
せさせで忍びやかにとかへすがへすのたまひてこの君も東のをばやむごとな く睦ましう思ひましたり(紅梅) 『源氏物語』の引き歌の解析 32
内容 生成AIとは 1. 単語・文のベクトル 2. 和歌の歌風の研究 3. 引き歌の研究 4. 今後の課題
5. 34
近代小説の解析(坊ちゃん) 35 X-axis Max (Rank 1): 本当に人間ほどあてにならないものはない X-axis Max (Rank
2): 議論のいい人が善人とはきまらない X-axis Max (Rank 3): いくら人間が卑怯だって、こんなに卑怯に出来るものじゃない X-axis Max (Rank 4): あんまり喜んでもいないでしょういえ、お世辞じゃない X-axis Max (Rank 5): 面白くもない ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー X-axis Min (Rank 1): 山嵐の踵を踏んであとからすぐ現場へ馳けつけた X-axis Min (Rank 2): その晩母が山城屋に詫びに行ったついでに袷の片袖も取り返して 来た X-axis Min (Rank 3): 控所へ帰って来たら、山嵐がどうだいと聞いた X-axis Min (Rank 4): お婆さん、東京へ行って奥さんを連れてくるんだと答えて勘定を 済まして、すぐ汽車へ乗って浜へ来て港屋へ着くと、山嵐は二階で寝ていた X-axis Min (Rank 5): 山嵐はおい君どこに宿ってるか、山城屋か、うん、今に行って相 談すると云い残して白墨を持って教場へ出て行った
近代小説の解析(走れメロス) 36 X-axis Max (Rank 1): メロスは腕に唸りをつけてセリヌンティウスの頬を殴った X-axis Max (Rank
2): メロスは激怒した X-axis Max (Rank 3): メロスは、王の前に引き出された X-axis Max (Rank 4): メロスは、ざんぶと流れに飛び込み、百匹の大蛇のようにの た打ち荒れ狂う浪を相手に、必死の闘争を開始した X-axis Max (Rank 5): メロスは口惜しく、地団駄踏んだ ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー X-axis Min (Rank 1): 私は、信じられている X-axis Min (Rank 2): 君だけは私を信じてくれるにちがい無い X-axis Min (Rank 3): どうでも、いいのだ X-axis Min (Rank 4): ああ、待っているだろう X-axis Min (Rank 5): おまえに言いたいのは、それだけだ
近代小説の解析 37 『坊ちゃん』(漱石)も『走れメロス』(太宰治) の場合も、和歌集と同様な分析をすることで、X軸 は、「1人称者からの視点か、三人称者からの視点 か」という区別を反映していることがわかる。 この区別は、日本の現代小説の基本構造となってい るようだ。(まだ今後の調査が必要) また、古典和歌の「人事ー景物」にも通じる。
その先へ 生成AIは、これらの内部表現を用い て文を生成しているが、自覚的に利 用できるわけではない。 現状、AIの能力の全部を引 き出せていない 言語ごとの意味・文法・語用論な ど、多くの情報が含まれているが、 大半は不明のまま。 高次元ベクトルの不思議
AIと共同で研究を行うことで、さらに高度な応 用が可能になると思われる。漢詩の「典故」に j相当するもの。 AIとの協業による研究 38 その先へ
その先へ AIとの協業による解明 39 (連絡先)
[email protected]
近藤泰弘 ご静聴ありがとう ございました!