Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
『百人一首』の歌風は何か?
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yasuhiro Kondo
March 10, 2024
Education
210
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
『百人一首』の歌風は何か?
Yasuhiro Kondo
March 10, 2024
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
日本語史から見た聖書の日本語訳
yhkondo
0
22
コンピュータ分析から見た主語
yhkondo
2
230
AIによる言語資源の利用法ー辞書データを中心にー
yhkondo
0
64
JOS2025国立国会図書館デジタルコレクションのOCRデータからの復元
yhkondo
5
1.2k
大規模言語モデル(LLM)について人文学研究者が知っておきたいこと
yhkondo
0
170
国立国語研究所通時コーパスシンポジウム2025
yhkondo
0
370
AIによる古典語・古典文学研究の方法について
yhkondo
0
1.1k
『源氏物語』の引き歌をベクトル検索によって検出する方法
yhkondo
0
200
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
120
Other Decks in Education
See All in Education
LinkedIn
matleenalaakso
0
4.4k
View Manipulation and Reduction - Lecture 9 - Information Visualisation (4019538FNR)
signer
PRO
1
2.7k
SARA Annual Report 2025-26
sara2023
1
360
Case Studies and Future Research - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
170
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
1
3.1k
Soluciones al examen de Geografía 2026. JUNIO (Convocatoria Ordinaria)
juanmartin2026
0
3.9k
AWS Certified Generative AI Developer - Professional Beta 不合格体験記
amarelo_n24
1
350
Laura Wilson - The Quarterly PR Pivot
laurawilsonbseo1
1
350
JAWS-UG初心者支部#81 GWにEduJAWSと何か作ろうもくもく会!
otsuki
0
130
Lectura 2 (PIT : Python Basico)
robintux
0
360
AIには考えられないことを考えられる人になるために
iqbocchi
1
150
!コスパよくインターンに受かる方法!
ruribou
1
270
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
Designing for Timeless Needs
cassininazir
1
250
It's Worth the Effort
3n
188
29k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
The Curse of the Amulet
leimatthew05
1
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
190
Abbi's Birthday
coloredviolet
2
8.1k
Transcript
「通時コーパス」シンポジウム2024 2024. 3.10 オンライン 近藤泰弘(青学大) 『百人一首』の歌風は何か? ーベクトル分析による研究ー 1
埋め込みベクトルとは? Word2vecとLMとの差 文ベクトルの研究 これまでの研究 百人一首の歌風 今後の課題 01 02 03 04
05 06 目次 2
CLM(次の単語を予測する)方法で 学習する 事前学習時 テキストを「トークン」(単語)に 分割し、これを位置などを配慮した ベクトル(数値)に変換。 文脈を考慮(アテンション)しつ つ、モデルに学習させる。結果はベ クトル値としてネットワークの各層 に保存される。
モデルの訓練 せ 前の文脈だけを見て、次と合致する かで正解を決めて学習していく。 「吾輩は猫で」「ある」 プロンプトが初期入力となり、次の 単語を繰り返し予測生成する。 生成時 「あるは夏目漱石の作品として有名 である。漱石は明治時代の文豪とし て、森鴎外などと並び称される。」 「吾輩は猫で」 生成AIの仕組みと埋め込みベクトル ある層のベクトルだけ抜き 出して利用する 3
テキストを「トークン」(単語)に 分割し、これを位置などを配慮した ベクトル(数値)に変換。 文脈を考慮(アテンション)しつ つ、モデルに学習させる。結果はベ クトル値としてネットワークの各層 に保存される。 モデルの訓練 せ 生成AIの仕組みと埋め込みベクトル
ある層(最終層など)のベ クトルだけ抜き出して利用 する。 各トークンのベクトル=単 語ベクトル センテンス全体の単語ベク トルの平均など=センテン スベクトル(文ベクトル) 4
事前学習として、大規模なコー パス等を学習。その情報によっ て、モデルが形成され、ベクト ルを得ることができる。 言語モデルの事前学習 せ Word2vecとLM(BERTやLLM)のベクトルの違い 分析対象のデータから、入力層ー出力層に正しく 対応するように学習させる。真ん中の隠れ層に単 語ベクトルができる
対象テキストのベクトルがダイレクトに 得られるが、共起情報に限られる。文ベ クトルはそのままでは得られない。 モデル作成のテキストと、研究対象は別の もの。ベクトル情報の中身は豊富。 文ベクトルも得られる。 5
せ Word2vecとLM(BERTやLLM)のベクトルの違い word2vecのベクトルは、対象テキスト中にある単 語ベクトルを共起情報から得たもの。それ以外の単 語の情報もないし、同音異義語の区別もできない。 意味の加算・減算ができる。通時研究がしにくい。 BERTやLLMのベクトルは大規模テキストの事前学 習により、文脈情報などを含めてベクトル化されて いるため、文ベクトルにも用いることができる。ま た、多言語対照や通時研究にも利用できる。
6
せ Word2vecとLM(BERTやLLM)のベクトルの違い 研究対象テキスト 研究対象テキスト 大規模テキスト モデル モデル 単語ベクトルを得る 単語ベクトル・文ベ クトルを得る
word2vec BERT/LLM 7
せ 文ベクトルを生成するための工夫 BERTの場合は、SentenceBERTなど、ファインチュ ーニングで、類似文のペアを学習させ、文ベクトル の性能を向上させている。 LLMの場合も、OpenAIのものなど、おそらく、文 ペアのファインチューニング(SimCSEなど)も施 されているものと思われるが、詳細は明らかにされ ていない。山田育矢『大規模言語モデル入門』 (2023・技術評論社)
8
せ 研究手法:和歌を文と考え、文ベクトルを生成 今回は、OpenAI のLLM の提供するtext-embedding-ada-002 およ び最新のtext-embedding-3-large というモデルを用いる。 OpenAI のクラウドからAPI
としてアクセスできる。それぞれ1536 次 元及び3072 次元のベクトルが得られる。GPT3 あるいは3.5 相当の数 10 ~数100 億パラメタモデルを利用しているものと思われる。実質的 にChatGPT の意味辞書(の一部)と等価であるとみなすことができ る。30 カ国語以上の言語で同時学習している。また、転移学習のた めか、日本古典語の理解力もかなり持っている。 9
せ OpenAIのエンべディングAPIの使い方(新型) url = "https://api.openai.com/v1/embeddings" headers = { "Content-Type": "application/json",
"Authorization": f"Bearer {openai.api_key}" } model_name = "text-embedding-3-large" data = { "input" : sample_text, "model" : model_name, "dimensions" : 3072 } response = requests.post(url, headers=headers, json=data) response_data = response.json() 10
せ 和歌を文と考え、文ベクトルを生成 OpenAI の埋め込みベクトル embedding": [-0.0017322878120467067, -0.01955992728471756, 0.01636701636016369, 0.007083430420607328, 0.005423251539468765,
0.012832009233534336, -0.011832548305392265, -0.01664874516427517, -0.018594004213809967, -0.013361925259232521, 0.014354678802192211, 0.005547345615923405, -0.009840333834290504, 0.009766547940671444, -0.0065032062120735645, -0.01993556320667267, 0.024657849222421646, -0.01984165422618389, , 0.011309340596199036, -0.0325193852186203, 0.017292693257331848, (以下略) このままでは、どの次元に何があるかがわからない。word2vecのものとは異な り、加算・減算もできない。なお、正規化されているのでノルムは意味がない。 11
せ 文ベクトルの状態観察の方法 PCA(主成分分析)によって、高次元のベクトルを次元削減し て、2次元にすることで、文ベクトルのうち、もっとも重要な 特徴が抽出可能。 まずX軸(第1次元・横軸)にもっとも重要な点が現れ、Y軸 (第2次元・縦軸)には、次に重要な差異が現れてくると考え られる。 まず、散布図で概略を調査してみる。 12
せ 『古今集』のベクトルの状態観察 13
せ 『古今集』のベクトルの状態観察 (第1次元・上位)= 人事 (Rank 1): 人を思ふ心は我にあらねばや身のまどふだに知られざるらむ (Rank 2): 思ひけむ人をぞともに思はましまさしやむくいなかりけりやは (Rank
3): 身を捨ててゆきやしにけむ思ふよりほかなるものは心なりけり (第1次元・下位)= 景物 (Rank 1): 秋ちかう野はなりにけり白露の置ける草葉も色かはりゆく (Rank 2): 秋の月山辺さやかに照らせるは落つる紅葉のかずを見よとか (Rank 3): 秋風の吹きと吹きぬる武蔵野はなべて草葉の色かはりけり 14
せ 『古今集』のベクトルの状態観察 (第2次元・上位)= 鳥など(聴覚) (Rank 1): まかねふく吉備の中山帯にせる細谷川の音のさやけさ (Rank 2): 郭公声もきこえず山彦は外に鳴く音をこたへやはせぬ (Rank
3): しほの山さしでの磯にすむ千鳥君が御代をば八千代とぞ鳴く (第2次元・下位)= 花など(視覚) (Rank 1): 春ごとに花のさかりはありなめどあひ見むことは命なりけり (Rank 2): 色見えで移ろふものは世の中の人の心の花にぞありける (Rank 3): 花見れば心さへにぞ移りける色にはいでじ人もこそ知れ 15 世の中にある人・・・見るもの聞くものにつけて、言ひ出せるなり(古今集・仮名序)
せ 『万葉集』『古今集』『後 撰集』のベクトル 鳥 | | 景物-----+------人事
| | 花 山 | | 景物-----+------人事 | | 花 山 | | 景物-----+------人事 | | 海 古今集 万葉集 後 撰集 (梨 壷の五人が編 纂) では、『百人一首』はどうなのか?定家のアンソロジーの軸とは? 16
せ 『百人一首』と『百人秀歌』 近年の研究では、『百人一首』は、定家 撰の『百人秀歌』を鎌倉中期以降に後 人が改編したものであるという説が有力である。(田渕句美子『百人一首 ー 編 纂が開く小宇宙』岩波新書・2024など)『一首』と『秀歌』では、4つの歌 が入れ替わり、配列もやや異なるため、ここでは厳密に『秀歌』による。 『百人秀歌』の最善本は、冷泉家時雨亭文庫蔵室町初期写本。全101首。ネッ ト上に、渋谷栄一氏による翻刻・翻字があるので、今回はその『百人秀歌』を
利用する(藤原定家の著作と平安朝古典籍の書写校勘に関する総合データベー ス) http://genjiemuseum.web.fc2.com/hyaku0.html 001,秋の田のかりほのいほの苫をあらみわが衣手は露に濡れつつ 002,春すぎて夏来にけらし白妙の衣ほすてふ天の香具山 003,あしひきの山鳥の尾のしだり尾の長々し夜をひとりかも寝ん 004,田子の浦にうち出でて見れば白妙の富士の高嶺に雪は降りつつ 005,かささぎの渡せる橋におく霜の白きを見れば夜ぞふけにける 17
せ 『百人秀歌』の埋め込みベクトル(X/Y軸) 18
せ 『百人秀歌』の埋め込みベクトル(X軸) (第1次元・上位)= 人事 X-axis Max (Rank 1): あはれともいふべき人は思ほえで身のいたづらになりぬべきかな X-axis Max
(Rank 2): 忘らるる身をば思はず誓ひてし人の命の惜しくもあるかな X-axis Max (Rank 3): 今はただ思ひ絶えなむとばかりを人づてならでいふよしもがな X-axis Max (Rank 4): 君がため惜しからざりし命さへ長くもがなと思ひぬるかな X-axis Max (Rank 5): 逢ふことの絶えてしなくはなかなかに人をも身をも恨みざらまし (第1次元・下位)= 景物 X-axis Min (Rank 1): 嵐吹く三室の山のもみぢ葉は竜田の川の錦なりけり X-axis Min (Rank 2): 夕されば門田の稲葉おとづれて 葦のまろ屋に秋風ぞ吹く X-axis Min (Rank 3): 村雨の露もまだひぬ槙の葉に霧立ちのぼる秋の夕暮れ X-axis Min (Rank 4): 春すぎて夏来にけらし白妙の衣ほすてふ天の香具山 X-axis Min (Rank 5): 白露に風の吹きしく秋の野は貫きとめぬ玉ぞ散りける 19
せ 『百人秀歌』の埋め込みベクトル(Y軸) (第2次元・上位)= 夜(夕) Y-axis Max (Rank 1): 夏の夜はまだ宵ながら明けぬるを雲のいづくに月宿るらむ Y-axis Max
(Rank 2): 今来んといひしばかりに長月の有明の月を待ち出でつるかな Y-axis Max (Rank 3): 心にもあらで憂き世に長らへば恋しかるべき夜半の月かな Y-axis Max (Rank 4): やすらはで寝なましものをさ夜ふけてかたぶくまでの月を見しかな Y-axis Max (Rank 5): 夜もすがらもの思ふころは明けやらぬ 閨のひまさへつれなかりけり (第2次元・下位)= 水 Y-axis Min (Rank 1): わたの原八十島かけて漕ぎいでぬと人にはつげよ海人の釣舟 Y-axis Min (Rank 2): ちはやぶる神代も聞かず竜田川からくれなゐに水くくるとは Y-axis Min (Rank 3): 見せばやな雄島の海人の袖だにも濡れにぞ濡れし色は変らず Y-axis Min (Rank 4): 我が袖は潮干に見えぬ沖の石の人こそ知らねかわく間もなし Y-axis Min (Rank 5): 契りきなかたみに袖を絞りつつ末の松山波越さじとは 20
せ 『百人秀歌』の埋め込みベクトル(XY軸) 夜 | | 景物 -----+-------人事
| | 水 百人秀歌 鳥 | | 景物-----+-------人事 | | 花 参考・古今集 来ぬ人を 松帆の浦の 夕凪に 焼くやもしほの 身もこがれつつ(百人秀歌/一 首・藤原定家)(「夜」と「水」の両要素を含む歌)。「新古今」「見渡せば花 も紅葉もなかりけり浦の苫屋の秋の夕暮」(定家)) 21
せ 文の埋め込みベクトルは文体分析に有望 今後、PCA以外の次元圧縮(ICA、NMF、t-SNE等)また、因子分析など別 の数量化などを用いて見ることを予定している。八代集の歌風の変化を総 合的に研究することが次の段階である。 (本研究は、通時コーパスプロジェクトの研究の一部である。また、日本語歴 史コーパスを用いている部分がある。) 22 近藤泰弘. 「和歌集の歌風の言語的差異の記述−大規模言語モデルによる
分析−」. (『日本語の研究』, 19(3)、2023年12月/noteに簡約版) 近藤泰弘「文の埋め込み表現による文体の研究ー夏目漱石のオープンデー タをもとにしてー」(計量国語学・34巻4号・2024年3月予定) 鴨川「大規模言語モデルによるEmbeddingsを用いた水樹奈々様の楽曲分 析(note・2024年3月9日)