Upgrade to Pro — share decks privately, control downloads, hide ads and more …

『百人一首』の歌風は何か?

 『百人一首』の歌風は何か?

Yasuhiro Kondo

March 10, 2024
Tweet

More Decks by Yasuhiro Kondo

Other Decks in Education

Transcript

  1. CLM(次の単語を予測する)方法で 学習する 事前学習時 テキストを「トークン」(単語)に 分割し、これを位置などを配慮した ベクトル(数値)に変換。 文脈を考慮(アテンション)しつ つ、モデルに学習させる。結果はベ クトル値としてネットワークの各層 に保存される。

    モデルの訓練 せ 前の文脈だけを見て、次と合致する かで正解を決めて学習していく。 「吾輩は猫で」「ある」 プロンプトが初期入力となり、次の 単語を繰り返し予測生成する。 生成時 「あるは夏目漱石の作品として有名 である。漱石は明治時代の文豪とし て、森鴎外などと並び称される。」 「吾輩は猫で」 生成AIの仕組みと埋め込みベクトル ある層のベクトルだけ抜き 出して利用する 3
  2. テキストを「トークン」(単語)に 分割し、これを位置などを配慮した ベクトル(数値)に変換。 文脈を考慮(アテンション)しつ つ、モデルに学習させる。結果はベ クトル値としてネットワークの各層 に保存される。 モデルの訓練 せ 生成AIの仕組みと埋め込みベクトル

    ある層(最終層など)のベ クトルだけ抜き出して利用 する。 各トークンのベクトル=単 語ベクトル センテンス全体の単語ベク トルの平均など=センテン スベクトル(文ベクトル) 4
  3. 事前学習として、大規模なコー パス等を学習。その情報によっ て、モデルが形成され、ベクト ルを得ることができる。 言語モデルの事前学習 せ Word2vecとLM(BERTやLLM)のベクトルの違い 分析対象のデータから、入力層ー出力層に正しく 対応するように学習させる。真ん中の隠れ層に単 語ベクトルができる

    対象テキストのベクトルがダイレクトに 得られるが、共起情報に限られる。文ベ クトルはそのままでは得られない。 モデル作成のテキストと、研究対象は別の もの。ベクトル情報の中身は豊富。 文ベクトルも得られる。 5
  4. せ 研究手法:和歌を文と考え、文ベクトルを生成 今回は、OpenAI のLLM の提供するtext-embedding-ada-002 およ び最新のtext-embedding-3-large というモデルを用いる。 OpenAI のクラウドからAPI

    としてアクセスできる。それぞれ1536 次 元及び3072 次元のベクトルが得られる。GPT3 あるいは3.5 相当の数 10 ~数100 億パラメタモデルを利用しているものと思われる。実質的 にChatGPT の意味辞書(の一部)と等価であるとみなすことができ る。30 カ国語以上の言語で同時学習している。また、転移学習のた めか、日本古典語の理解力もかなり持っている。 9
  5. せ OpenAIのエンべディングAPIの使い方(新型) url = "https://api.openai.com/v1/embeddings" headers = { "Content-Type": "application/json",

    "Authorization": f"Bearer {openai.api_key}" } model_name = "text-embedding-3-large" data = { "input" : sample_text, "model" : model_name, "dimensions" : 3072 } response = requests.post(url, headers=headers, json=data) response_data = response.json() 10
  6. せ 和歌を文と考え、文ベクトルを生成 OpenAI の埋め込みベクトル embedding": [-0.0017322878120467067, -0.01955992728471756, 0.01636701636016369, 0.007083430420607328, 0.005423251539468765,

    0.012832009233534336, -0.011832548305392265, -0.01664874516427517, -0.018594004213809967, -0.013361925259232521, 0.014354678802192211, 0.005547345615923405, -0.009840333834290504, 0.009766547940671444, -0.0065032062120735645, -0.01993556320667267, 0.024657849222421646, -0.01984165422618389, , 0.011309340596199036, -0.0325193852186203, 0.017292693257331848, (以下略) このままでは、どの次元に何があるかがわからない。word2vecのものとは異な り、加算・減算もできない。なお、正規化されているのでノルムは意味がない。 11
  7. せ 『古今集』のベクトルの状態観察 (第1次元・上位)= 人事 (Rank 1): 人を思ふ心は我にあらねばや身のまどふだに知られざるらむ (Rank 2): 思ひけむ人をぞともに思はましまさしやむくいなかりけりやは (Rank

    3): 身を捨ててゆきやしにけむ思ふよりほかなるものは心なりけり (第1次元・下位)= 景物 (Rank 1): 秋ちかう野はなりにけり白露の置ける草葉も色かはりゆく (Rank 2): 秋の月山辺さやかに照らせるは落つる紅葉のかずを見よとか (Rank 3): 秋風の吹きと吹きぬる武蔵野はなべて草葉の色かはりけり 14
  8. せ 『古今集』のベクトルの状態観察 (第2次元・上位)= 鳥など(聴覚) (Rank 1): まかねふく吉備の中山帯にせる細谷川の音のさやけさ (Rank 2): 郭公声もきこえず山彦は外に鳴く音をこたへやはせぬ (Rank

    3): しほの山さしでの磯にすむ千鳥君が御代をば八千代とぞ鳴く (第2次元・下位)= 花など(視覚) (Rank 1): 春ごとに花のさかりはありなめどあひ見むことは命なりけり (Rank 2): 色見えで移ろふものは世の中の人の心の花にぞありける (Rank 3): 花見れば心さへにぞ移りける色にはいでじ人もこそ知れ 15 世の中にある人・・・見るもの聞くものにつけて、言ひ出せるなり(古今集・仮名序)
  9. せ 『万葉集』『古今集』『後 撰集』のベクトル    鳥   | | 景物-----+------人事    

    | | 花    山   | | 景物-----+------人事     | | 花    山   | | 景物-----+------人事     | | 海 古今集 万葉集 後 撰集 (梨 壷の五人が編 纂) では、『百人一首』はどうなのか?定家のアンソロジーの軸とは? 16
  10. せ 『百人一首』と『百人秀歌』 近年の研究では、『百人一首』は、定家 撰の『百人秀歌』を鎌倉中期以降に後 人が改編したものであるという説が有力である。(田渕句美子『百人一首 ー 編 纂が開く小宇宙』岩波新書・2024など)『一首』と『秀歌』では、4つの歌 が入れ替わり、配列もやや異なるため、ここでは厳密に『秀歌』による。 『百人秀歌』の最善本は、冷泉家時雨亭文庫蔵室町初期写本。全101首。ネッ ト上に、渋谷栄一氏による翻刻・翻字があるので、今回はその『百人秀歌』を

    利用する(藤原定家の著作と平安朝古典籍の書写校勘に関する総合データベー ス) http://genjiemuseum.web.fc2.com/hyaku0.html 001,秋の田のかりほのいほの苫をあらみわが衣手は露に濡れつつ 002,春すぎて夏来にけらし白妙の衣ほすてふ天の香具山 003,あしひきの山鳥の尾のしだり尾の長々し夜をひとりかも寝ん 004,田子の浦にうち出でて見れば白妙の富士の高嶺に雪は降りつつ 005,かささぎの渡せる橋におく霜の白きを見れば夜ぞふけにける 17
  11. せ 『百人秀歌』の埋め込みベクトル(X軸) (第1次元・上位)= 人事 X-axis Max (Rank 1): あはれともいふべき人は思ほえで身のいたづらになりぬべきかな X-axis Max

    (Rank 2): 忘らるる身をば思はず誓ひてし人の命の惜しくもあるかな X-axis Max (Rank 3): 今はただ思ひ絶えなむとばかりを人づてならでいふよしもがな X-axis Max (Rank 4): 君がため惜しからざりし命さへ長くもがなと思ひぬるかな X-axis Max (Rank 5): 逢ふことの絶えてしなくはなかなかに人をも身をも恨みざらまし (第1次元・下位)= 景物 X-axis Min (Rank 1): 嵐吹く三室の山のもみぢ葉は竜田の川の錦なりけり X-axis Min (Rank 2): 夕されば門田の稲葉おとづれて 葦のまろ屋に秋風ぞ吹く X-axis Min (Rank 3): 村雨の露もまだひぬ槙の葉に霧立ちのぼる秋の夕暮れ X-axis Min (Rank 4): 春すぎて夏来にけらし白妙の衣ほすてふ天の香具山 X-axis Min (Rank 5): 白露に風の吹きしく秋の野は貫きとめぬ玉ぞ散りける 19
  12. せ 『百人秀歌』の埋め込みベクトル(Y軸) (第2次元・上位)= 夜(夕) Y-axis Max (Rank 1): 夏の夜はまだ宵ながら明けぬるを雲のいづくに月宿るらむ Y-axis Max

    (Rank 2): 今来んといひしばかりに長月の有明の月を待ち出でつるかな Y-axis Max (Rank 3): 心にもあらで憂き世に長らへば恋しかるべき夜半の月かな Y-axis Max (Rank 4): やすらはで寝なましものをさ夜ふけてかたぶくまでの月を見しかな Y-axis Max (Rank 5): 夜もすがらもの思ふころは明けやらぬ 閨のひまさへつれなかりけり (第2次元・下位)= 水 Y-axis Min (Rank 1): わたの原八十島かけて漕ぎいでぬと人にはつげよ海人の釣舟 Y-axis Min (Rank 2): ちはやぶる神代も聞かず竜田川からくれなゐに水くくるとは Y-axis Min (Rank 3): 見せばやな雄島の海人の袖だにも濡れにぞ濡れし色は変らず Y-axis Min (Rank 4): 我が袖は潮干に見えぬ沖の石の人こそ知らねかわく間もなし Y-axis Min (Rank 5): 契りきなかたみに袖を絞りつつ末の松山波越さじとは 20
  13. せ 『百人秀歌』の埋め込みベクトル(XY軸)      夜    |   | 景物 -----+-------人事

          |   |   水         百人秀歌    鳥   | | 景物-----+-------人事     | | 花 参考・古今集 来ぬ人を 松帆の浦の 夕凪に 焼くやもしほの 身もこがれつつ(百人秀歌/一 首・藤原定家)(「夜」と「水」の両要素を含む歌)。「新古今」「見渡せば花 も紅葉もなかりけり浦の苫屋の秋の夕暮」(定家)) 21
  14. せ 文の埋め込みベクトルは文体分析に有望 今後、PCA以外の次元圧縮(ICA、NMF、t-SNE等)また、因子分析など別 の数量化などを用いて見ることを予定している。八代集の歌風の変化を総 合的に研究することが次の段階である。 (本研究は、通時コーパスプロジェクトの研究の一部である。また、日本語歴 史コーパスを用いている部分がある。) 22 近藤泰弘. 「和歌集の歌風の言語的差異の記述−大規模言語モデルによる

    分析−」. (『日本語の研究』, 19(3)、2023年12月/noteに簡約版) 近藤泰弘「文の埋め込み表現による文体の研究ー夏目漱石のオープンデー タをもとにしてー」(計量国語学・34巻4号・2024年3月予定) 鴨川「大規模言語モデルによるEmbeddingsを用いた水樹奈々様の楽曲分 析(note・2024年3月9日)