Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルの地図:確率分布と 情報幾何による類似性の可視化

言語モデルの地図:確率分布と 情報幾何による類似性の可視化

NLPコロキウム
2025/08/27 (Wed) 12:00 (JST)
下平英寿 / Hidetoshi Shimodaira (京都大学)

ACL 2025でOutstanding Paper Awardを受賞した論文「Mapping 1,000+ Language Models via the Log-Likelihood Vector」に関連する話題を紹介します.本研究では,対数尤度ベクトルを用いて1,000を超える言語モデルを確率分布空間にマッピングし,情報幾何の枠組みのもとでそのテキスト生成の特性をKLダイバージェンスにより定量化しました.一般に,生成AIをテキストや画像といった多様なコンテンツを出力する確率分布とみなすと,このようなマッピングによりモデル間の類似性を精密に測定でき,性能予測や学習過程の分析に応用できます.高性能な言語モデルのオープンソース化が進み,利用者がモデルを個別に調整する時代が近い将来到来すれば,本研究のような多数のモデルの特性を体系的に把握するための評価技術の重要性は一層高まると考えられます.

Avatar for Hidetoshi Shimodaira

Hidetoshi Shimodaira

August 27, 2025
Tweet

Other Decks in Research

Transcript

  1. 言語モデルの地図:確率分布と情報幾何による類似性の可視化 2 2025/08/27 (Wed) 12:00 (JST) 下平英寿 / Hidetoshi Shimodaira

    (京都大学) 京都大学大学院情報学研究科教授.1995年東京大学大学院工学系研究科計数工学専攻博士課程修了. 統計数理研究所助手,東京工業大学准教授,大阪大学教授等を経て,2017年より現職.理化学研究 所革新知能統合研究センター客員研究員を兼任. ACL 2025でOutstanding Paper Awardを受賞した論文「Mapping 1,000+ Language Models via the Log- Likelihood Vector」に関連する話題を紹介します.本研究では,対数尤度ベクトルを用いて1,000を超 える言語モデルを確率分布空間にマッピングし,情報幾何の枠組みのもとでそのテキスト生成の特 性をKLダイバージェンスにより定量化しました.一般に,生成AIをテキストや画像といった多様な コンテンツを出力する確率分布とみなすと,このようなマッピングによりモデル間の類似性を精密 に測定でき,性能予測や学習過程の分析に応用できます.高性能な言語モデルのオープンソース化 が進み,利用者がモデルを個別に調整する時代が近い将来到来すれば,本研究のような多数のモデ ルの特性を体系的に把握するための評価技術の重要性は一層高まると考えられます. https://nlp-colloquium-jp.github.io/schedule/2025-08-27_hidetoshi_shimodaira/
  2. Mapping 1,000+ Language Models via the Log-Likelihood Vector 3 Momose

    Oyama Hiroaki Yamagiwa Yusuke Takase Hidetoshi Shimodaira The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) Outstanding Paper Award https://aclanthology.org/2025.acl-long.1584/
  3. モデル地図:対数尤度ベクトルでモデル座標を計算 4 Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira

    (arXiv:2502.16173, ACL2025 main), Mapping 1,000+ Language Models via the Log-Likelihood Vector Mistral派生モデル達 Meta, Google, DeepSeek等の コード関連のモデル達 Llama2派生モデル達 <latexit sha1_base64="fkD6Lk7ttAF2B5GjmoesBZegOxA=">AAACn3ichVHLSsNAFD3Gd31V3YhuokVRKGVSREUQRAVdSX3UByohiaOGpklIpkUtgmt/wIUrBQVxoTs/wI0/4MJPEJcKblx4kwZERb3DzJw5c8+dOVzdtUxfMPZYIVVWVdfU1tXHGhqbmlvirW1LvlPwDJ41HMvxVnTN55Zp86wwhcVXXI9red3iy3puMrhfLnLPNx17Uey5fCOvbdvmlmlogig13jklj8n9u6qSlHfVdFJe33SEH+DZATWeYCkWhvwTKBFIIIqME7/FOjbhwEABeXDYEIQtaPBprEEBg0vcBkrEeYTM8J7jADHSFiiLU4ZGbI7WbTqtRaxN56CmH6oNesWi6ZFSRi97YJfshd2zK/bE3n+tVQprBH/Zo10va7mrthx1LLz9q8rTLrDzqfpDoVP2354EtjASejHJmxsygUujXL+4f/yyMDrfW+pjZ+yZ/J2yR3ZHDu3iq3E+x+dPEKMGKd/b8RMspVPKUGpobjAxPhG1qg5d6EE/9WMY45hBBll69xAXuMaN1C1NS7NSppwqVUSadnwJafUDwdeX7w==</latexit> D = (x1, x2, . . . , xN ) Pileコーパスからサンプリングしたテキストチャンクの集合、N=10,000, 各1024バイト 言語モデル pi の対数尤度ベクトル: <latexit sha1_base64="j4IPegDORDMJsLRhLwDpFMpd5xw=">AAACnXichVHLLgRBFD3ae7wGG4mFiQmxkMltEcRKiMRCxGuMxEinuxU6ero73TWT0Bkf4AcsrAgLEbY+wMYPWPgEsSSxsXCnpxNBcCtVderUPbfq5BqebQWS6LFGqa2rb2hsak60tLa1dyQ7u9YCt+ibImu6tuuvG3ogbMsRWWlJW6x7vtALhi1yxt5M5T5XEn5guc6q3PfEZkHfcaxty9QlU1qyJx96mjqct7dcGQx7WqiSOlFO5ctaMk0ZiiL1E6gxSCOORTd5izy24MJEEQUIOJCMbegIeGxABcFjbhMhcz4jK7oXKCPB2iJnCc7Qmd3jdYdPGzHr8LlSM4jUJr9i8/RZmcIAPdAlvdA9XdETvf9aK4xqVP6yz7tR1QpP6zjqWXn7V1XgXWL3U/WHwuDsvz1JbGMi8mKxNy9iKi7Nav3SwfHLyuTyQDhIZ/TM/k7pke7YoVN6NS+WxPIJEtwg9Xs7foK1kYw6lhlbGk1PTcetakIv+jHE/RjHFOawiCy/e4hzXONG6VNmlXlloZqq1MSabnwJJfcBlSKY1A==</latexit> {p1, . . . , p1018 } Hugging FaceのOpen LLM Leaderboard v1からダウンロード数上位の1000個のモデル + DeepSeek18個 • 生成確率が類似のモデルが近くに配置される • KLダイバージェンスで定量化される <latexit sha1_base64="yHQScgz0THPdYIU0akRUZw9yqok=">AAACyHichVFNaxNBGH6yfrTGj0a9FLwsDS0JlDBbShWhUMxFPIQ2NW2hW5ed7TQdOvvB7iQ1Lrn06B/w0FMFD8Ef4A/w4s1TwfwE8VjBi4e+2Sz4UazvMDPPPPM+78zDyyMlE83YsGBcuXrt+sTkjeLNW7fvTJXu3ttIwk7siZYXqjDe4m4ilAxES0utxFYUC9fnSmzyg/rofrMr4kSGwXPdi8SO77YDuSc9VxPllOo291NbKNV3pLlsVmwVts3IkZWXjlWdt9VuqJP538hGtWraMjBt39X7nKfN/ouGUyqzGsvCvAisHJSRx2pY+gAbuwjhoQMfAgE0YQUXCY1tWGCIiNtBSlxMSGb3An0USduhLEEZLrEHtLbptJ2zAZ1HNZNM7dErimZMShOz7JQN2Bn7xN6zr+znP2ulWY3RX3q087FWRM7U6+n1H/9V+bRr7P9SXaLglH25J409PMq8SPIWZczIpTeu33315mz9cXM2nWNv2Tfyd8KG7CM5DLrfvXdronmMIjXI+rsdF8HGQs1aqi2tLZZXnuStmsQDzKBC/XiIFTzFKlr07gCf8QVD45kRGYdGb5xqFHLNffwRxtE5KSqpYQ==</latexit> ωi = (log pi(x1), . . . , log pi(xN )) → RN <latexit sha1_base64="IUEvYfHBUuGGrIyKeH9MMQ4B0As=">AAACnHichVHLSsNAFD3GV62vqgsFQYJF0U2ZiqgIgqgLQYTW2ipYKUkc6+A0CUlarMUf8AdcuFJxIeraD3DjD7jwE8RlBTcuvE0DoqLeMJlzz9xzZw5Xt6VwPcaeGpTGpuaW1lBbuL2js6s70tObca2iY/C0YUnL2dQ1l0th8rQnPMk3bYdrBV3yDX1/sXa+UeKOKyxz3SvbfLug5U2xKwzNIyoX6c9yKXNi7GBcnVOz0sqrtp/lIlEWY36oP0E8AFEEkbAid8hiBxYMFFEAhwmPsIQGl74txMFgE7eNCnEOIeGfcxwhTNoiVXGq0Ijdp3+esq2ANSmv9XR9tUG3SFoOKVWMsEd2xarsgV2zZ/b+a6+K36P2ljLtel3L7Vz38UDq7V9VgXYPe5+qPxQ6Vf/tycMuZnwvgrzZPlNzadT7lw5PqqnZtZHKKDtnL+TvjD2xe3Joll6NyyRfO0WYBhT/Po6fIDMRi0/FppKT0fmFYFQhDGIYYzSPacxjGQmk/XsvcINbZUhZUlaU1Xqp0hBo+vAllMwHnJKX9Q==</latexit> ωi(x) = log pi(x) テキスト x におけるモデル pi の対数尤度
  4. 言語モデルでKLダイバージェンスを計算してみた 単位:bits / byte Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase,

    Hidetoshi Shimodaira (arXiv:2502.16173, ACL2025 main), Mapping 1,000+ Language Models via the Log-Likelihood Vector 5 <latexit sha1_base64="hfHw+BhTTXH9MiPZ6JygMd0YhTg=">AAACqnichVG7SgNBFD2u7/iK2gg2iyGioGEioiIIoo2lRuODRJbddRIHJ7vL7iaowR/QD7CwUrAQKytBSxt/wMJPEEsFGwtvNguiwXiHmTlz5p47c7iGI4XnM/bcoDQ2Nbe0trVHOjq7unuivX3rnl10TZ42bWm7m4bucSksnvaFL/mm43K9YEi+YewtVu43Stz1hG2t+QcO3y7oeUvkhKn7RGnReHZfaGXhHamzc2qWS6mJkX3NG1XH1ayhuyGlRWMswYJQa0EyBDGEsWxHb5HFDmyYKKIADgs+YQkdHo0MkmBwiNtGmTiXkAjuOY4QIW2Rsjhl6MTu0ZqnUyZkLTpXanqB2qRXJE2XlCri7IldsTf2yK7ZC/v8s1Y5qFH5ywHtRlXLHa3neGD1419VgXYfu9+qOgqDsut78pHDTOBFkDcnYCouzWr90uHp2+psKl4eZhfslfyds2f2QA6t0rt5ucJTZ4hQg5K/21EL1icSyanE1MpkbH4hbFUbBjGEEerHNOaxhGWk6d0T3OAO98qYklK2lEw1VWkINf34EcrOF2KFnb0=</latexit> ωis := εi(xs) → ¯ εi 対数尤度ベクトルの中心化 対数尤度の差の分散 <latexit sha1_base64="y29czHyna7yFbUGBPDLyJ1ORo0k=">AAACxnichVHLShxBFD3T0cRMYhx1E8imyWBQMJOaQTS40mQjGGR8jAq2abo7pZb2o+iuGTXtQNb5AReuEggS/AA/IBs3LlX8BHGpkE0W3ulpFCMxt6muc0/dc6sO15auiBRjpxntQUvrw0dtj7NPnrY/68h1ds1GQTV0eMUJ3CCct62Iu8LnFSWUy+dlyC3Pdvmcvfa+cT5X42EkAn9GbUq+6FnLvlgSjqWIMnOjxpZhe7GxIeqm0F/r18mqsfWx9GZCNywpw2BDL+lGv+FZaiX04vEP9V5pin5prvbpZi7PCiwJ/S4opiCPNMpBbh8GPiGAgyo8cPhQhF1YiOhbQBEMkrhFxMSFhERyzlFHlrRVquJUYRG7Rv9lyhZS1qe80TNK1A7d4tIKSamjhx2xn+yCHbA9dsb+/LNXnPRovGWTdrup5dLs+Pp8+vd/VR7tCis3qnsUNlXf70lhCW8TL4K8yYRpuHSa/Wufty+mh6d64lfsOzsnf9/YKftFDv3apfNjkk/tIEsDKv49jrtgtlQoDhYGJwfyI+/SUbXhBV6il+YxhBGMoYwK3buLQxzjRBvTfK2qrTdLtUyq6cat0L5cAcG9qUA=</latexit> →ωi ↑ ωj →2/N ↓ 2 KL(pi, pj)
  5. ネタ1:モデル信頼集合 統計的モデル選択におけるリサンプリングによる統計的信頼度の研究 下平 (1993)をきっかけにAIC等によるモデル選択のバラツキを考慮した信 頼 度 の 手 法 と

    理 論 を 統 計 学 の 専 門 誌 ( Annals of the Institute of Statistical Mathematics, Journal of Statistical Planning and Inference, Annals of Statistics)で発表し,分子進化学[1-3],遺伝子 発現解析[4]の階層クラスタリング等で標準的に利用される手法となった. [1] H. Shimodaira and M. Hasegawa. Multiple comparisons of log- likelihoods with applications to phylogenetic inference, Molecular Biology and Evolution, 16, 1114-1116, 1999.【被引用数 4664】 [2] H. Shimodaira and M. Hasegawa. CONSEL: for assessing the confidence of phylogenetic tree selection, Bioinformatics, 17, 1246-1247, 2001.【被引用数 2269】 [3] H. Shimodaira. An approximately unbiased test of phylogenetic tree selection, Systematic Biology, 51, 492-508, 2002. 【 被 引 用 数 2971】 [4]R. Suzuki, H. Shimodaira. pvclust: an R package for assessing the uncertainty in hierarchical clustering, Bioinformatics, 22, 1540-1542, 2006.【被引用数 2722】 めちゃバズった このネタは今日はトークしません 8 系統樹の確率を計算する統計手法として知られる • Shimodaira-Hasegawa test (SH test) • Multiscale Bootstrap Resampling (AU test) 自己紹介を少し
  6. 助手のころのネタ:共変量シフト (Covariate Shift) 9 学習時とテスト時でデータ分布が異なる設定(共変量シフト)の統計理論 この定式化とモデル選択の理論を与え[5],AI分野で「転移学習」の標準設定となる. [5] H. Shimodaira. Improving

    predictive inference under covariate shift by weighting the log-likelihood function, Journal of Statistical Planning and Inference, 90, 227-244, 2000.【被引用数 2530】 これも、めちゃバズった このネタも今日はトークしません 学習時の分布 テスト時の分布 • 学習時とテスト時で分布が変化する設定の考案 • 確率密度比で対数尤度を重み付けする手法の提案 • Covariate Shiftという単語をつくった その後の「◦◦シフト」という設定の元ネタ 自己紹介を少し
  7. ネタ2:モデル地図【今日のトークの話題】 まったく売れなかった Classics: Early Papers on Model Maps https://github.com/shimo-lab/modelmap/tree/main/classics 下平

    (1993) Shimodaira and Cao (1998), Shimodaira (2001) Shimodaira and Hasegawa (2005) Shimodaira and Terada (2019) 生成AIがバズってるいまこそ、役立つのでは??? 10 「確率分布の空間を見る」手法の提案 モデルの個性(特性)を定量化したい 回帰分析の変数選択 分子進化系統樹の検定 回帰分析の変数選択 分子進化系統樹の検定 分子進化系統樹のMCMC 自己紹介を少し
  8. 背景: 大量の言語モデルが存在 11 l Hugging Face (1) では約27万の言語モデルが公開されている (2). (1)

    https://huggingface.co/.画像の URL は https://huggingface.co/models?pipeline_tag=text-generation&sort=likes. (2) 2025/08/27 現在.言語モデルとして text-generation のタグで検索. likes でソート.※ タグをつけていない言語モデルも多くあると思われる.
  9. モチベーション: 言語モデルの類似関係 12 類似関係の活用例 l 学習データが似たモデル同士の類似度や性能を調べ,モデル開発の指針を得られる. l ファインチューニング後のモデルと元のモデルを比較し,学習による変化を把握する. l 自分のモデルが他者に不正利用されているかを検出する.

    言語モデルの類似関係を調べた既存研究 l [Zhu+2025] はパラメータの類似度を測定. l [Yax+2025] は入力文の応答から距離を計算. l [Zhou+2025] は中間表現の類似度を測定. l [Zhuang+2025] は問題を解けるかどうかで埋め込む. Zhu et al. Independence Tests for Language Models. Preprint 2025. Yax et al. PhyloLM: Inferring the phylogeny of large language models and predicting their performances in benchmarks. ICLR 2025. Zhou et al. Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models. COLING 2025. Zhuang et al. EmbedLLM: Learning Compact Representations of Large Language Models. ICLR 2025. より客観的にモデルの個性(特性)を定量化したい
  10. 言語モデルと対数尤度 <latexit sha1_base64="QiuPN/bxe+fX55e8+WZUmInduY0=">AAACiXichVG7SgNBFD1Z3/GRqI1gEwyR2IRZEZVUoo2lUZMIMYTdddQx+2J3E4zBH7CyE7VSsBA/wA+w8Qcs8gliGcHGwpvNgmgw3mFmzpy5584crmrrwvUYa4Sknt6+/oHBofDwyOhYJDo+kXOtiqPxrGbplrOjKi7XhcmznvB0vmM7XDFUnefV8lrrPl/ljissc9ur2bxoKAem2Bea4hGVs0sieTxXisZZivkR6wRyAOIIYsOKPmIXe7CgoQIDHCY8wjoUuDQKkMFgE1dEnTiHkPDvOU4RJm2FsjhlKMSWaT2gUyFgTTq3arq+WqNXdJoOKWNIsBd2z5rsmT2wV/b5Z626X6P1lxrtalvL7VLkbGrr41+VQbuHw29VF4VK2d09edjHsu9FkDfbZ1outXb96slFcyu9majPslv2Rv5uWIM9kUOz+q7dZfjmNcLUIPl3OzpBbj4lL6YWMwvxldWgVYOYxgyS1I8lrGAdG8jSu0c4xyWupGFJlpaldDtVCgWaSfwIae0Ly+uRtQ==</latexit> pi(x) <latexit sha1_base64="uxcc+nX7NnGI0mtk3QwUsbqZ67o=">AAACmnichVHLSsNAFD3GV62PVkUQdBEsioKUiUgVQSh1o7hp1aqgEpI41WCahGRarMUf8AdcuKrgQv0AP8CNP+CinyAuFdy48DYNiIp6h5k5c+aeO3O4umuZvmCs3iK1trV3dEa6ot09vX2xeP/Apu+UPIPnDcdyvG1d87ll2jwvTGHxbdfjWlG3+JZ+tNS43ypzzzcde0NUXL5X1A5ss2AamiBKjQ8dy4vyZEVVpuXdfUf403JFtafUeIIlWRDyT6CEIIEwsk78DrvYhwMDJRTBYUMQtqDBp7EDBQwucXuoEucRMoN7jlNESVuiLE4ZGrFHtB7QaSdkbTo3avqB2qBXLJoeKWWMs0d2zV7YA7tlT+z911rVoEbjLxXa9aaWu2rsbHj97V9VkXaBw0/VHwqdsv/2JFDAfODFJG9uwDRcGs365ZPzl/WFtfHqBLtkz+Svxursnhza5VfjKsfXLhClBinf2/ETbM4klVQylZtNpDNhqyIYwRgmqR9zSGMZWeTp3SpquMGtNCplpBVptZkqtYSaQXwJaeMDzbCWvg==</latexit> x = (y1, .

    . . , yn) <latexit sha1_base64="CfCnBlr65gcLUo0+S0r0fQJAF0w=">AAACxnichVFNS9xQFD3GfthprWO7Kbh5dLBYmA43RbQUClY3Lv3oqOBISDJPfZgvk5eRdBBc+we6cNVCKeIP6A9w46ZLLf6E4lKhmy56JxMQK9obknfuuffcl8N1Ik8lmui0x+i9c/fe/b4HpYeP+h8PlAefLCRhGruy7oZeGC85diI9Fci6VtqTS1Esbd/x5KKzMdWpL7ZknKgw+KCzSK749lqgVpVra6as8vvM0qKRKF9ElhrJE181RWZRteE1Q51UM6utX5nbL6uisZnaTaHFO2FykhdFULPKFapRHuI6MAtQQREzYfk7GmgihIsUPiQCaMYebCT8LMMEIWJuBW3mYkYqr0tso8TalLskd9jMbvB3jbPlgg0478xMcrXLt3j8xqwUGKZj2qdzOqID+kV/bpzVzmd0/iXj0+lqZWQN7D6b//1flc+nxvql6haFw923e9JYxZvci2JvUc50XLrd+a2Pn87n384Nt1/QFzpjf5/plA7ZYdC6cL/Oyrk9lHhB5r/ruA4WXtfMsdrY7GhlYrJYVR+G8BwjvI9xTGAaM6jzvd/wAyf4aUwbgZEaW91Wo6fQPMWVMHb+Ar0up3I=</latexit> yt → pi(yt | y0, . . . , yt→1), t = 1, . . . , n. <latexit sha1_base64="8Y4/CkZ1otEszpT1ALqBcAlGckc=">AAACvnichVFNa9RQFD2NWttR27FuCm6CQ6WFOtwUqbVQGHTjsh9OW+jUkGTetI8meSF5MzQN8wf8A110IQouxB/gDxDBla5c9CdIly1004U3mYBosd7w8u4795z73uG6kS8TTXQ8ZFy7fmP45sho5dbtO2Pj1bsT64nqxp5oespX8abrJMKXoWhqqX2xGcXCCVxfbLh7z/P6Rk/EiVThS51GYjtwdkLZkZ6jGbKrTyNbTu/PmEtmK4pV2870ktV/lYV9My+ktjZbgWybqU2zLb+tdDKbMueR1Z+xqzWqUxHm5cQqkxrKWFbVT2ihDQUPXQQQCKE59+Eg4W8LFggRY9vIGIs5k0VdoI8Ka7vMEsxwGN3j/w6ftko05HPeMynUHt/i84pZaWKKftAHOqWv9JF+0sU/e2VFj/wtKe/uQCsie/z15Nr5f1UB7xq7v1VXKFxmX+1Jo4OFwotkb1GB5C69Qf/eweHp2uLqVPaQ3tEJ+3tLx/SZHYa9M+/9ilg9QoUHZP09jsvJ+lzdmq/PrzyuNZ6VoxrBfTzANM/jCRp4gWU0+d43+IJv+G40jI4RGGpANYZKzT38Ecb+L/WTpb4=</latexit> pi(x) = n t=1 pi(yt | y0, . . . , yt→1) テキストxはトークン列、yはトークン: <latexit sha1_base64="IUEvYfHBUuGGrIyKeH9MMQ4B0As=">AAACnHichVHLSsNAFD3GV62vqgsFQYJF0U2ZiqgIgqgLQYTW2ipYKUkc6+A0CUlarMUf8AdcuFJxIeraD3DjD7jwE8RlBTcuvE0DoqLeMJlzz9xzZw5Xt6VwPcaeGpTGpuaW1lBbuL2js6s70tObca2iY/C0YUnL2dQ1l0th8rQnPMk3bYdrBV3yDX1/sXa+UeKOKyxz3SvbfLug5U2xKwzNIyoX6c9yKXNi7GBcnVOz0sqrtp/lIlEWY36oP0E8AFEEkbAid8hiBxYMFFEAhwmPsIQGl74txMFgE7eNCnEOIeGfcxwhTNoiVXGq0Ijdp3+esq2ANSmv9XR9tUG3SFoOKVWMsEd2xarsgV2zZ/b+a6+K36P2ljLtel3L7Vz38UDq7V9VgXYPe5+qPxQ6Vf/tycMuZnwvgrzZPlNzadT7lw5PqqnZtZHKKDtnL+TvjD2xe3Joll6NyyRfO0WYBhT/Po6fIDMRi0/FppKT0fmFYFQhDGIYYzSPacxjGQmk/XsvcINbZUhZUlaU1Xqp0hBo+vAllMwHnJKX9Q==</latexit> ωi(x) = log pi(x) 言語モデル pi がテキスト x を出力する確率 対数尤度 自己回帰型言語モデル (通常はTransformerで実装) <latexit sha1_base64="ctBkrkahi7ad9jh3zYEaqDyHMtA=">AAACw3ichVHLThRBFD20IDiijLIxcdNhAoEEJrcNQWOCIRoTlzwcIKGh091TjJWpfqS7ZkI7mR/wB1y40ujC+AF8gBvDVl3wCYQlJmxYcKenE6MEuJ3qunXuObfq5HqxkqkmOhwwbgwO3RweuVW6PXrn7lj53v31NGolvqj5kYqSTc9NhZKhqGmpldiME+EGnhIbXvNFr77RFkkqo/C1zmKxHbiNUO5K39UMOeVntlDKkdN7M+aiaaetwOnoRau7E5q2ihpmzKXM0aYdyLqZOTRrq3qk09mMaXNWd8YpV6hKeZgXE6tIKihiOSrvw0YdEXy0EEAghOZcwUXK3xYsEGLGttFhLOFM5nWBLkqsbTFLMMNltMn/Bp+2CjTkc69nmqt9vkXxSlhpYpJ+01c6oR/0jY7o7NJenbxH7y0Z715fK2Jn7N2DtdNrVQHvGm/+qq5QeMy+2pPGLp7kXiR7i3Ok59Lv92+/fX+y9nR1sjNFn+iY/X2kQ/rODsP2H//Lilj9gBIPyPp/HBeT9UdVa6G6sDJfWXpejGoEDzGBaZ7HYyzhFZZR43s/4wA/8ct4aTSNxNB9qjFQaMbxTxjdc2bkp38=</latexit> ωi(x) = n t=1 log pi(yt | y0, . . . , yt→1) 13 <latexit sha1_base64="10R5wWqiNJOvoMi4oqw0pH476XM=">AAACjXichVG7SgNBFD2u7/hI1EawEYOihWFWfCEiQQstk2hM8EHYXSc6ONlddjfBGPwBa8FCFBQsxA/wA2z8AYt8glgq2Fh4s1kQFfUOM3PmzD135nB1WwrXY6zaoDQ2Nbe0trWHOjq7usORnt511yo6Bk8blrScrK65XAqTpz3hSZ61Ha4VdMkz+v5S7T5T4o4rLHPNK9t8u6DtmiIvDM0jamN8i0uZE6MHY7lIlMWYH4M/gRqAKIJIWJE7bGEHFgwUUQCHCY+whAaXxiZUMNjEbaNCnENI+PccRwiRtkhZnDI0Yvdp3aXTZsCadK7VdH21Qa9Img4pBzHMHtkNe2EP7JY9sfdfa1X8GrW/lGnX61pu58LH/atv/6oKtHvY+1T9odAp+29PHvKY9b0I8mb7TM2lUa9fOjx9WZ1LDVdG2BV7Jn+XrMruyaFZejWukzx1hhA1SP3ejp9gfSKmTsemk5PR+GLQqjYMYAij1I8ZxLGCBNL0rokTnONCCStTyryyUE9VGgJNH76EsvwBQseTMw==</latexit> →ωi(x) <latexit sha1_base64="GjXVb5qmyy6SpZacz/W4z7cOiG8=">AAACmXichVG7SgNBFD1ZXzE+Eh+FkCYYIrEwTkSiWPloxEqNSQQjYXcddchkd9ndBDX4A/6AhY0KFuoH+AE2/oCFnyCWEWwsvNksiIp6h5k5c+aeO3O4miWF4zL2FFDa2js6u4LdoZ7evv5wZGAw75hVW+c53ZSmvampDpfC4DlXuJJvWjZXK5rkBa281Lwv1LjtCNPYcA8tvl1R9wyxK3TVJaoUGS7yAysZmyhyKUsieTA+acTGS5E4SzEvYj9B2gdx+LFqRu5QxA5M6KiiAg4DLmEJFQ6NLaTBYBG3jTpxNiHh3XMcI0TaKmVxylCJLdO6R6ctnzXo3KzpeGqdXpE0bVLGkGCP7Jo12AO7Zc/s/ddada9G8y+HtGstLbdK4ZOR7Nu/qgrtLvY/VX8oNMr+25OLXcx6XgR5szym6VJv1a8dnTayc+uJ+hi7ZC/k74I9sXtyaNRe9as1vn6GEDUo/b0dP0F+KpXOpDJr0/H5Rb9VQUQxiiT1YwbzWMYqcvTuEc5xjRslqiwoy8pKK1UJ+JohfAkl+wF/RJaf</latexit> exp(→ωi(x)/n) クロスエントロピーロス: パープレキシティ: この確率分布が言語モデ ルの出力特性に関するす べての情報を持っている
  11. モデル間の類似性:Kullback-Leibler divergence <latexit sha1_base64="1Dmif2g5fxGuKpTsW+TL6JUMOd0=">AAADGnichVFLaxRBEK4ZX3F9ZDUXwcvokrCrcekViUEQgiIIesjDTRbSYeie9G466XnQM7MkDvMHvIsHvSh4EH+Ad70oXvWQnyAeI3jQg9W9A6LBWMNMff1VfV9PUTxRMs0I2XXcQ4ePHD02drx24uSp0+P1M2eX0zjXgegGsYp1j7NUKBmJbiYzJXqJFizkSqzwrdumvjIUOpVx9CDbScRayAaR7MuAZUj59cc0ZNmGDot798tm4svpxN9seVM3PZrmoV9sUxnZjoCpoleWHrY0t1tUxQPa1ywoRucS86bJHo3iKA+50JTWjIvRcl7cKY1XKkNjUFIuB6pJhVJW7V3xLDYOpqRbfr1B2sSGtx90KtCAKubj+hugsA4xBJBDCAIiyBArYJDiswodIJAgtwYFchqRtHUBJdRQm2OXwA6G7BZ+B3hardgIz8YzteoAb1H4alR6MEk+k1dkj7wnr8kX8vOfXoX1MP+yg5mPtCLxxx+dW/r+X1WIOYON36oDFBy7D54pgz7M2lkkzpZYxkwZjPyHD5/sLd1YnCymyAvyFed7TnbJO5wwGn4LXi6IxadQwwV1/l7HfrB8td2Zac8sXGvM3apWNQbn4SI0cR/XYQ7uwjx08d4fzgXnknPZfea+dT+4H0etrlNpJuCPcD/9AlsUyG0=</latexit> KL(pi, pj) = x→X pi(x) log

    pi(x) pj(x) = E x↑pi ωi(x) → ωj(x) 2つのモデル間の距離(の2乗)のようなもの <latexit sha1_base64="RoCQYm8/RVPJt2gcbqtXN8SFfI4=">AAACuXichVFNSxtRFD2O2mpqa9SN0M3QoBgo4aWIim6k3RTsIlHzAUaGN9OneXE+HjMvQQ3+gf6BQruq0EXxB7gVumndu/AnSJcKblx4MxmQVJre4c0779x77nuHaytXRpqxywFjcGj4ydOR0dSzsecvxtMTk+UoaIaOKDmBG4RVm0fClb4oaaldUVWh4J7tioq9966Tr7REGMnA39QHSmx7fNeXO9LhmigrPV/zuK6HXnvtw9GcsuRrZTWyplnjSoXBPoGedIPSMmta6QzLsTjMxyCfgAySKATpU9TwEQEcNOFBwIcm7IIjom8LeTAo4rbRJi4kJOO8wBFSpG1SlaAKTuwe/XfptJWwPp07PaNY7dAtLq2QlCZm2AX7wa7ZL3bCrtjdP3u14x6dtxzQbne1Qlnjn6Y3bv+r8mjXqD+o+ihsqu7vSWMHS7EXSd5UzHRcOt3+rcPP1xvL6zPtWXbM/pC/b+yS/SSHfuvG+V4U61+RogHl/x7HY1B+k8sv5BaK85nVt8moRvASrzBH81jEKt6jgBLd+wVn+I1zY8XgRt1odEuNgUQzhZ4wonu9YKQL</latexit> KL(pi, pj) → KL(pj, pi) <latexit sha1_base64="uBKsXh/UqHFMKih8+KA/zY5NJss=">AAACnXicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQtIxOQmlmQU5VZ7+9RqFMRn6gCxpoKtgkG8gLKBngEYKGAyDKEMZQYoCMgX2M4Qw5DCkM+QzFDKkMuQypDHUAJk5zAkMhQDYTSDIYMBQwFQLJahGihWBGRlguVTGWoZuIB6S4GqUoEqEoGi2UAyHciLhormAfkgM4vBupOBtuQAcRFQpwKDqsFVg5UGnw1OGKw2eGnwB6dZ1WAzQG6pBNJJEL2pBfH8XRLB3wnqygXSJQwZCF14dCQBVeP3UwlDGoMF2C+ZQL8VgEVAvkyGmF9WNf1zsFWQarWawSKD10D/LTS4aXAY6MO8si/JSwNTg2YzcAEjyBA9OjAZYUZ6hmZ6ZoEmyg5O0KjiYJBmUGLQAMaHOYMDgwdDAEMo0N46hiUMaxnWMckzuTL5MPlBlDIxQvUIM6AApnAAPBOYpw==</latexit> KL(pi, pi) = 0 非対称だけど、モデルが近いときは、ほぼ対称 pi からxを生成したときに、pj を信じて符号化したときの、平均符号長の下限からの増分 和を取る範囲は、すべての文字列 (もちろん、計算できません) テキストxをpi から生成して平均 (これは計算できる,通常の実装方法) 14 エントロピー <latexit sha1_base64="xnwvDa3gqpqETo5y1S6Jrc0/4zM=">AAADBXichVFNSxxBEK0ZY2I2GjeGiOClyaLsgi61EkwIBEQvgh78yOrCzjLMTNq1teeDmd5lzbCQW8A/4MFTAjlIyC3Eo4dc8gdy8A8EgkcDueSQ2tkBv1Br6Omq1+9V96PsQIpIIR5res+d3rv3+u5nHvQPPBzMPhpai/xG6PCy40s/rNhWxKXweFkJJXklCLnl2pKv29tznfP1Jg8j4Xuv1U7Aa65V98SGcCxFkJl9Z7iW2gzdeGGxnQ9MMRGYWwVmKN5ScdUWqtZmr5gRNVwzbhnCMxxLskqbETPfKrD8pCH9ujlF9RbVBTZ5jsuuJ4uEbNQ5QzObwyImwa4mpTTJQRpLfvYQDHgDPjjQABc4eKAol2BBRF8VSoAQEFaDmLCQMpGcc2hDhrQNYnFiWIRu079OVTVFPao7PaNE7dAtklZISgZj+BMP8BR/4Gf8jf+u7RUnPTpv2aHd7mp5YA7ujqz+vVXl0q5g80x1g8Im9s2eFGzAi8SLIG9BgnRcOt3+zbd7p6svV8bicfyIJ+TvAx7jd3LoNf84n5b5yj5kaECly+O4mqxNFUvTxenlZ7mZ2XRUfTAKTyFP83gOMzAPS1Cme39p/doTbVh/r3/Rv+rfulRdSzWP4ULoR/8BwSG8bQ==</latexit> KL(pi, pj)[bit] = x→X pi(x)(→ log2 pj(x)) → x→X pi(x)(→ log2 pi(x)) ↑ 0
  12. 参考:最尤推定 Maximum Likelihood Estimate 15 <latexit sha1_base64="fkD6Lk7ttAF2B5GjmoesBZegOxA=">AAACn3ichVHLSsNAFD3Gd31V3YhuokVRKGVSREUQRAVdSX3UByohiaOGpklIpkUtgmt/wIUrBQVxoTs/wI0/4MJPEJcKblx4kwZERb3DzJw5c8+dOVzdtUxfMPZYIVVWVdfU1tXHGhqbmlvirW1LvlPwDJ41HMvxVnTN55Zp86wwhcVXXI9red3iy3puMrhfLnLPNx17Uey5fCOvbdvmlmlogig13jklj8n9u6qSlHfVdFJe33SEH+DZATWeYCkWhvwTKBFIIIqME7/FOjbhwEABeXDYEIQtaPBprEEBg0vcBkrEeYTM8J7jADHSFiiLU4ZGbI7WbTqtRaxN56CmH6oNesWi6ZFSRi97YJfshd2zK/bE3n+tVQprBH/Zo10va7mrthx1LLz9q8rTLrDzqfpDoVP2354EtjASejHJmxsygUujXL+4f/yyMDrfW+pjZ+yZ/J2yR3ZHDu3iq3E+x+dPEKMGKd/b8RMspVPKUGpobjAxPhG1qg5d6EE/9WMY45hBBll69xAXuMaN1C1NS7NSppwqVUSadnwJafUDwdeX7w==</latexit> D = (x1,

    x2, . . . , xN ) テキストの集合、事前学習に使われる Pileデータセット:825GB、3000億トークン <latexit sha1_base64="4WpEh/HoIDL6Q+dsMlLDstFgklA=">AAADzniclVHLahRBFL2d9hHHRya6EdwUDgk9oEO1hEQEIUSFgCKTxEkGUmGobmtmivSL7pphYqdwK/6AC1cKLsSFSz/AjT+QRTa6FpcR3Ljwdk9roiEPq+mqW+eec25drhN5MlGUbhsj5omTp06PnimdPXf+wlh5/OJyEvZiVzTc0AvjpsMT4clANJRUnmhGseC+44kVZ/1Oll/piziRYfBIbURizeedQLalyxVCrXFjnvlcdWM/vf9AW1GLXoss5vgpU12huK5WySS5TVjS81vpgMmAudwjTU2QaQ2qhHlh53d8/SiaNdjca81Y6X+8s2c6TnpPIxlF0s9ymrA52fGsPxXIJtlbI0/Hw1KMR1EcDo5dsB1zN7V1+lDvKshdfVClVrlCazRfZH9gF0EFilUPyx+AwWMIwYUe+CAgAIWxBxwS/FbBBgoRYmuQIhZjJPO8AA0l1PaQJZDBEV3HvYO31QIN8J55JrnaxSoe/jEqCUzQLfqW7tBP9B39Sn8e6JXmHtlbNvB0hloRtcaeX176caTKx1NBd1d1iMJB9uE9KWjDzbwXib1FOZJ16Q79+09e7CzdWpxIJ+lr+g37e0W36UfsMOh/d98siMWXUMIB2f+OY3+wfKNmT9emF6Yqs3PFqEbhClwFC+cxA7MwD3VogGu8N7aMz8YXs272TW0+HVJHjEJzCf5a5rNfB6oCWA==</latexit> KL(p0, p(ω)) = x→X p0(x) log p0(x) → x→X p0(x) log p(x|ω) = x→X p0(x) log p0(x) → E x↑p0 log p(x|ω) ↑ x→X p0(x) log p0(x) → 1 N x→D log p(x|ω) <latexit sha1_base64="9BwFTDIfV5tcxkCpqcYIoKixf30=">AAACvXichVHLTttAFD1xH9DQNqHdILGxiFLRTTRBKERsigoLlrwCkTCybHdIRhk/ZE/SgMkP8AMskCqBxAL1A/oB7aKbdtcFn1CxDBKbLnrjWCoUlV7LnjNnzrnjo2sHUkSKsYuM9uDho8cjo0+yY0+fPc/lx19sRn47dHjN8aUf1m0r4lJ4vKaEkrwehNxybcm37Nbi4Hyrw8NI+N6G2gv4jms1PLErHEsRZearhmt1zdiw3dhQTa6sXk83orZrxl1DePpSz5B+Qw+mu/qBfkP0WjfzBVZiSel3QTkFBaS14uc/wcA7+HDQhgsOD4qwhIWInm2UwRAQt4OYuJCQSM45esiSt00qTgqL2BZ9G7TbTlmP9oOeUeJ26BZJb0hOHUX2g52zPvvKPrKf7Nc/e8VJj8G/7NFqD708MHOHE+vX/3W5tCo0/7jucdikvj+Twi6qSRZB2YKEGaR0hv07+0f99fm1YvyKnbJLynfCLthnSuh1rpyzVb52jCwNqPz3OO6CzZlSuVKqrM4WFt6moxrFJKYwTfOYwwKWsYIa3fsBX/AN37U3Gtek5g2lWib1vMSt0t7/BtJppwY=</latexit> max ω x→D log p(x|ω) <latexit sha1_base64="su/skpeB1kQh5POdLJLQhx5AOGc=">AAACoHichVFNLyxBFD3a9/gabCQ2ExPyFjK5LS+IlbCxwmAQRjrdrXgV/ZXumgkmFrb+gIUViYjYsPID3ub9AQs/QSxJbCzc6elEkMetVNWpU/fcqpNrBY6MFNF9nVbf0NjU3NKaamvv6OxKd/csR34ptEXB9h0/XLXMSDjSEwUllSNWg1CYruWIFWtnunq/UhZhJH1vSe0FYsM1tz25JW1TMWWk+3cNfXjXGBkuOpu+ihjOZoqRdDOBQUY6SzmKI/MV6AnIIol5P32LIjbhw0YJLgQ8KMYOTEQ81qGDEDC3gQpzISMZ3wscIMXaEmcJzjCZ3eF1m0/rCevxuVozitU2v+LwDFmZwSDd0SU90T+6ogd6/W+tSlyj+pc93q2aVgRG11Hf4suPKpd3hT/vqm8UFmd/70lhC+OxF8negpipurRr9cv7x0+LEwuDlSE6o0f2d0r39JcdeuVn+zwvFk6Q4gbpn9vxFSyP5PTR3Gj+d3ZyKmlVC/oxgF/cjzFMYgbzKPC7h7jANW60AW1Gm9PytVStLtH04kNoa28Ca5nX</latexit> x1, x2, . . . , xN → p0 は、KLダイバージェンスの最小化、ともいえる
  13. KLダイバージェンスを期待値ではなく分散として評価する <latexit sha1_base64="E/lnq8pUPvEsp08UjQDA4E00VjA=">AAAC3nichVE9axRBGH6yfsX1I6c2gs3hEbmDeMwFiWIVtBG0yId3iWTDOrtOLpPM7g6zc8fF5VoLQSwVrBQsxB9gaZEmf8AiP8BCBC0i2Fj47t6KaDC+y+w887zv8848vIFWMrWM7Y45hw4fOXps/Lh74uSp0xOVM2c7adIzoWiHiUrMcsBToWQs2lZaJZa1ETwKlFgKNm/m+aW+MKlM4rt2S4vViHdjuSZDbonyK/emq96UF3G7bqLs9p1hXftySvsbDY9rbZKB+yvX4WboZwMvlVFV+2zoBbKr6q4nlPJlfdC4XKANQm6eMg2/UmNNVkR1P2iVoIYy5pLKO3h4gAQheoggEMMSVuBI6VtBCwyauFVkxBlCssgLDOGStkdVgio4sZv079JppWRjOuc900Id0i2KliFlFZPsA3vD9tgOe8s+sR//7JUVPfK3bNEejLRC+xOPzy9+/68qot1i/bfqAEVA1Qd7sljDtcKLJG+6YHKX4ah//+GzvcXrC5PZJfaKfSZ/L9ku2yaHcf9b+HpeLLyASwNq/T2O/aAz3WzNNGfmr9Rmb5SjGscFXESd5nEVs7iFObTp3vf4iC/46tx3HjlPnKejUmes1JzDH+E8/wlOzrLZ</latexit> 2 KL(pi, pj) → Varx→p0 ωi(x) ↑

    ωj(x) 定理:下平 (1993), Shimodaira and Cao (1998), Shimodaira (2001), Oyama et al. (2025) 仮定: p0 ,pi ,pj は互いに十分近い 16 <latexit sha1_base64="DY12PxoJ67e/sNXS9ugJ2CKpBHk=">AAAC1HichVHPSxVRFP4cs/RZ+bSN0GbwYbwH9bgvxEIQxBCCgvzRewqODHOn6/PqnR/M3PfQxrcKNy3atmhV0CJci3+AG/8BF9K2FtFSoU2LzswbiJLsDHfud79zvnPvx+GhkrFm7LTH6L3Sd/Va/0Bh8PqNm0PF4ZFGHLQiV9TdQAXRCndioaQv6lpqJVbCSDgeV2KZbz1K88ttEcUy8J/rnVCseU7Tl+vSdTRRdvGZ5Tl6I/KSJ0875dCWd0N7s2IWps2M5zyZ69jJthVLz6Rsx+KyqcqWUMqW5e2Kec/M8CbhNBVV7GKJVVkW5kVQy0EJecwHxUNYeIEALlrwIOBDE1ZwENO3ihoYQuLWkBAXEZJZXqCDAmlbVCWowiF2i/5NOq3mrE/ntGecqV26RdGKSGlinJ2wT+yMHbN99o39/GevJOuRvmWHdt7VitAeej269OO/Ko92jY3fqksUnKov96SxjoeZF0newoxJXbrd/u2Xb8+WphbHkzvsA/tO/t6zU3ZEDv32uftxQSy+Q4EGVPt7HBdB4361NlmdXJgozczmo+rHbYyhTPN4gBk8xjzqdO8BPuMLvhoNY9d4Zex1S42eXHMLf4Tx5hc9ua6I</latexit> KL(pi, pj) = E x→pi ωi(x) → ωj(x) この式のすごいところは,テキスト生成の分布p0 が多少変化しても安定で,たとえばp0 =pi でもp0 =pj でもOK. 一方,通常のKLの定義式は分布の変化に敏感で,テキスト生成の分布をpi からpj に変更すると符号が反転し てしまう.つまり不安定で使いにくい. <latexit sha1_base64="VOPxhRMHp7fdA3sE1tzcZqaidG4=">AAAC1XichVG/axRBFP6yRhMvak7TCDZLjsgdmGMuSBRBCAZBiMUl8XKBbFh2NpPLJLM/2J07kizbSYo0KS2sDKQQe/MH2PgPpAjYKohlBBsL3+4tiAbjW2bnm++97818PB4qGWvGTgeMS4OXrwwNXy2NXLt+Y7R889ZSHHQjV7TcQAXRMndioaQvWlpqJZbDSDgeV6LNt2azfLsnolgG/gu9E4pVz+n4cl26jibKLjcnLc/RG5GXzD1Pq6G9eS+0Zc0sPTZznvPkaWon21YsPZOyqcVlR1UtoZQtq9s1c9LM8SbhLBXV7HKF1Vke5nnQKEAFRTSD8jEsrCGAiy48CPjQhBUcxPStoAGGkLhVJMRFhGSeF0hRIm2XqgRVOMRu0b9Dp5WC9emc9YxztUu3KFoRKU1MsBP2lp2xj+wd+8p+/rNXkvfI3rJDO+9rRWiP7t9e/PFflUe7xsZv1QUKTtUXe9JYx8PciyRvYc5kLt1+/97uq7PFRwsTyV12yL6RvzfslH0gh37vu3s0LxZeo0QDavw9jvNgaaremK5Pz9+vzDwpRjWMOxhHlebxADN4hiZadO97fMJnfDHaRmq8NPb6pcZAoRnDH2Ec/ALTva7A</latexit> →KL(pj, pi) = E x→pj ωi(x) → ωj(x)
  14. 対数尤度ベクトルは、確率分布の空間へのモデルの「埋め込み」 17 <latexit sha1_base64="puxqNRCQeBkCY9Rp8VHK4DWLFz0=">AAADX3ichVHNbtNAEB4nQIuBNsAFxMUiapVIbVhHqCCkShFckEBR/5JW6jYr22zSTf2z9TpRiusX4AU4cAKJA+IBeAAuvACHcuOIOLYSFw6MnYQCFe1Y3v3mm/nG/jS2dIWKCDnQcvlz5y9MTF7UL12+MjVduHqtqYJe6PCGE7hBuGFbirvC541IRC7fkCG3PNvl6/bOo7S+3uehEoG/Fu1JvuVZHV+0hWNFSLHCl6pB56hnRduhFz95mpQkE3OSdcvGLLWkDIOBPq42rTBh8YAq4RmSkYTaouOWdMpdl4nSoDyfoS4iPS2FZUr18RCDtkPLic0kridU9TwWq0UzadWNEh0IFguVGPNGBrsqKbeqqXSR7lPbi5FNmEjL46RL91vVO/U/enaPO3Z/11mhSCokC+MkMEegCKNYCgofgMIzCMCBHnjAwYcIsQsWKHw2wQQCErktiJELEYmsziEBHbU97OLYYSG7g2cHs80R62OezlSZ2sGvuPiGqDRghnwm78gh+UTek2/k539nxdmM9F/28LaHWi7Z9Isbqz/OVHl4R7B9rDpFYWP36Z4iaMP9zItAbzJjUpfOcH7/+cvD1QcrM/EseUO+o7/X5IB8RId+/8h5u8xXXoGOCzL/XcdJ0KxWzIXKwvLdYu3haFWTcAtuQwn3cQ9q8BiWoAGOVtPaWqDJ3Nf8RH4qXxi25rSR5jr8FfmbvwAHYd0i</latexit> 2 KL(pi, pj) → Varx→p0 ωi(x)

    ↑ ωj(x) → 1 N N s=1 (εis ↑ εjs)2 = ↓ωi ↑ ωj ↓2/N = ↓qi ↑ qj ↓2/N p0 ,pi ,pj は互いに十分近いと仮定 テキストの集合、ここではN=10,000, 各1024バイト <latexit sha1_base64="su/skpeB1kQh5POdLJLQhx5AOGc=">AAACoHichVFNLyxBFD3a9/gabCQ2ExPyFjK5LS+IlbCxwmAQRjrdrXgV/ZXumgkmFrb+gIUViYjYsPID3ub9AQs/QSxJbCzc6elEkMetVNWpU/fcqpNrBY6MFNF9nVbf0NjU3NKaamvv6OxKd/csR34ptEXB9h0/XLXMSDjSEwUllSNWg1CYruWIFWtnunq/UhZhJH1vSe0FYsM1tz25JW1TMWWk+3cNfXjXGBkuOpu+ihjOZoqRdDOBQUY6SzmKI/MV6AnIIol5P32LIjbhw0YJLgQ8KMYOTEQ81qGDEDC3gQpzISMZ3wscIMXaEmcJzjCZ3eF1m0/rCevxuVozitU2v+LwDFmZwSDd0SU90T+6ogd6/W+tSlyj+pc93q2aVgRG11Hf4suPKpd3hT/vqm8UFmd/70lhC+OxF8negpipurRr9cv7x0+LEwuDlSE6o0f2d0r39JcdeuVn+zwvFk6Q4gbpn9vxFSyP5PTR3Gj+d3ZyKmlVC/oxgF/cjzFMYgbzKPC7h7jANW60AW1Gm9PytVStLtH04kNoa28Ca5nX</latexit> x1, x2, . . . , xN → p0 <latexit sha1_base64="hfHw+BhTTXH9MiPZ6JygMd0YhTg=">AAACqnichVG7SgNBFD2u7/iK2gg2iyGioGEioiIIoo2lRuODRJbddRIHJ7vL7iaowR/QD7CwUrAQKytBSxt/wMJPEEsFGwtvNguiwXiHmTlz5p47c7iGI4XnM/bcoDQ2Nbe0trVHOjq7unuivX3rnl10TZ42bWm7m4bucSksnvaFL/mm43K9YEi+YewtVu43Stz1hG2t+QcO3y7oeUvkhKn7RGnReHZfaGXhHamzc2qWS6mJkX3NG1XH1ayhuyGlRWMswYJQa0EyBDGEsWxHb5HFDmyYKKIADgs+YQkdHo0MkmBwiNtGmTiXkAjuOY4QIW2Rsjhl6MTu0ZqnUyZkLTpXanqB2qRXJE2XlCri7IldsTf2yK7ZC/v8s1Y5qFH5ywHtRlXLHa3neGD1419VgXYfu9+qOgqDsut78pHDTOBFkDcnYCouzWr90uHp2+psKl4eZhfslfyds2f2QA6t0rt5ucJTZ4hQg5K/21EL1icSyanE1MpkbH4hbFUbBjGEEerHNOaxhGWk6d0T3OAO98qYklK2lEw1VWkINf34EcrOF2KFnb0=</latexit> ωis := εi(xs) → ¯ εi <latexit sha1_base64="lCBSt+cqZljoHXfiKBvfmklzScw=">AAACt3ichVFNSxtBGH5cPxrTVrf2IvSyNFgSkDArkqogiL30VDQ2Kriy7K6TODj70d1JMIb8gf4BCz210EPpD+jNSw/NH+jBnyAeLfTiwTebBbVS+w4z88wz7/POPLxuJEWiGDsd0oZHRsce5MbzDx89npjUn0xtJmEz9njNC2UYb7tOwqUIeE0JJfl2FHPHdyXfcg9e9e+3WjxORBi8Ve2I7/pOIxB14TmKKFufs1y/Y3Epu7Ywlo2iJcOGEdmieGibpVlL7oUqmb1BvimVbL3AyiwN4y4wM1BAFmuh/h0W9hDCQxM+OAIowhIOEho7MMEQEbeLDnExIZHec3SRJ22TsjhlOMQe0Nqg007GBnTu10xStUevSJoxKQ3MsF/sK7tgPfaNnbHLf9bqpDX6f2nT7g60PLIn309v/PmvyqddYf9adY/Cpez7PSnUsZB6EeQtSpm+S29Qv3V0fLGxVJ3pvGCf2Tn5+8RO2Q9yGLR+e1/WefUj8tQg8+923AWbc2WzUq6szxdWVrNW5fAMz1GkfrzECl5jDTV69wNO8BM9bVGztbq2P0jVhjLNU9wK7d0VJpSihA==</latexit> ωi = (log pi(x1), . . . , log pi(xN )) 対数尤度ベクトル 【中心化】 ユークリッド距離の2乗がKLになる <latexit sha1_base64="pJkyhQ/RWFIfRTFGMAFYc8HwmzA=">AAACq3ichVFNLwNRFD3Gd3202EhsGg2x0byKIBJJw8aSVkuoNDPjqZfOl5lpoyb9A2JvYUViIXY2Fuxs/AELP0EsSWws3JmOCII7efPOPe+e+97JVSxNOC5jD01Sc0trW3tHZ6Sru6c3GuvrzztmxVZ5TjU1015TZIdrwuA5V7gaX7NsLuuKxleV8oJ/vlrltiNMY8WtWXxTl0uG2Baq7BJVjI0WFN3brRdFfC7uw8Ke8JNxSmTb+2DqxViCJVkQ8Z8gFYIEwlgyY1coYAsmVFSgg8OAS1iDDIe+DaTAYBG3CY84m5AIzjnqiJC2QlWcKmRiy/QvUbYRsgblfk8nUKt0i0bLJmUcI+yenbNndscu2CN7+7WXF/Tw31KjXWlouVWMHgxmX/9V6bS72PlU/aFQqPpvTy62MRN4EeTNChjfpdroX90/es7OZka8UXbKnsjfCXtgt+TQqL6oZ8s8c4wIDSj1fRw/QX4imZpKTi1PJtLz4ag6MIRhjNE8ppHGIpaQo3sPcYlr3EjjUlZalwqNUqkp1AzgS0j8HUO+n3w=</latexit> qi = ωi → ¯ ω 【二重中心化】 (成分の解釈性向上のため)
  15. 対数尤度ベクトルのヒートマップ 1,018言語モデル x 10,000テキスト の対数尤度行列 遺伝子発現解析でよくやるheatmap (two-way hierarchical clustering) と同じ

    18 Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira (arXiv:2502.16173, ACL2025 main), Mapping 1,000+ Language Models via the Log-Likelihood Vector 各行がモデルの個性を反映した10000次元の特徴量
  16. 重みの線形結合でモデルマージして6x6=36個のモデルを作成 重み空間(70億次元)のPCA 対数尤度空間(10,000次元)のPCA 問題点1:情報幾何の観点ではFisher情報行 列で距離の歪みを補正して正規化すべき 問題点2:ニューラルネットは中間層のユニ ット入れ替えで不変だから、そもそも重みの 直接比較は厳しく、ニューラルネットの出力 で比較すべき 2つの問題点を同時に解決:

    ユークリッ ド空間として扱えばKLの近似式が成り立つ 事前に指定したテキストを用いる: 言語 モデルに「生成させない」ことで高速化 Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira (arXiv:2502.16173, ACL2025 main), Mapping 1,000+ Language Models via the Log-Likelihood Vector 確率分布の空間 (対数尤度空間に相当) パラメータ空間 Amari (1985) 19 <latexit sha1_base64="ZBbL7t0nKsA6U0qxVRjaSypY5XU=">AAADGXichVHPT9RAGP1aUddF3VUvJl4aNyy7BDfTjUHjieABEj3wwwUSBjfTMss2tJ3JdHYjNv0HOJNw4ISJB8If4Nl4IV4NB/4E4xETEuLBb7tNcCXANO1835v33vTlc6TvRZqQY8O8MXTz1u3cnfzw3Xv3C8UHDxcj0VEub7jCF2rZYRH3vZA3tKd9viwVZ4Hj8yVn43XvfKnLVeSJ8J3elHw1YOuh1/JcphFqFrfLNGC6rYL4zdukIivUCWKq21yzpDo+0I5WqzQUYSdwuLIozZcpk1KJD7SlmBvbSVxPBujP/rV6T7WQ1vSA/eXsZrFEaiRd1sXCzooSZGtWFL8AhTUQ4EIHAuAQgsbaBwYRPitgAwGJ2CrEiCmsvPScQwJ51HaQxZHBEN3A7zp2KxkaYt/zjFK1i7f4+CpUWjBCjsg+OSGH5ID8JH8u9YpTj96/bOLu9LVcNgtbjxdOr1UFuGton6uuUDjIvjqThha8TLN4mE2mSC+l2/fvftw5WXg1PxKXySfyC/PtkWPyDROG3d/u5zk+vwt5HJD9/zguFov1mj1Rm5h7XpqcykaVgyfwFCo4jxcwCTMwCw2898ywjKoxZu6aX81D83ufahqZ5hEMLPPHXymHyWE=</latexit> KL(p(ω), p(ω→)) → 1 2 (ω→ ↑ ω)↑G(ω)(ω→ ↑ ω)
  17. Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira (arXiv:2502.16173, ACL2025

    main), Mapping 1,000+ Language Models via the Log-Likelihood Vector 1,018言語モデル x 10,000テキスト の対数尤度行列 1,018言語モデル さまざまな分野から集めた10,000テキスト 縦軸:タスク性能 横軸:予測値 各モデルの性能予測 tSNEで2次元に可視化してモデル地図を作成 高精度に予測!! モデルタイプ(ベースモデル) 得意なテキスト分野 (尤度で測定) 6種タスクの平均性能 得意なタスク (タスク性能で測定) テキスト分野名 タスク名 総合学力 科学的推論 常識推論 事実性 代名詞解決 数学 コード関連 モデルの個性(属性や性能)の領域がクラスタとして見える 各行をモデルの10,000次元の座標とみなす モデル地図:対数尤度ベクトルでモデル座標を計算 各種タスクにおける言語モデルの性能 Mistral派生 モデル達 Meta, Google, DeepSeek等 のコード関連のモデル達 Llama2派生モデル達 21
  18. モデル地図:対数尤度ベクトルでモデル座標を計算(つづき) 22 Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira

    (arXiv:2502.16173, ACL2025 main), Mapping 1,000+ Language Models via the Log-Likelihood Vector モデルの個性(属性や性能)の領域がクラスタとして見える Mistral派生モデル達 Meta, Google, DeepSeek等の コード関連のモデル達 Llama2派生モデル達
  19. モデル地図:対数尤度ベクトルでモデル座標を計算(つづき) Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira (arXiv:2502.16173,

    ACL2025採択), Mapping 1,000+ Language Models via the Log-Likelihood Vector 数学: 数学関連の論文や議論を含む 論文プレプリント: 物理・数学・コンピュータ科学など様々な学術分野の論文プレプリント 医学論文: 医学・生物医学分野の査読済み論文を収録した論文データベース 医学アブストラクト: 医学系論文の要旨のみを収録したデータベース 研究プロジェクト: 米国国立衛生研究所(NIH)が支援する研究プロジェクトの概要 特許: 米国特許庁(USPTO)に提出された特許の技術背景の説明 ソースコード: ソフトウェア開発におけるソースコードや技術文書 Q&Aサイト: プログラミング・数学・科学などの技術的なQ&Aサイトの内容 技術チャット: Ubuntu(Linux)のユーザー間でのリアルタイムな技術チャット 技術ニュース: テクノロジー分野を中心としたニュースおよびコミュニティ投稿 一般ウェブ: ウェブクロールから収集した一般的なウェブサイトのテキスト 百科事典: 英語版ウィキペディアの記事全文 書籍: パブリックドメインの英語書籍を収録したプロジェクト・グーテンベルクのコレクション メール: Enron社社員の電子メール記録(実際のメール文書) 法律: 米国の法律・判例などの法的文書 哲学: 哲学分野の研究論文および文献目録データベース 議会記録: 欧州議会での議論・演説の記録(翻訳テキストを含む) モデルの個性(属性や性能)の領域がクラスタとして見える 23
  20. モデル地図:対数尤度ベクトルでモデル座標を計算(つづき) Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira (arXiv:2502.16173,

    ACL2025採択), Mapping 1,000+ Language Models via the Log-Likelihood Vector モデルの個性(属性や性能)の領域がクラスタとして見える タスク名 総合学力 科学的推論 常識推論 事実性 代名詞解決 数学 24
  21. Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira (arXiv:2502.16173, ACL2025採択),

    Mapping 1,000+ Language Models via the Log-Likelihood Vector モデル地図:対数尤度ベクトルでモデル座標を計算(つづき) モデルの個性(属性や性能)の領域がクラスタとして見える 25
  22. KLの値のめやす (単位は bits/byte) 27 Ryo Kishino, Yusuke Takase, Momose Oyama,

    Hiroaki Yamagiwa, Hidetoshi Shimodaira (arXiv:2505.15353) Revealing Language Model Trajectories via Kullback-Leibler Divergence
  23. モデル軌道:事前学習時のチェックポイントをモデル地図で分析 Ryo Kishino, Yusuke Takase, Momose Oyama, Hiroaki Yamagiwa, Hidetoshi

    Shimodaira (arXiv:2505.15353) Revealing Language Model Trajectories via Kullback-Leibler Divergence 学習軌道のモデル地図 注意:「軌道の振動」はtsneによるアーティファクトと気付いた(投稿論文はwithdrawして改訂準備中) <latexit sha1_base64="7dANWXVvfYvV6+RnsJeDgV47f+k=">AAACrHichVE9S8NQFD3G7/pVdRFciqXqVF5FVJyKLo62WhX6RfJ81WCaPJLXYi39A4Kzg5OCgzg6uOjk4h9w8CeIo4KLg7dpQFTUG5J33rn33JvDNaRleoqxxzatvaOzq7unN9TXPzA4FB4e2fCcistFhjuW424Zuics0xYZZSpLbElX6GXDEpvG3nIzv1kVrmc69rqqSZEv6zu2WTK5rogqhqdySuyr+jZN0m0uGoWZSE66jlROpJXxlJCNAi+GoyzO/Ij8BIkARBHEqhO+Rg7bcMBRQRkCNhRhCzo8erJIgEESl0edOJeQ6ecFGgiRtkJVgip0Yvfou0O3bMDadG/29Hw1pykWvS4pI4ixB3bBXtg9u2RP7P3XXnW/R/NfanQaLa2QxaHDsbW3f1VlOhV2P1V/KAyq/tuTQgkLvheTvEmfabrkrf7Vg+OXtcV0rD7Jztgz+Ttlj+yOHNrVV36eEukThGhBie/r+Ak2ZuKJufhcajaaXApW1YNxTGCa9jGPJFawigzNPcIVbnCrxbV1LavlW6VaW6AZxZfQSh+nQKD5</latexit> distance2 → stepc 拡散指数 c 異常拡散の発見 1KステップのKL べき則が観察された cは拡散指数、H=c/2はHurst指数 28 Pythia modelsの事前学習チェックポイント
  24. モデル軌道:言語モデルの内部をモデル地図で分析 Ryo Kishino, Yusuke Takase, Momose Oyama, Hiroaki Yamagiwa, Hidetoshi

    Shimodaira (arXiv:2505.15353) Revealing Language Model Trajectories via Kullback-Leibler Divergence • Transformer内部の層から 直接トークン確率を出力さ せる手法 (logit-lens)を 用いた • 各層を「モデル」とみなす • 浅い層から深い層への変化 を「モデル軌道」とした 多数のモデルタイプで同時に可視化 平均対数尤度は層が深くなると大きくなる 3系統のモデルタイプだけで可視化 KLがジャンプする層がある 29
  25. Remarks • 対数尤度ベクトルをモデルの特徴量とするとモデルの特性がよく反映される • 中心化した対数尤度ベクトルをモデル座標とすればユークリッド距離の2乗がKLになる • モデル開発において性能予測や学習過程の分析に応用できる • プロンプトを設定することで条件付き分布間のKLも測定できる※ •

    多数の生成モデルの「個性」を体系的に把握するための評価技術 • 高性能な言語モデルのオープンソース化が進み利用者がモデルを個別に調整する状況で役に 立つかも • テキスト集合の選定に比較的ロバストだが,実際には結果は変わる.特定分野のテキストを 利用することは「射影」に相当し,その分野の解像度が高まる • テキスト毎の「対数尤度の分散」を利用して効率的にテキストを選択する手法 • Oyama et al. Likelihood Variance as Text Importance for Resampling Texts to Map Language Models (arXiv:2505.15428) • ここでは自己回帰型の言語モデルでTransformer実装にアクセスできるwhitebox設定 • 確率を直接観測できないblackbox設定でも,テキスト生成を媒介してモデル地図つくれる※ • 拡散モデルのwhitebox設定はかなり近似になるかも※ 30 ※準備中