Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Language Models Are Implicitly Continuous

Avatar for Sho Yokoi Sho Yokoi PRO
September 01, 2025

Language Models Are Implicitly Continuous

第17回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2025

Avatar for Sho Yokoi

Sho Yokoi PRO

September 01, 2025
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. Language Models Are Implicitly Continuous Samuele Marro, Davide Evangelista, X.

    Angelo Huang, Emanuele La Malfa, Michele Lombardi, Michael Wooldridge (Oxford, U. Bologna, ETH) ICLR 2025 https://arxiv.org/abs/2504.03933 読む⼈︓横井 祥(国語研・統数研・理研・JST創発) 2025-09-01, 第17回最先端NLP勉強会 ※ とくに注釈がない限り,図や数式は, 論⽂に掲載されているものを紹介者が適宜加筆・修正したものです
  2. まとめ 2 • ⼤胆な仮説︓⾔語モデルは,離散的な系列であるテキストを 連続的な系列として捉えているのでは︖ • PoC 1︓連続時間⾔語モデルを提案.現状の⾔語モデルを特 殊例として含み,現状の⾔語モデルを微調整すれば動く. •

    PoC 2︓このモデルに “早⼝で”テキストを⼊⼒してみると, 「テキスト=離散シンボル列」という我々の素朴な直観に反 する結果が得られる. • Take-home message︓⾔語モデルにとっての⾔語を考え る際には,時間⽅向の連続性も考えてみよう︕
  3. 注意機構の時間⽅向の連続化 11 • 普通の離散時間トランスフォーマーにおける注意機構 − 注意機構︓トークン間の(=時刻が異なるイベント同⼠の) 相互作⽤がある唯⼀のモジュール − Value vectors

    を⾜し合わせることで次の層の表現を作る • → 注意機構の連続化 − 連続時間で変化しうる Value vector で積分して次の層の表現を作る
  4. “早⼝” テキストに対する数え上げ︓単語編 19 • 実験設定 • 予想 − ⼈間のように⾔語を扱っているのであれば, どんなに早⼝で⾔おうが4が返ってきそう︖

    − 学習とは全然違う設定なので, 壊れた回答が返ってきっとしてもそれはそれでわかる 元の離散トークン列ではこの「幅」は 4.これを縮めてみる
  5. “早⼝” テキストに対する数え上げ︓単語編 20 • 実験設定 • 結果 − ¼ 幅に圧縮すると

    ʻ1ʼ が返る − ½ 幅に圧縮すると ʻ2ʼ が返る − ≈ “apple apple...” の幅が返る − 😮 元の離散トークン列ではこの「幅」は 4.これを縮めてみる
  6. “早⼝” テキストに対する数え上げ︓単語編 21 • 実験設定 • 結果 − ¼ 幅に圧縮すると

    ʻ1ʼ が返る − ½ 幅に圧縮すると ʻ2ʼ が返る − ≈ “apple apple...” の幅が返る − 😮 元の離散トークン列ではこの「幅」は 4.これを縮めてみる ここまでなら, 「value vector の重み付け係数が ¼ になるのだから, 4個分ならだいたい1トークン分の情報が流れている のでしょう」とも取れるが……
  7. “早⼝” テキストに対する数え上げ︓⽂編 23 • 実験設定 • 結果 − ½ 程度の圧縮だと

    ʻ4ʼ のまま − もっと圧縮すると ʻ3ʻ → ʻ2ʼ → ʻ1ʼ を返すようになる − 時間幅の連続的な変化に応じて 「何個買い物をした︖」への 回答の数字が減っていく − 😮 各⽂の幅を定数倍 (圧縮)してみる
  8. ⾜し算の “早⼝” 化 24 • 実験設定 − 2トークンに分割した2桁の数字を “早⼝で” ⼊⼒する

    • 結果 − 2桁の数字を “早⼝で” 与えると, 1桁の数字が⾜されたように 振る舞う − 😮
  9. まとめ 26 • 新しい仮説を検討するポジションペーパー 「⾔語モデルは,ヒトとは違い, ⾔語を時間的にも空間的にも連続的に捉えているのでは︖」 • ⾔語モデルを時間⽅向(語順⽅向)に連続化 − 注意機構を

    時間⽅向の和 → 時間⽅向の積分 に変更 − トークン列=区分定数関数 だと思えば,元の⾔語モデルを含む • ⼊⼒の “早⼝化” 実験 − テキストを “早⼝で” ⼊⼒すると⼊⼒した事象数が少なく⾒積もられる − 少なくとも,離散トークン列としてのテキストに対する⾃然な直感 とは異なる結果が得られる • Take-home message︓「⾔語モデルにとっての⾔語」を 考える際は,時間⽅向の連続性について思いを馳せてみよう︕
  10. 選んだ理由・お気持ち 27 • ⾔語モデルの成功によって,⾔語(科, 哲, ……)学の諸分野が 議論の前提としている⾔語観や,拠って⽴っている形⽽上学 的コミットメントについて,再検討が促されている ……ように⾒える •

    従来の統計的⾃然⾔語処理 − パイプライン︓形態素解析 → 構⽂解析 → 意味解析 → …… − 離散シンボル (e.g. 単語) 間の離散構造 (e.g. ⽊) を取り扱う • 現在のニューラルネットベースの⾃然⾔語処理 − end2end︓中間問題を解かず⽣データを丸呑み − ⾼次元の連続空間で処理 気になる (1) 経験主義的な 学習フレームワーク 気になる (2) 離散データに対する 連続的なモデリング
  11. 選んだ理由・お気持ち 気になる1 経験主義的な学習の成功 28 「経験から⾔語知性が⽴ち上がる」という考えは⼈⽂知の中 にも当然たくさん,深い議論がある.再検討の機運では. • フレーゲ︓⽂脈原理 − 語の意味は⽂という⽂脈の中ではじめて決まる

    • 後期ヴィトゲンシュタイン︓意味の使⽤説 − ⾔葉の意味は抽象的規則や世界との対応ではなく⾔語使⽤の実践で 決まる • バイビー,トマセロ,……︓⽤法基盤モデル − ⽂法や⾔語的な規則は⾔語使⽤の経験を通して徐々に習得される • レイコフ,ジョンソン,……︓認知意味論 − ⾔葉の意味は⾝体的な経験・認知プロセス等に基づいて決まる SKIP
  12. 選んだ理由・お気持ち︓ 気になる2 連続空間でのモデリング 29 • ⾔語は「ちょっと動かす」ができない − ⾔語データは「ちょっと動かせ」ない – 画像の場合︓明るさを少し変える,位置を少し動かす,……などが可

    – ⾔語の場合︓「単語を加える」「変える」など⼤きく変えるしかない − 「ちょっと動かす」に依存した (空間の連続性に強く依存した) 機械 学習モデルは,⾔語データでは相対的にうまく動かなかった – VAE (変分オートエンコーダ) – GAN (敵対的⽣成ネットワーク) – 拡散モデル ※ 最近成功し始めた • ……それなのに,テキストを “単語ベクトル集合・列” だと 思って処理するトランスフォーマーはうまく動いている • Q. なぜ︖ − 意味のどういう成分が “連続的” で,それがどう埋め込まれている︖ SKIP
  13. 選んだ理由・お気持ち 30 • ⾔語モデルの成功によって,⾔語(科, 哲, ……)学の諸分野が 議論の前提としている⾔語観や,拠って⽴っている形⽽上学 的コミットメントについて,再検討が促されている ……ように⾒える •

    従来の統計的⾃然⾔語処理 − パイプライン︓形態素解析 → 構⽂解析 → 意味解析 → …… − 離散シンボル (e.g. 単語) 間の離散構造 (e.g. ⽊) を取り扱う • 現在のニューラルネットベースの⾃然⾔語処理 − end2end︓中間問題を解かず⽣データを丸呑み − ⾼次元の連続空間で処理 気になる (1) 経験主義的な 学習フレームワーク 気になる (2) 離散データに対する 連続的なモデリング このペーパー「⾔語モデルは 時空間の両⽅で連続的なのでは︖」 私「おもろ」
  14. ……というモチベーションありきでの感想 31 • PROs − 「⾔語モデルの持つ暗黙的な時間⽅向の連続性を検討」というテーマは, ⾔語モデルの経験的な成功に対する⾯⽩い/新しい側⾯に触れてそう − ⾳声⾔語との関係︖ トークン単位の情報量との関係︖

    RNN 系モデル との関係︖ など,気になる話題がたくさん出てくる − 簡単で直観的な概念モデル(連続⾔語モデル)の提案 • CONs − ⾵呂敷を広げすぎている – 「時空間まとめて連続化できます︕……が,これは後続の研究に任せます」 – “早⼝” 実験の⾮⾃明感が強調されているが,係数を変えているという⾃明な解釈 − 独⾃研究感も⾼い – 「LLM の空間⽅向(単語埋め込み⽅向)の連続性を私たちがはじめて確認」 – 「平⾏移動不変性をはじめて確かめました」 − 「リバッタルを頑張った」でスコアを変わる慣例も本当によくない