Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Language Models Are Implicitly Continuous
Search
Sho Yokoi
PRO
September 01, 2025
Research
0
55
Language Models Are Implicitly Continuous
第17回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2025
Sho Yokoi
PRO
September 01, 2025
Tweet
Share
More Decks by Sho Yokoi
See All by Sho Yokoi
言語モデルの内部機序:解析と解釈
eumesy
PRO
63
19k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
12
4k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
9
2k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.8k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
4k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.6k
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
eumesy
PRO
25
18k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
1.4k
構造を持った言語データと最適輸送
eumesy
PRO
5
7.9k
Other Decks in Research
See All in Research
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
750
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
460
Streamlit 総合解説 ~ PythonistaのためのWebアプリ開発 ~
mickey_kubo
1
1.4k
数理最適化に基づく制御
mickey_kubo
6
720
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
3k
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
170
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
7
3.9k
Cross-Media Information Spaces and Architectures
signer
PRO
0
230
NLP Colloquium
junokim
1
190
CVPR2025論文紹介:Unboxed
murakawatakuya
0
140
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
170
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
430
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
780
The Cult of Friendly URLs
andyhume
79
6.5k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Into the Great Unknown - MozCon
thekraken
40
2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
The Cost Of JavaScript in 2023
addyosmani
53
8.8k
KATA
mclloyd
32
14k
Side Projects
sachag
455
43k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Transcript
Language Models Are Implicitly Continuous Samuele Marro, Davide Evangelista, X.
Angelo Huang, Emanuele La Malfa, Michele Lombardi, Michael Wooldridge (Oxford, U. Bologna, ETH) ICLR 2025 https://arxiv.org/abs/2504.03933 読む⼈︓横井 祥(国語研・統数研・理研・JST創発) 2025-09-01, 第17回最先端NLP勉強会 ※ とくに注釈がない限り,図や数式は, 論⽂に掲載されているものを紹介者が適宜加筆・修正したものです
まとめ 2 • ⼤胆な仮説︓⾔語モデルは,離散的な系列であるテキストを 連続的な系列として捉えているのでは︖ • PoC 1︓連続時間⾔語モデルを提案.現状の⾔語モデルを特 殊例として含み,現状の⾔語モデルを微調整すれば動く. •
PoC 2︓このモデルに “早⼝で”テキストを⼊⼒してみると, 「テキスト=離散シンボル列」という我々の素朴な直観に反 する結果が得られる. • Take-home message︓⾔語モデルにとっての⾔語を考え る際には,時間⽅向の連続性も考えてみよう︕
著者らの⼤胆な仮説 ⾔語モデルは,ヒトとは異なり, 時間的にも空間的にも連続的な “⾔語” を学習しているのでは︖ 3
テキストデータ 4 • テキストデータ︓離散シンボルの離散列 ‘エピグラフ’ ‘と’ ‘エビピラフ’ ‘の’ ‘共通点’ ……
⾔語モデル 5 • ⾔語モデル︓連続表現(ベクトル表現)の離散列 各単語に 柔らかい連続表現 (Rd の値)を 割り当てる v(‘エピグラフ’)
v(‘と’)
著者らの(⼤胆な)仮説 6 • 仮説︓⾔語モデルはヒトとは異なり,⾔語を連続空間上の 連続系列(連続空間での連続的な軌跡)だと捉えているのでは︖ 「⾔語モデルは,暗黙的に⾔語を連続時間で モデリングしているのでは…︖」 v(‘エピグラフ’) v(‘と’)
著者らが実際にやっていること 8 • 連続空間上の区分定数関数だけを考える • 各トークンの継続時間を好きな幅に動かせるようになる v(‘エピグラフ’) 幅1 幅0.5 v(‘と’)
こういう⼊⼒を 与えられるようになる 時間⽅向だけ可変に
概念モデル 通常のトランスフォーマー型の⽣成モデルを 時間⽅向に連続化した連続⾔語モデルを検討 (Continuous Causal Transformer) 9
注意機構の時間⽅向の連続化 10 • 普通の離散時間トランスフォーマーにおける注意機構 − 注意機構︓トークン間の(=時刻が異なるイベント同⼠の) 相互作⽤がある唯⼀のモジュール − Value vectors
を⾜し合わせることで次の層の表現を作る
注意機構の時間⽅向の連続化 11 • 普通の離散時間トランスフォーマーにおける注意機構 − 注意機構︓トークン間の(=時刻が異なるイベント同⼠の) 相互作⽤がある唯⼀のモジュール − Value vectors
を⾜し合わせることで次の層の表現を作る • → 注意機構の連続化 − 連続時間で変化しうる Value vector で積分して次の層の表現を作る
注意機構の時間⽅向の連続化 15 ✔ 区分定数関数を考えれば元の離散時間版と等価(含む) =
注意機構の時間⽅向の連続化 16 ✔ 区分定数関数を考えれば元の離散時間版と等価(含む) = q, k, v に変換する前の 埋め込みに含まれる位置埋め込みは,
整数(離散位置)ではなく 区間の終点の浮動⼩数点数を引数として計算
各トークンの時間幅が1ではないような 反実仮想的なテキストを⼊⼒できるようになる 17 • 各トークンに可変⻑の時間幅を与えられる v(‘エピグラフ’) 幅1 幅0.5 v(‘と’) こういう⼊⼒を
与えられるようになる
実験 「⾔語モデルはヒトとは異なる形で (=時間⽅向に連続に)⾔語を捉えている説」 を確認するために,⼊⼒を “早⼝” で与えてみる 18
“早⼝” テキストに対する数え上げ︓単語編 19 • 実験設定 • 予想 − ⼈間のように⾔語を扱っているのであれば, どんなに早⼝で⾔おうが4が返ってきそう︖
− 学習とは全然違う設定なので, 壊れた回答が返ってきっとしてもそれはそれでわかる 元の離散トークン列ではこの「幅」は 4.これを縮めてみる
“早⼝” テキストに対する数え上げ︓単語編 20 • 実験設定 • 結果 − ¼ 幅に圧縮すると
ʻ1ʼ が返る − ½ 幅に圧縮すると ʻ2ʼ が返る − ≈ “apple apple...” の幅が返る − 😮 元の離散トークン列ではこの「幅」は 4.これを縮めてみる
“早⼝” テキストに対する数え上げ︓単語編 21 • 実験設定 • 結果 − ¼ 幅に圧縮すると
ʻ1ʼ が返る − ½ 幅に圧縮すると ʻ2ʼ が返る − ≈ “apple apple...” の幅が返る − 😮 元の離散トークン列ではこの「幅」は 4.これを縮めてみる ここまでなら, 「value vector の重み付け係数が ¼ になるのだから, 4個分ならだいたい1トークン分の情報が流れている のでしょう」とも取れるが……
“早⼝” テキストに対する数え上げ︓⽂編 22 • 実験設定 各⽂の幅を定数倍 (圧縮)してみる
“早⼝” テキストに対する数え上げ︓⽂編 23 • 実験設定 • 結果 − ½ 程度の圧縮だと
ʻ4ʼ のまま − もっと圧縮すると ʻ3ʻ → ʻ2ʼ → ʻ1ʼ を返すようになる − 時間幅の連続的な変化に応じて 「何個買い物をした︖」への 回答の数字が減っていく − 😮 各⽂の幅を定数倍 (圧縮)してみる
⾜し算の “早⼝” 化 24 • 実験設定 − 2トークンに分割した2桁の数字を “早⼝で” ⼊⼒する
• 結果 − 2桁の数字を “早⼝で” 与えると, 1桁の数字が⾜されたように 振る舞う − 😮
まとめ・議論 25
まとめ 26 • 新しい仮説を検討するポジションペーパー 「⾔語モデルは,ヒトとは違い, ⾔語を時間的にも空間的にも連続的に捉えているのでは︖」 • ⾔語モデルを時間⽅向(語順⽅向)に連続化 − 注意機構を
時間⽅向の和 → 時間⽅向の積分 に変更 − トークン列=区分定数関数 だと思えば,元の⾔語モデルを含む • ⼊⼒の “早⼝化” 実験 − テキストを “早⼝で” ⼊⼒すると⼊⼒した事象数が少なく⾒積もられる − 少なくとも,離散トークン列としてのテキストに対する⾃然な直感 とは異なる結果が得られる • Take-home message︓「⾔語モデルにとっての⾔語」を 考える際は,時間⽅向の連続性について思いを馳せてみよう︕
選んだ理由・お気持ち 27 • ⾔語モデルの成功によって,⾔語(科, 哲, ……)学の諸分野が 議論の前提としている⾔語観や,拠って⽴っている形⽽上学 的コミットメントについて,再検討が促されている ……ように⾒える •
従来の統計的⾃然⾔語処理 − パイプライン︓形態素解析 → 構⽂解析 → 意味解析 → …… − 離散シンボル (e.g. 単語) 間の離散構造 (e.g. ⽊) を取り扱う • 現在のニューラルネットベースの⾃然⾔語処理 − end2end︓中間問題を解かず⽣データを丸呑み − ⾼次元の連続空間で処理 気になる (1) 経験主義的な 学習フレームワーク 気になる (2) 離散データに対する 連続的なモデリング
選んだ理由・お気持ち 気になる1 経験主義的な学習の成功 28 「経験から⾔語知性が⽴ち上がる」という考えは⼈⽂知の中 にも当然たくさん,深い議論がある.再検討の機運では. • フレーゲ︓⽂脈原理 − 語の意味は⽂という⽂脈の中ではじめて決まる
• 後期ヴィトゲンシュタイン︓意味の使⽤説 − ⾔葉の意味は抽象的規則や世界との対応ではなく⾔語使⽤の実践で 決まる • バイビー,トマセロ,……︓⽤法基盤モデル − ⽂法や⾔語的な規則は⾔語使⽤の経験を通して徐々に習得される • レイコフ,ジョンソン,……︓認知意味論 − ⾔葉の意味は⾝体的な経験・認知プロセス等に基づいて決まる SKIP
選んだ理由・お気持ち︓ 気になる2 連続空間でのモデリング 29 • ⾔語は「ちょっと動かす」ができない − ⾔語データは「ちょっと動かせ」ない – 画像の場合︓明るさを少し変える,位置を少し動かす,……などが可
– ⾔語の場合︓「単語を加える」「変える」など⼤きく変えるしかない − 「ちょっと動かす」に依存した (空間の連続性に強く依存した) 機械 学習モデルは,⾔語データでは相対的にうまく動かなかった – VAE (変分オートエンコーダ) – GAN (敵対的⽣成ネットワーク) – 拡散モデル ※ 最近成功し始めた • ……それなのに,テキストを “単語ベクトル集合・列” だと 思って処理するトランスフォーマーはうまく動いている • Q. なぜ︖ − 意味のどういう成分が “連続的” で,それがどう埋め込まれている︖ SKIP
選んだ理由・お気持ち 30 • ⾔語モデルの成功によって,⾔語(科, 哲, ……)学の諸分野が 議論の前提としている⾔語観や,拠って⽴っている形⽽上学 的コミットメントについて,再検討が促されている ……ように⾒える •
従来の統計的⾃然⾔語処理 − パイプライン︓形態素解析 → 構⽂解析 → 意味解析 → …… − 離散シンボル (e.g. 単語) 間の離散構造 (e.g. ⽊) を取り扱う • 現在のニューラルネットベースの⾃然⾔語処理 − end2end︓中間問題を解かず⽣データを丸呑み − ⾼次元の連続空間で処理 気になる (1) 経験主義的な 学習フレームワーク 気になる (2) 離散データに対する 連続的なモデリング このペーパー「⾔語モデルは 時空間の両⽅で連続的なのでは︖」 私「おもろ」
……というモチベーションありきでの感想 31 • PROs − 「⾔語モデルの持つ暗黙的な時間⽅向の連続性を検討」というテーマは, ⾔語モデルの経験的な成功に対する⾯⽩い/新しい側⾯に触れてそう − ⾳声⾔語との関係︖ トークン単位の情報量との関係︖
RNN 系モデル との関係︖ など,気になる話題がたくさん出てくる − 簡単で直観的な概念モデル(連続⾔語モデル)の提案 • CONs − ⾵呂敷を広げすぎている – 「時空間まとめて連続化できます︕……が,これは後続の研究に任せます」 – “早⼝” 実験の⾮⾃明感が強調されているが,係数を変えているという⾃明な解釈 − 独⾃研究感も⾼い – 「LLM の空間⽅向(単語埋め込み⽅向)の連続性を私たちがはじめて確認」 – 「平⾏移動不変性をはじめて確かめました」 − 「リバッタルを頑張った」でスコアを変わる慣例も本当によくない