Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
Search
Masato Mita
March 11, 2025
Research
2
770
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
言語処理学会第31回年次大会(NLP2025) の発表資料
Masato Mita
March 11, 2025
Tweet
Share
More Decks by Masato Mita
See All by Masato Mita
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
780
国際会議ACL2024参加報告
chemical_tree
1
690
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
2
460
広告文生成タスクの規定とベンチマーク構築(NLP2023)
chemical_tree
0
590
論述リビジョンのためのメタ評価基盤
chemical_tree
0
390
ライティング支援のための文法誤り訂正
chemical_tree
2
1.9k
Other Decks in Research
See All in Research
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
140
姫路市 -都市OSの「再実装」-
hopin
0
1.7k
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
5
1.4k
A History of Approximate Nearest Neighbor Search from an Applications Perspective
matsui_528
1
190
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
170
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.2k
量子コンピュータの紹介
oqtopus
0
230
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
710
財務諸表監査のための逐次検定
masakat0
1
270
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
930
Ankylosing Spondylitis
ankh2054
0
140
データサイエンティストの業務変化
datascientistsociety
PRO
0
280
Featured
See All Featured
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
120
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Building the Perfect Custom Keyboard
takai
2
710
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
What's in a price? How to price your products and services
michaelherold
247
13k
エンジニアに許された特別な時間の終わり
watany
106
240k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
RailsConf 2023
tenderlove
30
1.4k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.2k
Transcript
作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1 B4-6
2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working
Memory Shapes a Critical Period for Language Acquisition
LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために ⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より
➢ ⼈間の⾔語処理や獲得過程からの「教訓」が存在しうることを⽰唆
⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎると その能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響 など, 多くの研究が臨界期の存在を⽀持
[Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている
Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため,⾔語の基本的なパターンや構造 (例: ⽂法規則)を効率的に抽出できる ◦ ⼀⽅,⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習
が妨げられる 幼児の認知的な制約(例: 短期記憶の容量や注意の範囲)がむしろ ⾔語学習に有利に働く[Newport’90] Less-is-More仮説
本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法
◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 6
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67] 臨界期における作業記憶の発達的特性を⾔語モデルに組み込む ことで効率的な⾔語獲得が誘発されるか? RQ
作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形で モデル化可能: y = b − a x
(0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限(漸近線)を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67] 成人レベルの最大記憶容量 成長速度
⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi(Attention with Linear Biases)[Press+’22] を活⽤ ◦
注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性(動的な記憶制限)を⼗分に反映できない 10 [Press+’22] より
提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル
に基づき 次式で既定 11 (𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数) 𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて ⻑距離の依存関係に注意を向けられる
実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版(4層, 4注意ヘッド, 256次元) • データセット ◦
AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話(CDS)が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて ⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is flat.) > P(*The lies on the foot is flat.) 臨界期効果は特定の⼊⼒刺激(例: CDS) or 学習メカニズムに起因するかを切り分け
ベースラインモデル • NoLimit(GPT-2に相当) ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり,思春期以降 に観察される発達が成熟した作業記憶を模倣 • StaticLimit(GPT-2
w/ ALiBiに相当) ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少 させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較する ために記憶容量の初期値と最終値を統制
⾔語獲得における臨界期現象は再現されるか? ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES +5.7
臨界期効果は特定の⼊⼒刺激(データ)に依存するか? 15 ➢ 臨界期効果は⼊⼒刺激ではなく(⼦供特有の)学習メカニズムに起因 AO-CHILDES Wikipedia +5.7 +4.4
臨界期効果は “Less-is-More”に起因するか? 16 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は “Less-is-More”に起因するか? 17 反転した認知制約モデル を用いて検証 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は作業記憶の「成⻑」により誘発される 18
臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger
fixed more (worn canals). (b) *Mark fixed one canal, and Roger fixed more worn. 例: ELLIPSIS(”省略”) 「more worn」だけでは完全な 意味を成さないため非文 省略された部分が明確に推測で きる場合のみ許容 長距離依存関係の維持 が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性
段階的な記憶拡張は表現学習の質を向上させる • 埋め込みの多様性を維持し過度な圧縮を防ぐ • クラスター間の分離が保たれ学習が停滞しにくい • 異⽅性が抑制されより構造化された表現学習が可能 ◦ 埋め込み空間の等⽅性が統語的汎化を促進 [Diehl
Martinez+'24] 20 例: FILLER. GAP
まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデル よりも優れた性能を確認
→ L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に 学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 21
22 付録
ベースモデル実験設定 23
Zorroの各⽂法項⽬リスト 24
埋め込み空間の変化(例: CASE) 25
訓練データの⽂⻑を変更した場合のZorro性能 26