Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
Search
Masato Mita
March 11, 2025
Research
2
640
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
言語処理学会第31回年次大会(NLP2025) の発表資料
Masato Mita
March 11, 2025
Tweet
Share
More Decks by Masato Mita
See All by Masato Mita
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
570
国際会議ACL2024参加報告
chemical_tree
1
600
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
2
420
広告文生成タスクの規定とベンチマーク構築(NLP2023)
chemical_tree
0
550
論述リビジョンのためのメタ評価基盤
chemical_tree
0
370
ライティング支援のための文法誤り訂正
chemical_tree
2
1.8k
Other Decks in Research
See All in Research
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
180
CVPR2025論文紹介:Unboxed
murakawatakuya
0
150
Vision and LanguageからのEmbodied AIとAI for Science
yushiku
PRO
1
530
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
310
[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
nk35jk
2
980
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
0
320
Minimax and Bayes Optimal Best-arm Identification: Adaptive Experimental Design for Treatment Choice
masakat0
0
170
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
790
snlp2025_prevent_llm_spikes
takase
0
160
Time to Cash: The Full Stack Breakdown of Modern ATM Attacks
ratatata
0
110
20250725-bet-ai-day
cipepser
2
420
Submeter-level land cover mapping of Japan
satai
3
290
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
696
190k
Thoughts on Productivity
jonyablonski
70
4.8k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Making Projects Easy
brettharned
117
6.4k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Into the Great Unknown - MozCon
thekraken
40
2k
The Language of Interfaces
destraynor
161
25k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
A designer walks into a library…
pauljervisheath
207
24k
GraphQLの誤解/rethinking-graphql
sonatard
72
11k
Transcript
作業記憶の発達的特性が⾔語獲得の臨界期を形成する ◯三⽥雅⼈1,2 吉⽥遼1 深津聡世1 ⼤関洋平1 1東京⼤学, 2サイバーエージェント 1 B4-6
2 前置き • 予稿に誤植があったためerrataを公開しています • 本発表ではその後の探究に基づく最新結果[Mita+’25]についても報告します cf. [Mita+’25]: Developmentally-plausible Working
Memory Shapes a Critical Period for Language Acquisition
LLMと⼈間の「⾔語獲得効率」における乖離 • LLMは多くの評価指標において⼈間と同等の性能を達するために ⼈間と⽐較して 3~4 桁多いデータ量を必要 [Warstadt+’23] 3 [Warstadt+’23] より
➢ ⼈間の⾔語処理や獲得過程からの「教訓」が存在しうることを⽰唆
⾔語獲得の臨界期仮説 • ⾔語を効率的に習得できる特定の時期が存在し, この時期を過ぎると その能⼒が低下するという理論 [Lenneberg’67] ◦ 幼少期に⾔語を聞く機会が制限された事例や第⼆⾔語習得における年齢の影響 など, 多くの研究が臨界期の存在を⽀持
[Mayberry&Fischer’89, Johnson&Newport’89, Newport’90] • 理論的視点 ◦ ⽣得論: ⾔語獲得は遺伝的にプログラムされた能⼒ [Chomsky’65, Pinker’94] ◦ 経験論: 社会的‧環境的要因, 特に⾔語的インプットの量と質によっても説明可能 [Elman+’96,Seidenberg&Zevin’06] 4 ➢ 臨界期の正確な境界やメカニズムは依然として議論が続いている
Less-is-More仮説 5 • 論拠 ◦ 幼児は処理可能な情報が限られるため,⾔語の基本的なパターンや構造 (例: ⽂法規則)を効率的に抽出できる ◦ ⼀⽅,⼤⼈は認知能⼒が⾼いがゆえに複雑な情報に気を取られ規則の学習
が妨げられる 幼児の認知的な制約(例: 短期記憶の容量や注意の範囲)がむしろ ⾔語学習に有利に働く[Newport’90] Less-is-More仮説
本研究の概要 • ⽬的 ◦ ✅⼈間の作業記憶の発達特性を⾔語モデルの学習に組み込みことで, 効率的な第⼀⾔語 (L1) 獲得が可能か検証 • 提案⼿法&検証⽅法
◦ 🔸学習初期では記憶を制限し, その後指数関数的に緩和する機構の導⼊ ◦ 🔸統語評価ベンチマーク上で記憶制限なし/静的制限ありの⼿法と⽐較 • 結果&貢献 ◦ 🚀提案⼿法が最も効率的な⽂法獲得を実現 ◦ 📌NLP: データ効率の良い⾔語モデル設計のための新たな⽅針を提供 ◦ 📌認知科学: 作業記憶の発達特性が臨界期の基盤メカニズムとなる可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 6
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 7
⼈間の作業記憶の発達軌跡 • 幼児期から初期学齢期(2~7 歳): ◦ 記憶容量と処理能⼒が急速に向上 [Cowan+’91, Gathercole+’04] • 中学齢期から思春期(8~14
歳): ◦ 成⻑速度が鈍化し, 脳の成熟が進む [Luna+’04, Gathercole+’04] • 思春期後(15 歳以上): ◦ 成⼈レベルの作業記憶能⼒に到達し, 成⻑がほぼ停⽌ [Sowell+’02, Luna+’04] 8 言語獲得の臨界期 [Lenneberg’67] 臨界期における作業記憶の発達的特性を⾔語モデルに組み込む ことで効率的な⾔語獲得が誘発されるか? RQ
作業記憶の認知モデリング • 作業記憶の発達は指数関数的に増加する形で モデル化可能: y = b − a x
(0 < a < 1) • 指数モデルの妥当性: ◦ 成熟した後の記憶容量の上限(漸近線)を表現可能 ◦ 幼児期の急速な成⻑を適切に表現 ◦ 線形や対数モデルよりも現実の発達パターンに適合 9 言語獲得の臨界期 [Lenneberg’67] 成人レベルの最大記憶容量 成長速度
⾔語モデルにおける「作業記憶」の制限⽅法 • 記憶の制限⼿法として, ⾔語モデルへの「新近性バイアス」を導⼊する ALiBi(Attention with Linear Biases)[Press+’22] を活⽤ ◦
注意スコアを計算する際, トークン間の距離に応じて負の線形ペナルティを付与 ◦ ⼈間の読解⾏動に近いサプライザルの推定が可能 [Clark+’25] • ALiBiを適⽤するうえでの課題 ◦ ALiBiの勾配 𝓂 は各注意ヘッドで固定のため静的な記憶制限を表現 ◦ ⼈間の作業記憶の発達特性(動的な記憶制限)を⼗分に反映できない 10 [Press+’22] より
提案⼿法: DynamicLimit-Exp • 学習の進⾏に応じて勾配𝓂を指数関数的に減少 • 記憶容量 𝑤 𝘵 は, モデル
に基づき 次式で既定 11 (𝓂 𝘵 : 初期勾配, r: 減衰率, 𝘵: エポック数) 𝓂 𝘵 = 𝓂 0 ·r𝘵 𝑤 𝘵 ≔ 1 − 𝓂 𝘵 ➢ モデルは初期段階では近距離の注意を重視し, 学習が進むにつれて ⻑距離の依存関係に注意を向けられる
実験設定 • ベースモデル ◦ GPT-2[Radford+’19]の⼩規模版(4層, 4注意ヘッド, 256次元) • データセット ◦
AO-CHILDES [Huebner&Willits’21] ▪ 英語圏のおよそ 1 ~ 6歳までの⼦ども向け発話(CDS)が年齢順に収録された 5M単語規模のデータセット ◦ Wikipedia ▪ 50万⽂をランダム抽出 cf. [Huebner+’21] • 評価 ◦ Zorro [Huebner+’21] ▪ ⽂法項⽬ごとに容認可能な⽂と不可能な⽂からなるミニマルペアを⽤いて ⾔語モデルの統語能⼒を評価するBLiMP[Warstadt+’20]のCDS特化版 ▪ seedを変えた3試⾏の平均値を報告 12 P(The lie on the foot is flat.) > P(*The lies on the foot is flat.) 臨界期効果は特定の⼊⼒刺激(例: CDS) or 学習メカニズムに起因するかを切り分け
ベースラインモデル • NoLimit(GPT-2に相当) ◦ 記憶制限をかけないモデル ◦ 学習初期から作業記憶が⼀定であり,思春期以降 に観察される発達が成熟した作業記憶を模倣 • StaticLimit(GPT-2
w/ ALiBiに相当) ◦ 注意スコア計算時にALiBiを適⽤したモデル ◦ 学習初期から学習後期にかけて⼀定の記憶制限 • DynamicLimit-Linear ◦ ALiBiの勾配𝓂を学習の進⾏に伴い「線形」に減少 させたモデル ◦ 作業記憶の発達特性の粗い近似 13 線形増加と指数関数的増加を公平に⽐較する ために記憶容量の初期値と最終値を統制
⾔語獲得における臨界期現象は再現されるか? ➢ L1獲得における臨界期現象の再現を確認 ◦ 作業記憶の発達特性が重要な役割を果たしている可能性を⽰唆 14 AO-CHILDES +5.7
臨界期効果は特定の⼊⼒刺激(データ)に依存するか? 15 ➢ 臨界期効果は⼊⼒刺激ではなく(⼦供特有の)学習メカニズムに起因 AO-CHILDES Wikipedia +5.7 +4.4
臨界期効果は “Less-is-More”に起因するか? 16 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は “Less-is-More”に起因するか? 17 反転した認知制約モデル を用いて検証 性能向上は作業記憶の「変化( ≠ 成長)」による 副作用(例: 情報量の増加)では?
臨界期効果は作業記憶の「成⻑」により誘発される 18
臨界期効果は作業記憶の「成⻑」により誘発される 19 (a) Mark fixed one worn canal, and Roger
fixed more (worn canals). (b) *Mark fixed one canal, and Roger fixed more worn. 例: ELLIPSIS(”省略”) 「more worn」だけでは完全な 意味を成さないため非文 省略された部分が明確に推測で きる場合のみ許容 長距離依存関係の維持 が必要 ➢ 学習初期段階から多くの記憶容量が必要な項目は提案手法ではうまくいかない可能性
段階的な記憶拡張は表現学習の質を向上させる • 埋め込みの多様性を維持し過度な圧縮を防ぐ • クラスター間の分離が保たれ学習が停滞しにくい • 異⽅性が抑制されより構造化された表現学習が可能 ◦ 埋め込み空間の等⽅性が統語的汎化を促進 [Diehl
Martinez+'24] 20 例: FILLER. GAP
まとめ • 作業記憶の発達特性を⾔語モデルに組み込む⼿法を提案 ◦ 学習初期では記憶を制限し, 学習の進⾏に伴い指数関数的に緩和する機構の導⼊ • 統語評価ベンチマークにおいて, 記憶制限なし/静的制限ありのモデル よりも優れた性能を確認
→ L1獲得における臨界期現象の再現 ◦ 段階的な記憶拡張により ▪ 初期に基本的なパターン抽出を優先し, 後に複雑な規則をブートストラップ的に 学習させることで規則の汎化を促進するとともに, ▪ 異⽅性が抑制されより構造化された表現学習の促進に寄与した可能性 • 主要な貢献 ◦ データ効率の良い⾔語モデル設計の新たな⽅向性の提⽰ ◦ ⼈間の作業記憶の発達特性が臨界期の効率的な⾔語獲得に関与する可能性を⽰唆 (⽣得主義的⽴場を⽀持する間接証拠を提供) 21
22 付録
ベースモデル実験設定 23
Zorroの各⽂法項⽬リスト 24
埋め込み空間の変化(例: CASE) 25
訓練データの⽂⻑を変更した場合のZorro性能 26