言語モデルから言語について語る際に押さえておきたいこと

⾔語モデルから⾔語について語る際に押さえておきたいこと横井祥国⽴国語研究所・東北⼤学・理化学研究所・JST創発・ . 2026-03-20 科国⽴国語研究所次世代⾔語科学研究センター第2回研究会
次世代の⾔語理論を考える

このミニチュートリアルの⽬的 2 • 分野を越えて楽しい議論をしたい − ⾔語学周辺の皆さんと，⾔語学以外の分野にいる⼈たち（含む︓私）とで，この⾯⽩いタイミングで⾔語について楽しい議論をしたい． • 暗黙的な前提の擦り合わせ −
各分野が持っている暗黙的な前提・価値観・ディシプリンについて事前に簡単に擦り合わせをすると，議論が⼀層建設的になりそう． − 私（⾃然⾔語処理・機械学習の周辺にいます）からは，ニューラル⾔語モデルについてごく簡単なチュートリアルをします． − あわせて，典型的なすれ違いをふたつ解消できればと思っています． – 1. ⾔語モデルはコーパスのテキストを覚えている → 覚えないことが肝 – 2. ⾔語モデルは次単語の予測確率を学習している → 次単語を予測するための柔らかいルールを学習している

横井祥（よこいしょう） − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ − https://yokoi-lab.net/ 🕒 略歴 −
B … 京⼤計算機（機械学習，指導教員︓⿅島久嗣先⽣） − M/D … 東北⼤情報（⾃然⾔語処理，指導教員︓乾健太郎先⽣） − PD … 東北⼤情報，理研AIP − 現 … 国語研E3Pセンター，東北⼤⾔語AIセンター，理研AIP，JST創発 🎓 専⾨ … ⾃然⾔語処理・表現学習 👀 興味 − コーパスや⾔語モデルの統計的・幾何的特徴づけ︔ “意味の形” − AIも⼈間も基本的にはパターンマッチで知的な処理をしているのでは − 経験主義的な⾔語(哲)学の実験科学・数理科学としてのリバイバル⾃⼰紹介 3

横井祥（よこいしょう） − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ − https://yokoi-lab.net/ 🕒 略歴 −
B … 京⼤計算機（機械学習，指導教員︓⿅島久嗣先⽣） − M/D … 東北⼤情報（⾃然⾔語処理，指導教員︓乾健太郎先⽣） − PD … 東北⼤情報，理研 AIP − 現 … 国語研 E3Pセンター，東北⼤⾔語AIセンター，理研 AIP 🎓 専⾨ … ⾃然⾔語処理・表現学習 👀 興味 − コーパスや⾔語モデルの統計的・幾何的特徴づけ︔ “意味の形” − AIも⼈間も基本的にはパターンマッチで知的な処理をしているのでは − 経験主義的な⾔語(哲)学の実験科学・数理科学としてのリバイバル⾃⼰紹介 4 これまでは計算機科学・情報科学のコミュニティにいました⾔語 × 認知 × 数理について考える未曾有のチャンスだと思っています

ニューラル⾔語モデル a very short introduction 5

⼈⼯知能 6 • 計算の形式化を背景に…… [Churchʼ36, Turingʼ36] • ⾏動主義から認知⾰命・⼈⼯知能（脳と⼼の計算モデル）へ [Newell&Simonʼ56, Millerʼ56,
Chomskyʼ57; ダートマス会議ʼ56] − ⼈間（≈ ⾼次の知性を持った存在）だけができる各種能⼒について，計算という⾒⽅を通して再現を理解を⽬指す分野． − もうひとつの⾒⽅︓⼈間はできるが今は⼯学的にできないことの探究 – Tesler “AI is whatever hasn't been done yet.” • ⾔語はいつも⼈⼯知能の試⾦⽯だった − チューリング・テスト ʼ50: 会話相⼿が⼈間か⼈⼯知能か判断がつかないような何かができたら⼈⼯知能の完成と⾔えるだろう − ジョージタウン–IBM実験 ʼ54: 機械翻訳のデモ − モラベックのパラドックス ʼ88: ⾼度な推論よりも4歳児の感覚・運動の⽅が難しい

⾃然⾔語処理 • ⽬標︓⾔語の計算モデルを介した⾔語の⼯学的・理学的探求 − 🛠 ⾃然⾔語のテキストを計算機で処理したい 🛠 ⼈間が⾏う情報処理やコミュニケーションをサポートしたい – 機械翻訳
(e.g. DeepL) – ⼊⼒補完 (e.g. パソコンやスマートフォンの予測変換, GitHub Copilot) – 対話システム (e.g. ChatGPT) − 💡 ⾃然⾔語の計算モデルを通して⾃然⾔語を理解したい – ⾔語の複雑さに違いはある︖ – 他の系列データと⽐べてコーパスだけが持っているような統計的普遍性︖ – ⾔語獲得への⽰唆︖ 7 作りたい分かりたい

⼤規模⾔語モデルへの流れ 8 • 📅 1950s–80s後半︓ “合理主義” − ⼈間が⾔語規則を書く − e.g.
⼿書きの⽂法規則による構⽂解析，ルールベース機械翻訳 • 📅 1980s後半–2012頃︓ “経験主義” − ⾔語学の影響⼤ – ⾔語学由来の表現系・パイプライン処理︓品詞 → 構⽂ → 意味 → … – アノテーション付きコーパス − ⼿法は統計モデル・統計的機械学習が主に − e.g. 確率的な⽂法を学習して構⽂解析，統計的機械翻訳 • 📅 2013頃–現在︓ さらに強い経験主義，深層学習の時代 − ⽣コーパスから，⾔語処理・⽣成の⼿掛かり⾃体を学習 – アノテーションは不要に︔「Webサイト全部を丸呑み」の世界 – End-to-end︔⽣コーパスから，中間処理全体を実⾏できるモデルを作る − e.g. 対話型の問題解決器としての⾔語モデル，ニューラル機械翻訳

9 via Claude, Opus 4.6, 2026-03-19, https://claude.ai/chat/ ニューラル⾔語モデル・⼤規模⾔語モデルはじめて⾒る⽂脈に対しても指⽰に応じて回答
アイデア出し，悩み相談，⽂章のドラフト作成など，オープンクエスチョンへの回答が得意指⽰に応じて回答極めて流暢 Q A

10 • ⾔語モデルの実装は，コンピュータの中で動く⼈⼯のニューラルネットワーク⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html
これは何……

議論は健康にらしい良い⼊⼒出⼒テキストを⼊れると次の単語が出てくる

テキストを⼊れるとこれを元に次の単語が出てくる数値列に変換されて数値列を⾜したり掛けたりして…… 「答えはこれや」な数値列を吐き出し議論は健康にらしい良い⼊⼒出⼒例︓ 議論 → (0.81, -12.9, …)

テキストを⼊れるとこれを元に次の単語が出てくる数値列に変換されて数値列を⾜したり掛けたりして…… 「答えはこれや」な数値列を吐き出し「どんな⼊⼒が来たらどんな計算をすれば良いの︖」を決めるパラメータ（ダイヤル︔好きな数値を設定できる）が，無茶苦茶たくさん（数千億個くらい）付いている議論は健康にらしい良い⼊⼒出⼒

テキストを⼊れるとこれを元に次の単語が出てくる数値列に変換されて数値列を⾜したり掛けたりして…… 「答えはこれや」な数値列を吐き出し議論は健康にらしい良い⼊⼒出⼒⾃然な疑問︓「流暢で意味的にも通るようなテキストを⽣成できるようなパラメータの設定」ってどう探すの…︖ 「どんな⼊⼒が来たらどんな計算をすれば良いの︖」を決めるパラメータ（ダイヤル︔好きな数値を設定できる）が，無茶苦茶たくさん（数千億個くらい）付いている

⼤規模⾔語モデルの作り⽅ (超簡易版) 15 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2.
「⼈間に対するボットの返信として適切なものは︖」

16 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中 [ ︖ ] 読ませて次の単語を予想させる
• 2. 「⼈間に対するボットの返信として適切なものは︖」画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… までからで … ⼤規模⾔語モデルの作り⽅ (超簡易版) 1兆語規模のコーパス︔ 100万冊規模の本

17 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる
• 2. 「⼈間に対するボットの返信として適切なものは︖」ると、て … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ⼤規模⾔語モデルの作り⽅ (超簡易版) 1兆語規模のコーパス︔ 100万冊規模の本

18 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる
• 2. 「⼈間に対するボットの返信として適切なものは︖」ると、て … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ⼤規模⾔語モデルの作り⽅ (超簡易版) 1兆語規模のコーパス︔ 100万冊規模の本予測︓ 次の単語はこれかな︖ と，単語別にスコアを返す学習︓“正しい” 出⼒（たとえば「て」）のスコアが上がるように，ニューラルネットのパラメータ全体をちょっとずつ⾃動で調整するこのパラメータ調整を実現する魔法のような技術（典型的には確率的勾配降下法）が，深層学習の肝のひとつ

19 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −
「昨⽇振られちゃって…」→「 ︖ 」画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) 「うは、ウケるw」「それはつらいですね…」

20 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −
「昨⽇振られちゃって…」→「 ︖ 」画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) 「うは、ウケるw」「それはつらいですね…」予測︓ 次の単語はこれかな︖その次はこうだな︖ と返答⽂全体を作ってみる学習︓“正しい” 出⼒（たとえば「それはつらいですね……」）のスコアが上がるように，ニューラルネットのパラメータ全体をちょっとずつ⾃動で調整する

注︓⼤規模⾔語モデルがなぜうまく動いているかは作っている側もよくわからない 21 • いま⼈類がそこそこわかっていること︓ どういう⼯学的な指針をとれば，流暢でかつタスク実⾏能⼒も⾼い⾔語モデルを学習することができるか • まだ⼈類があまりよくわかっていないこと︓ そうして学習された⾔語モデル（膨⼤なパラーメータ
の集合）がどのように動いているか • 現状︓ ヒトやその脳と同じくらい何も分からないけれど，数理的・実験的に分析しやすい新しい観察対象が⼿に⼊った − ✔ めちゃくちゃ多くて⼈間にはひとつかみには理解できないけれど，とにかくすべてのパラメータの値を具体的に観察できる − ✔ “侵襲的な” 実験や，学習途中の介⼊実験も可

よくある誤解とその解消 × 2 22

“学習” ≠ 記憶 23 • よくある⾏き違い︓ 「⾔語モデルは⼈間のテキストを丸覚えして模倣している」 • ⾔語モデルがテキストコーパスから “学習する”
というのは，⾔語モデルがコーパスを記憶することではない • “学習” = データ（単語の並べ⽅）の傾向を学ぶすることると、て … 学習︓“正しい” 出⼒（たとえば「て」）のスコアが上がるように，ニューラルネットのパラメータ . 全体をちょっとずつ⾃動で調整する⾔語モデルのテキスト⽣成の傾向を少し⼈間に近づける作業（学習）を，膨⼤な回数繰り返す

“学習” ≠ 記憶 24 • 汎化︓ 初めて⾒るデータに対してよく動くこと − 統計的機械学習（⾔語モデルの基盤技術）において最も重要な概念 −
⾒たことがある例を記憶するのは簡単．計算機に格納すれば完． − ⾒たことがない例に対してもうまく動くように，⼊出⼒（この単語列の次は → この単語が出る）の傾向を捉えたい． cf. colorless green? ⻘点︓⾒たことがある例画像︓Wikipedia https://en.wikipedia.org/wiki/Overfitting ⾚線︓⾒たことがある例をひたすら再現できるような線あやしそう（過学習）緑線︓傾向をざっくり捉える⾒たことがない例でも良い予測ができる（汎化）

✘ 次単語の予測確率を学習している ✔ 次単語の予測の仕⽅を学習している 25 • よくある⾏き違い︓「⾔語モデルは次単語の予測確率 “を” 学習しているに過ぎない」 −
たしかに n-gram ⾔語モデルはそうだった．「This apple の次に is が来る確率」そのものが推定の対象だった． • 実際は，あらゆるケースに対応できるように，単語の並べ⽅（統語，意味，共起，…）や返答の仕⽅（談話，語⽤論，…）に関する柔らかい規則を，データから全⾃動で獲得．議論は健康にらしい良い⼊⼒出⼒

26 • 数（単数・複数）の情報を追跡するニューロンが数個だけ存在（＝勝⼿に学習されている） • しかも，⽂の構造を追跡する別ユニット（ダイヤル群）の制御の対象（＝そのように勝⼿に学習されている）
• 注︓⼈⼯ニューラルネット内の各ダイヤルは⾜し算や掛け算といったシンプルな計算のためのパラメーター．が，これらをたくさん積み上げると，柔らかい条件分岐，構造の把握，なども実現可能 ✘ 次単語の予測確率を学習している ✔ 次単語の予測の仕⽅を学習している議論は健康にらしい良い⼊⼒出⼒ 📄 Lakretz et al., The emergence of number and syntax units in LSTM language models (NAACL 2019)

27 27 📄 Wikipedian (en), Dependency grammar, 2024-11-27 𝒗(An) 𝒗(inventory)
𝒗(of) ⾔語モデルの内側で “近く” に来る単語同⼠を繋げるだけで，依存構造⽊がおおよそ復元される ※ 注︓結果には慎重な解釈が必要 📄 HewiN&Manning, A Structural Probe for Finding Syntax in Word RepresentaSons (NAACL 2019) ✔ 次単語の予測の仕⽅を学習している ✓→ そのための表現まで学習している⾔語モデルの内側では，各単語は数値列で表現されている＝ある種の “近さ” “遠さ” を計算できる

28 ⾔語モデルで⾊の名前をエンコードした内部表現 ……同⼠の類似度⾊空間 (CIELAB; L*a*b*) 内での⾊の表現 ……同⼠の類似度 📄
Abdou+, Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color (CoNLL 2021) ✔ 次単語の予測の仕⽅を学習している ✓→ そのための表現まで学習している⾊を表す単語同⼠の⾔語モデル内での “近さ” （≈ ⾔語モデルが “感じる” ⾊の近さ）と，⼈間が認識する⾊の近さが整合的

まとめ 29

まとめ 30 • ⾔語モデル − ⼈⼯知能・⾃然⾔語処理の⼯学的な進化の中で⽣まれた， 2026年現在は⼯学的に⼀番うまく動いている仕組み − 次の単語を予測できるように， “学習”
（＝パラメータ群の微調整）を繰り返す − 単語の並べ⽅（統語，意味，共起，…）や返答の仕⽅（談話，語⽤論，…）に関する柔らかい規則を，データから全⾃動で獲得 • ⾔語モデルに関するよくある⾏き違いの解消 − “学習” ≠ 記憶 – ⾒たことがない例に対してよく動くように⼤まかな傾向を捉えることが機械学習のもっとも重要な指針 − ✘ 次単語の予測確率を学習 → ✔ 次単語予測の仕⽅・仕組みを学習 – ⼈⼯ニューラルネットの内側で，各種の処理（統語，意味︔知識，推論︔ etc.）を全⾃動で実⾏するための表現と計算の仕⽅⾃体が学習される

おまけ 32

LMの⾔語運⽤能⼒と論理運⽤能⼒は関係ない︖ [Mahowald+, Trends in Cognitive Sciences 2024] 33 • ⾔語と思考
（Mahowald+ による粗い分類） − “形式的能⼒”・“⾔語” 能⼒︓ 狭い意味での⾔語能⼒． – ⾔語の理解・⽣成，統語的規則，統語と意味の対応，etc. − “機能的能⼒”・“思考“ 能⼒︓ ⾔語とは関わりのない認知能⼒全般 – 形式的推論，常識推論，状況のモデリング，語⽤論，意図の理解，etc. • ヒトの場合 − おそらくこれらは関係ない – 失語症患者の知⾒，fMRI 等を通した実験的知⾒ • ⾔語モデルの場合 − おそらくこれらは関係ない – “形式的能⼒”︓ ほとんどあらゆるベンチマークタスクで⾼い性能 – “機能的能⼒”︓ 丁寧に実験設定を切り分けると，分布外ではぼろぼろ 📄 Mahowald+, DissociaSng language and thought in large language models (Trends in CogniSve Sciences 2024)

⾔語モデルの，⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 34 • LMも，簡単な⾜し算・引き算などはほとんど正解できる • Q. どのように︖
− ✘ 簡易で⼀貫したアルゴリズムに基づいているわけではない – 筆算，全加算器︔少数のルールの “再帰的な” 積み上げ − ✘ 問題毎に答えを丸暗記しているわけでもない − ✔ 謎の⼆分探索を実⾏しているっぽい 📄 Nikankin+, ArithmeSc Without Algorithms: Language Models Solve Math With a Bag of HeurisScs (ICLR 2025)

⾔語モデルの，⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 35 • 「226 - 68 =」を解かせようとすると……
− (1) “ヒューリスティック・ニューロン” の発⽕ – 🔥 「ふたつめの引数 ∈ [5, 25] mod 50」 – 🔥 「解 ∈ [150, 180]」 – 🔥 「解 ≡ 8 mod 10」 − (2) ⼀番スコアの積み上げが⼤きい「158」の⽣成確率が最⼤化 📄 Nikankin+, ArithmeSc Without Algorithms: Language Models Solve Math With a Bag of HeurisScs (ICLR 2025)

⾔語モデルの，⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 36 • 「226 - 68 =」を解かせようとすると……
− (1) “ヒューリスティック・ニューロン” の発⽕︔ あたりをつける – 🔥 「ふたつめの引数 ∈ [5, 25] mod 50」 – 🔥 「解 ∈ [150, 180]」 – 🔥 「解 ≡ 8 mod 10」 − (2) ⼀番スコアの積み上げが⼤きい「158」の⽣成確率が最⼤化 📄 Nikankin+, ArithmeSc Without Algorithms: Language Models Solve Math With a Bag of HeurisScs (ICLR 2025)

言語モデルから言語について語る際に押さえておきたいこと

言語モデルから言語について語る際に押さえておきたいこと

Sho Yokoi PRO

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript

⾔語モデルから⾔語について語る際に押さえておきたいこと横井祥国⽴国語研究所・東北⼤学・理化学研究所・JST創発・ . 2026-03-20 科国⽴国語研究所次世代⾔語科学研究センター第2回研究会

横井祥（よこいしょう） − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ − https://yokoi-lab.net/ 🕒 略歴 −

横井祥（よこいしょう） − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ − https://yokoi-lab.net/ 🕒 略歴 −

ニューラル⾔語モデル a very short introduction 5

⼈⼯知能 6 • 計算の形式化を背景に…… [Churchʼ36, Turingʼ36] • ⾏動主義から認知⾰命・⼈⼯知能（脳と⼼の計算モデル）へ [Newell&Simonʼ56, Millerʼ56,

⾃然⾔語処理 • ⽬標︓⾔語の計算モデルを介した⾔語の⼯学的・理学的探求 − 🛠 ⾃然⾔語のテキストを計算機で処理したい 🛠 ⼈間が⾏う情報処理やコミュニケーションをサポートしたい – 機械翻訳

⼤規模⾔語モデルへの流れ 8 • 📅 1950s–80s後半︓ “合理主義” − ⼈間が⾔語規則を書く − e.g.

9 via Claude, Opus 4.6, 2026-03-19, https://claude.ai/chat/ ニューラル⾔語モデル・⼤規模⾔語モデルはじめて⾒る⽂脈に対しても指⽰に応じて回答

10 • ⾔語モデルの実装は，コンピュータの中で動く⼈⼯のニューラルネットワーク⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

11 • ⾔語モデルの実装は，コンピュータの中で動く⼈⼯のニューラルネットワーク⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

12 • ⾔語モデルの実装は，コンピュータの中で動く⼈⼯のニューラルネットワーク⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

13 • ⾔語モデルの実装は，コンピュータの中で動く⼈⼯のニューラルネットワーク⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

14 • ⾔語モデルの実装は，コンピュータの中で動く⼈⼯のニューラルネットワーク⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

⼤規模⾔語モデルの作り⽅ (超簡易版) 15 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2.

16 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中 [ ︖ ] 読ませて次の単語を予想させる

17 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる

18 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる

19 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

20 • 1. 「⼈間の書いた⽂章だとして，次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

よくある誤解とその解消 × 2 22

“学習” ≠ 記憶 23 • よくある⾏き違い︓ 「⾔語モデルは⼈間のテキストを丸覚えして模倣している」 • ⾔語モデルがテキストコーパスから “学習する”

“学習” ≠ 記憶 24 • 汎化︓ 初めて⾒るデータに対してよく動くこと − 統計的機械学習（⾔語モデルの基盤技術）において最も重要な概念 −

✘ 次単語の予測確率を学習している ✔ 次単語の予測の仕⽅を学習している 25 • よくある⾏き違い︓「⾔語モデルは次単語の予測確率 “を” 学習しているに過ぎない」 −

26 • 数（単数・複数）の情報を追跡するニューロンが数個だけ存在（＝勝⼿に学習されている） • しかも，⽂の構造を追跡する別ユニット（ダイヤル群）の制御の対象（＝そのように勝⼿に学習されている）

27 27 📄 Wikipedian (en), Dependency grammar, 2024-11-27 𝒗(An) 𝒗(inventory)

28 ⾔語モデルで⾊の名前をエンコードした内部表現 ……同⼠の類似度⾊空間 (CIELAB; Lab*) 内での⾊の表現 ……同⼠の類似度 📄

まとめ 29

まとめ 30 • ⾔語モデル − ⼈⼯知能・⾃然⾔語処理の⼯学的な進化の中で⽣まれた， 2026年現在は⼯学的に⼀番うまく動いている仕組み − 次の単語を予測できるように， “学習”

おまけ 32

LMの⾔語運⽤能⼒と論理運⽤能⼒は関係ない︖ [Mahowald+, Trends in Cognitive Sciences 2024] 33 • ⾔語と思考

⾔語モデルの，⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 34 • LMも，簡単な⾜し算・引き算などはほとんど正解できる • Q. どのように︖

⾔語モデルの，⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 35 • 「226 - 68 =」を解かせようとすると……

⾔語モデルの，⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 36 • 「226 - 68 =」を解かせようとすると……