Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルから言語について語る際に押さえておきたいこと

Avatar for Sho Yokoi Sho Yokoi PRO
March 20, 2026

 言語モデルから言語について語る際に押さえておきたいこと

国立国語研究所 次世代言語科学研究センター 第2回研究会 「次世代の言語理論を考える」
https://www.ninjal.ac.jp/events_jp/20260320a/

Avatar for Sho Yokoi

Sho Yokoi PRO

March 20, 2026
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. このミニチュートリアルの⽬的 2 • 分野を越えて楽しい議論をしたい − ⾔語学周辺の皆さんと,⾔語学以外の分野にいる⼈たち(含む︓私) とで,この⾯⽩いタイミングで⾔語について楽しい議論をしたい. • 暗黙的な前提の擦り合わせ −

    各分野が持っている暗黙的な前提・価値観・ディシプリンについて事 前に簡単に擦り合わせをすると,議論が⼀層建設的になりそう. − 私(⾃然⾔語処理・機械学習の周辺にいます)からは,ニューラル⾔語モデルにつ いてごく簡単なチュートリアルをします. − あわせて,典型的なすれ違いをふたつ解消できればと思っています. – 1. ⾔語モデルはコーパスのテキストを覚えている → 覚えないことが肝 – 2. ⾔語モデルは次単語の予測確率を学習している → 次単語を予測するための柔らかいルールを学習している
  2. 横井 祥(よこい しょう) − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ − https://yokoi-lab.net/ 🕒 略歴 −

    B … 京⼤計算機(機械学習,指導教員︓⿅島久嗣先⽣) − M/D … 東北⼤情報(⾃然⾔語処理,指導教員︓乾健太郎先⽣) − PD … 東北⼤情報,理研AIP − 現 … 国語研E3Pセンター,東北⼤⾔語AIセンター,理研AIP,JST創発 🎓 専⾨ … ⾃然⾔語処理・表現学習 👀 興味 − コーパスや⾔語モデルの統計的・幾何的特徴づけ︔ “意味の形” − AIも⼈間も基本的にはパターンマッチで知的な処理をしているのでは − 経験主義的な⾔語(哲)学の実験科学・数理科学としてのリバイバル ⾃⼰紹介 3
  3. 横井 祥(よこい しょう) − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ − https://yokoi-lab.net/ 🕒 略歴 −

    B … 京⼤ 計算機(機械学習,指導教員︓⿅島久嗣先⽣) − M/D … 東北⼤ 情報(⾃然⾔語処理,指導教員︓乾健太郎先⽣) − PD … 東北⼤ 情報,理研 AIP − 現 … 国語研 E3Pセンター,東北⼤ ⾔語AIセンター,理研 AIP 🎓 専⾨ … ⾃然⾔語処理・表現学習 👀 興味 − コーパスや⾔語モデルの統計的・幾何的特徴づけ︔ “意味の形” − AIも⼈間も基本的にはパターンマッチで知的な処理をしているのでは − 経験主義的な⾔語(哲)学の実験科学・数理科学としてのリバイバル ⾃⼰紹介 4 これまでは計算機科学・ 情報科学のコミュニティにいました ⾔語 × 認知 × 数理 について考える未曾有のチャンス だと思っています
  4. ⼈⼯知能 6 • 計算の形式化を背景に…… [Churchʼ36, Turingʼ36] • ⾏動主義から認知⾰命・⼈⼯知能(脳と⼼の計算モデル)へ [Newell&Simonʼ56, Millerʼ56,

    Chomskyʼ57; ダートマス会議ʼ56] − ⼈間(≈ ⾼次の知性を持った存在)だけができる各種能⼒について, 計算という⾒⽅を通して再現を理解を⽬指す分野. − もうひとつの⾒⽅︓⼈間はできるが今は⼯学的にできないことの探究 – Tesler “AI is whatever hasn't been done yet.” • ⾔語はいつも⼈⼯知能の試⾦⽯だった − チューリング・テスト ʼ50: 会話相⼿が⼈間か⼈⼯知能か判断がつか ないような何かができたら⼈⼯知能の完成と⾔えるだろう − ジョージタウン–IBM実験 ʼ54: 機械翻訳のデモ − モラベックのパラドックス ʼ88: ⾼度な推論よりも4歳児の感覚・運動 の⽅が難しい
  5. ⾃然⾔語処理 • ⽬標︓⾔語の計算モデルを介した⾔語の⼯学的・理学的探求 − 🛠 ⾃然⾔語のテキストを計算機で処理したい 🛠 ⼈間が⾏う情報処理やコミュニケーションをサポートしたい – 機械翻訳

    (e.g. DeepL) – ⼊⼒補完 (e.g. パソコンやスマートフォンの予測変換, GitHub Copilot) – 対話システム (e.g. ChatGPT) − 💡 ⾃然⾔語の計算モデルを通して⾃然⾔語を理解したい – ⾔語の複雑さに違いはある︖ – 他の系列データと⽐べてコーパスだけが持っているような統計的普遍性︖ – ⾔語獲得への⽰唆︖ 7 作りたい 分かりたい
  6. ⼤規模⾔語モデルへの流れ 8 • 📅 1950s–80s後半︓ “合理主義” − ⼈間が⾔語規則を書く − e.g.

    ⼿書きの⽂法規則による構⽂解析,ルールベース機械翻訳 • 📅 1980s後半–2012頃︓ “経験主義” − ⾔語学の影響⼤ – ⾔語学由来の表現系・パイプライン処理︓品詞 → 構⽂ → 意味 → … – アノテーション付きコーパス − ⼿法は統計モデル・統計的機械学習が主に − e.g. 確率的な⽂法を学習して構⽂解析,統計的機械翻訳 • 📅 2013頃–現在︓ さらに強い経験主義,深層学習の時代 − ⽣コーパスから,⾔語処理・⽣成の⼿掛かり⾃体を学習 – アノテーションは不要に︔「Webサイト全部を丸呑み」の世界 – End-to-end︔⽣コーパスから,中間処理全体を実⾏できるモデルを作る − e.g. 対話型の問題解決器としての⾔語モデル,ニューラル機械翻訳
  7. 9 via Claude, Opus 4.6, 2026-03-19, https://claude.ai/chat/ ニューラル⾔語モデル・⼤規模⾔語モデル はじめて⾒る⽂脈に対し ても指⽰に応じて回答

    アイデア出し,悩み相談,⽂章のドラフト作成 など,オープンクエスチョンへの回答が得意 指⽰に応じて回答 極めて流暢 Q A
  8. 12 • ⾔語モデル の実装は, コンピュータの中で動く⼈⼯のニューラルネットワーク ⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

    テキストを⼊れると これを元に 次の単語が出てくる 数値列に変換されて 数値列を⾜したり掛け たりして…… 「答えはこれや」な 数値列を吐き出し 議論 は 健康 に らしい 良い ⼊⼒ 出⼒ 例︓ 議論 → (0.81, -12.9, …)
  9. 13 • ⾔語モデル の実装は, コンピュータの中で動く⼈⼯のニューラルネットワーク ⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

    テキストを⼊れると これを元に 次の単語が出てくる 数値列に変換されて 数値列を⾜したり掛け たりして…… 「答えはこれや」な 数値列を吐き出し 「どんな⼊⼒が来たらどんな計算をすれば良いの︖」を 決めるパラメータ(ダイヤル︔好きな数値を設定できる)が, 無茶苦茶たくさん(数千億個くらい)付いている 議論 は 健康 に らしい 良い ⼊⼒ 出⼒
  10. 14 • ⾔語モデル の実装は, コンピュータの中で動く⼈⼯のニューラルネットワーク ⼤規模⾔語モデルの作り⽅ (超簡易版) 画像︓Murphy 2022 https://probml.github.io/pml-book/book1.html

    テキストを⼊れると これを元に 次の単語が出てくる 数値列に変換されて 数値列を⾜したり掛け たりして…… 「答えはこれや」な 数値列を吐き出し 議論 は 健康 に らしい 良い ⼊⼒ 出⼒ ⾃然な疑問︓「流暢で意味的にも通るようなテキストを ⽣成できるようなパラメータの設定」ってどう探すの…︖ 「どんな⼊⼒が来たらどんな計算をすれば良いの︖」を 決めるパラメータ(ダイヤル︔好きな数値を設定できる)が, 無茶苦茶たくさん(数千億個くらい)付いている
  11. 16 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中 [ ︖ ] 読ませて次の単語を予想させる

    • 2. 「⼈間に対するボットの返信として適切なものは︖」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… まで から で … ⼤規模⾔語モデルの作り⽅ (超簡易版) 1兆語規模のコーパス︔ 100万冊規模の本
  12. 17 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる

    • 2. 「⼈間に対するボットの返信として適切なものは︖」 ると 、 て … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ⼤規模⾔語モデルの作り⽅ (超簡易版) 1兆語規模のコーパス︔ 100万冊規模の本
  13. 18 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる

    • 2. 「⼈間に対するボットの返信として適切なものは︖」 ると 、 て … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ⼤規模⾔語モデルの作り⽅ (超簡易版) 1兆語規模のコーパス︔ 100万冊規模の本 予測︓ 次の単語はこれかな︖ と,単語別にスコアを返す 学習︓“正しい” 出⼒(たとえば「て」)のスコアが上がるように, ニューラルネットのパラメータ 全体をちょっとずつ⾃動で調整する このパラメータ調整を実現する魔法のような技術 (典型的には確率的勾配降下法)が,深層学習の肝のひとつ
  14. 19 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

    「昨⽇振られちゃって…」→「 ︖ 」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) 「うは、ウケるw」 「それはつらいですね…」
  15. 20 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

    「昨⽇振られちゃって…」→「 ︖ 」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) 「うは、ウケるw」 「それはつらいですね…」 予測︓ 次の単語はこれかな︖その次はこうだな︖ と返答⽂全体を作ってみる 学習︓“正しい” 出⼒(たとえば「それはつらいですね……」) のスコアが上がるように, ニューラルネットのパラメータ 全体をちょっとずつ⾃動で調整する
  16. 注︓⼤規模⾔語モデルがなぜうまく動いているかは 作っている側もよくわからない 21 • いま⼈類がそこそこわかっていること︓ どういう⼯学的な指針をとれば,流暢でかつタスク実⾏能⼒ も⾼い⾔語モデルを学習することができるか • まだ⼈類があまりよくわかっていないこと︓ そうして学習された⾔語モデル(膨⼤なパラーメータ

    の集合)がどのように動いているか • 現状︓ ヒトやその脳と同じくらい何も分からないけれど, 数理的・実験的に分析しやすい新しい観察対象が⼿に⼊った − ✔ めちゃくちゃ多くて⼈間にはひとつかみには理解できないけれど, とにかくすべてのパラメータの値を具体的に観察できる − ✔ “侵襲的な” 実験や,学習途中の介⼊実験も可
  17. “学習” ≠ 記憶 23 • よくある⾏き違い︓ 「⾔語モデルは⼈間のテキストを丸覚えして模倣している」 • ⾔語モデルがテキストコーパスから “学習する”

    というのは, ⾔語モデルがコーパスを記憶することではない • “学習” = データ(単語の並べ⽅)の傾向を学ぶすること ると 、 て … 学習︓“正しい” 出⼒(たとえば「て」) のスコアが上がるように, ニューラルネットのパラメータ . 全体をちょっとずつ⾃動で調整する ⾔語モデルのテキスト⽣成の傾向を少し⼈間に近づける 作業(学習)を,膨⼤な回数繰り返す
  18. “学習” ≠ 記憶 24 • 汎化︓ 初めて⾒るデータに対してよく動くこと − 統計的機械学習(⾔語モデルの基盤技術)において最も重要な概念 −

    ⾒たことがある例を記憶するのは簡単.計算機に格納すれば完. − ⾒たことがない例に対してもうまく動くように, ⼊出⼒ (この単語列の次は → この単語が出る)の傾向を捉えたい. cf. colorless green? ⻘点︓⾒たことがある例 画像︓Wikipedia https://en.wikipedia.org/wiki/Overfitting ⾚線︓⾒たことがある例をひた すら再現できるような線 あやしそう(過学習) 緑線︓傾向をざっくり捉える ⾒たことがない例でも良い予測 ができる(汎化)
  19. ✘ 次単語の予測確率を学習している ✔ 次単語の予測の仕⽅を学習している 25 • よくある⾏き違い︓「⾔語モデルは次単語の予測確率 “を” 学習しているに過ぎない」 −

    たしかに n-gram ⾔語モデルはそうだった. 「This apple の次に is が来る確率」そのものが推定の対象だった. • 実際は,あらゆるケースに対応できるように, 単語の並べ⽅(統語,意味,共起,…)や 返答の仕⽅ (談話,語⽤論,…) に関する 柔らかい規則を,データから全⾃動で獲得. 議論 は 健康 に らしい 良い ⼊⼒ 出⼒
  20. 26 • 数(単数・複数)の情報を追跡するニューロン が 数個だけ存在(=勝⼿に学習されている) • しかも,⽂の構造を追跡する別ユニット (ダイヤル 群)の制御の対象 (=そのように勝⼿に学習されている)

    • 注︓⼈⼯ニューラルネット内の各ダイヤル は⾜し算や掛け算といったシンプルな 計算のためのパラメーター. が,これらをたくさん積み上げると, 柔らかい条件分岐,構造の把握, なども実現可能 ✘ 次単語の予測確率を学習している ✔ 次単語の予測の仕⽅を学習している 議論 は 健康 に らしい 良い ⼊⼒ 出⼒ 📄 Lakretz et al., The emergence of number and syntax units in LSTM language models (NAACL 2019)
  21. 27 27 📄 Wikipedian (en), Dependency grammar, 2024-11-27 𝒗(An) 𝒗(inventory)

    𝒗(of) ⾔語モデルの内側で “近く” に来る 単語同⼠を繋げるだけで, 依存構造⽊がおおよそ復元される ※ 注︓結果には慎重な解釈が必要 📄 HewiN&Manning, A Structural Probe for Finding Syntax in Word RepresentaSons (NAACL 2019) ✔ 次単語の予測の仕⽅を学習している ✓→ そのための表現まで学習している ⾔語モデルの内側では, 各単語は数値列で表現されている =ある種の “近さ” “遠さ” を計算できる
  22. 28 ⾔語モデルで⾊の名前を エンコードした内部表現 ……同⼠の類似度 ⾊空間 (CIELAB; L*a*b*) 内での⾊の表現 ……同⼠の類似度 📄

    Abdou+, Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color (CoNLL 2021) ✔ 次単語の予測の仕⽅を学習している ✓→ そのための表現まで学習している ⾊を表す単語同⼠の⾔語モデル内での “近さ” (≈ ⾔語モデルが “感じる” ⾊の近さ)と, ⼈間が認識する⾊の近さが整合的
  23. まとめ 30 • ⾔語モデル − ⼈⼯知能・⾃然⾔語処理の⼯学的な進化の中で⽣まれた, 2026年現在は⼯学的に⼀番うまく動いている仕組み − 次の単語を予測できるように, “学習”

    (=パラメータ 群の微調整)を繰り返す − 単語の並べ⽅(統語,意味,共起,…)や返答の仕⽅ (談話,語⽤論,…) に 関する柔らかい規則を,データから全⾃動で獲得 • ⾔語モデルに関するよくある⾏き違いの解消 − “学習” ≠ 記憶 – ⾒たことがない例に対してよく動くように⼤まかな傾向を捉えることが 機械学習のもっとも重要な指針 − ✘ 次単語の予測確率を学習 → ✔ 次単語予測の仕⽅・仕組みを学習 – ⼈⼯ニューラルネットの内側で,各種の処理(統語,意味︔知識,推論︔ etc.)を全⾃動で実⾏するための表現と計算の仕⽅⾃体が学習される
  24. LMの⾔語運⽤能⼒と論理運⽤能⼒は関係ない︖ [Mahowald+, Trends in Cognitive Sciences 2024] 33 • ⾔語と思考

    (Mahowald+ による粗い分類) − “形式的能⼒”・“⾔語” 能⼒︓ 狭い意味での⾔語能⼒. – ⾔語の理解・⽣成,統語的規則,統語と意味の対応,etc. − “機能的能⼒”・“思考“ 能⼒︓ ⾔語とは関わりのない認知能⼒全般 – 形式的推論,常識推論,状況のモデリング,語⽤論,意図の理解,etc. • ヒトの場合 − おそらくこれらは関係ない – 失語症患者の知⾒,fMRI 等を通した実験的知⾒ • ⾔語モデルの場合 − おそらくこれらは関係ない – “形式的能⼒”︓ ほとんどあらゆるベンチマークタスクで⾼い性能 – “機能的能⼒”︓ 丁寧に実験設定を切り分けると,分布外ではぼろぼろ 📄 Mahowald+, DissociaSng language and thought in large language models (Trends in CogniSve Sciences 2024)
  25. ⾔語モデルの,⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 34 • LMも,簡単な⾜し算・引き算などはほとんど正解できる • Q. どのように︖

    − ✘ 簡易で⼀貫したアルゴリズムに基づいているわけではない – 筆算,全加算器︔少数のルールの “再帰的な” 積み上げ − ✘ 問題毎に答えを丸暗記しているわけでもない − ✔ 謎の⼆分探索を実⾏しているっぽい 📄 Nikankin+, ArithmeSc Without Algorithms: Language Models Solve Math With a Bag of HeurisScs (ICLR 2025)
  26. ⾔語モデルの,⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 35 • 「226 - 68 =」を解かせようとすると……

    − (1) “ヒューリスティック・ニューロン” の発⽕ – 🔥 「ふたつめの引数 ∈ [5, 25] mod 50」 – 🔥 「解 ∈ [150, 180]」 – 🔥 「解 ≡ 8 mod 10」 − (2) ⼀番スコアの積み上げが⼤きい「158」の⽣成確率が最⼤化 📄 Nikankin+, ArithmeSc Without Algorithms: Language Models Solve Math With a Bag of HeurisScs (ICLR 2025)
  27. ⾔語モデルの,⼆分探索に基づく謎の算術 [Nikankin+, ICLR 2025] 36 • 「226 - 68 =」を解かせようとすると……

    − (1) “ヒューリスティック・ニューロン” の発⽕︔ あたりをつける – 🔥 「ふたつめの引数 ∈ [5, 25] mod 50」 – 🔥 「解 ∈ [150, 180]」 – 🔥 「解 ≡ 8 mod 10」 − (2) ⼀番スコアの積み上げが⼤きい「158」の⽣成確率が最⼤化 📄 Nikankin+, ArithmeSc Without Algorithms: Language Models Solve Math With a Bag of HeurisScs (ICLR 2025)