Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コーパスを丸呑みしたモデルから言語の何がわかるか

Sho Yokoi
March 03, 2025

 コーパスを丸呑みしたモデルから言語の何がわかるか

「国立国語研究所 次世代言語科学研究センター開所式及び第1回研究会」で用いたスライドです

Sho Yokoi

March 03, 2025
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. 自己紹介 2 横井 祥 (よこい しょう) − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 略歴 −

    B … 京大 計算機(機械学習,指導教員:鹿島久嗣先生) − M/D … 東北大 情報(自然言語処理,指導教員:乾健太郎先生) − PD … 東北大 情報,理研 AIP − 現 … 国語研 E3Pセンター,東北大 言語AIセンター,理研 AIP 専門 … 自然言語処理・表現学習 − 人の言葉が持つ各種の “意味” が, テキストの統計的な情報にいかに転写されるか, またそれが 埋め込み空間の幾何的な情報にいかに転写されるか に興味 − JST 創発「意味とデータとモデルを繋ぐ言語幾何学の創出」, 学術変革A「データ記述科学」,基盤B「言語で記述された常識と実世界 の観察を統合するロボットのための知識推論システム」
  2. 自己紹介 3 横井 祥 (よこい しょう) − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 略歴 −

    B … 京大 計算機(機械学習,指導教員:鹿島久嗣先生) − M/D … 東北大 情報(自然言語処理,指導教員:乾健太郎先生) − PD … 東北大 情報,理研 AIP − 現 … 国語研 E3Pセンター,東北大 言語AIセンター,理研 AIP 専門 … 自然言語処理・表現学習 − 人の言葉が持つ各種の “意味” が, テキストの統計的な情報にいかに転写されるか, またそれが 埋め込み空間の幾何的な情報にいかに転写されるか に興味 − JST 創発「意味とデータとモデルを繋ぐ言語幾何学の創出」, 学術変革A「データ記述科学」,基盤B「言語で記述された常識と実世界 の観察を統合するロボットのための知識推論システム」 これまでは計算機科学・ 情報科学のコミュニティにいました 言語 × 認知 × 数理 について考える未曾有のチャンス だと思っています
  3. 我々は言語モデルに 言語知性を感じ取ってしまう 6 • 流暢さ − 言語モデルのパープレキシティ(損失)は十分低い − = 次単語予測の精度が非常に高い

    − = ヒトの集合が書いた大量のテキストと、 言語モデルが書いた大量のテキストとを比べると、 少なくとも「単語の並べかた」という観点では酷似する • 問題解決力 − 文脈内学習:「こんなタスクを解いてね」と数例見せるだけで解ける − 思考の連鎖:部分問題に分解しながら解かせると正解率が上がる − 各種試験で人間を越えるスコア − 定理証明、詩作、慰め、アジテーション、……
  4. 13 • 「人間の書いた文章だとして,次はどんな単語が来る?」 − 文章を途中 [ ? ] 読ませて次の単語を予想させる 画像:いらすとや

    https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… まで から で … 大規模言語モデルの作り方 (超簡易版) 数千億単語; 数万〜数十万冊の 書籍を含む
  5. 15 • 「人間の書いた文章だとして,次はどんな単語が来る?」 − 文章を途中まで読ませ [ ? ] 次の単語を予想させる て

    ると 、 … 画像:いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… 数千億単語; 数万〜数十万冊の 書籍を含む 大規模言語モデルの作り方 (超簡易版)
  6. 16 • 「人間の書いた文章だとして,次はどんな単語が来る?」 − 文章を途中まで読ませ [ ? ] 次の単語を予想させる て

    ると 、 … 画像:いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… 数千億単語; 数万〜数十万冊の 書籍を含む 大規模言語モデルの作り方 (超簡易版) 「次の単語を予測する」「たくさん見る」という学習方法の工学的な良さ • 自己教師あり学習 • 教師ラベル(人手のアノテーション)のついていないデータから学習できる. • いくらでも学習用の練習問題が手に入る. • ※ 実際には枯渇も懸念されている. • ※ 生コーパスだけを参照する.≈「使用としての意味」だけを捉えようとする. • 生成モデル • 文をサンプリングできる. • =人のように流暢に答えてくれる,話してくれる. • cf. 識別モデル:与えられた文に対する何らかの識別問題(e.g. 文分類)ができる. • スケーリング則 • データサイズ・モデルサイズ・学習ステップ数と損失(学習の成功度合い)の間に 強い対応関係がある. • =投資額に対する性能を見積もれる(外挿できる)というビジネス上有用な性質. • ※ 実際の品質との関係はまだ完全にはわかっていない • ※ 最大のリソースである web データも間もなく使い切り;事後学習の時代に.
  7. ただの “パターン認識” なのでは…? 何も “わかって” はいないのでは…? 28 • LMは人の声を真似している に過ぎない

    [Bender+’21] − LMはコミュニケーション意図も世界モデルも心の理論も持っていない − ものすごく流暢だからつい人間は勘違いしてしまうけれど、アレは何 もわかっていない • 言語運用能力と思考能力は違う [Mahowald+’24] − これらは認知科学の観点でも神経科学の観点でも別物と考えるべき − LMは前者はかなりうまくやっているけれど後者は全然ダメ • 同じ形式の問題でもコーパス頻度で正解率に差 [McCoy+’23] − 全く同じ形式の問題(e.g. 与えられた数字に定数をかけて足す)でも、 高頻度な問題(e.g. 華氏摂氏変換)ならうまく解けるし、 ちょっと値を変えると失敗する Bender+, On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? (FAccT 2021) Mahowald+, Dissociating language and thought in large language models (Trends in Cognitive Sciences 2024) McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09)
  8. 単語カテゴリの抽象化 — 言語モデルの場合 [Kim&Smolensky’21] 34 Kim&Smolensky, Testing for Grammatical Category

    Abstraction in Neural Language Models (SCiL 2021) 存在しない英単語 それでも人間は 「the の後だから名詞っぽい」 「述語動詞を置くべき場所にある から動詞っぽい」とわかる 人間なら「ここは {名詞, 動詞} を入れるべき スロットなので {blick, dax} が適切」と判定できる
  9. “パターン認識” の手が届く範囲はかなり広い (2) 関係知識 37 • ヒトは膨大な関係知識を縦横に使いながら言語を用いたコミュニ ケーションをおこなっている • 「明日の発表資料を明け方まで作ることになりそう…」

    → 「朝電話しようか?」 − 自然な会話に見える − 自然だと発話者や我々が理解できるのは,膨大な知識を共有しているから • 関係知識のデータベースを構築する(終わりなき)試み − Cyc [Lenat‘95]・ConceptNet [Liu&Singh’04],ATOMIC [Sap+’19] • 明け方まで起きている → 睡眠時間が減る • 短い睡眠時間 → 起きるのが難しい • 電話をかける → 相手の目を覚ます Lenat, Cyc: A Large-scale Investment in Knowl- edge Infrastructure (Commun. ACM 1995) Liu&Singh, ConceptNet — A Practical Commonsense Reasoning Tool-Kit (BT Technol. J. 2004) Sap+, ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning (AAAI 2019)
  10. 言語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyal’23] 39 • 我々の書く文には並列構造 (coordinate structure) がたく さんある

    Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure Induction (arXiv 2023) 同じようなパターンの繰り返し 単語,句,節,文… など様々な 単位で起きる
  11. 42 • 言語モデルは、テキスト中の並列構造を見て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 ... ... ... ...

    the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.’s capital ..., Tokyo is the Japan’s capital ... 言語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyal’23]
  12. 43 • 言語モデルは、テキスト中の並列構造を見て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 言語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyal’23] ...

    ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.’s capital ..., Tokyo is the Japan’s capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya …
  13. 44 • 言語モデルは、テキスト中の並列構造を見て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 − 予測(文脈内学習) Japan ->

    Tokyo, Ghana -> [ ? ] 言語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyal’23] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.’s capital ..., Tokyo is the Japan’s capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya …
  14. 45 • 言語モデルは、テキスト中の並列構造を見て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 − 予測(文脈内学習) Japan ->

    Tokyo, Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.’s capital ..., Tokyo is the Japan’s capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … 言語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyal’23] (OK... relation 132) Accra …
  15. 50 • ほんの少し正確なステートメント − 〔言語学のかた向け〕PCFG よりも少し強い文法を仮定 − 〔機械学習のかた向け〕構文木が単語数に対して十分小さければ(=目 的の関係が並列構造として繰り返し出現していれば)、当該の関係に関 して予測先単語の選択肢が減るので文脈内学習の

    0-1 loss が下がる ※ コーパスにおける繰り返しと文脈内学習のプロンプトが同じ形である ことをしていることを仮定 ※ 汎化については議論せず ※ 漸近的性質についても議論せず 言語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyal’23] Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure Induction (arXiv 2023) 並列構造の明示 構文木を小さくできる 部分木をまたいだ 条件つき生成
  16. 経験主義的な言語観 56 • フレーゲ:文脈原理 − 語の意味は文という文脈の中ではじめて決まる • 後期ヴィトゲンシュタイン:意味の使用説 − 言葉の意味は抽象的規則や世界との対応ではなく言語使用の実践で

    決まる • バイビー,トマセロ,……:用法基盤モデル − 文法や言語的な規則は言語使用の経験を通して徐々に習得される • レイコフ,ジョンソン,……:認知意味論 − 言葉の意味は身体的な経験・認知プロセス等に基づいて決まる • ……
  17. 知識ニューロン・知識編集 59 • 当該ニューロンを消す (“抑制する”) と、 機能を選択的に消すことができる Dai+, Knowledge Neurons

    in Pretrained Transformers (ACL 2022) 特定ニューロン (群) の削除 パープレキシティが上がる =当該知識について「言えなく」なる ほかの知識に関しては パープレキシティが下がらない =他の知識に関する予測には影響がない
  18. 連続空間の取り扱いやすさ 61 • 従来の統計的自然言語処理 − パイプライン:形態素解析 → 構文解析 → 意味解析

    → …… − 離散シンボル (e.g. 単語) 間の離散構造 (e.g. 木) を取り扱う − 数理モデリングもその処理・最適化も非常に難しい • 現在のニューラルネットベースの自然言語処理 − end2end:中間問題を解かない − 高次元の連続空間で点群を取り扱う − 手触りがあり直感的で,幾何的/線型代数的な取り扱いも容易
  19. コーパスを丸呑みしたモデルから 言語の何がわかるか 64 • 言語モデルの成功 − 高い流暢性、言語が関わる非常に広範囲のタスクの実行能力 − 「コーパスをとにかく見まくる」の言語モデルの鍵のひとつ •

    パターン認識 (経験から立ち上がる知性) はかなりすごい − 「そんなオウムのような真似ごとで、ヒトを霊長類たらしめていると ころの言語を特徴づけられないでしょう」という批判は当然ある − が,言語モデルは,経験のみから各レイヤでの抽象化に成功している • 経験主義的な言語観の実験科学化・数理科学化 → 新しい言語の学知へ − 経験から言語知性が立ち上がる,という考えかたは人文知の中に当然 たくさん深い議論がある – 文脈原理・意味の使用説・用法基盤モデル・認知意味論 − 今の言語モデルはこの実験科学化・数理科学化と大変相性が良い – 侵襲的な介入が可能・取り扱いやすい連続空間
  20. ラボを立ち上げます 67 • ラボを立ち上げます − 情報系出身の自分は「大きなホワイトボードとおいしい珈琲と元気な 若者を居心地の良い部屋に入れておくと (?) 面白い議論が生える」メ ソッドの信奉者です

    − 4月から早速メンバーが増える予定です − 言葉の意味の統計的・幾何的特徴付け − 経験主義的な言語(哲)学の実験科学・数理科学としてのリバイバル − 研究というプロセス自体の改善もおおいにおこなう予定です • ご興味がある皆さんぜひご連絡ください! − “この手の” 研究・スタイルにご興味がある皆さん, ぜひ気軽にご連絡ください − 各種バックオフィスにご興味のある皆さんもぜひご連絡ください − 様々な種類のポスト・協業の仕方を案内できそうです − [email protected]