Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve

Slide 1

Slide 1 text

Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve R. Thomas McCoy, Shunyu Yao, Dan Friedman, Matthew Hardy, Thomas L. Griffiths https://arxiv.org/abs/2309.13638 読む人：横井祥（東北大学） 2024-08-25, 第16回最先端NLP勉強会とくに注釈がない限り図表は紹介論文からの引用です画像：Wikimedia Commons https://commons.wikimedia.org/wiki/File:Embers_01.JPG ember a 残り火 b (感情・思い出などの)くすぶり, なごり. 研究社新英和大辞典第6版「次単語予測の残り火」

Slide 2

Slide 2 text

簡易まとめ 2 1. 言語モデルは見慣れた問題設定なら上手に解ける 2. 言語モデルは見慣れた出力なら上手に出力できる抽象的な話を始める前に…… やっていることはとてもとても分かりやすいので、一旦さらっと紹介

Slide 3

Slide 3 text

簡易まとめ 3 タスクの例：シーザー暗号 • 元文に含まれるすべての文字 [a-z] を、アルファベット表上で 𝑛 個手前の別の文字に置き換える • 𝑛 = 3 の場合 Caesar cipher, Wikipedia (en), https://en.wikipedia.org/wiki/Caesar_cipher [accessed 2023-10-26]

Slide 4

Slide 4 text

簡易まとめ 4 タスクの例：シーザー暗号 1. 言語モデルは見慣れた問題設定なら上手に解ける − 𝑛 = 13 ならすらすら復号化できる − 𝑛 = 8 だと復号化できない − 問題の難しさは同じはずなのに！

Slide 5

Slide 5 text

簡易まとめ 5 タスクの例：シーザー暗号 1. 言語モデルは見慣れた問題設定なら上手に解ける − インターネットで頻出の 𝑛 = 13 (rot-13) ならすらすら復号化できる − インターネットでほとんど出てこない 𝑛 = 8 だと復号化できないコーパス（学習データ）にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合 C4 から当該事例の候補をさらって（↓）、その後手動チェック（？！） — Appendix E.1 https://github.com/tommccoy1/embers-of-autoregression/blob/main/corpus_analysis

Slide 6

Slide 6 text

簡易まとめ 6 タスクの例：シーザー暗号 1. 言語モデルは見慣れた問題設定なら上手に解ける − インターネットで頻出の 𝑛 = 13 (rot-13) ならすらすら復号化できる − インターネットでほとんど出てこない 𝑛 = 8 だと復号化できない言語モデルがそこそこ解けるのも 𝑛 = 1, 3, 13 の場合コーパス（学習データ）にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合

Slide 7

Slide 7 text

簡易まとめ 7 タスクの例：シーザー暗号 2. 言語モデルは見慣れた出力なら上手に出力できる − 自然な英文へは復号化可「対立の解決は事実に基づかねばならない」 − 適当に名詞を置き換えて作った連語がぐちゃぐちゃな文は出せない「機能の拡大は彼の焦点に基づかねばならない」 − 問題の難しさは同じはずなのに！

Slide 8

Slide 8 text

簡易まとめ 8 1. 言語モデルは見慣れた問題設定なら上手に解ける 2. 言語モデルは見慣れた出力なら上手に出力できる • ……を真面目に調べた論文 • 以下、モチベーションから順に説明します

Slide 9

Slide 9 text

背景・やりたいこと 9 目的論的に（＝コーパスと次単語予測に帰着させて）言語モデルを理解したい

Slide 10

Slide 10 text

背景・やりたいこと 10 LMs にはヒト向けではなく LMs 向けの評価を行うべきでは？ • ヒトの（言語的・知的）能力やバイアスを評価するためのテストは、LMs の能力やバイアスを見逃す可能性 − ヒトには簡単だが（問うことすらしないが）LMs にとって難しい問題もたくさんある ← こういう問題が論文でたくさん登場します • 他の問題：擬人化バイアス、データ汚染、……

Slide 11

Slide 11 text

背景・やりたいこと 11 LMs を目的論的 (teleological) に理解しよう、という提案 • 進化生物学者が動物を理解しようとするように • 認知科学者が計算レベルで対象を理解しようとするように • 事前訓練時に LMs が受けている負荷は（＝どんなふうに “環境への適応” を強いられているかといえば）次単語予測 − 「ここに帰着させて LMs の能力やバイアスを理解しましょう」岡田, 1.総説:David Marrの三つのレベルとデータ駆動科学 (2014) 「LLM が何に影響を受けるか」についてのサーヴェイは §10 ヒトに対する目的論的アプローチについては §9.4

Slide 12

Slide 12 text

私見：コーパスと次単語予測への帰着は正しそう 12 私見：LMs の機能を、事前学習データ（コーパス）や目的関数（次単語予測）に帰着させることは、おそらくいま最も重要な研究の方向性のひとつ • 事前学習の設定が LMs の能力に直結する − 事前学習のスケーリングによる LMs の機能全体の改善 − 事前学習データの改善による LMs の機能全体の改善 • 事後学習は、事前学習で得た信号を取り出しているだけ？ − SFT/RLHF/DPO/...：小データ − PEFT/LoRA/Han+ACL’24/...：低次元 − “know what is knows” [Gekhman+ arXiv 2024-05] • → LMs の異様な力の源泉はコーパスが持つ統計情報のみ？ − ……だとすると、意味の使用説、機能主義言語学、構文文法、用法基盤モデル、etc. について、超大規模データ・LMs を用いた再検討が可能になったのでは……？（経験主義者による私見です）このペーパーを選んだ理由のひとつ

Slide 13

Slide 13 text

仮説：タスク・出力・入力の頻度が正解率に影響？ 13 • 次単語予測で訓練しているのだから…… • タスク頻度 (task probability) への鋭敏性 − 見慣れた問題設定（見たことがある問題文の系列）の場合はうまく動くし、見慣れない問題設定の場合にはうまく動かないのでは？ − → yes • 出力頻度 (output probability) への鋭敏性 − 見慣れた出力ならうまく出せるし、見慣れない出力はうまく出せないのでは？ − → yes • 入力頻度 (input probability) への鋭敏性 − 見慣れた入力ならうまく処理できるし、見慣れない出力はうまく処理できないのでは？ − → no っぽい？

Slide 14

Slide 14 text

やったこと 14 LMs の能力のタスク頻度・出力頻度・入力頻度へのバイアスを広範なタスクで確認

Slide 15

Slide 15 text

設定抜粋 15 • モデル：GPT-3.5, GPT-4 • タスク：いわゆる文脈内学習設定 (Appendix B) − 指示文の設計方針については §9.4 Input 問題の説明訓練事例数個 {(x,y)} テスト事例 xtest Brown+, Language Models are Few-Shot Learners (NeurIPS 2020) (GPT-3 論文) Input

Slide 16

Slide 16 text

例：シーザー暗号 16 シーザー暗号 • 元文に含まれるすべての文字 [a-z] を、アルファベット表上で 𝑛 個手前の別の文字に置き換える • 𝑛 = 3 の場合 Caesar cipher, Wikipedia (en), https://en.wikipedia.org/wiki/Caesar_cipher [accessed 2023-10-26]

Slide 17

Slide 17 text

例：シーザー暗号 17 LMs のシーザー暗号の復号化能力はタスク頻度に鋭敏 − インターネットで頻出の 𝑛 = 13 (Rot-13) ならすらすら復号化できる − インターネットでほとんど出てこない 𝑛 = 2 (Rot-2) だとダメ − 問題の難しさは同じはずなのに！正解率

Slide 18

Slide 18 text

例：シーザー暗号 18 LMs のシーザー暗号の復号化能力は出力頻度に鋭敏 − 「不自然な文を暗号化したもの」……を復号化しようとると失敗する − タスクの複雑さは変わらないのに出力文字列の頻度 GPT-2 で推定正解率

Slide 19

Slide 19 text

例：シーザー暗号 19 LMs のシーザー暗号の暗号化能力は入力頻度にはそんなに鋭敏ではない…？ − 不自然な文の暗号化 ……はちょっと失敗しやすい…かも…？入力文字列の頻度正解率

Slide 20

Slide 20 text

例：一次式の計算 20 LMs の一次式の計算能力はタスク頻度に鋭敏 − 全く同じ形式でも成功しまくるパターンと全然成功しないパターン − 成功する方は摂氏華氏変換 − タスクの複雑さは変わらないのに！

Slide 21

Slide 21 text

例：冠詞の入れ替え 21 LMs の単語（冠詞）の入れ替えの成功率は出力頻度に鋭敏 − 回答が自然な文なら大丈夫 − 不自然な文だとだめ − 形式的には問題の難しさは変わらないはずなのに正解率出力文字列の頻度

Slide 22

Slide 22 text

まとめ 22

Slide 23

Slide 23 text

飛ばした（大量の）コンテンツ 23 • 分厚いペーパー − 50 pages + 11 page of references + 23 pages of appendices • 潤沢なタスク群 − 11種、Table 2 参照 • 潤沢な関連研究 − §9.3, §10.1.1: ヒトと LMs を比較することについて − §10.1: モデルの能力をコーパスに帰着する際に気を付けるべきこと • わかりやすい膨大な可視化 • 再現性の担保 − Appendix に手順を丁寧に記載 − コードベースを公開

Slide 24

Slide 24 text

まとめ 24 Embers of Autoregression • LMs の得意不得意を、事前訓練に（ウェブコーパス上での次単語予測に、目的論的に）帰着させて理解したい • タスクの成功率が以下、とくに1, 2に大きく影響を受けることを確認 1. タスク頻度：当該の設定がどの程度の割合でコーパスに登場するか 2. 出力頻度：出力テキストがどの程度の割合でコーパスに登場するか 3. 入力頻度：入力テキストがどの程度の割合でコーパスに登場するか • 問題の形式的な複雑さが同じでも頻度で正解率が変わる − ※ これがヒトとの違いかは謎。我々も似たようなものでは……？ − ※ 著者は、決定論的なタスクなのに頻度に影響を受けて回答が揺れる部分を強調している。が、ここはまだ共感できていない。 ember a 残り火 b (感情・思い出などの)くすぶり, なごり. 研究社新英和大辞典第6版「次単語予測の残り火」

Slide 25

Slide 25 text

感想 25 • Super well-written paper − 個人的にはこの1年で少なくともトップ2に入る面白い論文 − もうひとつは、Mahowald+, Dissociating language and thought in large language models (Trends in Cognitive Sciences 2024) • 批判：スコープの広さが不明 − この分析方法にフィットしかつ決定論的な問題を集めた、とも言えそう − 決定論的な問題のすべてが頻度バイアスを持つかは不明 − こうしたバイアスがかかる確率的な問題も自然に色々ありそう • 個人的な興味に直撃 − 「意味はテキスト（分布）に現れ、分布（統計的な情報）として現れる意味のみを LLM が扱い得る」派としては、「いいね！」になる − ヒトのおこなう一見すると高次な知的活動の中にも「見たことがある」で解ける種類のものも山程ありそう。ここの定式化に足掛かりにしたい

Slide 26

Slide 26 text

補遺 26 • Q. LMs は見たことがあることしかできない、ということ？ A. No, そうは言っていないです − ほかにもたくさんできることがあります – 見たことがある情報の逐次的な利用 – 見たことがある情報の抽象化・汎化 – タスクのクラス自体の汎化（ある種のメタ学習） − それとは別に、事前学習のデータや目的関数が効いている、という話 • Q. LMs は決定的/記号的な推論は無理、ということ？ A. No, そうは言っていないです − 少なくともここで例に挙がっていた問題群に関して、現状のデータと目的関数の下で、あるレベルでの汎化に失敗している、というだけ − 教師なし（自己教師あり）での抽象化（離散化）がある程度成功している以上、「確率的マシンで決定的/記号的推論はできない」も飛躍に見える