$30 off During Our Annual Pro Sale. View Details »

「確率的なオウム」にできること、またそれがなぜできるのかについて

Sho Yokoi
July 07, 2024

 「確率的なオウム」にできること、またそれがなぜできるのかについて

九州大学大学院 人文情報連係学府(仮称・設置認可 申請中)学際シンポジウムシリーズ「接続する人文学:テクストを計算する」
https://dh.kyushu-u.ac.jp/research/
2024年7月

Sho Yokoi

July 07, 2024
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. ⾃⼰紹介 2 横井 祥 (よこい しょう) − ⾃然⾔語処理の研究をしています − http://www.cl.ecei.tohoku.ac.jp/~yokoi/index_ja.html

    🕒 略歴 − B … 京⼤ 計算機(指導教員︓⿅島久嗣先⽣) − M/D … 東北⼤ 情報(指導教員︓乾健太郎先⽣) − 現職 … 東北⼤ 情報,理研 AIP 🎓 専⾨ … “⾔葉の意味の形” − ⼈の⾔葉の持つ各種の “意味” が, 埋め込み空間の幾何的な性質としてなぜ現れるのか, とくにそれがコーパスのいかなる統計情報に駆動されているのか, について研究しています. − できるだけシンプルな計算⽅法を⾒つけ出し,別トピックや別分野を 専⾨にするかたにも使いやすい形に持ち込むのが趣味です.
  2. 研究の興味︓意味の形 4 最近のニューラルネットに基づくNLPの⾯⽩いところ(私⾒) → 意味・能⼒が分布・統計情報を介してモデルに転写される 似た分布 飼っている 猫の写真を を友達に送 ったところ

    … 飼っている ⼦猫の写真 を友達に送 ったところ … 似た意味 似た機能 似た形 ⾔葉や意味について ⼿触りのある形を通して理解できて嬉しい(私が)
  3. 研究の興味︓意味の形 • 意味と形の関係を調べる研究が好きです − 語の意味の強さ ↔ 周辺分布の偏り ↔ 単語ベクトルの⻑さ [EMNLPʼ20,

    ICLRʼ21, EMNLPʼ23, EMNLP Findingsʼ23] − 語義への⽂脈の影響 ↔ ? ↔ 埋込空間での “混ざり具合” [EMNLPʼ20, EMNLPʼ21, ICLRʼ24] − ⽂の意味的類似度 ↔ 単語単位の集合類似度 ↔ 点群間の幾何的類似度 [EMNLPʼ20, ACLʼ23, EMNLP Findingsʼ23, NAACLʼ24] − 語義の排他性 ↔ 周辺分布の均⼀さ ↔ 埋込空間における局所性 [ACL-SRWʼ23] − etc. • ご興味を持たれたかたがおられたら,な動画 − 🗣 “⾔葉の形を教えてくれる⾃然⾔語処理” [IPSJ-ONEʼ22] – 動画 (5min),スライド − 🗣 “最適輸送と⾃然⾔語処理” [NLPʼ22] – 動画 (90min),スライド • 共同研究しましょう︕ 5
  4. 8 ⾔語モデルがヒトの⾔語の「使⽤としての意味」を捉えているとして • それはどのように実現しているのか︖ • いかなる現象が観察されているのか︖ ⽬次 準備. ⾃然⾔語処理 (NLP)

    分野の⽬標 準備. ⼤規模⾔語モデル (LLM) の作り⽅と強⼒な⾔語処理能⼒ 1. 「共起に帰着させる」の気持ち 2. LLM がある程度うまくできていることの例︓カテゴリの抽象化 3. LLM がうまくできているか要議論な例︓頻度バイアス 今⽇の話題︓⼤規模⾔語モデル (LLM) …が「確率的なオウム」だとして,なぜこうもうまく動くのか 多くのかたが⽇々⽬にする話題 だと思いますし,ごく簡単に…
  5. 12 • ⾃然⾔語処理 (NLP) A popular hypothesis to explain... 記録的猛暑を説明する有⼒な仮説…

    分野の興味︓⼈の⾔葉の計算 ⾃然⾔語︓⽇本語,英語,... cf. 形式⾔語/⼈⼯⾔語︓⽂字列,プログラミング⾔語,...
  6. 分野の⽬標︓⾔葉の意味の計算を通した ⾔語に関する⼯学的・理学的探求 • ⾃然⾔語処理 (NLP) − 🛠 ⾃然⾔語のテキストを計算機で処理したい 🛠 ⼈間が⾏う情報処理やコミュニケーションをサポートしたい

    – 機械翻訳 (e.g. DeepL) – ⼊⼒補完 (e.g. GitHub/Microsoft Copilot) – 対話システム (e.g. ChatGPT) − 💡 ⾃然⾔語の計算モデルを通して⾃然⾔語を理解したい – ⾔語を越えた普遍性︖ – ⾔語の複雑さに違いはある︖ – ヒトの⾔語獲得への⽰唆︖ 13 作りたい 分かりたい
  7. 15 via ChatGPT, May 24 Version, Model: GPT-4, 2023-07-20 指⽰に応じた回答

    アイデア出し,悩み相談,⽂章のドラフト作成 など,オープンクエスチョンへの回答が得意 https://openai.com/blog/chatgpt ChatGPT [OpenAIʼ22] 指⽰に応じた回答
  8. ⾔語モデル(基盤モデル,⽣成AI,...)が 社会を変えつつある 16 • ChatGPT が史上最速で1億ユーザ突破 (2023-01) • 国内外の各種難関資格試験に合格 •

    各国が政策に組み込み • 創作活動⽀援,議論相⼿,私設秘書,としての私的利⽤ • 著作権,置き換えられる職業の保護,検索を伴うサービスの 採算モデルは変化するか,各 “ロボット” や “システム” へ の⾔語での指⽰が現実的に,各ジャーナル・国際会議が執筆 へのAI利⽤に対するスタンスを提⽰,⾮プログラマが⾔語デ ータを扱えるようになったことでデータ駆動科学が⼤きく広 がる可能性,初等教育・⾼等教育における教員側・学⽣側の 利⽤⽅針,⾔語の多様性が低下する可能性,……
  9. 18 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中 [ ︖ ] 読ませて次の単語を予想させる

    • 2. 「⼈間に対するボットの返信として適切なものは︖」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… まで から で … ~100B tokens; ~1M books ⼤規模⾔語モデルの作り⽅ (超簡易版)
  10. 19 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる

    • 2. 「⼈間に対するボットの返信として適切なものは︖」 て ると 、 … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ~100B tokens; ~1M books ⼤規模⾔語モデルの作り⽅ (超簡易版)
  11. 20 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

    「昨⽇振られちゃって…」→「 ︖ 」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) 「うは、ウケるw」 「それはつらいですね…」
  12. 21 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

    「昨⽇振られちゃって…」→「 ︖ 」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) 「うは、ウケるw」 「それはつらいですね…」 こちらの話もすごく⾯⽩いのですが今⽇は略 Step 2 での補正は「⼩さい」と考えられる • SFT/RLHF … ⼩規模データ • LoRA … 低ランク 今⽇はこちらの話
  13. 22 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませてその次の単語を当てさせる • 2. 「⼈間に対するボットの返信として適切なものは︖」 −

    「昨⽇振られちゃって…」→「 ︖ 」 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ⼤規模⾔語モデルの作り⽅ (超簡易版) なぜ「次単語予測」というモデル・学習⽅法がそんなに良いのか • ⾃⼰教師あり学習 • 教師ラベル(⼈⼿のアノテーション)のついていないデータから学習できる. • いくらでも学習⽤の練習問題が⼿に⼊る. • ※ 実際には枯渇も懸念されている. • ⽣コーパスだけを参照する.≈「使⽤としての意味」だけを捉えようとする. • ⽣成モデル • ⽂をサンプリングできる. • =⼈のように流暢に答えてくれる,話してくれる. • cf. 識別モデル︓与えられた⽂に対する何らかの識別問題(e.g. ⽂分類)ができる • スケーリング則 • データサイズ・モデルサイズ・学習ステップ数と損失(学習の成功度合い)の間に強い 対応関係がある. • =投資額に対する性能を⾒積もれる(外挿できる)というビジネス上有⽤な性質. • ※ 実際の品質との関係は未知数.
  14. ⽂脈内学習 (in-context learning) 次単語予測ロボ🤖 の驚くべき能⼒のひとつ • いくつかの練習問題を⾒せるだけで 新しい問題に回答することができる Input 問題の説明

    訓練事例数個 {(x,y)} テスト事例 xtest 23 次の単語は... fromage … ……ここまでを「途中まで書かれた⽂」として読ませ て,続きの単語列として ytest を予測させることができる 📄 Brown+, Language Models are Few-Shot Learners (NeurIPS 2020) (GPT-3 論⽂) Input output
  15. ⽂脈内学習の不思議さ・衝撃 24 • 旧来のアプローチ1︓教師あり学習 French sentence Translated English sentence French

    sentence Translated English sentence French sentence Translated English sentence French sentence Translated English sentence … QAのペアをたくさん⾒せて 「Q→A 変換ロボ」を育てる 訓練事例数︓104–107
  16. ⽂脈内学習の不思議さ・衝撃 25 • 従来のアプローチ2︓事前訓練 → 微調整 − Step 1: Pre-training

    with large [ ︖ ] − Step 2: Fine-tuning corpora text … Q A Q A Q A 「単語⽳埋めロボ」 を訓練 ⾔語の気持ちが⼗分わかっ た「単語⽳埋めロボ」を 改めて QA 集で訓練 … 訓練事例数︓102–103 😀
  17. ⽂脈内学習の不思議さ・衝撃 26 • ⽂脈内学習 − Step 1: Pre-training with large

    [ ︖ ] − Step 2: Prediction text … 📄 Brown+, Language Models are Few-Shot Learners (NeurIPS 2020) fromage … 「次単語予測ロボ」 を訓練 訓練事例数︓0–10 モデルパラメータの 更新なし ?! ?! corpora Input output 問題を数問 ⾒せるだけ
  18. 28 ⾔語モデルがヒトの⾔語の「使⽤としての意味」を捉えているとして • それはどのように実現しているのか︖ • いかなる現象が観察されているのか︖ ⽬次 準備. ⾃然⾔語処理 (NLP)

    分野の⽬標 準備. ⼤規模⾔語モデル (LLM) の作り⽅と強⼒な⾔語処理能⼒ 1. 「共起に帰着させる」の気持ち 2. LLM がある程度うまくできていることの例︓カテゴリの抽象化 3. LLM がうまくできているか要議論な例︓頻度バイアス 今⽇の話題︓⼤規模⾔語モデル (LLM) …が「確率的なオウム」だとして,なぜこうもうまく動くのか 肝︓⼈⼿が(ほとんど)⼊っていない⽣ テキストを⼤量に使えば学習できる. ある意味で「使⽤としての意味」だけを ⾒ている
  19. 計算機にとっての⾔葉 • “ଆପଣ ଏହି ବାକ* ବୁଝିପାରିେବ।” の意味は…︖ • o0( [23,

    851, 3048, 2209, 9] のイミは…? ) − 計算機は謎の単語 ID 列の処理を強いられている − ⼀番⼩さな単位である単語の意味から教える必要がある 31
  20. 「意味」とは 33 • “Biden” の意味は︖ − Biden という定数記号︖(モデル理論的意味論) − 現実世界の

    Joe Biden︖(現実世界の指⽰先) − Wikipedia の Joe Biden の記事︖(Entity linking) • “cat” の意味は︖ − 現実世界の猫(の集合)︖(現実世界の指⽰先) − 猫という観念︖(⼼の中の猫観念) − 辞書的な説明︖ – 「⾷⾁⽬ネコ科の哺乳類.体⻑50センチメートル内外.(...)」[⼤辞林] • “beautiful” の意味は︖ “pretty” との違いは︖ • “意味” の意味は︖ “エモい” や “エグい” の意味は︖ • 計算機で扱いやすい⼀貫した定義を与えるのは極めて困難
  21. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ97, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]

    • “ひろっこ” という単語の意味は︖ • コーパス (単語の使われ⽅) を⾒ると…… − 「ひろっこの胡⿇味噌あえ」 − 「雪を掘り起こして収穫されるひろっこは……」 − 「ひろっこは雪深い秋⽥県湯沢市相川地区で半世紀以上前から栽培」 35
  22. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ97, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]

    • “ひろっこ” という単語の意味は︖ • コーパス (単語の使われ⽅) を⾒ると…… − 「ひろっこの胡⿇味噌あえ」 − 「雪を掘り起こして収穫されるひろっこは……」 − 「ひろっこは雪深い秋⽥県湯沢市相川地区で半世紀以上前から栽培」 − 意味がわかる = 使われ⽅がわかる • 単語の “ベクトル” 表現 − 使われ⽅が似ている単語を近い場所に配置する – 巨⼤なデータから「使われ⽅」を学習する − DeepL も ChatGPT も中⾝はこれ 36
  23. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ97, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]

    37 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ かる. − “If A and B have almost identical environments (...), we say they are synonyms: oculist and eye-doctor” [Harrisʼ54] − “You shall know a word by the company it keeps” [Firthʼ57] − “words with similar meanings will occur with similar neighbors if enough text material is available” [Schütze&Pedersenʼ97] 📄 Harris, DistribuEonal Structure (WORD 1954) 📄 Firth, A Synopsis of LinguisEc Theory, 1930-55 (1957) 📄 Schütze&Pedersen, A cooccurrence-based thesaurus and two applicaEons to informaEon retrieval (Inf. Process. Manage. 1997)
  24. 38 • 1. 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる

    • 2. 「⼈間に対するボットの返信として適切なものは︖」 て ると 、 … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ~100B tokens; ~1M books ⼤規模⾔語モデルの作り⽅ (超簡易版)
  25. 39 • 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる •

    やっていること︓⽂脈を表すベクトル(ニューラルネットの 内部表現)と,次の単語を表すベクトルとを近づけている て ると 、 … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ~100B tokens; ~1M books ⼤規模⾔語モデルの作り⽅ (超簡易版) “⽂章を途中まで読ませ” “て” 学習コーパスでの使われ⽅ の傾向と意味を同⼀視
  26. 40 • 「⼈間の書いた⽂章だとして,次はどんな単語が来る︖」 − ⽂章を途中まで読ませ [ ︖ ] 次の単語を予想させる •

    やっていること︓⽂脈を表すベクトル(ニューラルネットの 内部表現)と,次の単語を表すベクトルとを近づけている て ると 、 … 画像︓いらすとや https://www.irasutoya.com/2012/12/blog-post_6178.html ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ~100B tokens; ~1M books ⼤規模⾔語モデルの作り⽅ (超簡易版) “⽂章を途中まで読ませ” “て” 学習コーパスでの使われ⽅ の傾向と意味を同⼀視 この「使⽤と意味の同⼀視」という指針から 多様で複雑な機能が創発される • 極めて流暢に⽂法エラーをほとんど起こさず「発話」できる • 「⽇本で⼀番⻑い川は」といった知識の問題にも答えられる • 即興で短い物語を作ることすらできる ⾃然な問い︓ なぜか︖
  27. 2. ⾔語モデルの抽象化能⼒ 42 ここまでの話 • ⾔語モデルは次単語予測に基づいて育てられる (⾃⼰教師あり学習︔⽣コーパスの統計情報だけを使って︔ 使⽤としての意味に基づいて) • 気持ち︓出現⽂脈

    ↔(次に現れる)単語 の 共起関係 を, ⾼次元埋込空間上の表現同⼠の距離で柔らかく捉える(同⼀ 視する) ここで紹介する話 • 似た⽤法 ←→ 似た単語 を繰り返し学ぶことで,単語に関わ る何らかの カテゴリ が⾃動的に柔らかく獲得されうる
  28. 単語カテゴリの抽象化 ̶ ⼈間の場合 49 • とある料理の作り⽅︓ “オフチョベットしたテフをマブガッドしてリットにします” − 「専⾨⽤語が多すぎて何もわからん」と読み⼿が感じるのが ミームとしての⾯⽩いところだけれど…

    − 少なくとも⽇本語ネイティブで助詞の使い⽅に慣れている⼈なら これくらいは分かる たぶん⾷材 たぶん調理法 たぶん調理法 調理済みの何か︖ 穀物の名前 粉末状にする 発酵させる 練粉 とあるサイトに よると……
  29. 単語カテゴリの抽象化 ̶ ⼈間の場合 50 • 少なくとも⺟語に関して,我々は単語たちをその使い⽅で 直感的にカテゴライズしている She writes ...

    She presents ... She discusses ... She predicts ... the language the slide the brain the intelligence the number She works ...
  30. 単語カテゴリの抽象化 ̶ ⼈間の場合 51 • 少なくとも⺟語に関して,我々は単語たちをその使い⽅で 直感的にカテゴライズしている She writes ...

    She presents ... She discusses ... She predicts ... the language the slide the brain the intelligence the number She works ...
  31. 単語カテゴリの抽象化 ̶ ⾔語モデルの場合 [Kim&Smolenskyʼ21] 52 📄 Kim&Smolensky, TesEng for GrammaEcal

    Category AbstracEon in Neural Language Models (SCiL 2021) 存在しない英単語 それでも⼈間は 「the の後だから名詞っぽい」 「述語動詞を置くべき場所にある から動詞っぽい」とわかる ⼈間なら「ここは {名詞, 動詞} を⼊れるべき スロットなので {blick, dax} が適切」と判定できる
  32. 関係知識の利⽤ ̶ ⼈間の場合 55 • ヒトは膨⼤な関係知識を縦横に使いながら⾔語を⽤いたコミュニ ケーションをおこなっている • 「明⽇の発表資料を明け⽅まで作ることになりそう…」 →

    「朝電話しようか︖」 − ⾃然な会話に⾒える − ⾃然だと発話者や我々が理解できるのは,膨⼤な知識を共有しているから • 関係知識のデータベースを構築する(終わりなき)試み − Cyc [Lenatʻ95]・ConceptNet [Liu&Singhʼ04],ATOMIC [Sap+ʼ19] • 明け⽅まで起きている → 睡眠時間が減る • 短い睡眠時間 → 起きるのが難しい • 電話をかける → 相⼿の⽬を覚ます 📄 Lenat, Cyc: A Large-scale Investment in Knowl- edge Infrastructure (Commun. ACM 1995) 📄 Liu&Singh, ConceptNet — A PracEcal Commonsense Reasoning Tool-Kit (BT Technol. J. 2004) 📄 Sap+, ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning (AAAI 2019)
  33. ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] 56 • 我々の書く⽂には並列構造 (coordinate structure) がたく さんある

    📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducEon (arXiv 2023) 同じようなパターンの繰り返し 単語,句,節,⽂… など様々な 単位で起きる
  34. 57 • ⾔語モデルは、テキスト中の並列構造を⾒て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 ... ... ... ...

    the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] ……という仮説 ……のお気持ち絵
  35. 58 • ⾔語モデルは、テキスト中の並列構造を⾒て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] ……という仮説

    ……のお気持ち絵 ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔
  36. 59 • ⾔語モデルは、テキスト中の並列構造を⾒て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 − 予測(⽂脈内学習) Japan ->

    Tokyo, Ghana -> [ ? ] ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔
  37. 60 • ⾔語モデルは、テキスト中の並列構造を⾒て,単語(列) 間の関係のクラスを抽象化し覚えてくれている − 事前訓練 − 予測(⽂脈内学習) Japan ->

    Tokyo, Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔ ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] (OK... relation 132) Accra …
  38. 61 • ほんの少し正確なステートメント − 〔⾔語学のかた向け〕PCFG よりも少し強い⽂法を仮定 − 〔機械学習のかた向け〕構⽂⽊が単語数に対して⼗分⼩さければ(=⽬ 的の関係が並列構造として繰り返し出現していれば)、当該の関係に関 して予測先単語の選択肢が減るので⽂脈内学習の

    0-1 loss が下がる ※ コーパスにおける繰り返しと⽂脈内学習のプロンプトが同じ形である ことをしていることを仮定 ※ 汎化については議論せず ※ 漸近的性質についても議論せず ⾔語モデルはコーパス中の並列構造を使って 関係知識を学習できているのかも [Hahn&Goyalʼ23] 📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducEon (arXiv 2023) 並列構造の明⽰ 構⽂⽊を⼩さくできる 部分⽊をまたいだ 条件つき⽣成
  39. Q. 構造レベルの抽象化は可能か︖ 64 関連︖ • ⽐喩 − 感情は⾔語を超えて液体に喩えられやすい – 「喜びの気持ちがわき上がる」「愛情を注ぐ」「不安を拭う」

    • 概念メタファー (conceptual metaphor) − 空間的な⾼さ − 気分 – 「気分が⾼揚する」「気分が落ち込む」 − 社会的地位 – 「成り上がる」「落ちぶれる」
  40. 3. 頻度バイアス 66 ここまでの話 • ⾔語モデルは次単語予測に基づいて(⾃⼰教師あり学習︔⽣コー パスの統計情報だけを使って︔使⽤としての意味に基づいて)育 てられる 1. 気持ち︓出現⽂脈

    ↔(次に現れる)単語 の 共起関係 を, ⾼次元埋込空間上の表現同⼠の距離で柔らかく捉える(同⼀視す る) 2. 似た⽤法 ←→ 似た単語 を繰り返し学ぶことで,単語に関わる 何らかの カテゴリ が⾃動的に柔らかく獲得されうる ここで紹介する話 3. データに基づく(≈ 頻度 に バイアス される)⾔語処理機構 は,望ましくない動作をする場合がある
  41. LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他] 67 • タスクの例︓シーザー暗号 − 元⽂に含まれるすべての⽂字 [a-z] を,

    アルファベット表上で 𝑛 個⼿前の別の⽂字に置き換える − 𝑛 = 3 の場合 − インターネット上では(=⾔語モデルの学習データ内では) 𝑛 = 13 のケースが多い 📄 Caesar cipher, Wikipedia (en), hbps://en.wikipedia.org/wiki/Caesar_cipher [accessed 2023-10-26]
  42. 68 • タスクの例︓シーザー暗号 − LM は 𝑛 = 13 だとそこそこうまく復号化できる

    − LM は 𝑛 = 8 だと全然うまく復号化できない 📄 McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) 問題の難しさのクラスは 変わらないはずなのに︕ LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
  43. 69 • タスクの例︓シーザー暗号 📄 McCoy+, Embers of Autoregression: Understanding Large

    Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) コーパス(学習データ) にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
  44. 70 • タスクの例︓シーザー暗号 📄 McCoy+, Embers of Autoregression: Understanding Large

    Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) コーパス(学習データ) にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合 ⾔語モデルが そこそこ解けるのも 𝑛 = 1, 3, 13 の場合 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
  45. 71 • タスクの例︓シーザー暗号 − LM は復号先のテキストが⾃然だとうまく複合できる − LM は復号先のテキストが不⾃然だとうまく復号化できない 📄

    McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) 問題の難しさのクラスは 変わらないはずなのに︕ 「争いの解決は事実に基づいて おこなわねばならない」 ?「機能の増⼤は彼の焦点に 基づいておこなわねばならない」 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
  46. 72 • タスクの例︓シーザー暗号 − LM は復号先のテキストが⾃然だとうまく複合できる − LM は復号先のテキストが不⾃然だとうまく復号化できない 📄

    McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) 出⼒⽂の「よくある度」ないし 「⾃然さ」「ヒトっぽさ」 LLM の 復号化の 正解率 LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
  47. 73 わかったこと︓LMは学習コーパスの頻度に引きずられる • LMは問題⽂(問題設定)の頻度に引きずられる − 問題の難しさのクラスが全く同じだとしても… − Web(学習データ)でよく⾒かける問題設定なら解ける − Web(学習データ)であまり⾒ない問題設定だと解けない

    • LMは回答⽂の頻度に引きずられる − 問題の難しさのクラスが全く同じだとしても… − 出⼒⽂がそれっぽい場合は(Web で⾒かけそうな場合は)解ける − 出⼒⽂がそれっぽくない場合は(Web で⾒かけなそうな場合は)解けない • これが⼈と同じかどうかは置いておいて,少なくともLMは (LM “も” …︖)「考えて解く」とはだいぶ違うことをしてそう 📄 McCoy+, Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (arXiv 2023-09) LMは学習コーパスの頻度に引きずられる [McCoy+2023, 他]
  48. まとめ 75 ⾔語モデルがヒトの⾔語の「使⽤としての意味」を捉えているとして • それはどのように作られているのか︖ • いかなる現象が観察されているのか︖ 今⽇触れた話 • ⾔語モデルは次単語予測に基づいて(⾃⼰教師あり学習︔⽣コーパスの

    統計情報だけを使って︔使⽤としての意味に基づいて)育てられる 1. 気持ち︓出現⽂脈 ↔(次に現れる)単語 の 共起関係 を, ⾼次元埋込空間上の表現同⼠の距離で柔らかく捉える(同⼀視する) 2. 似た⽤法 ←→ 似た単語 を繰り返し学ぶことで,単語に関わる何らか の カテゴリ が⾃動的に柔らかく獲得されうる 3. データに基づく(≈ 頻度 に バイアス される)⾔語処理機構は,望ま しくない動作をする場合がある
  49. 個⼈的な研究の⽅向性 76 • visible and tangible language understanding • 「あらゆる知性はパターンマッチング」か

    • ヒト的知性と機械的知性のギャップの定量化 • ⽂ (cf. lexical) の意味論の連続表現の基盤数理を作る • 共同研究しましょう︕