Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【NLPコロキウム】LLMに論理推論を教えられるか?- 人工コーパスを用いたアプローチ -

もりし
December 19, 2024
220

【NLPコロキウム】LLMに論理推論を教えられるか?- 人工コーパスを用いたアプローチ -

2024/12/04@NLPコロキウム

YouTube録画や論文等は、
https://nlp-colloquium-jp.github.io/schedule/2024-12-04_terufumi-morishita/

もりし

December 19, 2024
Tweet

Transcript

  1. © Hitachi, Ltd. 2023. All rights reserved. 3  東京大学大学院(修士)

    - 物理学専攻 -カブリ数物連携宇宙研究機構 - 村山斉 特任教授  素粒子物理学  素粒子 = この宇宙の物質を構成する最小要素 (分子・原子より小さい)  素粒子の法則 = この宇宙の根源的な法則  暗黒物質(ダークマター)の起源の探索  超対称性理論が予言するウィーノ粒子を候補として  株式会社 東芝 研究開発センター  「深層学習を用いた音声認識エンジンの実用化」等  株式会社 日立製作所 中央研究所  「どのような要因がアンサンブル手法の強さを決めているのか?」  「人工知能(LLM)に推論を教えることができるか?」 自己紹介 経歴 MorishTr 私 • 日立製作所 中央研究所 先端AIイノベーションセンター • 自然言語処理/機械学習 森下 皓文 Terufumi Morishita 情報理論に基づき誤差下限を 精度・多様性・結合損失に分解 ICML2022 (spotlight) アンサンブルの法則 → 思考の法則
  2. © Hitachi, Ltd. 2023. All rights reserved. 4 本日のお話 

    「形式論理学に基づく演繹コーパスによる言語モデルに対する演繹推論能力の付与」 言語処理学会 2023  「Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic」 ICML 2023  「人工演繹推論コーパスによる学習は言語モデルをどのように強化するか?」 人工知能学会 2023  「日本語論理推論ベンチマークJFLDの提案」 言語処理学会 2024  「JFLD: A Japanese Benchmark for Deductive Reasoning based on Formal Logic」 LREC-COLING 2024  「帰納的に多様な巨大論理推論コーパスによりLLMの汎用論理推論能力を向上させる」 人工知能学会 2024  「Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus」 NeurIPS 2024 LLMに推論を教えたい → 良質な論理推論サンプルを大量に用意
  3. © Hitachi, Ltd. 2023. All rights reserved. 背景 1. 背景

    2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  4. © Hitachi, Ltd. 2023. All rights reserved. 6 知識と推論 

    LLMは様々な課題を解決 → 人工知能「考える機械」(McCarthy, 1955) へと前進  人工知能: 知識(knowledge)と推論(reasoning)が重要視 (McCarthy, 1959; Winograd, 1971; Colmerauer and Roussel, 1973; Shortliffe, 1976; Elkan and Greiner, 1993)  知識: 世界に関する事実 1. 「地球は質量を持つ」 2. 「質量を持つものは重力場を生む」  推論: 知識の組み合わせ → 新たな知識 3. 知識1と知識2 → 「地球は重力場を発生させる」
  5. © Hitachi, Ltd. 2023. All rights reserved. 7 LLM: 知識は豊富,推論は?

    知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験
  6. © Hitachi, Ltd. 2023. All rights reserved. 8 LLM: 知識は豊富,推論は?

    知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 推論を用いて未知の問題を解くことは苦戦 • 数字・人名を変えた問題 • 最新年度の試験
  7. © Hitachi, Ltd. 2023. All rights reserved. 9 LLM: 知識は豊富,推論は?

    知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? 推論を用いて未知の問題を解くことは苦戦 • 数字・人名を変えた問題 • 最新年度の試験
  8. © Hitachi, Ltd. 2023. All rights reserved. 10 LLM: 知識は豊富,推論は?

    良質な推論サンプルを大量に用意すればよいのでは? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? → 最も基本的な論理推論のサンプルを用意 推論を用いて未知の問題を解くことは苦戦 • 数字・人名を変えた問題 • 最新年度の試験
  9. © Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針1 - 未知なる事実での推論を含める

    - 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  10. © Hitachi, Ltd. 2023. All rights reserved. 20 演繹規則 演繹規則

    𝓕𝓕や𝓖𝓖は任意 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ
  11. © Hitachi, Ltd. 2023. All rights reserved. 21 演繹規則 𝓕𝓕や𝓖𝓖は任意

    ℱや𝒢𝒢は未知でもよい 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ 演繹規則
  12. © Hitachi, Ltd. 2023. All rights reserved. 22 演繹規則 𝓕𝓕や𝓖𝓖は任意

    未知の問題を解く力に繋がる ℱや𝒢𝒢は未知でもよい 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ 演繹規則
  13. © Hitachi, Ltd. 2023. All rights reserved. 23 LLM: 知識は豊富,推論は?

    良質な推論サンプルを大量に用意すればよいのでは? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 • 数字・人名を変えた問題 • 最新年度の試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? → 最も基本的な論理推論のサンプルを用意 推論を用いて未知の問題を解くことは苦戦
  14. © Hitachi, Ltd. 2023. All rights reserved. 26 LLMはℱや𝒢𝒢の任意性を理解しているか? 解ける

    解けない 知識があるだけ? 問題1 問題2 問題3 ℱ,𝒢𝒢の任意性を 理解していない
  15. © Hitachi, Ltd. 2023. All rights reserved. 27 LLMはℱや𝒢𝒢の任意性を理解しているか? 解ける

    どのような学習サンプルが必要か? 解けない 知識があるだけ? ℱ,𝒢𝒢の任意性を 理解していない ℱ,𝒢𝒢の任意性を理解させたい 問題1 問題2 問題3
  16. © Hitachi, Ltd. 2023. All rights reserved. 30 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 サンプル2
  17. © Hitachi, Ltd. 2023. All rights reserved. 31 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2
  18. © Hitachi, Ltd. 2023. All rights reserved. 32 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2
  19. © Hitachi, Ltd. 2023. All rights reserved. 33 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922)
  20. © Hitachi, Ltd. 2023. All rights reserved. 34 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922)
  21. © Hitachi, Ltd. 2023. All rights reserved. 35 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922) サンプル3 サンプル4
  22. © Hitachi, Ltd. 2023. All rights reserved. 36 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1

    ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 設計指針1: ℱや𝒢𝒢に任意の内容を割り当てた大量のサンプルを用意する 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922) サンプル3 サンプル4
  23. © Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針2 - 非論理的なサンプルを含める

    - 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察 時間の関係上、割愛
  24. © Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針3 - 公理系を用いた多段推論を用いる

    - 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  25. © Hitachi, Ltd. 2023. All rights reserved. 41 演繹規則はたくさんある 演繹規則は無限のパターン

    無限個の全ては覚えさせられない… 除去 三段論法 対偶 ド・モルガン
  26. © Hitachi, Ltd. 2023. All rights reserved. 43 演繹規則はたくさんある 除去

    三段論法 対偶 ド・モルガン ¬𝒢𝒢は「𝒢𝒢の否定」
  27. © Hitachi, Ltd. 2023. All rights reserved. 45 完全性 一階述語論理の完全性定理

    (Gödel, 1929) 任意の妥当な演繹規則は,公理系による多段推論よって表現できる. 原子的な演繹規則の集合 *今回の研究は古典論理・自然演繹
  28. © Hitachi, Ltd. 2023. All rights reserved. 47 演繹規則,何を使う? 無限個の演繹規則

    全ては覚えさせられない *今回の研究は古典論理・自然演繹
  29. © Hitachi, Ltd. 2023. All rights reserved. 48 演繹規則,何を使う? 無限個の演繹規則

    全ては覚えさせられない 任意の演繹規則は,公理系の多段推論と等価 完全性定理 *今回の研究は古典論理・自然演繹
  30. © Hitachi, Ltd. 2023. All rights reserved. 49 演繹規則,何を使う? 無限個の演繹規則

    全ては覚えさせられない 公理系による多段推論を作れるようになれば 任意の演繹規則が扱える 任意の演繹規則は,公理系の多段推論と等価 完全性定理
  31. © Hitachi, Ltd. 2023. All rights reserved. 50 演繹規則,何を使う? 無限個の演繹規則

    全ては覚えさせられない 設計指針3: 公理系による多段推論を教える(=サンプルとする) 公理系による多段推論を作れるようになれば 任意の演繹規則が扱える 任意の演繹規則は,公理系の多段推論と等価 完全性定理 *今回の研究は古典論理・自然演繹
  32. © Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針4 - 多様な言語表現を含める-

    1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  33. © Hitachi, Ltd. 2023. All rights reserved. 52 論理式を表す多様な言語表現 

    “If ℱ, then 𝒢𝒢.”  “ℱ leads to 𝒢𝒢.”  “ℱ results in 𝒢𝒢.”  … ℱ → 𝒢𝒢 ∀𝑥𝑥 𝒜𝒜 𝑥𝑥 → ℬ(𝑥𝑥)  “If something is 𝒜𝒜, then it is ℬ.”  “𝒜𝒜 things are ℬ.”  …
  34. © Hitachi, Ltd. 2023. All rights reserved. 53 論理式を表す多様な言語表現 

    “If ℱ, then 𝒢𝒢.”  “ℱ leads to 𝒢𝒢.”  “ℱ results in 𝒢𝒢.”  … 設計指針4: 論理式を表す多様な言語表現を含める. ℱ → 𝒢𝒢 ∀𝑥𝑥 𝒜𝒜 𝑥𝑥 → ℬ(𝑥𝑥)  “If something is 𝒜𝒜, then it is ℬ.”  “𝒜𝒜 things are ℬ.”  …
  35. © Hitachi, Ltd. 2023. All rights reserved. 54 設計指針まとめ 1.

    𝓕𝓕や𝓖𝓖に任意の内容を割り当てた,未知のサンプルを用意する. 2. 非論理的なサンプルを含める. 3. 演繹規則として公理系を用いた多段推論をサンプルとする. 4. 多様な言語表現を含める. 設計指針
  36. © Hitachi, Ltd. 2023. All rights reserved. サンプルの自動生成 1. 背景

    2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  37. © Hitachi, Ltd. 2023. All rights reserved. 57 サンプルの自動生成 設計指針3:

    公理系を用いた多段推論 設計指針2: 非論理 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現
  38. © Hitachi, Ltd. 2023. All rights reserved. 58 サンプルの自動生成 設計指針2:

    非論理 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現 設計指針3: 公理系を用いた多段推論
  39. © Hitachi, Ltd. 2023. All rights reserved. 59 多段推論木の生成 –

    Random Forward-Backward Deduction 多段推論木 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  40. © Hitachi, Ltd. 2023. All rights reserved. 60 多段推論木の生成 –

    Random Forward-Backward Deduction Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  41. © Hitachi, Ltd. 2023. All rights reserved. 61 多段推論木の生成 –

    Random Forward-Backward Deduction Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  42. © Hitachi, Ltd. 2023. All rights reserved. 62 多段推論木の生成 –

    Random Forward-Backward Deduction Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 Modus ponens 𝒢𝒢 𝒢𝒢 → ℋ ℋ 変形 Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  43. © Hitachi, Ltd. 2023. All rights reserved. 63 多段推論木の生成 –

    Random Forward-Backward Deduction Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 Modus ponens 𝒢𝒢 𝒢𝒢 → ℋ ℋ 変形 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  44. © Hitachi, Ltd. 2023. All rights reserved. 64 多段推論木の生成 –

    Random Forward-Backward Deduction Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 ℋ 𝒢𝒢 → ℋ Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 繋げる Modus ponens 𝒢𝒢 𝒢𝒢 → ℋ ℋ 変形 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  45. © Hitachi, Ltd. 2023. All rights reserved. 65 多段推論木の生成 –

    Random Forward-Backward Deduction (…) (… ) (… ) 𝒢𝒢 ランダムに選択 繋げる (…) (… ) (… ) (… ) 変形 Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 ℋ … 𝒢𝒢 → ℋ 𝒞𝒞 … forward … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  46. © Hitachi, Ltd. 2023. All rights reserved. 66 多段推論木の生成 –

    Random Forward-Backward Deduction ∧ elimination Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 → ℋ ∧ ℐ 𝒢𝒢 ℋ … 𝒢𝒢 → ℋ 𝒞𝒞 … ∧ elimination ℱ ∧ 𝒢𝒢 𝒢𝒢 ランダムに選択 繋げる ∧ elimination (𝒢𝒢 → 𝒥𝒥) 変形 (𝒢𝒢 → ℋ) ∧ 𝒥𝒥 backward … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  47. © Hitachi, Ltd. 2023. All rights reserved. 67 多段推論木の生成 –

    Random Forward-Backward Deduction ∧ elimination Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 → ℋ ∧ ℐ 𝒢𝒢 ℋ … 𝒢𝒢 → ℋ 𝒞𝒞 … ∧ elimination ℱ ∧ 𝒢𝒢 𝒢𝒢 ランダムに選択 繋げる ∧ elimination (𝒢𝒢 → 𝒥𝒥) 変形 (𝒢𝒢 → ℋ) ∧ 𝒥𝒥 backward 公理系を用いた多様な多段推論を生成 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)
  48. © Hitachi, Ltd. 2023. All rights reserved. 68 サンプルの自動生成 設計指針2:

    非論理 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現
  49. © Hitachi, Ltd. 2023. All rights reserved. 69 サンプルの自動生成 設計指針1:

    任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現
  50. © Hitachi, Ltd. 2023. All rights reserved. 71 まとめ 設計指針に基づくサンプルを10万件生成

    = 𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐コーパス (Formal Logic Deduction Diverse)
  51. © Hitachi, Ltd. 2023. All rights reserved. 実験 1. 背景

    2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  52. © Hitachi, Ltd. 2023. All rights reserved. 73 実験設定 

    エポック数: 1  Optimizer: Recall Adam  過学習・破滅的忘却を防ぐAdam.  元のパラメタを中心に 近似フィッシャー行列で正則化  https://github.com/hitachi-nlp/rec-adam  プロンプトはマスキング(勾配を流さない) 未知の事実を覚えさせない (欲しいのは推論能力だけ!) LLaMA-3.1-70B-base モデル 学習 31ベンチマーク / 5-shot 文脈内学習 評価 ハイパラ  サンプル数 10万件~0.1Bトークン  学習率:3e-06  バッチサイズ: 256
  53. © Hitachi, Ltd. 2023. All rights reserved. 結果と考察 1. 背景

    2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察
  54. © Hitachi, Ltd. 2023. All rights reserved. 76 FLD×2による性能向上 +8.7

    +6.2 +FLD×2 +3.3 +2.4 +0.8 +5.0 +1.5 +4.9 +10.7 +0.8 +3.7 論理推論 数学 コーディング NLI その他 精 度
  55. © Hitachi, Ltd. 2023. All rights reserved. 77 FLD×2による性能向上 +8.7

    +6.2 +FLD×2 +3.3 +2.4 +0.8 +5.0 +1.5 +4.9 +10.7 +0.8 +3.7 様々なタスクで性能向上 論理推論 数学 コーディング NLI その他 精 度 ⇒ 論理推論能力は思考の基礎→ 汎用的
  56. © Hitachi, Ltd. 2023. All rights reserved. 78 FLD×2による性能向上 –

    詳細 • 平均: +8.7ポイント • 最大: +30 ポイント • 仮説推論も向上 論理推論 • 平均: +3.3ポイント • 最大: +8 ポイント • 述語論理は数学を解く前提知識 数学 • 平均: +6.2ポイント • 最大: +10 ポイント • LLMの(論理)推論能力とコーディング能力は関係あり? コーディング • 平均: +2.4ポイント • 最大: +6 ポイント • 知識と推論を統合 NLI • 平均: +0.8 ポイント • 最大: +1.6 ポイント • 𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐は新規知識を教えない • 𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐は複雑な解法を教えない→推論能力の使いこなしに課題 その他 帰宅したら窓ガラス割れて部屋 が散らばってる 泥棒が入る 仮説推論 結論 前提 予測 Q. 地球が暖かくなる現象を何と呼びますか?
  57. © Hitachi, Ltd. 2023. All rights reserved. 79 FLD×2により解けるようになった問題 事実

    結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力
  58. © Hitachi, Ltd. 2023. All rights reserved. 80 LLM: 知識は豊富,推論は?

    良質な推論サンプルを大量に用意すればよいのでは? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 • 数字を変えた問題 • 最新年度の試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? → 最も基本的な論理推論のサンプルを用意 推論を用いて未知の問題を解くことは苦戦
  59. © Hitachi, Ltd. 2023. All rights reserved. 81 FLD×2により解けるようになった問題 事実

    結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力
  60. © Hitachi, Ltd. 2023. All rights reserved. 82 FLD×2により解けるようになった問題 事実

    結論 ベンチマーク ー 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力 設計指針1: 未知での推論
  61. © Hitachi, Ltd. 2023. All rights reserved. 83 FLD×2により解けるようになった問題 事実

    結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力 All eels are fish. No fish are plants.
  62. © Hitachi, Ltd. 2023. All rights reserved. 84 FLD×2により解けるようになった問題 事実

    結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力 All eels are not plants.
  63. © Hitachi, Ltd. 2023. All rights reserved. 85 FLD×2により解けるようになった問題 事実

    結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針4: 多様な言語表現 身についた能力 設計指針3: 多様な演繹規則 All eels are not plants.
  64. © Hitachi, Ltd. 2023. All rights reserved. 86 FLD×2により解けるようになった問題 設計指針で意図した能力を獲得

    事実 結論 ベンチマーク ー 設計指針1: 未知での推論 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力
  65. © Hitachi, Ltd. 2023. All rights reserved. 88 まとめ 

    LLMに推論を教えたい → コーパスを作ろう!  コーパスの設計指針を提唱 1. 𝓕𝓕や𝓖𝓖に任意の内容を割り当てた,未知のサンプルを用意する. 2. 非論理的なサンプルを含める. 3. 演繹規則として公理系を用いた多段推論をサンプルとする. 4. 多様な言語表現を含める.  設計指針に基づくコーパス𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐(Formal Logic Deduction Diverse)を生成  𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐の学習により様々なタスクで性能が向上 ご静聴ありがとうございました
  66. © Hitachi, Ltd. 2023. All rights reserved. 90 LLMは推論ができている?いない? できる

    できない • 知識カットオフ前のコーディング試験は100点、カットオフ後は0点 (Mitchell, 2023) • 日常的な内容の推論問題は解けるが,反実仮想的な推論問題は解けない.(Dasgupta et al., 2023) Zhao et al. (2024b) Frohberg & Binder (2022) Li et al. (2023) Yu et al. (2023) Jin et al. (2023) Zečević (2024) • 学習コーパスの頻出表現(トークン・変数名・言語表現等)・頻出問題は解けるが, そうでない問題は解けない. Jiang et al. (2024ab) Dziri et al. (2023) • 問題の表現(言語・数値・数式)を変える・無関係な情報を入れるなどすると,と性能が大きく劣化. Mirzadeh (2024) (Razeghi et al., 2022) Zhang et al., 2024 Srivastava et al. (2024) Shi et al. (2023) • 問題A・Bを独立に解けるが,それらを結合した問題は解けない (Arian Hosseini 2024) • 前提事実の順序を変えると性能が大きく下落 Chen et al. (2024) • 前提や問題文での語彙オーバーラップにより初期の推論系列を選定 Aoki et al. 2024 • 数学の規則ではなく,(本質的で無い)ヒューリスティックの集合で解いている (Nikankin et al., 2024) • 三段論法で人間と同じような誤りパターン Ando et al. (2023); Ozeki et al. (2024); Bertolazzi et al. (2024); Eisape et al. (2024) • 専門家が作った数学問題, o1-previewの精度1%以下 (Glazer1 et al., 2024) • 希少・絶滅言語に関するパズルが解けない (Bean et al., 2024) 暗記 (memorization) 内容バイアス (content bias) 脆弱性 (brittleness) ヒューリス ティックス 知見を一言でまとめると「分布内に強いが分布外に弱い」 → それだけ聞くと,ただの機械学習の一般論 → しかし,推論規則は本来,分布内外の区別が存在しない(任意性)はず → それでは「分布内だけ解ける」機械は,一体何を学んだのか? > 規則を「分布内だけに適用できる」状態で保持している? > それとも全く別の本質的でないものを学んでいないか?(Nikankin et al., 2024) • O1-previewはアメリカ数学オリンピック予選を83%解ける.未知の問題もイケる. 科学・コーディング・kaggleもイケる! (OpenAI 2024), (Li et al. 2024) • Implicitな推論でGrokkingが起きる. (Wang et al., 2024) • 暗記と汎化は両立しうる (Xie et al., 2024) • 事実型の質問に対しては類似サンプルから得られた知識のみを参照するが, 推論問題に対しては様々なサンプルを参照する (Ruis, 2024) • LLMサイズを大きくした場合,事実型の問題に対しては少数サンプルの暗記が増える が,推論問題に対しては少数サンプルの暗記が増える訳ではない. (Wang et al., 2024) ↓ヤバい! とりあえずデータを増やしてみよう (grokkingするかも・暗記しながらも汎化できる) もっと難しい問題を解かせてみよう 議論で洗い出される観点が重要 より高度な 問題 ←ヤバい! 数学オリンピックは 我らの中でも最弱…