Slide 1

Slide 1 text

LLMに論理推論を教えられるか? - 人工コーパスを用いたアプローチ - 森下皓文 日立製作所 先端AIイノベーションセンタ メディア知能処理研究部

Slide 2

Slide 2 text

© Hitachi, Ltd. 2023. All rights reserved. 自己紹介

Slide 3

Slide 3 text

© Hitachi, Ltd. 2023. All rights reserved. 3  東京大学大学院(修士) - 物理学専攻 -カブリ数物連携宇宙研究機構 - 村山斉 特任教授  素粒子物理学  素粒子 = この宇宙の物質を構成する最小要素 (分子・原子より小さい)  素粒子の法則 = この宇宙の根源的な法則  暗黒物質(ダークマター)の起源の探索  超対称性理論が予言するウィーノ粒子を候補として  株式会社 東芝 研究開発センター  「深層学習を用いた音声認識エンジンの実用化」等  株式会社 日立製作所 中央研究所  「どのような要因がアンサンブル手法の強さを決めているのか?」  「人工知能(LLM)に推論を教えることができるか?」 自己紹介 経歴 MorishTr 私 • 日立製作所 中央研究所 先端AIイノベーションセンター • 自然言語処理/機械学習 森下 皓文 Terufumi Morishita 情報理論に基づき誤差下限を 精度・多様性・結合損失に分解 ICML2022 (spotlight) アンサンブルの法則 → 思考の法則

Slide 4

Slide 4 text

© Hitachi, Ltd. 2023. All rights reserved. 4 本日のお話  「形式論理学に基づく演繹コーパスによる言語モデルに対する演繹推論能力の付与」 言語処理学会 2023  「Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic」 ICML 2023  「人工演繹推論コーパスによる学習は言語モデルをどのように強化するか?」 人工知能学会 2023  「日本語論理推論ベンチマークJFLDの提案」 言語処理学会 2024  「JFLD: A Japanese Benchmark for Deductive Reasoning based on Formal Logic」 LREC-COLING 2024  「帰納的に多様な巨大論理推論コーパスによりLLMの汎用論理推論能力を向上させる」 人工知能学会 2024  「Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus」 NeurIPS 2024 LLMに推論を教えたい → 良質な論理推論サンプルを大量に用意

Slide 5

Slide 5 text

© Hitachi, Ltd. 2023. All rights reserved. 背景 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 6

Slide 6 text

© Hitachi, Ltd. 2023. All rights reserved. 6 知識と推論  LLMは様々な課題を解決 → 人工知能「考える機械」(McCarthy, 1955) へと前進  人工知能: 知識(knowledge)と推論(reasoning)が重要視 (McCarthy, 1959; Winograd, 1971; Colmerauer and Roussel, 1973; Shortliffe, 1976; Elkan and Greiner, 1993)  知識: 世界に関する事実 1. 「地球は質量を持つ」 2. 「質量を持つものは重力場を生む」  推論: 知識の組み合わせ → 新たな知識 3. 知識1と知識2 → 「地球は重力場を発生させる」

Slide 7

Slide 7 text

© Hitachi, Ltd. 2023. All rights reserved. 7 LLM: 知識は豊富,推論は? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験

Slide 8

Slide 8 text

© Hitachi, Ltd. 2023. All rights reserved. 8 LLM: 知識は豊富,推論は? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 推論を用いて未知の問題を解くことは苦戦 • 数字・人名を変えた問題 • 最新年度の試験

Slide 9

Slide 9 text

© Hitachi, Ltd. 2023. All rights reserved. 9 LLM: 知識は豊富,推論は? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? 推論を用いて未知の問題を解くことは苦戦 • 数字・人名を変えた問題 • 最新年度の試験

Slide 10

Slide 10 text

© Hitachi, Ltd. 2023. All rights reserved. 10 LLM: 知識は豊富,推論は? 良質な推論サンプルを大量に用意すればよいのでは? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? → 最も基本的な論理推論のサンプルを用意 推論を用いて未知の問題を解くことは苦戦 • 数字・人名を変えた問題 • 最新年度の試験

Slide 11

Slide 11 text

© Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針1 - 未知なる事実での推論を含める - 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 12

Slide 12 text

© Hitachi, Ltd. 2023. All rights reserved. 12 論理的なステップ - その1

Slide 13

Slide 13 text

© Hitachi, Ltd. 2023. All rights reserved. 13 論理的なステップ - その1 論理的に出てくる

Slide 14

Slide 14 text

© Hitachi, Ltd. 2023. All rights reserved. 14 論理的なステップ - その2 内容が誤り!

Slide 15

Slide 15 text

© Hitachi, Ltd. 2023. All rights reserved. 15 論理的なステップ - その2 内容が誤り!

Slide 16

Slide 16 text

© Hitachi, Ltd. 2023. All rights reserved. 16 論理的なステップ - その2 論理的に出てくる

Slide 17

Slide 17 text

© Hitachi, Ltd. 2023. All rights reserved. 17 論理的なステップ - その3 論理的に出てくる

Slide 18

Slide 18 text

© Hitachi, Ltd. 2023. All rights reserved. 18 演繹規則

Slide 19

Slide 19 text

© Hitachi, Ltd. 2023. All rights reserved. 19 演繹規則 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ 演繹規則

Slide 20

Slide 20 text

© Hitachi, Ltd. 2023. All rights reserved. 20 演繹規則 演繹規則 𝓕𝓕や𝓖𝓖は任意 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ

Slide 21

Slide 21 text

© Hitachi, Ltd. 2023. All rights reserved. 21 演繹規則 𝓕𝓕や𝓖𝓖は任意 ℱや𝒢𝒢は未知でもよい 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ 演繹規則

Slide 22

Slide 22 text

© Hitachi, Ltd. 2023. All rights reserved. 22 演繹規則 𝓕𝓕や𝓖𝓖は任意 未知の問題を解く力に繋がる ℱや𝒢𝒢は未知でもよい 「論理的な正しさ」と「𝓕𝓕や𝓖𝓖の内容の正しさ≓ 知識的な正しさ」は別モノ 演繹規則

Slide 23

Slide 23 text

© Hitachi, Ltd. 2023. All rights reserved. 23 LLM: 知識は豊富,推論は? 良質な推論サンプルを大量に用意すればよいのでは? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 • 数字・人名を変えた問題 • 最新年度の試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? → 最も基本的な論理推論のサンプルを用意 推論を用いて未知の問題を解くことは苦戦

Slide 24

Slide 24 text

© Hitachi, Ltd. 2023. All rights reserved. 24 LLMはℱや𝒢𝒢の任意性を理解しているか? 問題1 問題2 問題3

Slide 25

Slide 25 text

© Hitachi, Ltd. 2023. All rights reserved. 25 LLMはℱや𝒢𝒢の任意性を理解しているか? 解ける 知識があるだけ? 問題1 問題2 問題3

Slide 26

Slide 26 text

© Hitachi, Ltd. 2023. All rights reserved. 26 LLMはℱや𝒢𝒢の任意性を理解しているか? 解ける 解けない 知識があるだけ? 問題1 問題2 問題3 ℱ,𝒢𝒢の任意性を 理解していない

Slide 27

Slide 27 text

© Hitachi, Ltd. 2023. All rights reserved. 27 LLMはℱや𝒢𝒢の任意性を理解しているか? 解ける どのような学習サンプルが必要か? 解けない 知識があるだけ? ℱ,𝒢𝒢の任意性を 理解していない ℱ,𝒢𝒢の任意性を理解させたい 問題1 問題2 問題3

Slide 28

Slide 28 text

© Hitachi, Ltd. 2023. All rights reserved. 28 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 サンプル2

Slide 29

Slide 29 text

© Hitachi, Ltd. 2023. All rights reserved. 29 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 サンプル2

Slide 30

Slide 30 text

© Hitachi, Ltd. 2023. All rights reserved. 30 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 サンプル2

Slide 31

Slide 31 text

© Hitachi, Ltd. 2023. All rights reserved. 31 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2

Slide 32

Slide 32 text

© Hitachi, Ltd. 2023. All rights reserved. 32 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2

Slide 33

Slide 33 text

© Hitachi, Ltd. 2023. All rights reserved. 33 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922)

Slide 34

Slide 34 text

© Hitachi, Ltd. 2023. All rights reserved. 34 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922)

Slide 35

Slide 35 text

© Hitachi, Ltd. 2023. All rights reserved. 35 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922) サンプル3 サンプル4

Slide 36

Slide 36 text

© Hitachi, Ltd. 2023. All rights reserved. 36 ℱや𝒢𝒢の任意性を教えるのに必要なサンプルとは? サンプル1 ℱ, 𝒢𝒢は任意 演繹規則1 ℱ, 𝒢𝒢に天文学っぽい単語が 含まれる場合 帰納には無数の候補がある (Hume, 1748; Goodman, 1954; Quine, 1969) 設計指針1: ℱや𝒢𝒢に任意の内容を割り当てた大量のサンプルを用意する 演繹規則2 ℱ, 𝒢𝒢に「地球」が 含まれる場合 演繹規則3 (… ) 演繹規則4 サンプル2 シンプルな規則を好む? (Bertrand; Wittgenstein, 1922) サンプル3 サンプル4

Slide 37

Slide 37 text

© Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針2 - 非論理的なサンプルを含める - 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察 時間の関係上、割愛

Slide 38

Slide 38 text

© Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針3 - 公理系を用いた多段推論を用いる - 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 39

Slide 39 text

© Hitachi, Ltd. 2023. All rights reserved. 39 演繹規則はたくさんある 除去 三段論法 対偶 ド・モルガン

Slide 40

Slide 40 text

© Hitachi, Ltd. 2023. All rights reserved. 40 演繹規則はたくさんある 演繹規則は無限のパターン 除去 三段論法 対偶 ド・モルガン

Slide 41

Slide 41 text

© Hitachi, Ltd. 2023. All rights reserved. 41 演繹規則はたくさんある 演繹規則は無限のパターン 無限個の全ては覚えさせられない… 除去 三段論法 対偶 ド・モルガン

Slide 42

Slide 42 text

© Hitachi, Ltd. 2023. All rights reserved. 42 多段推論 除去 導入 三段論法

Slide 43

Slide 43 text

© Hitachi, Ltd. 2023. All rights reserved. 43 演繹規則はたくさんある 除去 三段論法 対偶 ド・モルガン ¬𝒢𝒢は「𝒢𝒢の否定」

Slide 44

Slide 44 text

© Hitachi, Ltd. 2023. All rights reserved. 44 多段推論 複雑な演繹規則は原子的な演繹規則の多段推論で表現できる? 除去 導入 三段論法

Slide 45

Slide 45 text

© Hitachi, Ltd. 2023. All rights reserved. 45 完全性 一階述語論理の完全性定理 (Gödel, 1929) 任意の妥当な演繹規則は,公理系による多段推論よって表現できる. 原子的な演繹規則の集合 *今回の研究は古典論理・自然演繹

Slide 46

Slide 46 text

© Hitachi, Ltd. 2023. All rights reserved. 46 (参考) 公理系に含まれる演繹規則 *今回の研究は古典論理・自然演繹

Slide 47

Slide 47 text

© Hitachi, Ltd. 2023. All rights reserved. 47 演繹規則,何を使う? 無限個の演繹規則 全ては覚えさせられない *今回の研究は古典論理・自然演繹

Slide 48

Slide 48 text

© Hitachi, Ltd. 2023. All rights reserved. 48 演繹規則,何を使う? 無限個の演繹規則 全ては覚えさせられない 任意の演繹規則は,公理系の多段推論と等価 完全性定理 *今回の研究は古典論理・自然演繹

Slide 49

Slide 49 text

© Hitachi, Ltd. 2023. All rights reserved. 49 演繹規則,何を使う? 無限個の演繹規則 全ては覚えさせられない 公理系による多段推論を作れるようになれば 任意の演繹規則が扱える 任意の演繹規則は,公理系の多段推論と等価 完全性定理

Slide 50

Slide 50 text

© Hitachi, Ltd. 2023. All rights reserved. 50 演繹規則,何を使う? 無限個の演繹規則 全ては覚えさせられない 設計指針3: 公理系による多段推論を教える(=サンプルとする) 公理系による多段推論を作れるようになれば 任意の演繹規則が扱える 任意の演繹規則は,公理系の多段推論と等価 完全性定理 *今回の研究は古典論理・自然演繹

Slide 51

Slide 51 text

© Hitachi, Ltd. 2023. All rights reserved. サンプルの設計指針4 - 多様な言語表現を含める- 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 52

Slide 52 text

© Hitachi, Ltd. 2023. All rights reserved. 52 論理式を表す多様な言語表現  “If ℱ, then 𝒢𝒢.”  “ℱ leads to 𝒢𝒢.”  “ℱ results in 𝒢𝒢.”  … ℱ → 𝒢𝒢 ∀𝑥𝑥 𝒜𝒜 𝑥𝑥 → ℬ(𝑥𝑥)  “If something is 𝒜𝒜, then it is ℬ.”  “𝒜𝒜 things are ℬ.”  …

Slide 53

Slide 53 text

© Hitachi, Ltd. 2023. All rights reserved. 53 論理式を表す多様な言語表現  “If ℱ, then 𝒢𝒢.”  “ℱ leads to 𝒢𝒢.”  “ℱ results in 𝒢𝒢.”  … 設計指針4: 論理式を表す多様な言語表現を含める. ℱ → 𝒢𝒢 ∀𝑥𝑥 𝒜𝒜 𝑥𝑥 → ℬ(𝑥𝑥)  “If something is 𝒜𝒜, then it is ℬ.”  “𝒜𝒜 things are ℬ.”  …

Slide 54

Slide 54 text

© Hitachi, Ltd. 2023. All rights reserved. 54 設計指針まとめ 1. 𝓕𝓕や𝓖𝓖に任意の内容を割り当てた,未知のサンプルを用意する. 2. 非論理的なサンプルを含める. 3. 演繹規則として公理系を用いた多段推論をサンプルとする. 4. 多様な言語表現を含める. 設計指針

Slide 55

Slide 55 text

© Hitachi, Ltd. 2023. All rights reserved. サンプルの自動生成 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 56

Slide 56 text

© Hitachi, Ltd. 2023. All rights reserved. 56 サンプルの自動生成 設計指針に基づくサンプル群を自動生成

Slide 57

Slide 57 text

© Hitachi, Ltd. 2023. All rights reserved. 57 サンプルの自動生成 設計指針3: 公理系を用いた多段推論 設計指針2: 非論理 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現

Slide 58

Slide 58 text

© Hitachi, Ltd. 2023. All rights reserved. 58 サンプルの自動生成 設計指針2: 非論理 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現 設計指針3: 公理系を用いた多段推論

Slide 59

Slide 59 text

© Hitachi, Ltd. 2023. All rights reserved. 59 多段推論木の生成 – Random Forward-Backward Deduction 多段推論木 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 60

Slide 60 text

© Hitachi, Ltd. 2023. All rights reserved. 60 多段推論木の生成 – Random Forward-Backward Deduction Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 61

Slide 61 text

© Hitachi, Ltd. 2023. All rights reserved. 61 多段推論木の生成 – Random Forward-Backward Deduction Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 62

Slide 62 text

© Hitachi, Ltd. 2023. All rights reserved. 62 多段推論木の生成 – Random Forward-Backward Deduction Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 Modus ponens 𝒢𝒢 𝒢𝒢 → ℋ ℋ 変形 Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 63

Slide 63 text

© Hitachi, Ltd. 2023. All rights reserved. 63 多段推論木の生成 – Random Forward-Backward Deduction Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 Modus ponens 𝒢𝒢 𝒢𝒢 → ℋ ℋ 変形 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 64

Slide 64 text

© Hitachi, Ltd. 2023. All rights reserved. 64 多段推論木の生成 – Random Forward-Backward Deduction Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 ℋ 𝒢𝒢 → ℋ Modus ponens ℱ ℱ → 𝒢𝒢 𝒢𝒢 ランダムに選択 繋げる Modus ponens 𝒢𝒢 𝒢𝒢 → ℋ ℋ 変形 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 65

Slide 65 text

© Hitachi, Ltd. 2023. All rights reserved. 65 多段推論木の生成 – Random Forward-Backward Deduction (…) (… ) (… ) 𝒢𝒢 ランダムに選択 繋げる (…) (… ) (… ) (… ) 変形 Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 ℋ … 𝒢𝒢 → ℋ 𝒞𝒞 … forward … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 66

Slide 66 text

© Hitachi, Ltd. 2023. All rights reserved. 66 多段推論木の生成 – Random Forward-Backward Deduction ∧ elimination Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 → ℋ ∧ ℐ 𝒢𝒢 ℋ … 𝒢𝒢 → ℋ 𝒞𝒞 … ∧ elimination ℱ ∧ 𝒢𝒢 𝒢𝒢 ランダムに選択 繋げる ∧ elimination (𝒢𝒢 → 𝒥𝒥) 変形 (𝒢𝒢 → ℋ) ∧ 𝒥𝒥 backward … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 67

Slide 67 text

© Hitachi, Ltd. 2023. All rights reserved. 67 多段推論木の生成 – Random Forward-Backward Deduction ∧ elimination Modus ponens 多段推論木 ℱ ℱ → 𝒢𝒢 𝒢𝒢 → ℋ ∧ ℐ 𝒢𝒢 ℋ … 𝒢𝒢 → ℋ 𝒞𝒞 … ∧ elimination ℱ ∧ 𝒢𝒢 𝒢𝒢 ランダムに選択 繋げる ∧ elimination (𝒢𝒢 → 𝒥𝒥) 変形 (𝒢𝒢 → ℋ) ∧ 𝒥𝒥 backward 公理系を用いた多様な多段推論を生成 … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系) … → introduction … ∧ elimination Modus ponens 𝓕𝓕 𝓕𝓕 → 𝓖𝓖 𝓖𝓖 演繹規則(公理系)

Slide 68

Slide 68 text

© Hitachi, Ltd. 2023. All rights reserved. 68 サンプルの自動生成 設計指針2: 非論理 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現

Slide 69

Slide 69 text

© Hitachi, Ltd. 2023. All rights reserved. 69 サンプルの自動生成 設計指針1: 任意の𝓕𝓕, 𝓖𝓖 設計指針4: 多様な言語表現

Slide 70

Slide 70 text

© Hitachi, Ltd. 2023. All rights reserved. 70 サンプルってどんな感じ? 日本語ぷにぷに版からの例 LLMの プロンプト LLMの 出力

Slide 71

Slide 71 text

© Hitachi, Ltd. 2023. All rights reserved. 71 まとめ 設計指針に基づくサンプルを10万件生成 = 𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐コーパス (Formal Logic Deduction Diverse)

Slide 72

Slide 72 text

© Hitachi, Ltd. 2023. All rights reserved. 実験 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 73

Slide 73 text

© Hitachi, Ltd. 2023. All rights reserved. 73 実験設定  エポック数: 1  Optimizer: Recall Adam  過学習・破滅的忘却を防ぐAdam.  元のパラメタを中心に 近似フィッシャー行列で正則化  https://github.com/hitachi-nlp/rec-adam  プロンプトはマスキング(勾配を流さない) 未知の事実を覚えさせない (欲しいのは推論能力だけ!) LLaMA-3.1-70B-base モデル 学習 31ベンチマーク / 5-shot 文脈内学習 評価 ハイパラ  サンプル数 10万件~0.1Bトークン  学習率:3e-06  バッチサイズ: 256

Slide 74

Slide 74 text

© Hitachi, Ltd. 2023. All rights reserved. 74 ベンチマーク 論理推論 数学 コーディング NLI その他 総合

Slide 75

Slide 75 text

© Hitachi, Ltd. 2023. All rights reserved. 結果と考察 1. 背景 2. サンプルの設計指針 3. サンプルの自動生成 4. 実験 5. 結果と考察

Slide 76

Slide 76 text

© Hitachi, Ltd. 2023. All rights reserved. 76 FLD×2による性能向上 +8.7 +6.2 +FLD×2 +3.3 +2.4 +0.8 +5.0 +1.5 +4.9 +10.7 +0.8 +3.7 論理推論 数学 コーディング NLI その他 精 度

Slide 77

Slide 77 text

© Hitachi, Ltd. 2023. All rights reserved. 77 FLD×2による性能向上 +8.7 +6.2 +FLD×2 +3.3 +2.4 +0.8 +5.0 +1.5 +4.9 +10.7 +0.8 +3.7 様々なタスクで性能向上 論理推論 数学 コーディング NLI その他 精 度 ⇒ 論理推論能力は思考の基礎→ 汎用的

Slide 78

Slide 78 text

© Hitachi, Ltd. 2023. All rights reserved. 78 FLD×2による性能向上 – 詳細 • 平均: +8.7ポイント • 最大: +30 ポイント • 仮説推論も向上 論理推論 • 平均: +3.3ポイント • 最大: +8 ポイント • 述語論理は数学を解く前提知識 数学 • 平均: +6.2ポイント • 最大: +10 ポイント • LLMの(論理)推論能力とコーディング能力は関係あり? コーディング • 平均: +2.4ポイント • 最大: +6 ポイント • 知識と推論を統合 NLI • 平均: +0.8 ポイント • 最大: +1.6 ポイント • 𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐は新規知識を教えない • 𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐は複雑な解法を教えない→推論能力の使いこなしに課題 その他 帰宅したら窓ガラス割れて部屋 が散らばってる 泥棒が入る 仮説推論 結論 前提 予測 Q. 地球が暖かくなる現象を何と呼びますか?

Slide 79

Slide 79 text

© Hitachi, Ltd. 2023. All rights reserved. 79 FLD×2により解けるようになった問題 事実 結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力

Slide 80

Slide 80 text

© Hitachi, Ltd. 2023. All rights reserved. 80 LLM: 知識は豊富,推論は? 良質な推論サンプルを大量に用意すればよいのでは? 知識により既知の問題を解ける • 算数の有名問題 • 過去年度のコーディング試験 • 数字を変えた問題 • 最新年度の試験 事前学習コーパスに良質な推論サンプルが含まれていないのでは? • 人間の思考の短絡性(Kahneman, 2011; Sunstein and Hastie, 2015; Paglieri, 2017) • オンラインディベートには誤り・バイアスが散見. なぜ? → 最も基本的な論理推論のサンプルを用意 推論を用いて未知の問題を解くことは苦戦

Slide 81

Slide 81 text

© Hitachi, Ltd. 2023. All rights reserved. 81 FLD×2により解けるようになった問題 事実 結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力

Slide 82

Slide 82 text

© Hitachi, Ltd. 2023. All rights reserved. 82 FLD×2により解けるようになった問題 事実 結論 ベンチマーク ー 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力 設計指針1: 未知での推論

Slide 83

Slide 83 text

© Hitachi, Ltd. 2023. All rights reserved. 83 FLD×2により解けるようになった問題 事実 結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力 All eels are fish. No fish are plants.

Slide 84

Slide 84 text

© Hitachi, Ltd. 2023. All rights reserved. 84 FLD×2により解けるようになった問題 事実 結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力 All eels are not plants.

Slide 85

Slide 85 text

© Hitachi, Ltd. 2023. All rights reserved. 85 FLD×2により解けるようになった問題 事実 結論 ベンチマーク ー 設計指針1: 未知なる事実 設計指針2: 非論理 設計指針4: 多様な言語表現 身についた能力 設計指針3: 多様な演繹規則 All eels are not plants.

Slide 86

Slide 86 text

© Hitachi, Ltd. 2023. All rights reserved. 86 FLD×2により解けるようになった問題 設計指針で意図した能力を獲得 事実 結論 ベンチマーク ー 設計指針1: 未知での推論 設計指針2: 非論理 設計指針3: 多様な演繹規則 設計指針4: 多様な言語表現 身についた能力

Slide 87

Slide 87 text

© Hitachi, Ltd. 2023. All rights reserved. まとめ

Slide 88

Slide 88 text

© Hitachi, Ltd. 2023. All rights reserved. 88 まとめ  LLMに推論を教えたい → コーパスを作ろう!  コーパスの設計指針を提唱 1. 𝓕𝓕や𝓖𝓖に任意の内容を割り当てた,未知のサンプルを用意する. 2. 非論理的なサンプルを含める. 3. 演繹規則として公理系を用いた多段推論をサンプルとする. 4. 多様な言語表現を含める.  設計指針に基づくコーパス𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐(Formal Logic Deduction Diverse)を生成  𝐅𝐅𝐅𝐅𝐃𝐃×𝟐𝟐の学習により様々なタスクで性能が向上 ご静聴ありがとうございました

Slide 89

Slide 89 text

© Hitachi, Ltd. 2023. All rights reserved. おまけ

Slide 90

Slide 90 text

© Hitachi, Ltd. 2023. All rights reserved. 90 LLMは推論ができている?いない? できる できない • 知識カットオフ前のコーディング試験は100点、カットオフ後は0点 (Mitchell, 2023) • 日常的な内容の推論問題は解けるが,反実仮想的な推論問題は解けない.(Dasgupta et al., 2023) Zhao et al. (2024b) Frohberg & Binder (2022) Li et al. (2023) Yu et al. (2023) Jin et al. (2023) Zečević (2024) • 学習コーパスの頻出表現(トークン・変数名・言語表現等)・頻出問題は解けるが, そうでない問題は解けない. Jiang et al. (2024ab) Dziri et al. (2023) • 問題の表現(言語・数値・数式)を変える・無関係な情報を入れるなどすると,と性能が大きく劣化. Mirzadeh (2024) (Razeghi et al., 2022) Zhang et al., 2024 Srivastava et al. (2024) Shi et al. (2023) • 問題A・Bを独立に解けるが,それらを結合した問題は解けない (Arian Hosseini 2024) • 前提事実の順序を変えると性能が大きく下落 Chen et al. (2024) • 前提や問題文での語彙オーバーラップにより初期の推論系列を選定 Aoki et al. 2024 • 数学の規則ではなく,(本質的で無い)ヒューリスティックの集合で解いている (Nikankin et al., 2024) • 三段論法で人間と同じような誤りパターン Ando et al. (2023); Ozeki et al. (2024); Bertolazzi et al. (2024); Eisape et al. (2024) • 専門家が作った数学問題, o1-previewの精度1%以下 (Glazer1 et al., 2024) • 希少・絶滅言語に関するパズルが解けない (Bean et al., 2024) 暗記 (memorization) 内容バイアス (content bias) 脆弱性 (brittleness) ヒューリス ティックス 知見を一言でまとめると「分布内に強いが分布外に弱い」 → それだけ聞くと,ただの機械学習の一般論 → しかし,推論規則は本来,分布内外の区別が存在しない(任意性)はず → それでは「分布内だけ解ける」機械は,一体何を学んだのか? > 規則を「分布内だけに適用できる」状態で保持している? > それとも全く別の本質的でないものを学んでいないか?(Nikankin et al., 2024) • O1-previewはアメリカ数学オリンピック予選を83%解ける.未知の問題もイケる. 科学・コーディング・kaggleもイケる! (OpenAI 2024), (Li et al. 2024) • Implicitな推論でGrokkingが起きる. (Wang et al., 2024) • 暗記と汎化は両立しうる (Xie et al., 2024) • 事実型の質問に対しては類似サンプルから得られた知識のみを参照するが, 推論問題に対しては様々なサンプルを参照する (Ruis, 2024) • LLMサイズを大きくした場合,事実型の問題に対しては少数サンプルの暗記が増える が,推論問題に対しては少数サンプルの暗記が増える訳ではない. (Wang et al., 2024) ↓ヤバい! とりあえずデータを増やしてみよう (grokkingするかも・暗記しながらも汎化できる) もっと難しい問題を解かせてみよう 議論で洗い出される観点が重要 より高度な 問題 ←ヤバい! 数学オリンピックは 我らの中でも最弱…