Slide 1

Slide 1 text

形式論理学に基づく演繹コーパスによる 言語モデルに対する演繹推論能力の付与 森下皓文 日立製作所 先端AIイノベーションセンタ メディア知能処理研究部 B1-2

Slide 2

Slide 2 text

© Hitachi, Ltd. 2022. All rights reserved. 要約

Slide 3

Slide 3 text

© Hitachi, Ltd. 2022. All rights reserved. 3 要約  言語モデルに演繹推論を教えるため, 多数の演繹推論事例からなるコーパスを生成.  先行研究と違い,形式論理学に基く根拠ある演繹規則群を採用.  実験により,演繹推論能力の強化に繋がることを確認.  特に,先行研究に比べ,演繹規則への汎化性能が高い. → 現実世界で必要な様々な演繹規則を表現できる可能性.  コーパス・モデル・コードを公開予定.  コーパスは先行研究より高難易度 → ベンチマークとしても有用.

Slide 4

Slide 4 text

© Hitachi, Ltd. 2022. All rights reserved. 背景

Slide 5

Slide 5 text

© Hitachi, Ltd. 2022. All rights reserved. 5 背景  論理的な推論能力を持ったAIの実現は大きなゴール.  近年,様々なベンチマークが提案される[2,3,4,5].  しかし,言語モデル(LM)は,論理推論が苦手(*)[6,7,8].  例: LMは否定(negation)が苦手[]  LMはその能力をテキストコーパス中の多量の事例から獲得. → 論理推論能力の低さは,論理推論の事例が足りないからでは? 論理推論の事例を大量に生成し, LMに学習させればよいのでは? (*)..他のタスクに比べてまだ伸びしろが大きい

Slide 6

Slide 6 text

© Hitachi, Ltd. 2022. All rights reserved. 前提知識 - 形式論理学(Formal Logic)における演繹推論 -

Slide 7

Slide 7 text

© Hitachi, Ltd. 2022. All rights reserved. 7 演繹推論とは? - 記号変形としての論証 -  論証 = 演繹のステップを表す,記号変形規則.  論証の妥当性は𝓕𝓕, 𝓖𝓖 の内容に依存しない(i.e., 𝓕𝓕, 𝓖𝓖 の内容は任意)

Slide 8

Slide 8 text

© Hitachi, Ltd. 2022. All rights reserved. 8 様々な論証  論証は無限パターン考えられる(前提・結論の論理式が無限パターンあるため).  妥当な論証と,妥当でない論証(*)が存在する. (*)…前提が全て真 (=1) だが結論が偽 (=0) となるような真理値割り当てが存在する論証 のこと

Slide 9

Slide 9 text

© Hitachi, Ltd. 2022. All rights reserved. 9 多段演繹推論 複雑な論証は,より“原子的な”な論証の多段推論で導出できる?

Slide 10

Slide 10 text

© Hitachi, Ltd. 2022. All rights reserved. 10 完全性定理 1階述語論理の完全性定理 (Gödel, 1929) 1. 全ての妥当な論証は,公理系(*)による多段演繹推論によって導出できる. 2. 公理系による多段演繹推論によって導出された論証は全て妥当である. (*)..原子的な論証の集合(次ページ)

Slide 11

Slide 11 text

© Hitachi, Ltd. 2022. All rights reserved. 11 公理系に含まれる論証

Slide 12

Slide 12 text

© Hitachi, Ltd. 2022. All rights reserved. 12 完全性の含意 完全性定理の帰結: 公理系による多段推論は任意の論証による多段推論を模擬できる. 公理系は,現実世界で必要となる(かもしれない),様々な論証による多段推論を表現できる!

Slide 13

Slide 13 text

© Hitachi, Ltd. 2022. All rights reserved. 公理系を用いた 演繹推論事例の生成

Slide 14

Slide 14 text

© Hitachi, Ltd. 2022. All rights reserved. 14  提案手法: Formal Logic Deduction (FLD)  公理系を用いた多段推論事例を自動生成するためのフレームワーク  先行研究  (RuleTaker) Transformers as soft reasoners over language  論証: 含意  Critical thinking for language models  論証: クリティカルシンキング 公理系を用いた演繹推論事例の生成 論証が恣意的→完全性を持たず多様な演繹推論を表せない (Peter Clark, Oyvind Tafjord, and Kyle Richardson) (Gregor Betz, Christian Voigt, and Kyle Richardson) 次ページ 𝑮𝑮(𝒃𝒃) ∀𝒙𝒙 𝑭𝑭 𝒙𝒙 → 𝑮𝑮(𝒙𝒙) 𝑭𝑭(𝒂𝒂) 𝓕𝓕 → 𝓖𝓖 ¬𝓖𝓖 → ¬𝓕𝓕

Slide 15

Slide 15 text

© Hitachi, Ltd. 2022. All rights reserved. 15 演繹推論事例生成フレームワーク Formal Logic Deduction  公理系に基づく多段推論事例を生成する.  様々な条件でコーパスを生成するための豊富なオプション → 解析研究に繋げる.

Slide 16

Slide 16 text

© Hitachi, Ltd. 2022. All rights reserved. 16 生成された事例②

Slide 17

Slide 17 text

© Hitachi, Ltd. 2022. All rights reserved. 実験

Slide 18

Slide 18 text

© Hitachi, Ltd. 2022. All rights reserved. 18 実験  問い: 「FLDコーパスでの学習は演繹推論能力の強化に繋がるか?」  手法: LMをFLDで学習→ベンチマークで演繹推論能力を計測  FLDでの学習: 30,000事例, 20,000ステップ  ベンチマーク  演繹コーパス (後述: FLD/RuleTakerを用いる)  EntailmentBank [14]: 人手で作られた演繹推論ベンチマーク  モデル  ステップワイズ証明器[8]: T5[13]を用いて証明を1ステップづつ生成する. 詳細は予稿を参考のこと

Slide 19

Slide 19 text

© Hitachi, Ltd. 2022. All rights reserved. 19 論証への汎化  演繹コーパスでは演繹推論能力を強化できる.  公理系を用いた場合が,論証への汎化性能に最も優れる(=完全性の恩恵).

Slide 20

Slide 20 text

© Hitachi, Ltd. 2022. All rights reserved. 20 複雑なタスクへの汎化  より複雑な演繹推論タスクにおいても,性能向上を見込める.  RT vs FLDは要調査

Slide 21

Slide 21 text

© Hitachi, Ltd. 2022. All rights reserved. 21 (おまけ) FLDの難易度 FLDは先行研究より高難易度→ ベンチマークとして有用 難易度解析の詳細は予稿(付録)を参考のこと

Slide 22

Slide 22 text

© Hitachi, Ltd. 2022. All rights reserved. 今後の展望

Slide 23

Slide 23 text

© Hitachi, Ltd. 2022. All rights reserved. 23 今後の展望  演繹推論能力のどのような側面の強化に繋がっているか?  多様な論証の習得  ステップ数の多い演繹の実行  論理的言明を表す言語表現の理解  コーパスを他のタイプの論理推論へと拡張する  事実を自分で獲得する演繹推論  仮説推論  巨大言語モデル(LLM)に学習させたら スーパー・ロジカル・LLMにならないか?  CoTとの併用も

Slide 24

Slide 24 text

© Hitachi, Ltd. 2022. All rights reserved. 24 本日のまとめ ご静聴ありがとうございました.  言語モデルに演繹推論を教えるため, 多数の演繹推論事例からなるコーパスを生成.  先行研究と違い,形式論理学に基く根拠ある演繹規則群を採用  実験により,演繹推論能力の強化に繋がることを確認.  特に,先行研究に比べ,演繹規則への汎化性能が高い. → 現実世界で必要な様々な演繹規則を表現できる可能性.  コーパス・モデル・コードを公開予定.  コーパスは先行研究より高難易度 → ベンチマークとしても有用.