【NLPコロキウム】LLMに論理推論を教えられるか？- 人工コーパスを用いたアプローチ -

Slide 1

Slide 1 text

LLMに論理推論を教えられるか？ - 人工コーパスを用いたアプローチ - 森下皓文日立製作所先端AIイノベーションセンタメディア知能処理研究部

Slide 90

Slide 90 text

© Hitachi, Ltd. 2023. All rights reserved. 90 LLMは推論ができている？いない？できるできない • 知識カットオフ前のコーディング試験は100点、カットオフ後は0点 (Mitchell, 2023) • 日常的な内容の推論問題は解けるが，反実仮想的な推論問題は解けない．(Dasgupta et al., 2023) Zhao et al. (2024b) Frohberg & Binder (2022) Li et al. (2023) Yu et al. (2023) Jin et al. (2023) Zečević (2024) • 学習コーパスの頻出表現(トークン・変数名・言語表現等)・頻出問題は解けるが，そうでない問題は解けない． Jiang et al. (2024ab) Dziri et al. (2023) • 問題の表現(言語・数値・数式)を変える・無関係な情報を入れるなどすると，と性能が大きく劣化． Mirzadeh (2024) (Razeghi et al., 2022) Zhang et al., 2024 Srivastava et al. (2024) Shi et al. (2023) • 問題A・Bを独立に解けるが，それらを結合した問題は解けない (Arian Hosseini 2024) • 前提事実の順序を変えると性能が大きく下落 Chen et al. (2024) • 前提や問題文での語彙オーバーラップにより初期の推論系列を選定 Aoki et al. 2024 • 数学の規則ではなく，(本質的で無い)ヒューリスティックの集合で解いている (Nikankin et al., 2024) • 三段論法で人間と同じような誤りパターン Ando et al. (2023); Ozeki et al. (2024); Bertolazzi et al. (2024); Eisape et al. (2024) • 専門家が作った数学問題， o1-previewの精度1%以下 (Glazer1 et al., 2024) • 希少・絶滅言語に関するパズルが解けない (Bean et al., 2024) 暗記 (memorization) 内容バイアス (content bias) 脆弱性 (brittleness) ヒューリスティックス知見を一言でまとめると「分布内に強いが分布外に弱い」 → それだけ聞くと，ただの機械学習の一般論 → しかし，推論規則は本来，分布内外の区別が存在しない(任意性)はず → それでは「分布内だけ解ける」機械は，一体何を学んだのか？ > 規則を「分布内だけに適用できる」状態で保持している？ > それとも全く別の本質的でないものを学んでいないか？（Nikankin et al., 2024） • O1-previewはアメリカ数学オリンピック予選を83%解ける．未知の問題もイケる．科学・コーディング・kaggleもイケる！ (OpenAI 2024), (Li et al. 2024) • Implicitな推論でGrokkingが起きる． (Wang et al., 2024) • 暗記と汎化は両立しうる (Xie et al., 2024) • 事実型の質問に対しては類似サンプルから得られた知識のみを参照するが，推論問題に対しては様々なサンプルを参照する (Ruis, 2024) • LLMサイズを大きくした場合，事実型の問題に対しては少数サンプルの暗記が増えるが，推論問題に対しては少数サンプルの暗記が増える訳ではない． (Wang et al., 2024) ↓ヤバい! とりあえずデータを増やしてみよう (grokkingするかも・暗記しながらも汎化できる) もっと難しい問題を解かせてみよう議論で洗い出される観点が重要より高度な問題 ←ヤバい! 数学オリンピックは我らの中でも最弱…

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text