できない • 知識カットオフ前のコーディング試験は100点、カットオフ後は0点 (Mitchell, 2023) • 日常的な内容の推論問題は解けるが,反実仮想的な推論問題は解けない.(Dasgupta et al., 2023) Zhao et al. (2024b) Frohberg & Binder (2022) Li et al. (2023) Yu et al. (2023) Jin et al. (2023) Zečević (2024) • 学習コーパスの頻出表現(トークン・変数名・言語表現等)・頻出問題は解けるが, そうでない問題は解けない. Jiang et al. (2024ab) Dziri et al. (2023) • 問題の表現(言語・数値・数式)を変える・無関係な情報を入れるなどすると,と性能が大きく劣化. Mirzadeh (2024) (Razeghi et al., 2022) Zhang et al., 2024 Srivastava et al. (2024) Shi et al. (2023) • 問題A・Bを独立に解けるが,それらを結合した問題は解けない (Arian Hosseini 2024) • 前提事実の順序を変えると性能が大きく下落 Chen et al. (2024) • 前提や問題文での語彙オーバーラップにより初期の推論系列を選定 Aoki et al. 2024 • 数学の規則ではなく,(本質的で無い)ヒューリスティックの集合で解いている (Nikankin et al., 2024) • 三段論法で人間と同じような誤りパターン Ando et al. (2023); Ozeki et al. (2024); Bertolazzi et al. (2024); Eisape et al. (2024) • 専門家が作った数学問題, o1-previewの精度1%以下 (Glazer1 et al., 2024) • 希少・絶滅言語に関するパズルが解けない (Bean et al., 2024) 暗記 (memorization) 内容バイアス (content bias) 脆弱性 (brittleness) ヒューリス ティックス 知見を一言でまとめると「分布内に強いが分布外に弱い」 → それだけ聞くと,ただの機械学習の一般論 → しかし,推論規則は本来,分布内外の区別が存在しない(任意性)はず → それでは「分布内だけ解ける」機械は,一体何を学んだのか? > 規則を「分布内だけに適用できる」状態で保持している? > それとも全く別の本質的でないものを学んでいないか?(Nikankin et al., 2024) • O1-previewはアメリカ数学オリンピック予選を83%解ける.未知の問題もイケる. 科学・コーディング・kaggleもイケる! (OpenAI 2024), (Li et al. 2024) • Implicitな推論でGrokkingが起きる. (Wang et al., 2024) • 暗記と汎化は両立しうる (Xie et al., 2024) • 事実型の質問に対しては類似サンプルから得られた知識のみを参照するが, 推論問題に対しては様々なサンプルを参照する (Ruis, 2024) • LLMサイズを大きくした場合,事実型の問題に対しては少数サンプルの暗記が増える が,推論問題に対しては少数サンプルの暗記が増える訳ではない. (Wang et al., 2024) ↓ヤバい! とりあえずデータを増やしてみよう (grokkingするかも・暗記しながらも汎化できる) もっと難しい問題を解かせてみよう 議論で洗い出される観点が重要 より高度な 問題 ←ヤバい! 数学オリンピックは 我らの中でも最弱…