オープンエンドでないもの、オープンエンドなもの
● 例: 大学受験の勉強と、大学院でやる研究活動
○ 決められた範囲内の知識で構成されるテストのスコアを最大化する能力
○ 人類がまだ知らないフロンティアを切り開く能力 (研究活動等)
● 学術コミュニティにおける定義
○ novel: 今までにない動きをする
○ learnable: 過去の軌跡に次の探索が基づいている (毎回ランダムではない)
5/52
https://proceedings.mlr.press/v235/hughes24a.html
From the perspective of an observer, a system is open-ended if and only if the
sequence of artifacts it produces is both novel and learnable.
Slide 6
Slide 6 text
Sakana AIが開発した自立型エージェント: AI Scientist
6/52
Slide 7
Slide 7 text
Sakana AIが開発した自立型エージェント: AI Scientist
7/52
Slide 8
Slide 8 text
Sakana AIが開発した自立型エージェント: AI Scientist
● AI Scientist-v2が、ICLR’25のワークショップで査読プロセスを通過
○ 完全AI生成論文が査読プロセスを通過した世界初の事例
● 基調講演においても大々的に言及される
8/52
目的型探索の限界
15/52
● 目的に対して正しく進んでいるかが都度評価できるとは限らない
https://link.springer.com/book/10.1007/978-3-319-15524-1
Almost no prerequisite to any major invention was
invented with that invention in mind
LLM as a Judge
27/52
10段階における評価は6
● 「定量評価しにくいもの」をそれらしく定量化できる
Slide 28
Slide 28 text
LLM as a Judge
● 「定量評価しにくいもの」をそれらしく定量化できる
28/52
Slide 29
Slide 29 text
LLM as a Judgeは使い勝手が良い
29/52
● MAP-Elitesの個性を示す軸の値は、LLMに任意に判断させられる
○ ロボットの「高さ」「幅」などでなく、たとえば「昭和っぽさ」「コミカルさ」を軸にできる
https://openreview.net/forum?id=Kvdh12wGC0
昭和っぽさ
コミカルさ
Slide 30
Slide 30 text
LLM as a Judgeは万能ではない
● 研究テーマの面白さの評価が、人間とConsistentでない
○ 面白いことをランダムに思いつくことはできるが、それを客観的に面白いと評価できない
● ドメイン知識をLLMに学習させたり、教師あり学習したり、対応は色々
○ SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
30/52
https://openreview.net/forum?id=M23dTGWCZy
Slide 31
Slide 31 text
アプローチ
● LLMそのものの品質を改善させる
● 集合知の活用
● 判断根拠の徹底的な調査
● Human in the Loop
31/52