Slide 1

Slide 1 text

Sakana AI エンジニア勉強会 2025/07/08

Slide 2

Slide 2 text

自己紹介 ● 加納 龍一 (かのう りゅういち) ○ Applied Research Engineer @ Sakana AI ○ 入社して3ヶ月 ● 基礎研究と社会実装の両輪に興味 ○ 研究 ■ ICLR’22, ICLR’23, ICML’24, ICLR’25 ■ 博士 (情報学) ○ 社会実装 ■ 前職(DeNA)における自社サービスAI活用 ■ Kaggle Master 2/52

Slide 3

Slide 3 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 4. まとめ 3/52

Slide 4

Slide 4 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 4. まとめ 4/52

Slide 5

Slide 5 text

オープンエンドでないもの、オープンエンドなもの ● 例: 大学受験の勉強と、大学院でやる研究活動 ○ 決められた範囲内の知識で構成されるテストのスコアを最大化する能力 ○ 人類がまだ知らないフロンティアを切り開く能力 (研究活動等) ● 学術コミュニティにおける定義 ○ novel: 今までにない動きをする ○ learnable: 過去の軌跡に次の探索が基づいている (毎回ランダムではない) 5/52 https://proceedings.mlr.press/v235/hughes24a.html From the perspective of an observer, a system is open-ended if and only if the sequence of artifacts it produces is both novel and learnable.

Slide 6

Slide 6 text

Sakana AIが開発した自立型エージェント: AI Scientist 6/52

Slide 7

Slide 7 text

Sakana AIが開発した自立型エージェント: AI Scientist 7/52

Slide 8

Slide 8 text

Sakana AIが開発した自立型エージェント: AI Scientist ● AI Scientist-v2が、ICLR’25のワークショップで査読プロセスを通過 ○ 完全AI生成論文が査読プロセスを通過した世界初の事例 ● 基調講演においても大々的に言及される 8/52

Slide 9

Slide 9 text

Sakana AIが開発した自立型エージェント: AI Scientist 9/52

Slide 10

Slide 10 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 4. まとめ 10/52

Slide 11

Slide 11 text

オープンエンドな探索実現のために ● 集団で探索する ● 目的に囚われすぎない ● 多様性を維持する ● 環境を変える 11/52 https://www.oreilly.co.jp/books/9784814400003/

Slide 12

Slide 12 text

進化計算 12/52 初期集団の生成 適応度の評価 選択 交叉 突然変異 Selection Variation Interaction with Environment ● 本日の勉強会では進化計算に注目する

Slide 13

Slide 13 text

動作例 13/52 https://www.youtube.com/watch?v=aeWmdojEJf0

Slide 14

Slide 14 text

目的型探索の限界 ● 目的の設定方法に品質が依存してくる ○ ゴールとの直線距離を考えるだけではエージェントは袋小路に落ちたり 14/52 START GOAL

Slide 15

Slide 15 text

目的型探索の限界 15/52 ● 目的に対して正しく進んでいるかが都度評価できるとは限らない https://link.springer.com/book/10.1007/978-3-319-15524-1 Almost no prerequisite to any major invention was invented with that invention in mind

Slide 16

Slide 16 text

Picbreeder 16/52 https://wiki.santafe.edu/images/1/1e/Secretan_ecj11.pdf ● 進化計算(CPPN-NEAT)を用いてイラストを生成するWebアプリ ○ https://nbenko1.github.io/#/ ○ 途中経過からは全く想像できないような絵が生まれる

Slide 17

Slide 17 text

Picbreeder ● 目的型探索では辿り着けないようなものも、意図せず突然できる ○ 途中経過を都度評価し学習を行うことの限界を示している 17/52 https://www.ncheney.com/teaching/robotics_readings/OnTheDeleteriousEffectsOfAPrioriObjectivesOnEvolutionAndRepresentation%28WoolleyStanley2011%29.pdf 人間が偶然すぐ見つけたもの 目的型探索を3万世代ぶん行ったもの

Slide 18

Slide 18 text

つまり何を言っているのか ● 途中結果にこだわりすぎず、新しいものを見つけるための探索を行えば、 素晴らしいものに出会えるかもしれない 18/52 https://iclr.cc/virtual/2025/invited-talk/36780 ・新規性のある探索 ・多様な個体の作成

Slide 19

Slide 19 text

新規性探索 (Novelty Search) ● 評価指標を新規性に置き換える ○ アーカイブ管理や近傍計算など考えることは増えるが、類似の枠組みで行える 19/52 https://www.youtube.com/watch?v=JIQP15tt5AI Fitness Novelty

Slide 20

Slide 20 text

品質多様性 (Quality Diversity) ● 意図的に多様な特性を持った個体を残し進化計算を行う ○ MAP-Elites: グリッドを事前に定義しグリッドごとのエリートを次の世代に残す 20/52 https://openreview.net/forum?id=Kvdh12wGC0

Slide 21

Slide 21 text

多様な結果を得る 21/52 https://link.springer.com/chapter/10.1007/978-981-99-3814-8_11 ● 多様な特性を持つ個体が観測できると、ユーザー目線でも嬉しい ○ 指標がひとつとは限らないので、色々見て決められる (重さ、速さ、作成コスト、かっこよさ...) ○ 人間では思いつきもしなかった結果が得られることも

Slide 22

Slide 22 text

実応用例 ● 様々なところで実用されてきている ○ 部品設計 ○ 建築 ○ … 22/52 https://en.wikipedia.org/wiki/Evolved_antenna

Slide 23

Slide 23 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 ● 抽象的な事柄の評価 ● 多様なアイデアの生成 ● システムデザインの自動化 4. まとめ 23/52

Slide 24

Slide 24 text

どう使う? ● 個体の変化・評価・特徴づけなどの操作において、LLMの柔軟性を活かせる ○ 進化計算の中の突然変異や交叉に該当する部分をLLMに実行させるなど 24/52 https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

Slide 25

Slide 25 text

人間を超える発見 25/52 https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/ ● FunSearchやAlphaEvolveなど、膨大な計算資源による進化計算は強力 ○ 評価が容易なタスクは人間を超える性能に

Slide 26

Slide 26 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 ● 抽象的な事柄の評価 ● 多様なアイデアの生成 ● システムデザインの自動化 4. まとめ 26/52

Slide 27

Slide 27 text

LLM as a Judge 27/52 10段階における評価は6 ● 「定量評価しにくいもの」をそれらしく定量化できる

Slide 28

Slide 28 text

LLM as a Judge ● 「定量評価しにくいもの」をそれらしく定量化できる 28/52

Slide 29

Slide 29 text

LLM as a Judgeは使い勝手が良い 29/52 ● MAP-Elitesの個性を示す軸の値は、LLMに任意に判断させられる ○ ロボットの「高さ」「幅」などでなく、たとえば「昭和っぽさ」「コミカルさ」を軸にできる https://openreview.net/forum?id=Kvdh12wGC0 昭和っぽさ コミカルさ

Slide 30

Slide 30 text

LLM as a Judgeは万能ではない ● 研究テーマの面白さの評価が、人間とConsistentでない ○ 面白いことをランダムに思いつくことはできるが、それを客観的に面白いと評価できない ● ドメイン知識をLLMに学習させたり、教師あり学習したり、対応は色々 ○ SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding 30/52 https://openreview.net/forum?id=M23dTGWCZy

Slide 31

Slide 31 text

アプローチ ● LLMそのものの品質を改善させる ● 集合知の活用 ● 判断根拠の徹底的な調査 ● Human in the Loop 31/52

Slide 32

Slide 32 text

LLMそのものの品質を向上させる ● プロンプトに評価基準を記載する ○ 査読ガイドラインを参照させたり ● 評価の参考となるデータセットを構築してfine-tuningする ○ 学術論文であれば、OpenReviewなどから査読結果を収集し学習させることができる 32/52 https://openreview.net/forum?id=bjcsVLoHYs

Slide 33

Slide 33 text

集合知の活用 ● LLMを複数回呼び出し、それらの多数決を取るなどして最終結果とする 33/52 https://openreview.net/forum?id=bgzUSZ8aeg

Slide 34

Slide 34 text

判断根拠の徹底的な調査 ● Web検索など多様なツールを使いこなしながら、判断根拠を収集 ○ 研究アイデアにNoveltyがあるのかどうかに関してDeep Researchを行うなど 34/52 https://arxiv.org/abs/2506.18096

Slide 35

Slide 35 text

Human in the Loop ● 完全に人間の介入不要にする必要はない 35/52

Slide 36

Slide 36 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 ● 抽象的な事柄の評価 ● 多様なアイデアの生成 ● システムデザインの自動化 4. まとめ 36/52

Slide 37

Slide 37 text

アイデア生成 37/52 ● LLMがつくったアイデアはどの程度ユニークなのか?

Slide 38

Slide 38 text

人間のエキスパートによるLLM作成アイデアの評価 ● LLMがつくったアイデアと人間のアイデアとを100人以上の研究者が比較 ● 評価は悪くはないが、アイデアの多様性や実現可能性の観点では課題も 38/52 https://openreview.net/forum?id=M23dTGWCZy

Slide 39

Slide 39 text

LLMに多様な挙動をとらせる ● LLMの試行錯誤は、注意深く見てみると非常に冗長 ○ 同じ詰まりかたを繰り返す等 39/52 https://openreview.net/forum?id=ZsP3YbYeE9

Slide 40

Slide 40 text

アプローチ ● 過去の出力を反映して次の試行錯誤を行う ● 多様なLLMを作る ● 単一LLMが試行錯誤するのではなく、LLM間で議論をさせる 40/52

Slide 41

Slide 41 text

過去の出力を反映して次の試行錯誤を行う 41/52 ● 過去の試行錯誤のログを残しながら、次の試行の際に考慮する ○ プロンプトの工夫だけでも、多様性へと寄与することは可能 https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

Slide 42

Slide 42 text

多様なLLMをつくる ● MAP-Elitesを進化的モデルマージと共に循環的に使用 (CycleQD) ○ 多様なスキルや個性を持つように 42/52 https://openreview.net/forum?id=Kvdh12wGC0

Slide 43

Slide 43 text

LLM間で議論をさせる 43/52 https://renqichen.github.io/Virtual-Scientists/

Slide 44

Slide 44 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 ● 抽象的な事柄の評価 ● 多様なアイデアの生成 ● システムデザインの自動化 4. まとめ 44/52

Slide 45

Slide 45 text

デザイン自動化 45/52 ● 基盤モデルにエージェントや環境のデザインを委ねる

Slide 46

Slide 46 text

ADAS: Automated Design of Agentic Systems ● エージェントワークフローの設計そのものを自動化する 46/52 https://openreview.net/forum?id=t9U3LW7JVX

Slide 47

Slide 47 text

ADAS: Automated Design of Agentic Systems 47/52 https://openreview.net/forum?id=t9U3LW7JVX

Slide 48

Slide 48 text

Darwin Gödel Machine ● エージェントを構成するコードすらもLLMが進化の過程で書き換える 48/52 https://sakana.ai/dgm/

Slide 49

Slide 49 text

OMNI-EPIC 49/52 https://openreview.net/forum?id=Y1XkzMJpPd ● 環境をコードで表現し、LLMにより進化の過程で変化させる

Slide 50

Slide 50 text

目次 1. 導入 2. オープンエンドな探索の基礎 3. 基盤モデルの活用 4. まとめ 50/52

Slide 51

Slide 51 text

まとめ ● オープンエンド探索の基本 ○ 新規性探索、品質多様性... ○ 探索の結果、人間では到達できなかった素晴らしいものが得られることがある ● 基盤モデルの組み込み ○ これまでは、きちんとスコア付けが明確にできるもののみ探索ができてきた ○ LLMの登場により探索可能な問題の対象が広がった ■ その流れに沿った技術開発も盛ん ● 抽象的な事柄の定量化 (LLM as a Judge) ● アイデア生成、多様性の担保 ● システムデザインの自動化 ● … 51/52

Slide 52

Slide 52 text

EOF 52/52