Agent Skill Acquisition for Large Language Models via CycleQD

2025/05/02 データサイエンス部　清田浩史進化計算×ニューラルネットワーク論文読み会 Agent Skill Acquisition for Large Language Models
via CycleQD

Confidential 株式会社ABEJAでデータサイエンティストをしている清田です。興味分野は強化学習や画像生成などですが、博士課程で生物学をやっていた関係で機械学習のサイエンスへの応用にも少し興味があります。趣味：ゲーム、読書など。自己紹介 2

大規模言語モデル（LLMs）は、複雑なタスクを実行するエージェントとしての活用が進んでいる LLMに対して「コーディング」「ファイル操作」などの複数スキルの獲得が求められるようになっているしかし、従来の手法では複数スキルの獲得に次のような課題がある • データ混合比の調整が難しい：タスク間に不均衡が生じやすい • 勾配ベースでの学習はスキル融合に非効率：一部のスキルが失われたり、過学習が起きる
専門モデルを活かしながらデータ設計や損失関数に依存せず汎用スキルを持つ LLMを獲得できる手法として、進化アルゴリズムを用いたCycleQDを提案背景 3

MAP Elite（初出はIlluminating search spaces by mapping elites）は進化的に複数のタスクで優れた性能を示す個体を作る手法タスクを2種類に分ける •
Quality（目的のタスク） • Behavior Characteristics（BC、なるべく性能が高いほうがうれしいタスク） BCのスコアを適当なグリッドに区切り、その枠の中で最もQualityが高い個体をエリートとして残す交叉と変異で新しく得られた個体が割り当てられるグリッドが • 既存のエリートのいないグリッド • 既存エリートよりQualityのスコアが高いなら、そのグリッドにエリートとして配置する MAP Elite 4

5 Agent Skill Acquisition for Large Language Models via CycleQD
（ICLR2025採択） MAP Eliteを拡張してQuality役となるタスクを交代しながら交互に最適化する • 各タスクの性能を均等に最大化できる • あるタスクへの最適化の最中に副作用として他のタスクへの性能が上がることがあり、それらを保持しておけるこれらの特徴から複数タスクへの最適化をデータ比などの調整をすることなく実現できる CycleQDの概要

CycleQDの詳細1：交互最適化 6 2. BCをXとZ、QualityをYとしてグリッドを作成。グリッドに基づいて親を選択し、次の世代の子を生成する 3. BCをZとY、QualityをXとしてグリッドを作成。グリッドに基づいて親を選択し、次の世代の子を生成する
1. BCをYとX、QualityをZとしてグリッドを作成。グリッドに基づいて親を選択し、次の世代の子を生成する

7 CycleQDの詳細2：交叉（親の選択とモデルマージ）正規化スコア

8 CycleQDの詳細3：SVDによる変異

9 • CycleQDで得られたモデルは元となった各タスクのエキスパートモデルより概ね好成績。 • 全データを使ったファインチューニングよりも成績が良い点も重要。 • Llama3-8B-Instructをベースにしたモデルで GPT-3.5-turboに匹敵する成績
• CycleQDは他のマージ手法に比べても成績が良い実験 • 対象データセット： ◦ Coding（MBPP+） ◦ OS操作（AgentBench） ◦ DBクエリ生成（AgentBench） • LLaMA3-8B-Instructをベースモデルとして各タスクを個別ファインチューニングしたエキスパートモデルを作成 • 総世代数：CycleQDを1200世代回す

10 • CycleQDによって初期位置（赤枠、各タスクのエキスパートモデルの位置）から大きく探索範囲を拡げていること、エキスパートモデルより成績の良いモデルが出現していることがわかる • 広い領域で多様かつ高性能なモデルが得られている実験

• QD（MAP Elite）-> CycleQDとするだけでもそこそこ性能が向上する • Gaussian mutationでは性能が劣化（と著者は言っているが、下がっているのは DBだけに見える） • SVD
mutationは効果的 • Elite samplingを導入することでさらに改善 Ablation Studies 11

LLM以外のドメインへのCycleQDの適用可能性を検証 CAM（明細物体検出）、POL（ポリープ検出）、SKL （皮膚病変検出）、LEA（植物の葉の検出）の4つのタスクに対するエキスパートモデルを作成し、各タスクペアについてCycleQDを適用。スコアはエキスパートモデルの成績に対する相対値一部のタスクペア（POL+SKL）では両方のタスクでエキスパート並みの性能を維持できたが、逆に顕著に劣化するタスクペアもあった（CAM+LEA、
POL+LEA）その差異はModel Similarityと相関があった Segment Anything Models (SAM) への適用 12

• 複数のスキルを持つLLMを効率的に構築する進化的手法として CycleQDを提案 • データ比率や損失設計に依存せず、多様性と性能を両立 • 汎用性が高く、LLM以外の分野（例：画像セグメンテーション）にも応用可能感想 SAMにも適用可能であることが面白かった。もっと一般的に様々なドメインに適用できるのか気になるまとめ
13

他の進化手法との比較 15

• 世代が進むと多様性が増える世代によるアーカイブの推移 16

ハイパーパラメータ 17

Confidential SVDによる変異の導入 19

Agent Skill Acquisition for Large Language Mode...

Agent Skill Acquisition for Large Language Models via CycleQD

kiyo

More Decks by kiyo

Featured

Transcript

2025/05/02 データサイエンス部　清田浩史進化計算×ニューラルネットワーク論文読み会 Agent Skill Acquisition for Large Language Models

MAP Elite（初出はIlluminating search spaces by mapping elites）は進化的に複数のタスクで優れた性能を示す個体を作る手法タスクを2種類に分ける •

5 Agent Skill Acquisition for Large Language Models via CycleQD