Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Agent Skill Acquisition for Large Language Mode...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for kiyo kiyo
September 09, 2025
13

Agent Skill Acquisition for Large Language Models via CycleQD

2025年5月2日に行われた進化計算×ニューラルネットワーク論文読み会(https://abeja-innovation-meetup.connpass.com/event/352604/)の発表資料です

Avatar for kiyo

kiyo

September 09, 2025
Tweet

Transcript

  1. MAP Elite(初出はIlluminating search spaces by mapping elites)は 進化的に複数のタスクで優れた性能を示す個体を作る手法 タスクを2種類に分ける •

    Quality(目的のタスク) • Behavior Characteristics(BC、なるべく性能が高いほうがうれしいタスク) BCのスコアを適当なグリッドに区切り、 その枠の中で最もQualityが高い個体をエリートとして残す 交叉と変異で新しく得られた個体が割り当てられるグリッドが • 既存のエリートのいないグリッド • 既存エリートよりQualityのスコアが高い なら、そのグリッドにエリートとして配置する MAP Elite 4
  2. 5 Agent Skill Acquisition for Large Language Models via CycleQD

    (ICLR2025採択) MAP Eliteを拡張してQuality役となるタスクを交代しながら交互に最適化する • 各タスクの性能を均等に最大化できる • あるタスクへの最適化の最中に副作用として他のタスクへの性能が上がることが あり、それらを保持しておける これらの特徴から複数タスクへの最適化をデータ比などの調整をすることなく実現で きる CycleQDの概要
  3. 9 • CycleQDで得られたモデルは元となった各タスクのエキ スパートモデルより概ね好成績。 • 全データを使ったファインチューニングよりも成績 が良い点も重要。 • Llama3-8B-Instructをベースにしたモデルで GPT-3.5-turboに匹敵する成績

    • CycleQDは他のマージ手法に比べても成績が良い 実験 • 対象データセット: ◦ Coding(MBPP+) ◦ OS操作(AgentBench) ◦ DBクエリ生成(AgentBench) • LLaMA3-8B-Instructをベースモデルとして各タスクを個別ファインチューニングしたエキスパートモデルを作成 • 総世代数:CycleQDを1200世代回す
  4. 14

  5. 18

  6. 20