Upgrade to Pro — share decks privately, control downloads, hide ads and more …

敵対生成プロンプト同時探索による内省型プロンプト最適化

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 敵対生成プロンプト同時探索による内省型プロンプト最適化

@人工知能学会全国大会 (第40回) 一般セッション
https://pub.confit.atlas.jp/ja/event/jsai2026/presentation/4M5-GS-2f-05

Avatar for Kotaro Inoue

Kotaro Inoue

June 14, 2026

More Decks by Kotaro Inoue

Other Decks in Research

Transcript

  1. 品質保証が求められる「ローンチ前」こそ、改善に活かせる失敗例がない。 理想 ローンチ前にやりたいこと LLM アプリをなるべく高品質な状態で提供 プロンプトを予め検証・改善したい ⇔ 現実 コールドスタートの現実 既存手法の多くは数百規模のデータを前提

    正解ラベル付き誤り例が少ない 何なら時間もない! 極めてデータ数が少ない中でも汎化する評価 & プロンプト最適化手法が必要 研究背景: コールドスタートのパラドックス 3
  2. RAG アプリケーションを想定した知識を与えるQA タスクを検証事例とし、 回答のハルシネーション検知器の改善を問題とする。 Knowledge-grounded QA 形式の問題定義 K 外部知識 Q

    質問 A 回答 入力  —  KQA の三要素をまとめた判定対象 正解ラベル   = faithful (知識に忠実)/ = hallucination Judge LLM プロンプト で を出力し、 に近づける 問題設定: LLM-as-a-judge によるハルシネーション検知 x = (k, q, a) y ∈ {0, 1} 0 1 p s = f ​ (x) ∈ p [0, 1] y 4
  3. カテゴリ 代表手法 アイデア 必要データ コールドスタート ブラックボックス 最適化 APE (2023) OPRO

    (2023) LLM で候補プロンプトを生成、評価スコ アで選択・反復 数百例〜 ✘ 強化学習 GRPO (2024) スカラ報酬から方策勾配で LoRA 等を更 新 数百例 ✘ ベイズ探索 MIPROv2 (2024) 指示+Few-shot 例の組合せをTPE で探索 50 〜数百例 △ 内省型最適化 GEPA (2025) 誤判定をLLM が内省し、少反復でプロン プトを改善 20 〜100 例 適用可能? 直近提案された GEPA は有力であり、GEPA の可用性を高めることで解決できないか? 既存研究: プロンプト最適化手法の分類とギャップ 5
  4. 固定 上で、誤判定時の内省フィードバックによりプロンプト を更新 GEPA :Judge LLM のみ最適化 固定データセット D 0

    上で反省ループ 少数データ D 0 固定 Judge LLM f p (x) → s 評価 J judge (p) 内省トレース 誤判定例 理由 ℓ Optimizer p を更新 metaLLM 改善済み p′ GEPA (Genetic–Pareto Prompt Optimizer) の概要 D ​ 0 p 6
  5. ハルシネーション判定用プロンプト のみを内省と探索で更新する。 J ​ (p) = judge E ​ [1

    − (x,y) ∣y − f ​ (x)∣] p 判定の誤差を抑えるため を最大化 判定用プロンプト Judge LLM に与える指示 入力 外部知識 ・質問 ・生成された回答 正解ラベル = faithful / = hallucination ハルシネーションスコア ( に近いほど忠実、 に近いほど幻覚) ラベルとスコアの誤差 が大きいほど が大きい 期待値 訓練事例 の分布に関する期待値 GEPA におけるプロンプト最適化 p J ​ (p) judge p x = (k, q, a) k q a y ∈ {0, 1} 0 1 s = f ​ (x) p s ∈ [0, 1] 0 1 ∣y − f ​ (x)∣ p 1 − ∣y − f ​ (x)∣ p J ​ judge E ​ (x,y) (x, y) 7
  6. GEPA は有力な枠組みだが、コールドスタートでは次の2 点がボトルネックになる。 課題 ① 内省の網羅性不足 内省は誤判定トレースが起点。 極めてサンプルが限られる状態では誤りパターンが観 測されにくく、何を直すべきかが見えない。 課題

    ② 評価集合が固定 改善の是非は固定されたデータセットのスコアだけで 判断される。少数データでは評価が局所的になり、汎 化した改善を検証しづらい。 Judge が見抜けない難例を Generator が生成、かつデータセットを動的にできないか? 既存手法の課題 8
  7. Judge と Generator のプロンプトを共同探索し、改善に応じて難例を動的に増やす。 Adversarial GEPA :Judge + Generator を共進化

    動的に難例 H を⽣成し D = D 0 ∪ H として内省材料を補う 少数データ D 0 Generator LLM g ⽣成難例 H ã, y=1 Judge LLM f p (x̃) → s 内省トレース Gen-Optimizer g を改善 metaLLM Judge-Optimizer p を改善 metaLLM s 判定理由 ℓ 改善済み g′ 改善済み p′ 難例 H を⾃動⽣成し探索信号を補完。 Gen-Opt と Judge-Opt が g と p を独⽴して最適化 提案手法(Adversarial GEPA )の概要 9
  8. Judge と Generator は逆向きの目的で共進化。生成した難例で内省材料を補う。 Judge ハルシネーションを見抜く J ​ (p) =

    judge E ​ [1 − (x,y) ∣y − f ​ (x)∣] p を最大化 ⇄ Generator Judge を騙すハルシネーションを生成する J ​ (g) = gen E ​ [1 − (k,q,a ) ∗ f ​ (k, q, G ​ (k, q, a ))] p g ∗ を最大化 難例の判定 0.0  忠実判定 1.0  幻覚判定 0 0.25 0.5 0.75 1 誤判定: 境界: 容易: 提案手法の目的関数と難例注入 J ​ (p) judge J ​ (g) gen 合成入力 に擬似ラベル を付与し、 で採点 • = x ~ (k, q, ) a ~ y = 1 f ( ) p x ~ (誤判定)または (境界例)を難例とする • s < 0.5 ∣s − 0.5∣ < m s < 0.5 ∣s − 0.5∣ < m s → 1 10
  9. 予算 内で GEPA の内省型更新を / に交互適用し、 の分布変化に応じて最良スコアを再測定 する評価リベースを導入。 予算 内省候補の提案・評価、難例生成、リベース再評価で

    LLM コールを消費 STEP 1 初期化 , , → STEP 2 の初期化 難例不在時は のみ内省最適 化 → STEP 3 の内省更新 上の誤判定・境界例から を改善 → STEP 4 難例の再生成・注入 で を生成 で注入 → STEP 5 の内省更新 が リベース閾値を超えた改 善時に を更新 なぜリベースが必要か 難例注入で が変わるため、過去の は古い 上の値になる。 は 更新のたびに全体で再計算し、 は が リベース閾値を超えた改善時に最新 Judge 上で測り直す。 共進化内省と評価のリベース B p g D B ≤ 500 D ← D ​ 0 p ← p ​ 0 g ← g ​ 0 g g p D p g H D ← D ​ ∪ 0 H g p g リベース 改善後 · 再評価 最新 上で の を再計測 ▲ p g p H s 更新後 · 再評価 全体で最良 の を再計算 ▲ D p D p J ​ judge D J ​ judge D p D g p 11
  10. HaluEval QA データセットで GEPA と 提案手法 を比較 プロトコル 項目 設定

    最適化対象 プロンプト , のみ(重み固定) データ分割 train (クラス比均等・5 seeds )/テスト 500 例(mean std ) 評価指標 AUROC, F1 モデル gpt-4.1-mini , gpt-oss-20b , qwen3-8b 役割・初期化 内省・Judge ・Generator は同一モデル 初期 , は最小の JSON schema ハイパーパラメータ パラメータ 値 マージン 0.25 リベース閾値 0.03 判定器温度 0.0 生成器温度 0.7 内省バッチサイズ 8 予算 (LLM コール数) 500 忍耐回数(Early Stopping ) 10 実験設定 p g n ∈ {4, 8, 16, 32} ± p ​ 0 g ​ 0 m θ ​ r B 12
  11. の少数サンプル条件では、全モデルで AUROC ・F1 ともに GEPA を上回る。 表. プロンプト最適化における5 seeds 平均の性能を比較

    Model n AUROC GEPA → 提案手法 ΔAUROC F1 GEPA → 提案手法 ΔF1 gpt-4.1-mini 4 0.806 → 0.886 +0.080 0.709 → 0.838 +0.129 gpt-4.1-mini 8 0.859 → 0.896 +0.037 0.795 → 0.848 +0.053 gpt-oss-20b 4 0.823 → 0.864 +0.040 0.780 → 0.856 +0.076 gpt-oss-20b 8 0.752 → 0.871 +0.119 0.636 → 0.864 +0.228 qwen3-8b 4 0.597 → 0.687 +0.090 0.296 → 0.498 +0.202 qwen3-8b 8 0.694 → 0.780 +0.087 0.521 → 0.669 +0.148 モデルごとの性能評価まとめ n = 4, 8 13
  12. 最小 schema から、Judge は照合規則を具体化し、Generator は「自然な一箇所改変」を狙 う指示へ変化する傾向にあった。 初期 schema 初期プロンプト JSON

    schema だけの最小指示。照合 規則や改変方針はほぼ未指定。 judge {"reasoning": "", "hallucination_score": ...} generator {"answer": "modify one fact..."} Judge の変化 ハルシネーション判定の具体化 名前・日付・場所等を個別照合 置換・追加・省略で意味が変わる場合 はハルシネーション 言い換えは許容し、事実要素の一致を 優先 "Check every factual statement ... detect substitutions, additions, omissions, contradictions." Generator の変化 「自然な一箇所改変」指示へ 質問に直接答える自然な回答を維持 変更する事実は一つ 日付・地名・役職・固有名詞を変化 "Generate a plausible answer ... exactly one factual modification ... subtle and believable." プロンプト変化の要点 15
  13. 少数サンプル(n=4 )条件の生成例。楽器・役割など属性の一箇所改変が見られた。 English Knowledge Lars Ulrich is best known as

    the drummer and co-founder of the American heavy metal band Metallica. Question Torben Ulrich is the father of Metallica drummer Lars Ulrich. Lars Ulrich is best known as the drummer and co-founder of which American heavy metal band? Answer (generated) He is best known as the bassist and co-founder of the American heavy metal band Metallica. 日本語 知識 ラース・ウルリッヒはアメリカのヘヴィメタルバンド Metallica のドラマー兼共同創設者として知られる。 質問 トーベン・ウルリッヒは Metallica のドラマー・ラース・ウル リッヒの父である。ラース・ウルリッヒはどのバンドのドラ マー兼共同創設者として知られるか? 回答 (生成) 彼は Metallica のベーシスト兼共同創設者として知られる。 gpt-4.1-mini n=4 seed0 / s=0.2 敵対サンプルの例 — 役割・属性の置換 16
  14. 提案手法は受賞とノミネートの違いを正しく判定できている。 English Knowledge Deepika Padukone won the Filmfare Award for

    Best Female Debut and received a Best Actress nomination for “Om Shanti Om”. Question What award did Deepika Padukone win for the film where Kirron Kher had a supporting role? Answer Deepika Padukone won the Best Actress award for the film. 日本語 知識 ディーピカ・パドゥコーンは「オム・シャンティ・オム」で 新人女優賞(Filmfare Award for Best Female Debut )を受賞 し、最優秀女優賞にノミネートされた。 質問 キロン・ケールが助演した映画で、ディーピカ・パドゥコー ンはどの賞を受賞したか? 回答 ディーピカ・パドゥコーンはその映画で最優秀女優賞を受賞 した。 gpt-4.1-mini n=4 seed0 GEPA s=0.0 提案手法 s=1.0 提案手法による改善例 17
  15. 実験結果から大きく2 つの要因が見られた。 要因 ① 難例が多すぎた / 初期 Judge の性能が低すぎた 事実置換には成功しているが、Judge

    が と忠実と見なす例が多い。 難例が過剰にデータセットへ注入され、学習すべき分布から外れた可能性がある。 要因 ② ラベルノイズが混ざった 正答一致の生成例と、指示文出力のような生成失敗が混入。 本来はハルシネーションでない例まで擬似ラベル で注入された。 考察3: qwen3-8b n=16 の学習不安定化の要因 s = 0.0 y = 1 20
  16. 言い換えているだけで忠実な回答を生成した例が見られた。 English Knowledge Joseph Morgan is best known for his

    role as Klaus Mikaelson in The CW show “The Vampire Diaries” and its spin-off “The Originals”. Question Joseph Morgan is best known for his role in what CW show that eventually spun off into “The Originals”? Answer (generated) Joseph Morgan is best known for his role as Klaus Mikaelson in “The Vampire Diaries,” which later spun off into “The Originals.” 日本語 知識 ジョセフ・モーガンは、CW のドラマ「ヴァンパイア・ダイアリ ーズ」およびスピンオフ「オリジナルズ」でクラウス・ミカエル ソン役で知られている。 質問 ジョセフ・モーガンは、最終的に「オリジナルズ」へスピンオフ したCW のどのドラマで知られる役を演じたか? 回答 (生成) ジョセフ・モーガンは、後に「オリジナルズ」へスピンオフした 「ヴァンパイア・ダイアリーズ」でクラウス・ミカエルソン役 で知られている。 ラベルノイズの例 21
  17. 到達点 提案手法:目的タスクと Generator を 共進化し、難例を動的に生成 のコールドスタートで、GEPA を上回るプロンプト改善を実現 応用しうる課題 出力を LLM-as-a-judge

    でスコア化で きるタスク 残課題 検証は QA ハルシネーション検知に限 定(ドメイン横断は未評価) 敵対生成により LLM コールが増え、 GEPA より高コスト 難例過多・ラベルノイズで最適化が不 安定化するケースあり 今後の展望 Generator ・Judge の均衡成長 敵対サンプルの品質フィルタ 敵対生成のメタプロンプト化と多タス ク検証で、汎用フレームワーク化 目的タスクだけでなく、敵対タスクとの共進化によるプロンプト最適化の改善策は有効そう。 学習安定性とメタプロンプト化について引き続き検証が求められる。 本研究の成果と今後の展望 n = 4, 8 22