敵対生成プロンプト同時探索による内省型プロンプト最適化

敵対生成プロンプト同時探索による内省型プロンプト最適化 Joint Adversarial Prompting for Reflective Prompt Optimization SmartHR,
Inc. 井上耕太朗人工知能学会全国大会（第40 回） 4M5-GS-2f-05

SmartHR では、人事労務およびタレントマネジメント・情シスを支えるべく、様々なAI アプリケーションを提供しています。 AI-OCR 様々な履歴書や保険料控除証明書の内容を読み取り、項目への入力を自動化します。 AI アシスタント就業規則などのドキュメントを参照して、従業
員の問い合わせ回答を自動化します。 AI 類似従業員検索従業員データから近しいスキルや経歴の人材を検索できます。 SmartHR におけるAI アプリケーション 2

品質保証が求められる「ローンチ前」こそ、改善に活かせる失敗例がない。理想ローンチ前にやりたいこと LLM アプリをなるべく高品質な状態で提供プロンプトを予め検証・改善したい ⇔ 現実コールドスタートの現実既存手法の多くは数百規模のデータを前提
正解ラベル付き誤り例が少ない何なら時間もない！極めてデータ数が少ない中でも汎化する評価 & プロンプト最適化手法が必要研究背景: コールドスタートのパラドックス 3

RAG アプリケーションを想定した知識を与えるQA タスクを検証事例とし、回答のハルシネーション検知器の改善を問題とする。 Knowledge-grounded QA 形式の問題定義 K 外部知識 Q
質問 A 回答入力　— 　KQA の三要素をまとめた判定対象正解ラベル　 = faithful （知識に忠実）/ = hallucination Judge LLM プロンプトでを出力し、に近づける問題設定: LLM-as-a-judge によるハルシネーション検知 x = (k, q, a) y ∈ {0, 1} 0 1 p s = f (x) ∈ p [0, 1] y 4

カテゴリ代表手法アイデア必要データコールドスタートブラックボックス最適化 APE (2023) OPRO
(2023) LLM で候補プロンプトを生成、評価スコアで選択・反復数百例〜 ✘ 強化学習 GRPO (2024) スカラ報酬から方策勾配で LoRA 等を更新数百例 ✘ ベイズ探索 MIPROv2 (2024) 指示+Few-shot 例の組合せをTPE で探索 50 〜数百例 △ 内省型最適化 GEPA (2025) 誤判定をLLM が内省し、少反復でプロンプトを改善 20 〜100 例適用可能？直近提案された GEPA は有力であり、GEPA の可用性を高めることで解決できないか？既存研究: プロンプト最適化手法の分類とギャップ 5

固定上で、誤判定時の内省フィードバックによりプロンプトを更新 GEPA ：Judge LLM のみ最適化固定データセット D 0
上で反省ループ少数データ D 0 固定 Judge LLM f p (x) → s 評価 J judge (p) 内省トレース誤判定例理由 ℓ Optimizer p を更新 metaLLM 改善済み p′ GEPA (Genetic–Pareto Prompt Optimizer) の概要 D 0 p 6

ハルシネーション判定用プロンプトのみを内省と探索で更新する。 J (p) = judge E [1
− (x,y) ∣y − f (x)∣] p 判定の誤差を抑えるためを最大化判定用プロンプト Judge LLM に与える指示入力外部知識・質問・生成された回答正解ラベル = faithful / = hallucination ハルシネーションスコア（に近いほど忠実、に近いほど幻覚）ラベルとスコアの誤差が大きいほどが大きい期待値訓練事例の分布に関する期待値 GEPA におけるプロンプト最適化 p J (p) judge p x = (k, q, a) k q a y ∈ {0, 1} 0 1 s = f (x) p s ∈ [0, 1] 0 1 ∣y − f (x)∣ p 1 − ∣y − f (x)∣ p J judge E (x,y) (x, y) 7

GEPA は有力な枠組みだが、コールドスタートでは次の2 点がボトルネックになる。課題 ① 内省の網羅性不足内省は誤判定トレースが起点。極めてサンプルが限られる状態では誤りパターンが観測されにくく、何を直すべきかが見えない。課題
② 評価集合が固定改善の是非は固定されたデータセットのスコアだけで判断される。少数データでは評価が局所的になり、汎化した改善を検証しづらい。 Judge が見抜けない難例を Generator が生成、かつデータセットを動的にできないか？既存手法の課題 8

Judge と Generator のプロンプトを共同探索し、改善に応じて難例を動的に増やす。 Adversarial GEPA ：Judge + Generator を共進化
動的に難例 H を⽣成し D = D 0 ∪ H として内省材料を補う少数データ D 0 Generator LLM g ⽣成難例 H ã, y=1 Judge LLM f p (x̃) → s 内省トレース Gen-Optimizer g を改善 metaLLM Judge-Optimizer p を改善 metaLLM s 判定理由 ℓ 改善済み g′ 改善済み p′ 難例 H を⾃動⽣成し探索信号を補完。 Gen-Opt と Judge-Opt が g と p を独⽴して最適化提案手法（Adversarial GEPA ）の概要 9

Judge と Generator は逆向きの目的で共進化。生成した難例で内省材料を補う。 Judge ハルシネーションを見抜く J (p) =
judge E [1 − (x,y) ∣y − f (x)∣] p を最大化 ⇄ Generator Judge を騙すハルシネーションを生成する J (g) = gen E [1 − (k,q,a ) ∗ f (k, q, G (k, q, a ))] p g ∗ を最大化難例の判定 0.0 　忠実判定 1.0 　幻覚判定 0 0.25 0.5 0.75 1 誤判定: 境界: 容易: 提案手法の目的関数と難例注入 J (p) judge J (g) gen 合成入力に擬似ラベルを付与し、で採点 • = x ~ (k, q, ) a ~ y = 1 f ( ) p x ~ （誤判定）または（境界例）を難例とする • s < 0.5 ∣s − 0.5∣ < m s < 0.5 ∣s − 0.5∣ < m s → 1 10

予算内で GEPA の内省型更新を / に交互適用し、の分布変化に応じて最良スコアを再測定する評価リベースを導入。予算内省候補の提案・評価、難例生成、リベース再評価で
LLM コールを消費 STEP 1 初期化 , , → STEP 2 の初期化難例不在時はのみ内省最適化 → STEP 3 の内省更新上の誤判定・境界例からを改善 → STEP 4 難例の再生成・注入でを生成で注入 → STEP 5 の内省更新がリベース閾値を超えた改善時にを更新なぜリベースが必要か難例注入でが変わるため、過去のは古い上の値になる。は更新のたびに全体で再計算し、はがリベース閾値を超えた改善時に最新 Judge 上で測り直す。共進化内省と評価のリベース B p g D B ≤ 500 D ← D 0 p ← p 0 g ← g 0 g g p D p g H D ← D ∪ 0 H g p g リベース改善後 · 再評価最新上でのを再計測 ▲ p g p H s 更新後 · 再評価全体で最良のを再計算 ▲ D p D p J judge D J judge D p D g p 11

HaluEval QA データセットで GEPA と提案手法を比較プロトコル項目設定
最適化対象プロンプト , のみ（重み固定）データ分割 train （クラス比均等・5 seeds ）／テスト 500 例（mean std ）評価指標 AUROC, F1 モデル gpt-4.1-mini , gpt-oss-20b , qwen3-8b 役割・初期化内省・Judge ・Generator は同一モデル初期 , は最小の JSON schema ハイパーパラメータパラメータ値マージン 0.25 リベース閾値 0.03 判定器温度 0.0 生成器温度 0.7 内省バッチサイズ 8 予算（LLM コール数） 500 忍耐回数（Early Stopping ） 10 実験設定 p g n ∈ {4, 8, 16, 32} ± p 0 g 0 m θ r B 12

の少数サンプル条件では、全モデルで AUROC ・F1 ともに GEPA を上回る。表. プロンプト最適化における5 seeds 平均の性能を比較
Model n AUROC GEPA → 提案手法 ΔAUROC F1 GEPA → 提案手法 ΔF1 gpt-4.1-mini 4 0.806 → 0.886 +0.080 0.709 → 0.838 +0.129 gpt-4.1-mini 8 0.859 → 0.896 +0.037 0.795 → 0.848 +0.053 gpt-oss-20b 4 0.823 → 0.864 +0.040 0.780 → 0.856 +0.076 gpt-oss-20b 8 0.752 → 0.871 +0.119 0.636 → 0.864 +0.228 qwen3-8b 4 0.597 → 0.687 +0.090 0.296 → 0.498 +0.202 qwen3-8b 8 0.694 → 0.780 +0.087 0.521 → 0.669 +0.148 モデルごとの性能評価まとめ n = 4, 8 13

の領域は大差ないが、の少数サンプル域での安定性が向上 qwen3-8b ので不安定化する原因については後ほど考察 AUROC F1 学習サンプル数ごとの評価指標の推移プロンプト最適化の安定度の比較 n
≥ 16 n = 4, 8 n = 16 14

最小 schema から、Judge は照合規則を具体化し、Generator は「自然な一箇所改変」を狙う指示へ変化する傾向にあった。初期 schema 初期プロンプト JSON
schema だけの最小指示。照合規則や改変方針はほぼ未指定。 judge {"reasoning": "", "hallucination_score": ...} generator {"answer": "modify one fact..."} Judge の変化ハルシネーション判定の具体化名前・日付・場所等を個別照合置換・追加・省略で意味が変わる場合はハルシネーション言い換えは許容し、事実要素の一致を優先 "Check every factual statement ... detect substitutions, additions, omissions, contradictions." Generator の変化「自然な一箇所改変」指示へ質問に直接答える自然な回答を維持変更する事実は一つ日付・地名・役職・固有名詞を変化 "Generate a plausible answer ... exactly one factual modification ... subtle and believable." プロンプト変化の要点 15

少数サンプル（n=4 ）条件の生成例。楽器・役割など属性の一箇所改変が見られた。 English Knowledge Lars Ulrich is best known as
the drummer and co-founder of the American heavy metal band Metallica. Question Torben Ulrich is the father of Metallica drummer Lars Ulrich. Lars Ulrich is best known as the drummer and co-founder of which American heavy metal band? Answer (generated) He is best known as the bassist and co-founder of the American heavy metal band Metallica. 日本語知識ラース・ウルリッヒはアメリカのヘヴィメタルバンド Metallica のドラマー兼共同創設者として知られる。質問トーベン・ウルリッヒは Metallica のドラマー・ラース・ウルリッヒの父である。ラース・ウルリッヒはどのバンドのドラマー兼共同創設者として知られるか？回答（生成）彼は Metallica のベーシスト兼共同創設者として知られる。 gpt-4.1-mini n=4 seed0 / s=0.2 敵対サンプルの例 — 役割・属性の置換 16

提案手法は受賞とノミネートの違いを正しく判定できている。 English Knowledge Deepika Padukone won the Filmfare Award for
Best Female Debut and received a Best Actress nomination for “Om Shanti Om”. Question What award did Deepika Padukone win for the film where Kirron Kher had a supporting role? Answer Deepika Padukone won the Best Actress award for the film. 日本語知識ディーピカ・パドゥコーンは「オム・シャンティ・オム」で新人女優賞（Filmfare Award for Best Female Debut ）を受賞し、最優秀女優賞にノミネートされた。質問キロン・ケールが助演した映画で、ディーピカ・パドゥコーンはどの賞を受賞したか？回答ディーピカ・パドゥコーンはその映画で最優秀女優賞を受賞した。 gpt-4.1-mini n=4 seed0 GEPA s=0.0 提案手法 s=1.0 提案手法による改善例 17

qwen3-8b は全体的に難例の割合が高く、学習安定性を損なう可能性がある考察1: 敵対的生成サンプル中の難例割合 18

Score が低いほど忠実なサンプルとみなされる。 qwen3-8b の n=16 では極端な低スコア側への偏りが見られ、Judge 側が適切に最適化されなかった。考察2: 難例の難易度分布
19

実験結果から大きく2 つの要因が見られた。要因 ① 難例が多すぎた / 初期 Judge の性能が低すぎた事実置換には成功しているが、Judge
がと忠実と見なす例が多い。難例が過剰にデータセットへ注入され、学習すべき分布から外れた可能性がある。要因 ② ラベルノイズが混ざった正答一致の生成例と、指示文出力のような生成失敗が混入。本来はハルシネーションでない例まで擬似ラベルで注入された。考察3: qwen3-8b n=16 の学習不安定化の要因 s = 0.0 y = 1 20

言い換えているだけで忠実な回答を生成した例が見られた。 English Knowledge Joseph Morgan is best known for his
role as Klaus Mikaelson in The CW show “The Vampire Diaries” and its spin-off “The Originals”. Question Joseph Morgan is best known for his role in what CW show that eventually spun off into “The Originals”? Answer (generated) Joseph Morgan is best known for his role as Klaus Mikaelson in “The Vampire Diaries,” which later spun off into “The Originals.” 日本語知識ジョセフ・モーガンは、CW のドラマ「ヴァンパイア・ダイアリーズ」およびスピンオフ「オリジナルズ」でクラウス・ミカエルソン役で知られている。質問ジョセフ・モーガンは、最終的に「オリジナルズ」へスピンオフしたCW のどのドラマで知られる役を演じたか？回答（生成）ジョセフ・モーガンは、後に「オリジナルズ」へスピンオフした「ヴァンパイア・ダイアリーズ」でクラウス・ミカエルソン役で知られている。ラベルノイズの例 21

到達点提案手法：目的タスクと Generator を共進化し、難例を動的に生成のコールドスタートで、GEPA を上回るプロンプト改善を実現応用しうる課題出力を LLM-as-a-judge
でスコア化できるタスク残課題検証は QA ハルシネーション検知に限定（ドメイン横断は未評価）敵対生成により LLM コールが増え、 GEPA より高コスト難例過多・ラベルノイズで最適化が不安定化するケースあり今後の展望 Generator ・Judge の均衡成長敵対サンプルの品質フィルタ敵対生成のメタプロンプト化と多タスク検証で、汎用フレームワーク化目的タスクだけでなく、敵対タスクとの共進化によるプロンプト最適化の改善策は有効そう。学習安定性とメタプロンプト化について引き続き検証が求められる。本研究の成果と今後の展望 n = 4, 8 22

敵対生成プロンプト同時探索による内省型プロンプト最適化

敵対生成プロンプト同時探索による内省型プロンプト最適化

Kotaro Inoue

More Decks by Kotaro Inoue

Other Decks in Research

Featured

Transcript

敵対生成プロンプト同時探索による内省型プロンプト最適化 Joint Adversarial Prompting for Reflective Prompt Optimization SmartHR,

RAG アプリケーションを想定した知識を与えるQA タスクを検証事例とし、回答のハルシネーション検知器の改善を問題とする。 Knowledge-grounded QA 形式の問題定義 K 外部知識 Q

カテゴリ代表手法アイデア必要データコールドスタートブラックボックス最適化 APE (2023) OPRO

固定上で、誤判定時の内省フィードバックによりプロンプトを更新 GEPA ：Judge LLM のみ最適化固定データセット D 0

ハルシネーション判定用プロンプトのみを内省と探索で更新する。 J (p) = judge E [1

Judge と Generator のプロンプトを共同探索し、改善に応じて難例を動的に増やす。 Adversarial GEPA ：Judge + Generator を共進化

Judge と Generator は逆向きの目的で共進化。生成した難例で内省材料を補う。 Judge ハルシネーションを見抜く J (p) =

予算内で GEPA の内省型更新を / に交互適用し、の分布変化に応じて最良スコアを再測定する評価リベースを導入。予算内省候補の提案・評価、難例生成、リベース再評価で

HaluEval QA データセットで GEPA と提案手法を比較プロトコル項目設定

の少数サンプル条件では、全モデルで AUROC ・F1 ともに GEPA を上回る。表. プロンプト最適化における5 seeds 平均の性能を比較

の領域は大差ないが、の少数サンプル域での安定性が向上 qwen3-8b ので不安定化する原因については後ほど考察 AUROC F1 学習サンプル数ごとの評価指標の推移プロンプト最適化の安定度の比較 n

最小 schema から、Judge は照合規則を具体化し、Generator は「自然な一箇所改変」を狙う指示へ変化する傾向にあった。初期 schema 初期プロンプト JSON

少数サンプル（n=4 ）条件の生成例。楽器・役割など属性の一箇所改変が見られた。 English Knowledge Lars Ulrich is best known as

提案手法は受賞とノミネートの違いを正しく判定できている。 English Knowledge Deepika Padukone won the Filmfare Award for

qwen3-8b は全体的に難例の割合が高く、学習安定性を損なう可能性がある考察1: 敵対的生成サンプル中の難例割合 18

Score が低いほど忠実なサンプルとみなされる。 qwen3-8b の n=16 では極端な低スコア側への偏りが見られ、Judge 側が適切に最適化されなかった。考察2: 難例の難易度分布

実験結果から大きく2 つの要因が見られた。要因 ① 難例が多すぎた / 初期 Judge の性能が低すぎた事実置換には成功しているが、Judge

言い換えているだけで忠実な回答を生成した例が見られた。 English Knowledge Joseph Morgan is best known for his

到達点提案手法：目的タスクと Generator を共進化し、難例を動的に生成のコールドスタートで、GEPA を上回るプロンプト改善を実現応用しうる課題出力を LLM-as-a-judge