にデータを生成し、モデルの学習に用いる 1.タスク実行 (LoRA adapterで推論) 2.報酬計算 (ルールベース, llm-as-a-judge) 3.モデルの重み更新 , 重みのローカル保存 4.1.に戻る RULER(Relative Universal LLM-Elicited Rewards) ・エージェントの推論結果を基に相対的にスコアを付与する 【強化学習ループ】 推論結果1 推論結果2 推論結果3 推論結果n ・・・ 推論結果1:0.25 推論結果2:0.6 推論結果n:0.85 ・・・ 目標が同じn個の推論結果(=軌跡)をスコア付けしなさい rubric1: 目標を達成した軌跡 >> 目標を達成できない軌跡 rubric2: 目標を効率的に達成した軌跡 > 非効率な軌跡 rubric3: 軌跡間の優劣の差をスコアに反映する rubric4: 目標に向けて進捗があれば部分点を与える LLM-as-a-judge