オンライン評価 (Online Evals) 本番環境で稼働中のアプリ ケーションに対し、実際に⼊⼒されるデータの⼀部をサンプ リングしてスコアリング。実際のユーザーインタラクション に基づいたリアルタイムなパフォーマンス監視が可能。 3. インザループ評価 (In-the-loop Evals) エージェントが実⾏ 中に発⽣するEvals。エージェントの応答前に評価を⾏い、誤 りを検知した場合には⾃⼰修正を促し、応答品質の向上や、 不適切な応答のブロックが可能。⽋点は時間とコストの増加。 ミスへの許容度が低い場合や、レイテンシが問題にならない ような⻑時間実⾏されるエージェントに適している。⻑時間 実⾏エージェントの増加に伴い、このタイプのEvalsの重要性 が増すと予測。