従来のテストは、システムがどう振る舞うべきかを明確に定義できることが大前提でした。判定条件を事前に設計で きていたからこそ、テストが機能していたのです。 ▪ しかし、生成AIを組み込んだシステムではこの前提が崩れます。生成AIは確率的に動作するため、同じ質問に対し て毎回まったく同じ回答が返ってくるとは限りません。 ▪ 特にRAGのような回答品質が問われる領域では、「これが正解」と言い切れる判定条件を設計すること自体が難し くなります。一方で、エージェントのようにプロセスの達成可否が明確な領域では、「正しいツールを呼べたか」「タスク を完了できたか」といった判定条件を設計できる部分もあり、従来のテストに近いアプローチが使える場面もあります。 ▪ 判定条件が曖昧な領域では、多くの人に実際に触れてもらい、評価基準に沿って回答の質を評価してもらうことが 重要になります。さらに LLM-as-a-Judge(生成AI自身に品質評価をさせる仕組み)との組み合わせが、コスト と品質を両立する現実解になっています。「何が正解か」を定義する難しさと向き合うことが、生成AIシステム開発に おいて重要です。