| “評価指標”の”評価” • 本物9件+ダミー1件の計10件の文章の 中から、GPT-4にダミーの1件を見つ け出させるタスク • 単純にやると見つからないので、 Few-Shot ExamplesやChain of Thoughtなどで補強 • キャラクターの強さ次第だが、ある 程度キャラクターの特性を見抜く評 価器が出来た → これを用いて、TwinLLMの性能を 評価していく (実施中) 評価器の性能が最強の場合/ 生成した文章がダメダメの 場合 = 評価器がダミー文章を 完璧に発見する 評価器の性能が駄目な場合/ 生成した文章が完璧な 場合 = 評価器がダミー文章を 全く見つけられない (当てずっぽうになってしまう) 評価指標の設計 学習データ収集 学習・評価 デプロイ・ ホスティング