テストデータセット 同じアニメ映画群のうち、未使用シーンをテストに利用。 テスト時は GPT-4oを用いて複数キャラ・環境・動作を含む「10ターンの状態遷移」をシミュレーション。 評価ベンチマーク構成:20キャラクター、940種類の動作、133種類の環境、合計2,000ラウンドの生成評価。 評価方法 ① 自動評価指標 キャラ一貫性:CLIP-I, DreamSim 意味一貫性:CLIP-T, CLIP-TE 動作品質:ACC-F, MAE-F(光学フロー) ステータス更新精度:ACC-S, MAE-S 推論時間:1ターンあたり秒数 ② MLLM評価(GPT-4V)+人手評価 総合品質、指示追従、一貫性、キャラ/スタイル整合性、状態更新を10点満点で採点。