• 性能評価の次世代手法への移行 ◦ LLM-as-a-Judge: 高性能モデルを審査員として利用する評価手法の台頭 ◦ ユースケース特化型評価: 一般ベンチマークではなく、特定のアプリケーション(例: ECサイト)における安全性を重視 • 安全性評価の体系化と標準化 ◦ 共通語彙の定義: Toxicity, Bias, Truthfulnessなど、安全性評価軸の体系的な整理が進展 ◦ HarmBenchによるレッドチーミングの標準化: ジェイルブレイクを公平に比較可能な工学的なテストへと昇華 • 新たな潜在的脅威の出現 ◦ サボタージュ能力の評価開始: AIが「意図的に人間を欺く」リスク、従来の悪用( Misuse)を超える深刻な課題 ◦ 具体的な懸念: 意思決定サボタージュ、安全評価中の能力隠蔽(サンドバッギング)、人間の監視を欺く自己評価(監督の妨 害)