Slide 7
Slide 7 text
LLMによる自己検証にも限界がある
自己検証の根本リスク
LLMに自分の出力を検証させると、誤り検出・制約遵守・ハルシネーシ
ョンで見逃しが起きうる
→ 同一モデルの自己レビューだけに頼らない
複雑要件を単独で処理する限界
(VeriPlan が引用する先行研究では)GPT-4 の planning tasks 成功率
平均12%
→ 高性能LLMでも外部サポートが必要
出典: Lee et al., VeriPlan: Integrating Formal Verification and LLMs into End-
User Planning (CHI 2025)
7