Slide 6
Slide 6 text
論文の特徴
Multimodal Reasoning with MLLM
LLaVAベースのMLLMに視覚特徴を入力し、自然文で「異常部位・異常内容・推定原因」を説明させる。
MLLMのパラメータは凍結されており、プロンプトと入力変換のみで高性能を実現
視覚情報と言語情報を統合して詳細な異常説明を生成する
Look-Twice Feature Matching (LTFM)
通常のVLMは1回の視覚入力で説明を行うが、本手法は2段階の視覚認識を行う。
ゼロショットにより正常と異常の特徴を比較し、異常度を定量化する
Anomaly-Instruct-125k データセット
異常検知に特化した画像+異常説明付きプロンプトを125,000件収録。
Prompt形式は “Describe the anomaly in this image.” など異常説明に対する質問文も用意
合成異常(例:変形・欠損)も多く、ゼロショット検出に有効