Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CVPR勉強会後半

Avatar for KeiichiIto1978 KeiichiIto1978
August 24, 2025
210

 CVPR勉強会後半

紹介論文
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

Avatar for KeiichiIto1978

KeiichiIto1978

August 24, 2025
Tweet

Transcript

  1. Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language

    Models マルチモーダル大規模言語モデルによるゼロショット異常検知と推論 株式会社アダコテック 伊藤桂一
  2. 会社概要 Adacotech Mission テクノロジーで生産現場をエンパワーメントする 会社名 株式会社アダコテック(設立:2012年3月12日) 代表取締役 河邑 亮太 事業内容

    産総研特許技術を基軸とした外観検査AIソフトウェア・アルゴリ ズムの開発・販売 取引実績 自動車OEM/Tier1メーカー、大手電子部品・半導体、 インフラ、警備会社 等 主要株主 東京大学エッジキャピタルパートナーズ、東大IPC、DNX Ventures、リアルテックファンド、Spiral Capital 他 社員数 約20名
  3. 既存手法の課題 説明能力の欠如 異常検知モデルは通常、「異常があるか否か」を判断するだけで、その「理由」を説明できない 。 視覚的注意の不足 GPT-4V や LLaVA などの VLM(Vision-Language

    Models)は汎用的な画像理解に は優れるが、異常検知特有の視覚的注意が乏しい。 計算コストの問題 また、大規模モデルは計算コストも無視できない。 製造業の要求 特に製造業などでは「どこが」「なぜ異常か」を人間に説明できる AI が必要。
  4. 論文の特徴 Multimodal Reasoning with MLLM LLaVAベースのMLLMに視覚特徴を入力し、自然文で「異常部位・異常内容・推定原因」を説明させる。 MLLMのパラメータは凍結されており、プロンプトと入力変換のみで高性能を実現 視覚情報と言語情報を統合して詳細な異常説明を生成する Look-Twice Feature

    Matching (LTFM) 通常のVLMは1回の視覚入力で説明を行うが、本手法は2段階の視覚認識を行う。 ゼロショットにより正常と異常の特徴を比較し、異常度を定量化する Anomaly-Instruct-125k データセット 異常検知に特化した画像+異常説明付きプロンプトを125,000件収録。 Prompt形式は “Describe the anomaly in this image.” など異常説明に対する質問文も用意 合成異常(例:変形・欠損)も多く、ゼロショット検出に有効
  5. 提案手法: Anomaly-OneVision(Anomaly-OV) Anomaly-OneVision アーキテクチャ 1 特徴抽出 対象画像からViTで多層特徴抽出 し、詳細な視覚情報を取得 2 異常検出

    異常の特徴を比較し、異常スコアを 算出して重要な視覚トークンを選別 3 説明生成 選別された特徴をQ-Formerを通じ てLLMに入力し、自然言語で説明 を生成する
  6. 提案手法回答(和訳) GPT5回答(和訳) 質問文(和訳) 画像 画像の損傷箇所には以下が含 まれます: 破損したパイプ:壁から外れか けている、または欠損しているパ イプがあり、一部が壁から垂れ下 がっています。

    その他のパイプ:同じ壁に取り 付けられた他の2本のパイプは無 傷のように見えますが、構造上の 重要性は低い可能性があります。 これらの特徴は建物のインフラに 潜在的な問題があることを示し ており、安全性と機能性を確保 するために保守担当者の対応が 必要です。 画像の損傷箇所は、バルコニー 下の水平な排水パイプの末端部 分にあります。 パイプの先端が破損または欠落 しており、開口部がむき出しに なっています。 この破損により、水が漏れたり想 定外の方向へ流れたりして、建 物外壁や周囲に水損を引き起 こす可能性があります。 それ以外の配管部分はおおむね 無傷で、壁にしっかりと固定され ています。 この画像の損傷箇所を説明して ください。
  7. 提案手法回答(和訳) GPT5回答(和訳) 質問文(和訳) 画像 画像の損傷箇所には、摩耗や 劣化の兆候が見られます。 パイプには側面に沿って大きな亀 裂があり、これは構造的損傷や ⾧年の腐食を示しています。 このような損傷は、水の影響、環

    境的ストレス、または機械的故 障など、さまざまな要因によって 引き起こされる可能性があります。 画像の損傷箇所は、金属製パ イプのエルボ継手部分にあります。 曲がった部分に大きな亀裂が生 じており、その開口部から水が漏 れているのが確認できます。 この亀裂は、⾧期的な腐食や機 械的ストレスの蓄積によって素材 が弱くなったことが原因と考えられ ます。 このような損傷はパイプの構造的 強度を損ない、早急に修理しな いと漏水が続く可能性があります。 この画像の損傷箇所を説明して ください。
  8. 提案手法回答(和訳) GPT5回答(和訳) 質問文(和訳) 画像 画像の損傷箇所は、特に内面 に顕著な錆と腐食が見られるの が特徴です。 この錆は、金属表面が湿気やそ の他の腐食性物質にさらされたと きに発生する酸化反応によって、

    時間をかけて形成されたものです。 この腐食は構造的強度の低下 を引き起こすだけでなく、外観に も影響を与える可能性がありま す。 画像の損傷箇所は、円形部品 の内側リング表面に位置していま す。 2か所にわたり、暗く不規則な斑 点状の領域が見られ、摩耗、衝 撃、または腐食によって生じたと 考えられる顕著な素材の損失が 確認できます。 これらの箇所は本来均一である はずの表面状態を乱しており、放 置すると部品の性能や構造的 強度に悪影響を及ぼす可能性 があります。 この画像の損傷箇所を説明して ください。
  9. まとめと今後の展望(をmanusに書いてもらった) 研究のまとめ 大規模モデルと比較して、少ない計算コストで「どこが」「なぜ異常か」を説明できる手法を実現 Look-Twice Feature Matching (LTFM)による2段階の視覚認識で異常領域を効果的 に特定 Visual Token

    Selectorによる重要視覚情報の選別で、MLLMの説明生成能力 を向上 Anomaly-Instruct-125kデータセットにより、ゼロショットでの異常検知と説明が可能に 今後の課題と展望 画像に対する適切な質問の自動生成手法の開発が必要 RAGのような仕組みを活用した過去事例の参照機能の追加 より多様な産業分野に対応するためのドメイン適応技術の開発 リアルタイム処理のための計算効率のさらなる向上 本研究の産業応用における利点 製造業 製品の品質管理を強化し、異常の原因特定 による製造プロセスの改善が可能に 保守・点検 設備の異常を早期に発見し、その原因と対策 を提案することで予防保全を実現 自動化 人間の専門知識を補完し、検査工程の自動 化と判断根拠の説明を両立 知識継承 熟練者の暗黙知を形式化し、異常検知の知 見を組織内で共有・継承