Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR勉強会後半
Search
KeiichiIto1978
August 24, 2025
0
210
CVPR勉強会後半
紹介論文
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
KeiichiIto1978
August 24, 2025
Tweet
Share
More Decks by KeiichiIto1978
See All by KeiichiIto1978
AnomalyNCD Towards Novel Anomaly Class Discovery in Industrial Scenarios
keiichiito1978
0
13
Featured
See All Featured
Visualization
eitanlees
147
16k
It's Worth the Effort
3n
187
28k
Building Adaptive Systems
keathley
43
2.7k
Statistics for Hackers
jakevdp
799
220k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Testing 201, or: Great Expectations
jmmastey
45
7.6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
We Have a Design System, Now What?
morganepeng
53
7.7k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6k
Transcript
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language
Models マルチモーダル大規模言語モデルによるゼロショット異常検知と推論 株式会社アダコテック 伊藤桂一
自己紹介 学生時代は、産業技術総合研究所で卒業研究を実施。 その縁で、AIST認定ベンチャーに入社。 その後、25年以上AIの研究開発に従事。 主に取り組んだ研究開発事例 ・GAによる光学機器の自動調整、半導体設計の最適化 ・動画/静止画/センサ/音の異常検知 2012年 弊社創業と同時に入社 2014年
取締役に就任 2022年 取締役CTOに就任
会社概要 Adacotech Mission テクノロジーで生産現場をエンパワーメントする 会社名 株式会社アダコテック(設立:2012年3月12日) 代表取締役 河邑 亮太 事業内容
産総研特許技術を基軸とした外観検査AIソフトウェア・アルゴリ ズムの開発・販売 取引実績 自動車OEM/Tier1メーカー、大手電子部品・半導体、 インフラ、警備会社 等 主要株主 東京大学エッジキャピタルパートナーズ、東大IPC、DNX Ventures、リアルテックファンド、Spiral Capital 他 社員数 約20名
こんな事やりたい 1 詳細な異常情報の取得 画像の異常検査において異常判定された画像に対して、より 詳しい情報を提供する。 例えば、異常の大きさや種類、なぜ発生したのかといった説明。 2 障害状況の把握と対策 障害連絡を受けた際に現地で撮影された写真をもとに状況 把握や対策を講じる。
写真をもとに障害内容と原因を予想する事で迅速かつ適切 なサポート実現する。
既存手法の課題 説明能力の欠如 異常検知モデルは通常、「異常があるか否か」を判断するだけで、その「理由」を説明できない 。 視覚的注意の不足 GPT-4V や LLaVA などの VLM(Vision-Language
Models)は汎用的な画像理解に は優れるが、異常検知特有の視覚的注意が乏しい。 計算コストの問題 また、大規模モデルは計算コストも無視できない。 製造業の要求 特に製造業などでは「どこが」「なぜ異常か」を人間に説明できる AI が必要。
論文の特徴 Multimodal Reasoning with MLLM LLaVAベースのMLLMに視覚特徴を入力し、自然文で「異常部位・異常内容・推定原因」を説明させる。 MLLMのパラメータは凍結されており、プロンプトと入力変換のみで高性能を実現 視覚情報と言語情報を統合して詳細な異常説明を生成する Look-Twice Feature
Matching (LTFM) 通常のVLMは1回の視覚入力で説明を行うが、本手法は2段階の視覚認識を行う。 ゼロショットにより正常と異常の特徴を比較し、異常度を定量化する Anomaly-Instruct-125k データセット 異常検知に特化した画像+異常説明付きプロンプトを125,000件収録。 Prompt形式は “Describe the anomaly in this image.” など異常説明に対する質問文も用意 合成異常(例:変形・欠損)も多く、ゼロショット検出に有効
提案手法: Anomaly-OneVision(Anomaly-OV) Anomaly-OneVision アーキテクチャ 1 特徴抽出 対象画像からViTで多層特徴抽出 し、詳細な視覚情報を取得 2 異常検出
異常の特徴を比較し、異常スコアを 算出して重要な視覚トークンを選別 3 説明生成 選別された特徴をQ-Formerを通じ てLLMに入力し、自然言語で説明 を生成する
Look-Twice Feature Matching(LTFM) ・LTFMは、入力特徴から正常(Positive)と異常(Negative)の埋め込みを生成する。 ・その後、それぞれをMLPで変換変換後の特徴をCos類似度で比較し、異常らしさスコアを計算する ・最後にSoftmaxで正規化し、各パッチの異常度マップ 𝑚 を出力する。
Visual Token Selector ・VT Selectorは、LTFMで得られた異常スコア 𝑚 を使って重要な視覚トークンを選別する。 ・スコアに応じてトークンを重み付けし、プーリングで情報を集約する。 ・選別された特徴はQ-Formerに渡され、VLMの説明生成に利用する。
Anomaly-Instruct-125k データセットの作成方法 データセットの活用方法 データセット例 VisA、MVTec-AD、Real-IAD、KSDD2 など複数の異常検知データセットを利用 画像に対し、異常検知タスクに必要な「質問-回答ペア」をGPT-4などのLLMで自動生成 Anomaly-Instruct-125k の train
スプリットで LTFM / VT Selector を学習し、MLLM本体は固定して利用。 テストでは Anomaly-Instruct-125k の test スプリットや元データセットの test 側で reasoning 性能を評価。
実験結果と比較 LTFM と他のZSAD手法の比較 個別の結果例 異常説明能力の比較
実際に試した この論文とGPT5の比較を下記3種類の画像で実施
提案手法回答(和訳) GPT5回答(和訳) 質問文(和訳) 画像 画像の損傷箇所には以下が含 まれます: 破損したパイプ:壁から外れか けている、または欠損しているパ イプがあり、一部が壁から垂れ下 がっています。
その他のパイプ:同じ壁に取り 付けられた他の2本のパイプは無 傷のように見えますが、構造上の 重要性は低い可能性があります。 これらの特徴は建物のインフラに 潜在的な問題があることを示し ており、安全性と機能性を確保 するために保守担当者の対応が 必要です。 画像の損傷箇所は、バルコニー 下の水平な排水パイプの末端部 分にあります。 パイプの先端が破損または欠落 しており、開口部がむき出しに なっています。 この破損により、水が漏れたり想 定外の方向へ流れたりして、建 物外壁や周囲に水損を引き起 こす可能性があります。 それ以外の配管部分はおおむね 無傷で、壁にしっかりと固定され ています。 この画像の損傷箇所を説明して ください。
提案手法回答(和訳) GPT5回答(和訳) 質問文(和訳) 画像 画像の損傷箇所には、摩耗や 劣化の兆候が見られます。 パイプには側面に沿って大きな亀 裂があり、これは構造的損傷や ⾧年の腐食を示しています。 このような損傷は、水の影響、環
境的ストレス、または機械的故 障など、さまざまな要因によって 引き起こされる可能性があります。 画像の損傷箇所は、金属製パ イプのエルボ継手部分にあります。 曲がった部分に大きな亀裂が生 じており、その開口部から水が漏 れているのが確認できます。 この亀裂は、⾧期的な腐食や機 械的ストレスの蓄積によって素材 が弱くなったことが原因と考えられ ます。 このような損傷はパイプの構造的 強度を損ない、早急に修理しな いと漏水が続く可能性があります。 この画像の損傷箇所を説明して ください。
提案手法回答(和訳) GPT5回答(和訳) 質問文(和訳) 画像 画像の損傷箇所は、特に内面 に顕著な錆と腐食が見られるの が特徴です。 この錆は、金属表面が湿気やそ の他の腐食性物質にさらされたと きに発生する酸化反応によって、
時間をかけて形成されたものです。 この腐食は構造的強度の低下 を引き起こすだけでなく、外観に も影響を与える可能性がありま す。 画像の損傷箇所は、円形部品 の内側リング表面に位置していま す。 2か所にわたり、暗く不規則な斑 点状の領域が見られ、摩耗、衝 撃、または腐食によって生じたと 考えられる顕著な素材の損失が 確認できます。 これらの箇所は本来均一である はずの表面状態を乱しており、放 置すると部品の性能や構造的 強度に悪影響を及ぼす可能性 があります。 この画像の損傷箇所を説明して ください。
論文手法は、質問の仕方でこんな結果もあった 質問 この画像のおかしなところを教え てください? 回答 屋外に監視カメラが付けらている 点がおかしいです。
まとめと今後の展望(をmanusに書いてもらった) 研究のまとめ 大規模モデルと比較して、少ない計算コストで「どこが」「なぜ異常か」を説明できる手法を実現 Look-Twice Feature Matching (LTFM)による2段階の視覚認識で異常領域を効果的 に特定 Visual Token
Selectorによる重要視覚情報の選別で、MLLMの説明生成能力 を向上 Anomaly-Instruct-125kデータセットにより、ゼロショットでの異常検知と説明が可能に 今後の課題と展望 画像に対する適切な質問の自動生成手法の開発が必要 RAGのような仕組みを活用した過去事例の参照機能の追加 より多様な産業分野に対応するためのドメイン適応技術の開発 リアルタイム処理のための計算効率のさらなる向上 本研究の産業応用における利点 製造業 製品の品質管理を強化し、異常の原因特定 による製造プロセスの改善が可能に 保守・点検 設備の異常を早期に発見し、その原因と対策 を提案することで予防保全を実現 自動化 人間の専門知識を補完し、検査工程の自動 化と判断根拠の説明を両立 知識継承 熟練者の暗黙知を形式化し、異常検知の知 見を組織内で共有・継承
エンジニア採用もやっています エンジニア採用おこなっています。 まずは、カジュアル面談しましょう。
Adacotech Thank you very much for your time!