CVPR勉強会後半 - Speaker Deck

by KeiichiIto1978

Embed

Start on current slide

Slide 1

Slide 1 text

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models マルチモーダル大規模言語モデルによるゼロショット異常検知と推論株式会社アダコテック伊藤桂一

Slide 2

Slide 2 text

自己紹介学生時代は、産業技術総合研究所で卒業研究を実施。その縁で、AIST認定ベンチャーに入社。その後、25年以上AIの研究開発に従事。主に取り組んだ研究開発事例・GAによる光学機器の自動調整、半導体設計の最適化・動画/静止画/センサ/音の異常検知 2012年弊社創業と同時に入社 2014年取締役に就任 2022年取締役CTOに就任

Slide 3

Slide 3 text

会社概要 Adacotech Mission テクノロジーで生産現場をエンパワーメントする会社名株式会社アダコテック（設立:2012年3月12日）代表取締役河邑亮太事業内容産総研特許技術を基軸とした外観検査AIソフトウェア・アルゴリズムの開発・販売取引実績自動車OEM/Tier1メーカー、大手電子部品・半導体、インフラ、警備会社等主要株主東京大学エッジキャピタルパートナーズ、東大IPC、DNX Ventures、リアルテックファンド、Spiral Capital 他社員数約20名

Slide 4

Slide 4 text

こんな事やりたい 1 詳細な異常情報の取得画像の異常検査において異常判定された画像に対して、より詳しい情報を提供する。例えば、異常の大きさや種類、なぜ発生したのかといった説明。 2 障害状況の把握と対策障害連絡を受けた際に現地で撮影された写真をもとに状況把握や対策を講じる。写真をもとに障害内容と原因を予想する事で迅速かつ適切なサポート実現する。

Slide 5

Slide 5 text

既存手法の課題説明能力の欠如異常検知モデルは通常、「異常があるか否か」を判断するだけで、その「理由」を説明できない。視覚的注意の不足 GPT-4V や LLaVA などの VLM（Vision-Language Models）は汎用的な画像理解には優れるが、異常検知特有の視覚的注意が乏しい。計算コストの問題また、大規模モデルは計算コストも無視できない。製造業の要求特に製造業などでは「どこが」「なぜ異常か」を人間に説明できる AI が必要。

Slide 6

Slide 6 text

論文の特徴 Multimodal Reasoning with MLLM LLaVAベースのMLLMに視覚特徴を入力し、自然文で「異常部位・異常内容・推定原因」を説明させる。 MLLMのパラメータは凍結されており、プロンプトと入力変換のみで高性能を実現視覚情報と言語情報を統合して詳細な異常説明を生成する Look-Twice Feature Matching (LTFM) 通常のVLMは1回の視覚入力で説明を行うが、本手法は2段階の視覚認識を行う。ゼロショットにより正常と異常の特徴を比較し、異常度を定量化する Anomaly-Instruct-125k データセット異常検知に特化した画像＋異常説明付きプロンプトを125,000件収録。 Prompt形式は “Describe the anomaly in this image.” など異常説明に対する質問文も用意合成異常（例:変形・欠損）も多く、ゼロショット検出に有効

Slide 7

Slide 7 text

提案手法: Anomaly-OneVision（Anomaly-OV） Anomaly-OneVision アーキテクチャ 1 特徴抽出対象画像からViTで多層特徴抽出し、詳細な視覚情報を取得 2 異常検出異常の特徴を比較し、異常スコアを算出して重要な視覚トークンを選別 3 説明生成選別された特徴をQ-Formerを通じてLLMに入力し、自然言語で説明を生成する

Slide 8

Slide 8 text

Look-Twice Feature Matching（LTFM）・LTFMは、入力特徴から正常（Positive）と異常（Negative）の埋め込みを生成する。・その後、それぞれをMLPで変換変換後の特徴をCos類似度で比較し、異常らしさスコアを計算する・最後にSoftmaxで正規化し、各パッチの異常度マップ 𝑚 を出力する。

Slide 9

Slide 9 text

Visual Token Selector ・VT Selectorは、LTFMで得られた異常スコア 𝑚 を使って重要な視覚トークンを選別する。・スコアに応じてトークンを重み付けし、プーリングで情報を集約する。・選別された特徴はQ-Formerに渡され、VLMの説明生成に利用する。

Slide 10

Slide 10 text

Anomaly-Instruct-125k データセットの作成方法データセットの活用方法データセット例 VisA、MVTec-AD、Real-IAD、KSDD2 など複数の異常検知データセットを利用画像に対し、異常検知タスクに必要な「質問-回答ペア」をGPT-4などのLLMで自動生成 Anomaly-Instruct-125k の train スプリットで LTFM / VT Selector を学習し、MLLM本体は固定して利用。テストでは Anomaly-Instruct-125k の test スプリットや元データセットの test 側で reasoning 性能を評価。

Slide 11

Slide 11 text

実験結果と比較 LTFM と他のZSAD手法の比較個別の結果例異常説明能力の比較

Slide 12

Slide 12 text

実際に試したこの論文とGPT5の比較を下記3種類の画像で実施

Slide 13

Slide 13 text

提案手法回答(和訳) GPT5回答（和訳) 質問文（和訳）画像画像の損傷箇所には以下が含まれます: 破損したパイプ:壁から外れかけている、または欠損しているパイプがあり、一部が壁から垂れ下がっています。その他のパイプ:同じ壁に取り付けられた他の2本のパイプは無傷のように見えますが、構造上の重要性は低い可能性があります。これらの特徴は建物のインフラに潜在的な問題があることを示しており、安全性と機能性を確保するために保守担当者の対応が必要です。画像の損傷箇所は、バルコニー下の水平な排水パイプの末端部分にあります。パイプの先端が破損または欠落しており、開口部がむき出しになっています。この破損により、水が漏れたり想定外の方向へ流れたりして、建物外壁や周囲に水損を引き起こす可能性があります。それ以外の配管部分はおおむね無傷で、壁にしっかりと固定されています。この画像の損傷箇所を説明してください。

Slide 14

Slide 14 text

提案手法回答(和訳) GPT5回答（和訳) 質問文（和訳）画像画像の損傷箇所には、摩耗や劣化の兆候が見られます。パイプには側面に沿って大きな亀裂があり、これは構造的損傷や⾧年の腐食を示しています。このような損傷は、水の影響、環境的ストレス、または機械的故障など、さまざまな要因によって引き起こされる可能性があります。画像の損傷箇所は、金属製パイプのエルボ継手部分にあります。曲がった部分に大きな亀裂が生じており、その開口部から水が漏れているのが確認できます。この亀裂は、⾧期的な腐食や機械的ストレスの蓄積によって素材が弱くなったことが原因と考えられます。このような損傷はパイプの構造的強度を損ない、早急に修理しないと漏水が続く可能性があります。この画像の損傷箇所を説明してください。

Slide 15

Slide 15 text

提案手法回答(和訳) GPT5回答（和訳) 質問文（和訳）画像画像の損傷箇所は、特に内面に顕著な錆と腐食が見られるのが特徴です。この錆は、金属表面が湿気やその他の腐食性物質にさらされたときに発生する酸化反応によって、時間をかけて形成されたものです。この腐食は構造的強度の低下を引き起こすだけでなく、外観にも影響を与える可能性があります。画像の損傷箇所は、円形部品の内側リング表面に位置しています。 2か所にわたり、暗く不規則な斑点状の領域が見られ、摩耗、衝撃、または腐食によって生じたと考えられる顕著な素材の損失が確認できます。これらの箇所は本来均一であるはずの表面状態を乱しており、放置すると部品の性能や構造的強度に悪影響を及ぼす可能性があります。この画像の損傷箇所を説明してください。

Slide 16

Slide 16 text

論文手法は、質問の仕方でこんな結果もあった質問この画像のおかしなところを教えてください？回答屋外に監視カメラが付けらている点がおかしいです。

Slide 17

Slide 17 text

まとめと今後の展望(をmanusに書いてもらった) 研究のまとめ大規模モデルと比較して、少ない計算コストで「どこが」「なぜ異常か」を説明できる手法を実現 Look-Twice Feature Matching (LTFM)による2段階の視覚認識で異常領域を効果的に特定 Visual Token Selectorによる重要視覚情報の選別で、MLLMの説明生成能力を向上 Anomaly-Instruct-125kデータセットにより、ゼロショットでの異常検知と説明が可能に今後の課題と展望画像に対する適切な質問の自動生成手法の開発が必要 RAGのような仕組みを活用した過去事例の参照機能の追加より多様な産業分野に対応するためのドメイン適応技術の開発リアルタイム処理のための計算効率のさらなる向上本研究の産業応用における利点製造業製品の品質管理を強化し、異常の原因特定による製造プロセスの改善が可能に保守・点検設備の異常を早期に発見し、その原因と対策を提案することで予防保全を実現自動化人間の専門知識を補完し、検査工程の自動化と判断根拠の説明を両立知識継承熟練者の暗黙知を形式化し、異常検知の知見を組織内で共有・継承

Slide 18

Slide 18 text

エンジニア採用もやっていますエンジニア採用おこなっています。まずは、カジュアル面談しましょう。

Slide 19

Slide 19 text

Adacotech Thank you very much for your time!