ことのはの力で画像の異常検知機械学習の社会実装勉強会第27回Henry2023/9/30
View Slide
論文の紹介■ 最近の基盤モデル(言語モデルと画像モデル)の発達により、その知識で画像異常検知を行うモチベーション● まだ実用化まで距離あるが、技術的に面白い方法性■ AnomalyGPT: Detecting Industrial Anomalies using LargeVision-Language Models● https://github.com/CASIA-IVA-Lab/AnomalyGPT● 実装も公開されているのでありがたい2
論文のモチベーション■ Vision付きLLM(MiniGPT-4やLLaVA)は一般物体について認識できるが、ドメインごとの専門知識や局所の細部についての知識がない■ 従来の異常検知手法は異常スコアを出せるが、人間が閾値を設定する必要がある■ そこで、両者の良いところを結合したLarge Vision-LanguageModel(LVLM)を用いた手法を提案3
提案手法のイメージ4
既存法との比較■ 以下の側面で提案法は優れている● Few-shot learning:少量データで学習できる● Anomaly score:異常スコアを出力できる● Anomaly localization:異常箇所を特定できる● Anomaly judegment:異常あり・無しを判断できる● Multi-turn dialogue:インタラクティブにやり取りできる5
提案法の構成6
Image Decoderの入力テキスト■ 前ページ構成図の上半分■ テキストは以下のようなものを使う7
学習データの準備■ データ拡張に使われる技術で異常画像を生成する8
学習データの準備■ 学習用対話データは以下のように準備する9
定量的な評価■ 特に少数の学習データに強い10
定性的な評価11
定性的な評価12
まとめ■ LVLM基盤モデルを用いた画像異常検知● これからの発展が期待13