Slide 1

Slide 1 text

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved. Harnessing Large Language Models for Training-free Video Anomaly Detection 2024/7/7 Acroquest Technology株式会社 ⼭本 ⼤輝

Slide 2

Slide 2 text

⼭本 ⼤輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記 http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① SenNet + HOA Hacking the Human Vasculature in 3D 9th ② Predict Student Performance from Game Play ③ Amazon KDD Cup2023 Track2 9th 4. CQ出版 Interface ML/AI関連記事を 複数寄稿 Kaggle Grandmaster

Slide 3

Slide 3 text

Acroquestの事業内容 クラウド&デジタルテクノロジーでビジネス進化を探求する IoT⾰新事業 ⼈々の⽣活基盤を 変⾰する事業 あらゆるモノからリアルタイムな データ分析を実現する デジタルデータ活⽤事業 企業のビジネスを 変⾰する事業 あらゆるデータをビジネス活⽤し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変⾰する事業 あらゆる産業でAIを活⽤して 業務の⾃動化・効率化を実現する クラウドサービス 開発事業 クラウド/データ分析/AIなどの統合的な活⽤で 迅速なサービス開発を実現し、 お客様のDX/DevOps推進をサポートする

Slide 4

Slide 4 text

機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 4 Acroquest社内で発⾜した データサイエンスチームYAMALEX プロジェクトの⾼度な 問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーの パートナーとして 認定されています。 様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、 対外的にも認められています 多種多様な課題をAIで解決する データサイエンティストチーム

Slide 5

Slide 5 text

会社における取組や社⾵に関して 多数の賞を頂いております Copyright © Acroquest Technology Co., Ltd. All rights reserved. 5

Slide 6

Slide 6 text

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved. 6 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。

Slide 7

Slide 7 text

⽬次 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 7 1. 本⽇の論⽂ 2. 関連研究 3. 論⽂⼿法紹介 4. 実験 5. まとめ

Slide 8

Slide 8 text

1. 本⽇の論⽂

Slide 9

Slide 9 text

1. 本⽇の論⽂ 今回読む論⽂の動機 Copyright © Acroquest Technology Co., Ltd. All rights reserved. 9 2022年から爆発的にChatGPTをはじめとしたLLMサービスや ローカルLLMが展開されてきている。 ChatGPT(GPT-4o)やGeminiでは画像を解析できるようになり、 活⽤の幅も広がっている。 しかし、動画を解析するのは⾼い、もしくは、公開されていない。 「Harnessing Large Language Models for Training-free Video Anomaly Detection」を読んで、動画の異常検知をLLMを 活⽤して実施するところに⾯⽩さを感じた。

Slide 10

Slide 10 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10 Harnessing Large Language Models for Training-free Video Anomaly Detection 論⽂の ポイント • LLMを利⽤して訓練なしによる動 画異常検知を実施した。 • 同系統従来⼿法よりも精度が⾼い。 個⼈的に ⾯⽩いと思った ポイント • 学習をすれば、異常検知を可能だ が、コストが⾼いのでその回避策 として利⽤できるのでは︖ • LLMで時系列情報扱える。 1. 本⽇の論⽂ 今回の論⽂のポイント

Slide 11

Slide 11 text

2. 関連研究

Slide 12

Slide 12 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12 CLIPを利⽤して動画をEncodingし、Temporal Self-Attentionで 時系列特徴を解析するモジュールを提案した。(教師あり) 3. 関連研究 関連研究① CLIP-TSA: CLIP-ASSISTED TEMPORAL SELF-ATTENTION FOR WEAKLY-SUPERVISED VIDEO ANOMALY DETECTION

Slide 13

Slide 13 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 13 RGBのストリームとOptical Flowのネットワークを利⽤し、 疑似ラベルを作成し、後段処理の結果に基づいて再マッピングする。 3. 関連研究 関連研究② DyAnNet: A Scene Dynamicity Guided Self-Trained Video Anomaly Detection Network

Slide 14

Slide 14 text

3. 論⽂⼿法紹介

Slide 15

Slide 15 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15 Harnessing Large Language Models for Training-free Video Anomaly Detection 論⽂の ポイント • LLMを利⽤して訓練なしによる動 画異常検知を実施した。 • 同系統従来⼿法よりも精度が⾼い。 個⼈的に ⾯⽩いと思った ポイント • 学習をすれば、異常検知を可能だ が、コストが⾼いのでその回避策 として利⽤できるのでは︖ • LLMで時系列情報扱える。 3. 論⽂⼿法紹介 今回の論⽂のポイント

Slide 16

Slide 16 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16 3. 論⽂⼿法紹介 従来⼿法との違い VLM/LLMを利⽤して「学習をしない」(図右)ことが 最⼤の特徴

Slide 17

Slide 17 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17 3. 論⽂⼿法紹介 LAVAD⼿法概要 Text Encoder Image Encoder Video Encoder 提案⼿法LAnguage-based VADの⼿法概要 ③動画情報を利⽤したスコア修正

Slide 18

Slide 18 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18 3. 論⽂⼿法紹介 LAVAD⼿法概要(フレームベクトル⽣成処理) ①各フレームごとに 説明⽂とベクトルを⽣成 ②フレーム画像埋め込み 処理を利⽤したテキスト クリーニング処理 Text Encoder Image Encoder Video Encoder

Slide 19

Slide 19 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19 ①各フレームごとに説明⽂とベクトルを⽣成する。 Image Captionのモデルを利⽤して、説明⽂を⽣成する。そのあとで 説明⽂をベクトルに変換する。 3. 論⽂⼿法紹介 フレームベクトル⽣成処理 ②フレーム画像埋め込み処理を利⽤したテキストクリーニング処理 ①で⽣成したものはノイズが含まれているものがある。 そのため、Textに対応するImage Embeddingのモデルを利⽤して、 ⽣成したキャプションを近傍で最も近いものと置き換え、ノイズを除去する。 動画中のフレーム説明⽂⽣成処理

Slide 20

Slide 20 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 20 3. 論⽂⼿法紹介 LAVAD⼿法概要(スコア作成) ①LLMを⽤いて時間情報を 考慮した⽂章を⽣成する。 ②⽣成した⽂章から スコアを作成する。 Text Encoder Image Encoder Video Encoder

Slide 21

Slide 21 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21 LLMを利⽤した異常検知スコアの作成 ①LLMを⽤いて時間情報を考慮した⽂章を⽣成する。 時系列情報が⽋けているので、複数フレームのキャプションから次の プロンプトで⽣成する。 ②⽣成した⽂章からスコアを作成する。 Please summarize what happened in few sentences, based on the following temporal description of a scene. Do not include any unnecessary details or descriptions. If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities? 3. 論⽂⼿法紹介 スコア作成

Slide 22

Slide 22 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22 3. 論⽂⼿法紹介 LAVAD⼿法概要(動画情報を利⽤したスコア修正) 動画情報を利⽤し たスコア修正 Text Encoder Image Encoder Video Encoder

Slide 23

Slide 23 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23 動画情報を利⽤したスコア修正 3. 論⽂⼿法紹介 動画情報を利⽤したスコア修正 動画情報を利⽤し、異常度スコアに該当するフレームの近傍(K)の 情報を利⽤してスコアを補正する。 動画とシーケンスの Embeddingの⽐較 異常スコア 補正後スコア

Slide 24

Slide 24 text

4. 実験

Slide 25

Slide 25 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25 1.データセットは街のカメラで撮影され、犯罪⾏為が含まれてい るUCF-Crime/XD-Violenceの2つを利⽤している。(犯罪⾏為を 検出する。 2.評価はAUC、Average Precision(AP)を利⽤している。 3.その他実装詳細は次の通り 4. 実験 実験内容 No. 項⽬ 値 1 Caption Model BLIP-2 2 LLM LLaMA-2-13b-chat 3 Video Encoder Image Bind 4 K 10

Slide 26

Slide 26 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26 計1900 、Untrimmedなデータ。動画中の犯罪時間を特定する 4. 実験 データセット① UCF-Crime

Slide 27

Slide 27 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27 巨⼤な暴⼒的なシーンを検出するデータセット(4754動画) 4. 実験 データセット② UCF-Crime

Slide 28

Slide 28 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28 同系統過去⼿法と⽐較して、最も精度が⾼い(SoTA) Traniningには劣るが、OneClass,学習なしの類で最も精度が⾼い 4. 実験 他⼿法との⽐較

Slide 29

Slide 29 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29 異常ではない箇所は低く、異常の箇所は⾼く出る。 また、描写としても正しいものが出⼒されていることが確認できる。 4. 実験 動画異常検出例

Slide 30

Slide 30 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 30 ⼿法それぞれに効果はあるが、特にTemporal Summary (LLM Based AnomalyScorering)Score Refinementの効果が⾼い。 4. 実験 分析︓⼿法のAblation Study

Slide 31

Slide 31 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 31 base:How would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities? Anomaly Prior︓suspicious activities or potentially criminal activities Impersonation: If you were a law enforcement agency 警察の物まねを⼊⼒することのみ精度向上に貢献した →異常の前提を書くことで、異常の検出を制限させたのでは︖(仮説) 4. 実験 分析︓Task Prior(プロンプト)

Slide 32

Slide 32 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 32 Kの値を増やすと、検出精度向上に貢献する。(=ある程 度の補正に効果がある)ただし、9程度で伸びなくなる。 4. 実験 分析︓Effictive K

Slide 33

Slide 33 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 33 No. 項⽬ 説明 1 他⼿法との⽐較 LAVADの学習なし⼿法は学習済モデルに匹敵し、かつ、他のOne Classが学習なし⼿法よりも⾼精度を達成した。 2 主な精度貢献ポイント Temporal SummaryとScore Refinementによる時系列補正の⼿ 法が⼤きく貢献している。 3 プロンプト Impersonation(模倣)の⼿法が最も精度が⾼く、異常検知の⽅ 向性を⽰すプロンプトは貢献しなかった。 4. 実験 実験まとめ

Slide 34

Slide 34 text

5. まとめ

Slide 35

Slide 35 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 35 1. VADの⼿法であるLAVADを提案し未学習⼿法の中で、 UCF- Crime/XD-ViolenceのデータセットでSoTAを達成した。 2. ⼿法として特に貢献があったのはノイズの多いデータ処理、時系列 ⽅向の集約処理、近傍を利⽤した異常スコア修正処理がある。 5. まとめ 本論⽂のまとめ

Slide 36

Slide 36 text

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 36 1. LLMを利⽤して学習なしで精度が教師あり学習と概ね近しいのは⾯ ⽩いポイント。 2. ただし、SaaS系のLLM(GPT-4O、Claudeなど)を利⽤するには フレーム解析数の都合で、料⾦の⾯から難しいように⾒えるので、 ⼯夫が必要になる。 3. SaaS系のLLMでも集約処理など、参考にはできるとは思うので、 アイデアを要所要所で使いたい。 5. まとめ 感想

Slide 37

Slide 37 text

37 Copyright © Acroquest Technology Co., Ltd. All rights reserved.