日々アップデートされ多様化する生成技術に対し、強い生成 AI 検知システムを実現する為には「良いデータセット、およびその管理の仕組み」が必要不可欠です。NABLAS の生成 AI 検知技術で取り組んでいる、Data−Centric なデータセット管理基盤の構築アプローチをご紹介します。
強い生成 AI 検知システムを実現するData-Centric なデータセット管理第 3 回 Data-Centric AI 勉強会AI 総合研究所 NABLAS冨山 吉孝
View Slide
冨⼭ 吉孝YOSHITAKA TOMIYAMA職種R&D Engineer / iLect Contents Manager業務NABLAS では製造業向け DX、新規技術開発、AI ⼈材育成事業の教材企画‧開発‧講師業務に従事趣味ギター / ボドゲ / ⽂⿃ / 🏍 / 🥊 / 🍺AI ミュージックバトル!『弁財天』#benzaiten競技者募集中!@johannyjm1
© NABLAS Inc.3NABLAS - 事業概要AI コンサル・R&D AI 人材育成事業「iLect」 コンサルティング・技術研究開発、AI 人材育成までワンストップで提供 東京大学で開発された DeepLearning 講座 Kaggle ライクなコンペ課題など「実践的コンテンツ」 1 ユーザ 1GPU 使える iLect System AI の研究・開発の支援、共同研究 クライアントの状況に応じた技術面のコンサルティング DX 導入支援、技術面のサポート
© NABLAS Inc. 4 クライアント&パートナー/受賞歴主要顧客とパートナー 受賞歴HONGO AI 2020 HONGO AI AWARD ASPIC IoT・AI・クラウドアワード 2020 AI部門ベンチャーグランプリ 大学発ベンチャー表彰 2020 日本ベンチャー学会会長賞 防衛装備庁
© NABLAS Inc.5⽣成 AI 技術‧検知技術に関する番組製作協⼒、メディア露出⽇本テレビ系列「カズレーザーと学ぶ。」(2022 年 11 ⽉ 15 ⽇放送)⽇本テレビ系列「カワシマの⽳」(2022 年 12 ⽉ 26 ⽇放送)画像‧⾳声⽣成 ⽣成 AI 検知NHK 総合「フェイク‧バスターズ」(2023 年 8 ⽉ 26 ⽇放送)テレビ東京「円卓コンフィデンシャル」(2023 年 8 ⽉ 13 ⽇放送)TBS 系列「news23」(2023 年 8 ⽉ 31 ⽇放送)
© NABLAS Inc.7あらゆる形式のデータをAIが⽣成できるように“Generative Everything”AI Index 2021 by Stanford University HAIテキスト (⽂章)‧画像‧⾳声‧動画などあらゆる形式のデータをAIが⽣成できるように⼈間が作成したメディアと⾒分けが困難に
© NABLAS Inc.8“AI-enabled future crime”Caldwell, M., Andrews, J.T.A., Tanay, T. et al.AI-enabled future crime. Crime Sci 9, 14 (2020).GAN 技術の進化によってもたらされた「ディープフェイク」は社会に最も差し迫った AI 犯罪の脅威の⼀つ
© NABLAS Inc.9“AI-enabled current crimes”
⽣成 AI を⽤いた犯罪への対抗技術
© NABLAS Inc.11NABLAS の⽣成 AI 検知システム⽣成 AI 検知システム複数のモデルを組み合わせて⾼い性能を実現迅速に解析 フェイク/ 本物鑑定対象メディア画像データ ⾳声データデータセントリックなアプローチ* Representative Forgery Mining for Fake Face Detection* Preliminary Forensics Analysis of DeepFake Images* DataPerf: Benchmarks for Data-Centric AI Development画像⽤ API⾳声⽤ API⽣成検知 APIモデルセントリックなアプローチ
Why Data-Centric?
© NABLAS Inc.13Why Data-Centric?データセットは真の分布を反映した形でサンプリングされるべきリアル画像‧⽣成画像の真の分布とは …?
© NABLAS Inc.14Why Data-Centric?Generation usingpromptInpaintingFace swap models Diffusion models Creative support tools多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる
© NABLAS Inc.15Why Data-Centric?Generation usingpromptInpaintingFace swap models Diffusion models Creative support tools多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない
© NABLAS Inc.16Why Data-Centric?Generation usingpromptInpaintingFace swap models Diffusion models Creative support tools多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる過去の⽣成 AI を良く検知できたモデルがまた効くとは限らないデータセットを柔軟に管理‧更新する仕組みが必要
Data-Centric なデータ基盤構築
© NABLAS Inc.18基本的なアイデアデータを追加したり、うまく選んだり、加⼯したりする ことで、より真の分布に近づけるこれをリアル画像‧⽣成画像データセット 両⽅について ⾏う
© NABLAS Inc.19基本的なアイデアデータを追加したり、うまく選んだり、加⼯したりする ことで、より真の分布に近づけるこれをリアル画像‧⽣成画像データセット 両⽅について ⾏う⇩ ① どんな操作をする?⇧ ② どう評価する?⇧ ③ 両者の塩梅は?
© NABLAS Inc.20① どんな操作をする?② どう評価する?③ 両者の塩梅は?を参考にする
© NABLAS Inc.21DataPerf とは• Data-Centric AI を推進する組織• データセット作成を評価するベンチマーク‧コミュニティ• コンペやワークショップを開催
© NABLAS Inc.22DataPerf が提案するベンチマークタスクhttps://arxiv.org/abs/2207.10062v1Training DataDevelopment• Training set creation• Data selection• Data debugging• Data valuation..and moreTest DataDevelopment• Test set creation• Slice discovery..and more
© NABLAS Inc.23DataPerf が提案するベンチマークタスクhttps://arxiv.org/abs/2207.10062v1Training DataDevelopment• Training set creation• Data selection• Data debugging• Data valuation..and moreTest DataDevelopment• Test set creation• Slice discovery..and more① どんな操作をする?② どう評価する?
© NABLAS Inc.24Training set creation:学習データセットを作るDataPerf の提案モデルを固定し、学習データセットを改善(Model-Centric の逆)• ラベルの⾒直し• 不適切なデータの削除⽣成 AI 検知データ基盤構築⽣成 AI モデルを多様な形で活⽤し、データセットへ追加する• 新規リリースやアップデートがされるたびに対応• リアル:⽣成のペアを作る- キャプションをプロンプトとし、リアル:⽣成のペアを作る- リアル画像を img2img し、リアル:⽣成のペアを作る- リアル画像の⼀部を指定した inpainting によりリアル:⽣成のペアを作る← ③ 両者の塩梅は?↓ ① どんな操作をする?
© NABLAS Inc.25Data selection:学習データを減らすDataPerf の提案• 例:active learning, core-set selection• モデルを固定し、学習データセットを⼩さくする• アノテーションや学習のコスト削減を狙う⽣成 AI 検知データ基盤構築• Training set creation によって(特に⽣成画像の)データセットが膨⼤な量になるため、学習コストの削減のためにデータを削減する• 現在はランダムにサンプリングしているが、選択アルゴリズムを使って同サイズデータセットにおける精度改善を図る↓ ① どんな操作をする?
© NABLAS Inc.26Test set creation:テストデータセットを作るDataPerf の提案• モデルを固定し、評価データセットを改善• (⼈間に解けるが、)モデルにとって厳しいデータを追加する• Model-Centric AI のベンチマークのスコアが飽和していることへの直接的な改善になる⽣成 AI 検知データ基盤構築⽣成画像として検知したい画像の中には「⼤量な⽣成」が難しいものも多い(FireFly 等)• 評価データセットには少量であってもそれらを追加する• テストスコアが改善するように Training set creation を⾏う• 過学習しないように定期的にアップデートする↓ ② どう評価する?
© NABLAS Inc.27システム構成Validation/Evaluation結果を返すデータの選択 固定されたモデルTrainingEvaluationdemoDeployTrainingDataserviceTrainingDataset v3TrainingDataset v2TrainingDataset v1EvaluationDataset多様な画像を⽣成
© NABLAS Inc.28• ⽣成 AI 技術が⾼精度化‧⺠主化し、⽣成 AI 検知技術への社会的ニーズが⾼まっている• ⽣成 AI 検知システムを実現するデータセット構築にあたり、Data-Centric AI の視点でのアプローチがマッチする• NABLAS では「強い⽣成 AI 検知システム」を実現するために、柔軟で素早くデータを管理できる基盤を構築中であるまとめ
© NABLAS Inc.29WE ARE HIRING! 一緒に働く仲間を募集しています! ▼ 採用HP https://www.nablas.com/jobs?lang=ja @nablas_inc https://twitter.com/nablas_inc https://www.facebook.com/nablas.inc https://www.linkedin.com/company/nablas