Upgrade to Pro — share decks privately, control downloads, hide ads and more …

強い生成 AI 検知システムを実現する Data-Centric なデータセット管理

強い生成 AI 検知システムを実現する Data-Centric なデータセット管理

日々アップデートされ多様化する生成技術に対し、強い生成 AI 検知システムを実現する為には「良いデータセット、およびその管理の仕組み」が必要不可欠です。NABLAS の生成 AI 検知技術で取り組んでいる、Data−Centric なデータセット管理基盤の構築アプローチをご紹介します。

Yoshitaka Tomiyama

September 19, 2023
Tweet

More Decks by Yoshitaka Tomiyama

Other Decks in Research

Transcript

  1. 強い生成 AI 検知システムを実現する
    Data-Centric なデータセット管理
    第 3 回 Data-Centric AI 勉強会
    AI 総合研究所 NABLAS
    冨山 吉孝

    View Slide

  2. 冨⼭ 吉孝
    YOSHITAKA TOMIYAMA
    職種
    R&D Engineer / iLect Contents Manager
    業務
    NABLAS では製造業向け DX、新規技術開発、
    AI ⼈材育成事業の教材企画‧開発‧講師業務に従事
    趣味
    ギター / ボドゲ / ⽂⿃ / 🏍 / 🥊 / 🍺
    AI ミュージックバトル!『弁財天』#benzaiten
    競技者募集中!
    @johannyjm1

    View Slide

  3. © NABLAS Inc.
    3
    NABLAS - 事業概要
    AI コンサル・R&D

    AI 人材育成事業「iLect」

    コンサルティング・技術研究開発、AI 人材育成までワンストップで提供


    東京大学で開発された DeepLearning 講座

    Kaggle ライクなコンペ課題など「実践的コンテンツ」 

    1 ユーザ 1GPU 使える iLect System

    AI の研究・開発の支援、共同研究 

    クライアントの状況に応じた技術面のコンサルティング 

    DX 導入支援、技術面のサポート 


    View Slide

  4. © NABLAS Inc.

    4

    クライアント&パートナー/受賞歴
    主要顧客とパートナー 受賞歴
    HONGO AI 2020

    HONGO AI AWARD

    ASPIC IoT・AI・クラウドアワード 2020

    AI部門ベンチャーグランプリ 

    大学発ベンチャー表彰 2020 

    日本ベンチャー学会会長賞 

    防衛装備庁

    View Slide

  5. © NABLAS Inc.
    5
    ⽣成 AI 技術‧検知技術に関する番組製作協⼒、メディア露出
    ⽇本テレビ系列「カズレーザーと学ぶ。」(2022 年 11 ⽉ 15 ⽇放送)
    ⽇本テレビ系列「カワシマの⽳」(2022 年 12 ⽉ 26 ⽇放送)
    画像‧⾳声⽣成 ⽣成 AI 検知
    NHK 総合「フェイク‧バスターズ」(2023 年 8 ⽉ 26 ⽇放送)
    テレビ東京「円卓コンフィデンシャル」(2023 年 8 ⽉ 13 ⽇放送)
    TBS 系列「news23」(2023 年 8 ⽉ 31 ⽇放送)

    View Slide

  6. View Slide

  7. © NABLAS Inc.
    7
    あらゆる形式のデータをAIが⽣成できるように
    “Generative Everything”
    AI Index 2021 by Stanford University HAI
    テキスト (⽂章)‧画像‧⾳声‧動画など
    あらゆる形式のデータをAIが⽣成できるように
    ⼈間が作成したメディアと⾒分けが困難に

    View Slide

  8. © NABLAS Inc.
    8
    “AI-enabled future crime”
    Caldwell, M., Andrews, J.T.A., Tanay, T. et al.
    AI-enabled future crime. Crime Sci 9, 14 (2020).
    GAN 技術の進化によってもたらされた
    「ディープフェイク」は
    社会に最も差し迫った AI 犯罪の脅威の⼀つ

    View Slide

  9. © NABLAS Inc.
    9
    “AI-enabled current crimes”

    View Slide

  10. ⽣成 AI を⽤いた犯罪への対抗技術

    View Slide

  11. © NABLAS Inc.
    11
    NABLAS の⽣成 AI 検知システム
    ⽣成 AI 検知システム
    複数のモデルを組み合わせて
    ⾼い性能を実現
    迅速に解析 フェイク/ 本物
    鑑定対象メディア
    画像データ ⾳声データ
    データセントリックなアプローチ
    * Representative Forgery Mining for Fake Face Detection
    * Preliminary Forensics Analysis of DeepFake Images
    * DataPerf: Benchmarks for Data-Centric AI Development
    画像⽤ API
    ⾳声⽤ API
    ⽣成検知 API
    モデルセントリックなアプローチ

    View Slide

  12. Why Data-Centric?

    View Slide

  13. © NABLAS Inc.
    13
    Why Data-Centric?
    データセットは真の分布を反映した形でサンプリングされるべき
    リアル画像‧⽣成画像の真の分布とは …?

    View Slide

  14. © NABLAS Inc.
    14
    Why Data-Centric?
    Generation using
    prompt
    Inpainting
    Face swap models Diffusion models Creative support tools
    多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる

    View Slide

  15. © NABLAS Inc.
    15
    Why Data-Centric?
    Generation using
    prompt
    Inpainting
    Face swap models Diffusion models Creative support tools
    多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる
    過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない

    View Slide

  16. © NABLAS Inc.
    16
    Why Data-Centric?
    Generation using
    prompt
    Inpainting
    Face swap models Diffusion models Creative support tools
    多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる
    過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない
    データセットを柔軟に管理‧更新する仕組みが必要

    View Slide

  17. Data-Centric なデータ基盤構築

    View Slide

  18. © NABLAS Inc.
    18
    基本的なアイデア
    データを追加したり、うまく選んだり、加⼯したりする ことで、
    より真の分布に近づける
    これをリアル画像‧⽣成画像データセット 両⽅について ⾏う

    View Slide

  19. © NABLAS Inc.
    19
    基本的なアイデア
    データを追加したり、うまく選んだり、加⼯したりする ことで、
    より真の分布に近づける
    これをリアル画像‧⽣成画像データセット 両⽅について ⾏う
    ⇩ ① どんな操作をする?
    ⇧ ② どう評価する?
    ⇧ ③ 両者の塩梅は?

    View Slide

  20. © NABLAS Inc.
    20
    ① どんな操作をする?
    ② どう評価する?
    ③ 両者の塩梅は?
    を参考にする

    View Slide

  21. © NABLAS Inc.
    21
    DataPerf とは
    • Data-Centric AI を推進する組織
    • データセット作成を評価するベンチマーク‧コミュニティ
    • コンペやワークショップを開催

    View Slide

  22. © NABLAS Inc.
    22
    DataPerf が提案するベンチマークタスク
    https://arxiv.org/abs/2207.10062v1
    Training Data
    Development
    • Training set creation
    • Data selection
    • Data debugging
    • Data valuation
    ..and more
    Test Data
    Development
    • Test set creation
    • Slice discovery
    ..and more

    View Slide

  23. © NABLAS Inc.
    23
    DataPerf が提案するベンチマークタスク
    https://arxiv.org/abs/2207.10062v1
    Training Data
    Development
    • Training set creation
    • Data selection
    • Data debugging
    • Data valuation
    ..and more
    Test Data
    Development
    • Test set creation
    • Slice discovery
    ..and more
    ① どんな操作をする?
    ② どう評価する?

    View Slide

  24. © NABLAS Inc.
    24
    Training set creation:学習データセットを作る
    DataPerf の提案
    モデルを固定し、学習データセットを改善(Model-Centric の逆)
    • ラベルの⾒直し
    • 不適切なデータの削除
    ⽣成 AI 検知データ基盤構築
    ⽣成 AI モデルを多様な形で活⽤し、データセットへ追加する
    • 新規リリースやアップデートがされるたびに対応
    • リアル:⽣成のペアを作る
    - キャプションをプロンプトとし、リアル:⽣成のペアを作る
    - リアル画像を img2img し、リアル:⽣成のペアを作る
    - リアル画像の⼀部を指定した inpainting によりリアル:⽣成のペアを作る
    ← ③ 両者の塩梅は?
    ↓ ① どんな操作をする?

    View Slide

  25. © NABLAS Inc.
    25
    Data selection:学習データを減らす
    DataPerf の提案
    • 例:active learning, core-set selection
    • モデルを固定し、学習データセットを⼩さくする
    • アノテーションや学習のコスト削減を狙う
    ⽣成 AI 検知データ基盤構築
    • Training set creation によって(特に⽣成画像の)データセットが膨⼤な量になるため、
    学習コストの削減のためにデータを削減する
    • 現在はランダムにサンプリングしているが、
    選択アルゴリズムを使って同サイズデータセットにおける精度改善を図る
    ↓ ① どんな操作をする?

    View Slide

  26. © NABLAS Inc.
    26
    Test set creation:テストデータセットを作る
    DataPerf の提案
    • モデルを固定し、評価データセットを改善
    • (⼈間に解けるが、)モデルにとって厳しいデータを追加する
    • Model-Centric AI のベンチマークのスコアが飽和していることへの直接的な改善になる
    ⽣成 AI 検知データ基盤構築
    ⽣成画像として検知したい画像の中には「⼤量な⽣成」が難しいものも多い(FireFly 等)
    • 評価データセットには少量であってもそれらを追加する
    • テストスコアが改善するように Training set creation を⾏う
    • 過学習しないように定期的にアップデートする
    ↓ ② どう評価する?

    View Slide

  27. © NABLAS Inc.
    27
    システム構成
    Validation/Evaluation
    結果を返す
    データの選択 固定されたモデル
    Training
    Evaluation
    demo
    Deploy
    Training
    Data
    service
    Training
    Dataset v3
    Training
    Dataset v2
    Training
    Dataset v1
    Evaluation
    Dataset
    多様な画像を⽣成

    View Slide

  28. © NABLAS Inc.
    28
    • ⽣成 AI 技術が⾼精度化‧⺠主化し、⽣成 AI 検知技術への社会的ニーズが⾼まっている
    • ⽣成 AI 検知システムを実現するデータセット構築にあたり、Data-Centric AI の視点での
    アプローチがマッチする
    • NABLAS では「強い⽣成 AI 検知システム」を実現するために、柔軟で素早くデータを管
    理できる基盤を構築中である
    まとめ

    View Slide

  29. © NABLAS Inc.
    29
    WE ARE HIRING!

    一緒に働く仲間を募集しています!


    ▼ 採用HP

    https://www.nablas.com/jobs?lang=ja

    @nablas_inc

    https://twitter.com/nablas_inc

    https://www.facebook.com/nablas.inc

    https://www.linkedin.com/company/nablas


    View Slide