Slide 1

Slide 1 text

強い生成 AI 検知システムを実現する Data-Centric なデータセット管理 第 3 回 Data-Centric AI 勉強会 AI 総合研究所 NABLAS 冨山 吉孝

Slide 2

Slide 2 text

冨⼭ 吉孝 YOSHITAKA TOMIYAMA 職種 R&D Engineer / iLect Contents Manager 業務 NABLAS では製造業向け DX、新規技術開発、 AI ⼈材育成事業の教材企画‧開発‧講師業務に従事 趣味 ギター / ボドゲ / ⽂⿃ / 🏍 / 🥊 / 🍺 AI ミュージックバトル!『弁財天』#benzaiten 競技者募集中! @johannyjm1

Slide 3

Slide 3 text

© NABLAS Inc. 3 NABLAS - 事業概要 AI コンサル・R&D
 AI 人材育成事業「iLect」
 コンサルティング・技術研究開発、AI 人材育成までワンストップで提供
 
 東京大学で開発された DeepLearning 講座
 Kaggle ライクなコンペ課題など「実践的コンテンツ」 
 1 ユーザ 1GPU 使える iLect System
 AI の研究・開発の支援、共同研究 
 クライアントの状況に応じた技術面のコンサルティング 
 DX 導入支援、技術面のサポート 


Slide 4

Slide 4 text

© NABLAS Inc.
 4
 クライアント&パートナー/受賞歴 主要顧客とパートナー 受賞歴 HONGO AI 2020
 HONGO AI AWARD
 ASPIC IoT・AI・クラウドアワード 2020
 AI部門ベンチャーグランプリ 
 大学発ベンチャー表彰 2020 
 日本ベンチャー学会会長賞 
 防衛装備庁

Slide 5

Slide 5 text

© NABLAS Inc. 5 ⽣成 AI 技術‧検知技術に関する番組製作協⼒、メディア露出 ⽇本テレビ系列「カズレーザーと学ぶ。」(2022 年 11 ⽉ 15 ⽇放送) ⽇本テレビ系列「カワシマの⽳」(2022 年 12 ⽉ 26 ⽇放送) 画像‧⾳声⽣成 ⽣成 AI 検知 NHK 総合「フェイク‧バスターズ」(2023 年 8 ⽉ 26 ⽇放送) テレビ東京「円卓コンフィデンシャル」(2023 年 8 ⽉ 13 ⽇放送) TBS 系列「news23」(2023 年 8 ⽉ 31 ⽇放送)

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

© NABLAS Inc. 7 あらゆる形式のデータをAIが⽣成できるように “Generative Everything” AI Index 2021 by Stanford University HAI テキスト (⽂章)‧画像‧⾳声‧動画など あらゆる形式のデータをAIが⽣成できるように ⼈間が作成したメディアと⾒分けが困難に

Slide 8

Slide 8 text

© NABLAS Inc. 8 “AI-enabled future crime” Caldwell, M., Andrews, J.T.A., Tanay, T. et al. AI-enabled future crime. Crime Sci 9, 14 (2020). GAN 技術の進化によってもたらされた 「ディープフェイク」は 社会に最も差し迫った AI 犯罪の脅威の⼀つ

Slide 9

Slide 9 text

© NABLAS Inc. 9 “AI-enabled current crimes”

Slide 10

Slide 10 text

⽣成 AI を⽤いた犯罪への対抗技術

Slide 11

Slide 11 text

© NABLAS Inc. 11 NABLAS の⽣成 AI 検知システム ⽣成 AI 検知システム 複数のモデルを組み合わせて ⾼い性能を実現 迅速に解析 フェイク/ 本物 鑑定対象メディア 画像データ ⾳声データ データセントリックなアプローチ * Representative Forgery Mining for Fake Face Detection * Preliminary Forensics Analysis of DeepFake Images * DataPerf: Benchmarks for Data-Centric AI Development 画像⽤ API ⾳声⽤ API ⽣成検知 API モデルセントリックなアプローチ

Slide 12

Slide 12 text

Why Data-Centric?

Slide 13

Slide 13 text

© NABLAS Inc. 13 Why Data-Centric? データセットは真の分布を反映した形でサンプリングされるべき リアル画像‧⽣成画像の真の分布とは …?

Slide 14

Slide 14 text

© NABLAS Inc. 14 Why Data-Centric? Generation using prompt Inpainting Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる

Slide 15

Slide 15 text

© NABLAS Inc. 15 Why Data-Centric? Generation using prompt Inpainting Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる 過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない

Slide 16

Slide 16 text

© NABLAS Inc. 16 Why Data-Centric? Generation using prompt Inpainting Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる 過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない データセットを柔軟に管理‧更新する仕組みが必要

Slide 17

Slide 17 text

Data-Centric なデータ基盤構築

Slide 18

Slide 18 text

© NABLAS Inc. 18 基本的なアイデア データを追加したり、うまく選んだり、加⼯したりする ことで、 より真の分布に近づける これをリアル画像‧⽣成画像データセット 両⽅について ⾏う

Slide 19

Slide 19 text

© NABLAS Inc. 19 基本的なアイデア データを追加したり、うまく選んだり、加⼯したりする ことで、 より真の分布に近づける これをリアル画像‧⽣成画像データセット 両⽅について ⾏う ⇩ ① どんな操作をする? ⇧ ② どう評価する? ⇧ ③ 両者の塩梅は?

Slide 20

Slide 20 text

© NABLAS Inc. 20 ① どんな操作をする? ② どう評価する? ③ 両者の塩梅は? を参考にする

Slide 21

Slide 21 text

© NABLAS Inc. 21 DataPerf とは • Data-Centric AI を推進する組織 • データセット作成を評価するベンチマーク‧コミュニティ • コンペやワークショップを開催

Slide 22

Slide 22 text

© NABLAS Inc. 22 DataPerf が提案するベンチマークタスク https://arxiv.org/abs/2207.10062v1 Training Data Development • Training set creation • Data selection • Data debugging • Data valuation ..and more Test Data Development • Test set creation • Slice discovery ..and more

Slide 23

Slide 23 text

© NABLAS Inc. 23 DataPerf が提案するベンチマークタスク https://arxiv.org/abs/2207.10062v1 Training Data Development • Training set creation • Data selection • Data debugging • Data valuation ..and more Test Data Development • Test set creation • Slice discovery ..and more ① どんな操作をする? ② どう評価する?

Slide 24

Slide 24 text

© NABLAS Inc. 24 Training set creation:学習データセットを作る DataPerf の提案 モデルを固定し、学習データセットを改善(Model-Centric の逆) • ラベルの⾒直し • 不適切なデータの削除 ⽣成 AI 検知データ基盤構築 ⽣成 AI モデルを多様な形で活⽤し、データセットへ追加する • 新規リリースやアップデートがされるたびに対応 • リアル:⽣成のペアを作る - キャプションをプロンプトとし、リアル:⽣成のペアを作る - リアル画像を img2img し、リアル:⽣成のペアを作る - リアル画像の⼀部を指定した inpainting によりリアル:⽣成のペアを作る ← ③ 両者の塩梅は? ↓ ① どんな操作をする?

Slide 25

Slide 25 text

© NABLAS Inc. 25 Data selection:学習データを減らす DataPerf の提案 • 例:active learning, core-set selection • モデルを固定し、学習データセットを⼩さくする • アノテーションや学習のコスト削減を狙う ⽣成 AI 検知データ基盤構築 • Training set creation によって(特に⽣成画像の)データセットが膨⼤な量になるため、 学習コストの削減のためにデータを削減する • 現在はランダムにサンプリングしているが、 選択アルゴリズムを使って同サイズデータセットにおける精度改善を図る ↓ ① どんな操作をする?

Slide 26

Slide 26 text

© NABLAS Inc. 26 Test set creation:テストデータセットを作る DataPerf の提案 • モデルを固定し、評価データセットを改善 • (⼈間に解けるが、)モデルにとって厳しいデータを追加する • Model-Centric AI のベンチマークのスコアが飽和していることへの直接的な改善になる ⽣成 AI 検知データ基盤構築 ⽣成画像として検知したい画像の中には「⼤量な⽣成」が難しいものも多い(FireFly 等) • 評価データセットには少量であってもそれらを追加する • テストスコアが改善するように Training set creation を⾏う • 過学習しないように定期的にアップデートする ↓ ② どう評価する?

Slide 27

Slide 27 text

© NABLAS Inc. 27 システム構成 Validation/Evaluation 結果を返す データの選択 固定されたモデル Training Evaluation demo Deploy Training Data service Training Dataset v3 Training Dataset v2 Training Dataset v1 Evaluation Dataset 多様な画像を⽣成

Slide 28

Slide 28 text

© NABLAS Inc. 28 • ⽣成 AI 技術が⾼精度化‧⺠主化し、⽣成 AI 検知技術への社会的ニーズが⾼まっている • ⽣成 AI 検知システムを実現するデータセット構築にあたり、Data-Centric AI の視点での アプローチがマッチする • NABLAS では「強い⽣成 AI 検知システム」を実現するために、柔軟で素早くデータを管 理できる基盤を構築中である まとめ

Slide 29

Slide 29 text

© NABLAS Inc. 29 WE ARE HIRING!
 一緒に働く仲間を募集しています!
 
 ▼ 採用HP
 https://www.nablas.com/jobs?lang=ja
 @nablas_inc
 https://twitter.com/nablas_inc
 https://www.facebook.com/nablas.inc
 https://www.linkedin.com/company/nablas