Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
強い生成 AI 検知システムを実現する Data-Centric なデータセット管理 第 3 回 Data-Centric AI 勉強会 AI 総合研究所 NABLAS 冨山 吉孝
Slide 2
Slide 2 text
冨⼭ 吉孝 YOSHITAKA TOMIYAMA 職種 R&D Engineer / iLect Contents Manager 業務 NABLAS では製造業向け DX、新規技術開発、 AI ⼈材育成事業の教材企画‧開発‧講師業務に従事 趣味 ギター / ボドゲ / ⽂⿃ / 🏍 / 🥊 / 🍺 AI ミュージックバトル!『弁財天』#benzaiten 競技者募集中! @johannyjm1
Slide 3
Slide 3 text
© NABLAS Inc. 3 NABLAS - 事業概要 AI コンサル・R&D AI 人材育成事業「iLect」 コンサルティング・技術研究開発、AI 人材育成までワンストップで提供 東京大学で開発された DeepLearning 講座 Kaggle ライクなコンペ課題など「実践的コンテンツ」 1 ユーザ 1GPU 使える iLect System AI の研究・開発の支援、共同研究 クライアントの状況に応じた技術面のコンサルティング DX 導入支援、技術面のサポート
Slide 4
Slide 4 text
© NABLAS Inc. 4 クライアント&パートナー/受賞歴 主要顧客とパートナー 受賞歴 HONGO AI 2020 HONGO AI AWARD ASPIC IoT・AI・クラウドアワード 2020 AI部門ベンチャーグランプリ 大学発ベンチャー表彰 2020 日本ベンチャー学会会長賞 防衛装備庁
Slide 5
Slide 5 text
© NABLAS Inc. 5 ⽣成 AI 技術‧検知技術に関する番組製作協⼒、メディア露出 ⽇本テレビ系列「カズレーザーと学ぶ。」(2022 年 11 ⽉ 15 ⽇放送) ⽇本テレビ系列「カワシマの⽳」(2022 年 12 ⽉ 26 ⽇放送) 画像‧⾳声⽣成 ⽣成 AI 検知 NHK 総合「フェイク‧バスターズ」(2023 年 8 ⽉ 26 ⽇放送) テレビ東京「円卓コンフィデンシャル」(2023 年 8 ⽉ 13 ⽇放送) TBS 系列「news23」(2023 年 8 ⽉ 31 ⽇放送)
Slide 6
Slide 6 text
No content
Slide 7
Slide 7 text
© NABLAS Inc. 7 あらゆる形式のデータをAIが⽣成できるように “Generative Everything” AI Index 2021 by Stanford University HAI テキスト (⽂章)‧画像‧⾳声‧動画など あらゆる形式のデータをAIが⽣成できるように ⼈間が作成したメディアと⾒分けが困難に
Slide 8
Slide 8 text
© NABLAS Inc. 8 “AI-enabled future crime” Caldwell, M., Andrews, J.T.A., Tanay, T. et al. AI-enabled future crime. Crime Sci 9, 14 (2020). GAN 技術の進化によってもたらされた 「ディープフェイク」は 社会に最も差し迫った AI 犯罪の脅威の⼀つ
Slide 9
Slide 9 text
© NABLAS Inc. 9 “AI-enabled current crimes”
Slide 10
Slide 10 text
⽣成 AI を⽤いた犯罪への対抗技術
Slide 11
Slide 11 text
© NABLAS Inc. 11 NABLAS の⽣成 AI 検知システム ⽣成 AI 検知システム 複数のモデルを組み合わせて ⾼い性能を実現 迅速に解析 フェイク/ 本物 鑑定対象メディア 画像データ ⾳声データ データセントリックなアプローチ * Representative Forgery Mining for Fake Face Detection * Preliminary Forensics Analysis of DeepFake Images * DataPerf: Benchmarks for Data-Centric AI Development 画像⽤ API ⾳声⽤ API ⽣成検知 API モデルセントリックなアプローチ
Slide 12
Slide 12 text
Why Data-Centric?
Slide 13
Slide 13 text
© NABLAS Inc. 13 Why Data-Centric? データセットは真の分布を反映した形でサンプリングされるべき リアル画像‧⽣成画像の真の分布とは …?
Slide 14
Slide 14 text
© NABLAS Inc. 14 Why Data-Centric? Generation using prompt Inpainting Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる
Slide 15
Slide 15 text
© NABLAS Inc. 15 Why Data-Centric? Generation using prompt Inpainting Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる 過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない
Slide 16
Slide 16 text
© NABLAS Inc. 16 Why Data-Centric? Generation using prompt Inpainting Face swap models Diffusion models Creative support tools 多様で⾼品質なモデル‧ツールが毎⽇のようにリリースされる 過去の⽣成 AI を良く検知できたモデルがまた効くとは限らない データセットを柔軟に管理‧更新する仕組みが必要
Slide 17
Slide 17 text
Data-Centric なデータ基盤構築
Slide 18
Slide 18 text
© NABLAS Inc. 18 基本的なアイデア データを追加したり、うまく選んだり、加⼯したりする ことで、 より真の分布に近づける これをリアル画像‧⽣成画像データセット 両⽅について ⾏う
Slide 19
Slide 19 text
© NABLAS Inc. 19 基本的なアイデア データを追加したり、うまく選んだり、加⼯したりする ことで、 より真の分布に近づける これをリアル画像‧⽣成画像データセット 両⽅について ⾏う ⇩ ① どんな操作をする? ⇧ ② どう評価する? ⇧ ③ 両者の塩梅は?
Slide 20
Slide 20 text
© NABLAS Inc. 20 ① どんな操作をする? ② どう評価する? ③ 両者の塩梅は? を参考にする
Slide 21
Slide 21 text
© NABLAS Inc. 21 DataPerf とは • Data-Centric AI を推進する組織 • データセット作成を評価するベンチマーク‧コミュニティ • コンペやワークショップを開催
Slide 22
Slide 22 text
© NABLAS Inc. 22 DataPerf が提案するベンチマークタスク https://arxiv.org/abs/2207.10062v1 Training Data Development • Training set creation • Data selection • Data debugging • Data valuation ..and more Test Data Development • Test set creation • Slice discovery ..and more
Slide 23
Slide 23 text
© NABLAS Inc. 23 DataPerf が提案するベンチマークタスク https://arxiv.org/abs/2207.10062v1 Training Data Development • Training set creation • Data selection • Data debugging • Data valuation ..and more Test Data Development • Test set creation • Slice discovery ..and more ① どんな操作をする? ② どう評価する?
Slide 24
Slide 24 text
© NABLAS Inc. 24 Training set creation:学習データセットを作る DataPerf の提案 モデルを固定し、学習データセットを改善(Model-Centric の逆) • ラベルの⾒直し • 不適切なデータの削除 ⽣成 AI 検知データ基盤構築 ⽣成 AI モデルを多様な形で活⽤し、データセットへ追加する • 新規リリースやアップデートがされるたびに対応 • リアル:⽣成のペアを作る - キャプションをプロンプトとし、リアル:⽣成のペアを作る - リアル画像を img2img し、リアル:⽣成のペアを作る - リアル画像の⼀部を指定した inpainting によりリアル:⽣成のペアを作る ← ③ 両者の塩梅は? ↓ ① どんな操作をする?
Slide 25
Slide 25 text
© NABLAS Inc. 25 Data selection:学習データを減らす DataPerf の提案 • 例:active learning, core-set selection • モデルを固定し、学習データセットを⼩さくする • アノテーションや学習のコスト削減を狙う ⽣成 AI 検知データ基盤構築 • Training set creation によって(特に⽣成画像の)データセットが膨⼤な量になるため、 学習コストの削減のためにデータを削減する • 現在はランダムにサンプリングしているが、 選択アルゴリズムを使って同サイズデータセットにおける精度改善を図る ↓ ① どんな操作をする?
Slide 26
Slide 26 text
© NABLAS Inc. 26 Test set creation:テストデータセットを作る DataPerf の提案 • モデルを固定し、評価データセットを改善 • (⼈間に解けるが、)モデルにとって厳しいデータを追加する • Model-Centric AI のベンチマークのスコアが飽和していることへの直接的な改善になる ⽣成 AI 検知データ基盤構築 ⽣成画像として検知したい画像の中には「⼤量な⽣成」が難しいものも多い(FireFly 等) • 評価データセットには少量であってもそれらを追加する • テストスコアが改善するように Training set creation を⾏う • 過学習しないように定期的にアップデートする ↓ ② どう評価する?
Slide 27
Slide 27 text
© NABLAS Inc. 27 システム構成 Validation/Evaluation 結果を返す データの選択 固定されたモデル Training Evaluation demo Deploy Training Data service Training Dataset v3 Training Dataset v2 Training Dataset v1 Evaluation Dataset 多様な画像を⽣成
Slide 28
Slide 28 text
© NABLAS Inc. 28 • ⽣成 AI 技術が⾼精度化‧⺠主化し、⽣成 AI 検知技術への社会的ニーズが⾼まっている • ⽣成 AI 検知システムを実現するデータセット構築にあたり、Data-Centric AI の視点での アプローチがマッチする • NABLAS では「強い⽣成 AI 検知システム」を実現するために、柔軟で素早くデータを管 理できる基盤を構築中である まとめ
Slide 29
Slide 29 text
© NABLAS Inc. 29 WE ARE HIRING! 一緒に働く仲間を募集しています! ▼ 採用HP https://www.nablas.com/jobs?lang=ja @nablas_inc https://twitter.com/nablas_inc https://www.facebook.com/nablas.inc https://www.linkedin.com/company/nablas