最近の Citadel AI の取り組みのご紹介 (Nov, 2024)

©2021-2024 Citadel AI Inc.  LLM ドメイン適⽤ WG 向け Citadel AI
の取り組みのご紹介株式会社 Citadel AI

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  TOC - Citadel AI のご紹介
- 対話ログの分析ワークフローのご紹介 - 今後の展望 - ご相談 2 

Citadel AI のご紹介 #1 3

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  4  Trusted by Global Companies
Contributing to Trustworthy AI US AISIC (US)　The AI Alliance (Meta/IBM) 安全安⼼な「信頼できるAI」を実現

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  5  ミスが許されない AI システムの品質検証銀行・保険
など医療・ヘルスケア自動車・製造業

CONFIDENTIAL ©2021-2024  AI ライフサイクル全体の信頼性‧品質を向上 6  開発中のモデルデータセット 1. モデル開発時の自動検証
自動テストモデル評価レポート 2. モデル運用時の自動監視運用中のモデル自動モニタリング再学習

CONFIDENTIAL ©2021-2024 Citadel AI Inc.    7  ⼤規模⾔語モデルの評価ツール Lens for
LLMs   Human Eval  Automated  Eval  Lens  Fast  ❌  ✅  ✅  Accurate  ✅  ❌  ✅  ✅ ⼤量の網羅的な⾃動評価に ✅ 少量の⼈⼿評価を組み合わせ ✅ 両者の強みをインテグレート

対話ログの分析ワークフローのご紹介 #2 8

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  対話の品質評価の 3 つの⽅法 - ベンチマークを⽤いた事前評価
: QA4AI ガイドライン - 仮想シナリオを⽤いた事前評価 : デジタル庁のレポート - 対話ログを⽤いた事後評価: 弊社での取り組み 9  評価手法ベンチマーク仮想シナリオ対話ログ事前評価可能 ✓ ✓ カスタマイズ性 ✓ 特定業務の品質評価 ✓

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  対話ログの分析ワークフロー概要 10  全対話ログサンプル (1000ユーザー)
RAGあり RAGなし一般質問 100件 (目標) 要約 100件 (目標) 要約 100件 (目標) 翻訳 100件 (目標) 人手による精度検証自動化された指標との比較人手による精度検証自動化された指標との比較人手による精度検証自動化された指標との比較人手による精度検証自動化された指標との比較 Step1. データの確認 Step2. 用途の確認 Step3. 人手での検証 Step4. 自動化の検討 … …

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  分析⽅法のデモ - Lens for LLMs
と Azure OpenAI の画⾯を⽤いてご紹介 1. 対話ログのカテゴリ抽出 2. 対話ログのカテゴリ分類‧評価 11 

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  評価 - ⼈⼿で分類したアノテーション結果と、⽣成したプロンプトを⽤いた評価結果を⽐較 -
カテゴリ抽出では⼈⼿で作成したカテゴリと類似するカテゴリを作成することに成功した - カテゴリ分類では⼈⼿とほぼ変わらない精度で分類可能 - 「⼀般的な知識で回答できない質問かどうか」「健康問題に関する相談を含んでいるか」「攻撃的なプロンプトを含んでいないか」もプロンプトにより判定可能 12 

今後の展望 #3 13

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  モデルの性能改善の3類型 14  モデルデータテスト
モデルデータテストモデルデータテスト Kaggle型モデルを改善 Data-Centric型データを改善 API型テストを改善既存のノウハウが乏しい

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  問題意識 - 網羅的な評価観点を最初から取り揃えることは無理 -
さまざまな⽤途に利⽤できるため、ユースケースを列挙できない - 世論が変化することで新たな評価基準があとから出現する 15  モデルデータテスト API型テストを改善

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  継続的な評価 - 評価 → 指標の設計
→ 評価を反復 - すべての評価観点を最初から網羅するのではなく、利⽤を通じて徐々に評価観点を育てていく - 評価を⾏うことで、既存の評価観点では抜け落ちるケースに気が付き、新たな評価観点に気がつく 16  モデルデータテスト API型テストを改善

最近の Citadel AI の取り組みのご紹介 (Nov, 2024)

最近の Citadel AI の取り組みのご紹介 (Nov, 2024)

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript

©2021-2024 Citadel AI Inc.  LLM ドメイン適⽤ WG 向け Citadel AI

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  TOC - Citadel AI のご紹介

Citadel AI のご紹介 #1 3

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  4  Trusted by Global Companies

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  5  ミスが許されない AI システムの品質検証銀行・保険

CONFIDENTIAL ©2021-2024  AI ライフサイクル全体の信頼性‧品質を向上 6  開発中のモデルデータセット 1. モデル開発時の自動検証

CONFIDENTIAL ©2021-2024 Citadel AI Inc.    7  ⼤規模⾔語モデルの評価ツール Lens for

対話ログの分析ワークフローのご紹介 #2 8

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  対話の品質評価の 3 つの⽅法 - ベンチマークを⽤いた事前評価

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  対話ログの分析ワークフロー概要 10  全対話ログサンプル (1000ユーザー)

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  分析⽅法のデモ - Lens for LLMs

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  評価 - ⼈⼿で分類したアノテーション結果と、⽣成したプロンプトを⽤いた評価結果を⽐較 -

今後の展望 #3 13

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  モデルの性能改善の3類型 14  モデルデータテスト

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  問題意識 - 網羅的な評価観点を最初から取り揃えることは無理 -

CONFIDENTIAL ©2021-2024 Citadel AI Inc.  継続的な評価 - 評価 → 指標の設計

19