Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最近の Citadel AI の取り組みのご紹介 (Nov, 2024)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Asei Sugiyama
October 08, 2024
Technology
2
270
最近の Citadel AI の取り組みのご紹介 (Nov, 2024)
MLSE LLM ドメイン適用 WG向けに最近の取り組みをご紹介した資料です
Asei Sugiyama
October 08, 2024
Tweet
Share
More Decks by Asei Sugiyama
See All by Asei Sugiyama
Algorithm behind Gemini Enterprise Agent Designer
asei
0
120
Algothythm behind Gemini Enterprise Agent Designer (with least amount of inputs from human)
asei
0
59
AI との良い付き合い方を僕らは誰も知らない (WSS 2026 静岡版)
asei
1
540
AI との良い付き合い方を僕らは誰も知らない
asei
1
480
最近の生成 AI の活用事例紹介
asei
3
390
AI エージェント活用のベストプラクティスと今後の課題
asei
2
680
エージェントの継続的改善のためのメトリクス再考
asei
3
850
生成AI活用のベストプラクティス集を作ってる件
asei
1
900
GenAIOps: 生成AI時代の DevOps
asei
0
100
Other Decks in Technology
See All in Technology
管理者向けGitHub Enterpriseの運用Tips紹介: 人にもAIにも優しいプラットフォームづくり
yuriemori
0
180
AWSをCLIで理解したい! / I want to understand AWS using the CLI
mel_27
2
250
ブラックボックス観測に基づくAI支援のプロトコルのリバースエンジニアリングと再現~AIを用いたリバースエンジニアリング~ @ SECCON 14 電脳会議 / Reverse Engineering and Reproduction of an AI-Assisted Protocol Based on Black-Box Observation @ SECCON 14 DENNO-KAIGI
chibiegg
0
160
Agentic Software Modernization - Back to the Roots (Zürich Agentic Coding and Architectures, März 2026)
feststelltaste
1
230
Dr. Werner Vogelsの14年のキーノートから紐解くエンジニアリング組織への処方箋@JAWS DAYS 2026
p0n
1
120
オレ達はAWS管理をやりたいんじゃない!開発の生産性を爆アゲしたいんだ!!
wkm2
4
450
モブプログラミング再入門 ー 基本から見直す、AI時代のチーム開発の選択肢 ー / A Re-introduction of Mob Programming
takaking22
5
930
トップマネジメントとコンピテンシーから考えるエンジニアリングマネジメント
zigorou
4
790
楽しく学ぼう!コミュニティ入門 AWSと人が つむいできたストーリー
hiroramos4
PRO
1
170
Serverless Agent Architecture on Azure / serverless-agent-on-azure
miyake
1
170
AIファーストを前提とした開発スタイルの変化
sbtechnight
0
240
When an innocent-looking ListOffsets Call Took Down Our Kafka Cluster
lycorptech_jp
PRO
0
120
Featured
See All Featured
WCS-LA-2024
lcolladotor
0
480
Un-Boring Meetings
codingconduct
0
220
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.8k
Agile that works and the tools we love
rasmusluckow
331
21k
Site-Speed That Sticks
csswizardry
13
1.1k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
320
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
770
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Building Adaptive Systems
keathley
44
2.9k
The Cult of Friendly URLs
andyhume
79
6.8k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
Transcript
©2021-2024 Citadel AI Inc. LLM ドメイン適⽤ WG 向け Citadel AI
の取り 組みのご紹介 株式会社 Citadel AI
CONFIDENTIAL ©2021-2024 Citadel AI Inc. TOC - Citadel AI のご紹介
- 対話ログの分析ワークフローのご紹介 - 今後の展望 - ご相談 2
Citadel AI のご紹介 #1 3
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 4 Trusted by Global Companies
Contributing to Trustworthy AI US AISIC (US) The AI Alliance (Meta/IBM) 安全安⼼な「信頼できるAI」を実現
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 5 ミスが許されない AI システムの品質検証 銀行・保険
など 医療・ヘルスケア 自動車・製造業
CONFIDENTIAL ©2021-2024 AI ライフサイクル全体の信頼性‧品質を向上 6 開発中の モデル データセット 1. モデル開発時の自動検証
自動 テスト モデル評価 レポート 2. モデル運用時の自動監視 運用中の モデル 自動 モニタリング 再学習
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 7 ⼤規模⾔語モデルの評価ツール Lens for
LLMs Human Eval Automated Eval Lens Fast ❌ ✅ ✅ Accurate ✅ ❌ ✅ ✅ ⼤量の網羅的な⾃動評価に ✅ 少量の⼈⼿評価を組み合わせ ✅ 両者の強みをインテグレート
対話ログの分析ワークフローの ご紹介 #2 8
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 対話の品質評価の 3 つの⽅法 - ベンチマークを⽤いた事前評価
: QA4AI ガイドライン - 仮想シナリオを⽤いた事前評価 : デジタル庁のレポート - 対話ログを⽤いた事後評価: 弊社での取り組み 9 評価手法 ベンチマーク 仮想シナリオ 対話ログ 事前評価可能 ✓ ✓ カスタマイズ性 ✓ 特定業務の品質評価 ✓
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 対話ログの分析ワークフロー概要 10 全対話ログ サンプル (1000ユーザー)
RAGあり RAGなし 一般質問 100件 (目標) 要約 100件 (目標) 要約 100件 (目標) 翻訳 100件 (目標) 人手による 精度検証 自動化された指標 との比較 人手による 精度検証 自動化された指標 との比較 人手による 精度検証 自動化された指標 との比較 人手による 精度検証 自動化された指標 との比較 Step1. データの確認 Step2. 用途の確認 Step3. 人手での検証 Step4. 自動化の検討 … …
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 分析⽅法のデモ - Lens for LLMs
と Azure OpenAI の画⾯を⽤いてご紹介 1. 対話ログのカテゴリ抽出 2. 対話ログのカテゴリ分類‧評価 11
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 評価 - ⼈⼿で分類したアノテーション結果と、⽣成したプロンプトを⽤いた評価結 果を⽐較 -
カテゴリ抽出では⼈⼿で作成したカテゴリと類似するカテゴリを作成するこ とに成功した - カテゴリ分類では⼈⼿とほぼ変わらない精度で分類可能 - 「⼀般的な知識で回答できない質問かどうか」「健康問題に関する相談を含 んでいるか」「攻撃的なプロンプトを含んでいないか」もプロンプトにより 判定可能 12
今後の展望 #3 13
CONFIDENTIAL ©2021-2024 Citadel AI Inc. モデルの性能改善の3類型 14 モデル データ テスト
モデル データ テスト モデル データ テスト Kaggle型 モデルを改善 Data-Centric型 データを改善 API型 テストを改善 既存のノウハウが乏しい
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 問題意識 - 網羅的な評価観点を最初から取り揃 えることは無理 -
さまざまな⽤途に利⽤できるため、 ユースケースを列挙できない - 世論が変化することで新たな評価基 準があとから出現する 15 モデル データ テスト API型 テストを改善
CONFIDENTIAL ©2021-2024 Citadel AI Inc. 継続的な評価 - 評価 → 指標の設計
→ 評価を反復 - すべての評価観点を最初から網羅す るのではなく、利⽤を通じて徐々に 評価観点を育てていく - 評価を⾏うことで、既存の評価観点 では抜け落ちるケースに気が付き、 新たな評価観点に気がつく 16 モデル データ テスト API型 テストを改善
19