仕事で取り組む生成 AI 時代の対話の品質評価

Proprietary 仕事で取り組む生成 AI 時代の対話の品質評価

02 Proprietary Google Cloud Next Tokyo ’24 杉山阿聖株式会社
Citadel AI Software Engineer

03 Proprietary 01 なぜ「評価」なのか 02 対話の品質評価 03 生成 AI の比較
04 まとめアジェンダ

04 Proprietary Google Cloud Next Tokyo ’24 なぜ「評価」なのか

05 Proprietary Google Cloud Next Tokyo ’24 身近に広がる生成 AI •
チャット専用のアプリを超えてさまざまな箇所で使われている • さまざまなサービスやデバイスとの統合は世界的な潮流として進むと思われる ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

06 Proprietary & Confidential ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。
※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。生成 AI は特定分野の専門知識に弱い • 同じプロンプトから左折の手順を生成 • 上 : Gemini 1.5 Pro • 下 : ChatGPT 4o • ともに信号機を確認しない

07 Proprietary Google Cloud Next Tokyo ’24 基盤モデルの Finetune •
生成 AI 以前の常識に従えば業界特化な知識は finetune で与える • 基盤モデルを finetune し特化モデルを作成することは技術的に可能 ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。 Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). https://arxiv.org/abs/2106.09685

08 Proprietary Google Cloud Next Tokyo ’24 Finetune で特定分野の知識を与えるのは困難
• モデルの知らない知識を意図的に与えた実験 • 知らない知識を与えれば与えるハルシネーションを引き起こしやすくなる ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

09 Proprietary & Confidential Google Cloud Next Tokyo ’24 ※画像の置換方法
グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?."arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

010 Proprietary Google Cloud Next Tokyo ’24 • 検索と生成 AI
の合せ技 • 検索で特定分野の知識を与えられるアーキテクチャ • 特定分野の知識を与えたとしても、それをモデルが利用できるかは自明でない • 故に評価が必要 RAG (Retrieval-Augmented Generation) ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。 Infrastructure for a RAG-capable generative AI application using GKE https://cloud.google.com/architecture/rag-capable-gen-ai-app-using-gke

011 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価

012 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価の 3 つの方法
• ベンチマークを用いた事前評価 : QA4AI ガイドライン • 仮想シナリオを用いた事前評価 : デジタル庁のレポート • 対話ログを用いた事後評価: 弊社での取り組み評価手法ベンチマーク仮想シナリオ対話ログ事前評価可能 ✓ ✓ カスタマイズ性 ✓ 特定業務の品質評価 ✓

013 Proprietary Google Cloud Next Tokyo ’24 ベンチマークによる評価 (1/2) •
QA4AI AI プロダクト品質保証ガイドライン (2024.04 版) • ベンチマークとなるデータセットを用いた方法を紹介 • 典型的な「正確性」だけではなく「創造性‧多様性」といった新たな品質も整理 ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

014 Proprietary Google Cloud Next Tokyo ’24 ベンチマークによる評価 (2/2) •
ベンチマークには課題も 1. 得点として計測する方法に収束させがち 2. 測りたい品質特性に合ったベンチマークがあるとは限らない 3. 測りたい品質特性の明確化が事前に必要 ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

015 Proprietary & Confidential ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。
※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。仮想シナリオによる評価の例 • 2023年度デジタル庁・行政における生成 AI の適切な利活用に向けた技術検証 • ユースケースを洗い出し、ユースケースごとに評価観点を整理して、評価用データを作成 • カバレッジは良い • 件数の確保には苦労している (10 件)

016 Google Cloud Next Tokyo ’24 過去ログに基づく評価のワークフロー ※画像の置換方法グレーボックスを選択し、
右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

017 Proprietary Google Cloud Next Tokyo ’24 過去ログに基づく評価の課題 • スプレッドシートは柔軟なものの手間が多い
• 「良い」という定義をすることが難しい • 評価を自動化しないとスケールしない

018 Proprietary Google Cloud Next Tokyo ’24 生成 AI の比較

019 Google Cloud Next Tokyo ’24 スプレッドシートでの手動評価は手間 ※画像の置換方法グレーボックスを選択し、
右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

020 Google Cloud Next Tokyo ’24 ⽣成 AI の評価ツール Lens
for LLMs

021 Google Cloud Next Tokyo ’24 複数モデルの比較

022 Google Cloud Next Tokyo ’24 モデルの傾向の比較

023 Google Cloud Next Tokyo ’24 LLM を用いた評価におけるバイアスの例

024 Proprietary Google Cloud Next Tokyo ’24 まとめ

025 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価の 3 つの方法
• ベンチマークを用いた事前評価 : QA4AI ガイドライン • 仮想シナリオを用いた事前評価 : デジタル庁のレポート • 対話ログを用いた事後評価: 弊社での取り組み評価手法ベンチマーク仮想シナリオ対話ログ事前評価可能 ✓ ✓ カスタマイズ性 ✓ 特定業務の品質評価 ✓

026 Proprietary Google Cloud Next Tokyo ’24 Lens for LLMs
Beta • 今回は時間の都合上、実際の利用方法の大半を省略 • 登録していただいた方へのプライベートベータ版としてご提供中 • ご興味ある方は一声おかけください！ ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

Thank you 027 Proprietary

仕事で取り組む生成 AI 時代の対話の品質評価

仕事で取り組む生成 AI 時代の対話の品質評価

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript

Proprietary 仕事で取り組む生成 AI 時代の対話の品質評価

02 Proprietary Google Cloud Next Tokyo ’24 杉山阿聖株式会社

03 Proprietary 01 なぜ「評価」なのか 02 対話の品質評価 03 生成 AI の比較

04 Proprietary Google Cloud Next Tokyo ’24 なぜ「評価」なのか

05 Proprietary Google Cloud Next Tokyo ’24 身近に広がる生成 AI •

06 Proprietary & Confidential ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

07 Proprietary Google Cloud Next Tokyo ’24 基盤モデルの Finetune •

08 Proprietary Google Cloud Next Tokyo ’24 Finetune で特定分野の知識を与えるのは困難

09 Proprietary & Confidential Google Cloud Next Tokyo ’24 ※画像の置換方法

010 Proprietary Google Cloud Next Tokyo ’24 • 検索と生成 AI

011 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価

012 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価の 3 つの方法

013 Proprietary Google Cloud Next Tokyo ’24 ベンチマークによる評価 (1/2) •

014 Proprietary Google Cloud Next Tokyo ’24 ベンチマークによる評価 (2/2) •

015 Proprietary & Confidential ※画像の置換方法グレーボックスを選択し、右クリックで「画像を置換」を選択し、配置したい画像に差し替えてください。本テキストは削除してください。

016 Google Cloud Next Tokyo ’24 過去ログに基づく評価のワークフロー ※画像の置換方法グレーボックスを選択し、

017 Proprietary Google Cloud Next Tokyo ’24 過去ログに基づく評価の課題 • スプレッドシートは柔軟なものの手間が多い

018 Proprietary Google Cloud Next Tokyo ’24 生成 AI の比較

019 Google Cloud Next Tokyo ’24 スプレッドシートでの手動評価は手間 ※画像の置換方法グレーボックスを選択し、

020 Google Cloud Next Tokyo ’24 ⽣成 AI の評価ツール Lens

021 Google Cloud Next Tokyo ’24 複数モデルの比較

022 Google Cloud Next Tokyo ’24 モデルの傾向の比較

023 Google Cloud Next Tokyo ’24 LLM を用いた評価におけるバイアスの例

024 Proprietary Google Cloud Next Tokyo ’24 まとめ

025 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価の 3 つの方法

026 Proprietary Google Cloud Next Tokyo ’24 Lens for LLMs

Thank you 027 Proprietary

仕事で取り組む 生成 AI 時代の対話の品質評価

仕事で取り組む 生成 AI 時代の対話の品質評価

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript

仕事で取り組む生成 AI 時代の対話の品質評価

仕事で取り組む生成 AI 時代の対話の品質評価