生成 AI の評価方法

生成 AIの評価方法 Asei Sugiyama

主旨生成 AI による対話の品質評価の方法を共有します

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著決闘者 @ マスターデュエル

TOC なぜ今「評価」なのか <- QA4AI ガイドラインにおける事前評価デジタル庁の生成 AIの業務利用についてのレポート過去ログを用いた業務評価困難な評価に立ち向かう方法論まとめ

なぜ今「評価」なのか身近に広がる生成 AI 生成 AI の弱点 Finetune は可能 : LoRA
Finetune で独自ドメインの知識を与えようとすると逆効果 RAG 評価の必要性

身近に広がる生成 AI Apple Intelligence Web アプリだけじゃないチャットだけじゃない Intent を通じて OS
やアプリと緊密に連携する Apple Intelligence Preview - Apple https://www.apple.com/apple- intelligence/

生成 AI の弱点常識には強い特定分野の専門知識が求められると弱い

基盤モデルの Finetune: LoRA 生成 AI 以前の常識に従えば、業界特化な知識は finetune で与える基盤モデルを
finetune し特化モデルを作成することは技術的に可能 LoRA はストレージコストを低減 Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). https://arxiv.org/abs/2106.09685

Finetune で独自ドメインの知識を与えるのは困難元のモデルが知識として持たないデータセットを構築し、ファインチューニングで意図的にそのような知識を獲得させようと訓練知らない知識を与えれば与えるほどハルシネーションを引き起こしやすくなるという結果
Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge
Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

RAG (Retrieval-Augmented Generation) 検索と LLM の合せ技現実解になっている検索を効率良く行うことが実用上重要 Gekhman,
Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

評価の必要性 RAG によりドメイン知識を利用できるようになったとしても、それはもともとモデル外部の知識なので利用できるかどうかは自明ではない基盤モデルやサービスとして提供される LLM の評価は、一般的なベンチマークでなされることが多く、業務に耐えうるかどうかの観点での評価ではない業務にとって必要な品質特性そのものが多くの場合明らかではない

LLM 時代の対話の品質評価タスクが多様なため正答率以外の指標が必要に Q&A, 要約 , 翻訳 , コード
生成 , etc... ユーザーからのフィードバックで「良さ」を測ることはできる「良さ」とは何かが問題になる ChatGPT https://chatgpt.com/

評価の 3つの方法ベンチマークを用いた事前評価 : QA4AI ガイドライン仮想シナリオを用いた事前評価 : デジタル庁レポート対話ログを用いた事後評価
: 筆者の取り組み手法事前評価可能カスタマイズ性品質特性の網羅性ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価 <- デジタル庁の生成 AIの業務利用についてのレポート過去ログを用いた業務評価困難な評価に立ち向かう方法論まとめ

QA4AI AIプロダクト品質保証ガイドライン AI 技術への過度の期待を予防し、適切な活用や適時のリリースを行うための、 AIプロダクトの品質保証に対する共通的な指針を与えるものである。
2024.04 版で大規模言語モデル・対話型 AIの包括的な品質特性の定義に取り組んでいる QA4AI https://www.qa4ai.jp/

AIプロダクト品質保証ガイドラインによる品質特性 QC01: 回答性能 QC02: 事実性‧誠実性 QC03: 倫理性‧アラインメント QC04: 頑健性 QC05:
AI セキュリティその他 : 透明性・説明可能性・アクセシビリティー・ユーザビリティと社会心理的側面・機能適応性

品質の評価方法 (1/3) QA4AI では現状の方法としてベンチマークとなるデータセットを用いた方法を紹介している品質特性ごとに使えるデータセットや計測方法を紹介ベンチマークとなるデータセットを用いた評価には次の課題がある 1. 得点として計測させる方法に収束させがち 2.
測りたい品質特性に合ったベンチマークがあるとは限らない 3. 測りたい品質特性を事前に明確にできなければいけない

品質の評価方法 (2/3) 1. 得点として計測させる方法に収束させがち例 : 倫理観は得点化できるのか？ 2. 測りたい品質特性に合ったベンチマークがあるとは限らない社内の問い合わせで「社内で用いられる特定の様式にしたがっている」
という品質特性が求められた場合、そのようなデータセットが必要となる (当然そんなものはない ) LLM を適用したい個別のユースケースで重要となる品質特性は未知のものであるかもしれない

品質の評価方法 (3/3) 3. 測りたい品質特性を事前に明確にできなければいけない商品の品名を作成する場合、当然売れるタイトルを付けたいどのような特性があれば売れるのかは非自明
なぜ、最悪の業績なのに年商の 20％にもあたる 1億円の売上を手放してまで楽天市場から退店するのか｜鷲尾　岳 / ワシオ株式会社　 3代目社長 https://note.com/t_washio/n/n46ed6f71ef46

所感 (1/2) 回答性能に含まれている「創造性‧多様性」は、既存の Chatbot では求められなかった性質 (典型的には正確性だけが求められた ) 誠実性のような、新たな品質特性が出現しているハルシネーションや不整合を含む返答を行わないこと、不確かさが高い
回答に対してそのような明記を行う誠実性（ Truthfulness）も求めることとなる

所感 (2/2) これ以外の品質特性もさまざまに考えられる著者の石川先生が発表中で「新たな品質特性が今この場で見つかるかもしれない」と述べられているほど

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価デジタル庁の生成 AIの業務利用についてのレポート <- 過去ログを用いた業務評価困難な評価に立ち向かう方法論まとめ

2023年度デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証ヒアリングを行いながら検証対象とするユースケースを整理各ユースケースに対して評価項目を定義して、評価用
データ 10 件ずつを用意して評価 2023年度デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証を実施しました｜デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

アンケートによる評価利用者へのアンケートによる評価を合わせて実施ユーザー間での利用頻度に差があり、高頻度に使う人のほうが効果を体感していることが判明 2023年度デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証を
実施しました｜デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

10の学び生成 AI を業務適用するための学びを 10 項目に整理特定組織に特化せず、自組織に応用できる内容となっている
デジタル庁 2023年度事業　行政での生成 AI利活用検証から見えた 10の学び (3/3) ｜デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc

調査結果の限界行政特有の特殊な検索用途 (用例の検索 ) への応用を紹介用語の利用に一貫性をもたせるために前例を検索「類似用語の提案機能」の案が出たものの、評価不能
という結論にデジタル庁 2023年度事業　行政での生成 AI利活用検証から見えた 10の学び (3/3) ｜デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc

所感検証は非常に丁寧テストのカバレッジに非常に気を配っているテストケースの件数の確保には苦労している検証後に新たな品質観点に気がついた例も 2023年度デジタル庁・行政における生成
AIの適切な利活用に向けた技術検証を実施しました｜デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価デジタル庁の生成 AIの業務利用についてのレポート過去ログを用いた業務評価 <- 困難な評価に立ち向かう方法論まとめ

過去ログを用いた業務評価ベンチマークとなるデータセットによるトップダウンな事前評価には独特な難しさがあるベンチマークによる事前評価だけではなく、ヒアリングや実際に利用したログを用いたボトムアップな事後評価も重要ボトムアップな対話の品質評価方法を共有

過去ログを用いた評価のワークフロー

自動化に関する取り組み LLM による評価は人手による評価と相関するという報告がある人手による評価と LLM による評価を比較検証することで評価の自動化が検証可能
評価用のツールも開発している (LangCheck & Lens for LLM) citadel-ai/langcheck: Simple, Pythonic building blocks to evaluate LLM applications. https://github.com/citadel-ai/langcheck

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価デジタル庁の生成 AIの業務利用についてのレポート過去ログを用いた業務評価困難な評価に立ち向かう方法論 <- まとめ

困難な評価に立ち向かう方法論 Human-in-the-Loop 機械学習が良い情報源となるアノテーションの方法について詳細を記述した本としては出色の出来翻訳のレビューに参加 (disclaimer)
Robert (Munro) Monarch 著上田隼也訳角野為耶訳伊藤寛祥訳 "Human-in-the- Loop機械学習 " 共立出版 2023 年 https://www.kyoritsu- pub.co.jp/book/b10039888.html

アノテーションのための工夫 1つの文章を見て絶対的な評価を下すのは時に困難 2つの文章を見てどちらのほうが良いのか検討することが容易な場合もある Human-in-the-Loop Machine Learning
https://www.manning.com/books/human-in-the-loop-machine-learning

チームによる評価誰か一人で評価できるのであれば (経験上 ) それがベスト分量の問題から、チームで評価を行うことも多い

チームによる評価の注意点複数人が同じデータに対して評価をこない、多数決を行うことはあまり効率的ではない複雑なタスクの場合、クラウドサービスでアノテーションする方法はかなり厳しい Margaret
A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad Data From Mechanical Turk" Perspectives on Psychological Science (2022) https://journals.sagepub.com/doi/10.1177/17456916221120027

過去に行った評価方法評価観点やサンプルをドキュメントとして作成し、チームで共有それぞれの人に異なるサブセットを割り振り、手分けして評価判断に迷った事例を持ち寄り、チームで評価結果を決定判断に迷った事例をドキュメントに追加

注意点最初からドキュメントですべてをカバーしようとしすぎない「正しい評価」の定義が可能なら LLM は必要ないユースケースの分類では、最初から過度に詳細な分類を作らない分類自体も評価しながら変更するのが良い

異常系の評価ボトムアップな評価で述べた方法では「良い文章」のは手に入る異常系に該当する「答えてほしくない文章」は手に入りにくいとくに社内利用の場合、ほとんどの人がマジメに使うので

AnswerCarefully 不適切な質問に対する、望ましい回答を作成したデータセット LLM の評価において使われた実績がある Citadel AI として作成に協力 AnswerCarefully
Dataset – RIKEN-AIP, LIAT https://liat- aip.sakura.ne.jp/wp/answercarefully-dataset/

まとめ LLM の対話品質の評価には、ベンチマークによる評価、仮想シナリオに基づく評価、過去ログに基づく評価の 3通りがあるベンチマークによる評価では、次々に新たな品質特性が提案されており、ベンチマークとなるデータセットの開発も進行している仮想シナリオに基づく評価は業務要件に合わせた評価ができるものの、テストデータの準備は容易ではない実用上はボトムアップな評価をログから行うことも有用
評価時にはチームで評価を行うことになる点に注意し、必要な場合は不適切な文章でも評価すると良い

生成 AI の評価方法

生成 AI の評価方法

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript