対話品質の評価に向き合う

対話品質の評価に向き合う Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著決闘者 @ マスターデュエル

まとめ LLM の対話品質の評価では、典型的な品質特性以外に次々に新たな品質特性が提案されており、ベンチマークとなるデータセットの開発も進行している実用上はボトムアップな評価をヒアリングやログから行うことも有用で、デジタル庁による評価レポートは推進するうえでかなり参考となる評価時にはチームで評価を行うことになる点に注意し、必要な場合は不適切な文章でも評価すると良い

TOC 対話の品質特性 <- 対話の品質評価のワークフロー実務上の Tips

対話の品質特性 LLM 以前の対話の品質評価 LLM 時代の対話の品質評価品質の評価方法

LLM 以前の対話の品質評価 AIによる対話の品質評価は新しいことではないこれまでは主にチャットボットで行われ、正答率が重要視されたユーザーからのフィードバックで典型的には計測
チャットボット（ふたば）に質問する｜国税庁 https://cloud.google.com/vertex-ai/docs/pipelines/notebooks

LLM 時代の対話の品質評価タスクが多様なため正答率以外の指標が必要に Q&A, 要約, 翻訳, コード生成, etc...
ユーザーからのフィードバックで「良さ」を測ることはできる「良さ」とは何かが問題になる ChatGPT https://chatgpt.com/

QA4AI AIプロダクト品質保証ガイドライン AI 技術への過度の期待を予防し、適切な活用や適時のリリースを行うための、AIプロダクトの品質保証に対する共通的な指針を与えるものである。 2024.04
版で大規模言語モデル・対話型AIの包括的な品質特性の定義に取り組んでいる QA4AI https://www.qa4ai.jp/

AIプロダクト品質保証ガイドラインによる品質特性 QC01: 回答性能 QC02: 事実性‧ 誠実性 QC03: 倫理性‧ アラインメント QC04:
頑健性 QC05: AI セキュリティその他: 透明性・説明可能性・アクセシビリティー・ユーザビリティと社会心理的側面・機能適応性

所感 (1/2) 回答性能に含まれている「創造性‧ 多様性」は、既存の Chatbot では求められなかった性質 (典型的には正確性だけが求められた) 誠実性のような、新たな品質特性が出現しているハルシネーションや不整合を含む返答を行わないこと、不確かさが高い
回答に対してそのような明記を行う誠実性（Truthfulness）も求めることとなる

所感 (2/2) これ以外の品質特性もさまざまに考えられる著者の石川先生が発表中で「新たな品質特性が今この場で見つかるかもしれない」と述べられているほど

品質の評価方法 (1/3) QA4AI では現状の方法としてベンチマークとなるデータセットを用いた方法を紹介している品質特性ごとに使えるデータセットや計測方法を紹介ベンチマークとなるデータセットを用いた評価には次の課題がある 1. 得点として計測させる方法に収束させがち 2.
測りたい品質特性に合ったベンチマークがあるとは限らない 3. 測りたい品質特性を事前に明確にできなければいけない

品質の評価方法 (2/3) 1. 得点として計測させる方法に収束させがち例: 倫理観は得点化できるのか？ 2. 測りたい品質特性に合ったベンチマークがあるとは限らない社内の問い合わせで「社内で用いられる特定の様式にしたがっている」という品質特性が求められた場合、そのようなデータセットが必要とな
る (当然そんなものはない) LLM を適用したい個別のユースケースで重要となる品質特性は未知のものであるかもしれない

品質の評価方法 (3/3) 3. 測りたい品質特性を事前に明確にできなければいけない商品の品名を作成する場合、当然売れるタイトルを付けたいどのような特性があれば売れるのかは非自明
なぜ、最悪の業績なのに年商の20％にもあたる1億円の売上を手放してまで楽天市場から退店するのか｜鷲尾　岳 / ワシオ株式会社　3代目社長 https://note.com/t_washio/n/n46ed6f71ef46

TOC 対話の品質特性対話の品質評価のワークフロー <- 実務上の Tips

対話の品質評価のワークフローボトムアップな対話の品質評価 2023年度デジタル庁・行政における生成AIの適切な利活用に向けた技術検証レポート過去の取り組み自動化に関する取り組み

ボトムアップな対話の品質評価ベンチマークとなるデータセットによるトップダウンな事前評価には独特な難しさがあるベンチマークによる事前評価だけではなく、ヒアリングや実際に利用したログを用いたボトムアップな事後評価も重要ベンチマーク以外の方法を共有

2023年度デジタル庁・行政における生成AIの適切な利活用に向けた技術検証ヒアリングを行いながら検証対象とするユースケースを整理各ユースケースに対して評価項目を定義して、評価用データ
10 件ずつを用意して評価 2023年度デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました｜デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

アンケートによる評価利用者へのアンケートによる評価を合わせて実施ユーザー間での利用頻度に差があり、高頻度に使う人のほうが効果を体感していることが判明 2023年度デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を実施しました｜デジタル庁
https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

デジタル庁2023年度事業　行政での生成AI利活用検証から見えた10の学び (3/3)｜デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc

筆者の過去の取り組み対話ログを眺める対話ログからユースケースを整理ユースケースごとに評価観点を整理人手で評価 (ユースケースごとに100件程度) 評価結果をレポートとして提供

自動化に関する取り組み LLM による評価は人手による評価と相関するという報告がある人手による評価と LLM による評価を比較検証することで評価の自動化が検証可能
評価用のツールも開発している (LangCheck) citadel-ai/langcheck: Simple, Pythonic building blocks to evaluate LLM applications. https://github.com/citadel-ai/langcheck

TOC 対話の品質特性対話の品質評価のワークフロー実務上の Tips <-

実務上の Tips チームによる評価異常系の評価

チームによる評価誰か一人で評価できるのであれば (経験上) それがベスト分量の問題から、チームで評価を行うことも多い

チームによる評価の注意点複数人が同じデータに対して評価をこない、多数決を行うことはあまり効率的ではない複雑なタスクの場合、クラウドサービスでアノテーションする方法はかなり厳しい Margaret
A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad Data From Mechanical Turk" Perspectives on Psychological Science (2022) https://journals.sagepub.com/doi/10.1177/17456916221120027

過去に行った評価方法評価観点やサンプルをドキュメントとして作成し、チームで共有それぞれの人に異なるサブセットを割り振り、手分けして評価判断に迷った事例を持ち寄り、チームで評価結果を決定判断に迷った事例をドキュメントに追加

注意点最初からドキュメントですべてをカバーしようとしすぎない「正しい評価」の定義が可能なら LLM は必要ないユースケースの分類では、最初から過度に詳細な分類を作らない分類自体も評価しながら変更するのが良い

参考書籍 Human-in-the-Loop 機械学習が良い情報源となる翻訳のレビューに参加アノテーションの方法について詳細を記述した本としては出色の出来 Robert (Munro)
Monarch 著上田隼也訳角野為耶訳伊藤寛祥訳 "Human-in-the- Loop機械学習" 共立出版 2023 年 https://www.kyoritsu- pub.co.jp/book/b10039888.html

異常系の評価ボトムアップな評価で述べた方法では「良い文章」のは手に入る異常系に該当する「答えてほしくない文章」は手に入りにくいとくに社内利用の場合、ほとんどの人がマジメに使うので

AnswerCarefully 不適切な質問に対する、望ましい回答を作成したデータセット LLM の評価において使われた実績がある Citadel AI として作成に協力 AnswerCarefully
Dataset – RIKEN-AIP, LIAT https://liat- aip.sakura.ne.jp/wp/answercarefully-dataset/

まとめ LLM の対話品質の評価では、典型的な品質特性以外に次々に新たな品質特性が提案されており、ベンチマークとなるデータセットの開発も進行している実用上はボトムアップな評価をヒアリングやログから行うことも有用で、デジタル庁による評価レポートは推進するうえでかなり参考となる評価時にはチームで評価を行うことになる点に注意し、必要な場合は不適切な文章でも評価すると良い

対話品質の評価に向き合う

対話品質の評価に向き合う

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript