Slide 1

Slide 1 text

生成 AIの評価方法 Asei Sugiyama

Slide 2

Slide 2 text

主旨 生成 AI による対話の品質評価の方法を共有します

Slide 3

Slide 3 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 決闘者 @ マスターデュエル

Slide 4

Slide 4 text

TOC なぜ今「評価」なのか <- QA4AI ガイドラインにおける事前評価 デジタル庁の生成 AIの業務利用についてのレポート 過去ログを用いた業務評価 困難な評価に立ち向かう方法論 まとめ

Slide 5

Slide 5 text

なぜ今「評価」なのか 身近に広がる生成 AI 生成 AI の弱点 Finetune は可能 : LoRA Finetune で独自ドメインの知識を与えようとすると逆効果 RAG 評価の必要性

Slide 6

Slide 6 text

身近に広がる生成 AI Apple Intelligence Web アプリだけじゃない チャットだけじゃない Intent を通じて OS やアプ リと緊密に連携する Apple Intelligence Preview - Apple https://www.apple.com/apple- intelligence/

Slide 7

Slide 7 text

生成 AI の弱点 常識には強い 特定分野の専門知識が求め られると弱い

Slide 8

Slide 8 text

基盤モデルの Finetune: LoRA 生成 AI 以前の常識に従えば、業界特 化な知識は finetune で与える 基盤モデルを finetune し特化モデル を作成することは技術的に可能 LoRA はストレージコストを低減 Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). https://arxiv.org/abs/2106.09685

Slide 9

Slide 9 text

Finetune で独自ドメインの知識を与 えるのは困難 元のモデルが知識として持たないデ ータセットを構築し、ファインチュ ーニングで意図的にそのような知識 を獲得させようと訓練 知らない知識を与えれば与えるほど ハルシネーションを引き起こしやす くなるという結果 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 10

Slide 10 text

Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 11

Slide 11 text

RAG (Retrieval-Augmented Generation) 検索と LLM の合せ技 現実解になっている 検索を効率良く行うことが 実用上重要 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 12

Slide 12 text

評価の必要性 RAG によりドメイン知識を利用できるようになったとしても、それはも ともとモデル外部の知識なので利用できるかどうかは自明ではない 基盤モデルやサービスとして提供される LLM の評価は、一般的なベンチ マークでなされることが多く、業務に耐えうるかどうかの観点での評価 ではない 業務にとって必要な品質特性そのものが多くの場合明らかではない

Slide 13

Slide 13 text

LLM 時代の対話の品質評価 タスクが多様なため正答率 以外の指標が必要に Q&A, 要約 , 翻訳 , コード 生成 , etc... ユーザーからのフィードバ ックで「良さ」を測ること はできる 「良さ」とは何かが問題に なる ChatGPT https://chatgpt.com/

Slide 14

Slide 14 text

評価の 3つの方法 ベンチマークを用いた事前評価 : QA4AI ガイドライン 仮想シナリオを用いた事前評価 : デジタル庁レポート 対話ログを用いた事後評価 : 筆者の取り組み 手法 事前評価可能 カスタマイズ性 品質特性の網羅性 ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓

Slide 15

Slide 15 text

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価 <- デジタル庁の生成 AIの業務利用についてのレポート 過去ログを用いた業務評価 困難な評価に立ち向かう方法論 まとめ

Slide 16

Slide 16 text

QA4AI AIプロダクト品質保証ガイド ライン AI 技術への過度の期待を予防し、適 切な活用や適時のリリースを行うた めの、 AIプロダクトの品質保証に対 する共通的な指針を与えるものであ る。 2024.04 版 で大規模言語モデル・対 話型 AIの包括的な品質特性の定義に 取り組んでいる QA4AI https://www.qa4ai.jp/

Slide 17

Slide 17 text

AIプロダクト品質保証ガイドラインによる品質特性 QC01: 回答性能 QC02: 事実性‧誠実性 QC03: 倫理性‧アラインメント QC04: 頑健性 QC05: AI セキュリティ その他 : 透明性・説明可能性・アクセシビリティー・ユーザビリティと社 会心理的側面・機能適応性

Slide 18

Slide 18 text

品質の評価方法 (1/3) QA4AI では現状の方法としてベンチマークとなるデータセットを用いた 方法を紹介している 品質特性ごとに使えるデータセットや計測方法を紹介 ベンチマークとなるデータセットを用いた評価には次の課題がある 1. 得点として計測させる方法に収束させがち 2. 測りたい品質特性に合ったベンチマークがあるとは限らない 3. 測りたい品質特性を事前に明確にできなければいけない

Slide 19

Slide 19 text

品質の評価方法 (2/3) 1. 得点として計測させる方法に収束させがち 例 : 倫理観は得点化できるのか? 2. 測りたい品質特性に合ったベンチマークがあるとは限らない 社内の問い合わせで「社内で用いられる特定の様式にしたがっている」 という品質特性が求められた場合、そのようなデータセットが必要とな る (当然そんなものはない ) LLM を適用したい個別のユースケースで重要となる品質特性は未知のも のであるかもしれない

Slide 20

Slide 20 text

品質の評価方法 (3/3) 3. 測りたい品質特性を事前に明 確にできなければいけない 商品の品名を作成する場 合、当然売れるタイトルを 付けたい どのような特性があれば売 れるのかは非自明 なぜ、最悪の業績なのに年商の 20%にもあたる 1億円の売上を手放してまで楽天 市場から退店するのか|鷲尾 岳 / ワシオ株式会社  3代目社長 https://note.com/t_washio/n/n46ed6f71ef46

Slide 21

Slide 21 text

所感 (1/2) 回答性能に含まれている「創造性‧多様性」は、既存の Chatbot では求 められなかった性質 (典型的には正確性だけが求められた ) 誠実性のような、新たな品質特性が出現している ハルシネーションや不整合を含む返答を行わないこと、不確かさが高い 回答に対してそのような明記を行う誠実性( Truthfulness)も求めるこ ととなる

Slide 22

Slide 22 text

所感 (2/2) これ以外の品質特性もさまざまに考えられる 著者の石川先生が発表中で「新たな品質特性が今この場で見つかるかも しれない」と述べられているほど

Slide 23

Slide 23 text

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価 デジタル庁の生成 AIの業務利用についてのレポート <- 過去ログを用いた業務評価 困難な評価に立ち向かう方法論 まとめ

Slide 24

Slide 24 text

2023年度 デジタル庁・行政 における生成 AIの適切な利活 用に向けた技術検証 ヒアリングを行いながら検 証対象とするユースケース を整理 各ユースケースに対して評 価項目を定義して、評価用 データ 10 件ずつを用意して 評価 2023年度 デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

Slide 25

Slide 25 text

アンケートによる評価 利用者へのアンケートによ る評価を合わせて実施 ユーザー間での利用頻度に 差があり、高頻度に使う人 のほうが効果を体感してい ることが判明 2023年度 デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

Slide 26

Slide 26 text

10の学び 生成 AI を業務適用するため の学びを 10 項目に整理 特定組織に特化せず、自組 織に応用できる内容となっ ている デジタル庁 2023年度事業 行政での生成 AI利活用検証から見えた 10の学び (3/3) |デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc

Slide 27

Slide 27 text

調査結果の限界 行政特有の特殊な検索用途 (用例の検索 ) への応用を紹 介 用語の利用に一貫性をもた せるために前例を検索 「類似用語の提案機能」の 案が出たものの、評価不能 という結論に デジタル庁 2023年度事業 行政での生成 AI利活用検証から見えた 10の学び (3/3) |デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc

Slide 28

Slide 28 text

所感 検証は非常に丁寧 テストのカバレッジに非常 に気を配っている テストケースの件数の確保 には苦労している 検証後に新たな品質観点に 気がついた例も 2023年度 デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715

Slide 29

Slide 29 text

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価 デジタル庁の生成 AIの業務利用についてのレポート 過去ログを用いた業務評価 <- 困難な評価に立ち向かう方法論 まとめ

Slide 30

Slide 30 text

過去ログを用いた業務評価 ベンチマークとなるデータセットによるトップダウンな事前評価には独 特な難しさがある ベンチマークによる事前評価だけではなく、ヒアリングや実際に利用し たログを用いたボトムアップな事後評価も重要 ボトムアップな対話の品質評価方法を共有

Slide 31

Slide 31 text

過去ログを用いた評価のワークフロー

Slide 32

Slide 32 text

自動化に関する取り組み LLM による評価は人手によ る評価と相関するという報 告がある 人手による評価と LLM によ る評価を比較検証すること で評価の自動化が検証可能 評価用のツールも開発して いる (LangCheck & Lens for LLM) citadel-ai/langcheck: Simple, Pythonic building blocks to evaluate LLM applications. https://github.com/citadel-ai/langcheck

Slide 33

Slide 33 text

No content

Slide 34

Slide 34 text

TOC なぜ今「評価」なのか QA4AI ガイドラインにおける事前評価 デジタル庁の生成 AIの業務利用についてのレポート 過去ログを用いた業務評価 困難な評価に立ち向かう方法論 <- まとめ

Slide 35

Slide 35 text

困難な評価に立ち向かう方法 論 Human-in-the-Loop 機械学習が 良い情報源となる アノテーションの方法について 詳細を記述した本としては出色 の出来 翻訳のレビューに参加 (disclaimer) Robert (Munro) Monarch 著 上田 隼也 訳 角野 為耶 訳 伊藤 寛祥 訳 "Human-in-the- Loop機械学習 " 共立出版 2023 年 https://www.kyoritsu- pub.co.jp/book/b10039888.html

Slide 36

Slide 36 text

アノテーションのための 工夫 1つの文章を見て絶対的な評 価を下すのは時に困難 2つの文章を見てどちらのほ うが良いのか検討すること が容易な場合もある Human-in-the-Loop Machine Learning https://www.manning.com/books/human-in-the-loop-machine-learning

Slide 37

Slide 37 text

チームによる評価 誰か一人で評価できるのであれば (経験上 ) それがベスト 分量の問題から、チームで評価を行うことも多い

Slide 38

Slide 38 text

チームによる評価の注意点 複数人が同じデータに対し て評価をこない、多数決を 行うことはあまり効率的で はない 複雑なタスクの場合、クラ ウドサービスでアノテーシ ョンする方法はかなり厳し い Margaret A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad Data From Mechanical Turk" Perspectives on Psychological Science (2022) https://journals.sagepub.com/doi/10.1177/17456916221120027

Slide 39

Slide 39 text

過去に行った評価方法 評価観点やサンプルをドキュメントとして作成し、チームで共有 それぞれの人に異なるサブセットを割り振り、手分けして評価 判断に迷った事例を持ち寄り、チームで評価結果を決定 判断に迷った事例をドキュメントに追加

Slide 40

Slide 40 text

注意点 最初からドキュメントですべてをカバーしようとしすぎない 「正しい評価」の定義が可能なら LLM は必要ない ユースケースの分類では、最初から過度に詳細な分類を作らない 分類自体も評価しながら変更するのが良い

Slide 41

Slide 41 text

異常系の評価 ボトムアップな評価で述べた方法では「良い文章」のは手に入る 異常系に該当する「答えてほしくない文章」は手に入りにくい とくに社内利用の場合、ほとんどの人がマジメに使うので

Slide 42

Slide 42 text

AnswerCarefully 不適切な質問に対する、望まし い回答を作成したデータセット LLM の評価において使われた実 績がある Citadel AI として作成に協力 AnswerCarefully Dataset – RIKEN-AIP, LIAT https://liat- aip.sakura.ne.jp/wp/answercarefully-dataset/

Slide 43

Slide 43 text

まとめ LLM の対話品質の評価には、ベンチマークによる評価、仮想シナリオに 基づく評価、過去ログに基づく評価の 3通りがある ベンチマークによる評価では、次々に新たな品質特性が提案されてお り、ベンチマークとなるデータセットの開発も進行している 仮想シナリオに基づく評価は業務要件に合わせた評価ができるものの、 テストデータの準備は容易ではない 実用上はボトムアップな評価をログから行うことも有用 評価時にはチームで評価を行うことになる点に注意し、必要な場合は不 適切な文章でも評価すると良い