Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成 AI の評価方法

生成 AI の評価方法

Jagu'e'r AI/ML 分科会 2024年6月のイベントでの発表資料です
https://jaguer.jp/aiml/

Asei Sugiyama

June 23, 2024
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 決闘者 @ マスターデュエル
  2. なぜ今「評価」なのか 身近に広がる生成 AI 生成 AI の弱点 Finetune は可能 : LoRA

    Finetune で独自ドメインの知識を与えようとすると逆効果 RAG 評価の必要性
  3. 身近に広がる生成 AI Apple Intelligence Web アプリだけじゃない チャットだけじゃない Intent を通じて OS

    やアプ リと緊密に連携する Apple Intelligence Preview - Apple https://www.apple.com/apple- intelligence/
  4. 基盤モデルの Finetune: LoRA 生成 AI 以前の常識に従えば、業界特 化な知識は finetune で与える 基盤モデルを

    finetune し特化モデル を作成することは技術的に可能 LoRA はストレージコストを低減 Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). https://arxiv.org/abs/2106.09685
  5. Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge

    Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
  6. RAG (Retrieval-Augmented Generation) 検索と LLM の合せ技 現実解になっている 検索を効率良く行うことが 実用上重要 Gekhman,

    Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
  7. LLM 時代の対話の品質評価 タスクが多様なため正答率 以外の指標が必要に Q&A, 要約 , 翻訳 , コード

    生成 , etc... ユーザーからのフィードバ ックで「良さ」を測ること はできる 「良さ」とは何かが問題に なる ChatGPT https://chatgpt.com/
  8. 評価の 3つの方法 ベンチマークを用いた事前評価 : QA4AI ガイドライン 仮想シナリオを用いた事前評価 : デジタル庁レポート 対話ログを用いた事後評価

    : 筆者の取り組み 手法 事前評価可能 カスタマイズ性 品質特性の網羅性 ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓
  9. AIプロダクト品質保証ガイドラインによる品質特性 QC01: 回答性能 QC02: 事実性‧誠実性 QC03: 倫理性‧アラインメント QC04: 頑健性 QC05:

    AI セキュリティ その他 : 透明性・説明可能性・アクセシビリティー・ユーザビリティと社 会心理的側面・機能適応性
  10. 品質の評価方法 (2/3) 1. 得点として計測させる方法に収束させがち 例 : 倫理観は得点化できるのか? 2. 測りたい品質特性に合ったベンチマークがあるとは限らない 社内の問い合わせで「社内で用いられる特定の様式にしたがっている」

    という品質特性が求められた場合、そのようなデータセットが必要とな る (当然そんなものはない ) LLM を適用したい個別のユースケースで重要となる品質特性は未知のも のであるかもしれない
  11. 品質の評価方法 (3/3) 3. 測りたい品質特性を事前に明 確にできなければいけない 商品の品名を作成する場 合、当然売れるタイトルを 付けたい どのような特性があれば売 れるのかは非自明

    なぜ、最悪の業績なのに年商の 20%にもあたる 1億円の売上を手放してまで楽天 市場から退店するのか|鷲尾 岳 / ワシオ株式会社  3代目社長 https://note.com/t_washio/n/n46ed6f71ef46
  12. 2023年度 デジタル庁・行政 における生成 AIの適切な利活 用に向けた技術検証 ヒアリングを行いながら検 証対象とするユースケース を整理 各ユースケースに対して評 価項目を定義して、評価用

    データ 10 件ずつを用意して 評価 2023年度 デジタル庁・行政における生成 AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715
  13. 10の学び 生成 AI を業務適用するため の学びを 10 項目に整理 特定組織に特化せず、自組 織に応用できる内容となっ ている

    デジタル庁 2023年度事業 行政での生成 AI利活用検証から見えた 10の学び (3/3) |デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc
  14. 調査結果の限界 行政特有の特殊な検索用途 (用例の検索 ) への応用を紹 介 用語の利用に一貫性をもた せるために前例を検索 「類似用語の提案機能」の 案が出たものの、評価不能

    という結論に デジタル庁 2023年度事業 行政での生成 AI利活用検証から見えた 10の学び (3/3) |デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc
  15. 自動化に関する取り組み LLM による評価は人手によ る評価と相関するという報 告がある 人手による評価と LLM によ る評価を比較検証すること で評価の自動化が検証可能

    評価用のツールも開発して いる (LangCheck & Lens for LLM) citadel-ai/langcheck: Simple, Pythonic building blocks to evaluate LLM applications. https://github.com/citadel-ai/langcheck
  16. 困難な評価に立ち向かう方法 論 Human-in-the-Loop 機械学習が 良い情報源となる アノテーションの方法について 詳細を記述した本としては出色 の出来 翻訳のレビューに参加 (disclaimer)

    Robert (Munro) Monarch 著 上田 隼也 訳 角野 為耶 訳 伊藤 寛祥 訳 "Human-in-the- Loop機械学習 " 共立出版 2023 年 https://www.kyoritsu- pub.co.jp/book/b10039888.html
  17. チームによる評価の注意点 複数人が同じデータに対し て評価をこない、多数決を 行うことはあまり効率的で はない 複雑なタスクの場合、クラ ウドサービスでアノテーシ ョンする方法はかなり厳し い Margaret

    A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad Data From Mechanical Turk" Perspectives on Psychological Science (2022) https://journals.sagepub.com/doi/10.1177/17456916221120027