Upgrade to Pro — share decks privately, control downloads, hide ads and more …

対話品質の評価に向き合う

 対話品質の評価に向き合う

RAG MLOps LT大会!!! https://mlops.connpass.com/event/315387/ での登壇資料です

Asei Sugiyama

May 22, 2024
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 決闘者 @ マスターデュエル
  2. LLM 時代の対話の品質評価 タスクが多様なため正答率 以外の指標が必要に Q&A, 要約, 翻訳, コード 生成, etc...

    ユーザーからのフィードバ ックで「良さ」を測ること はできる 「良さ」とは何かが問題に なる ChatGPT https://chatgpt.com/
  3. AIプロダクト品質保証ガイドラインによる品質特性 QC01: 回答性能 QC02: 事実性‧ 誠実性 QC03: 倫理性‧ アラインメント QC04:

    頑健性 QC05: AI セキュリティ その他: 透明性・説明可能性・アクセシビリティー・ユーザビリティと社 会心理的側面・機能適応性
  4. 品質の評価方法 (3/3) 3. 測りたい品質特性を事前に明 確にできなければいけない 商品の品名を作成する場 合、当然売れるタイトルを 付けたい どのような特性があれば売 れるのかは非自明

    なぜ、最悪の業績なのに年商の20%にもあたる1億円の売上を手放してまで楽天 市場から退店するのか|鷲尾 岳 / ワシオ株式会社 3代目社長 https://note.com/t_washio/n/n46ed6f71ef46
  5. 2023年度 デジタル庁・行政 における生成AIの適切な利活 用に向けた技術検証 ヒアリングを行いながら検 証対象とするユースケース を整理 各ユースケースに対して評 価項目を定義して、評価用 データ

    10 件ずつを用意して 評価 2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715
  6. 自動化に関する取り組み LLM による評価は人手によ る評価と相関するという報 告がある 人手による評価と LLM によ る評価を比較検証すること で評価の自動化が検証可能

    評価用のツールも開発して いる (LangCheck) citadel-ai/langcheck: Simple, Pythonic building blocks to evaluate LLM applications. https://github.com/citadel-ai/langcheck
  7. チームによる評価の注意点 複数人が同じデータに対し て評価をこない、多数決を 行うことはあまり効率的で はない 複雑なタスクの場合、クラ ウドサービスでアノテーシ ョンする方法はかなり厳し い Margaret

    A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad Data From Mechanical Turk" Perspectives on Psychological Science (2022) https://journals.sagepub.com/doi/10.1177/17456916221120027
  8. 参考書籍 Human-in-the-Loop 機械学習が 良い情報源となる 翻訳のレビューに参加 アノテーションの方法について 詳細を記述した本としては出色 の出来 Robert (Munro)

    Monarch 著 上田 隼也 訳 角野 為耶 訳 伊藤 寛祥 訳 "Human-in-the- Loop機械学習" 共立出版 2023 年 https://www.kyoritsu- pub.co.jp/book/b10039888.html