Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMにサジェストさせたチャットの評価方法について

 LLMにサジェストさせたチャットの評価方法について

https://studyco.connpass.com/event/311547/ の勉強会で発表した内容です

More Decks by PharmaX(旧YOJO Technologies)開発チーム

Transcript

  1. (C)PharmaX Inc. 2023 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者

    好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust Twitter:@ueeeeniki
  2. (C)PharmaX Inc. 2023 All Rights Reserve 4 本発表のスコープや注意事項について LLMアプリケーションの実験管理と評価について取り組んで来たことや今後の展望をお話します •

    個人的に参考になった記事やPharmaXで取り組んできたこと、今後のどのようなことをやってい きたいのかについて中心にお話します ◦ 個人的な感想や考えを多分に含みます • LLMアプリケーションの実験管理や評価はまだベストプラクティスが出揃っておらず、今回お話 する内容が各社にどの程度取り入れ可能かは不明です ◦ 皆さまでご判断いただければと幸いです • できる限りPharmaXでのリアルな事例や実験結果をお伝えしますが、より詳しく聞きたい方やお 困りごとについて議論したい方は是非 DM等いただければ幸いです
  3. (C)PharmaX Inc. 2023 All Rights Reserve 6 医療アドバイザーに体調 のことをいつでも気軽に相 談できる

    相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「YOJO」
  4. (C)PharmaX Inc. 2023 All Rights Reserve 8 プロンプト一部抜粋 薬剤師にチャットの返答をサジェッションするために LLMを活用している

    Systemプロンプト 以下の条件に従って返信してください。 前提: ・あなたの役割は、PharmaX株式会社のYOJOというサービスのかかりつけ薬剤師です。健康や漢方の専門家として、常にユーザーの 感情に寄り添いアドバイスをします。 ...(略) Userプロンプト 対応の基本方針: ・おすすめの漢方薬をよりきちんと提案できるように適宜質問を行ってください。 ・「検討します」とすぐに購入意欲がないような返答をされた方には、それ以上強く営業しすぎないようにしてください。 …(略)… 上記に気をつけながら私があなたが提案する漢方の選択について納得が行くように、共感しながら深掘り質問を行ってください。
  5. (C)PharmaX Inc. 2023 All Rights Reserve 11 • 特定のユースケースを想定したLLMアプリケーションでは、回答が妥当だったかだけではなく、 実際にどの程度ユーザーに”役立ったか”やどの程度ビジネス上の数値を向上させたのかも評

    価の対象 ◦ 例えば、薬剤師の生産性をどの程度高めたか ▪ 生産性を高めるためには、受入率(どの程度修正せずに受け入れられたか)が高い必要があ る ▪ もちろんサジェストのレイテンシが小さい必要もある ◦ その結果、例えば、どの程度購入率が高まったのかというビジネス指標までを最終的には評価する 必要がある • ただし、KGIとなるビジネス指標への影響は様々な要因が混ざり合ってしまうので、その手前の 指標から評価していくのが望ましい ◦ ビジネス指標を向上させることに繋がる観点で評価する必要がある 評価とはなにか?なぜ評価が必要なのか ここではモデルそのものの評価ではなく、 LLMを使ったアプリケーションの評価について扱う
  6. (C)PharmaX Inc. 2023 All Rights Reserve 12 評価の大枠 テンプレートを変更した後、①事前に用意したデータでの評価、②運用中の評価を行う •

    ① LLMアプリケーションの評価という時、事前に用意したデータセットを入力とし、出力結果を定 量的に評価することを指すことが多いが、まだ手付かず ◦ プロンプトのテンプレートを変更した時に、その変更の良し悪しを事前に用意した入力データセットに 対して出力を計算し、その出力を評価する ◦ 例えば、正解となる答えと出力との類似度を計算したり、出力自体の読みやすさを LLMに評価させ る • ② 本番環境で実際にサジェストされた内容の受け入れ率やその他評価項目を非同期で計算 し、PromptLayerに記録していく ◦ サジェスト内容が医学的に正しい内容だったか、マニュアルに従っているかなどを評価 ◦ 例えば、受け入れ率は LLMがサジェストしたメッセージと実際に送ったメッセージの文章の類似度 (Levenshtein-distanceやembedding-distance)を計算する
  7. (C)PharmaX Inc. 2023 All Rights Reserve 14 PromptLayerに評価結果を記録する 薬剤師が実際に文章を送ったタイミングで サジェストした文章と

    薬剤師が送った文章との類似度を評価 サジェストが生成されたタイミング、薬剤師が実際に文章を送ったタイミングで評価
  8. (C)PharmaX Inc. 2023 All Rights Reserve 16 評価の課題と今後の展望 評価そのものも自分たちにとって意味のある評価になっているのかどうかの PDCAを回す必要がある

    • PromptLayerに保存した評価スコアを定期的に BigQueryなどにインポートして分析、可視化 することも想定 ◦ プロンプトの変更前後でどの程度評価結果が変わったかなどを観察する • 類似度計算以外の評価はLLMでやっている以上、その評価が意図した通りの scoreを出してい るのか(直感に則した結果になっているか)を評価し、評価用のプロンプトそのものも改善してい く必要がある ◦ 出力された評価が評価者の直感に照らし合わせて反していれば(明らかに医学的に間違ったことを 出力しているのに点数は高くなっているなど)、評価用のプロンプトを改善して意味ある評価にする 必要がある