LLMアプリケーションの改善プロセスの構築

2024.03.27 # pharmax_tech_collabo LLMアプリケーションの改善プロセスの構築

（C）PharmaX Inc. 2023 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラマイブームはLLMとRust Twitter：@ueeeeniki

3 （C）PharmaX Inc. 2023 All Rights Reserve はじめに

（C）PharmaX Inc. 2023 All Rights Reserve 4 本発表のスコープや注意事項について LLMアプリケーションの実験管理と評価について取り組んで来たことや今後の展望をお話します •
個人的に参考になった記事やPharmaXで取り組んできたこと、今後どのようなことを行っていきたいのかについて中心にお話します ◦ 個人的な感想や考えを多分に含みます • LLMアプリケーションの実験管理や評価はまだベストプラクティスが出揃っておらず、今回お話する内容が各社にどの程度取り入れ可能かは不明です ◦ 皆さまでご判断いただければ幸いです • できる限りPharmaXでのリアルな事例や実験結果をお伝えしますが、より詳しく聞きたい方やお困りごとについて議論したい方は是非 DM等いただければ幸いです

5 （C）PharmaX Inc. 2023 All Rights Reserve 今回対象とするアプリケーションの簡単な説明

（C）PharmaX Inc. 2023 All Rights Reserve 6 医療アドバイザーに体調のことをいつでも気軽に相談できる
相談型医療体験 30種類以上の漢方薬からあなたに合ったものを月毎に提案パーソナライズ漢方薬定期的に漢方をお届けし、一人ひとりに寄り添うかかりつけ医療を提供継続的なかかりつけ一生涯にわたって寄り添うかかりつけ漢方薬局「YOJO」

（C）PharmaX Inc. 2023 All Rights Reserve 7 今回対象とするアプリケーション「作成可」ボタンを押すと LLMによってサジェストされる

（C）PharmaX Inc. 2023 All Rights Reserve 8 プロンプト一部抜粋薬剤師にチャットの返答をサジェッションするために LLMを活用している
Systemプロンプト以下の条件に従って返信してください。前提：・あなたの役割は、PharmaX株式会社のYOJOというサービスのかかりつけ薬剤師です。健康や漢方の専門家として、常にユーザーの感情に寄り添いアドバイスをします。 ...（略） Userプロンプト対応の基本方針：・おすすめの漢方薬をよりきちんと提案できるように適宜質問を行ってください。・「検討します」とすぐに購入意欲がないような返答をされた方には、それ以上強く営業しすぎないようにしてください。 …（略）… 上記に気をつけながら私があなたが提案する漢方の選択について納得が行くように、共感しながら深掘り質問を行ってください。

9 （C）PharmaX Inc. 2023 All Rights Reserve LLMアプリケーションの改善プロセスについて

（C）PharmaX Inc. 2023 All Rights Reserve 10 • LLMに与えるプロンプトやパラメータの変更履歴と、プロンプトやパラメータの変更前後で出力がどのように変化したのかを管理することを実験管理という
• LLMの出力結果の”良し悪し”を定量的・定性的に判断することを評価という • 実験管理と評価をセットで行うことで、プロンプトやパラメータを変更したことで出力が良くなったのか悪くなったのかを判断することができる ◦ 評価と実験管理はセットで運用されることが望ましいが、実験管理すらないとパラメーターの変更履歴が分からなくなるので、最低限実験管理から導入してみることはオススメ LLMアプリケーションの改善に必要なこと LLMアプリケーションを改善していくためには、特に実験管理と評価が必要

（C）PharmaX Inc. 2023 All Rights Reserve 11 • ①PromptLayerによるプロンプトテンプレートの管理とテンプレートへの出力結果の紐づけ •
②プロンプトの全体への適用の前に誰でもプロンプトを実験できるように本番環境に実験環境を用意したこと ◦ プロンプトを変更してしまうと全薬剤師の生産性に影響を及ぼすため、本番環境で入念な実験をおこなってからプロンプトの変更をしたい • ③LLMの出力結果を様々な観点で評価し、 PromptLayerに記録したこと ◦ サジェスト内容が医学的に正しい内容だったか、マニュアルに従っているかなど、複数の観点で評価している ◦ LLMがサジェストしたメッセージと実際に送ったメッセージの文章の類似度（ Levenshtein-distance やembedding-distance）も評価している LLMアプリケーションの改善のためのPharmaXの工夫 LLMアプリケーションの改善のために PharmaXで行って特に効果があったのは以下のようなことです

（C）PharmaX Inc. 2023 All Rights Reserve 12 ①PromptLayerによるテンプレートと出力の管理プロンプトのテンプレートを作成することができ、バージョン管理を行うこともできる

（C）PharmaX Inc. 2023 All Rights Reserve 13 各テンプレートの各バージョンを使用した際の入出力結果の一覧を見ることができる ①PromptLayerによるテンプレートと出力の管理

（C）PharmaX Inc. 2023 All Rights Reserve 14 ②本番環境でプロンプトの実験の実施実験用のボタンを押すと実験用のテンプレートを読み込む本番環境で実験することで、ローカルでは不可能なあらゆる会話場面で出力を生成することが可能になる

（C）PharmaX Inc. 2023 All Rights Reserve 15 ②本番環境でプロンプトの実験の実施本番環境で実験用のプロンプトを分け、実験用のボタンからは実験用のプロンプトを読み込む実験用のテンプレートを分けることで、影響範囲を狭くして
本番環境で実験することができる本番環境で実験してよかったものを全体に適用させる

（C）PharmaX Inc. 2023 All Rights Reserve 16 ③様々な観点でLLMの出力結果の評価を実施 • 特にLLMの評価は、例えば、画像認識などの分類問題などとは異なり、正解が
1つに定まるわけでないので難しい ◦ 例えば、「日本で一番高い山は？」という質問に「富士山」「富士山です」「富士山に決まってんだろーが！」「富士山。標高 3776.12 m。その優美な風貌は …（略）」と答えるのはどれも正解 • LLMの出力は毎度ばらつくため、運用しながら都度評価を行って、運用期間を通じてそのプロンプトやパラメータがよかったのかどうかを判断する必要がある ◦ 定量的な評価ができていれば、プロンプトやパラメータの変更前後で評価の平均点を比べるというような統計的な比較も可能になる AIの評価に関するプラクティス自体は LLMの発展の前から存在していたが、 LLM特有の論点がある

（C）PharmaX Inc. 2023 All Rights Reserve 17 ③様々な観点でLLMの出力結果の評価を記録 LLMの出力を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる

（C）PharmaX Inc. 2023 All Rights Reserve 18 ③様々な観点でLLMの出力結果の評価を記録薬剤師が実際に文章を送ったタイミングでサジェストした文章と
薬剤師が送った文章との類似度を評価サジェストが生成されたタイミング、薬剤師が実際に文章を送ったタイミングでそれぞれ評価サジェストされたタイミングで様々な観点で評価

（C）PharmaX Inc. 2023 All Rights Reserve 19 • 実験管理によって、どのようなプロンプト・パラメータのときにどのような出力だったかの一覧を見ることができるので、誰でも改善案を出すことができる
• 本番環境から実験用プロンプトテンプレートを使えるようにしたことで、エンジニア以外のメンバーもプロンプトやパラメータを変更できるようになり改善速度が劇的に上がった ◦ 定量的な評価がなくとも、本番環境で何度も実験すればプロンプトの良し悪しを定性的に判断することができるので、本番環境で実験できるようにすることは非常にオススメ • 評価ができるようになったことで、プロンプトの変更の良し悪しを定量的に判断できるようになった上に、出力結果の評価が一定の数値を下回ったら自動で出力し直すといった応用も可能に今回紹介したプラクティスの恩恵実験管理をすることで、パラメータを変更したことでどのような影響があったのかを振り返る事ができる

（C）PharmaX Inc. 2023 All Rights Reserve 20 課題と今後の展望特に評価周りの課題が大きいため、改善していく必要がある •
プロンプトの運用期間を通しての評価の可視化を行いたい ◦ 現在はPromptLayerに記録している評価スコアを出力ごとに 1つずつ手動で見ており不便なため、評価スコアを定期的に BigQueryにインポートして分析、可視化することを想定 ◦ プロンプトの変更前後でどの程度評価結果が変わったのかを統計データで比較できるようにしたい • 類似度計算以外の評価はLLMで評価を行っている以上、その評価が意図した通りの scoreを出しているのか（直感に則した結果になっているか）を評価し、評価用のプロンプトそのものも改善していく必要がある ◦ 出力された評価が評価者の直感に反していれば（明らかに医学的に間違ったことを出力しているのに点数は高くなっているなど）、評価用のプロンプトを改善して意味ある評価にする必要がある

LLMアプリケーションの改善プロセスの構築

LLMアプリケーションの改善プロセスの構築

PharmaX（旧YOJO Technologies）開発チーム

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Other Decks in Technology

Featured

Transcript

2024.03.27 # pharmax_tech_collabo LLMアプリケーションの改善プロセスの構築

（C）PharmaX Inc. 2023 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者

3 （C）PharmaX Inc. 2023 All Rights Reserve はじめに

（C）PharmaX Inc. 2023 All Rights Reserve 4 本発表のスコープや注意事項について LLMアプリケーションの実験管理と評価について取り組んで来たことや今後の展望をお話します •

5 （C）PharmaX Inc. 2023 All Rights Reserve 今回対象とするアプリケーションの簡単な説明

（C）PharmaX Inc. 2023 All Rights Reserve 6 医療アドバイザーに体調のことをいつでも気軽に相談できる

（C）PharmaX Inc. 2023 All Rights Reserve 7 今回対象とするアプリケーション「作成可」ボタンを押すと LLMによってサジェストされる

（C）PharmaX Inc. 2023 All Rights Reserve 8 プロンプト一部抜粋薬剤師にチャットの返答をサジェッションするために LLMを活用している

9 （C）PharmaX Inc. 2023 All Rights Reserve LLMアプリケーションの改善プロセスについて

（C）PharmaX Inc. 2023 All Rights Reserve 10 • LLMに与えるプロンプトやパラメータの変更履歴と、プロンプトやパラメータの変更前後で出力がどのように変化したのかを管理することを実験管理という

（C）PharmaX Inc. 2023 All Rights Reserve 11 • ①PromptLayerによるプロンプトテンプレートの管理とテンプレートへの出力結果の紐づけ •

（C）PharmaX Inc. 2023 All Rights Reserve 12 ①PromptLayerによるテンプレートと出力の管理プロンプトのテンプレートを作成することができ、バージョン管理を行うこともできる

（C）PharmaX Inc. 2023 All Rights Reserve 13 各テンプレートの各バージョンを使用した際の入出力結果の一覧を見ることができる ①PromptLayerによるテンプレートと出力の管理

（C）PharmaX Inc. 2023 All Rights Reserve 16 ③様々な観点でLLMの出力結果の評価を実施 • 特にLLMの評価は、例えば、画像認識などの分類問題などとは異なり、正解が

（C）PharmaX Inc. 2023 All Rights Reserve 17 ③様々な観点でLLMの出力結果の評価を記録 LLMの出力を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる

（C）PharmaX Inc. 2023 All Rights Reserve 18 ③様々な観点でLLMの出力結果の評価を記録薬剤師が実際に文章を送ったタイミングでサジェストした文章と

（C）PharmaX Inc. 2023 All Rights Reserve 19 • 実験管理によって、どのようなプロンプト・パラメータのときにどのような出力だったかの一覧を見ることができるので、誰でも改善案を出すことができる

（C）PharmaX Inc. 2023 All Rights Reserve 20 課題と今後の展望特に評価周りの課題が大きいため、改善していく必要がある •