LLMアプリケーションの Fine-tunningと蒸留を活用した改善

LLMアプリケーションの Fine-tunningと蒸留を活用した改善 2024.12.17 #pharmax_tech

（C）PharmaX Inc. 2024 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラマイブームはLLMとRust X：@ueeeeniki

（C）PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調のことをいつでも気軽に相談できる
相談型医療体験 30種類以上の漢方薬からあなたに合ったものを月毎に提案パーソナライズ漢方薬定期的に漢方をお届けし、一人ひとりに寄り添うかかりつけ医療を提供継続的なかかりつけ一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」

（C）PharmaX Inc. 2024 All Rights Reserve 6 患者向けチャットシステムと薬剤師向け管理画面を自作患者とのスムーズなコミュニケーション薬剤師向け管理画面
チャット形式での診断・相談・購入患者向けチャットシステム

（C）PharmaX Inc. 2024 All Rights Reserve 7 今回対象とするアプリケーション • ユーザーからのメッセージを受信したタイミングで
LLMによる返信のサジェストが作られ、一部のメッセージは自動送信＆必要があれば薬剤師が確認・修正して送る ◦ 自動で送る場合は当然精度が重要 ◦ サジェストされる場合も、そのまま送信することができれば、返信速度が速くなる＆生産性が高くなるので精度が高いことはやはり重要 • 管理画面上でボタンを押す（ショートカットキーをタイプする）ことでもチャットがサジェストされる薬剤師にチャットの返答をサジェッションするために LLMを活用している

（C）PharmaX Inc. 2024 All Rights Reserve 8 YOJOにおけるフローエンジニアリング ① ②
④ • ①ルールベースでLLM処理可能かを判定 • ②LLMで会話を分類しLLM処理可能かを判定 • ③LLMで次のフェーズに移るべきかどうかを判定 • ④LLMでメッセージを作成 • ⑤LLMで作成されたメッセージを評価（LLM-as-a-Judge）し、一定の水準を下回ったら再生成して、クリアしたもののみをサジェストする現時点では精度高くメッセージ提案できないため薬剤師が対応 ③ ⑤ ※②〜⑤： GPT-4o

（C）PharmaX Inc. 2024 All Rights Reserve 9 生成AIの革新性①：生産性の向上と人件費削減 50 API費用
(円) 40 30 20 10 0 2024/1 2024/12 2024/6 年月 1メッセージあたりの API費用 LLMによる自動化率の日次平均自動化率 (%) 100 0 20 40 60 80 薬剤師が送った場合の費用概算自社独自のナレッジを生成 AIに落とし込むことで、チャットの 8割以上を自動化することに成功問い合わせ対応だけではなく、漢方変更のサジェストやパーソナライズされたレコメンドも自動化ファインチューニングを活用することで 1メッセージあたりのコストも薬剤師と比較して 1/10以下に 60

（C）PharmaX Inc. 2024 All Rights Reserve 10 生成AIの革新性②：チャットの速度向上による UXの向上返信速度の日次平均
返信速度 (分) 20 0 4 8 12 16 100 0 20 ユーザーからの返信率の日次平均 40 60 80 返信率 (%) ユーザーへの平均返信時間が 1〜2分と非常に迅速な対応を可能に会話のテンポが上がったことによりユーザーからの返信率も 15%程度向上会話からの離脱率が低下したことで購入率も 1.3倍になった患者満足度も5点満点中4.5を超える高水準を実現 100 0 5 10 15 20 購入率 (%) LINE登録後の購入率の月次平均 LLMの本格導入薬剤師 LLM 全体薬剤師 LLM

（C）PharmaX Inc. 2024 All Rights Reserve 11 LangGraphで実際に構築したグラフルール1 ルール2
LLM-メッセージ作成 _ 分類4 LLM-会話分類 LLM-メッセージ作成 _ 分類1 LLM-メッセージ作成 _ 分類2 LLM-メッセージ作成 _ 分類3 LLM-フェーズ切替 LangGraphで作成したグラフはmermaidで出力しテストにも使用している

（C）PharmaX Inc. 2024 All Rights Reserve 12 LangSmithによるトレーシング rule1 ①
② ③ ④ ⑤ ・・・ rule2 ④ ⑤ ① ② ④ ③ ⑤ ※②〜⑤： GPT-4o

13 （C）PharmaX Inc. 2024 All Rights Reserve 蒸留とファインチューニングの運用

（C）PharmaX Inc. 2024 All Rights Reserve 14 • リアルタイムAPI ◦
音声入力と音声出力をリアルタイムで処理する API • Vision Fine-tuning（画像のファインチューニング） ◦ GPT-4oを画像とテキストの両方でファインチューニングすることを可能にする機能 • Prompt Caching（プロンプトのキャッシュ化） ◦ 一度使用したプロンプトをキャッシュすることで、 API呼び出しのコストとレイテンシを削減する機能 • Model Distillation（モデルの蒸留） ◦ 大規模なモデルの出力を使用して、より小型で効率的なモデルをファインチューニングする機能 2024年10月のOpenAI DevDayでの発表 OpenAI DevDayでは下記の機能が発表されて大きな話題を呼んだ

（C）PharmaX Inc. 2024 All Rights Reserve 15 • 性能のいい安価なモデルに乗り換える ◦
ベンチマーク上の性能がよかったとしても再度プロンプトチューニングは必要になることも多い • LLMの入出力結果をキャッシュして再利用する ◦ OpenAIやAnthropicが提供するPrompt Cachingを利用する • 高価なモデルの出力を使って安価なモデルをファインチューニング（蒸留）する ◦ OpenAIの利用規約では、同社のサービスから得られる出力を使用して、競合するモデルを開発することを禁止されてる → 公式にOpenAIがOpenAI同士のモデルであれば蒸留を認めた（推奨した） LLMのコスト削減の主要な方法 LLM使用のコストを下げる方法はいくつか存在する

（C）PharmaX Inc. 2024 All Rights Reserve 16 モデルへのベンダーロックインは発生する • PharmaXの実験では、他社も含め新しいモデルが出るたびに複数のプロンプトで実験するが、
GPTシリーズのスコアを”何故か”超えてこない ◦ プロンプトは変えていないので、我々の改善しているプロンプトが GPTシリーズに最適化されているからだと想定している ◦ 体感的には、ベンチマークで出ているスコアと自社のユースケースに当てはめたときのスコアは”あまり相関がない”ように感じる実務的にはモデルへのロックインは想定しているよりも発生してしまうものだと感じている

（C）PharmaX Inc. 2024 All Rights Reserve 17 OpenAIのPrompt Cachingの紹介共通部分がキャッシュされることで長いプロンプトではレイテンシを最大
80%、コストを50%削減 https://platform.openai.com/docs/guides/prompt-caching

（C）PharmaX Inc. 2024 All Rights Reserve 18 OpenAIのPrompt Cachingの特徴 •
長いプロンプトではレイテンシを最大 80%、コストを50% ◦ 1,024トークンから、128トークンずつ適用 • OpenAIの主要モデルでは、自動的に適用 ◦ Anthropicは明示的に指示が必要かつ、キャッシュ書き込みがコストが 1.25倍のかわりにキャッシュ読み込みではコストが 1/10 • 通常5～10 分間操作が行われないとクリアされ、閑散期には最後に使用されてから 1時間以内に削除される OpenAIのPrompt Cachingは値段の割引は少ないが、自動で適応されるなどの便利さはある

（C）PharmaX Inc. 2024 All Rights Reserve 19 OpenAIのPrompt Cachingの効果 PharmaXの例ではトークンの30〜40%がキャッシュにヒットしている
Cached Input Input

（C）PharmaX Inc. 2024 All Rights Reserve 20 ファインチューニングしたモデルのコスト削減効果 gpt-4o-2024-08-06  
$2.50 / 1M input tokens   $10.00 / 1M output tokens   gpt-4o-2024-05-13   $5.00 / 1M input tokens   $15.00 / 1M output tokens   gpt-4o-mini   $0.150 / 1M input tokens   $0.600 / 1M output tokens   fine-tuned gpt-4o-mini   $0.30 / 1M input tokens   $1.20 / 1M output token   ファインチューニングすることで劇的にコストを下げることができる約1/10 普通の mimiよりは高い

（C）PharmaX Inc. 2024 All Rights Reserve 21 OpenAIの蒸留機能 DevDayで発表された蒸留機能を使えば、上位モデル出力で GPT-4miniなどの安価なモデルを蒸留できる
xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx outputは修正できない

（C）PharmaX Inc. 2024 All Rights Reserve 22 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング
データセットを upload Base modelはgpt-4o-mini

（C）PharmaX Inc. 2024 All Rights Reserve 23 蒸留したモデルでもデータセットに対して評価を実施 OpenAIのダッシュボード上で蒸留用に使ったデータと評価用のデータを分けて評価を実施可能 98%の精度で
上位モデルを再現どこを間違えたのかを確認可能

（C）PharmaX Inc. 2024 All Rights Reserve 24 • OpenAIのダッシュボード上に簡単にデータを溜めて、そのデータを使って安価なモデルをファインチューニング＝蒸留することができる
◦ 現時点では、データを貯めることそのものには値段がかからない（※ 最新の公式ドキュメントをご確認ください） • 一方で、蓄積したデータのoutputを修正する機能は付いていないので、精度は元データを生成した上位のモデルを超えることはない ◦ 上位モデルよりも精度も向上させたければ、 LangSmithのようにアノテーション機能を備えたツールを使って出力を修正する必要がある ◦ データ数さえ確保できれば元データを生成した上位のモデル弱の精度にはなるので、すでに運用中のアプリケーションがあり、精度がミッションクリティカルでなければ、蒸留して安価なモデルに置き換えて損はないのではないか蒸留の運用まとめ OpenAIのネイティブの蒸留機能では、現時点では outputの修正は出来ないことに注意

（C）PharmaX Inc. 2024 All Rights Reserve 25 蒸留についての考察・今後の予想 • 各社高価なモデルと安価なモデルが（多少タイミングがズレても）セットで発表されるところを見て
も蒸留を公式でサポートする流れは各社追従しそう ◦ OpenAIのように蒸留は自社内のモデル間であれば OKというルールになるのではないか ◦ Amazon Bedrock Model Distillationがプレビュー版で発表されました • 例えば、o1の出力を使ってGPT-4o miniを蒸留するように系統（？）の違うモデルの出力を使って蒸留した時にどうなるのかは正直分かっていません（やったことがある方がいれば教えて下さい）蒸留はより一般的な技術になるのではないかと予想している

（C）PharmaX Inc. 2024 All Rights Reserve 26 本番でのLLMの出力をアノテーションしてデータセットに蓄積 xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx LangSmithのAnnotation Queuesに蓄積してアノテーションしたデータをデータセットとして蓄積修正する必要があれば修正してデータセットに追加

（C）PharmaX Inc. 2024 All Rights Reserve 27 データセットに蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる inputと(あるべき
)outputのセット

（C）PharmaX Inc. 2024 All Rights Reserve 28 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング
データセットを upload Base modelはgpt-4o-mini

（C）PharmaX Inc. 2024 All Rights Reserve 29 ファインチューニングしたモデルでもデータセットに対して評価を実施ファインチューニング用に使ったデータと評価用のデータを分けて評価を実施 experiment6
experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 fine-tuned model 評価指標が向上

（C）PharmaX Inc. 2024 All Rights Reserve 30 蒸留とアノテーション後のファインチューニングの運用について • アノテーションしてGPT-4oの出力を修正したデータセットで
GPT-4o-miniをファインチューニングすることができれば、GPT-4oよりも性能が高くかつコストも安いfine-tuned GPT-4o-miniを作成することができる • 一方で、アノテーションも楽ではないので、性能向上のためにファインチューニングをするのは、プロンプトエンジニアリングで性能向上が見込めなくなってからの最終手段と捉えた方がいい ◦ プロンプトエンジニアリングの方が PDCAサイクルは短いので、性能向上のための第一選択はあくまでプロンプトエンジニアリング性能も高めたいのならアノテーションしてファインチューニングする必要がある

（C）PharmaX Inc. 2024 All Rights Reserve 31

（C）PharmaX Inc. 2024 All Rights Reserve 32 AX（AI Transformation）事業を立ち上げます •
PharmaXが35万人のユーザ数を誇る自社サービス「 YOJO」で培った生成AIノウハウを医療業界中心に広めていきたい • 特に企業と顧客間のコミュニケーションを円滑化・自動化するノウハウと技術を活用し、他社向けに生産性向上ソリューションを提供 • カジュアル面談は弊社の採用に興味がなくとも、無料の壁打ち程度に捉えていただき、ご支援できそうなことがあればご連絡ください ◦ これまでも数社・数名の方にアドバイスしております ◦ 他社の事例を知ることができれば私としても十分です PharmaX としてAX（AI Transformation）事業を立ち上げ、他社も支援していく予定です

LLMアプリケーションの Fine-tunningと蒸留を活用した改善

LLMアプリケーションの Fine-tunningと蒸留を活用した改善

PharmaX（旧YOJO Technologies）開発チーム

More Decks by PharmaX（旧YOJO Technologies）開発チーム

Featured

Transcript

LLMアプリケーションの Fine-tunningと蒸留を活用した改善 2024.12.17 #pharmax_tech

（C）PharmaX Inc. 2024 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者

（C）PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催

（C）PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営自己紹介

（C）PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調のことをいつでも気軽に相談できる

（C）PharmaX Inc. 2024 All Rights Reserve 6 患者向けチャットシステムと薬剤師向け管理画面を自作患者とのスムーズなコミュニケーション薬剤師向け管理画面

（C）PharmaX Inc. 2024 All Rights Reserve 7 今回対象とするアプリケーション • ユーザーからのメッセージを受信したタイミングで

（C）PharmaX Inc. 2024 All Rights Reserve 8 YOJOにおけるフローエンジニアリング ① ②

（C）PharmaX Inc. 2024 All Rights Reserve 9 生成AIの革新性①：生産性の向上と人件費削減 50 API費用

（C）PharmaX Inc. 2024 All Rights Reserve 10 生成AIの革新性②：チャットの速度向上による UXの向上返信速度の日次平均

（C）PharmaX Inc. 2024 All Rights Reserve 11 LangGraphで実際に構築したグラフルール1 ルール2

（C）PharmaX Inc. 2024 All Rights Reserve 12 LangSmithによるトレーシング rule1 ①

13 （C）PharmaX Inc. 2024 All Rights Reserve 蒸留とファインチューニングの運用

（C）PharmaX Inc. 2024 All Rights Reserve 14 • リアルタイムAPI ◦

（C）PharmaX Inc. 2024 All Rights Reserve 15 • 性能のいい安価なモデルに乗り換える ◦

（C）PharmaX Inc. 2024 All Rights Reserve 16 モデルへのベンダーロックインは発生する • PharmaXの実験では、他社も含め新しいモデルが出るたびに複数のプロンプトで実験するが、

（C）PharmaX Inc. 2024 All Rights Reserve 17 OpenAIのPrompt Cachingの紹介共通部分がキャッシュされることで長いプロンプトではレイテンシを最大

（C）PharmaX Inc. 2024 All Rights Reserve 18 OpenAIのPrompt Cachingの特徴 •

（C）PharmaX Inc. 2024 All Rights Reserve 19 OpenAIのPrompt Cachingの効果 PharmaXの例ではトークンの30〜40%がキャッシュにヒットしている

（C）PharmaX Inc. 2024 All Rights Reserve 20 ファインチューニングしたモデルのコスト削減効果 gpt-4o-2024-08-06

（C）PharmaX Inc. 2024 All Rights Reserve 21 OpenAIの蒸留機能 DevDayで発表された蒸留機能を使えば、上位モデル出力で GPT-4miniなどの安価なモデルを蒸留できる

（C）PharmaX Inc. 2024 All Rights Reserve 22 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング

（C）PharmaX Inc. 2024 All Rights Reserve 23 蒸留したモデルでもデータセットに対して評価を実施 OpenAIのダッシュボード上で蒸留用に使ったデータと評価用のデータを分けて評価を実施可能 98%の精度で

（C）PharmaX Inc. 2024 All Rights Reserve 24 • OpenAIのダッシュボード上に簡単にデータを溜めて、そのデータを使って安価なモデルをファインチューニング＝蒸留することができる

（C）PharmaX Inc. 2024 All Rights Reserve 25 蒸留についての考察・今後の予想 • 各社高価なモデルと安価なモデルが（多少タイミングがズレても）セットで発表されるところを見て

（C）PharmaX Inc. 2024 All Rights Reserve 26 本番でのLLMの出力をアノテーションしてデータセットに蓄積 xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx

（C）PharmaX Inc. 2024 All Rights Reserve 27 データセットに蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる inputと(あるべき

（C）PharmaX Inc. 2024 All Rights Reserve 28 主要エージェントをファインチューニングし精度向上＆コスト削減蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング

（C）PharmaX Inc. 2024 All Rights Reserve 29 ファインチューニングしたモデルでもデータセットに対して評価を実施ファインチューニング用に使ったデータと評価用のデータを分けて評価を実施 experiment6

（C）PharmaX Inc. 2024 All Rights Reserve 30 蒸留とアノテーション後のファインチューニングの運用について • アノテーションしてGPT-4oの出力を修正したデータセットで

（C）PharmaX Inc. 2024 All Rights Reserve 31

（C）PharmaX Inc. 2024 All Rights Reserve 32 AX（AI Transformation）事業を立ち上げます •