Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコスト...
Search
PharmaX(旧YOJO Technologies)開発チーム
December 12, 2024
Technology
1.1k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコストを削減する取り組み
PharmaX(旧YOJO Technologies)開発チーム
December 12, 2024
More Decks by PharmaX(旧YOJO Technologies)開発チーム
See All by PharmaX(旧YOJO Technologies)開発チーム
PdMによるLiveバイブコーディング〜プロトタイプ開発実践〜
pharma_x_tech
1
76
2025.10.28_CodexとClaude Codeの比較検討 社内座談会
pharma_x_tech
2
610
LLMのアウトプットの評価と改善 〜DSPyによるプロンプト最適化入門によせて〜
pharma_x_tech
6
1.2k
2025.09.02_AIコーディングを利用した開発自動化を目指しての座談会
pharma_x_tech
5
350
AIコーディングを前提にした開発プロセス再設計〜開発生産性向上に向けた試行錯誤〜
pharma_x_tech
4
440
AIエージェントの評価・改善サイクル
pharma_x_tech
2
610
MCP & Computer Useをフル活用した社内効率化事例〜現在地と将来の展望
pharma_x_tech
1
450
AIエージェントの継続的改善のためオブザーバビリティ
pharma_x_tech
7
2.6k
Roo CodeとClaude Code比較してみた
pharma_x_tech
5
6.2k
Other Decks in Technology
See All in Technology
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.8k
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
0
490
やさしいA2A入門
minorun365
PRO
7
380
React、まだ楽しくて草
uhyo
7
4.2k
タクシーアプリ『GO』の実践的データ活用
mot_techtalk
3
170
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
220
Chart.js が簡単に使えるようになっていたので OGP 画像生成に使った話
kamekyame
0
170
個人最適 から 全体最適 へ AI情報共有会・AIギルド・AI-DLC で進める カンリーの組織展開
rfdnxbro
0
1.9k
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
380
Agentic Defenseとともにセキュリティエンジニアが輝き続けるには / How Security Engineers Can Keep Excelling with Agentic Defense
yuj1osm
0
130
会社紹介資料 / Sansan Company Profile
sansan33
PRO
18
420k
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.2k
Featured
See All Featured
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
320
Building the Perfect Custom Keyboard
takai
2
790
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
GitHub's CSS Performance
jonrohan
1033
470k
Typedesign – Prime Four
hannesfritz
42
3.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
From π to Pie charts
rasagy
0
200
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
160
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Documentation Writing (for coders)
carmenintech
77
5.4k
Side Projects
sachag
455
43k
Transcript
OpenAIの蒸留機能 (Model Distillation)を 使用して運用中の LLMのコストを削減する 取り組み 2024.12.12 #StudyCo
(C)PharmaX Inc. 2024 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki
(C)PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
自己紹介
(C)PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営 自己紹介
(C)PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調 のことをいつでも気軽に相 談できる
相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」
(C)PharmaX Inc. 2024 All Rights Reserve 6 • リアルタイムAPI ◦
音声入力と音声出力をリアルタイムで処理する API • Vision Fine-tuning(画像のファインチューニング) ◦ GPT-4oを画像とテキストの両方でファインチューニングすることを可能にする機能 • Prompt Caching(プロンプトのキャッシュ化) ◦ 一度使用したプロンプトをキャッシュすることで、 API呼び出しのコストとレイテンシを削減する 機能 • Model Distillation(モデルの蒸留) ◦ 大規模なモデルの出力を使用して、より小型で効率的なモデルをファインチューニングする 機能 2024年10月のOpenAI DevDayでの発表 OpenAI DevDayでは下記の機能が発表されて大きな話題を呼んだ
(C)PharmaX Inc. 2024 All Rights Reserve 7 • 性能のいい安価なモデルに乗り換える ◦
ベンチマーク上の性能がよかったとしても再度プロンプトチューニングは必要になることも 多い • LLMの入出力結果をキャッシュして再利用する ◦ OpenAIやAnthropicが提供するPrompt Cachingを利用する • 高価なモデルの出力を使って安価なモデルをファインチューニング(蒸留)する ◦ OpenAIの利用規約では、同社のサービスから得られる出力を使用して、競合するモデル を開発することを禁止されてる → 公式にOpenAIがOpenAI同士のモデルであれば蒸留を認めた(推奨した) LLMのコスト削減の主要な方法 LLM使用のコストを下げる方法はいくつか存在する
(C)PharmaX Inc. 2024 All Rights Reserve 8 モデルへのベンダーロックインは発生する • PharmaXの実験では、他社も含め新しいモデルが出るたびに複数のプロンプトで実験するが、
GPTシリーズのスコアを”何故か”超えてこない ◦ プロンプトは変えていないので、我々の改善しているプロンプトが GPTシリーズに最適化さ れているからだと想定している ◦ 体感的には、ベンチマークで出ているスコアと自社のユースケースに当てはめたときのス コアは”あまり相関がない”ように感じる 実務的にはモデルへのロックインは想定しているよりも発生してしまうものだと感じている
(C)PharmaX Inc. 2024 All Rights Reserve 9 OpenAIのPrompt Cachingの紹介 共通部分がキャッシュされることで長いプロンプトではレイテンシを最大
80%、コストを50%削減 https://platform.openai.com/docs/guides/prompt-caching
(C)PharmaX Inc. 2024 All Rights Reserve 10 モデルへのベンダーロックインは発生する • 長いプロンプトではレイテンシを最大
80%、コストを50% ◦ 1,024トークンから、128トークンずつ適用 • OpenAIの主要モデルでは、自動的に適用 ◦ Anthropicは明示的に指示が必要かつ、キャッシュ書き込みがコストが 1.25倍のかわりに キャッシュ読み込みではコストが 1/10 • 通常5~10 分間操作が行われないとクリアされ、閑散期には最後に使用されてから 1時間以内 に削除される 実務的にはモデルへのロックインは想定しているよりも発生してしまうものだと感じている
(C)PharmaX Inc. 2024 All Rights Reserve 11 ファインチューニングしたモデルのコスト削減効果 gpt-4o-2024-08-06
$2.50 / 1M input tokens $10.00 / 1M output tokens gpt-4o-2024-05-13 $5.00 / 1M input tokens $15.00 / 1M output tokens gpt-4o-mini $0.150 / 1M input tokens $0.600 / 1M output tokens fine-tuned gpt-4o-mini $0.30 / 1M input tokens $1.20 / 1M output token ファインチューニングすることで劇的にコストを下げることができる 約1/10
(C)PharmaX Inc. 2024 All Rights Reserve 12 OpenAIの蒸留機能 DevDayで発表された蒸留機能を使えば、上位モデル出力で GPT-4miniなどの安価なモデルを蒸留できる
xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx outputは 修正できない
(C)PharmaX Inc. 2024 All Rights Reserve 13 蒸留したモデルでもデータセットに対して評価を実施 OpenAIのダッシュボード上で蒸留用に使ったデータと評価用のデータを分けて評価を実施可能 98%の精度で
上位モデルを再現 どこを間違えた のかを確認可能
(C)PharmaX Inc. 2024 All Rights Reserve 14 • OpenAIのダッシュボード上に簡単にデータを溜めて、そのデータを使って安価なモデルをファイ ンチューニング=蒸留することができる
◦ 現時点では、データを貯めることそのものには値段がかからない (※ 最新の公式ドキュメントをご確認ください) • 一方で、蓄積したデータのoutputを修正する機能は付いていないので、精度は元データを生成 した上位のモデルを超えることはない ◦ 上位モデルよりも精度も向上させたければ、 LangSmithのようにアノテーション機能を備 えたツールを使って出力を修正する必要がある ◦ データ数さえ確保できれば元データを生成した上位のモデル弱の精度にはなるので、すで に運用中のアプリケーションがあり、精度がミッションクリティカルでなければ、蒸留して安 価なモデルに置き換えて損はないのではないか 蒸留の運用まとめ OpenAIのネイティブの蒸留機能では、現時点では outputの修正は出来ないことに注意
None