Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DSPyとLangfuseで行うプロンプト最適化
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuto Toya
November 19, 2025
230
0
Share
DSPyとLangfuseで行うプロンプト最適化
LangfuseNight#4の登壇資料です
Yuto Toya
November 19, 2025
More Decks by Yuto Toya
See All by Yuto Toya
LangfuseとClickHouse で進化するLLMOps
toyayuto
3
2.5k
Langfuse ✖️ Clickhouse MCPサーバを活用した分析
toyayuto
0
130
Langfuseを活用して、評価用プロンプトを育てていく
toyayuto
0
360
Langfuseを活用したLLM評価について
toyayuto
1
190
Featured
See All Featured
Code Review Best Practice
trishagee
74
20k
Unsuck your backbone
ammeep
672
58k
ラッコキーワード サービス紹介資料
rakko
1
3.5M
We Have a Design System, Now What?
morganepeng
55
8.2k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
230
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
300
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
710
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
520
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
520
Transcript
ガオ株式会社 遠⽮侑⾳ Langfuse Night #4 2025/11/19 DSPy + Langfuseによる プロンプト最適化
長大化・複雑化 「精度を出すために ルールを追加し続け、 プロンプトが 秘伝のタレ化」 性能デグレ 「プロンプト変更したら、 別のユースケースで 性能が落ちた...」 モデル追従
「GPT-5が更新されて、 またプロンプト調整が 必要になった」 バージョン管理 「この変更、誰がいつやった? Gitで管理する?」 プロンプト改善でのよくある悩み
ビジネスの要求 (本音) 「コストを抑えたい」 Gemini ProやClaude Opusは⾼い。 Gemini FlashやClaude Haikuのような安価なモデル で本番運⽤したい。
現実の壁 「安価なモデルは精度が出ない」 そのままでは⾼性能モデルに劣る。 → 結果、不⾜分を「⼈間の職⼈技」によるプロンプト エンジニアリングで必死に補っている。 根本的な課題 : 「コスト vs 精度」のジレンマ
従来の手動アプローチ ⼈間がプロンプトを⼿で書く 評価‧テストが主観的で時間がかかる 再現性が低く、職⼈が必要 DSPy + Langfuse データ駆動で⾃動最適化 客観的で全て記録‧⽐較可能 安価なモデルでも⾼精度が狙える
解決策:2つのアプローチ
DSPy 「プロンプトをプログラミングする」 最適化フレームワーク 役割: 最適化の「実⾏エンジン」 Signature: LLMの⼊出⼒を定義 Module: 処理の組み合わせ (ReAct等)
Optimizer: プロンプトを⾃動最適化 (GEPA等) 2つの主要プロダクト Langfuse LLMアプリ向け 観測‧管理プラットフォーム Tracing: 全実⾏のコスト‧レイテンシを追跡 Prompt Management: プロンプトのバージョン管理 Dataset Run: 実験結果の記録‧⽐較 役割: 最適化の「観測‧管理基盤」
人間 (開発者) 1. 評価関数と「データセット」を定義 Langfuse Dataset 2. データセットをLangfuseに登録‧管理 DSPy (Optimizer)
3. Langfuseのデータセットを使い、プロンプトを⾃動最適化 (GEPA実⾏) Langfuse (Tracing / Dataset Run) 4. 全実⾏トレースと実験結果 (スコア) を⾃動記録‧⽐較 Langfuse Prompt Management 「自動プロンプトエンジニアリング」のサイクル 5. プロンプト作成をして、ラベルを⾃動更新
タスク ユーザーの要求から適切なRPGキャラクターを⽣成する 制約 ステータス合計は100 職業ごとのルール(例:戦⼠は魔⼒0) 名前も職業に合ったものを⽣成 (内部制約)特定のツールを必ず使⽤ デモ:RPGキャラ生成の最適化 利用モデル 回答モデル:Gemini
2.5 Flash lite
要求 ⽣成結果 問題点 HP最低値 時々 10 未満になる ルール違反 (HP≥15) バランス調整
極端なステータス配分(例:速度5) 実⽤性が低い 職業特性 特性要件を満たさないケースあり 盗賊らしさ不⾜ (速度<30) 名前の⼀貫性 時々職業イメージと不⼀致 (例:名前が「トリックスター 等」) 名前の質が低い Before: 手書きプロンプト (スコア: 89.7%) 評価用LLM:Gemini 2.5 Flash
平均点だけでなく、最低点が⼤幅に改善‧システムの安定性が向上 After: DSPy自動最適化 (最適化後 スコア: 97.9%) 最適化手法: GEPA Reflection (反省・内省)
LLM:Gemini 2.5 Pro スコア結果
何が嬉しい? ベースラインと最適化後のスコアが⼀⽬瞭然 全実験の⽐較がワンクリックで可能 Itemレベルで「どのサンプルが失敗したか」 を即座に特定 Langfuse: 最適化の「結果」を比較 Dataset Runでの⽐較画像
何が嬉しい? 「なぜスコアが低いのか」がわかる 「ルール遵守」は完璧だが「職業特性」 が弱い、など 次に何を改善すべきかが明確になる Langfuse: 最適化の「中身」を分析
DSPy (最適化側) 最適化が完了したら、Langfuse SDKを呼び出し プロンプトを保存 Langfuse (管理側) ⾃動的プロンプトの作成とラベルの更新を管理します。 Langfuse: 最適化と管理の「自動連携」
最適化後プロンプト
まとめ プロンプトは「書く」から「最適化する」ものへ DSPyが「最適化エンジン」 Langfuseが「観測‧管理基盤 」 2つで「⾃動最適化サイクル」が実現できる