DSPy入門 Pythonで実現する自動プロンプト最適化〜人手によるプロンプト調整からの卒業〜

DSPy入門 Pythonで実現する自動プロンプト最適化〜人手によるプロンプト調整からの卒業〜山田暉（やまだひかる）

自己紹介 • NLP / AIエンジニア • 業務は主にテキスト関連の研究開発 • プライベートでは漫画のグラフデータの開発を行なっている •
Xアカウント: @sea_turt1e 2

今日持ち帰っていただけると嬉しいこと • 「DSPyとはなにか」をなんとなく理解する。 • プロンプトを作成・運用する上での引き出しのひとつにする。 • できればDSPyを実際に触ってみようと思える。 DSPyってのがあるんだな
3

LLMを利用したサービスの増加ここ2、3年はLLMを利用したサービスはどんどん増えてきていますよね。今後もLLMを利用したサービスは増加するのは間違いないと思います。 4

前提: プロンプトとは？あなたはPyCon mini Shizuokaのスタッフです。参加者から質問を受けた時を想定して回答してください。回答の具体例・ご質問ありがとうございます。〜については ...となっています。・ご質問の内容を早急に調査して、今週中には回答させていただきます。プロンプトとはLLMと会話する前にLLMの振る舞い方を「指示文言」として入れておく
文書のこと。プロンプト例具体例を入れることで出力をコントロールしやすくなる 5

LLM利用サービスの困りどころ 6

モデルバージョンの廃止サイクルが短い • 例えば、1年も経たずにGPT4oのあるバージョンは廃止されることもあった。 • LLMの発展は短いサイクルでどんどん性能が高くなっていくので、たとえモデルが廃止されていなくても新しいモデルが使いたいということもあり得る。 7

プロンプトの修正が必要になる • モデルそのものを変更する場合（例 : GPT4 → GPT5や、GPT5→Claude4.5） • モデルのバージョンアップをする場合（例 :
GPT4-202404→GPT4-202504）同じGPT4だったとしても、別バージョンで出力が大きく変わることも。 LLMの出力をエンドユーザーに直接届けるようなサービスでは致命的な変更にもなりかねない。なんか出力が前より悪くなったな...。サービス使うのやめよ。 8

提供サービス少なければなんとかなるけど ...増えたら？ • LLM利用サービスが増えればどんどんプロンプトの修正工数が増えていく。 → 対応しきれくなる時がいずれくる。 • （モデル廃止時に修正を行うのは最低限として）本来は良いモデルや安価なモデルが出たらそちらに変更すべき。 9

じゃあどうするか 10

プロンプトも LLMに更新してもらおう 11

DSPyで！ 12

DSPyとは • Declarative Self-improving Pythonの略（宣言型自己改善型Python） • プロンプトをLLMで自律的に改善するためのPythonフレームワークふーん 13

DSPyを使うと何が嬉しいの？プロンプトを自動的に生成・修正してくれるので、モデルの変更やアップデート時に人間がプロンプト修正をする必要がなくなる。 *機械学習でモデルを学習する方法に近いので、AIに精通している方はそちらに当て嵌めながらこのあとを聞くとわかりやすいかもです。（機械学習の知識は必須ではありません） 14

でもそんな良いことばっかりじゃないんでしょ？ 15

はい、その通りです。他で作業が必要なことがあります。 16

DSPyとは（さっきより少し詳しく）定義した仕様書を基に具体的なデータを利用して、プロンプトを生成するためのプログラムを最適化するためのPythonフレームワーク具体的なデータ　　　　　　　　プロンプトプログラムここを最適化する 17

18 今回は小学生の算数問題を解くためのプロンプトを最適化します。例えばの算数問題 —--------------------- Q. 太郎は500円持っています。150円のジュースを2本買いました。おつりはいくらですか？
A. 200円

今までだったら ... 人間が頑張ってプロンプトを書き、何度も何度も修正する必要があった。（=プロンプトエンジニアリング） 19

しかも... • モデルを変える場合（例えばGPT4 -> GPT5）最悪やり直しになることもある。 • バージョン（例えばGPT4-2401 ver. -> GPT4-2501
ver. ）変更だけでも数日かかる可能性も高い。 20

そこでDSPyが登場〜ここからDSPyの中身〜 21

DSPyの構成要素 • シグネチャ : タスクを定義した仕様書 • モジュール : シグネチャ（仕様書）を使って動く部品 •
最適化: プロンプトを最適化　　　（DSPyではCompileやOptimizeと呼んだりする）「最適化」がDSPyの肝 22

シグネチャ : タスクの「仕様書」を定義するシグネチャは、LLMに"何を"やってほしいかを定義する「仕様書」を表します。 23

シグネチャ（仕様書）の例「以下のような変換（入力 → 出力）をしたい」という仕様書 • 質問 → 回答 • 例:
1+1は？ → 2 ⚠ 注意: 上記はまだ「プロンプト」ではありません。あくまで「タスクの入出力」を定義しています。 24

モジュールシグネチャ（仕様書）を使って動く部品。 • dspy.Predict 最も基本的。シグネチャ（例：質問 -> 回答）に従う • dspy.ChainOfThought 思考を連鎖して回答する
（質問 -> （計算式） -> 回答を自動で行う） • dspy.ReAct 外部ツール（検索API等）と連携し、情報を収集しながら段階的に推論・回答するモジュール（質問 → 思考 → 行動（検索等） → 観察 → ... → 回答） 25 今回は最もシンプルな Predictを使う。

まず結果をお見せします。（最適化前のプロンプトと、最適化後のプロンプト） 26

最適化前のプロンプト質問の内容に基づいて、回答を生成してください。 27 デフォルトのプロンプト

最適後のプロンプト自然言語で書かれた数学の文章問題が与えられます。あなたの仕事は、最終的な数値を単一の整数で計算することです。内部的に実行する手順（出力には表示されません）：テキストを解析してすべての数値と単位を特定し、関係と必要な算術を決定し、結果を計算します。最終的な整数値のみを数字で出力し、追加のテキスト、説明、書式設定は行わないでください。思考の連鎖的推論や中間ステップは提供しないでください。単位の一貫性と正確性を確認してください。最終的な答えは整数でなければなりません。 28
これが自動で生成される ※人間が読みやすいよう改行しています。

実際のコード例（一部抜粋） 29

セットアップ & LLM 設定 import dspy # 言語モデルの設定（LiteLLM 経由で様々なプロバイダーに対応） lm
= dspy.LM("openai/gpt-5-nano") dspy.configure(lm=lm) 30

シグネチャ（仕様書）で「何をさせたいか」を定義 class MathQA(dspy.Signature): """算数問題を解く""" question = dspy.InputField(desc="問題文") answer = dspy.OutputField(desc="数値回答")
predict = dspy.Predict(MathQA) # 実行 result = predict(question="5個のりんごが入った箱が3箱ある。全部で何個？") print(result.answer) # => 15 > シグネチャ = タスクの入出力の宣言。プロンプトはDSPyが自動生成します。 31

MIPROv2 でOptimizerの設定 optimizer = MIPROv2( # 出力結果が算数として合っているかを評価する関数 metric=gsm8k_metric, # 最適化の強度
(light/medium/heavy) auto="light", ) 32

MIPROv2 で自動最適化 # 最適化を実行（trainset を使って最適なプロンプトを自動探索） optimized = optimizer.compile( baseline, #
最適化するプログラム trainset=trainset, # 訓練データ ) 33

プロンプトの最適化結果 35 質問の内容に基づいて、回答を生成してください。自然言語で書かれた数学の文章問題が与えられます。あなたの仕事は、最終的な数値を単一の整数で計算することです。内部的に実行する手順（出力には表示されません）テキストを解析してすべての数値と単位を特定し、関係と必要な算術を決定し、結果を計算します。
最終的な整数値のみを数字で出力し、追加のテキスト、説明、書式設定は行わないでください。思考の連鎖的推論や中間ステップは提供しないでください。単位の一貫性と正確性を確認してください。最終的な答えは整数でなければなりません。最適化正解率 91.67% → 94.67%（3%UP）最適化前最適化後

最適化で何が変わったか？ 36 質問の内容に基づいて、回答を生成してください。自然言語で書かれた数学の文章問題が与えられます。あなたの仕事は、最終的な数値を単一の整数で計算することです。内部的に実行する手順（出力には表示されません）テキストを解析してすべての数値と単位を特定し、関係と必要な算術を決定し、結果を計算します。
最終的な整数値のみを数字で出力し、追加のテキスト、説明、書式設定は行わないでください。思考の連鎖的推論や中間ステップは提供しないでください。単位の一貫性と正確性を確認してください。最終的な答えは整数でなければなりません。最適化前最適化後一般的で、アバウト ✓ 具体的な仕事内容: 「最終的な数値を単一の整数で計算」 ✓ 制約条件: 「余分なテキスト、説明は不要」 ✓ 単位の一貫性を確保 ✓ 最終形式の指定: 「整数でなければならない」

用意するデータのポイント 37

必要なデータ量推奨量：10 ～ 100 個 ┗ 10個: 最小限（Light最適化向け） ┗ 50個:
標準（Medium最適化向け） ┗ 100個: しっかり最適化したい場合 38

データのポイント • 機械学習の fine-tuning に比べ、必要データが圧倒的に少ない • データの多様性が重要（異なるバリエーションを含める） ◦ りんご5個、みかん3個、合計は?（複数単位）
◦ 5x3+2は?（複合計算） ◦ 100円から3個で50円の品を買いました。おつりは?（引き算） • 100個を超えてもリターンは小さくなる傾向 • 質 > 量（低品質なお手本は避ける） 39

最適化の詳細 40

　　　　　　　　最適化（Compile, Optimize） ※前スライドの再喝プログラムを「最適化」する仕組み。 DSPyではこの「プログラム」を使ってプロンプトを生成する。具体的なデータプロンプトプログラム
ここを最適化する 41

最適化の役割データに基づいて最も正答率の高いプロンプトを自動的に探索する。 1. 訓練データを使って成功パターンを収集 2. 複数の命令文（Instruction）候補を自動生成 3. 命令文と
Few-Shot例の最適な組み合わせを探索 4. 評価関数で数値的に最も良い組み合わせを選択人間がプロンプトを試行錯誤する作業を、アルゴリズムが自動で行う 42

何を最適化するのか？ 1. 命令文（Instruction） — LLM への指示テキスト ◦ 例) 算数の文章問題を解いて最終的な数値のみ回答してください 2.
Few-shot 例（Demonstrations） — 入出力のお手本 ◦ 例) Q:りんご3個×5箱=? → A:15 3. 上記の最適な組み合わせ — ベイズ最適化等で探索 43

最適化の具体的な流れのイメージ 1. プログラム定義シグネチャ（"Q -> A"）+ モジュール（Predict）を定義 2. 入出力のお手本データ質問と正解のペアを
10〜100 個用意 3. 最適化 Optimizerがデータを使って最適な命令文＋Few-Shotの例を探索 4. 最適化済みプログラム JSON として保存。いつでも読み込んで再利用可能 44

最適化された「プログラム」を走らせると ... 最適化前と同じコードで実行するだけで、自動生成されたプロンプトが作成可能。内部では最適化によって追加された命令文と Few-shot例が自動的にプロン
プトに組み込まれ、正答率が向上します。 45

使用するLLMのモデルが変わったら再度「最適化」のプログラムを走らせればOK。これだけ。【実行時間】 • プロトタイプやデモ用途（Light 最適化）: 5～10 分 • コスパ重視（Medium
最適化）: 20～30 分 • 精度重視（Heavy 最適化）: 60～120 分（トレーニングデータ数、トライアル数に依存）これまでのプロンプトエンジニアリング（数日～1週間）と比較して圧倒的に高速化 46

最初だけ頑張れば、それ以降は自動でプロンプトが更新できる 47 => 怠惰を求めて勤勉に行き着く

個人的には ... ブラックボックスであるLLMの中身を想像しながら人間がプロンプトを書くという従来の方法よりもタスクを定義してAIに最適化してもらうDSPyの方が妥当な手法という気がしています。 48

他の実用例 • 何度か推論をした上での回答をするボット（マルチホップQA）例: 織田信長が幼少期に過ごしていた城で、主をしていたのは？ • 入力した文章をあるキャラクターの口調へ変換する例: いつか起業したい！ →
海賊王に俺はなるっ！ • RAGを用いた社内Q&Aボットのプロンプト向上 49

比較項目従来の手法 DSPy 開発者がやることプロンプトを手動で作成/修正（試行錯誤）シグネチャ定義+お手本データの用意最適化勘と経験による手動チューニングお手本データに基づき自動最適化ロジックとプロン
プト密結合（変更が大変）分離（ロジックはそのまま） LLMモデルの変更 GPT-5 nano→Claude 4.5 Haiku に変えたら正解率が落ちたため、全面見直し LLMモデルを変えたら、再度、最適化すればOK 「従来の手法」と「 DSPy」の比較表 50

まとめ • DSPyを使えば、モデルの変更時やアップデート時にプロンプトを人間が修正しなくて済むようになる。 • 「プロンプトを人間が作る」という従来の方法ではなく、 1. 仕様書を人間が定義して 2. 具体的なデータを人間が少量用意して
3. プログラムを自動で最適化して 4. プロンプトを自動で生成/調整するイメージ。 51

コード全文 https://github.com/sea-turt1e/dspy-demo 52

参考文献等【公式リソース】 • DSPy 公式ドキュメント: https://dspy.ai/ • DSPy GitHub リポジトリ:
https://github.com/stanfordnlp/dspy • MIPROv2 詳細ガイド: https://dspy.ai/api/optimizers/MIPROv2/ 【学習用記事】 • 「プロンプトエンジニアリングを終わらせる DSPy」 • Zenn: DSpyの基礎と構成（プログラムの実行と最適化） • Dev.to: The Power of MIPROv2 【実装例】 • HuggingFace Spaces: DSPy Demo • Google Colab チュートリアル（公式）【学術論文】 • "DSPy: Optimizing LM Calls with Weak Supervision" Khattab et al., 2023 53

その他資料 54

最適化アルゴリズムの紹介 • BootstrapFewShot 訓練データでプログラムを実行し、正解した例を Few-shot 候補として自動収集するシンプルなアルゴリズム。命令文の最適化は行わない。 • COPRO 命令文（Instruction）を
LLM で生成・改善していく手法 • MIPROv2 ← 今回はこれを使っている Few-shot 収集 + 命令文生成 + ベイズ最適化を統合した高性能手法 • GEPA 進化的アルゴリズムによる最適化 55

DSPy入門 Pythonで実現する自動プロンプト最適化 〜人手によるプロンプト調整から...

DSPy入門 Pythonで実現する自動プロンプト最適化 〜人手によるプロンプト調整からの卒業〜

More Decks by sea-turt1e

Other Decks in Programming

Featured

Transcript

DSPy入門 Pythonで実現する自動プロンプト最適化〜人手によるプロンプト調整から...

DSPy入門 Pythonで実現する自動プロンプト最適化〜人手によるプロンプト調整からの卒業〜