Upgrade to Pro — share decks privately, control downloads, hide ads and more …

仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

Avatar for そのだ そのだ
December 30, 2025

 仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

Avatar for そのだ

そのだ

December 30, 2025

More Decks by そのだ

Other Decks in Technology

Transcript

  1. 自己紹介 苑田 朝彰 普段の業務内容 • AI エージェント開発(Strands Agent, Google ADK)

    • 社内AI推進(Agent開発, AI駆動開発) • クラウド(AWS, Google Cloud) 資格 • AWS Community Builders(ML) • 甲賀流忍者検定(中級) 趣味 • 月一で面白いことをするのにハマってます ◦ Spartanレース ◦ 100kmウォーキング ◦ 無人島かくれんぼ ◦ 滝行 SNS • https://x.com/sonoda_mj • https://zenn.dev/tomomj • https://note.com/sonoda_mj Tomotada Sonoda
  2. 従来のプロンプトチューニング 評価関数 テストデータ ユーザー 評価したい Agent スコア1.0 Input: 入力 Expected

    Output: 予期する回答 Input Expected Output Output • モデルを変更した • プロンプトをチューニングした • 精度を上げるために、 Toolを追加・変更した • など • StrandsAgents Eval • DeepEval • ragas • など
  3. DSPyとは 言語モデルをプロンプトではなくコードでプログラミングし、自動的に最適化するフレームワークです。 Signature (入出力を定義する) question -> answer Module - predict

    - ChainOfThought - ReAct など ④ Optimizer - BootstrapFewShot - MIPROv2 - GEPA など ② テストデータ ③ 評価関数 ① DSPyプログラム Signature Module DSPyプログラム (最新)
  4. 「自分らしさ」という曖昧なものを、 300件のテストデータで形にする。1時間くらいかかりました(二度とや りたくない)。 2. テストデータを作ってみる • 口調 • 知識 •

    価値観 • 性格 • 感情表現 • 対話スタイル テストデータ 作成 300件のテストデータ (各項目50件ずつ) テストデータ
  5. 3. 評価関数を作ってみる 人間がみると、正解かどうかすぐわかりますが、 300件全部見るの正直だるいです。なので、 LLMに評 価してもらいました(LLM as a Judge)。 そのだの特徴的な口調・表現が

    使われているかを評価 対象フレーズ: 「まかせろり」「せやろ」「ええで」 「クソ」「わからん」「学び」など 含まれていれば2点、なければ0 点で、そもそも質問にない場合は 2点。 回答の簡潔さを評価 (そのだは5-15文字の短い回答 が多い) - 期待の1.5倍以内 → 3点 - 期待の2倍以内 → 2点 - 期待の3倍以内 → 1点 - それ以上 → 0点 Gemini 2.5 Flashを評価者として使用 し、意味の一致とカジュアルさを評価 5点: 意味完全一致、カジュアルな口調 4点: 意味一致、やや丁寧だが許容範囲 3点: 意味ほぼ一致、口調が少し硬い 2点: 意味は合っているが口調が丁寧す ぎる 1点: 意味が部分的に一致 0点: 意味が異なる 特徴的表現のスコア( 0-2点) 長さのスコア( 0-3点) 意味と口調の評価( 0-5点) LLM αs a Judge