$30 off During Our Annual Pro Sale. View Details »

仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

Avatar for そのだ そのだ
December 30, 2025

 仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

Avatar for そのだ

そのだ

December 30, 2025
Tweet

More Decks by そのだ

Other Decks in Technology

Transcript

  1. 自己紹介 苑田 朝彰 普段の業務内容 • AI エージェント開発(Strands Agent, Google ADK)

    • 社内AI推進(Agent開発, AI駆動開発) • クラウド(AWS, Google Cloud) 資格 • AWS Community Builders(ML) • 甲賀流忍者検定(中級) 趣味 • 月一で面白いことをするのにハマってます ◦ Spartanレース ◦ 100kmウォーキング ◦ 無人島かくれんぼ ◦ 滝行 SNS • https://x.com/sonoda_mj • https://zenn.dev/tomomj • https://note.com/sonoda_mj Tomotada Sonoda
  2. 従来のプロンプトチューニング 評価関数 テストデータ ユーザー 評価したい Agent スコア1.0 Input: 入力 Expected

    Output: 予期する回答 Input Expected Output Output • モデルを変更した • プロンプトをチューニングした • 精度を上げるために、 Toolを追加・変更した • など • StrandsAgents Eval • DeepEval • ragas • など
  3. DSPyとは 言語モデルをプロンプトではなくコードでプログラミングし、自動的に最適化するフレームワークです。 Signature (入出力を定義する) question -> answer Module - predict

    - ChainOfThought - ReAct など ④ Optimizer - BootstrapFewShot - MIPROv2 - GEPA など ② テストデータ ③ 評価関数 ① DSPyプログラム Signature Module DSPyプログラム (最新)
  4. 「自分らしさ」という曖昧なものを、 300件のテストデータで形にする。1時間くらいかかりました(二度とや りたくない)。 2. テストデータを作ってみる • 口調 • 知識 •

    価値観 • 性格 • 感情表現 • 対話スタイル テストデータ 作成 300件のテストデータ (各項目50件ずつ) テストデータ
  5. 3. 評価関数を作ってみる 人間がみると、正解かどうかすぐわかりますが、 300件全部見るの正直だるいです。なので、 LLMに評 価してもらいました(LLM as a Judge)。 そのだの特徴的な口調・表現が

    使われているかを評価 対象フレーズ: 「まかせろり」「せやろ」「ええで」 「クソ」「わからん」「学び」など 含まれていれば2点、なければ0 点で、そもそも質問にない場合は 2点。 回答の簡潔さを評価 (そのだは5-15文字の短い回答 が多い) - 期待の1.5倍以内 → 3点 - 期待の2倍以内 → 2点 - 期待の3倍以内 → 1点 - それ以上 → 0点 Gemini 2.5 Flashを評価者として使用 し、意味の一致とカジュアルさを評価 5点: 意味完全一致、カジュアルな口調 4点: 意味一致、やや丁寧だが許容範囲 3点: 意味ほぼ一致、口調が少し硬い 2点: 意味は合っているが口調が丁寧す ぎる 1点: 意味が部分的に一致 0点: 意味が異なる 特徴的表現のスコア( 0-2点) 長さのスコア( 0-3点) 意味と口調の評価( 0-5点) LLM αs a Judge