仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

仕事はAIに任せてラスベガスへ行きたいので DSPyで自分のクローンを作ったにんにんLT 2025 2025.12.30 そのだ(@sonoda_mj)

自己紹介

自己紹介苑田朝彰普段の業務内容 • AI エージェント開発（Strands Agent, Google ADK）
• 社内AI推進（Agent開発, AI駆動開発） • クラウド（AWS, Google Cloud）資格 • AWS Community Builders（ML） • 甲賀流忍者検定（中級）趣味 • 月一で面白いことをするのにハマってます ◦ Spartanレース ◦ 100kmウォーキング ◦ 無人島かくれんぼ ◦ 滝行 SNS • https://x.com/sonoda_mj • https://zenn.dev/tomomj • https://note.com/sonoda_mj Tomotada Sonoda

目次 1. 背景 2. 実際につくてみる 3. まとめ

背景

そのだ、東京でAI Agentをいっぱい作ってます。生成AIハッカソン準優勝 AI面接官

そろそろAI Agentに仕事任せられるのでは？〇〇のタスクよろしく！！そのだ Agent タスク AI Agentが普及した世界は、人間がAgentに指示するだけでタスクが消化され、お金を稼ぐようになるかもしれない。
まかせろり！

そろそろAI Agentに仕事任せられるのでは？〇〇のタスクよろしく！！そのだ Agent タスク AI Agentが普及した世界は、人間がAgentに指示するだけでタスクが消化され、お金を稼ぐようになる
かもしれない。まかせろり！

すなわち

自分のクローンを作ってしまえば

ラスベガスにいてもお金を稼げる

かもしれない

イメージ図 in 東京 in ラスベガスそのだ Agent 指示

イメージ図 in 東京 in ラスベガスそのだ Agent 指示〇〇のタスクよろしく！！

イメージ図 in 東京 in ラスベガスそのだ Agent 指示まかせろり！

イメージ図 in 東京 in ラスベガスそのだ Agent 指示

イメージ図 in 東京 in ラスベガスそのだ Agent 指示 2倍儲かる！！！

実際に作ってみる

構成図 in 東京 in ラスベガスそのだ Agent 指示

従来のプロンプトチューニング評価関数テストデータユーザー評価したい Agent スコア1.0 Input: 入力 Expected
Output: 予期する回答 Input Expected Output Output • モデルを変更した • プロンプトをチューニングした • 精度を上げるために、 Toolを追加・変更した • など • StrandsAgents Eval • DeepEval • ragas • など

DSPyとは言語モデルをプロンプトではなくコードでプログラミングし、自動的に最適化するフレームワークです。 Signature (入出力を定義する) question -> answer Module - predict
- ChainOfThought - ReAct など ④ Optimizer - BootstrapFewShot - MIPROv2 - GEPA など ② テストデータ ③ 評価関数 ① DSPyプログラム Signature Module DSPyプログラム (最新)

1. 「自分らしさ」とは何だろうプロンプトを最適化するためには、まず「自分らしさ」を定義する必要がある。そのだのイメージ（異論は認めん）自分らしさを抽出 • 口調 •
知識 • 価値観 • 性格 • 感情表現 • 対話スタイル

「自分らしさ」という曖昧なものを、 300件のテストデータで形にする。1時間くらいかかりました（二度とやりたくない）。 2. テストデータを作ってみる • 口調 • 知識 •
価値観 • 性格 • 感情表現 • 対話スタイルテストデータ作成 300件のテストデータ（各項目50件ずつ）テストデータ

3. 評価関数を作ってみる人間がみると、正解かどうかすぐわかりますが、 300件全部見るの正直だるいです。なので、 LLMに評価してもらいました（LLM as a Judge）。そのだの特徴的な口調・表現が
使われているかを評価対象フレーズ：「まかせろり」「せやろ」「ええで」「クソ」「わからん」「学び」など含まれていれば2点、なければ0 点で、そもそも質問にない場合は 2点。回答の簡潔さを評価（そのだは5-15文字の短い回答が多い） - 期待の1.5倍以内 → 3点 - 期待の2倍以内 → 2点 - 期待の3倍以内 → 1点 - それ以上 → 0点 Gemini 2.5 Flashを評価者として使用し、意味の一致とカジュアルさを評価 5点: 意味完全一致、カジュアルな口調 4点: 意味一致、やや丁寧だが許容範囲 3点: 意味ほぼ一致、口調が少し硬い 2点: 意味は合っているが口調が丁寧すぎる 1点: 意味が部分的に一致 0点: 意味が異なる特徴的表現のスコア（ 0-2点）長さのスコア（ 0-3点）意味と口調の評価（ 0-5点） LLM αs a Judge

4. Optimizerで最適化する作成した評価器を元に、Optimizer（MIPROv2）で最適化しました。MIPROv2はプロンプト命令と few-shotの例をベイズ最適化で自動的にチューニングします。プロンプト命令（ユーザーの具体的なお願い） few-shot （返答の例）ベイズ最適化最強のプロンプト命令
最強のfew-shot

4. Optimizerで最適化する作成した評価器を元に、Optimizer（MIPROv2）で最適化しました。MIPROv2はプロンプト命令と few-shotの例をベイズ最適化で自動的にチューニングします。プロンプト命令（ユーザーの具体的なお願い） few-shot （返答の例）ベイズ最適化最強のプロンプト命令
最強のfew-shot ① 命令の候補を作る ② 返答の候補を作る ③ それぞれの候補から最強の組み合わせを選ぶ

最適化した結果

デモ

今回初めましての方も多いと思うので実際に同僚に使ってもらいました。

その結果を共有します。

同僚の感想お前は苑田じゃない。誰？？つまらん男時間の無駄何なら知ってるんやお前ゴミアプリ

結論

約30ドル！！！ゴミ作りました！！ ←30ドルのゴミ

まだまだラスベガスは行けなさそうです！ ←30ドルのゴミ

まとめ

まとめ 1. テストデータや評価関数をちゃんとしないと、ゴミができる。 2. ラスベガスでの開発はまだダメそう。 3. できるところからAI Agentに任せましょう。

ご清聴ありがとうございました！！

仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った

More Decks by そのだ

Other Decks in Technology

Featured

Transcript