Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
そのだ
December 30, 2025
Technology
160
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った
【connpass】
https://connpass.com/event/372213/
そのだ
December 30, 2025
More Decks by そのだ
See All by そのだ
DGX Sparkを2台つないで 最強ローカルLLM環境を動かしてみた話
sonoda_mj
0
56
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
200
Google_ADKのSub_AgentをAgentic_Workflowに移行し_遷移成功率を改善した話.pdf
sonoda_mj
1
120
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
2.7k
RAGの基礎から実践運用まで:AWS BedrockとLangfuseで実現する構築・監視・評価
sonoda_mj
1
2k
Amazon Bedrock Knowledge Basesに Data Autometionを導入してみた
sonoda_mj
1
240
Amazon Bedrock Knowledge basesにLangfuse導入してみた
sonoda_mj
2
1.2k
AIエージェントに脈アリかどうかを分析させてみた
sonoda_mj
2
430
Amazon Bedrock Knowledge Basesのアップデート紹介
sonoda_mj
2
880
Other Decks in Technology
See All in Technology
LLMと共に進化するプロセスを目指して
ymatsuwitter
13
4k
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
6
4.6k
新しいVibe Codingと”自走”について
watany
5
290
Building applications in the Gemini API family.
line_developers_tw
PRO
0
3.1k
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
820
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
140
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
540
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
130
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
830
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
840
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
0
260
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
230
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
580
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Code Reviewing Like a Champion
maltzj
528
40k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Typedesign – Prime Four
hannesfritz
42
3.1k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Tell your own story through comics
letsgokoyo
1
950
A Tale of Four Properties
chriscoyier
163
24k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Transcript
仕事はAIに任せてラスベガスへ行きたいので DSPyで自分のクローンを作った にんにんLT 2025 2025.12.30 そのだ(@sonoda_mj)
自己紹介
自己紹介 苑田 朝彰 普段の業務内容 • AI エージェント開発(Strands Agent, Google ADK)
• 社内AI推進(Agent開発, AI駆動開発) • クラウド(AWS, Google Cloud) 資格 • AWS Community Builders(ML) • 甲賀流忍者検定(中級) 趣味 • 月一で面白いことをするのにハマってます ◦ Spartanレース ◦ 100kmウォーキング ◦ 無人島かくれんぼ ◦ 滝行 SNS • https://x.com/sonoda_mj • https://zenn.dev/tomomj • https://note.com/sonoda_mj Tomotada Sonoda
目次 1. 背景 2. 実際につくてみる 3. まとめ
背景
そのだ、東京でAI Agentをいっぱい作ってます。 生成AIハッカソン 準優勝 AI面接官
そろそろAI Agentに仕事任せられるのでは? 〇〇のタスク よろしく!! そのだ Agent タスク AI Agentが普及した世界は、人間がAgentに指示するだけでタスクが消化され、お金を稼ぐようになる かもしれない。
まかせろり!
そろそろAI Agentに仕事任せられるのでは? 〇〇のタスク よろしく!! そのだ Agent タスク AI Agentが普及した世界は、人間がAgentに指示するだけでタスクが消化され、 お金を稼ぐようになる
かもしれない。 まかせろり!
すなわち
自分のクローンを 作ってしまえば
ラスベガスにいても お金を稼げる
かもしれない
イメージ図 in 東京 in ラスベガス そのだ Agent 指示
イメージ図 in 東京 in ラスベガス そのだ Agent 指示 〇〇のタスク よろしく!!
イメージ図 in 東京 in ラスベガス そのだ Agent 指示 まかせろり!
イメージ図 in 東京 in ラスベガス そのだ Agent 指示
イメージ図 in 東京 in ラスベガス そのだ Agent 指示
イメージ図 in 東京 in ラスベガス そのだ Agent 指示 2倍儲かる!!!
実際に作ってみる
構成図 in 東京 in ラスベガス そのだ Agent 指示
構成図 in 東京 in ラスベガス そのだ Agent 指示
従来のプロンプトチューニング 評価関数 テストデータ ユーザー 評価したい Agent スコア1.0 Input: 入力 Expected
Output: 予期する回答 Input Expected Output Output • モデルを変更した • プロンプトをチューニングした • 精度を上げるために、 Toolを追加・変更した • など • StrandsAgents Eval • DeepEval • ragas • など
DSPyとは 言語モデルをプロンプトではなくコードでプログラミングし、自動的に最適化するフレームワークです。 Signature (入出力を定義する) question -> answer Module - predict
- ChainOfThought - ReAct など ④ Optimizer - BootstrapFewShot - MIPROv2 - GEPA など ② テストデータ ③ 評価関数 ① DSPyプログラム Signature Module DSPyプログラム (最新)
1. 「自分らしさ」とは何だろう プロンプトを最適化するためには、まず「自分らしさ」を定義する必要がある。 そのだのイメージ (異論は認めん) 自分らしさを 抽出 • 口調 •
知識 • 価値観 • 性格 • 感情表現 • 対話スタイル
「自分らしさ」という曖昧なものを、 300件のテストデータで形にする。1時間くらいかかりました(二度とや りたくない)。 2. テストデータを作ってみる • 口調 • 知識 •
価値観 • 性格 • 感情表現 • 対話スタイル テストデータ 作成 300件のテストデータ (各項目50件ずつ) テストデータ
3. 評価関数を作ってみる 人間がみると、正解かどうかすぐわかりますが、 300件全部見るの正直だるいです。なので、 LLMに評 価してもらいました(LLM as a Judge)。 そのだの特徴的な口調・表現が
使われているかを評価 対象フレーズ: 「まかせろり」「せやろ」「ええで」 「クソ」「わからん」「学び」など 含まれていれば2点、なければ0 点で、そもそも質問にない場合は 2点。 回答の簡潔さを評価 (そのだは5-15文字の短い回答 が多い) - 期待の1.5倍以内 → 3点 - 期待の2倍以内 → 2点 - 期待の3倍以内 → 1点 - それ以上 → 0点 Gemini 2.5 Flashを評価者として使用 し、意味の一致とカジュアルさを評価 5点: 意味完全一致、カジュアルな口調 4点: 意味一致、やや丁寧だが許容範囲 3点: 意味ほぼ一致、口調が少し硬い 2点: 意味は合っているが口調が丁寧す ぎる 1点: 意味が部分的に一致 0点: 意味が異なる 特徴的表現のスコア( 0-2点) 長さのスコア( 0-3点) 意味と口調の評価( 0-5点) LLM αs a Judge
4. Optimizerで最適化する 作成した評価器を元に、Optimizer(MIPROv2)で最適化しました。MIPROv2はプロンプト命令と few-shotの例をベイズ最適化で自動的にチューニングします。 プロンプト命令 (ユーザーの具体的なお願い) few-shot (返答の例) ベイズ最適化 最強のプロンプト命令
最強のfew-shot
4. Optimizerで最適化する 作成した評価器を元に、Optimizer(MIPROv2)で最適化しました。MIPROv2はプロンプト命令と few-shotの例をベイズ最適化で自動的にチューニングします。 プロンプト命令 (ユーザーの具体的なお願い) few-shot (返答の例) ベイズ最適化 最強のプロンプト命令
最強のfew-shot ① 命令の候補を作る ② 返答の候補を作る ③ それぞれの候補から 最強の組み合わせを選 ぶ
最適化した結果
デモ
今回初めましての方も多いと思うので 実際に同僚に使ってもらいました。
その結果を共有します。
同僚の感想 お前は苑田じゃない。 誰?? つまらん男 時間の無駄 何なら知ってるんやお前 ゴミアプリ
結論
約30ドル!!! ゴミ作りました!! ←30ドルのゴミ
まだまだラスベガスは 行けなさそうです! ←30ドルのゴミ
まとめ
まとめ 1. テストデータや評価関数をちゃんとしないと、ゴミができる。 2. ラスベガスでの開発はまだダメそう。 3. できるところからAI Agentに任せましょう。
ご清聴ありがとう ございました!!