コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ / Two Month Agent Struggle

Slide 1

Slide 1 text

コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 2025/05/20 コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 1

Slide 9

Slide 9 text

理想と現実理想論でいえばAGI以上に到達できればバーティカルなAIエージェントは不要なはず？？？ AGIへの到達は、楽観的な予測で2027年頃といわれている仮にAGIができても決して安い値段でサービスされるわけがない現在でもChatGPT ProやClaude Maxのような月額$200が当たり前、$2000のプランが検討されてるという話もあるし、さらに上の金額も当然あり得る常識で考えて「あらゆる任意のタスクの答えにたどり着けて、全部のホワイトカラーの人間を不要にしかねない」技術を、安売りするわけが無い。何のためにここまで巨額の開発費を投じて、ダンピングまがいのAPI安値戦争をやり続けてるのか？そもそも技術的には可能だとしても、エージェントとして動作する限り、タスク完了までに必要な演算リソースが膨大なことには変わりないいきなり「42」って答え出されても困るよね。地球潰してハイウェイ作っちゃう？課程が重要現実的な値段で提供するには、汎用性を多少なりともomitしたバーティカルなAIエージェントが重要あらゆる答えにたどり着ける汎用知性ですら、特定の業務で精度高く安定して動かすためのノウハウやプロンプトは必要なはず仮に「人類がやること全部ローコストで置き換えられる未来」が来てしまったら、もはや我々がやれることはないので、酒でも飲んでマリオカートワールドやろうぜ。フロムの新作でもいいよコーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 9

Slide 17

Slide 17 text

Cline/Rooのコンテキストが複雑すぎる問題 AIから見たときのユーザーさんは「ツールの結果を延々貼り付けてくれる人」に見えている実際のユーザーの発言は全部XMLで囲われているからか、ユーザー発言を「ユーザーさんは丸々と言ってるようです」みたいな他人事丸出しの会話をしてくることがある（イラット++） Cline/Rooの利用者は対話型AIを操作してるような気持ちだけど、実際のcontextとは食い違ってることがある（contextの積み重なったSonnetがユーザーの最新の指示に従ってくれない問題）ツール利用にXML処理が必須しかも、XML混じりのプレーンテキストという、普通は無い形式（赤ずきん原則違反）すなおにtool_use(いわゆるfunction calling)を使えばいいのでは？（赤ずきん原則違反）ファイル読み込みに行番号がついてる。これもLLMに負担がかかる（赤ずきん原則違反）コスパのいいモデルでまともに動かないのこれのせいでは？ファイル更新は diff を作るモードがある。これもsonnet以外では苦手っぽいというかdiffを作るってことは、元ファイルを一言一句間違わずに認識してないと駄目だからか、最近のRooではdiffはオプショナルになってる OpenAI canvasやGemini Canvasと比較すると、大体Claude Artifactsの方が成功率が高い（多分diff操作はClaudeの方が得意） o3だとノイズが多すぎてコーディングタスクは途中で壊れて継続不能になることもある LLMの知性に対する限界チャレンジやってない？コーディングエージェントを作ってるけどうまくいかなかった話～あるいは二ヶ月本気でコーディングエージェントと向き合った話～ @erukiti 17

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text