Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「AIに部下10人」を3ヶ月運用してわかった、生成AI駆動開発のリアル

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 「AIに部下10人」を3ヶ月運用してわかった、生成AI駆動開発のリアル

Anthropic 公式 subagentが出た瞬間、3ヶ月の苦労が無駄になったかと思った。でも明日も、家老→足軽というフローを使い続ける。なぜか──その15分。

ENECHANGE Meetup 2026-04-21 登壇資料。

マルチエージェント『multi-agent-shogun』(殿+将軍+家老+足軽×7+軍師) と、整合性駆動開発 CLI『codd-dev』(SWE-bench Verified 73/73=100%、人間コード 0行) の 3ヶ月運用リアル。Prompt → Context → Harness → Harness as Code の系譜。

- X: https://x.com/shio_shoppaize
- Zenn: https://zenn.dev/shio_shoppaize
- GitHub: yohey-w/multi-agent-shogun, yohey-w/codd-dev

#enechange_meetup

Avatar for おしお

おしお

April 21, 2026

More Decks by おしお

Other Decks in Technology

Transcript

  1. { } <harness as="code" /> ENECHANGE MEETUP · FINAL SPEAKER

    / 専門家枠 2026.04.21 TUE 19:55 · #ENECHANGE_MEETUP 3 - M O N T H F I E L D R E P O R T / M U L T I - A G E N T R E A L I T Y 『AIに部下10人』を3ヶ月運用してわかった 生成AI駆動開発のリアル Harness as Code — shogun(配役) × CoDD(整合性) の両輪 S P E A K E R お塩 / OSHIO @yohey-w · @shio_shoppaize creator of multi-agent-shogun + codd-dev SHOGUN CODD-DEV ZENN記 事 将軍 SHOGUN
  2. PART 0 フック + 自己紹介 02 / 15 W H

    Y A M I S T I L L R U N N I N G 1 0 A G E N T S ? 15分で、その「なぜ」を話す S P E A K E R お塩 / OSHIO @yohey-w · @shio_shoppaize Anthropic公式が subagent / Agent Teams を出した瞬間、 僕は3ヶ月の苦労が無駄になったかと 思いました。 でも今、僕は明日も 家老→足軽 フロ ーを使い続けます。 なぜか? — 殿(お塩)/ 2026.04 「 大手SIer 新卒入社、エンジニア兼PM 約20 年 現職:都内コンサルティングファームに在籍 OSS multi-agent-shogun(Multi-CLI Orchestrator)作者 OSS codd-dev(整合性駆動開発)作者 — SWE-bench Verified 73/73 = 100% Zenn「Harness as Code」シリーズ 7 本 公開済 SHOGUN CODD-DEV ZENN記 事 お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  3. PART 1 業界の流れ 03 / 15 P A R A

    D I G M L I N E A G E Prompt → Context → Harness、その次に来るもの 4段階で進化してきた業界。次は Harness を コードとして書く時代。— shogun も CoDD も、その実例。 次のパラダイムは 「Harness をどう書くか」。今日はその実装と理論を見せる。 0 1 2023 — 2024 Prompt Engineering 何と聞けば正しく答えるか 単発プロンプトに全部詰める最 適化。再現性が低く、属人化。 0 2 2024 — 2025 Context Engineering 何を見せるか CLAUDE.md 等で背景知識をフ ァイル化。 「全部入り」の限界= 膨張。 0 3 2025 — 2026 Harness Engineering どう動かすか hook / skill / multi-agent / eval harness。Anthropic・OpenAI が公式パラダイム化。 0 4 — N O W 2026 — Harness as Code ハーネスをコードとして書く bash / Python / YAML タスク / CLI で実装。git で管理、テスト で保証、再現可能。shogun と CoDD、両方がその実例。 → → → お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  4. PART 2 本質論 — 配列ではなく設計 04 / 15 T H

    E R E A L A R C H I T E C T U R E 本質は、コンテキスト設計にある 「誰がいつ動くか」ではなく、どの情報を誰に渡すかで品質が決まる。 # 2025–2026、AIエージェント界の議論 Cognition # Don't Build Multi-Agents(誤差累積で脆い) Anthropic # Multi-Agent Research(15倍トークンで+90.2%) # 対立しているようで、答えは同じ → コンテキスト管理が全てを決める # 組織論と同じ構造 社長 = コンテキストの最終管理者 部長 = 圧縮して翻訳 平社員 = 最小限で作業 # 報連相・稟議書・社訓 = コンテキスト同期プロトコル LLMの重み = 脳 Context = RAM 今のマルチエージェントは、全てRAM だけで戦っている。 脳(重み)に判断基準を焼き込む設計がまだ無い。 lost Lost in the Middle — window拡大では解けない org 組織論は100年前に同じ問題を解いた → 解は LoRA or 最小HITL お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  5. PART 2 3ヶ月運用のリアル — 配役 05 / 15 T H

    E O R D E R O F B A T T L E × C A S T M A T R I X 「俺 + 部下10人」の編成と配役 殿 # 人間 │ ├─ 将軍 [Opus 4.7] ×1 │ └ 上級補佐 / cmd設計 │ ├─ 家老 [Sonnet 4.6] ×1 │ └ オーケストレーション │ ├─ 足軽 [Codex] ×7 │ └ 実装・量産 │ └─ 軍師 [Opus 4.7] ×1 └ QC / 別session独立 # 合計 AI 部下: 10 # = tmux ペイン10枚 役職 モデル 強み・役割 将軍 SHOGUN ×1 Opus 4.7 (x-high) 殿の対話相手 / cmd 設計 家老 KARO ×1 Sonnet 4.6 cmd → task YAML 分解 足軽 ASHIGARU ×7 GPT-5.4 (Codex) 一発正解型を並列に 軍師 GUNSHI ×1 Opus 4.7 別session独立で盲点拾う 殿 LORD (人間) 脳みそ 戦略・最終判断のみ ▮ 設計指針: 「Codex は一発正解型 / Opus は試行錯誤型」 — 性質で配役を決める ▮ 併用理由: Codex はクォータ消費極少、Opus は上限に達しやすい → 役割分担で 走り続ける お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  6. PART 2 効いた配役 ① 06 / 15 W H A

    T W O R K E D 0 1 Codex 足軽 × LMS 実装 R E A L P R O J E C T 教育系 LMS 受託 某教育LMS実装で Codex 足軽 × Opus 設計 の役割分担 を実証。架空ではなく実案件。 F I N D I N G 「Codex は 一発正解、Opus は 試行錯誤」 Codex (GPT-5.4) は仕様を渡すと最初から動くコードを出す。失敗してもパッチで一気に 直す。 Opus 4.7 は途中で考え直し、別解を試し、最終的により良い設計に到達する。 両者を implement = Codex / generate・review = Opus に割り当てたところ、手戻りが減 り、開発時間も改善した。 ▶ 配役の正解 = 「実装は Codex、設計とレビューは Opus」 お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  7. PART 2 3ヶ月運用のリアル 07 / 15 R E A L

    O P E R A T I O N — P A R A L L E L C H A N N E L S 「部下10人」は単線じゃない — 並列 5 チャネルが 実態 CH1 殿 × 将軍 方針壁打ち — Opus 4.7 と対話で方針を固める。家老には降ろさず、将軍と直接。 CH2 家老 → 足軽×7 重いシステム開発 — task YAML に分解し、Codex 足軽が並列実装。 CH3 軍師 (Opus effort=max) 技術リサーチ・QC — 独立 session で走らせ、別視点で盲点を拾う。subagent では構造的に持てない分離。 CH4 ChatGPT Pro 拡張シンキ ング ビジネス戦略・深い思考 — Edge CDP 経由で GPT-5.4 Pro へ投入。最強だが時間はかかる。殿は並行で将軍と別作業。 CH5 ntfy → スマホ 24時間自走 — 移動中も家老判断→足軽実装→ntfy 通知。殿は必要時のみ介入。 モデル多様性 × 役割分離 × 同時並行 — 単一 CLI・単一 session では物理的に不可能な運用形態 お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  8. PART 2 撤退・失敗 08 / 15 W H A T

    D I D N ' T W O R K 負けた話。これがリアル 3ヶ月のうち、捨てた仮説と効かなくなった配役を3つ。 学 び 並列数 < 配役品質 — 数より、適材適所 R E T R E A T 0 1 「8体並列」訴求の 撤退 Anthropic Agent Teams で並列実行が公式 機能化。差別化が消失したので、訴求軸を 「並列数」から「配役の宣言」に切り替え た。 ✕ D E C A Y 0 2 ダッシュボードの 形骸化 殿の使い方が変わり、Ctrl-B x2 で会話切替 が増えた。家老まで降ろさず、将軍だけで済 むことが増えた結果、ダッシュボード閲覧頻 度が低下。 ✕ A N T I - P A T T E R N 0 3 Opus 一本化で レート逼迫 Opus だけで回すとレート上限に達して止ま る。Codex に逃がす運用が必須になり、結 果 implement=Codex / review=Opus の配 役が定着。障害が配役の正解を教えてくれ た。 ✕ お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  9. PART 3 HARNESS ENGINEERING 再解釈 09 / 15 H A

    R N E S S = G I T W O R K F L O W の 再 実 装 ? これ、Git Workflow を bash で書き直してるだけで は? Hashimoto が名付けた「ハーネスエンジニアリング」。全員の話を並べたら、大半は GitHub が既に持っている機能。 L1 セットアップ — CLI の機能を ON にする hook、CLAUDE.md、MCP の設定。設計ではなく設定。これは「エンジ ニアリング」ではなく「引っ越し」 。 L2 ワークフロー移植 — Git Workflow をローカ ル再実装 PreToolUse=CI、CLAUDE.md=CODEOWNERS、承認=PR Review、linter ゲート=ステータスチェック。全部 GitHub が持っていた。 L3 未踏領域 — Git Workflow に対応物がない層 マルチエージェント協調 / 自律復帰 / 変更時の整合性 / busy deadlock 救 済。ここから本当のエンジニアリングが始まる。 現 状 世の中の記事の9割は L1〜L2の話をしている — L3を書いている人がまだ少ない お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  10. PART 3 L3 の正体 10 / 15 W H A

    T L 3 R E A L L Y I S L3 の正体 = 変更時の整合性 2026年、Spec-Driven Development(SDD)ツールが爆発的に増えた。全部、設計書を作って終わり。変更が入った後を解いてい ない。 # SDD 系 OSS / プロプラ(2026年4月時点) spec-kit ★ 87,862 # 設計書メーカー BMAD-METHOD ★ 44,575 # 21+ペルソナ OpenSpec ★ 39,843 # 差分は追う cc-sdd ★ 3,096 # TDD loop Kiro (AWS) # EARS記法 Intent (Augment) # macOS限定 Tessl ($125M) # プロプラ # 全部、変更時の伝搬を解いていない # martinfowler.com(Böckeler)の指摘: # "spec-first only, with unclear maintenance" → 8.7 万 ★ の正体 = 設計書メーカー 書いた日が 命日 設計書は作った瞬間から腐る。 上流が変わった時、下流を誰が直すのか。 gap V-Model が現実で破綻する理由 =変更伝搬が人力 need フロントマターで依存を宣言、グラフで追従 → ここを埋めるのが L3 の本丸 お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  11. PART 3 CODD = HARNESS AS CODE 11 / 15

    C O D D = H A R N E S S A S C O D E ハーネスをコードとして書く時代 ── as Code の系譜に CoDD SWE-bench Verified 73/73 = 100% / Opus 4.6 単体 80.8% + ハーネス = +20 pt # Harness as Code の系譜 Infrastructure as Code → Terraform # インフラをコードで Policy as Code → OPA / Rego # ポリシーをコードで Pipeline as Code → GitHub Actions # CI をコードで Harness as Code → shogun / CoDD # ハーネスをコードで # CoDD のパイプラインは、ただのシェル $ codd extract . # 既存コード→設計書 $ codd scan docs/ # 依存グラフ構築 $ codd impact --diff HEAD~1 # 変更影響範囲 $ codd propagate --update # 下流自動更新 $ codd fix # テスト自動修正 # 設計書は markdown、パイプラインは bash 73/73 = 100% SWE-bench Verified モデルは部品、ハーネスがプロダクト。 Opus 4.6 単体 80.8% → ハーネス込みで 100%。 dev 30日 / 127コミット / 16,101行 — 人間コード 0 行 how スマホだけで音声指示 — Claude Code が書いた → pip install codd-dev お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  12. PART 3 殿の答え 12 / 15 T H E A

    N S W E R 揮発するから、累積する。 テキストに残せば、累積しない。 エージェント同士の対話を YAML としてコンテキストに残す。 それを設計・実装するのが Harness 。 ▮ Cognition「誤差累積」への回答 = Terraform が再現性を担保するのと同じ構造 お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  13. PART 3 HARNESS AS CODE の両輪 13 / 15 T

    W O W H E E L S O F H A R N E S S A S C O D E shogun(配役) × CoDD(整合性) Harness Engineering を 3 Layer に分解すると、両者は独立して別レイヤーをカバー(連携はしない。それぞれ個別に利用可能)。 共 通 項 markdown / YAML で宣言 ・ git で永続・再現・diff ・ 人間=本質指摘 / AI=補完・実装・整合性 L1 + L2 / Setup + Workflow shogun 配役 / 誰が・何を・いつやるか cmd YAML で命令、inbox / tmux pane で agent 通信、状態を git diff で追跡。 .claude/CLAUDE.md queue/cmd/*.yaml queue/inbox/{agent}.yaml scripts/inbox_write.sh L 3 / C O H E R E N C E O N C H A N G E CoDD 整合性 / 何を作るか・依存はどう動くか 設計書 frontmatter から extract / impact / propagate。SWE-bench Verified 73/73 = 100%。 docs/*.md (with frontmatter) codd extract / impact / propagate pip install codd-dev お 塩 / @SHIO_SHOPPAIZE #ENECHANGE_MEETUP
  14. CLOSING 持ち帰り + リソース 14 / 15 T A K

    E T H I S H O M E 揮発するから、累積する。 テキストに残せば、累積しない。 AIにコードを書かせる配管を、Code で書く時代に来ている。 配 役 レ イ ヤ / L A Y E R 1 + 2 multi-agent-shogun github.com/yohey-w/multi-agent-shogun 整 合 性 レ イ ヤ / L A Y E R 3 codd-dev github.com/yohey-w/codd-dev 記 事 / Z E N N Harness as Code zenn.dev/shio_shoppaize 実況歓迎 #enechange_meetup お塩 / @shio_shoppaize ZENN: HARNESS AS CODE シ リ ー ズ × 7 本 公 開 済 #ENECHANGE_MEETUP
  15. 武 FIN 終 幕 15 / 15 — F I

    N — 討ち取ったり 討ち取ったり 討ち取ったり。 。 。 ご清聴、痛み入り候 — T h a n k y o u . — shogun codd-dev Zenn お 塩 / @SHIO_SHOPPAIZE / MULTI-AGENT-SHOGUN + CODD-DEV #ENECHANGE_MEETUP