Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Codexに役割を持たせる 他のAIエージェントと組み合わせる実務Tips

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for o8n o8n
March 06, 2026

Codexに役割を持たせる 他のAIエージェントと組み合わせる実務Tips

Findy Lunch Talk「Codexどう使ってる?期待通りにいかない時の向き合い方と工夫」(2026年3月6日実施)で発表した資料です
https://findy.connpass.com/event/384314/

Avatar for o8n

o8n

March 06, 2026
Tweet

More Decks by o8n

Other Decks in Programming

Transcript

  1. Claude Code が全体を操縦し、各AIに役割を振る ドライバー Claude Code 計画・実装・修正・PR作成 Codex read-onlyレビュー GitHub

    Copilot PR⾃動レビュー レビュー依頼 結果返却 PR作成 レビュー結果 Claude Code をドライバーにする #codex_findy 10
  2. Claude Codeの Skills / Commands に各工程を定義 /plan — 計画作成 →

    Codex CLIで自動レビュー(最大3回) /codex-review — 実装後のCodex CLIコードレビュー /create-pr — PR作成(実装計画を自動添付) /review-copilot — Copilotレビューの確認・Resolve tmux-sender — tmux経由でCodex CLIにコマンド送信 Skillsでワークフローを組む #codex_findy 11
  3. タスク受取 計画作成 Claude Code codex exec レビュー Codex (read-only) 指摘あり?

    Yes 修正 Claude Code 最⼤3回 No 承認 実装開始 /plan の自動レビューループ #codex_findy 12
  4. Claude Code Codex Copilot ⼈間 Jiraチケット /plan 計画作成 codex exec

    レビュー ⾃動レビュー (最⼤3回) コード実装 /codex-review /create-pr PR作成 Copilotレビュー /review-copilot 指摘確認 ⼈間 Approve チケットからApproveまでの開発フロー #codex_findy 13
  5. OpenAIがCodexを用いたagent-first開発の実践知として共有 [5] エンジニアの主業務は「コードを書く」から環境設計・意図の明文化・フィードバックループ設 計へ 1. コンテキスト設計 — AGENTS.mdは短い目次にし、詳細は構造化ドキュメントに集約す る 2.

    制約のコード化 — カスタムlint・構造テストでアーキテクチャ境界を機械的に強制する 3. 継続的な健全化 — 定期エージェントで逸脱を検知し、小さな修正PRで継続回収する (garbage collection) 約5か月・約100万行規模の内部β製品開発で得られた実践。コードは人間が直接書かず、人間は優先順位付け・受 け入れ条件定義・検証を担当 [5] Harness Engineering とは #codex_findy 15
  6. Codexチーム わたし 並列エージェント運⽤ エンジニア1⼈ × 4〜8個 tmux + gwq で並列運⽤

    ワークスペースを分割して同時実⾏ 並列実⾏ 階層的レビュー AI → 重要コードは⼈間必須 /codex-review Codex を read-only レビュアーに AIレビュー AGENTS.md ~100⾏ マップとして機能、コードで強制 Skills / Commands 各⼯程をコマンドで定義 フロー定義 特別なことではなく、今日から始められる 規模は違えど、やっていることは似てる #codex_findy 16
  7. 指標 GPT-5.2-Codex GPT-5.3-Codex Claude Opus 4.6 SWE-Bench Pro 56.4% 56.8%

    ※ Terminal-Bench 2.0 64.0% 77.3% 65.4% 推論速度 — 5.2比で約25%高速 — コンテキスト 400K 400K 200K / 1M(beta) SWE-Bench Pro = 実際のOSSリポジトリのIssueをAIが解決できるか測る(スコアが高い=バグ修正力が高い) Terminal-Bench 2.0 = ターミナル操作を伴う開発タスクをAIがこなせるか測る(スコアが高い=CLI操作が得意) ※ AnthropicはSWE-Bench Verified(80.8%)を公開。Verifiedは人手で検証した500問のサブセット、Proは41リポジトリ1,865問に拡大した後継版で、直接比較不可 [8]。Codex値は [6]、400Kは [7] に基づく 2026/3/5にGPT-5.4がリリースされたが、リリース直後のため本資料では未反映 (個人的所感)GPT-5.3-CodexのリリースからClaude Codeの操作感と遜色がなくなってきた Codexの進化が速い(公式公開値ベース) #codex_findy 18
  8. Claude Opus 4.6は200K / 1M(beta)だが、長いセッションでcontext compaction (要約置換)が起きうる [8][9] この運用では、Codex CLIは毎回新規セッションでフレッシュな400Kコンテキストを使

    える [7] → 実装の文脈に引きずられず、コードを客観的に読める Codex-Sparkは1,000+ tok/s → レビュー→修正→再レビューの往復が速い [10] OSSの定番パターンに強い傾向がある(所感) → 社内コードへの異なる視点として有効 Codex CLIのレビュー適性 #codex_findy 21
  9. 1. OpenAI, "Codex Changelog" https://developers.openai.com/codex/changelog/ 2. OpenAI, "Codex CLI features"

    https://developers.openai.com/codex/cli/features/ 3. Gergely Orosz, "How Codex is built", The Pragmatic Engineer, 2026/2/17 https://newsletter.pragmaticengineer.com/p/how-codex-is-built 4. Gloaguen et al., "Evaluating AGENTS.md", arXiv:2602.11988, 2026/2/12 https://arxiv.org/abs/2602.11988 5. OpenAI, "Harness engineering: leveraging Codex in an agent-first world", 2026/2/20 https://openai.com/index/harness-engineering/ Appendix: 参考文献(1/2) #codex_findy
  10. 6. OpenAI, "Introducing GPT-5.3-Codex", 2026/2/5 https://openai.com/index/introducing-gpt-5-3-codex/ 7. OpenAI, "GPT-5-Codex Model

    (API Docs)" https://platform.openai.com/docs/models/gpt-5-codex 8. Anthropic, "Introducing Claude Opus 4.6", 2026/2/5 https://www.anthropic.com/news/claude-opus-4-6 9. Anthropic Docs, "Context windows" https://docs.anthropic.com/en/docs/build-with-claude/context-windows 10. OpenAI, "Introducing GPT-5.3-Codex-Spark", 2026/2/12 https://openai.com/index/introducing-gpt-5-3-codex-spark/ Appendix: 参考文献(2/2) #codex_findy 25