Codexに役割を持たせる他のAIエージェントと組み合わせる実務Tips

Codexに役割を持たせる他のAIエージェントと組み合わせる実務Tips Codexどう使ってる？期待通りにいかない時の向き合い方と工夫 / 2026-03-06 #codex_findy

Masahiro OKAMOTO 株式会社TOKIUM ソフトウェアエンジニア経理AIエージェントの請求基盤開発を担当 o8n o8n_project 自己紹介 #codex_findy 2

ターゲット「Codex CLIにもっと任せられると思ったが、思ったほど自走しなかった」経験がある方ゴール Codex CLIが期待通りに動かなかった原因を理解できる次に試すタスクの依頼の仕方・前提設計が具体的にイメージできる ※ 本資料の比較値・見解は、2026-03-06時点で公開されている情報と、発表者の実務運用に基づくものですこの発表について
#codex_findy 3

1. 失敗編 — タスク設計を誤って学んだこと 2. 改善編 — Skillsで役割を分ける仕組みづくり 3. 進化編
— Codexの今とこれから目次 #codex_findy 4

失敗編 #codex_findy

「この機能を実装して」と丸投げ → 確認なしで突き進み、方向修正できなかった実装もレビューも同じAIに任せた → 同じバイアスで見落とし（エコーチェンバー）結局 Claude Code でやり直し
※ v0.81〜 Steer Modeで実行中に方向修正が可能に（v0.98〜デフォルトON）[1][2] タスク設計とレビューで失敗した #codex_findy 6

READMEのように開発情報を全部記載指定と違うコマンドを使う、規約を守らないコンテキストが埋もれて、重要な指示が届かなかった AGENTS.md に全部書きすぎた #codex_findy 7

1. タスクを小さく切り、AIごとに役割を分ける実装はClaude Code、レビューはCodex CLI 2. Skills/Commandsで手順を再現可能にする毎回の判断をワークフローに落とし込む 3. AGENTS.mdは最小限に絞る
守ってほしいルールだけ書く「役割」と「ワークフロー」を整えた #codex_findy 8

改善編 #codex_findy

Claude Code が全体を操縦し、各AIに役割を振るドライバー Claude Code 計画・実装・修正・PR作成 Codex read-onlyレビュー GitHub
Copilot PR⾃動レビューレビュー依頼結果返却 PR作成レビュー結果 Claude Code をドライバーにする #codex_findy 10

Claude Codeの Skills / Commands に各工程を定義 /plan — 計画作成 →
Codex CLIで自動レビュー（最大3回） /codex-review — 実装後のCodex CLIコードレビュー /create-pr — PR作成（実装計画を自動添付） /review-copilot — Copilotレビューの確認・Resolve tmux-sender — tmux経由でCodex CLIにコマンド送信 Skillsでワークフローを組む #codex_findy 11

タスク受取計画作成 Claude Code codex exec レビュー Codex (read-only) 指摘あり?
Yes 修正 Claude Code 最⼤3回 No 承認実装開始 /plan の自動レビューループ #codex_findy 12

Claude Code Codex Copilot ⼈間 Jiraチケット /plan 計画作成 codex exec
レビュー⾃動レビュー (最⼤3回) コード実装 /codex-review /create-pr PR作成 Copilotレビュー /review-copilot 指摘確認⼈間 Approve チケットからApproveまでの開発フロー #codex_findy 13

Codex開発者へのインタビュー [3] から見える現場の実践 Codex自身がCodexのコードの90%以上を生成エンジニア1人が4〜8の並列エージェントを運用 AIレビュー → 重要コードは人間レビュー必須の階層的レビュー AGENTS.mdは短く、最小要件のみ（コンテキストは希少資源） [4][5]
ルールはドキュメントではなくコードで強制（自動テスト・linting） Codexチームの実践から学ぶ #codex_findy 14

OpenAIがCodexを用いたagent-first開発の実践知として共有 [5] エンジニアの主業務は「コードを書く」から環境設計・意図の明文化・フィードバックループ設計へ 1. コンテキスト設計 — AGENTS.mdは短い目次にし、詳細は構造化ドキュメントに集約する 2.
制約のコード化 — カスタムlint・構造テストでアーキテクチャ境界を機械的に強制する 3. 継続的な健全化 — 定期エージェントで逸脱を検知し、小さな修正PRで継続回収する（garbage collection）約5か月・約100万行規模の内部β製品開発で得られた実践。コードは人間が直接書かず、人間は優先順位付け・受け入れ条件定義・検証を担当 [5] Harness Engineering とは #codex_findy 15

Codexチームわたし並列エージェント運⽤エンジニア1⼈ × 4〜8個 tmux + gwq で並列運⽤
ワークスペースを分割して同時実⾏並列実⾏階層的レビュー AI → 重要コードは⼈間必須 /codex-review Codex を read-only レビュアーに AIレビュー AGENTS.md ~100⾏マップとして機能、コードで強制 Skills / Commands 各⼯程をコマンドで定義フロー定義特別なことではなく、今日から始められる規模は違えど、やっていることは似てる #codex_findy 16

進化編 #codex_findy

指標 GPT-5.2-Codex GPT-5.3-Codex Claude Opus 4.6 SWE-Bench Pro 56.4% 56.8%
※ Terminal-Bench 2.0 64.0% 77.3% 65.4% 推論速度 — 5.2比で約25%高速 — コンテキスト 400K 400K 200K / 1M（beta） SWE-Bench Pro = 実際のOSSリポジトリのIssueをAIが解決できるか測る（スコアが高い＝バグ修正力が高い） Terminal-Bench 2.0 = ターミナル操作を伴う開発タスクをAIがこなせるか測る（スコアが高い＝CLI操作が得意） ※ AnthropicはSWE-Bench Verified（80.8%）を公開。Verifiedは人手で検証した500問のサブセット、Proは41リポジトリ1,865問に拡大した後継版で、直接比較不可 [8]。Codex値は [6]、400Kは [7] に基づく 2026/3/5にGPT-5.4がリリースされたが、リリース直後のため本資料では未反映（個人的所感）GPT-5.3-CodexのリリースからClaude Codeの操作感と遜色がなくなってきた Codexの進化が速い（公式公開値ベース） #codex_findy 18

実装もレビューも同じモデル → 同じバイアスを共有（エコーチェンバー）異なるモデルにレビューさせる → 検出パターンが変わり、見落としを減らせる可能性が高い例えるなら「同じチームの先輩レビュー」と「別チームからの外部レビュー」の違いなぜCodex CLIに「レビュー役」を任せるのか
#codex_findy 19

Claude Code のサブエージェントも並列で検証できる → ただし同一モデルのため、得意・不得意の傾向が共通実装で見逃した問題を、同じモデルがレビューで拾えるか？ → 盲点が重なるリスクがある Codex CLI（GPT-5-Codex）は異なるモデルベンダー・異なる開発思想
→ 別の視点からチェックできる可能性が高い Claudeのサブエージェントではダメなのか？ #codex_findy 20

Claude Opus 4.6は200K / 1M（beta）だが、長いセッションでcontext compaction （要約置換）が起きうる [8][9] この運用では、Codex CLIは毎回新規セッションでフレッシュな400Kコンテキストを使
える [7] → 実装の文脈に引きずられず、コードを客観的に読める Codex-Sparkは1,000+ tok/s → レビュー→修正→再レビューの往復が速い [10] OSSの定番パターンに強い傾向がある（所感） → 社内コードへの異なる視点として有効 Codex CLIのレビュー適性 #codex_findy 21

実装とレビューは別のAIに — Codex CLIにレビュー役を持たせる Skills/Commandsでフローを定義 — 手順を再現可能にする計画をレビューしてから実装 — /plan
で事前にCodex CLIの目を通すまとめ #codex_findy 22

AIエージェント活用の知見を発信しています TOKIUM_Dev tokium_dev #codex_findy

1. OpenAI, "Codex Changelog" https://developers.openai.com/codex/changelog/ 2. OpenAI, "Codex CLI features"
https://developers.openai.com/codex/cli/features/ 3. Gergely Orosz, "How Codex is built", The Pragmatic Engineer, 2026/2/17 https://newsletter.pragmaticengineer.com/p/how-codex-is-built 4. Gloaguen et al., "Evaluating AGENTS.md", arXiv:2602.11988, 2026/2/12 https://arxiv.org/abs/2602.11988 5. OpenAI, "Harness engineering: leveraging Codex in an agent-first world", 2026/2/20 https://openai.com/index/harness-engineering/ Appendix: 参考文献（1/2） #codex_findy

6. OpenAI, "Introducing GPT-5.3-Codex", 2026/2/5 https://openai.com/index/introducing-gpt-5-3-codex/ 7. OpenAI, "GPT-5-Codex Model
(API Docs)" https://platform.openai.com/docs/models/gpt-5-codex 8. Anthropic, "Introducing Claude Opus 4.6", 2026/2/5 https://www.anthropic.com/news/claude-opus-4-6 9. Anthropic Docs, "Context windows" https://docs.anthropic.com/en/docs/build-with-claude/context-windows 10. OpenAI, "Introducing GPT-5.3-Codex-Spark", 2026/2/12 https://openai.com/index/introducing-gpt-5-3-codex-spark/ Appendix: 参考文献（2/2） #codex_findy 25

Worktreeサポートが良い Plan Mode で計画→承認→実装の流れが自然に Claude Codeとの使い分けがしやすくなった個人的にはまだTUI派 Appendix: Codex App
を触ってみて #codex_findy 26

Codexに役割を持たせる他のAIエージェントと組み合わせる実務Tips

Codexに役割を持たせる他のAIエージェントと組み合わせる実務Tips

o8n

More Decks by o8n

Other Decks in Programming

Featured

Transcript