Slide 1

Slide 1 text

AIにAIのplanをレビューをさせるSKILLを作った Claude Code × Codex クロスレビューの記録 2026/2/24 俺の勉強会 #5 wabi 1

Slide 2

Slide 2 text

先に結論 AIが作った計画は、別モデルのAIにレビューさせるとよい ただし目的は人間レビューの完全な代替ではなく、見落とし・大方針の事前 検討 そのための /codex-review skillを作った 2

Slide 3

Slide 3 text

/codex-review Claude Code で作ったplanを Codex MCP 経由でレビューするスキル https://github.com/wabi1318/codex-review-skill plan: Claude Code が実装前にコードベースを調査し作成する実装計画 skill: SKILL.md で定義する Claude Code の拡張機能( / コマンド名 で呼び 出せる) 3

Slide 4

Slide 4 text

フロー 人間 → スコープ決め・方向付け・指示 ↓ Plan Mode (Claude Code ) ↓ 実装プランを作成 ↓ ( 人間 → プラン確認) ↓ /codex-review 実行 ↓ ① Codex MCP にプラン送信 ↓ ② レビュー結果を受信 ↓ Claude Code が判定 → 採用 / 却下 / 要確認 ↓ 人間 → 最終レビュー・承認 4

Slide 5

Slide 5 text

なぜplanをレビューすることにしたのか コードになる前に方向を正す方がコストが安い 手戻りしたくない プラン段階なら、影響範囲・依存関係・デグレのリスクを実装前に潰せる ただし LLM にレビューを任せきりにはできない 人間の介在と異なるモデルでのクロスレビューが必要 5

Slide 6

Slide 6 text

LLM単独のコードレビューは信頼できるか? GPT-4o vs Gemini 2.0 Flash — 492コードブロックで検証 指標 GPT-4o Gemini 正誤判定の正答率 68.50% 63.89% コード修正率 67.83% 54.26% 最高でも正答率 68% — 完全自動化には不十分 データセットによって優劣が逆転する場合がある → 人間の介在 + 自社のコードベースに合わせた最適なモデルの選択・検証 が必要 出典: Cihan et al., Evaluating LLMs for Code Review (2025) 6

Slide 7

Slide 7 text

LLMによる自己検証にも限界がある 自己検証の根本リスク LLMに自分の出力を検証させると、誤り検出・制約遵守・ハルシネーシ ョンで見逃しが起きうる → 同一モデルの自己レビューだけに頼らない 複雑要件を単独で処理する限界 (VeriPlan が引用する先行研究では)GPT-4 の planning tasks 成功率 平均12% → 高性能LLMでも外部サポートが必要 出典: Lee et al., VeriPlan: Integrating Formal Verification and LLMs into End- User Planning (CHI 2025) 7

Slide 8

Slide 8 text

人間×AIの協働パターン Human First, Computer Last(HF-CL) 人間が大局的な方向付け → AIが精密な調整 エキスパート単独の約半分のコストで目標達成 (Kanarik et al., Human–machine collaboration for improving semiconductor process development) 8

Slide 9

Slide 9 text

人間×AIの協働パターン 役割分担レビュー 専門の異なるエージェントを組み合わせ、多角的フィードバック 単一の視点だけでは拾いにくい論点を補完しやすい (Rasheed et al., AI-powered Code Review with LLMs: Early Results) 9

Slide 10

Slide 10 text

今回の /codex-review 設計に引き直すと 人間: スコープ / 優先度 / 最終的な採否判断 / 必要なら都度介入 Claude Code: 実装プラン作成・修正 Codex: 外部視点で抜け漏れ・回帰リスクを事前チェック → 人間が重要な判断、異なるAIモデルで相互検証する構成 10

Slide 11

Slide 11 text

実際のプロンプト(抜粋) あなたは実装プランのレビュアーです。 # レビュー手順 以下の順番でプランをレビューしてください: 1. プランの意図を理解する — 問題と期待される成果を把握してからレビューする 2. 既存コードとの整合性と回帰リスク — 見落としや既存機能を壊す変更はないか 3. より良いアプローチの提案 — 同じ目的をより簡潔・安全に達成できないか 改善点があれば以下のフォーマットで簡潔に指摘: - 指摘: 内容 根拠: 分析(1-2 文) 無視した場合のリスク: 具体的な問題 11

Slide 12

Slide 12 text

実際に何を検出したか Codex レビューが実際に見つけた問題の例: 検出パターン 深刻度 画面でデータ取得関数の呼び出し漏れ Critical 必須パラメータ未取得時の保存ガード漏れ High 機能移動後の旧ロジック削除漏れ High シェルスクリプトの条件分岐の真偽逆転 — git コマンドオプションの意味逆転リスク — 12

Slide 13

Slide 13 text

まとめ 1. コードより前に、planをレビューする 方向を正すコストが安い(と思った) この辺は今後定量的に評価したい 2. AI レビュアーは一次レビュー者 人間レビュアーの代替ではない 3. 異なるモデルのクロスレビュー 自己検証の盲点を補える 13

Slide 14

Slide 14 text

参考 https://www.nature.com/articles/s41586-023-05773-7 https://arxiv.org/abs/2505.20206 https://arxiv.org/abs/2404.18496 https://arxiv.org/abs/2502.17898 14

Slide 15

Slide 15 text

Thank you! 15