Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIにAIのplanをレビューをさせるSKILLを作った

Avatar for wabi wabi
February 24, 2026
15

 AIにAIのplanをレビューをさせるSKILLを作った

Avatar for wabi

wabi

February 24, 2026
Tweet

More Decks by wabi

Transcript

  1. /codex-review Claude Code で作ったplanを Codex MCP 経由でレビューするスキル https://github.com/wabi1318/codex-review-skill plan: Claude

    Code が実装前にコードベースを調査し作成する実装計画 skill: SKILL.md で定義する Claude Code の拡張機能( / コマンド名 で呼び 出せる) 3
  2. フロー 人間 → スコープ決め・方向付け・指示 ↓ Plan Mode (Claude Code )

    ↓ 実装プランを作成 ↓ ( 人間 → プラン確認) ↓ /codex-review 実行 ↓ ① Codex MCP にプラン送信 ↓ ② レビュー結果を受信 ↓ Claude Code が判定 → 採用 / 却下 / 要確認 ↓ 人間 → 最終レビュー・承認 4
  3. LLM単独のコードレビューは信頼できるか? GPT-4o vs Gemini 2.0 Flash — 492コードブロックで検証 指標 GPT-4o

    Gemini 正誤判定の正答率 68.50% 63.89% コード修正率 67.83% 54.26% 最高でも正答率 68% — 完全自動化には不十分 データセットによって優劣が逆転する場合がある → 人間の介在 + 自社のコードベースに合わせた最適なモデルの選択・検証 が必要 出典: Cihan et al., Evaluating LLMs for Code Review (2025) 6
  4. 今回の /codex-review 設計に引き直すと 人間: スコープ / 優先度 / 最終的な採否判断 /

    必要なら都度介入 Claude Code: 実装プラン作成・修正 Codex: 外部視点で抜け漏れ・回帰リスクを事前チェック → 人間が重要な判断、異なるAIモデルで相互検証する構成 10
  5. 実際のプロンプト(抜粋) あなたは実装プランのレビュアーです。 # レビュー手順 以下の順番でプランをレビューしてください: 1. プランの意図を理解する — 問題と期待される成果を把握してからレビューする 2.

    既存コードとの整合性と回帰リスク — 見落としや既存機能を壊す変更はないか 3. より良いアプローチの提案 — 同じ目的をより簡潔・安全に達成できないか 改善点があれば以下のフォーマットで簡潔に指摘: - 指摘: 内容 根拠: 分析(1-2 文) 無視した場合のリスク: 具体的な問題 11