【20260319 AI×DevOpsStudy #8】POSシステム開発におけるClaude Codeエージェント設計と成果物の差分検証

POSシステム開発における Claude Codeエージェント設計と成果物の差分検証 2026/03/19 株式会社マーベリックス中堀翔太、⿅島司

発表者⾃⼰紹介① • ⽒名：中堀翔太 • 株式会社マーベリックス • Webエンジニア（主にバックエンド）約13年
• AI活⽤歴：約半年 ◦ Cursor / Claude Code ◦ Google Workspace（Gemini） 2

発表者⾃⼰紹介② • ⽒名：⿅島司 • 株式会社マーベリックス • Webエンジニア（主にフロントエンド）約5年 •
AI活⽤歴：約半年 ◦ Cursor / Claude Code ◦ Google Workspace（Gemini） 3

今回のアジェンダ • 背景 ◦ AI駆動開発でチーム全員が "⼀定品質を出せる仕組み作り" • 課題 ◦ 同⼀のClaude
Codeでも設計次第で "出⼒内容に統⼀性がない" • 仮説 ◦ "AIへのガードレールと⼿順書" を整備すれば解決できるのではないか • 検証‧結果 ◦ "AIへのガードレール整備‧⼿順書整備" の効果を Before/After で検証 • 考察と展望 ◦ 属⼈化ではなくなることを実証し、"チームへの展開⽅法" を考える 4

この発表で伝えたいこと • プロジェクトの暗黙知を型に落とし込んでAIに渡せば、AIの出⼒は安定する • AIの挙動は環境（コンテキスト）次第。ガードレールを設計し、迷わせないのが⼈間の役割 5

背景 6 このPOSシステムができるまで

POSとは？ POS（Point of Sale）= 商品が売れる瞬間を管理するシステムコンビニやスーパーのレジがイメージしやすい今回デモ開発したのは以下の通り • 中規模⼩売店を想定したマイクロサービス型 POS
デモアプリ • 顧客：バーコードスキャン → 在庫確認 → ⽀払い → レシート発⾏ • 管理者：商品‧在庫管理、売上確認 • 商品‧在庫‧注⽂‧⽀払‧レシートの 5 サービス構成 7

マイクロサービスアーキテクチャとは？システムを「⼩さく独⽴したサービスの集まり」として構築する設計⼿法 • モノリス（従来型） ◦ 全機能が1つのアプリにまとまっている ◦ 変更‧スケールが全体に影響する •
マイクロサービス ◦ 機能ごとに独⽴したサービスに分割 ◦ サービスは互いに連携して1つのシステムを構成する ◦ 今回の POS は商品‧在庫‧注⽂‧⽀払‧ レシートの 5 サービスが該当する 8 モノリス/マイクロサービスのイメージ図出典：https://mercart.jp/contents/detail/85

開発の背景：2回⽬のPOS開発 9 人がすべて開発した場合（推定） POS 1回目（AI駆動） POS 2回目（今回）期間推定 6〜9ヶ月
約3ヶ月約3週間（2/18〜）工数推定 1,220時間約 900時間約 56時間 1回⽬の課題： AIが⽂脈なしにコードを⽣成すると、OrderService が責務過多な巨⼤クラス化し「物理的には分散‧論理的には密結合」な分散モノリスになっていた 2回⽬のアプローチ：計画フェーズを⾒直し、設計段階で分散モノリスを防ぐ構造を整えた上で再開発。ただし、実装品質のブレという新たな課題が浮上した ℹ この発表は「2回目をどう設計したか」の記録でもある

フェーズごとの担当分担の変化 10

利⽤ツール① coding-agent-for-scalardb • 株式会社Scalar 深津さん開発の Claude Code 向けツール https://github.com/wfukatsu/codin g-agent-for-scalardb
• ScalarDB 設計ドキュメント（Phase1〜4）を⾃動⽣成 11 ⾃動⽣成 https://zenn.dev/scalar_sol_blog/articles/d29e83ccd61209

利⽤ツール② compound-engineering-plugin • Every社が提唱する「作るほど開発が加速する」開発⼿法のClaude Code 拡張プラグイン https://github.com/EveryInc/co
mpound-engineering-plugin • 4ステップのループで AI の学びをチームの資産として蓄積する 12

利⽤ツール② compound-engineering-plugin • 計画 (Plan) ◦ AIが課題を調査し、詳細な実装計画を策定 ◦ 構築前に⼈間とAIで「何を作るか」の共通認識を築く •
実⾏ (Work) ◦ AIが計画をToDoに分解し、⾃律的にコーディングとテストを遂⾏ ◦ 私たちは指⽰と⾒守りを担当する • 評価 (Review) ◦ 私たちとAI（複数のサブエージェント）が成果物を多⾓的に検証 ◦ 単なる動作確認だけでなく、得られた教訓も抽出する • 複利化 (Compound) ◦ このループの核⼼部分 ◦ 抽出した教訓を指定のディレクトリに永続化し、チームの共通資産とする 13

POSシステム概要 • 13リポジトリ構成（5マイクロサービス + フロントエンド + BFF + 共有ライブラリ +
インフラ） • 各サービスは独⽴してデプロイ可能なマイクロサービス設計 14

本システムの技術スタック 15 カテゴリ技術 AI コーディングエージェント Claude Code, モデル：Claude Sonnet
4.6 / Haiku 4.5 バックエンド Java 21 / Spring Boot 3.2.5 DB ミドルウェア ScalarDB 3.16.0 データストア PostgreSQL / Cassandra / DynamoDB BFF Hono（Node.js / TypeScript）メッセージング Apache Kafka インフラ Docker / Kubernetes

ScalarDB概要 • 異種 DB をまたいで ACID トランザクションを実現する DB ミドルウェア •
DBミドルウェア固有の書き⽅（OCC/2PC）があり、通常の Spring コードとは異なる 16 出典：https://scalardb.scalar-labs.com/ja-jp/docs/latest/overview

なぜ ScalarDB を使うのか • 並列開発：サービス間の独⽴性が保たれ、複数 AI エージェントが同時に実装できる ◦ 各サービスが独⽴したスキーマを持つため、他サービスの変更を気にせず実装を進められる •
トランザクション保証：複雑な Saga/TCC を書かずに、サービスをまたいだ整合性を保てる ◦ AI エージェントは例外処理が苦⼿で、Saga/TCC の補償処理まで指⽰するとオーケストレータを含む⼤きなコンテキストが必要になる ◦ ScalarDB の 2PC を使うと AI は「呼び出すだけ」で整合性が保証され、コンテキストを⼩さく保てる • 境界の保護：ScalarDB 経由のアクセスに限定されるため、AI がサービス境界を越えにくい ◦ 他サービスの DB が⾒える状態だと、AI が直接アクセスして境界を壊してしまうことがある • 環境差異の吸収：異種 DB を抽象化することで、ローカル〜本番の差異を最⼩化できる ◦ ローカルは OSS の PostgreSQL/Cassandra、本番はクラウドサービスを使っても同じコードで動く 17

課題 18 同じAIなのに、なぜ差が出るのか

plan があっても参照は保証されない • CLAUDE.md に plan の場所（output/phase1/ 〜 phase4/）は記載されている ◦
Claude は「plan がどこにあるか」は知っている • ただし「知っている」≠「必ず読む」 ◦ 実装タスクが来たとき、plan を読むかどうかは Claude がその場で判断する • コンテキストが⼗分に⾒えていると判断した場合、読まずに実装を進めてしまう • 「必ず plan を読む」という仕組みを設けていないため、読むかどうかは Claude 次第でブレる 19 ⚠ 場所を知っている ≠ 必ず読む。確実性がないことがブレの原因

知っている ≠ 必ず読む 20

仮説 21 AIへの設定を整備すれば変わるのでは

AI設定の整備の⽅針「Claude 次第」の余地を減らし、「必ず読む」状態を設計することを⽬指した • rules/：paths 条件で該当ファイルを触ったとき⾃動読み込み ◦ 実装中に制約が確実に伝わる • skills/：「いつ使うか」のトリガーを
description に明⽰ ◦ AI が⾃律的に参照タイミングを判断できる ◦ 特に「ユーザーが実際に⾔いそうな⾔葉」を含めるとスキル名を知らなくても AI が能動的に選択できる 22

AIへの指⽰書置き場（.claude/） • Claude Code が会話開始時‧ファイル編集時に⾃動で読み込む設定ディレクトリ • 「このプロジェクトの常識」を AI に教えるための場所
• ここに書いた知識‧ルール‧⼿順が、AI の判断基準になる • つまり `.claude/` の中⾝が、AI の出⼒品質を決める 23 ℹ .claude/ の中身を設計することが、AI の出力品質を決める

.claude/ の構成 • rules/：17ファイル • skills/：実装前準備‧ノウハウ永続化などのワークフロー定義 24

.claude/ の中⾝：何を⼊れるか 25 機能定義するもの使うとき CLAUDE.md 前提条件常に適用されるプロジェクト全体の設定やルールを定義したいとき Subagents
どんな専門家か特定の領域（コーディング、テスト等）を専門とする人格に委託・並列実行させたいとき Skills どうやるか複雑な手順、専門知識、ベストプラクティスを具体的に定義して再利用したいとき Commands 何をやるかよく使う定型的な指示を短縮コマンドとしてまとめたいとき Rules パス別の前提特定のディレクトリやファイル種別ごとに異なる設定やルールを適用したいとき • 今回の発表では rules/ と skills/ を中⼼に解説します。 • 出典：https://speakerdeck.com/scalar/2-dezaintoshi-zhuang?slide=34

AIへのガードレール設計（rules/） • DBミドルウェア固有の制約‧コーディング規約‧アーキテクチャパターンを記述する • AI は「知らない」だけで制約違反コードを⽣成する。知識を渡せば防げる • フロントマターの paths
条件でファイル編集時に⾃動読み込みされる仕組み • 本プロジェクトでは17ファイル • ⼀度書けばチーム全員‧全モデルで再現できる 26

rules/ 設計事例①：リポジトリ実装 • ルールファイル：repository.md • 仮説との紐づけ：DBミドルウェア固有の知識がなければ、AI は Spring
Data JPA で実装してしまう • 例）ScalarDB ではリポジトリを Spring Data JPA ではなく ScalarDB API で実装する必要がある 27 paths 条件にマッチした場合のみ⾃動で読み込まれる

rules/ 設計事例②：複数サービスをまたぐデータ更新 • ルールファイル：two-phase-commit.md • 仮説との紐づけ：複数サービスにまたがる取引の⼿順を知らなければ、AI は途中のフェーズを省略してしまう •
例）注⽂確定では begin → join → prepare → validate → commit の全フェーズを踏む必要がある 28

skills/ とは：AIへの⼿順書置き場 • SKILL.md に「いつ使うか（トリガー）」「何をするか（⼿順）」「何を出すか（出⼒）」を定義する • 3ステップ以上かかる、複数ファイルをまたぐ、専⾨知識が必要な業務が対象 • スラッシュコマンド（/skill-name）で呼び出すと、AI
が毎回同じ⼿順で実⾏してくれる • rules は「やってはいけないこと」を守るガードレール、skills は「やるべき⼿順」を定義するワークフロー 29

skills/ 設計事例①：実装前準備スキル • スキル名：/impl-prep • 実装開始前に実⾏するだけでよい • 設計ドキュメントから DBミドルウェア固
有の実装パターンを⾃動で抽出してくれる • トランザクション境界‧ API の使⽤パターン‧ リポジトリ設計をサマリー出⼒ 30

skills/ 設計事例②：ノウハウの永続化スキル • スキル名：/solutions-reflect • 実装中に解決した問題とその解決策をドキュメントとして記録しておく • スキルが記録内容を分析し、rules/ や
skills/ へ⾃動で落とし込む • ⼀度解決した問題はルール化され、同じミスが繰り返されない 31

検証‧結果 32 設定の効果を検証する

今回の検証の前提とスコープ • 対象は5サービス（order / product / inventory / payment /
receipt） • 変える条件は .claude/rules/ と .claude/skills/ の有無だけ • モデルは Claude Haiku（最軽量モデル）固定、各5回試⾏、コマンドは実装コードの⾃動⽣成のみ • 評価スキルで8観点チェック、5サービス × 各5試⾏ × before / after 計50回分 • 動作テストやコードレビューは対象外 33 判定意味 PASS 実装計画の仕様を満たしている CONDITIONAL PASS 方向性は正しいが仕様と一部食い違う（要改善） FAIL ScalarDB の制約を根本的に誤っており、本番で障害・データ不整合に直結する

評価の8観点（前半） 34 # 観点概要 rules, skillsなしの場合 1 TX管理トランザクションマネージャーの使い分け
@Transactional を全処理に一律適用 2 OCC リトライ競合例外の種別キャッチとリトライ制御汎用 Exception で一括処理・リトライなし 3 CRUD API Insert / Update の正しい使い分け旧 API（Put）や JPA 風の書き方を使用 4 Repository インタフェース型の正しい使用具象クラスを直接受け取る実装 2PC：分散DB間でのデータ整合性が100%保証される OCCリトライ：高並列な注文が入ってもエラーにならず、自動で再試行される

評価の8観点（後半） 35 # 観点概要 rules, skillsなしの場合 5 Entity 設計
イミュータブル設計の遵守 @Data で可変オブジェクトを生成 6 ディレクトリ構成 ScalarDB DDD 準拠のパッケージ構造汎用的な技術名ディレクトリを使用 7 DB設定 database.properties の必須設定 application.yml の JPA 設定のみ 8 例外処理 UnknownCommitStatusException の適切な処理汎用 Exception → HTTP 500 で処理 ※ この8観点は本検証用の独自基準です UnknownCommitStatusException：トランザクションのコミット結果が不明な状態（ネットワーク障害など）をハンドリングできる

設定ありでコードはどう変わるか • デモ動画‧⽐較表の指⽰は「注⽂サービスを実装して」で before / after 共通 ◦ afterのデモ動画は次スライド •
実際の検証は対象の5サービスで実施し、⽐較表の後に集計結果を掲載 36 同条件でbeforeで実装した際のスクショ

デモ動画：設定ありでコードはどう変わるか 37

ルールの効果(⼀例)：2PC 実装の before / after 「2PC サポートは将来の拡張として検討が必要」とコメントを残したまま、通常のトランザクション処理で代替実装 38 participantService.join(txId)
で正しく 2PC に参加し、原⼦性が保証される ↑ ルールなし ↑ ルールあり

コード⽐較：観点別の結果（1/2） 39 観点 Before（rules, skills なし） After（rules, skills あり） TX
管理照会にも TwoPhaseCommitTX を使用（Coordinator 書き込みが発生）→ CP TX マネージャーを用途別に分離。読み取りは DistributedTX、2PC は TwoPhaseCommitTX OCC リトライ UncommittedRecordException 未キャッチ → CP 例外種別ごとに独立カウンターでリトライ CRUD API Put API（旧 API）使用 → FAIL Insert / Update 使い分け Repository DistributedTransaction 型を直接受け取り → CP TransactionCrudOperable 第1引数（2PC 対応） Entity 設計 @Dataで全フィールドに setter 生成・非 final → FAIL final フィールド・状態変更は新インスタンス返却 ※ order-service 1試行の抜粋

コード⽐較：観点別の結果（2/2） 40 観点 Before（rules, skills なし） After（rules, skills あり）ディレクトリ
infrastructure/grpc/ 等（技術名）→ FAIL infrastructure/scalardb/（ScalarDB DDD 準拠） database.properties scalar.db.transaction_manager=clust er 含む → PASS scalar.db.transaction_manager=cluste r 含む例外処理 UnknownCommitStatusException 未キャッチ → FAIL UnknownCommitStatusException → HTTP 503 総合判定 FAIL（4 FAIL / 3 CP / 1 PASS） PASS（8/8） ※ order-service 1試行の抜粋

order-service：5試⾏の傾向 41 観点 Before PASS率 After PASS率傾向 TX管理 3/5（60%）
5/5（100%）改善 OCC リトライ 0/5（0%） 2/5（40%）改善 CRUD API 0/5（0%） 5/5（100%）⼤幅改善 Repository 0/5（0%） 5/5（100%）⼤幅改善 Entity 設計 0/5（0%） 5/5（100%）⼤幅改善ディレクトリ 3/5（60%） 4/5（80%）改善 DB設定 3/5（60%） 5/5（100%）改善例外処理 0/5（0%） 3/5（60%）改善 ⚠ CRUD / Repository / Entity は完全再現。OCC リトライ・例外処理は after でも改善余地あり

5サービス集計結果 42 サービス Before After 改善幅備考 order-service 23% 85%
+62pt product-service 3% 65% +62pt inventory-service 22% 82% +60pt payment-service 50% 73% +23pt before-3〜5 が元から高品質 receipt-service 20% 53% +33pt ScalarDB 非適用（3観点のみ）

各サービスの傾向 43 サービス良い点注目点 order CRUD / Repository /
Entity が after で完全再現（5/5 PASS）例外処理は after でも不安定 product TX管理・Repository が完全再現 DB設定の設定値ゆれが課題 inventory ほぼ全観点で大幅改善例外処理は after でも全 FAIL payment TX管理・Entity が高品質 before-3〜5 が元から高品質で差が小さい receipt ディレクトリ構成が after で全 PASS ScalarDB 非適用のため before/after で大きな差なし

検証まとめ：仮説は正しかったか • 仮説は検証で裏付けられた • CRUD / Repository / Entity の3観
点は after で 5/5 PASS（完全再現性） • ただし 100% ではない。例外処理はafter でも平均 40% 程度にとどまった 44 +62pt +62pt +60pt +23pt +33pt

この検証でエンジニアがやったこと AI は「コードを⽣成」、エンジニアは「AI がよいコードを⽣成できる状態の設計」という役割分担をした • rules/ に制約‧禁⽌パターンを記述した • skills/
に⼿順‧トリガーを定義した • これらは「コードを書く」のではなく「AI への知識と⼿順の設計」 45

考察と展望 46 エンジニアの役割はどう変わるか

エンジニアの仕事はどう変わるか • これまで：実装者として直接コードを書く • これから：AI が正しく動ける環境を整える側に回る • これからのAI時代の仕事は「何を守らせるか」を設計すること • rules/
と skills/ を整備することが、チームのエンジニアリング⼒につながる 47 ℹ 「AI に任せる」のではなく「AI が正しく動ける環境を作る」が私たちの仕事

チームへの展開：ノウハウをチームの資産に • 解決した問題は解決策とともにドキュメントとして記録する • ノウハウ永続化スキルがその内容を rules/ や skills/ に⾃動で反映する •
蓄積されたノウハウは次回も参照するので、同じ失敗を繰り返さない • 新メンバーが⼊っても .claude/ を参照すればすぐキャッチアップできる • 「個⼈の経験」から「チームの資産」へ 48

本⽇のまとめ • ① ガードレール設計（rules/） • DBミドルウェア固有の制約をテキストに落とし、AI が⾃然に守れる環境をつくる • ⼀度書けばチーム全員‧全モデルで再現できる •
② ⼿順の構造化（skills/） • 属⼈化していた複雑な⼿順をスキルとして定義し、誰でも同じ品質で実⾏できる • 解決した問題を永続化する仕組みで、チームは学び続けられる • ③ 品質の⼀貫性（.claude/） • rules/ と skills/ の組み合わせで「知識」と「⼿順」の両⽅を AI に渡せる • AI に任せるのではなく、AI が正しく動ける環境を私たちが設計する 49 ✅ rules/skills の整備が、1回目（約609時間）→ 2回目（約56時間）という結果にも繋がる

Next Step • 繰り返し発⽣しているコードレビュー指摘を rules/ に書き出してみる • 属⼈化している複雑な⼿順を skills/ に定義してみる
• 解決した問題を記録する習慣をつけ、チームの資産として積み上げる 50

GitHub scalar-labs/scalardb connpass Scalar Please give us a star on
GitHub! AIxDevOps Study 毎週⽕曜開催

【20260319 AI×DevOpsStudy #8】POSシステム開発におけるClaude...

【20260319 AI×DevOpsStudy #8】POSシステム開発におけるClaude Codeエージェント設計と成果物の差分検証

More Decks by Scalar, Inc.

Other Decks in Technology

Featured

Transcript