AIレビュアーをスケールさせるには / Scaling AI Reviewers

AIレビュアーをスケールさせるにはレビュー観点を増やしても速度と精度が落ちない仕組みの実現株式会社グロービス大沼和也 1

目指したもの：スケールの二大要素レビュー観点を増やしても 1. 速度が落ちない 2. 精度が落ちない 2

Devinでの試験導入(2025年1月頃) 成果人間の見落としを補完する有機的レビュー直面した課題 Knowledge増加による性能低下出力の不安定性コントロールの難しさコストが高い 3

Roo Codeでの改善(2025年4月頃) 技術的ブレイクスルー Subtask(Boomerang Tasks)によるコンテキスト分離 LLMの仕事をTestable化手元での検証容易性残された課題 CI統合の困難さ非同期実行不可による速度限界
4

Claude Code Actionによる解決(2025年6月頃) 二大条件のクリア Subagents機能 + 非同期実行精度と速度の両立を実現運用面での改善 CI完全統合
デバッグの容易化 CIでも手元でも、同じレビューを実行可能 5

Claude Code Action によるレビューで起きていること機能開発をしているバックエンドエンジニア（SRE,FEなど）以外からの機能追加やちょっとした修正をするためのPRが増加文言修正レベルであればPOからもPRが出る慣れていない開発者でも、レビュー後のちょっとした修正まで一気通貫でClaude Code Actionが対応
6

実装事例1：Dependabot PR レビューの自動化 Before 膨大な依存関係の更新を人手でレビューリリースノートの確認作業が手間潜在的な問題の見落としリスク After パッケージアップデートの共通作業をAIに委譲自動でリリースノート翻訳・issue検索など情報収集
→人間が集まった情報をもとにリスク評価を実施 7

Dependabotレビューの実際の動作 AIが自動で実行することリリースノートを日本語で要約破壊的変更の検出セキュリティ修正の確認アップグレード後のIssue調査 8

関連Issue・PRの自動調査人によってやるやらがブレていた作業を自動化リリース後に作成されたIssueを検出既知の問題やバグの事前把握 9

DevExチームの工夫と評価工夫したポイントリリースノートの日本語翻訳でマークダウン形式を維持 GitHub CLI利用を指定してWebSearchより確実な検索 AIだけでなく、人間が見てもわかるような手順書のように指示を書いている不具合発見ができる可能性が高まる「行動」をAIに指示良いところや感想新規メンバーの学習にも活用可能パッケージアップデートの標準化:
組織全体で200件/月程度のPR量カバレッジ90%のCIはやはり大事 10

実装事例2：Subagent を活用したレビューレビューの分散並列処理非同期実行で速度問題を解決コンテキストを適切に分離して精度向上モード別に特化したレビューコード責務特化 FlakyTests特化機密情報特化
見落としがちなパターン特化 11

Subagents の詳細 Orchestratorによる制御 PRの内容を分析自動的にSubagentを選定し依頼 Subagentsからの結果を統合してレビューを返却開発時の強みローカルでもコマンドでレビュー実行可能 CIと同じレビューを手元で事前確認高速なフィードバックループの実現
12

サブエージェントのデバッグ容易性 GHAログをもとに手元で Task単位でのデバッグ可能 Task Parameters subagent_type description prompt Result
詳細なレビュー結果問題点と良い点の明記 13

AIレビューの精度測定とテスタビリティ定量的な精度測定の実現 PRコメント単位での採用率を測定 →レビュー精度向上につなげる 14

精度測定システムの特徴採用率のモニタリングカテゴリ別の強み・弱みの可視化継続的な改善サイクル実装の容易さこの測定自体もClaude Codeで簡単に構築可能 15

まとめ：スケールするAIレビュアーの実現達成したこと速度と精度の両立を実現人間とAIの協働モデルの確立継続的改善のサイクル構築今後の展望さらなる精度向上ドメイン特化型レビュアーの開発全チーム展開に向けて準備中 16

ご清聴ありがとうございました 17

AIレビュアーをスケールさせるには / Scaling AI Reviewers

AIレビュアーをスケールさせるには / Scaling AI Reviewers

technuma

More Decks by technuma

Other Decks in Programming

Featured

Transcript

AIレビュアーをスケールさせるにはレビュー観点を増やしても速度と精度が落ちない仕組みの実現株式会社グロービス大沼和也 1

目指したもの：スケールの二大要素レビュー観点を増やしても 1. 速度が落ちない 2. 精度が落ちない 2

Devinでの試験導入(2025年1月頃) 成果人間の見落としを補完する有機的レビュー直面した課題 Knowledge増加による性能低下出力の不安定性コントロールの難しさコストが高い 3

Roo Codeでの改善(2025年4月頃) 技術的ブレイクスルー Subtask(Boomerang Tasks)によるコンテキスト分離 LLMの仕事をTestable化手元での検証容易性残された課題 CI統合の困難さ非同期実行不可による速度限界

Claude Code Actionによる解決(2025年6月頃) 二大条件のクリア Subagents機能 + 非同期実行精度と速度の両立を実現運用面での改善 CI完全統合

Dependabotレビューの実際の動作 AIが自動で実行することリリースノートを日本語で要約破壊的変更の検出セキュリティ修正の確認アップグレード後のIssue調査 8

関連Issue・PRの自動調査人によってやるやらがブレていた作業を自動化リリース後に作成されたIssueを検出既知の問題やバグの事前把握 9

実装事例2：Subagent を活用したレビューレビューの分散並列処理非同期実行で速度問題を解決コンテキストを適切に分離して精度向上モード別に特化したレビューコード責務特化 FlakyTests特化機密情報特化

サブエージェントのデバッグ容易性 GHAログをもとに手元で Task単位でのデバッグ可能 Task Parameters subagent_type description prompt Result

AIレビューの精度測定とテスタビリティ定量的な精度測定の実現 PRコメント単位での採用率を測定 →レビュー精度向上につなげる 14

精度測定システムの特徴採用率のモニタリングカテゴリ別の強み・弱みの可視化継続的な改善サイクル実装の容易さこの測定自体もClaude Codeで簡単に構築可能 15

ご清聴ありがとうございました 17