AIツールは本当に効くのか? Findyで検証するQodo Merge導入効果

AIツールは本当に効くのか? Findyで検証するQodo Merge導入効果 Bill One Engineering Unit 小木大嗣

会社概要 1 本社神山ラボ Sansan Innovation Lab 社名 Sansan株式会社
所在地本社東京都渋谷区桜丘町1-1 渋谷サクラステージ 28F グループ会社 Sansan Global Pte. Ltd.（シンガポール） Sansan Global Development Center, Inc.（フィリピン） Sansan Global (Thailand) Co., Ltd.（タイ）ログミー株式会社株式会社ダイヤモンド企業情報編集社ナインアウト株式会社株式会社言語理解研究所従業員数 1,961名（2025年5月31日時点） 2007年6月11日設立支店：関西支店、福岡支店、中部支店サテライトオフィス：Sansan神山ラボ、Sansan Innovation Lab、 Sansan長岡ラボ拠点寺田親弘代表者

小木大嗣 Sansan株式会社技術本部 Bill One Engineering Unit 普通のエンジニアです AI駆動開発ギルドのギルドマスターをやっています
> BillOneではメインのタスク以外を行う時に有志を集めて横串チームを作る時があります。誰でもチームを作ったり、チームに入ったりできます。それがギルドです

今日お話すること - 導入背景と課題 - Findy Team+を使った定量検証 - 現場で起きた定性的変化 - 今後の展望と期待

導入背景と課題

導入背景 - BOEUが最初に導入したAIツール : PR-Agent(現Qodo Merge) > 検討開始2024-06 から BOEU組織導入が2024-09
> Devin/Cline が日本で有名になる2025年初頭や春頃より前の “先行導入” - 組織目標「開発効率向上」に AIレビューが有効と判断 > Findyを有効活用した定量分析が活躍

導入時の課題 - 効果を示せずROI不明導入打ち切りリスク - リードタイム短縮などの効果が「感覚」ベースで議論が止まりがち - 組織貢献を説明できずに説得力ゼロ > 月額XXX万円使うのに「たぶん効果ある気がします！」で予算が通るは
ずもなく

業界共通の悩み - 投資対効果の可視化は死活問題 - データがない運用停止... はよくありがち - 確かな数字が継続的なAI活用の命綱

Findy Team+を使った定量検証

Findy Team+での検証方針 - PR データからAI レビュー付きPR を抽出 - バックエンド/フロントエンド両者が対象 -
Before/After 比較で効果を測定

データの可視化と整形 - サイクルタイム分析ページで全体の改善傾向をチェック - PR一覧をエクスポートクレンジング詳細な統計分析へ

分析手法 - 四分位範囲(IQR)で外れ値除去 - 平均・標準偏差を算出 - t 検定 + Bonferroni
補正で有意差を確認 - スループット = 1 時間あたりの PR 数として算出

Before / After 数値比較 (本格導入後6ヶ月) 指標 Before (h) After (h)
p-value コミット→オープン 24.77 16.28 0.005 オープン→レビュー 10.34 6.59 0.000 レビュー→承認 15.43 8.14 0.000 承認→マージ 9.54 5.39 0.000 オープン→マージ 35.67 19.62 0.000

数字が示すインパクト - リードタイム 45% 短縮 - スループット 82% 向上感覚ではなく
データで「効いた」と証明！

数字が示すインパクト(ROI) - 年間削減コスト 34,830,000 円 - 年間ROI 545%

現場で起きた定性的変化

定性的効果 – 学習と未然防止 - AI 指摘が後日の障害原因と一致未然防止 - 指摘をナレッジ化学習ベース
に蓄積 - 「レビュー観点が増えた」「ケアレスミスを指摘してくれて安心感がある」という現場の声

レビューフローと文化の変化 - AIによる 1次レビュー人による判断フローが標準化 > 分業によりレビュー漏れ・偏りを削減 - レビュー文化がボトムアップでアップデート

今後の展望と期待

今後の展望 AI レビューを品質保証装置へ進化 - インシデント ⇔ テスト ⇔
AIレビューの再帰ループ構築による継続的な品質改善 - 障害後のポストモーテムでAIレビューのカバレッジ計測 & 改善

Findy Team+ への期待 - 分析自動化・精度向上（レビュー密度 / 異常検出） > レビュー密度や経過時間からのAI効果推定 >
異常レビューの自動検出（短すぎる承認、レビュアー偏りなど） - レビュー文化のメタ分析支援 > AIレビューの観点や頻度、カテゴリの可視化 > チーム内でどう使われ、どこが無視されがちかといった傾向可視化

まとめあなたのチームは AI をどう活用しますか？ AI と共に開発組織の文化を育てていきましょう！ AIレビューは道具文化から
へ

参考リンク Vol. 05【Qodo Merge（旧PR-Agent）】Bill OneでのAI コードレビューの取り組みと得られた結果 https://buildersbox.corp-sansan.com/entry/2024/12/11/000000 リードタイム45%短縮・スループット82%向上。 SansanがFindy Team+で証明した
「AIレビューの投資対効果」 https://jp.findy-team.io/blog/ai-casestudy/ai_effectiveness_verification_sansan/

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/

AIツールは本当に効くのか? Findyで検証するQodo Merge導入効果

AIツールは本当に効くのか? Findyで検証するQodo Merge導入効果

SansanTech PRO

More Decks by SansanTech

Other Decks in Technology

Featured

Transcript