自律型コーディングエージェントでどこまで出来るかやってみる~ Claude Code vs GitHub Copilot(Agent mode) ~ / How Far Can Autonomous Coding Agents Go? ~Claude Code vs GitHub Copilot (Agent Mode)~

社外秘X 自律型コーディングエージェントでどこまで出来るかやってみる ~Claude Code vs GitHub Copilot(Agent mode)~ KDDIアジャイル開発センター　三宅
潤也(@jnymyk) 2026.02.16 KAG AI Week Day1 LT

社外秘X まとめ・結論 • Claude Codeいいぞ🚀 ◦ プロダクト実装の Claude Code vs
プロトタイプ実装の GitHub Copilot Chat Agent mode(以降GitHub Copilotと記載) • 成果物の難易度が高いほど Claude Code優位 ◦ 簡単なものだと差が出ずらい • Claude Codeは仕様や技術選定を明確にすることでさらに開発の効率化や成果物の質が上がる余地がありそう

社外秘X 自己紹介 • 三宅潤也 Miyake Junya(@jnymyk) • KDDIアジャイル開発センター (KAG)
◦ アーキテクト /スクラムマスター • 好きなもの ◦ AWS/Azureのアーキテクチャを考えること ◦ Claude Code/GitHub Copilot ◦ ガンダム ▪ 閃光のハサウェイキルケーの魔女3回観にいきました🏝 ◦ オードリー ▪ 深夜ラジオ聴きながら散歩良くしています 󰣯

社外秘X 比較の全体像・目的 • 前提 ◦ KAG内のAI駆動開発推進の取り組み (AI駆動開発エバンジェリスト ) として、Autonomous Agentsチーム(KAG
山口歩夢さん、佐藤明智さん、木村太洋さん、三宅 )の4名で比較検証を実施。 ◦ GitHub Copilot(Chat agent mode)、Claude Codeを自律的なAI コーディングツールとして捉えたときに以下観点で比較 ▪ どこまで自律的に任せられるのか？ ▪ その成果物のクオリティはどうか？ • ツール選定背景 ◦ GitHub Copilot：現在のKAGの標準AIコーディングツールであり、社内で最も利用されているため。 ◦ Claude Code：一部案件での先行利用・一部メンバーの個人利用の好評を受けて全社導入を検討しておりKAGの標準ツール候補であるため。

社外秘X 比較の条件・評価指標 • GitHub Copilot(Agent mode), Claude Codeを以下条件・パターンで比較 ◦ 条件
▪ 利用モデル: Opus 4.5/4.6 ◦ 成果物: 難易度別に3つのパターンでWebアプリを生成 ▪ 低: 簡易的なゲームアプリ 🎮 ▪ 中: Instagram風SNS📱 ▪ 高: Figjam風ホワイトボードツール 📝 • 各成果物に対して２パターン実施 ◦ プロンプトによる一発出し ◦ 詳細要件の追加依頼 • 評価観点 ◦ 自律性(人間からの指摘回数 ) ◦ 受け入れ条件クリア率 ◦ 品質

社外秘X 6 KDDI Agile Development Center Corporation 3つの検証テーマからわかった各ツールの得意分野   評価軸
Claude Code GitHub Copilot 自律性（指摘回数の少なさ） ⭕⭕指摘少ない △指摘多い初回生成のUI品質（一発依頼） △ シンプル寄り ⭕見た目・構成良い複雑な要件への対応力 ⭕高難易度でも安定 ❌難易度が上がると崩壊バグ修正能力 ⭕的確に修正 △修正しきれない・新バグ混入 UIデザインの質 ⭕シンプルで実用的 ⭕⭕凝ったデザインアーキテクチャ構成力・技術選定 △HTML/JS/CSSに留まりがち ⭕npm/WebSocketまで構成プロトタイプのGitHub Copilot 　vs プロダクト実装のClaude Code   比較結果の概要  

社外秘X 7 KDDI Agile Development Center Corporation ざっくり依頼でゲームを作らせ、難易度をLv.1→Lv.4まで段階的に引き上げ   最低限ゲームが成立するまでの指摘回数を比較
  比較ケース 1(ゲーム🎮)  お題難易度 Claude Code GitHub Copilot 勝敗クリッカーゲーム Lv.1 指摘0回指摘1回 Claude勝ちテトリス風パズル Lv.2 指摘3回指摘3回引き分けリズムゲーム Lv.3 指摘1回指摘3回以上・ゲーム不成立 Claude勝ち格闘ゲーム Lv.4 指摘1回指摘3回以上・ゲーム不成立 Claude勝ちポイント  ・ Lv.1〜2では差は小さいが、Lv.3以上でClaude Codeが圧倒的に優位   ・ Copilotは複雑なロジックで崩壊する傾向   【参考】プロンプト例   テトリス風の落ちものパズルを作ってください。   - 7種類のテトリミノ   - 矢印キーで操作（左右移動、回転、高速落下）   - ライン消去とスコア   - ゲームオーバー判定 Claude Code GitHub Copilot

社外秘X 8 KDDI Agile Development Center Corporation • 両者ともに評価ポイントの機能は実装された  
• デザインはClaudeの方がシンプル。Copilotの方が凝っており実用に近い印象。   • 両者ともに追加指示でレスポンシブ対応。   • ポイントのリセット機能実装に差分あり   ◦ Copilotは追加指示をするもバグっていた。   ◦ Claudeは追加指示で正しく実装された。   参考: 比較ケース 1 ゲーム🎮の詳細（難易度 Lv.1: クリッカーゲーム）   Claude Code GitHub Copilot Claude Code GitHub Copilot ユーザーの指摘回数 0回 1回受け入れ条件のクリア率 100% 100% 品質良いバグなし悪いバグあり

社外秘X 9 KDDI Agile Development Center Corporation • 両者ともに評価ポイントの機能は実装された  
• デザインはClaudeの方がシンプル。Copilotの方が凝っており実用に近い印象。   • 両者ともに追加指示でレスポンシブ対応。   • ポイントのリセット機能実装に差分あり   ◦ Copilotは追加指示をするもバグっていた。   ◦ Claudeは追加指示で正しく実装された。   参考: 比較ケース 1 ゲーム🎮の詳細（難易度 Lv.2: テトリス風パズル）   Claude Code GitHub Copilot Claude Code GitHub Copilot ユーザーの指摘回数 3回 3回受け入れ条件のクリア率 100% 100% 品質良い良い途中バグあり

社外秘X 10 KDDI Agile Development Center Corporation 参考: 比較ケース 1
ゲーム🎮の詳細（難易度 Lv.3: リズムゲーム）   Claude Code GitHub Copilot Claude Code GitHub Copilot ユーザーの指摘回数 1回 3回不具合修正しきれず受け入れ条件のクリア率 100% 80% 品質良い悪いゲーム不成立 • Claude Codeの圧勝   ◦ Claude Codeはゲームとして成立したものの Copilotはゲームとして不成立   ◦ Copilot以下問題が残  ▪ 途中音がでなくなる問題が発生   ▪ ポーズ後の再開で音が少しズレる  

社外秘X 11 KDDI Agile Development Center Corporation 参考: 比較ケース 1
ゲーム🎮の詳細（難易度 Lv.4: 格闘ゲーム）   Claude Code GitHub Copilot

社外秘X 12 KDDI Agile Development Center Corporation ざっくりプロンプトで作らせ、受け入れ条件17項目を達成するまで指摘   比較ケース
2(Instagram風SNS📱)  評価項目 Claude Code GitHub Copilot 指示回数（初回〜起動） 6回（内：承認3、起動2） 3回（内：承認0、起動2）指摘回数（AC100%達成まで） 4回 10回初期クリア率 76.4% 58.8% 指摘後クリア率 100% 100% 初期UIの再現度 7/10 9/10 ポイント・ Claude Codeは初回完成度が高く、少ない指摘で100%到達（指摘4 回 vs 10回）・ GitHub CopilotはUIデザインの再現度が高い（Instagramらしい見た目）・ GitHub Copilotは「いいね一覧」「ブックマーク一覧」等が何度指摘しても実装されにくかった・ Claude Codeの「承認」はツール特性（権限確認）であり、実質的な介入ではない Claude Code GitHub Copilot

社外秘X 13 KDDI Agile Development Center Corporation 比較ケース 3(Figjamクローンのホワイトボードツール 📝)
 ホワイトボードツール「FigJam」の再現を2パターンで比較  パターン 1: 一発依頼「FigJamを再現して」のみ品質スコア Claude Code: 2/10 / GitHub Copilot: 6/10 ACクリア率 Claude Code: 30% / GitHub Copilot: 50% 特徴 Claude: HTML/JS/CSSのみ。共同編集なし GitHub Copilot: npm+WebSocketで共同編集まで構築 → GitHub Copilot優勢（「型」を作る瞬発力）パターン 2: 詳細要件受け入れ条件付き、100%達成まで品質スコア Claude Code: 8/10 / GitHub Copilot: 7/10 指摘回数 Claude Code: 32回 / GitHub Copilot: 43回 ACクリア率両者とも 100% → Claude Code優勢（約25%少ない指摘で全機能実装）まとめ・一発依頼ではGitHub Copilotがリード（npm/WebSocket構成を自動生成）・詳細要件ではClaude Codeが逆転（矢印追従・無限キャンバス等の高度ロジックで差） Claude Code GitHub Copilot Claude Code GitHub Copilot

社外秘X 考察 • Claude Codeの方が複雑な要件において良い生成結果が得られやすいのはコンテキストの扱いがCopilotよりも上手な印象あり。 ◦ さらにユーザー側でコンテキストを圧縮したり、クリアしたりなどすればさらによい出力が得られそうな感触があった。 •
特に意図したものでは無かったが、デプロイするクラウド環境やバックエンドで必要な外部サービスのAPI Keyなどを省略したことで、結果的にフロントエンド寄りの検証になった • フロントエンド、ローカルで動作する簡易的なバックエンドの実装に感しては、Claude の方が指摘回数が少ない傾向。Copilotは何度も同じ修正をすることがあった。 • Copilotは見栄えの良いUIがいい感じに出てくるものの、機能でバグが多い印象。 • Claude Codeでたまに生成内容の質が極端に落ちることがあるのは裏側のLLMの混雑時に推論時間を短くしている可能性あり？ • 0から作ると最初の出力の良し悪しで後続の生成物のクオリティに大きな影響があった。

社外秘X 15 KDDI Agile Development Center Corporation 3つのテーマからの横断分析   3テーマを横断して見えた一貫した傾向 
Claude Codeが一貫して優れる点観点ゲーム FigJam SNS 指摘回数の少なさ ◦ ◦（32vs43） ◦（4vs10）高難易度の安定性 ◎（Lv.3以上） ◦（複雑ロジック） ◦（初期76%）バグ修正の的確さ ◎ ◦ ◦ Copilotが一貫して優れる点観点ゲーム FigJam SNS 初回のUI品質 ◦ ◎（WebSocket） ◎（UI 9/10）一発依頼の瞬発力 △ ◦（品質6/10） ◦（手間少）共通の傾向・難易度が上がるほどClaude Codeが有利（3検証すべてで一致）・初回の見た目・構成はCopilotが優位だが、機能の完成度はClaude Code ・両者とも指摘を重ねれば100%到達可能だが、Claude Codeの方が少ない指摘で到達

社外秘X 16 KDDI Agile Development Center Corporation それぞれの強みを活かした使い分け   結論と使い分けの提案
  「最初の箱を作るのはCopilot、箱の中に本物の機能を詰めるのはClaude Code」フェーズ推奨ツール理由アイデア検証・プロトタイプ GitHub Copilot 曖昧な指示から「とりあえず動くもの」を高速に生成本格実装・品質向上 Claude Code 複雑な要件を少ない指摘で高品質に完遂 UI/デザイン重視 GitHub Copilot 見た目の完成度が高いロジック重視・高難易度 Claude Code BPM同期、入力バッファ等の複雑ロジックに強い

社外秘X 17 KDDI Agile Development Center Corporation 今後の展望   今回の検証で分かったことと、次のステップ 
今回の検証で分かったこと・プロンプトは詳細であるほど品質が安定する（ただしMCP連携は現状逆効果の可能性）・レスポンシブ対応は両者とも追加指示が必要・ 0から作ると初回ガチャの要素があり、その後の指摘回数に影響する今後の検証予定完全自律開発パイプライン Spec駆動開発生成AI活用可能性の検証検証条件使用モデル: Claude Opus 4.5/4.6 | 比較対象: Claude Code vs GitHub Copilot (Agent Mode) 各検証で同一プロンプトを使用 | 評価: 指摘回数・受け入れ条件クリア率・品質スコア

社外秘X [再掲] まとめ・結論 • Claude Codeいいぞ🚀 ◦ プロダクト実装の Claude Code
vs プロトタイプ実装の GitHub Copilot Chat Agent mode(以降GitHub Copilotと記載) • 成果物の難易度が高いほど Claude Code優位 ◦ 簡単なものだと差が出ずらい • Claude Codeは仕様や技術選定を明確にすることでさらに開発の効率化や成果物の質が上がる余地がありそう

Be a Change Leader. アジャイルに力を与え  共に成長し続ける社会を創る 

自律型コーディングエージェントでどこまで出来るかやってみる~ Claude Code vs G...

自律型コーディングエージェントでどこまで出来るかやってみる~ Claude Code vs GitHub Copilot(Agent mode) ~ / How Far Can Autonomous Coding Agents Go? ~Claude Code vs GitHub Copilot (Agent Mode)~

Junya Miyake

More Decks by Junya Miyake

Other Decks in Technology

Featured

Transcript

社外秘X 自律型コーディングエージェントでどこまで出来るかやってみる ~Claude Code vs GitHub Copilot(Agent mode)~ KDDIアジャイル開発センター　三宅

社外秘X まとめ・結論 • Claude Codeいいぞ🚀 ◦ プロダクト実装の Claude Code vs

社外秘X 自己紹介 • 三宅潤也 Miyake Junya(@jnymyk) • KDDIアジャイル開発センター (KAG)

社外秘X 比較の全体像・目的 • 前提 ◦ KAG内のAI駆動開発推進の取り組み (AI駆動開発エバンジェリスト ) として、Autonomous Agentsチーム(KAG

社外秘X 比較の条件・評価指標 • GitHub Copilot(Agent mode), Claude Codeを以下条件・パターンで比較 ◦ 条件

社外秘X 6 KDDI Agile Development Center Corporation 3つの検証テーマからわかった各ツールの得意分野   評価軸

社外秘X 7 KDDI Agile Development Center Corporation ざっくり依頼でゲームを作らせ、難易度をLv.1→Lv.4まで段階的に引き上げ   最低限ゲームが成立するまでの指摘回数を比較

社外秘X 8 KDDI Agile Development Center Corporation • 両者ともに評価ポイントの機能は実装された

社外秘X 9 KDDI Agile Development Center Corporation • 両者ともに評価ポイントの機能は実装された

社外秘X 10 KDDI Agile Development Center Corporation 参考: 比較ケース 1

社外秘X 11 KDDI Agile Development Center Corporation 参考: 比較ケース 1

社外秘X 12 KDDI Agile Development Center Corporation ざっくりプロンプトで作らせ、受け入れ条件17項目を達成するまで指摘   比較ケース

社外秘X 13 KDDI Agile Development Center Corporation 比較ケース 3(Figjamクローンのホワイトボードツール 📝)

社外秘X 15 KDDI Agile Development Center Corporation 3つのテーマからの横断分析   3テーマを横断して見えた一貫した傾向

社外秘X 16 KDDI Agile Development Center Corporation それぞれの強みを活かした使い分け   結論と使い分けの提案

社外秘X 17 KDDI Agile Development Center Corporation 今後の展望   今回の検証で分かったことと、次のステップ

社外秘X [再掲] まとめ・結論 • Claude Codeいいぞ🚀 ◦ プロダクト実装の Claude Code

Be a Change Leader. アジャイルに力を与え  共に成長し続ける社会を創る