Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自律型コーディングエージェントでどこまで出来るかやってみる~ Claude Code vs G...

Avatar for Junya Miyake Junya Miyake
February 16, 2026

自律型コーディングエージェントでどこまで出来るかやってみる~ Claude Code vs GitHub Copilot(Agent mode) ~ / How Far Can Autonomous Coding Agents Go? ~Claude Code vs GitHub Copilot (Agent Mode)~

2026/2/16に実施したKAG AI Week Day1のLTの登壇資料です。

Avatar for Junya Miyake

Junya Miyake

February 16, 2026
Tweet

More Decks by Junya Miyake

Other Decks in Technology

Transcript

  1. 社外秘X まとめ・結論 • Claude Codeいいぞ🚀 ◦ プロダクト実装の Claude Code vs

    プロトタイプ実装の GitHub Copilot Chat Agent mode(以降GitHub Copilotと記載) • 成果物の難易度が高いほど Claude Code優位 ◦ 簡単なものだと差が出ずらい • Claude Codeは仕様や技術選定を明確にすることでさ らに開発の効率化や成果物の質が上がる余地がありそ う
  2. 社外秘X 自己紹介 • 三宅 潤也 Miyake Junya(@jnymyk) • KDDIアジャイル開発センター (KAG)

    ◦ アーキテクト /スクラムマスター • 好きなもの ◦ AWS/Azureのアーキテクチャを考えること ◦ Claude Code/GitHub Copilot ◦ ガンダム ▪ 閃光のハサウェイ キルケーの魔女3回観にいき ました🏝 ◦ オードリー ▪ 深夜ラジオ聴きながら散歩良くしています 󰣯
  3. 社外秘X 比較の全体像・目的 • 前提 ◦ KAG内のAI駆動開発推進の取り組み (AI駆動開発エバンジェリスト ) として、Autonomous Agentsチーム(KAG

    山口 歩夢さん、佐藤 明 智さん、木村 太洋さん、三宅 )の4名で比較検証を実施。 ◦ GitHub Copilot(Chat agent mode)、Claude Codeを自律的なAI コーディングツールとして捉えたときに以下観点で比較 ▪ どこまで自律的 に任せられるのか? ▪ その成果物のクオリティ はどうか? • ツール選定背景 ◦ GitHub Copilot:現在のKAGの標準AIコーディングツールであり、社内 で最も利用されているため。 ◦ Claude Code:一部案件での先行利用・一部メンバーの個人利用の好 評を受けて全社導入を検討しておりKAGの標準ツール候補であるた め。
  4. 社外秘X 比較の条件・評価指標 • GitHub Copilot(Agent mode), Claude Codeを以下条件・パターンで比較 ◦ 条件

    ▪ 利用モデル: Opus 4.5/4.6 ◦ 成果物: 難易度別に3つのパターンでWebアプリを生成 ▪ 低: 簡易的なゲームアプリ 🎮 ▪ 中: Instagram風SNS📱 ▪ 高: Figjam風ホワイトボードツール 📝 • 各成果物に対して2パターン実施 ◦ プロンプトによる一発出し ◦ 詳細要件の追加依頼 • 評価観点 ◦ 自律性(人間からの指摘回数 ) ◦ 受け入れ条件クリア率 ◦ 品質
  5. 社外秘X 6 KDDI Agile Development Center Corporation 3つの検証テーマからわかった各ツールの得意分野 
 評価軸

    Claude Code GitHub Copilot 自律性(指摘回数の少なさ) ⭕⭕指摘少ない △指摘多い 初回生成のUI品質(一発依頼) △ シンプル寄り ⭕見た目・構成良い 複雑な要件への対応力 ⭕高難易度でも安定 ❌難易度が上がると崩壊 バグ修正能力 ⭕的確に修正 △修正しきれない・新バグ混入 UIデザインの質 ⭕シンプルで実用的 ⭕⭕凝ったデザイン アーキテクチャ構成力・技術選定 △HTML/JS/CSSに留まりがち ⭕npm/WebSocketまで構成 プロトタイプ のGitHub Copilot  vs プロダクト実装 のClaude Code 
 比較結果の概要 

  6. 社外秘X 7 KDDI Agile Development Center Corporation ざっくり依頼でゲームを作らせ、難易度をLv.1→Lv.4まで段階的に引き上げ 
 最低限ゲームが成立するまでの指摘回数を比較

    
 比較ケース 1(ゲーム🎮)
 お題 難易度 Claude Code GitHub Copilot 勝敗 クリッカーゲーム Lv.1 指摘0回 指摘1回 Claude勝ち テトリス風パズル Lv.2 指摘3回 指摘3回 引き分け リズムゲーム Lv.3 指摘1回 指摘3回以上・ゲーム不成立 Claude勝ち 格闘ゲーム Lv.4 指摘1回 指摘3回以上・ゲーム不成立 Claude勝ち ポイント
 ・ Lv.1〜2では差は小さいが、Lv.3以上でClaude Codeが圧倒的に優位 
 ・ Copilotは複雑なロジックで崩壊する傾向 
 【参考】プロンプト例 
 テトリス風の落ちものパズルを作ってください。 
 - 7種類のテトリミノ 
 - 矢印キーで操作(左右移動、回転、高速落下) 
 - ライン消去とスコア 
 - ゲームオーバー判定 Claude Code GitHub Copilot
  7. 社外秘X 8 KDDI Agile Development Center Corporation • 両者ともに評価ポイントの機能は実装された 


    • デザインはClaudeの方がシンプル。Copilotの方が 凝っており実用に近い印象。 
 • 両者ともに追加指示でレスポンシブ対応。 
 • ポイントのリセット機能実装に差分あり 
 ◦ Copilotは追加指示をするもバグっていた。 
 ◦ Claudeは追加指示で正しく実装された。 
 参考: 比較ケース 1 ゲーム🎮の詳細(難易度 Lv.1: クリッカーゲーム) 
 Claude Code GitHub Copilot Claude Code GitHub Copilot ユーザーの 指摘回数 0回 1回 受け入れ条件 のクリア率 100% 100% 品質 良い バグなし 悪い バグあり
  8. 社外秘X 9 KDDI Agile Development Center Corporation • 両者ともに評価ポイントの機能は実装された 


    • デザインはClaudeの方がシンプル。Copilotの方が 凝っており実用に近い印象。 
 • 両者ともに追加指示でレスポンシブ対応。 
 • ポイントのリセット機能実装に差分あり 
 ◦ Copilotは追加指示をするもバグっていた。 
 ◦ Claudeは追加指示で正しく実装された。 
 参考: 比較ケース 1 ゲーム🎮の詳細(難易度 Lv.2: テトリス風パズル) 
 Claude Code GitHub Copilot Claude Code GitHub Copilot ユーザーの 指摘回数 3回 3回 受け入れ条件 のクリア率 100% 100% 品質 良い 良い 途中バグあり
  9. 社外秘X 10 KDDI Agile Development Center Corporation 参考: 比較ケース 1

    ゲーム🎮の詳細(難易度 Lv.3: リズムゲーム) 
 Claude Code GitHub Copilot Claude Code GitHub Copilot ユーザーの 指摘回数 1回 3回 不具合修正しきれず 受け入れ条件 のクリア率 100% 80% 品質 良い 悪い ゲーム不成立 • Claude Codeの圧勝 
 ◦ Claude Codeはゲームとして成立したものの Copilotはゲームとして不成立 
 ◦ Copilot以下問題が残
 ▪ 途中音がでなくなる問題が発生 
 ▪ ポーズ後の再開で音が少しズレる 

  10. 社外秘X 11 KDDI Agile Development Center Corporation 参考: 比較ケース 1

    ゲーム🎮の詳細(難易度 Lv.4: 格闘ゲーム) 
 Claude Code GitHub Copilot
  11. 社外秘X 12 KDDI Agile Development Center Corporation ざっくりプロンプトで作らせ、受け入れ条件17項目を達成するまで指摘 
 比較ケース

    2(Instagram風SNS📱)
 評価項目 Claude Code GitHub Copilot 指示回数(初回〜起動) 6回(内:承認3、起動2) 3回(内:承認0、起動2) 指摘回数(AC100%達成まで) 4回 10回 初期クリア率 76.4% 58.8% 指摘後クリア率 100% 100% 初期UIの再現度 7/10 9/10 ポイント ・ Claude Codeは初回完成度が高く、少ない指摘で100%到達(指摘4 回 vs 10回) ・ GitHub CopilotはUIデザインの再現度が高い(Instagramらしい見た 目) ・ GitHub Copilotは「いいね一覧」「ブックマーク一覧」等が何度指摘し ても実装されにくかった ・ Claude Codeの「承認」はツール特性(権限確認)であり、実質的な 介入ではない Claude Code GitHub Copilot
  12. 社外秘X 13 KDDI Agile Development Center Corporation 比較ケース 3(Figjamクローンのホワイトボードツール 📝)

    
ホワイトボードツール「FigJam」の再現を2パターンで比較
 パターン 1: 一発依頼 「FigJamを再現して」のみ 品質スコア Claude Code: 2/10 / GitHub Copilot: 6/10 ACクリア率 Claude Code: 30% / GitHub Copilot: 50% 特徴 Claude: HTML/JS/CSSのみ。共同編集なし GitHub Copilot: npm+WebSocketで共同編集まで構築 → GitHub Copilot優勢(「型」を作る瞬発力) パターン 2: 詳細要件 受け入れ条件付き、100%達成まで 品質スコア Claude Code: 8/10 / GitHub Copilot: 7/10 指摘回数 Claude Code: 32回 / GitHub Copilot: 43回 ACクリア率 両者とも 100% → Claude Code優勢(約25%少ない指摘で全機能実装) まとめ ・ 一発依頼ではGitHub Copilotがリード(npm/WebSocket構成を自動生成) ・ 詳細要件ではClaude Codeが逆転(矢印追従・無限キャンバス等の高度ロジックで差) Claude Code GitHub Copilot Claude Code GitHub Copilot
  13. 社外秘X 考察 • Claude Codeの方が複雑な要件において良い生成結果が得られやすいのはコンテキ ストの扱いがCopilotよりも上手な印象あり。 ◦ さらにユーザー側でコンテキストを圧縮したり、クリアしたりなどすればさらによい 出力が得られそうな感触があった。 •

    特に意図したものでは無かったが、デプロイするクラウド環境やバックエンドで必要な 外部サービスのAPI Keyなどを省略したことで、結果的にフロントエンド寄りの検証に なった • フロントエンド、ローカルで動作する簡易的なバックエンドの実装に感しては、Claude の方が指摘回数が少ない傾向。Copilotは何度も同じ修正をすることがあった。 • Copilotは見栄えの良いUIがいい感じに出てくるものの、機能でバグが多い印象。 • Claude Codeでたまに生成内容の質が極端に落ちることがあるのは裏側のLLMの混 雑時に推論時間を短くしている可能性あり? • 0から作ると最初の出力の良し悪しで後続の生成物のクオリティに大きな影響があっ た。
  14. 社外秘X 15 KDDI Agile Development Center Corporation 3つのテーマからの横断分析 
 3テーマを横断して見えた一貫した傾向


    Claude Codeが一貫して優れる点 観点 ゲーム FigJam SNS 指摘回数の少なさ ◦ ◦(32vs43) ◦(4vs10) 高難易度の安定性 ◎(Lv.3以上) ◦(複雑ロジック) ◦(初期76%) バグ修正の的確さ ◎ ◦ ◦ Copilotが一貫して優れる点 観点 ゲーム FigJam SNS 初回のUI品質 ◦ ◎(WebSocket) ◎(UI 9/10) 一発依頼の瞬発力 △ ◦(品質6/10) ◦(手間少) 共通の傾向 ・ 難易度が上がるほどClaude Codeが有利(3検証すべてで一致) ・ 初回の見た目・構成はCopilotが優位だが、機能の完成度はClaude Code ・ 両者とも指摘を重ねれば100%到達可能だが、Claude Codeの方が少ない指摘で到達
  15. 社外秘X 16 KDDI Agile Development Center Corporation それぞれの強みを活かした使い分け 
 結論と使い分けの提案

    
 「最初の箱を作るのはCopilot、箱の中に本物の機能を詰めるのはClaude Code」 フェーズ 推奨ツール 理由 アイデア検証・プロトタイプ GitHub Copilot 曖昧な指示から「とりあえず動くもの」を高速に生成 本格実装・品質向上 Claude Code 複雑な要件を少ない指摘で高品質に完遂 UI/デザイン重視 GitHub Copilot 見た目の完成度が高い ロジック重視・高難易度 Claude Code BPM同期、入力バッファ等の複雑ロジックに強い
  16. 社外秘X 17 KDDI Agile Development Center Corporation 今後の展望 
 今回の検証で分かったことと、次のステップ


    今回の検証で分かったこと ・ プロンプトは詳細であるほど品質が安定する (ただしMCP連携は現状逆効果の可能性) ・ レスポンシブ対応は両者とも追加指示が必要 ・ 0から作ると初回ガチャの要素があり、 その後の指摘回数に影響する 今後の検証予定 完全自律開発パイプライン Spec駆動開発 生成AI活用可能性の検証 検証条件 使用モデル: Claude Opus 4.5/4.6 | 比較対象: Claude Code vs GitHub Copilot (Agent Mode) 各検証で同一プロンプトを使用 | 評価: 指摘回数・受け入れ条件クリア率・品質スコア
  17. 社外秘X [再掲] まとめ・結論 • Claude Codeいいぞ🚀 ◦ プロダクト実装の Claude Code

    vs プロトタイプ実装の GitHub Copilot Chat Agent mode(以降GitHub Copilotと記載) • 成果物の難易度が高いほど Claude Code優位 ◦ 簡単なものだと差が出ずらい • Claude Codeは仕様や技術選定を明確にすることでさ らに開発の効率化や成果物の質が上がる余地がありそ う