Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIによるソフトウェア開発の収束地点 - Hack Fes 2025

生成AIによるソフトウェア開発の収束地点 - Hack Fes 2025

登壇資料 HackFes.2025 | 日本ハッカー協会 https://hackfes2025.hacker.or.jp/

Avatar for vaaaaanquish

vaaaaanquish

August 13, 2025
Tweet

More Decks by vaaaaanquish

Other Decks in Technology

Transcript

  1. エムスリー株式会社 VPoE 株式会社Elith, PIVOT株式会社 技術顧問 Google Developer Experts (AI/ML) 高専→大学→Sansan→Yahoo!→M3

    ロボコン → 強化学習/連合学習/DNN LightGBM、XGBoost、Package Managerなど Python/Rust周辺でOSSコミッター CakeCTFなどのスポンサー @vaaaaanquish
  2. 機械学習分野におけるLLM 5 • Neural Network、Deep Learningの系譜 • Transformer/Attention is All

    you need • OpenAIの投資を筆頭にIndustry起点の発展 Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers [2024, Rajiv Movva] https://note.com/dev_onecareer/n/n92f5ec474554
  3. 機械学習分野におけるLLM 6 自然言語処理のトップ国際学会 ACLのAbstの 45% にLLM関連ワードが出現 計算機科学/統計学のarXiv全投稿中 41.8% がLLMに言及とする報告(*1) もある

    https://www.ntt-at.co.jp/column/ai-data-analysis/202407.html https://research-p.com/column/1964 (*1) https://hai.stanford.edu/ai-index/2025-ai-index-report
  4. 主要ツールと主要キーワードの系列 2021年6月 GitHub Copilot 2023年3月 Cursor 2023年12月 JetBrains AI Assistant

    2024年7月 Cline 2024年11月 Windsurf 2024年12月 Devin 2025年5月 Claude Code 2025年5月 GitHub Copilot Agent 2025年5月 OpenAI CodeX 2025年5月 Google Jules 2025年6月 Gemini CLI 2025年7月 Grok CLI 2025年7月 Kiro (AI業界は昔から名前付けたがりなので覚えなくても良い) Prompt Engineering タスク達成のために入力Promptを設計 Vibe Coding 手を加えずAIに命令する所作のみで開発 Agent Coding エージェント型のツールが実行計画を立てる 手や命令を出し協調して開発する Context Engineering Agent Codingでは.md等にコンテキストを 記載しておくのが重要とする考え方 Vible Coding 仕様書駆動でAgent Codingするスタイル
  5. 2021年6月 GitHub Copilot 2023年3月 Cursor 2023年12月 JetBrains AI Assistant 2024年7月

    Cline 2024年11月 Windsurf 2024年12月 Devin 2025年5月 Claude Code CLI 2025年5月 GitHub Copilot Agent 2025年5月 OpenAI CodeX 2025年5月 Google Jules 2025年6月 Gemini CLI 2025年7月 Grok CLI 2025年7月 Kiro #大きな変遷 LLMで補完やコメント追加、コード解説をする作業補完ベースのツール  ↓↓↓ LLMに命令し一定のコーディング作業を任せるAgentベースのツール #現在 GitHub上で使えて競技プログラミング最上位勢が作る Devin AgentベースかつCLIサポートがあり性能も良い Claude Code CLI が強く人気(※シーンや好みで使い分けもされている) 主要ツールの変遷
  6. 生成コーディングAIを体験する 開発者であればClaude Code CLIを使ってみると良い(懸念がある場合は次点でGemini CLI) • Anthropic Academy https://www.anthropic.com/learn ◦

    そもそもClaude Codeって、Agentって、MCPって何?という人向け ◦ 概念の解説から論文、エンプラ活用の有益なリンク、ipynbなどの実習まで存在 • Build with Claude https://docs.anthropic.com/ ◦ 基本的な設定、promptの書き方、Add-onやセキュリティ面まで大体ここに”良いやり方”がある ◦ 段階的にプロジェクトに導入していくためのナレッジもあるのでまずはここを読む 流行も毎月・毎週単位で変わるので上記を見ておくのが間違いない 多くのWeb記事のナレッジは工学的な検証、アップデートは基本行われていない (Accuracy/Precisionや応用上の精度まで考えると実験コストが非常に高い)
  7. Agent型コーディングツール Claude Code CLIの外観 CLAUDE.md /initにて作成、projectの解説等 docs project-structure dir構成、unittest、CI/CD等 Lead

    Agent /full-contextにより情報取得 MCPとのやり取り、検索 subタスクの実行計画、管理、実行 MCP Servers 各サービスをAgentが理解可能 なjson APIとして提供 SubAgent SubAgent SubAgent … hooks task間に挟める命令 prompt .claude 全体の設定、認証、rules等 code Lead/Sub Agent がLLMを呼び出す ・内部で呼び出すLLMモデルは多くがクラウドAPI形式、日進月歩 ・当然大きなLLMモデルはレスポンスは遅いが品質は良い  → Tiny/Largeモデルで使い分けるのが主流  → claude-opus, claude-sonnet, GPT-4.1, Gemini 2.5 Proくらいが択
  8. Agent型コーディングツール Claude Code CLIの外観 CLAUDE.md /initにて作成、projectの解説等 docs project-structure dir構成、unittest、CI/CD等 Lead

    Agent /full-contextにより情報取得 MCPとのやり取り、検索 subタスクの実行計画、管理、実行 MCP Servers 各サービスをAgentが理解可能 なjson APIとして提供 SubAgent SubAgent SubAgent … prompt .claude 全体の設定、認証、rules等 code 生成AIコーディングの精度について 内部LLMモデル精度 × project構成 × ツール実装(cli等) × Prompt × Add-on(mcp、hooks等) ・左から順に重要そうだという事が分かりつつある ・全てが変数でありセキュリティ検証や精度検証はより困難になりつつある hooks task間に挟める命令
  9. セキュアなClaude Codeの導入 GCP VertexAI や AWS Bedrock をLLMプロバイダとして使うと比較的安心 ・gcloud authの認証情報を利用した通信

    ・様々なモデルをGCP/AWSがホスティング、一部モデルは国内リージョンでも利用可能 ・モデルのon/off、監査ログ、利用者集計、limit/権限管理など管理者としての活用も容易 GCPでVertex AIを使ってAIコーディングエージェントの認証をセキュアでポータブルに管理してみる - エムスリーテックブログ https://www.m3tech.blog/entry/vertex_ai_dashboard
  10. ebayによるLocal LLMによる生産性の向上 [2024/02] Cutting Through the Noise: Three Things We've

    Learned About Generative AI and Developer Productivity - ebay (Feb 29, 2024 By: Senthil Padmanabhan) https://innovation.ebayinc.com/stories/cutting-through-the-noise-three-things-weve-learned-about-generative-ai-and-developer-productivity/ • 2023年のGitHub Copilotによる開発A/Bテスト ◦ 300人のSoftware Engineer ◦ 2週間の立ち上げの期間の後に検証 ◦ ebayの数百万行のコードベースではcontext sizeが足りず eBayCoder (Code Llama 13B) + ナレッジ追加のChatGPT + 知識RAG • Copilotを利用する開発者の生産性が有意に向上 ◦ Accept Rate: 27% ◦ 生成されたドキュメントの精度: 70% ◦ コードの精度: 60% ◦ PRのmergeまでの時間が 17% 削減 ◦ 変更のリードタイムが 12% 減少
  11. GitHub Copilotによるタスク完了率の向上 [2024/09] Cui, Zheyuan and Demirer, Mert and Jaffe,

    Sonia and Musolff, Leon and Peng, Sida and Salz, Tobias, The Effects of Generative AI on High-Skilled Work: Evidence from Three Field Experiments with Software Developers (Posted: 5 Sep 2024, Last revised: 22 Jun 2025, June 22, 2025). Available at SSRN: http://dx.doi.org/10.2139/ssrn.4945566 • 大規模な比較化実験 ◦ Microsoft/Accenture/匿名Fortune100企業 ◦ 4867人のSoftware Engineer • 生成AIを利用した開発者のタスク完了率が増加 ◦ 平均26.08%増(標準誤差10.3%) ◦ 勤続年数、職位の低いジュニア層に強い効果 ▪ AcceptRate、生産性(PR数)向上の双方で3.5ptの差 ◦ 導入率は全体の60~75% ▪ MS 75.6%、Accenture 69.4% ▪ 若手、ジュニアほど初期の導入率が高く継続利用も多い ▪ 一方、最終的に元々PRを多く出していた生産性が高い層の 導入率が少し上回るという逆転現象が起きた
  12. 組込み開発への利用 [2024/02] • マイクロコントローラ+センサ、アクチュエータを動かし物理的に評価 ◦ LLM(GPT‑3.5, GPT‑4, PaLM 2) ◦ 450件のハードウェア・イン・ザ・ループ(HIL)実験環境

    ◦ I²CやLoRaなどの通信から電力最適化など、10秒以内に±10%で動作するコード生成を検証 • コードと設計の両面で支援 ◦ I²Cドライバを単プロンプトで66%の確率で正しいコードを生成 ◦ LoRa通信やnRF52の電力消費を740倍削減 ◦ デバッグ、設計の支援 ▪ 人間との協調で初心者・熟練者共に LoRaセンサ構築の成功率が25%→100%に Tonnie, H., & Luitel, P. (2023). Exploring and Characterizing Large Language Models for Embedded System Development and Debugging. arXiv. https://arxiv.org/abs/2307.03817
  13. 実業務コーディングの割合公表値 17 [2024, Q3 earnings call: CEO’s remarks, Sundar Pichai]

    Googleの全ての新しいコードの4分の1は AIによって生成されている [2025,LlamaCon 2025, Satya Nadella] 社内のコードの20%~30%、おそらく プロジェクトの一部は全てAIが作っている 社内モデルが示唆されている2社でも概ね25%程度の代替
  14. ここまでの補完型と2025年のAgent型の大きな差 • AIがコード生成の実行中に色々やるようになった ◦ コード検索、理解、ファイル操作に加えて検索、自己調整、実行計画を立てるように ◦ CursorのようなVSCodeプラグインから進化、CLIツールが流行しCLIとの親和性もでてきた → 既存の資産、testやlinter、type check、git操作等AgentがCLIコマンドを実行するように

    ◦ mcpやhooksを利用して、任意の状況、タイミングで外部ツールやAPIをはさみながら実行 • 一方で評価検証が困難に ◦ 検証するには複雑な条件 ▪ 内部LLMモデル精度 × project構成 × ツール実装(cli等) × Prompt × Add-on(mcp、hooks等) ▪ コードベース量、ユーザの経験値、適応ドメインなどもパラメータ ◦ 検証するには高い料金 ▪ Agentが複数回APIリクエストを行うため、1分で$1くらいは平気で溶ける ▪ 全て諦めて並列でガンガン回すというパワープレイなナレッジ、ツールも登場 ◦ 多くの評価がまだ体感的 ▪ Anthropicも「45分かかる作業が1パスで」と言っているがその詳細は明かしていない (*1) ▪ Claude Code CLIは正確だが遅い、エラー処理やループ抜け出しは上手い (?) ▪ Gemini CLIは早い安い、打切も早く、コンテキストウィンドウがデカいので強い (?) *1 Claude 3.7 Sonnet and Claude Code - anthropic https://www.anthropic.com/news/claude-3-7-sonnet
  15. どこまで生産性は上がるのか [2025/03] • 加速度的に伸びる生産性の予測 ◦ ほぼ全ての分野で3~6ヶ月単位でAIの性能が倍増している ◦ 自動運転など遅い分野があるがほぼ全てが指数関数的 ◦ 2030年には現在1ヶ月かかっている

    ソフトウェア開発タスクのうち50%が自動化する予測 • Agent自体の性能も向上するのではないか ◦ 現在は1~3時間のタスクが限界だが、 半日から数日のタスクも扱えるようになっていく ◦ 一方メタ推論能力はまだ弱く タスク分解、stateの永続性、評価FB、ユーザとの協調 などの課題が解決している分野がないため改善が求められる Kwa, T., West, B., Becker, J., Deng, A., Garcia, K., Hasin, M., … Chan, L. (2025). Measuring AI Ability to Complete Long Tasks (arXiv:2503.14499v2). arXiv: https://doi.org/10.48550/arXiv.2503.14499, blog: https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/
  16. AI開発で本当に全ての生産性が向上するのか [2025/07] • シニアなOSS開発者による実験 ◦ 5年以上PJに関わった16名の開発者と246件のissue ◦ 110万行以上のプロジェクトに導入 ◦ Cursor

    ProとClaude 3.5/3.7 Sonnetを活用 • 課題解決速度は体感20%向上、実際は19%悪化 ◦ コード生成や検索時間は減るが Prompt設計や出力のレビュー、修正に時間がかかる • 被験者の感想がツイートされている ◦ https://x.com/QuentinAnthon15/status/1943948791775998069 ▪ 作業は「楽になった」と感じてはいるらしいが本人の作業時間は38%悪化 ▪ モデルが苦手なコード(カーネルや並列処理など)や対話が長くなってきた時の コンテキストの崩壊、残念なコードのレビューの大変さ、待ち時間が長く集中力が持たない問題 『もう一度試せば良いコードを引けるのではないか』というガチャ感を指摘 Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity - METR [2025] Blog: https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/ Paper: https://metr.org/common-elements.pdf#page=18
  17. メジャーなベンチマークとなるデータセット 課題に対するコード生成能力 • HumanEval ◦ OpenAIによって手作業で作成 ◦ 164の問題、自然言語の命令→コードの評価 ◦ 日本語のJHumanEvalも存在

    • MBPP (Mostly Basic Python Programming) ◦ クラウドソーシングで作成 ◦ Pythonの入門問題1000問 ◦ タスク説明、回答コード生成、自動テストの評価 • MultiPL-E ◦ 複数言語でのコード生成評価 ◦ 日本語のJMultiPL-Eも存在 • SQL系 ◦ Spider:イェール大学学生が注釈を付けたSQL問題 ◦ BIRD:香港大学が作成した12751問の自然言語→SQL • LiveCodeBench ◦ LeetCode、AtCoder、CodeForcesなど競プロ問題 ◦ コード生成+自己修正、コード実行、テスト出力予測 ◦ LiveCodeBench ProではICPCメダリストが注釈付 • OJBench ◦ NOIとICPCから232の問題で構成、厳密なテストが難関 どんどんメジャーな所は解かれており HumanEval (Pass@1)は100%で正答 SWE-benchもBigCodeBenchも 60%解くSolutionが存在 一方競プロLiveCodeBenchでは 高難易度問題はほぼ解けず エンジニアリング能力 • SWE-bench ◦ GitHub IssueとPull Requestの組み合わせ2249件を解けるか • BigCodeBench ◦ UCバークレー、MIT、インテル、HuggingFaceらの共同研究 ◦ 100以上のライブラリや複数関数呼び出しを含む1000以上のタスク ◦ 各タスクにある平均5個のテストケースを通す ツール活用能力 • ToolBench ◦ 16464の実際のRESTful API指示 • Terminal-bench ◦ ターミナル上での複雑なCLIコマンドを順に実行出来るか
  18. メジャーな定量評価指標 共通的な評価指標
 • Pass@k: 初回からk回目までに生成されたコードがすべてのテストケースに合格する割合を測定 
 • BLEUスコア: 生成されたコードと参照コードの構文的類似性と正確性を測定 


    • 完了時間:タスクを完了するまでの時間、生産性指標 
 • 成功率: タスクの成功率、ユニットテスト通過率、などが測定される、生産性指標であることが多め 
 • Execution Rate: 正しいコードを生成する度合い、Confidence Calibration等により補正されつつ評価される 
 エージェント型ツールの評価指標 
 • Win Rate: マルチエージェント等の状況下であるLLMが他LLMに勝つ割合 
 • Execution Effectiveness: 実行時の効果、生産性指標 
 • Cost Efficiency: コスト対成果の指標 
 • LLM-as-a-judge: LLMに「この成果物はどれくらい正確か?」と聞く
  19. エムスリーが事業展開している国の数 17 カ国 (※) 全世界の医師におけるエムスリー会員の割合 50 %以上 (※) 全世界で医師会員合計 650

    万人以上 (※) 日本の医師のエムスリー会員率 90 %以上 (※) 2025年7月時点 医療情報プラットフォーム 導入数No1電子カルテ 待ち時間ゼロの病院DXアプリ 国内最大級医師相談サイト エンジニアが開発/運用しているプロダクト数 40 以上 (※) エムスリー株式会社について
  20. エムスリーの生成AIコーディングで見られた効能 • Usage ◦ Accepted Rate: 29.64% ◦ Accepted Code

    Lines / Month: 77,480 ◦ DAU/eng: 96.29% ◦ 利用言語: Python, Kotlin, Go, TS, Ruby, TSReact, SQL, Vue, Yaml, Terraform,... ◦ 利用エディタ: VSCode, IntelliJ, Emacs, neovim, Xcode,... • Ruby 2.xから3.xへのアップグレードを2日で完遂 ◦ Herokuのサポートが切れるためアップグレードが必須に ◦ 本来2ヶ月かける予定のサブタスク • 新規アプリ1ヶ月でリリース ◦ 企業向け健康支援App ◦ 新卒エンジニアも含む3人チーム ◦ AWSアカウント開設から1ヶ月でApp Storeに https://fresh.m3recruit.com/engineer
  21. 生成AI開発に置き換わる功罪とその先 • 2030年には30~50%ほどのタスクをAIが行っている ◦ といってもその程度、自分の仕事が半分になっても仕事はある • 課題:微妙なコードも大量生産される ◦ エンジニア職種以外でもコードを書くようになってきている ◦

    セキュリティリスクの増大 • Eval-Driven Development(評価駆動開発) ◦ Vercel等が提唱:https://vercel.com/blog/eval-driven-development-build-better-ai-faster ◦ TDDに対するEDD、テストやガードレール、診断を固めてからAgent Codingをする • Self-invoking Code Generation ◦ LLMと協調しながら開発するフロー全体を指す概念 ◦ 中長期での最適なアーキテクチャ、言語等の登場に期待がかかる ◦ LLM-as-a-JudgeによりLLMが自ら良いサイクルを構築していく
  22. [参考] AIコーディングサーベイ • 2022 ◦ A Survey of Large Language

    Models for Code. https://arxiv.org/abs/2311.10372 • 2023 ◦ A Survey of using Large Language Models for Generating Infrastructure as Code https://aclanthology.org/2023.icon-1.48.pdf ◦ Large Language Models for Software Engineering: Survey and Open Problems https://ieeexplore.ieee.org/document/10449667 ◦ Large Language Models Meet NL2Code: A Survey https://www.microsoft.com/en-us/research/publication/large-language-models-meet-nl2code-a-survey/ • 2024 ◦ A Survey on Evaluating Large Language Models in Code Generation Tasks https://arxiv.org/abs/2408.16498 ◦ A Survey on Large Language Models for Code Generation https://arxiv.org/pdf/2406.00515 ◦ A Survey on LLMs for Code Generation https://github.com/juyongjiang/CodeLLMSurvey ◦ A Survey on LLM-based Code Generation for Low-Resource and Domain-Specific Programming Languages https://arxiv.org/abs/2410.03981 ◦ A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends https://arxiv.org/abs/2311.10372 ◦ Large Language Models for Software Engineering: A Systematic Literature Review https://arxiv.org/abs/2308.10620 • 2025 ◦ Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications https://arxiv.org/abs/2503.01245 ◦ Large Language Models for Game Development: A Survey on Automated Code Generation https://pure.roehampton.ac.uk/portal/en/publications/large-language-models-for-game-development-a-survey-on-automated- ◦ Automated Code Generation with Large Language Models https://medium.com/@sunnypatel124555/automated-code-generation-with-large-language-models-llms-0ad32f4b37c8 ◦ How Does LLM Reasoning Work for Code? A Survey and a Call to Action https://arxiv.org/abs/2506.13932 太字は特に参考になったもの
  23. おまけ: 定量スコアによる開発力向上 / 生成AI設定評価サーバ CLAUDE.md docs project-structure MCP Servers hooks

    prompt .claude code GitHub/Jiraから 直近のissueを取得 Claude Code SDKによりjobを実行 • Pass@k
 • BLEUスコア
 • 完了時間、コスト
 • Execution Rate
 • EPSSスコア
 ....