Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

AI AgentにとってのGoの強み/弱みをdeep diveする

Avatar for どすこい どすこい
December 08, 2025
4

AI AgentにとってのGoの強み/弱みをdeep diveする

GO・GMOペパボ・アンドパッド "Go" 同勉強会(2025.12.08 )の資料です
https://andpad.connpass.com/event/373026/

Avatar for どすこい

どすこい

December 08, 2025
Tweet

More Decks by どすこい

Transcript

  1. 10 けど調べると... 10 Qiwei Peng, Yekun Chai, and Xuhong Li,

    2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages Fig. 2, Performance of LLMs, including CodeT5+ (2B), CodeGen2 (3.7B, 16B), GPT-3.5, and GPT-4, on our proposed benchmark. 思ったより低い... 前回の話
  2. ⽣成AIによるコード⽣成のベンチマークについて 15 前回との違い SWE-bench: Can Language Models Resolve Real-World GitHub

    Issues?, Carlos E. Jimenez et al. 2024, https://arxiv.org/abs/2310.06770 https://github.com/SWE-bench/SWE-bench 前回お話ししたHumanEval • 関数やクラス単位でのコード⽣成 • 数⾏で解け、⾃⼰完結する問題が中⼼ SWE-Benchは... • リポジトリ横断の⽂脈把握とコード⽣成を要求 • 現実のソフトウェア開発に則したベンチマーク
  3. ⽣成AIによるコード⽣成のベンチマークについて 16 SWE-bench Multilingual https://www.swebench.com/multilingual.html • 多プログラミング⾔語対応のSWE-bench • Claude 3.7

    Sonnetに絞ってますが、C、C++、Go、 Java、JavaScript、TypeScript、PHP、Ruby、Rustで実 施 • 中央値で10⾏、95%の課題が110⾏以内のコード変更で解 決可能 • 明確なユニットテストがあるものに限定 ※この⼤規模版としてMulti-SWE-benchもあります。⼀旦今⽇は上記の話をします。
  4. ⽣成AIによるコード⽣成のベンチマークについて 20 結果まとめ SWE-bench: Can Language Models Resolve Real-World GitHub

    Issues?, Carlos E. Jimenez et al. 2024, https://arxiv.org/abs/2310.06770 https://github.com/SWE-bench/SWE-bench • 他⾔語と⽐較してGoは正答率が低め • 変更⾏数がやや多め ◦ ただし、変更⾏数が多くて正答率が⾼めのRustもある • 他の⾔語と⽐較すると、AI-Agentのコード⽣成の精度は低 めということになる ※ただし、いくつか単純化した条件の元での話です!
  5. ⽣成AIによるコード⽣成のベンチマークについて 22 先ほどの結果から... SWE-bench: Can Language Models Resolve Real-World GitHub

    Issues?, Carlos E. Jimenez et al. 2024, https://arxiv.org/abs/2310.06770 https://github.com/SWE-bench/SWE-bench • 他⾔語と⽐較してGoは正答率が低め • 変更⾏数がやや多め ◦ ただし、変更⾏数が多くて正答率が⾼めのRustもある • 他の⾔語と⽐較すると、AI-Agentのコード⽣成の精度は低 めということになる
  6. SWE-benchを通したAIにとってのGoの特徴 23 • Goの特徴として、エラー処理が冗⻑な点がある • 冗⻑性がLLMにとってはよくない可能性がある ◦ LLMのコンテキストウィンドウは有限 ◦ 本来のビジネスロジックやアルゴリズムのコードの密度が低下

    • PythonやJavaのデータで事前学習されたモデルは、例外処理の書 き⽅が⼤きく違う Goの特徴: エラー処理の冗⻑性 *Multi-SWE-bench: A Multilingual Benchmarkfor Issue, ByteDance Seed, 2025-04-03. Resolvinghttps://arxiv.org/pdf/2504.02605