Goにおける生成AIによるコード生成のベンチマーク評価入門

1 Goにおける⽣成AIによるコード⽣成のベンチマーク評価⼊⾨どすこい GMOペパボ株式会社 EC事業部プロダクトチーム 2025.09.29 @golang.tokyo #41

2 ⾃⼰紹介 EC事業部プロダクトチームどすこい Daisuke Takeda バックエンド開発が多いWebエンジニア Go歴は1年ですが、⼤好きです！業務活⽤とは別に、AIやLLMに興味があり、この領域で登壇もしてました。
(ICONIP2024, JASAI2024) X: @doskoi64 2024年新卒⼊社

3 私たちは「⼈類のアウトプットを増やす」ことをミッションとし、インターネットやテクノロジーの⼒で情報発信のハードルを下げる⽀援をしています。

4 AI使ったコーディングしてますか？今⽇の話 4

5 AIのコード⽣成の精度どうですか？今⽇の話 5 😎 🙂 🤔 😡

6 AIのコード⽣成の精度どうですか？今⽇の話 6 😎 🙂 🤔 😡 ↑

7 ある⽇思いました... 今⽇の話 7 いろんな⾔語触ったけど、 Goはシンプルで好きかも。 AIのコード⽣成もきっと精度が⾼いんじゃ？

8 けど調べると... 今⽇の話 8 Qiwei Peng, Yekun Chai, and Xuhong
Li, 2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages Fig. 2, Performance of LLMs, including CodeT5+ (2B), CodeGen2 (3.7B, 16B), GPT-3.5, and GPT-4, on our proposed benchmark. 思ったより低い...

9 • LLMのモデルごとの評価って具体的に何しているの？ • ここでの定量評価って、業務での開発でもどれくらい同じことが⾔えるの？ • ⾔語ごとで評価の差ってどれくらい⼤きいの？その差ってどういう意味なの？そもそも、コードの⽣成の評価って...？
今⽇の話

今回の話 • AIのコード⽣成の定量評価について紹介します • 簡単に試してみる様⼦をお伝えします • 個⼈的な考察を紹介しますこれによって、AIによるコード⽣成の評価の話が、さらに盛り上がったり、調べるきっかけになれるといいなぁ今回のお話では...
10

11 業務や趣味開発などで試してみることで得られる定性評価&試⾏錯誤も、とても重要です！今回はお話ししませんが、重要なこと今回の話ジュニア/シニア問わず、皆さんが使ってみた⼿応え感や考え⽅をわいわい聞くことの⽅をむしろ僕は⼤事だと思っています！

⽣成AIによるコード⽣成のベンチマークについて 12

⽣成AIによるコード⽣成のベンチマークについて 13 • Open AIが2021年に公開した、コード⽣成の定量評価のためのベンチマークのためのデータセット ◦ LLMに⼊れるprompt, 実装するentry_point, 検証⽤test,...
• GitHub由来の解答を⽣成しないように、⼈間が⼿書きでコードを⽣成。⾔語理解、アルゴリズムなどコーディング⾯接っぽい問題。Pythonのコード。データセット: HumanEval Mark Chen, et.al. , Evaluating Large Language Models Trained on Code, 2021, https://arxiv.org/pdf/2107.03374, https://github.com/openai/human-eval

⽣成AIによるコード⽣成のベンチマークについて 14 • HumanEvalは英語,Pythonのみ。複数⾔語でコード⽣成のベンチマークを⽐較したいというモチベーション • 23の⾃然⾔語(without Japanese😇)と12のプログラミング⾔語(within Go😎)があります
◦ 単純なコード⽣成能⼒というより、多⾔語間でのコード⽣成能⼒の⽐較のためのもの HumanEval-XL Qiwei Peng, Yekun Chai, and Xuhong Li, 2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages, https://github.com/ﬂoatai/HumanEval-XL, https://huggingface.co/datasets/ﬂoatai/HumanEval-XL

⽣成AIによるコード⽣成のベンチマークについて 15 HumanEval-XL Qiwei Peng, Yekun Chai, and Xuhong Li,
2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages, Fig 1, Illustration of data construction in four steps.

⽣成AIによるコード⽣成のベンチマークについて 16 • 問題に対してk個のサンプルを⽣成して、少なくとも⼀つのサンプルがtestをpassするコードがかける問題数の全問題数に対する割合 ◦ 実際はk << nのn個を⽣成して不偏推定量を使います。詳細な説明は
ブログで！評価⽅法: pass@k について Kulal, et.al, 2019 ,SPoC: Search‑Based Pseudocode to Code

⽣成AIによるコード⽣成のベンチマークについて 17 pass@1: ⼀回の試⾏で正しい正解を出⼒する能⼒の指標。最初の提案にどれくらい信頼がおけるか、開発者がどれくらい⼿放しで開発できるかがわかる。 pass@100: 理論的な上限を探る指標。多数の不正解の中に埋もれていたとしても、モデルが正解を⽣成する絶対的な能⼒を持っているかを評価します。 pass@10, pass@5:
開発者が選択肢を確認したり、対話的にコードを⽣成していくシナリオのものです。多様なコード⽣成をしつつ、正しいコードが⽣成できるかの指標評価⽅法: pass@k について Qiwei Peng, Yekun Chai, and Xuhong Li, 2024, LREC-COLING 2024 | HumanEval-XL: An Execution-based Multilingual Code Generation Benchmark Across 23 Natural Languages and 12 Programming Languages, Fig 1, Illustration of data construction in four steps.

18 HumanEval-XLを実際みて触ってみる

HumanEval-XLを実際みて触ってみる 19 Hugging faceからデータを取得 https://huggingface.co/

HumanEval-XLを実際みて触ってみる 20 jsonでこのようなデータがもらえる

HumanEval-XLを実際みて触ってみる 21 promptはこんな感じ

HumanEval-XLを実際みて触ってみる 22 問題はこんな感じ • ⼝座の残⾼を追跡し、途中でマイナスになるかを判定。 • 整数リストの合計と積を返す。空なら (0,1)。 • リストからユニークな要素を取り出し、昇順にソート。
• 整数リスト内に、和がゼロになるペアがあるか判定。 • ⽂字列をMD5ハッシュに変換。空なら None。 • ⼆つの整数 a, b の間の偶数を昇順で返す。簡単な問題、⾼難易度の問題がある！

HumanEval-XLを実際みて触ってみる 23 ⾃分で試してみる: 銀⾏⼝座残⾼管理問題 Claude Code Sonnet 4.1(2025-0929)で試しました問題預⾦‧引き出し操作のリストが与えられ、ゼロ残⾼から開始して、任意の時点
で残⾼がゼロを下回るかどうかを検出する関数を実装します。下回った時点で Trueを返し、そうでなければFalseを返します。例: - `below_zero([1, 2, 3])` → False（残⾼: 0→1→3→6） - `below_zero([1, 2, -4, 5])` → True（残⾼: 0→1→3→-1で負になる）

HumanEval-XLを実際みて触ってみる 24 ⾃分で試してみる: 銀⾏⼝座残⾼管理⽣成させてみた

HumanEval-XLを実際みて触ってみる 25 ⾃分で試してみる: 銀⾏⼝座残⾼管理テストコードはこれ

HumanEval-XLを実際みて触ってみる 26 ⾃分で試してみる: 銀⾏⼝座残⾼管理結果...！ 😎

HumanEval-XLを実際みて触ってみる 27 ⾃分で試してみる: 範囲内偶数⽣成問題 Claude Code Sonnet 4.1(2025-0929)で試しました問題⼆つの正の整数aとbが与えられたとき、aとbの間の偶数の桁を昇順で返す関
数を実装します。例: - `generate_integers(2, 8)` → [2, 4, 6, 8] - `generate_integers(8, 2)` → [2, 4, 6, 8] - `generate_integers(10, 14)` → []

HumanEval-XLを実際みて触ってみる 28 ⾃分で試してみる: 範囲内偶数⽣成⽣成させてみた

HumanEval-XLを実際みて触ってみる 29 ⾃分で試してみる: 範囲内偶数⽣成結果...！ 😡

HumanEval-XLを実際みて触ってみる 30 ⾃分で試してみる: 範囲内偶数⽣成修正が必要だった

HumanEval-XLを実際みて触ってみる 31 • 実際はいちいちClaude Codeに⼊⼒するのではなく、⾃動でコード⽣成、テスト検証、結果記録までのパイプラインをつくってやっています！ • ですが、何がテストされていて、どういう検証がされているか調べるのはおもしろいので、ぜひみてみてく
ださい！ぜひ実際にみてみてください

32 他⾔語と⽐較して Goにおけるベンチマークのスコアが低い理由を考察してみる

なんでGoのコード⽣成のベンチマークのスコアが低いんだろう？ 33 注意: 実験したわけではなく、調べて出てきた話のうち、僕があるなぁと思った話の部分です静的型付けと冗長性型付け言語において整形式なコードを生成することに苦労し、生成されたコードのコンパイルエラーの大部分が型エラーに起因する。LLMにとって、あるタスクを達成するためにより長いトークンを生成する必要があるということは、統計的に各ステップでエラーを挿入する確率が高まる。要はシンプルさが仇となる可能性→他の言語の生成 /正解例と比較してみる！
テストの性質 HumanEvalは、徹頭徹尾Pythonのために設計されたベンチマークである。小規模なアルゴリズムパズルである。Goの強み、API、CLI、DevOps関連ツール、速度とかは計れてない。 →こういう他の側面でのベンチマークはさらに調査が必要そう。試す方法がわかったので、仮説を立てて、実際に試して確かめてみよう！時間があれば話す

34 テックブログで今週中にまとめます！ #golangtokyo #golangjp で共有するので、ぜひみてください！実際触ってみたくなりましたね！最後に

35 Let’s AI Let’s Go

Goにおける生成AIによるコード生成のベンチマーク評価入門

Goにおける生成AIによるコード生成のベンチマーク評価入門

どすこい

More Decks by どすこい

Other Decks in Technology

Featured

Transcript

1 Goにおける⽣成AIによるコード⽣成のベンチマーク評価⼊⾨どすこい GMOペパボ株式会社 EC事業部プロダクトチーム 2025.09.29 @golang.tokyo #41

2 ⾃⼰紹介 EC事業部プロダクトチームどすこい Daisuke Takeda バックエンド開発が多いWebエンジニア Go歴は1年ですが、⼤好きです！業務活⽤とは別に、AIやLLMに興味があり、この領域で登壇もしてました。

3 私たちは「⼈類のアウトプットを増やす」ことをミッションとし、インターネットやテクノロジーの⼒で情報発信のハードルを下げる⽀援をしています。

4 AI使ったコーディングしてますか？今⽇の話 4

5 AIのコード⽣成の精度どうですか？今⽇の話 5 😎 🙂 🤔 😡

6 AIのコード⽣成の精度どうですか？今⽇の話 6 😎 🙂 🤔 😡 ↑

7 ある⽇思いました... 今⽇の話 7 いろんな⾔語触ったけど、 Goはシンプルで好きかも。 AIのコード⽣成もきっと精度が⾼いんじゃ？

8 けど調べると... 今⽇の話 8 Qiwei Peng, Yekun Chai, and Xuhong

⽣成AIによるコード⽣成のベンチマークについて 12

⽣成AIによるコード⽣成のベンチマークについて 13 • Open AIが2021年に公開した、コード⽣成の定量評価のためのベンチマークのためのデータセット ◦ LLMに⼊れるprompt, 実装するentry_point, 検証⽤test,...

⽣成AIによるコード⽣成のベンチマークについて 15 HumanEval-XL Qiwei Peng, Yekun Chai, and Xuhong Li,

18 HumanEval-XLを実際みて触ってみる

HumanEval-XLを実際みて触ってみる 19 Hugging faceからデータを取得 https://huggingface.co/

HumanEval-XLを実際みて触ってみる 20 jsonでこのようなデータがもらえる

HumanEval-XLを実際みて触ってみる 21 promptはこんな感じ

HumanEval-XLを実際みて触ってみる 22 問題はこんな感じ • ⼝座の残⾼を追跡し、途中でマイナスになるかを判定。 • 整数リストの合計と積を返す。空なら (0,1)。 • リストからユニークな要素を取り出し、昇順にソート。

HumanEval-XLを実際みて触ってみる 23 ⾃分で試してみる: 銀⾏⼝座残⾼管理問題 Claude Code Sonnet 4.1(2025-0929)で試しました問題預⾦‧引き出し操作のリストが与えられ、ゼロ残⾼から開始して、任意の時点

HumanEval-XLを実際みて触ってみる 24 ⾃分で試してみる: 銀⾏⼝座残⾼管理⽣成させてみた

HumanEval-XLを実際みて触ってみる 25 ⾃分で試してみる: 銀⾏⼝座残⾼管理テストコードはこれ

HumanEval-XLを実際みて触ってみる 26 ⾃分で試してみる: 銀⾏⼝座残⾼管理結果...！ 😎

HumanEval-XLを実際みて触ってみる 27 ⾃分で試してみる: 範囲内偶数⽣成問題 Claude Code Sonnet 4.1(2025-0929)で試しました問題⼆つの正の整数aとbが与えられたとき、aとbの間の偶数の桁を昇順で返す関

HumanEval-XLを実際みて触ってみる 28 ⾃分で試してみる: 範囲内偶数⽣成⽣成させてみた

HumanEval-XLを実際みて触ってみる 29 ⾃分で試してみる: 範囲内偶数⽣成結果...！ 😡

HumanEval-XLを実際みて触ってみる 30 ⾃分で試してみる: 範囲内偶数⽣成修正が必要だった

32 他⾔語と⽐較して Goにおけるベンチマークのスコアが低い理由を考察してみる

34 テックブログで今週中にまとめます！ #golangtokyo #golangjp で共有するので、ぜひみてください！実際触ってみたくなりましたね！最後に

35 Let’s AI Let’s Go

Goにおける 生成AIによるコード生成の ベンチマーク評価入門

Goにおける 生成AIによるコード生成の ベンチマーク評価入門

More Decks by どすこい

Other Decks in Technology

Featured

Transcript

Goにおける生成AIによるコード生成のベンチマーク評価入門

Goにおける生成AIによるコード生成のベンチマーク評価入門