Slide 41
Slide 41 text
41
● Open AIが2021年に公開した、コード⽣成の定量評価
のためのベンチマークのためのデータセット
○ LLMに⼊れるprompt, 実装するentry_point, 検証⽤test,...
● GitHub由来の解答を⽣成しないように、⼈間が⼿書き
でコードを⽣成。⾔語理解、アルゴリズムなどコー
ディング⾯接っぽい問題。Pythonのコード。
データセット: HumanEval
Mark Chen, et.al. , Evaluating Large Language Models Trained on Code, 2021, https://arxiv.org/pdf/2107.03374, https://github.com/openai/human-eval