Slide 7
Slide 7 text
LLMによるコーディング性能の進歩
7
より難しいコーディングベンチマークが必要とされている
● Codeforcesレート等の従来のコーディングベンチマークが飽和しつつある
● Pass/Fail(テストを通過するかどうか)だけでない継続的な改善能力も重要
02
03
04
01
*1 OpenAI. “Competitive programming with large reasoning models." arXiv preprint arXiv:2502.06807 (2025).
*2 C. E. Jimenez, et al. “SWE-bench: Can Language Models Resolve Real-world Github Issues?” In ICLR (2024).
Codeforcesにおけるo3のレート*1 コーディングの代表的なベンチマーク*2