Slide 11
Slide 11 text
11
Confidential © 2025 LayerX Inc.
クリアするために膨大なStep数が必要なベンチマーク
2025年8月
ポケモンクリスタル [3]
factorio [2]
ポケモン⾚ [1]
2025年3月
2025年2月
[1] Claude's extended thinking \ Anthropic https://www.anthropic.com/news/visible-extended-thinking
[2] Hopkins, Jack, Mart Bakler, and Akbir Khan. "Factorio learning environment." arXiv preprint arXiv:2503.09617 (2025).
[3] Clad3815 - X https://x.com/Clad3815/status/1955980772575268897
GPT-5
Deepseek-v3, GPT-4-mini, LLaMA-70B,
Gemini-2, GPT-4, Claude 3.5 Sonnet
Claude 3.5,3.7 Sonnet
レッドに勝利👏
(バッジ16個+ラストダンジョン)
どのモデルでも複雑度5以上のリソースを
生成できる割合は0%
3.7 Sonnetがマチスに勝利
(バッジ3つ)