Slide 7
Slide 7 text
2. Related Work (2/3)
エージェントベンチマークの多様化:
▶
機能呼び出し: Berkeley Function Calling Leaderboard, NexusRaven V2, ToolBench
-
ウェブ環境操作: Webshop, WebArena, Mind2Web, MiniWoB++
-
UIオートメーション: PixelHelp, MetaGUI, MoTIF, AITW, OmniACT
-
ソフトウェアエンジニアリング: SWE-bench
-
包括的ベンチマーク:
-
AgentBench: コーディング、ゲーム、数学タスクを統合
-
AgentBoard: ウェブ閲覧、ツール使用、具現化AI、ゲームドメインを評価
-
7