Weekly AI Agents News! 11月号論文のアーカイブ

Slide 1

Slide 1 text

Weekly AI Agents News @ottamm_190 11月号論文編

Slide 15

Slide 15 text

ACPBench: Reasoning about Action, Change, and Planning IBM Researchから7つの推論タスクを13の計画ドメインを評価するPDDLベンチマークを提案 Applicability（適用性）特定の状態である行動が今すぐ実行可能かを評価するタスク状態：「ボード上にA, B, Cのブロックがあり、AがBの上に、BがCの上に配置されている」質問：「Cの上にAを置くことは可能ですか？」答え：「不可能」 Progression（進行性）行動を実行した結果、次状態がどうなるかを評価するタスク状態：「車がガレージにある」行動：「車を通りに移動させる」質問：「行動を実行した後、車はどこにいますか？」答え：「通り」 Reachability（到達可能性）サブゴールに現在の状態から到達可能かを評価するタスク状態：「部屋Aに箱があり、ロボットは部屋Bにいる」質問：「ロボットは部屋Aにある箱を取ることができますか？」答え：「可能」 Action Reachability（行動の到達可能性）将来的に実行可能な状態になるかを評価するタスク状態：「コンピュータはインターネット接続がされていない」質問：「コンピュータ上でウェブブラウザを開くことは可能ですか？」答え：「不可能」 Validation（検証）行動計画が正しいかを評価するタスク初期状態：「ロボットが部屋Aにいる」目標：「ロボットが部屋Cに移動し、そこにあるオブジェクトを持ち上げる」行動のシーケンス：「部屋Aから部屋Bに移動 → 部屋Cに移動 → オブジェクトを持ち上げる」質問：「この行動シーケンスは目標を達成しますか？」答え：「達成する」 Justification（正当化）計画における各行動が必要かを評価するタスク計画：「ロボットが部屋Aから部屋Bに移動し、部屋Bから部屋Cに移動してオブジェクトを持ち上げる」質問：「部屋Aから部屋Bに移動する行動は必要ですか？」答え：「必要でない」 Landmarks（ランドマーク）計画を達成するために必須なサブゴールを特定するタスク目標：「倉庫にある荷物をトラックに積む」質問：「この目標を達成するために必ず実行しなければならないサブゴールは何ですか？」答え：「倉庫に移動する」 Agent Capabilities：計画 11月4日更新分

Slide 53

Slide 53 text

ソフトウェアエージェントのバグ修正は結局役に立つの？ An Empirical Study on LLM-based Agents for Automated Bug Fixing LLMエージェントのバグ修正能力を包括的に評価する • LLMエージェントはバグ修正タスクでの性能は？ LLMエージェントは、全体で39.3%（MarsCode Agent）から27.3%（Agentless）の範囲で成功率を収める。商用システム（MarsCode AgentやHoneycomb）の成功率が高く、オープンソースシステムはやや劣る。 • 各システムで解決できる問題・できない問題の違いは何か？問題説明が具体的で、ファイル・行レベルのバグ箇所情報や修正案が含まれている場合に解決が容易。一方で、複数箇所の修正が必要な場合や誤った修正案が提示されている場合に解決が困難。 • 各システムのバグの場所特定の性能に違いはあるのか？ファイル単位のバグ特定は比較的簡単で、大きな性能差は見られない。行単位でのバグ特定は困難で、精度の違いが修正成功率に直結する。 • 行レベル情報の重要性）ファイル全体の特定ではなく、正確に「どの行を修正するか」を見極める力が成功率に大きく影響する • エージェント型システムの強み）MarsCode AgentやHoneycombは、複数回の推論や再現を通じて行単位のバグ箇所を正確に特定する • 非エージェント型の限界）Agentlessなどは単純なアプローチを採用しており、細かいバグ特定には弱い • バグ再現が成功率に与えるは？問題の説明が曖昧で、バグ箇所が明確でない場合に再現が大きな助けになる。問題の説明が明確な場合、再現がノイズとなり、誤った推論を引き起こす。 Software Agents 12月2日更新分

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text