Slide 68
Slide 68 text
P.67
• ReAct 推論において各出⼒に対し、不合理な予測の検出・reflection・推論の再実⾏を導⼊
• Heuristic が不合理な予測を検出した場合、エージェントは self-reflect を実⾏する
• (失敗例, reflection) の 2-shot プロンプトを LLM に挿⼊して reflection を⽣成
• reflection をエージェントのメモリに追加し、推論を再実⾏する
Reflexion [Shinn+’23] (1/2)
https://arxiv.org/abs/2303.11366
hallucination や
⾮効率なプランを検出
⾏動の繰り返しを検出
試⾏あたりの act 数を制限
バイナリ報酬
各⾏動に 0:失敗, 1:成功 を割り当て
HotPotQA では EM を⽤いて採点
𝐿𝐿𝑀 𝑠*, 𝑟*, 𝑎+, 𝑜+, … , 𝑎*, 𝑜* , 𝑚𝑒𝑚
h 𝑠*
, 𝑎*
, 𝛺, 𝜀, 𝑎+
, 𝑜+
, … , 𝑎*,(
, 𝑜*,(
= ;
1
1
0
repeat 𝑎+, 𝑜+, … , 𝑎*,(, 𝑜*,( > 𝛺
𝑡 > 𝜀
otherwise
図3. reflection によって⼤幅に正解率が向上する
(HotPotQA 完全⼀致評価)