Slide 54
Slide 54 text
P.64
• ReAct 推論において各出⼒に対し、不合理な予測の検出・reflection・推論の再実⾏を導⼊
• Heuristic が不合理な予測を検出した場合、エージェントは self-reflect を実⾏する
• (失敗例, reflection) の 2-shot プロンプトを LLM に挿⼊して reflection を⽣成
• reflection をエージェントのメモリに追加し、推論を再実⾏する
Reflexion [Shinn+’23] (2/2)
https://arxiv.org/abs/2303.11366
hallucination や
⾮効率なプランを検出
⾏動の繰り返しを検出
試⾏あたりの act 数を制限
バイナリ報酬
各⾏動に 0:失敗, 1:成功 を割り当て
HotPotQA では EM を⽤いて採点
𝐿𝐿𝑀 𝑠%, 𝑟%, 𝑎&, 𝑜&, … , 𝑎%, 𝑜% , 𝑚𝑒𝑚
h 𝑠%
, 𝑎%
, 𝛺, 𝜀, 𝑎&
, 𝑜&
, … , 𝑎%'#
, 𝑜%'#
= 6
1
1
0
repeat 𝑎&, 𝑜&, … , 𝑎%'#, 𝑜%'# > 𝛺
𝑡 > 𝜀
otherwise
図3. reflection によって⼤幅に正解率が向上する
(HotPotQA 完全⼀致評価)