Slide 15
Slide 15 text
2-b. エージェント能力獲得
● ファインチューニング:
○ 人間によるアノテーションデータ:
■ 例: CoH (人間のフィードバックを自然言語で)、WebShop (eコマースの行動データ)
○ LLM生成データ:
■ 例: ToolBench (API利用データ), [83] (エージェント間対話データ)
○ 実世界データ:
■ 例: MIND2WEB (Web操作データ), SQL-PaLM (text-to-SQLデータ)
● ファインチューニングなし:
○ プロンプトエンジニアリング:
■ CoT、RLP
● メカニズムエンジニアリング:
○ 試行錯誤 (Trial-and-error): RAH, DEPS, RoCo, PREFER
■ エージェントが生成した予測と人間のフィードバックの繰り返し
○ クラウドソーシング: [94] (衆知の活用)
■ 他エージェントからの解決策を組み込むなど
○ 経験蓄積: GITM, Voyager, AppAgent, MemPrompt
■ メモリに保存された関連するタスクの経験を利用
○ 自己駆動進化: LMA3, SALLM-MS, CLMTWA
■ エージェントが自己主導型の学習とフィードバックメカニズムで自律的に改善
15