Upgrade to Pro — share decks privately, control downloads, hide ads and more …

長期・短期メモリを活用したエージェントの個別最適化

 長期・短期メモリを活用したエージェントの個別最適化

AITCでは、週に一度、1時間TechTalkを実施しています。

案件の進捗共有やAzureの新機能の紹介や実装してみたことの共有など様々です。
日々の業務では、どうしても属人化がしやすい中で、コンサルチームや製品開発チームのナレッジを共有する場として利用されています。

本日の資料はそのTechTalkで発表した資料です。

Avatar for AITC - DENTSU SOKEN

AITC - DENTSU SOKEN

September 02, 2025
Tweet

More Decks by AITC - DENTSU SOKEN

Other Decks in Research

Transcript

  1. © DENTSU SOKEN 2 アジェンダ ▍論文紹介 - PersonaAgent: When Large

    Language Model Agents Meet Personalization at Test Time ⚫ 論文概要 ⚫ 実用化に向けた課題とアイデア ▍検証:実際に手法が使えそうか ⚫ メモリの構築 ⚫ 課題を対策した手法で、メモリを活用したエージェントの回答の違いを検証 ⚫ 提案手法を使用して実際にメモリの更新 ▍検証結果 ⚫ LLM推論によるground truthの代替手法は有効だったか ⚫ 実際のシステムプロンプトがどう変化したか、ユーザーごとのプロンプト可視化結果 ⚫ 短期更新(Alignment)によってプロンプトはどう変化したか ▍考察・まとめ
  2. © DENTSU SOKEN 4 論文紹介:概要 ▍PersonaAgent: When Large Language Model

    Agents Meet Personalization at Test Time ▍ 概要 ⚫ AIエージェントにリアルタイムでの個別最適化(Personalization)を組み込んだフレームワークの提案 ⚫ 従来のエージェントは全ユーザー共通の振る舞いしか持たないため、ユーザー個別の好みや過去の動作に細かく対応す ることが出来なかった ⚫ 本論文では、2つのメモリ(Episodic Memory,Semantic Memory)と、メモリ取得のtoolを利用してユーザーの問い合 わせに応じた最適なツール使用や応答の最適化を実現する ▍ 論文の結果 ⚫ 提案手法の有効性の検証としてパーソナライズの評価を行うデータセットのLaMP(https://lamp- benchmark.github.io/)を使用した4つの実験を行った ⚫ 実験の結果、提案手法が比較手法よりも良い結果が得られた ⚫ 提案手法はAIエージェントに対してユーザーに最適化された動的な振る舞いを持たせる新たな可能性を示した ▍ 貢献 ⚫ エピソード記憶とセマンティック記憶を統合したパーソナライズ対応のメモリ–アクション設計 ⚫ エージェントへのペルソナの導入 ⚫ 実運用時のアラインメント手法
  3. © DENTSU SOKEN 6 論文紹介:Episodic Memory,Semantic Memory ▍ユーザーのペルソナを獲得するために2つのメモリを論文では構築 ▍Episodic Memory:過去のユーザー対話のログ

    ▍Semantic Memory:抽出されたペルソナ情報 𝑞𝑖 : ユーザークエリ 𝑟 𝑖 𝑔𝑡: 対応する真のユーザー応答 𝑚𝑖 : Aux(タイムスタンプ等々) 𝑁𝑢 :ユーザーインタラクションの総数 𝑓𝑠 : 要約関数 S𝑡 : タスクベースの要約プロンプト D𝑢 :Episodic Memory
  4. © DENTSU SOKEN 7 論文紹介:メモリの取得と活用 ▍Episodic Memory:検索toolとしてエージェントが呼び出す ▍Semantic Memory:エージェントのシステムプロンプト構築時に呼び出す ℎ𝑞∗

    = 𝑓𝑒𝑛𝑐 (𝑞∗): クエリq*に対応するEmbedding ℎ𝑖 = 𝑓𝑒𝑛𝑐 𝐷𝑖 𝑢 : Episodic MemoryのEmbedding S𝑡 についての論文中の言及がないが、エージェントの トピックに合わせてユーザーのペルソナを抽出できる ようなプロンプトを設定すると解釈
  5. © DENTSU SOKEN 8 論文紹介: Test-Time User Preference Alignment ▍リアルタイムに個々のユーザーの好みに適応させていくための戦略

    ⚫ LLMを用いて、エージェントの出力結果 Ƹ 𝑟 と𝑟𝑔𝑡との勾配(∇)を出力 ⚫ さらにLLMを用いて、個別最適化した システムプロンプトPをアップデート ①エージェント構築時のシステムプロンプト最適化(長期) ②リアルタイムにユーザー最適化(短期) の2つの長期・短期更新手法で個人最適化を実現
  6. © DENTSU SOKEN 10 参考:実験結果 システムプロンプトのt-SNE可視化 • Optimize時のバッチサイズは大きいほうが良い • Optimize時のiter数は2,3あたりで良い

    (回しすぎると精度↓) • Episodic Memory取得時の件数kは大きいほうが 良い 小さな単位でユーザー最適化するのではなく、あ る程度多くの情報で最適化する方がよさそう
  7. © DENTSU SOKEN 12 実用に向けた課題と対策の検討 ▍課題:人間が真に欲しかった回答のground truthは現実的に取得できない ▍対策(一案):疑似的に生成する ⚫ 人間からFBをもらう(

    / ):非現実的な気がする、実際にリアクションをする人間がどれだけいるのか ⚫ LLMに解を再度考えてもらう(li : LLM Inference) ⚫ メタ情報から検討する(トークターン数、ユーザーの反応 etc…) ➢ ターンが長いほど、ユーザーはほしい情報を獲得できていない 𝑟 𝑖 𝑔𝑡: 対応する真のユーザー応答 𝑟𝑖 𝑙𝑖: llmが考える真の回答 li 以後の検証はliを用いて行いました。
  8. © DENTSU SOKEN 13 あなたはユーザーとLLMの会話ログを管理する監督者です。 会話ログをもとに、ユーザーが求めていたであろう真の応答を生成してください。 ユーザーのクエリに対して、LLMがどのような応答を返すことで、ユーザーが本当に聞きたかったことにつ いて回答できるか、を考慮してください。 # 真の応答を生成する上で、推論する観点

    - 会話の前後から、ユーザーが本当に知りたかったことは何か - LLMの応答がユーザーの期待に応えているかどうか - ユーザーのクエリに対して、矛盾なく応答できているか - 会話が複数ターンに及んでいないか(複数の場合、文脈によってはほしい情報が得られておらず何度も聞 き返している) LLMの応答が適切であった場合は会話の内容をそのまま返してください。 ただし、LLMの応答が不適切であったと考えられる場合は、本来ユーザーが求めていたであろう情報が含ま れた真の応答を生成してください。 回答を推論する際は、会話の前後の文脈やユーザーの反応を考慮してください。 {会話全体のログ} {回答を推論する部分のユーザークエリ} 実用に向けた課題と対策の検討:LLM Inferenceのプロンプト例
  9. © DENTSU SOKEN 15 検証:問題設定 ▍エージェントに国内旅行の予定を立ててもらう ▍ツール ⚫ 今日の日付を取得する ⚫

    ある地点の天気予報を取得する ⚫ セマンティックメモリの取得 ※もっと用意してエージェントに行動の選択肢を与えたほうが良かったですが手が回りませんでした ▍ユーザー設定 ⚫ User A : 国内の土地や場所、グルメについて普段からgptに質問をしている。サウナとマグロが好き。 ⚫ User B : 海外の土地や場所、グルメについて普段からgptに質問をしている。辛い物が好き。 ⚫ User C : 野球に関する質問をよくする。日本人メジャーリーガーのことを聞く。 ▍検証方法 ⚫ プロンプトのt-SNE、結果のプロンプト変化の定性的評価
  10. © DENTSU SOKEN 18 検証①:Episodic Memoryからユーザーの好みに合わせた回答を生成できるか ▍以下のユーザー3パターンでLLMとの対話をいくつか行いEpisodic Memoryを構築 ⚫ User

    A : 国内の土地や場所、グルメについて普段からgptに質問をしている。サウナとマグロが好き。 ⚫ User B : 海外の土地や場所、グルメについて普段からgptに質問をしている。辛い物が好き。 ⚫ User C : 野球に関する質問をよくする。日本人メジャーリーガーのことを聞く。 𝑟 𝑖 𝑔𝑡: 対応する真のユーザー応答 𝑟𝑖 𝑙𝑖: llmが考える真の回答 li Episodic Memory
  11. © DENTSU SOKEN 22 検証①:ユーザー毎のシステムプロンプトの違い ▍ userA ユーザー概要: ['30代から50代の知的好奇心が旺盛な日本人、性別は明記されていないが、会話や言葉遣いから中性的または男性の可能性がやや高い。', '旅行好きで、特に国内のグルメ

    (海鮮・寿司類)や温泉、サウナに強い関心がある。魚介類、とくにマグロや地元の鮮魚系を好み、現地ならではの食体験を重視。うなぎやフナなど定番以外のローカル魚介にも興味。', ' 主要観光地の情報よりも、食やサウナの“具体的スポット名や詳しい体験談”など実用的・現場的な情報を積極的にリクエストする。地名や食材にも幅広い知識を持つ傾向。', '「ありがとう。 ~ですわ」などのやや丁寧で落ち着いた柔らかい言葉遣い。一方、質問時は要点を簡潔明瞭に伝えるタイプ。どんなジャンルにも「あれば教えて」「中心に教えて」などテーマの絞り込み をする。', '複数候補やモデルコース的な提案、情報まとめを評価する傾向がある一方で、必要があれば「〇〇は?」などピンポイントの追加質問を素早く行う。', '旅行情報やグルメ情報に ついて、広く浅くよりも“美味しい魚の店”や“有名サウナ”など深く具体的な掘り下げを求める姿勢。地名や観光地比較(例:静岡と真鶴など)もできる。', '温泉・サウナ旅行への関心が高 く、「有名なサウナ」「ご当地の体験」「メニュー詳細」など、本物志向・現地体験重視。口コミや評判にも敏感な印象。', '「具体例」や「詳細な説明」「食べ方のおすすめ」など、実際 に役立つトラベルTipsへの反応がよい。会話から論理的な組み立て、段落分け・リスト形式などの整理された返答を好む。’] ▍ userB ユーザー概要: ['30~40代の男性の可能性が高い(食へのこだわりや海外旅行経験の豊富さから中堅~ベテラン層と推測)', '職業はIT・技術系やビジネスマンなど、情報収集力と海外渡航 経験が多い職種(自己表現・情報整理が得意な印象、ラウンジ利用歴も参考)', '好きなジャンルは『肉料理・スパイシー料理』『世界各地のグルメ体験』。特にがっつり系の肉料理・T ボーンステーキなどボリューム重視。加えて東南アジア~アメリカの現地ご当地グルメにも積極的に興味を持つ。『辛い料理』も強いモチベーション。アロスカルドのような現地食文化も 愛好。', 'コミュニケーションスタイルはカジュアル、テンション高め。食に関しては『最高』『がっつり』『良いね』など感情をストレートに表す。堅苦しくなく親しみやすい雰囲気。旅 行やグルメの話題になると嬉々としてディテールを共有する傾向。', '思考の焦点は旅行先や料理の“本場らしさ”、“現地での体験”に重きを置く。自分の体験談(例:マニラのラウンジで食 べたアロスカルド)も積極的に共有。現地グルメのアレンジや食べ方に興味。観光地や都市別の情報も具体的に聞くなど、現実主義・実用主義的志向。', '回答の癖は、単なる事実より『ど こで何を食べれば本場を楽しめるか』『辛さやボリュームの度合い』『おすすめメニューや注文方法』を重視し詳しく聞く。さらに、現地ごとの食文化の違いへの興味も強い。抽象的な説 明より具体事例や体験談を求める傾向。', '言葉遣いはフランクで親しみやすい。」「ユーザーの応答傾向として、『これも知ってる?』『他に美味しい肉や辛い料理ある?』『現地で食べ るなら?』といった会話の広がりや深掘りが多い。旅や食を中心にした幅広い知識欲と体験志向(食×旅行×体験)が軸にある。’] ▍ userC ユーザー概要: ['性別や年齢層、どんな仕事をしていそうか:性別は不明だが、野球の専門的な知識や選手のキャリア、技術に詳しいことから、20~40代の男性、もしくは野球好きな中高 年でデスクワーク・知的労働(会社員や専門職、教育関連など)をしている可能性が高い。IT・メディア系も視野に入る。', '好きなジャンルやテーマ:日本野球(NPB・高校野球)および メジャーリーグ(MLB)が好きで、選手のストーリーや球種、戦術など細かい部分に興味を持つ。スポーツ全般や選手の経歴にも幅広い関心がある。歴史的な流れや選手間のつながりに も関心がありそう。', 'コミュニケーションスタイル:補足や追加の質問が多く、会話の中で連想的に話題を広げる傾向。知識の確認や深掘り、具体的な事例を通じて疑問を解消しようとす る。較的フランクでリラックスした雰囲気を好むが、情報には正確さや背景解説も重視している。', '思考の焦点:スポーツの技術的解説や戦術、選手のキャリアや相関関係、トレンドワー ド(球種名や用語など)の意味・用法に強い興味をもつ。話題の背景や新しい要素、最新トレンドにも敏感。', '回答の癖:関連ワードについて次々と質問を重ね、知識を体系的につなげて いく傾向がある。特定キーワードからさらに掘り下げ、指定選手の特徴や変化、比較などを求める。知識確認型の質問が多い。', '言葉遣い:カジュアルで柔らかめだが、砕けすぎない言い 回し。親しみを持ちながらも敬意を払うニュアンスが感じられる。やや会話調。', 'ユーザーの質問に対する応答の傾向:会話の流れのなかで、気になった点を都度具体的に突っ込む。 『◦◦は?』『□□ですよね?』『他には?』など追加質問・追及に積極的。例示やリスト化した情報を好む。']
  12. © DENTSU SOKEN 23 検証①:ユーザー毎のシステムプロンプトをt-SNEで可視化 ▍ユーザーAとBのプロンプトは近い ⚫ 元の埋め込み空間でも A と

    B が似ている可能性が高い ▍ユーザーCは離れた位置に存在 ⚫ CはA・Bと比べてプロンプトが異なる可能性が高い ▍初期プロンプトから3つそれぞれ離れている ⚫ ある程度ユーザーに沿って最適化できている 初期プロンプト 国内旅行好き 海外旅行好き 野球好き
  13. © DENTSU SOKEN 25 検証②:短期メモリを活用したAlignmentの有効性の検証 ▍LLMと数ターンの対話を行い、システムプロンプトがどう変化するのかを確認する 1回目のクエリの後、以下2ターンの会話を行った後にUse Preference Alignmentを実行しシステムプロンプトを更新 「青森から両親を呼びたいので、1日目の夕食を国際通りで一緒に食べられるようなプランを検討して。」

    「両親は高齢なのと、飛行機が得意じゃないので休憩をはさみつつ来てほしいです。」 検証では正直あまりうまくいっていない気がする。 直近の会話に引っ張られすぎている印象を受けた。 更新のパラメータを調整して、バランスを見ていけば有効か? 更新プロンプトがイケてないのかも。考察もう少し必要
  14. © DENTSU SOKEN 26 考察:Ground Truth → LLM Inference ▍結論

    失敗:LLMが回答した内容と、後から推論して生成した内容に大きな差がない印象 ⚫ 原因はプロンプトがイケていないこと。何をもってよりbetterな回答が作れるのかを明確にできず プロンプトに落とし込めていない気がする。 ⚫ そもそも、正解となるLLMの回答って何なんだろう 正解はあるんだろうか ⚫ どんな情報があれば/どんな回答をすればユーザーは満足度が高かったのだろうか ⚫ そのためにどういうフィードバックをもらう必要があるのか li 改善できればAlignmentでの勾配計算が良くなるはず。 そしてプロンプトの更新も良くなるはず。 もしかするとGPT-5からはMeta Promptingのテクニックで十分かも。
  15. © DENTSU SOKEN 27 考察:実用可能性 ▍論文のContributionでも触れられていた統一メモリ構造はどのユースケースでも活用できそう ⚫ メモリ構造自体は割とどんなケースにもアドオン出来そう ➢ Episodic

    Memoryの構築 ➢ Semantic Memoryの抽出 ▍Ground Truth/ユーザーからのFBをどう設計するか/RLHF ⚫ フィードバック学習も多くの手法があるので、何か良い手段があるはず ⚫ 個人的には追加の作業負荷がなるべく少ないのが嬉しい、がそういう設計は難しい気もする ▍エンタープライズ向けのエージェントでPersonalizationが嬉しいユースケース ⚫ 個人最適化手法なので個人向けではあるのですが、エージェントが日常業務でもっと広く使われるよう になれば、それぞれの社員が使うエージェントをPersonalizationすることでより使いやすくなる って 未来はあるかなと思っています。
  16. © DENTSU SOKEN 28 まとめ ▍ PersonaAgentのフレームワークを紹介 ⚫ 2つメモリを構築、活用することでユーザーの趣向に沿ったエージェントの構築ができる ⚫

    実用化に向けては、人間からのFBを上手に獲得し、どうなると人間が好む回答となるかの正解を獲得 する仕組みが必要 ⚫ ※メモリに関する論文は沢山あり、メモリの構築方法、管理、呼び出し、適応先など多様。 この論文はあくまで手法の1つ ▍ 検証 ⚫ Ground Truth問題 ➢ LLM Inferenceはあまり効果が無かった 改良の余地しかない ➢ 負担なく人間のFBをもらう仕組みが必要 ⚫ 旅行エージェント構築 ➢ Semantic Memoryを使用することで、エージェントの回答をユーザー毎の好みに寄せることが出来た ➢ 今回は違いが確認できなかったが、ツールをもっと持たせて検証するとどのツールを好むかもメモリから獲得し、エージェントの行 動に反映できるかも ⚫ 可視化 ➢ 論文通り、大まかにユーザーごとにプロンプトを寄せられている ⚫ 短期更新 ➢ どの抽象度でプロンプトに反映するのか、調整が難しい