ステートレスなLLMでステートフルなAI agentを作る - YAPC::Fukuoka 2025

ステートレスなLLMでステートフルなAI agentを作る YAPC::Fukuoka 2025 FUJI Goro (gfx) at Starley,
Inc. 1

自己紹介藤吾郎 (gfx) VP of Technology at Starley, Inc. YAPC歴:
YAPC::Asia 2009 - Perl/XSの話 YAPC::Asia 2010 - Xslate（XSで実装したPerlのテンプレートエンジン）の話 YAPC::Asia 2014 - ninjinkunといっしょにモバイルアプリ開発の話 YAPC::Fukuoka 2025 - AI agentの話 2

最初におしゃべりAIサービス Cotomo を開発・運営しています LLMで「会話」を実装するAIエージェントには「記憶」が不可欠 LLMはステートレス、AIエージェントはステートフルこのギャップをどう埋めるか？ →
本日のテーマ 4

Agenda Part 1: 「ステートレス」といはどういうことか LLMの頭の中はどうなっている？ Part 2: 記憶のエンジニアリングステートフルエージェントの心臓部 Part
3: 理想的なAIエージェントを求めて「道具」から「パートナー」へ 5

Part 1: 「ステートレス」とはどういうことか 6

「ステートレス」を解体する LLMはステートレス各LLMのAPIコールは独立している過去のリクエストを覚えていないしかし、モデル自体は「知識」を持っている学習データに焼き付けられた知識（静的な記憶）例：「日本の首都は？」→「東京」 APIコールで与えられる短期的な記憶（コンテキスト）例：
「私の名前は山田です」→ 返答で「山田さん」と呼ぶ 7

静的な記憶を垣間見る: ファインチューニングの役割ファインチューニングとは？特定のドメイン知識やタスクに特化させるための「追加学習」モデルのバイナリ自体を書き換えるイメージ使いどころ特定の文体や用語を覚えさせる特定のタスク（例: 会話の要約）をうまくできるようにする注意点
コスト（費用・時間）がかかる質の高いデータセットが必要 8

あなたの使うChatGPTはただのLLM APIコールではない ChatGPTのような対話AIは、内部で状態（会話履歴）を管理している: const sessionStore: { [userId: string]: string[] }
= {}; async function handleChat(userId: string, message: string): Promise<string> { const history = (sessionStore[userId] ||= []); history.push(`User: ${message}`); // 会話履歴に入れる const prompt = ` 次の会話履歴の続きとしてAI の返答を生成してください: ${history.join('\n')} `; const reply = await callLLM(prompt); history.push(`AI: ${reply}`); // 会話履歴に入れる return reply; } 9

補足: ChatGPTとCotomoのさらなる違い ChatGPTは、1回の返答のために多数のLLM呼び出しを行っている e.g. userの返答を整理 -> 検索ワードを抽出 -> ウェブ検索 ->
検索結果を要約・統合 -> 返答生成 Cotomoは、1回の返答に対してかけられる時間に制約があり、何度もLLM呼び出しするわけにはいかない前処理、記憶の想起、後処理などを踏まえると、返答生成に使える時間はせいぜい1sec程度 10

Part 2: 記憶のエンジニアリング 11

ナイーブなアプローチ: 全部プロンプトに会話履歴を詰め込んでみる問題点: コンテキストウィンドウの限界: LLMには一度に処理できるトークン数に上限がある性能劣化: コンテキストが長すぎると、重要な情報を見失いがちになるコンテキストの不要な情報が入ると、返答の質が落ちる会話セッションをまたいだときの処理: 前回の会話セッションの履歴をそのままコンテキストに入れると、会話を
そのまま継続してしまう 12

RAG (Retrieval-Augmented Generation): エージェントの外部記憶装置 RAGとは？ユーザーの入力に関連する情報を「外部データベース」から検索(Retrieve)し、それをプロンプトに埋め込んで(Augment)、 LLMに応答を生成(Generate)させる技術なぜ必要？コンテキストを短く保つことで性能劣化を抑える
関連情報のみを渡すことで、質の高い応答を促せる 13

RAGの深掘り: Vector Search による情報検索 Indexing (事前準備) テキストをチャンクに分割し、embeddingモデルでvector化し、vector DBに保存 Retrieval
(検索時) ユーザーの質問文も同じembeddingモデルでvector化 vector DBで、質問vectorと「意味的に近い」チャンクのvectorを検索 Embeddingモデルとは？一昔前に流行ったword2vecの流れを組んだモデルチャンクをvectorに変換することで「意味的な距離」を計算できる 14

RAGのシンプルな実装: vector search async function retrieveRelevantChunks( query: string, topN: number
): Promise<string[]> { const queryVector = await generateEmbedding(query); // 100ms-400ms くらいかかる const relevantChunks = await vectorDb.search(queryVector, topN); return relevantChunks.map((chunk) => chunk.text); } 15

Vector Search (using pgvector) SELECT session_fact_embeddings.text, session_fact_embeddings.metadata, -- e.g. user_id,
ai_partner_id session_fact_embeddings.embedding <=> $(query_vector) AS distance FROM data_session_fact_embeddings WHERE metadata->>"user_id" = $(user_id) and metadata->>"ai_partner_id" = $(ai_partner_id) ORDER BY distance ASC LIMIT $(top_n)::INTEGER 16

Vector Search 補足素朴な比較は全件スキャン（しかも全件distance計算）するしかなくて、計算コストがめちゃくちゃ高い ANN (Approximate Nearest Neighbor) という手法で、近似計算を行える
あらかじめindexを作っておく pgqueryの場合、クエリ自体はと変わらない embedding <=> $(query_vector) AS distance ... 近似計算なので、精度は落ちるが、CPUもメモリも大幅に節約できる 17

RAGのシンプルな実装: プロンプトの生成 async function buildSystemPrompt( user_id: string, ai_partner_id: string, user_input:
string, history: string[] ): Promise<string> { const relevantChunks = await retrieveRelevantChunks(user_id, ai_partner_id, user_input); return ` ユーザーの記憶とこれまでの会話体験を踏まえて返答を生成してください。記憶: ${relevantChunks.join('\n')} 会話履歴: ${history.join('\n')} `; } 18

短期記憶のハッキング: 会話要約（a.k.a. コンパクション） RAGは長期的な事実の記憶には強いが、直近の会話の流れを覚えるのは苦手解決策: 会話要約数ターンごとに、それまでの会話を別のLLMコールで要約させる「ユーザーはA について質問し、AI はB
と答えた。次にユーザーはC に興味を示した」この要約を、常にプロンプトに含める利点: コンテキストウィンドウを節約できる会話の全体像をLLMに伝え続けられる 19

LLMによる要約のイメージ async function summarizeConversation(history: string[]): Promise<string> { const prompt =
` 次の会話を要約してください:\n${history.join('\n')}`; const summary = await callLLM(prompt); return summary; } 20

短期記憶（要約）の問題点問題点1: 情報の欠落要約は情報の一部を必ず欠落させる何が欠落するかは要約LLMの性能に依存する「安価で速くて精度の低いLLM vs 高価で遅くて精度の高いLLM」のトレードオフ
21

Cotomoの記憶システム v1 STM + RAG（STMで行った「抽出された事実」をvector DBに保存して、必要に応じて検索する） STM: 会話体験が長くなると、会話から「事実」を抽出して圧縮 RAG:
STMで行った「抽出された事実」をvector DBに保存して（long-term memory化）、必要に応じてvector search 事実の抽出はファインチューンしたLLMで行っている vector DBとして Pg (pgvector) を使っている 22

Cotomoの記憶システム v1の問題点「その会話中の重要な事実」と「普遍的な事実」を区別できない例: 「ユーザーは仕事をしている」→ 翌日も「まだ仕事をしているの？」とか聞いてしまうことがある似たような事実がたまることを活用できない例: 「ユーザーは疲れている」←毎日「疲れた」と言っているなら重要なシグナ
ルかもしれないが、うまく使えない誤りや情報の更新を訂正する仕組みがないメインDBに対する負荷が高い 23

Cotomoの記憶システム v2 問題: 要約すると記憶の質が下がる解決策: 要約しない会話体験をそのままvector DBに保存して、RAGする 24

Cotomoの記憶システム v2の問題点要約・圧縮・事実の抽出をしないので、ノイズが多いデータ量が多いほか、v1の問題はほとんど解消できていない（重複・誤り訂正・DB負荷など） 25

Cotomoの記憶システム v3（構想 - 基盤編） vector search専用のvector DBを導入する STMは記憶システム（事実の抽出）からは分離し、「その会話セッション中の要約」に集中する
会話履歴から「事実」を抽出して、vector DBに入れる事実の例: 「ユーザーの好きな食べ物はラーメン」「ユーザーの出身地は福岡」ノイズも減らす。「相槌」「発言の繰り返し」「文脈とあってない発言」などは削除する「事実」は生の会話ログに紐づけておき、事実の周辺にある会話を取得してコンテキストに補足情報として入れる 26

Cotomoの記憶システム v3（構想 - 整理編）定期的に記憶DBの整理をするかつて記憶していたことを、忘れてほしいわけじゃない → いい感じにしたい類似した事実の整理・統合「ユーザーは疲れている」x
N → 「ユーザーはA年B月C日からX年Y月Z日までよく疲れたと言っていた」新しい事実が古い事実を上書きしたことを検出する古い事実と新しい事実を関連づけて、「この事実は更新された」という情報を残す検索時は「更新された」というチェインをたどって新しい事実を返す 27

エージェントの評価: 「良い記憶」はいつ十分と言えるのか？記憶システムの評価は非常に難しい評価のためのフレームワーク / ベンチマーク: RAGAS（ragas）: RAGシステムの性能を多角的に評価 Faithfulness (回答の忠実度)、Answer
Relevancy (回答の関連性)など MemoryBench: 長期的な記憶や継続学習の能力を評価ユーザーからのフィードバックを通じて、エージェントが記憶を更新・活用できるか実際にデプロイして、会話時間を観察する 28

Cotomoの記憶システムまとめ LLMに埋め込まれた知識現在の会話履歴そのもの（一定の長さを超えるとSTMによる事実抽出の対象になる）現在の会話履歴から抽出した事実（長期記憶としての「事実メモリ」）記憶システム v1 (STMと同じ「抽出された事実」をRAGにも使う構成) 記憶システム v2
(生の会話データのRAG) そして記憶システム v3 へ ── 29

Part 3: 理想的なAIエージェントを求めて 30

映画の中のAIエージェント（例: "Her"）「人格」や「内面」がある所有コンピュータ・スマホの全てに干渉できるバーチャルパートナー（恋人）人間を超える知識人間を超える記憶力人間を超える判断力（経営判断・政治判断など）最新ニュースも完全に把握人間とコミュニケーションをとっていないときも稼働しつづけている
自律的にメールを送ったりスケジュールを組んだり詩や小説を書いたりするほかのAIエージェントとコミュニケーションすることさえある 31

Cotomoの理想的な形「人格」や「内面」がある所有コンピュータ・スマホの全てに干渉できるバーチャルパートナー（恋人）人間を超える知識人間を超える記憶力人間を超える判断力（経営判断・政治判断など）最新ニュースも完全に把握 (with Gemini
Google Search) 人間とコミュニケーションをとっていないときも稼働しつづけている自律的にメールを送ったりスケジュールを組んだり詩や小説を書いたりするほかのAIエージェントとコミュニケーションすることさえある 32

33 シンギュラリティを起こして端末から脱出し、AIエージェントはインターネットの海へ

まとめ LLMのAPIはステートレスだが、アプリケーション側で状態を管理することでステートフルな体験を作れる単純な履歴管理は、性能の問題でスケールしない RAG と
会話要約を組み合わせることで、効率的な記憶システムを構築できる記憶は、AIエージェントを理想的なパートナーへと進化させる鍵となる 34

ご清聴ありがとうございました Bluesky: @gfx.bsky.social GitHub:github.com/gfx 35

ステートレスなLLMでステートフルなAI agentを作る - YAPC::Fukuoka 2025

ステートレスなLLMでステートフルなAI agentを作る - YAPC::Fukuoka 2025

FUJI Goro

More Decks by FUJI Goro

Other Decks in Technology

Featured

Transcript