Deep Dive into Momento with LangChain

Deep Dive into Momento with LangChain もめんと Meet-up in June
#2 kzk_maeda

Kazuki Maeda @kzk_maeda SRE @atama plus AWS Community Builders AWS
Startup Community Core Member 7+ years of experience of AWS Like: 　Lambda / Step Functions / Glue / MWAA / Athena 　最近はGoogle CloudとLLM系を勉強中自己紹介

agenda Momento with LangChainを触ってみる Momento with LangChainのコードを追ってみる今後の期待

Momento Cacheとは • Serverless Cache Service • Web上でセットアップして、SDKを埋め込むだけでクラスターセットアップなど不要で利用開始できる •
キャパシティの管理、プロビジョニング、パフォーマンスモニタリングなどオペレーション業務からの解放

LangChainとは • LLM（大規模言語モデル）を利用したアプリケーション開発に利用できるライブラリ • 各種LLM APIの抽象化、独自データのLoader、ツール群の組み合わせなどの様々な機能が提供されている • バージョンアップ頻度が異常

なぜLangChainとMomento？ https://twitter.com/LangChainAI/status/1662138670332395520?s=20

なぜLangChainとMomento？ https://python.langchain.com/docs/ecosystem/integrations/momento

なぜLangChainとMomento？ https://www.gomomento.com/blog/momento-is-now-fully-integrated-into-the-langchain-ecosystem

LangChainでMomentoが使える場所 • LLM Cache • Conversation Memory

LLM Cache 通常LangChainでは、都度OpenAIなどのLLMサービスとやりとりをしますが

LLM Cache Cacheが効いていると、InterceptしてCacheからResponseを返します

LLM Cache 実装数行のコードで実装可能

LLM Cache クエリ時間比較同一のPromptであれば実行時間を90%以上低減

LLM Cache Token消費量比較 CacheがAnswerを返すのでOpenAIのToken消費量は0

LLM Cache 時間もコストも削減が見込める！！

Conversation Memory 通常、LangChainからLLMへのRequestは状態を持たないので独立実行 →以前の会話内容をLangChainは記憶しない

Conversation Memory ConversationChainのMemoryとしてMomentoを活用し、会話の流れを作れる

Conversation Memory 実装こちらもシンプルなコードで実装可能

注ここからLangChainのコードを眺めていきますが、冒頭で紹介したように、LangChainの更新頻度は異常です。以降のコードは version 0.0.207 のものとなっております。また、説明の都合でコードの一部のみ抜粋して表示します。

LLM Cache 中で何が行われているのか追ってみましょう

LLM Cache llm_cache が有効であるとcacheに問い合わせる機構が LLMの基底クラスに定義されている

LLM Cache PromptとLLMのparameterをhash化して str castしたtextをKeyにして、Momentoに格納

LLM Cache こんな感じでCacheが衝突しないようになっている

Conversation Memory 中で何か行われているのか追ってみましょう

Conversation Memory ConversationChainの中でmemoryをセットできる

Conversation Memory デフォルトで message_store: 文字列をprefixに付与して session_id を追加したtextをKeyにしている

Conversation Memory plain textをKeyのprefixに追加することで、 CacheのKey（hash化された文字列）との衝突を抑制している？？という推測（中の人教えてください）

ここまで追ってみて • ライブラリを利用する側はシンプルに使えるようにいろんな処理が抽象化されている一方、実装側では衝突を防ぐための仕組みが入っていたりと工夫されていることがわかった • 実際にデバッグしてCache Keyを特定してコンソールから確認することができ、楽しかった

今後の期待 • Cache機構の拡大 ◦ （LangChainの対応が必要かもしれませんが） Embeddingの生成など、他にもTokenを利用し、時間がかかる処理があるので、そこでも Cacheが効かせられると嬉しいなと思った • Vector
Storeとしての利用 ◦ 時限式で消えるVector Storeという用途がLLMアプリケーションの中ではそこそこ求められるケースがありそう ◦ Vector Storeが消えていたら新規に Embedding生成してStoreすることでデータ鮮度を高く保つとか ◦ Momentoでそれが実現できると管理が楽で嬉しいなと思った

今後の期待 • 特にVector Storeとして使えると、こういう仕組みを作る時に使い勝手が非常にいい（気がします）

Thank you

Deep Dive into Momento with LangChain

Deep Dive into Momento with LangChain

Kazuki Maeda

More Decks by Kazuki Maeda

Other Decks in Technology

Featured

Transcript