LLMと大規模RAGによるAIサービス開発—本番運用に耐える基盤設計とサービス間連携手法

古橋貞之 Chief Architect, Treasure Data LLMと大規模RAGによる AIサービス開発本番運用に耐える基盤設計とサービス間連携手法

Sadayuki Furuhashi Treasure Data, Chief Architect • 2011年渡米 • Treasure
Data 共同創業メンバー • 大規模分散DB PlazmaDB 他、Fluentd等を設計･開発 • 2023年〜東京在住

大規模RAG 構築

RAGと？ Retrieval-Augmented Generation - ドメイン知識・最新知識を考慮した回答を生成プロンプト LLM 回答 LLM
学習結果検索エンジン検索結果を使ってLLMへ入力を拡張検索クエリ

従来検索（キーワード検索）問題 • 質問に検索キーワードが含まれない • 質問者検索キーワードを考えない • キーワード
出現頻度によるランキング手法が使えない “結婚を前に指輪を買いに来たお客様。価格 40万円以下。お勧めするべき商品？ ” “5日以内に購買記録ある F1層をターゲットとしたセグメントを作成して ” 質問回答に使用したい知識商品名カテゴリ価格商品説明トゥルーエンゲージメントリングダイヤモンドプラチナリング 350,000 … トゥルーマリッジリングダイヤモンドホワイトゴールドリング 410,000 … 顧客ID 性別生年月日 123 女性 1999 456 女性 2001 顧客ID 購買日時 123 女性 123 女性

ベクトル類似度検索 - 1/2 “トゥルーエンゲージメントリングダイヤモンドプラチナ” 文章： “トゥ”
“ルー ” “エン” “ゲージ” “メン” “ト ” “リン” … 1. トークナイズ [0.61, 0.48, 0.08] [0.71, 0.65, 0.24] [0.51, 0.60, 0.93] [0.82, 0.02, 0.27] [0.88, 0.08, 0.35] [0.24, 0.64, 0.64] [0.76, 0.00, 0.62] … LLMから意味を表すベクトルを抽出 [0.02, 0.09, 0.73] 3. 集約（pooling） 2. 手順：

ベクトル類似度検索 - 2/2 “トゥルーエンゲージメントリングダイヤモンドプラチナ” “結婚を前に指輪を買いに来たお客様”
文章： “トゥ” “ルー ” “エン” “ゲージ” “メン” “ト ” “リン” … “結婚” “を前” “に” “指” “輪” “を” … 1. トークナイズ [0.61, 0.48, 0.08] [0.71, 0.65, 0.24] [0.51, 0.60, 0.93] [0.82, 0.02, 0.27] [0.88, 0.08, 0.35] [0.24, 0.64, 0.64] [0.76, 0.00, 0.62] … [0.99, 0.31, 0.99] [0.10, 0.19, 0.92] [0.17, 0.23, 0.78] [0.87, 0.62, 0.87] [0.06, 0.71, 0.71] [0.87, 0.64, 0.44] … LLMから意味を表すベクトルを抽出 [0.02, 0.09, 0.73] [0.07, 0.11, 0.64] クエリ：コサイン類似度を計算スコア：0.995 2. 4. 手順： 3. 集約（pooling）

ベクトル類似度検索実装例 • トークナイズとベクトル化（ステップ1〜3） a. OpenAI等 Embeddings APIを使用 b. 推論ランタイムを使ってローカル実行（MTEB等
ベンチマークを参考にオープンモデルを選択） ▪ ONNX Runtime ▪ HuggingFace Transformers, Optimum, text-embeddings-inference • 検索（ステップ4以降） a. 検索エンジン ANN (Approximate Nearest Neighbors) インデックスを使用 ▪ Elasticsearch ▪ Azure Cognitive Search b. ベクトル検索ライブラリを使用 ▪ Voyager, Qdrant, Weaviate ▪ USearch, ScaNN, FAISS c. SQLで実装 ▪ DuckDB (list_cosine_similarity) ▪ BigQuery (ML.DISTANCE)

SQLとベクトル類似度検索による大規模RAG demo

役割分担とプロンプト分割

LLMと通信プロトコル - 1/3 Human: What's … Assistant: Certainly! …
LLM input LLM output Generate System prompt User prompt LLM output Instruction to the LLM. How should the LLM work? User question. What should the LLM do? System: You're …

LLMと通信プロトコル - 2/3 (multi-turn) Human: What's … Assistant: Certainly!
… LLM output Human: Continue Assistant: And it is … Generate LLM input System: You're … User prompt LLM output System prompt User prompt LLM output

LLMと通信プロトコル - 3/3 (multi-turn) System: You're … Human: What's
… Assistant: Certainly! … LLM output Human: Continue Assistant: And it is … Human: Good Assistant: Thank you! LLM input Generate User prompt LLM output User prompt LLM output System prompt User prompt LLM output

LLM コスト構造 System: You're … Human: What's … Assistant: Certainly!
… LLM output Human: Continue Assistant: And it is … Human: Good Assistant: Thank you! LLM input Generate Max 128k input tokens $10.00 / 1M tokens (GPT-4 Turbo) Max 4k output tokens $30.00 / 1M tokens (GPT-4 Turbo) User prompt LLM output User prompt LLM output System prompt User prompt LLM output

Function Calling - 1/3 System: Use [invoke $NAME] $PARAMETERS [/invoke]
syntax to call a function. Available functions: retrieve_products(keywords: string) Human: Show me some recommended products Assistant: [invoke retrieve_products] recommend products [/invoke] Parse LLM output and invoke a function > retrieve_products("recommended products")

syntax to call a function. Available functions: retrieve_products(keywords: string) Human: Show me some recommended products Assistant: [invoke retrieve_products] recommend products [/invoke] Tool: [result retrieve_products] Fluentd, MessagePack, Embulk [/result] Assistant: We recommend Fluentd, MessagePack, and Embulk. Enjoy! > retrieve_products("recommended products") < { "Fluentd": 0.93, "MessagePack": 0.43, "Embulk": 0.39 } Parse LLM output - show the contents because output doesn't contain function calls

syntax to call a function. Available functions: retrieve_products(keywords: string) Human: Show me some recommended products Assistant: [invoke retrieve_products] recommend products [/invoke] Tool: [result retrieve_products] Fluentd, MessagePack, Embulk [/result] Assistant: We recommend Fluentd, MessagePack, and Embulk. Enjoy! Human: Thank you Assistant: You're welcome. Ask me more questions if you have > retrieve_products("recommended products") < { "Fluentd": 0.93, "MessagePack": 0.43, "Embulk": 0.39 } Parse LLM output - show the contents because output doesn't contain function calls Parse LLM output - show the contents because output doesn't contain function calls

Function Calling 使い道（例） • 検索 ◦ ウェブ検索（LLMがクエリ生成） ◦ ウィキペディア検索 ◦
ドキュメント検索 • 分析 ◦ SQL実行（LLMがクエリ生成） ◦ 別ウィンドウでグラフを表示 • サービス連携 ◦ 外部APIに通知（例: レストラン予約） ◦ 外部APIからデータ取得（例: 予約一覧表示） • 役割分担 ◦ 別 LLMに候補一覧を渡し、もっとも良いもを選んで返してもらう

複数LLMを組み合わせた生成・ Function callingによるグラフ描画 demo

LLMサービスとシステム連携

連携方法1：Function Callingで呼ぶ Frontend UI Backend API LLM API External services
RAG database

連携方法2：Webhookで呼れる Backend API LLM API External services RAG database

WebhookによるGoogle Docs連携 demo

Thank you

LLMと大規模RAGによるAIサービス開発—本番運用に耐える基盤設計とサービス間連携手法

LLMと大規模RAGによるAIサービス開発—本番運用に耐える基盤設計とサービス間連携手法

Sadayuki Furuhashi

More Decks by Sadayuki Furuhashi

Featured

Transcript

古橋貞之 Chief Architect, Treasure Data LLMと大規模RAGによる AIサービス開発本番運用に耐える基盤設計とサービス間連携手法

Sadayuki Furuhashi Treasure Data, Chief Architect • 2011年渡米 • Treasure

大規模RAG 構築

RAGと？ Retrieval-Augmented Generation - ドメイン知識・最新知識を考慮した回答を生成プロンプト LLM 回答 LLM

従来検索（キーワード検索）問題 • 質問に検索キーワードが含まれない • 質問者検索キーワードを考えない • キーワード

ベクトル類似度検索 - 1/2 “トゥルーエンゲージメントリングダイヤモンドプラチナ” 文章： “トゥ”

ベクトル類似度検索 - 2/2 “トゥルーエンゲージメントリングダイヤモンドプラチナ” “結婚を前に指輪を買いに来たお客様”

ベクトル類似度検索実装例 • トークナイズとベクトル化（ステップ1〜3） a. OpenAI等 Embeddings APIを使用 b. 推論ランタイムを使ってローカル実行（MTEB等

SQLとベクトル類似度検索による大規模RAG demo

役割分担とプロンプト分割

LLMと通信プロトコル - 1/3 Human: What's … Assistant: Certainly! …

LLMと通信プロトコル - 2/3 (multi-turn) Human: What's … Assistant: Certainly!

LLMと通信プロトコル - 3/3 (multi-turn) System: You're … Human: What's

LLM コスト構造 System: You're … Human: What's … Assistant: Certainly!

Function Calling - 1/3 System: Use [invoke $NAME] $PARAMETERS [/invoke]

Function Calling - 2/3 System: Use [invoke $NAME] $PARAMETERS [/invoke]

Function Calling - 3/3 System: Use [invoke $NAME] $PARAMETERS [/invoke]

Function Calling 使い道（例） • 検索 ◦ ウェブ検索（LLMがクエリ生成） ◦ ウィキペディア検索 ◦

複数LLMを組み合わせた生成・ Function callingによるグラフ描画 demo

LLMサービスとシステム連携

連携方法1：Function Callingで呼ぶ Frontend UI Backend API LLM API External services

連携方法2：Webhookで呼れる Backend API LLM API External services RAG database

WebhookによるGoogle Docs連携 demo

Thank you