Introduction__to_Multimodal_RAG.pdf

Proprietary + Confidential Multimodal RAG (Retrieval Augmented Generation) 入門 Miki
Katsuragi 5-Dec-2024

生成 AI による grounding の問題点

LLM ＝公開されている大量のデータを事前学習したモデル LLM (Large Language Model) とは LLM
• テキストの生成 • 要約 • Q&A

LLM の問題点：Hallucinations User Input langchainとは何ですか？ Response LangChain は、ユーザーが言語を作成、共有、学習できるブロックチェーンベースのプラットフォー
ムです。 User Input langchainとは何ですか？ Response LangChain は、大規模言語モデル (LLM) を使用するアプリケーションを構築するためのオープンソースフレームワークです。不正解 (Hallucination) 正解 (Grounded)

• テキストの生成 • 要約 • Q&A Grounding : LLM を独自のデータで強化
LLM 構造化 SQL databases, Vector Stores, Knowledge Graphs APIs 非構造化 PDF, PPT, XLS, DOC, HTML, Audio, Image, Video etc. ファイル JSON, CSV Enterprise Systems

(Full) Fine-Tuning 人間がチェックする Prompt Engineering fine-tuning を実行ネットワークの重みを調整してで LLM
を学習 - データ準備が必要 - 費用がかかる - データの更新に対応が必要 - 期待したように動作しない可能性あり LLM の出力を人間が確認 - 非常に工数がかかる - 人によるミスや誤りのリスク既知の情報をプロンプトに追加して、LLM を誘導 - LLM のトークン制限 - エラーが発生しやすい: - 適切なコンテキストの取得 - パフォーマンス、レイテンシー、コストが犠牲になる Hallucination の対応例

Retrieval Augmented Generation (RAG)

Retrieval Augmented Generation (RAG) ユーザーデータによる「グラウンディング」課題: • LLM はビジネスの独自データやドメイン固有のデータを
知らない • LLM にはリアルタイムの情報がない解決策: 情報検索システムを使用し、 LLM に関連コンテキストをリアルタイムで与えるテキスト生成 Information Retrieval (IR) System 外部の知識 Retriever (BM25, encoder, vector search) Generator (LLM: Gemini) 質問コンテキストプロンプト結果ランキング Retrieval Augmented Generator 回答 Generative AI applications with Vertex AI PaLM 2 Models and LangChain

あなたは、{{company | 研究論文 | …}} に関するユーザーの質問をサポートするインテリジェントなアシスタントです。次の context のみを使用して質問に回答してください。
なお、事実と異なる回答は捏造しないでください： - 質問に対する答えが文脈だけから判断できない場合は、「それに対する答えは判断できません」と回答してください - 文脈が空の場合は「それに対する答えがわかりません」とだけ回答してください context： {{retrieved_information}} 質問：{{question} 回答: RAG における回答生成時のプロンプト例

RAG システム作成時の一般的なフローデータ取り込みデータ検索 Chunk Chunk Chunk Chunk Vector DB
Chunk LLM Retrieval Synthesis

データ取り込み /解析 • ドキュメントを均等なチャンクに分割 • 各チャンクは生のテキストの一部 • チャンクごとにエンベディングを生成 • 各チャンクを
Vector DB に保存 RAGを構築するためのワークフロー Chunk Chunk Chunk Chunk Vector DB Vector DB Chunk LLM クエリ(検索) を実行ベクトルデータベースから上位 k 個の最も類似したチャンクを検索 LLM で返答を生成 Retrieval Synthesis

Multimodal RAGの技術マップ Parse & Chunk (docs w/ selectable text) Vectorize
Indexing Retrieval Generation OOTB (Vertex AI Searchなど) Vertex AI Search w/ custom embeddings Vertex AI Vector Search (Matching Engine) Text Embeddings (embed the summary) Gemini LLM (Generate Text, table, and image summary) Gemini LLM Unstructured IO Document AI Layout Parser PymuPDF Multimodal Embeddings (Summarization not needed) OCR (scanned docs) Document AI OCR Processor Gemini LLM (Parse pages)

Embeddings によるマルチモーダル RAG（Retrieval-Augmented Generation）構築

“エンベディング=高次元ベクトルを変換できる比較的低次元のベクトル意味的に類似した入力をエンベディング空間内に近接して配置することで、入力のセマンティクスの一部をキャプチャ ” From: Google Machine Learning Crash
Course Data (104~106 dims) DL models Embs (102~104 dims) Meet AI’s multitool: Vector embeddings Embeddings とは？

Proprietary + Confidential Embeddings による検索イメージ … 1 2 N embedding_space
query_item candidate_items query search rank [0.1, 0.002, 0.56, 0.98...] [0.97, 0.003, 0.532, 0.91...] [0.94, 0.004, 0.553, 0.89...] [0.1, 0.003, 0.52, 0.89...]

Proprietary + Confidential 従来の検索手法：Exact search/brute force search クエリが与えられた際、最も関連性の高い候補アイテムをアイテムのコーパスから検索 query search
rank … 1 2 N Brute force (exhaustive) search 数百万・数十億の商品を含む大規模 DBでは実行不可能計算の非効率性 → 関連するのは小さなサブセットのみ → リアルタイムのランキングは不可能 embedding_space query_item candidate_items

Proprietary + Confidential Approximate Nearest Neighbor (ANN) search クエリが与えられた際、最も関連性の高い候補アイテムをアイテムのコーパスから検索 query
search rank … 1 2 N Approximate Search 効率的な検索のために最適化されたインデックス構造 → ベクトル量子化を使用してデータセットをサブセットに分割（類似ベクトルをグループ化） → 検索を候補アイテムのサブセットに制限類似した項目を互いに近づけるようにインデックスを構築 embedding_space query_item candidate_items

イベント告知 [年内ラスト ] 一番いいのを頼む !? 生成AIによる推薦 !! 応募方法：connpass 開催日時：2024/12/18(木) 18:00〜予定
現地会場：Google渋谷オフィス（ハイブリッド開催）定員：現地20名/オンライン無制限 41 概要申込はこちら ※connpassへ登録の上お申込み下さい！ ML女子部とは機械学習やデータ分析をゆるく学ぶ会です。数ヶ月に1回程度初心者向けのハンズオンイベントを開催予定です。初心者向けのグループなので，はじめての方でも大丈夫です！ ML/データ分析に興味ある方はぜひどなたでもご参加ください。女性メンバー中心で運営しているグループですが、男性の参加もお待ちしてます♪ ▼対象・Pythonの基本的な知識がある方・chromeブラウザが動作する PCをお持ちの方・男性の参加も OKです!

Proprietary + Conﬁdential THANK YOU!

Introduction__to_Multimodal_RAG.pdf

Introduction__to_Multimodal_RAG.pdf

Miki Katsuragi

More Decks by Miki Katsuragi

Featured

Transcript

Proprietary + Confidential Multimodal RAG (Retrieval Augmented Generation) 入門 Miki

生成 AI による grounding の問題点

LLM ＝公開されている大量のデータを事前学習したモデル LLM (Large Language Model) とは LLM

LLM の問題点：Hallucinations User Input langchainとは何ですか？ Response LangChain は、ユーザーが言語を作成、共有、学習できるブロックチェーンベースのプラットフォー

• テキストの生成 • 要約 • Q&A Grounding : LLM を独自のデータで強化

(Full) Fine-Tuning 人間がチェックする Prompt Engineering fine-tuning を実行ネットワークの重みを調整してで LLM

Retrieval Augmented Generation (RAG)

Retrieval Augmented Generation (RAG) ユーザーデータによる「グラウンディング」課題: • LLM はビジネスの独自データやドメイン固有のデータを

あなたは、{{company | 研究論文 | …}} に関するユーザーの質問をサポートするインテリジェントなアシスタントです。次の context のみを使用して質問に回答してください。

RAG システム作成時の一般的なフローデータ取り込みデータ検索 Chunk Chunk Chunk Chunk Vector DB

データ取り込み /解析 • ドキュメントを均等なチャンクに分割 • 各チャンクは生のテキストの一部 • チャンクごとにエンベディングを生成 • 各チャンクを

Multimodal RAGの技術マップ Parse & Chunk (docs w/ selectable text) Vectorize

Embeddings によるマルチモーダル RAG（Retrieval-Augmented Generation）構築

“エンベディング=高次元ベクトルを変換できる比較的低次元のベクトル意味的に類似した入力をエンベディング空間内に近接して配置することで、入力のセマンティクスの一部をキャプチャ ” From: Google Machine Learning Crash

Proprietary + Confidential Embeddings による検索イメージ … 1 2 N embedding_space

Proprietary + Confidential 従来の検索手法：Exact search/brute force search クエリが与えられた際、最も関連性の高い候補アイテムをアイテムのコーパスから検索 query search

Proprietary + Confidential Approximate Nearest Neighbor (ANN) search クエリが与えられた際、最も関連性の高い候補アイテムをアイテムのコーパスから検索 query

イベント告知 [年内ラスト ] 一番いいのを頼む !? 生成AIによる推薦 !! 応募方法：connpass 開催日時：2024/12/18(木) 18:00〜予定

Proprietary + Conﬁdential THANK YOU!