アプローチ3:
すべてのモダリティを1
つの主要なモダリティにまとめ
る
Preprocessor
テキストデータ
画像データ 画像の説明
チャンク化されたテキスト
データ
データ データ 前処理されたデータ
データソース Loader
Data Store
Data Classifier Text Splitter
Multimodal Text
Generation Model
Text Embedding Model
主要なモダリティを1
つ選択し、その他のモダリティをそれに変換
例:
テキストを主要なモダリティとして選択し、画像をテキストに変換する
主要なモダリティによって検索できるようにしておき、検索結果に紐付く元デー
タを取得できようにしておく
18
参考情報
Multi-Vector Retriever for RAG on tables, text, and images
Multimodal Retrieval Augmented Generation (RAG) with Gemini, Vertex AI
Vector Search, and LangChain
RAG
の課題と精度改善のための発展的なアプローチまとめ | Hakky Handbook
29