セッション概要:
- LLMの回答精度を高めるための手法としてRAGがある
- 一般的なRAGはテキストのみを扱うが、画像や音声なども扱えるRAGをマルチモーダルRAGと呼ぶ
- マルチモーダルRAGを実現するアプローチを3つ紹介
- 実際にマルチモーダルRAGを実装してみたので、その概要を紹介
参考情報:
Build a Retrieval Augmented Generation (RAG) App | 🦜️🔗 LangChain
マルチモーダル検索拡張生成 (RAG) の簡単な紹介 - NVIDIA 技術ブログ
【RAG】画像・テーブルデータに対応可能な Multi-representation-indexing について | Hakky Handbook
Multi-Vector Retriever for RAG on tables, text, and images
Multimodal Retrieval Augmented Generation (RAG) with Gemini, Vertex AI Vector Search, and LangChain
RAGの課題と精度改善のための発展的なアプローチまとめ | Hakky Handbook