セッション概要:
- LLMの回答精度を高めるための手法としてRAGがある
- 一般的なRAGはテキストのみを扱うが、画像や音声なども扱えるRAGをマルチモーダルRAGと呼ぶ
- マルチモーダルRAGを実現するアプローチを3つ紹介
- 実際にマルチモーダルRAGを実装してみたので、その概要を紹介
関連リンク:
- ソースコード https://github.com/tanimon/multimodal-rag-chatbot
- 解説ブログ https://dev.classmethod.jp/articles/multimodal-rag-chatbot/
- 登壇ブログ https://dev.classmethod.jp/articles/classmethod-ai-talks-6-multimodal-rag/
参考情報:
- Build a Retrieval Augmented Generation (RAG) App | 🦜️🔗 LangChain
- マルチモーダル検索拡張生成 (RAG) の簡単な紹介 - NVIDIA 技術ブログ
- 【RAG】画像・テーブルデータに対応可能な Multi-representation-indexing について | Hakky Handbook
- Multi-Vector Retriever for RAG on tables, text, and images
- Multimodal Retrieval Augmented Generation (RAG) with Gemini, Vertex AI Vector Search, and LangChain
- RAGの課題と精度改善のための発展的なアプローチまとめ | Hakky Handbook