Slide 21
Slide 21 text
RAG で使われる検索技術: チャンキング
検索対象データ (データソース) には、大小さまざまな規模のデータがある
・周知文書: 1枚のテキストで、一つの内容のみが書かれている
・取扱説明書: 何ページもある文書で、複数の章・節で構成されている
(各部の説明、◯◯機能の操作方法、故障時の対応、etc.)
サイズが大きく、複数の内容が含まれるデータの場合
→ 文書全体をベクトルデータに変換しようとすると、
データに含まれるすべての要素が一つのベクトルデータになってしまう
→ 検索時に、探したい事項にピンポイントで情報をヒットさせることができない
(知りたいのは「◯◯機能の操作方法」だけなのに、いらん情報までヒットする・・・)