チャンク戦略

C H U N K S T R A T
E G Y 2024年10月21日チャンク戦略わいわい

生成AI 固定長チャンク階層チャンク文ベースチャンク MoGG セマンティックチャンクベクトルDB エンべディングモデル
チャンク分割マルチモーダル RAG 01 チャンク分割の立ち位置プロンプトエンジニアリング RAG 生成AIツールエージェント

02 RAGとは独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative
検索拡張生成つまりRAGを使うと・・・ LLMが知らない情報を答えてくれるようになる

03 なぜ必要か？ハルシネーションの軽減 LLMが出力した内容が正確かどうかをチェックすることができるようになる ※ハルシネーションとは AIや言語モデルが事実とは異なる情報や存在しないデータ
を生成する現象未学習データの出力社内データやインターネット上にない情報をLLMに回答させることが可能になる QAボットや問い合わせボットなど専門性が求められるものに使用することができる

04 RAGの仕組みユーザーチャットアプリケーションベクトルDB LLM ① 質問 ⑥
回答 ② 検索 ③ 結果取得 ④ プロンプト ⑤ 回答作成

04 RAGの仕組み

04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割エンべディングモデル

ベクトルDB エンべディングモデルチャンク分割ドキュメントの形式・質 05 精度向上の変数組み合わせは星の数ほど存在する

生成AI 固定長チャンク階層チャンク文ベースチャンク MoGG セマンティックチャンクベクトルDB エンべディングモデル
チャンク分割マルチモーダル RAG 01 チャンク分割の立ち位置プロンプトエンジニアリング RAG 生成AIツールエージェント

06 チャンクとは？データを小さな「かたまり」に分けて効率的に検索や処理ができるようにするための手法

07 チャンクの必要性コンテキストウインドの限界コンテキストの情報精度の限界

07-1 コンテキストウインドの限界 LLMには、一度に処理できるテキスト量に制限がある。テキストを小さなチャンクに分割することで、LLM は情報をより効率的に処理することができます。 LLMには、一度に処理できるテキスト量に制限がある。テキストを小さなチャンクに分割することで、 LLM
は情報をより効率的に処理することが可能。

07-2 コンテキストの情報精度の限界 LLM が一度に全体のテキストを処理できたとしても、文書全体のコンテキストを維持するのが難しい。テキストを特定のアイデアやセクションに焦点を当てたチャンクに分割することで、LLM はテキストの異なる部分間の関係をよりよく理解することが可能。

08 チャンクの種類セマンティックチャンク MoGG 固定長チャンク階層チャンク文ベースチャンク

08-1 固定長チャンク一定の文字数やトークン数でテキストを分割する方法概要メリット実装が簡単で、計算資源が少なくて済むデメリットテキストの構造を考慮しないため、文の途中で切れることがある

08-1 固定長チャンク

08-2 セマンティックチャンク意味的に関連するテキストを一緒に保持する方法概要メリット情報の意味を保持し、検索精度を向上させるデメリット計算コストが高く、実装が複雑

08-2 セマンティックチャンク

08-3 階層チャンク⼤きな階層と⼩さな階層でチャンクに親⼦関係を持たせる概要メリット検索時は⼦チャンク、回答⽣成時には親チャンクを利⽤するため、検索・回答⽣成の両⽅の精度を向上させるデメリット親⼦関係をネスト化した構造を定義する必要があるため前処理が大変

08-3 階層チャンク

08-4 文ベースチャンク文の区切り（ピリオドや感嘆符、疑問符、日本語の場合には句読点など）で分割する概要メリット文の意味を保持したまま分割することができるデメリット文章が離れている場合、精度が下がる

08-5 参照ドキュメントをグラフ化することで、離れた場所にある関連情報を効率的に取得できる概要メリット他ファイルを参照している場合や、注：などの近くに情報がないナレッジに有効デメリット実装コストが高い引用：https://arxiv.org/abs/2406.00456 MoGG(Mix-of-Granularity-Graph)

08-5 MoGG(Mix-of-Granularity-Graph)

08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割

ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得例）インボイス制度とは？近い意味のチャンクのみ取得

08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成

08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定

08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる

T H A N K Y O U

チャンク戦略

チャンク戦略

わいわい

More Decks by わいわい

Other Decks in Technology

Featured

Transcript

C H U N K S T R A T

生成AI 固定長チャンク階層チャンク文ベースチャンク MoGG セマンティックチャンクベクトルDB エンべディングモデル

生成AI 固定長チャンク階層チャンク文ベースチャンク MoGG セマンティックチャンクベクトルDB エンべディングモデル

02 RAGとは独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative

03 なぜ必要か？ハルシネーションの軽減 LLMが出力した内容が正確かどうかをチェックすることができるようになる ※ハルシネーションとは AIや言語モデルが事実とは異なる情報や存在しないデータ

04 RAGの仕組みユーザーチャットアプリケーションベクトルDB LLM ① 質問 ⑥

04 RAGの仕組み

04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割エンべディングモデル

ベクトルDB エンべディングモデルチャンク分割ドキュメントの形式・質 05 精度向上の変数組み合わせは星の数ほど存在する

ベクトルDB エンべディングモデルチャンク分割ドキュメントの形式・質 05 精度向上の変数組み合わせは星の数ほど存在する

生成AI 固定長チャンク階層チャンク文ベースチャンク MoGG セマンティックチャンクベクトルDB エンべディングモデル

06 チャンクとは？データを小さな「かたまり」に分けて効率的に検索や処理ができるようにするための手法

07 チャンクの必要性コンテキストウインドの限界コンテキストの情報精度の限界

08 チャンクの種類セマンティックチャンク MoGG 固定長チャンク階層チャンク文ベースチャンク

08-1 固定長チャンク一定の文字数やトークン数でテキストを分割する方法概要メリット実装が簡単で、計算資源が少なくて済むデメリットテキストの構造を考慮しないため、文の途中で切れることがある

08-1 固定長チャンク

08-2 セマンティックチャンク意味的に関連するテキストを一緒に保持する方法概要メリット情報の意味を保持し、検索精度を向上させるデメリット計算コストが高く、実装が複雑

08-2 セマンティックチャンク

08-3 階層チャンク

08-4 文ベースチャンク文の区切り（ピリオドや感嘆符、疑問符、日本語の場合には句読点など）で分割する概要メリット文の意味を保持したまま分割することができるデメリット文章が離れている場合、精度が下がる

08-5 MoGG(Mix-of-Granularity-Graph)

08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割

ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得例）インボイス制度とは？近い意味のチャンクのみ取得

08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成

08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定

08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる

T H A N K Y O U