Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャンク戦略
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
わいわい
December 24, 2025
Technology
0
15
チャンク戦略
チャンク分割のさまざまな手法について解説しています。
わいわい
December 24, 2025
Tweet
Share
More Decks by わいわい
See All by わいわい
Everything As Code
yosuke_ai
0
570
AI駆動開発
yosuke_ai
0
35
本の読み方
yosuke_ai
0
10
AI時代における情報収集術
yosuke_ai
0
10
生成AIをちゃんと使う
yosuke_ai
0
16
Other Decks in Technology
See All in Technology
超初心者からでも大丈夫!オープンソース半導体の楽しみ方〜今こそ!オレオレチップをつくろう〜
keropiyo
0
110
AWS Network Firewall Proxyを触ってみた
nagisa53
1
240
Tebiki Engineering Team Deck
tebiki
0
24k
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
0
2.2k
AI駆動開発を事業のコアに置く
tasukuonizawa
1
220
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
410
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)
abemii
0
140
広告の効果検証を題材にした因果推論の精度検証について
zozotech
PRO
0
190
コスト削減から「セキュリティと利便性」を担うプラットフォームへ
sansantech
PRO
3
1.5k
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
800
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
3
2.5k
Featured
See All Featured
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
14k
Paper Plane (Part 1)
katiecoart
PRO
0
4.3k
Raft: Consensus for Rubyists
vanstee
141
7.3k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
130
Testing 201, or: Great Expectations
jmmastey
46
8k
Mobile First: as difficult as doing things right
swwweet
225
10k
How to make the Groovebox
asonas
2
1.9k
Transcript
C H U N K S T R A T
E G Y 2024年10月21日 チ ャ ン ク 戦 略 わいわい
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
02 RAGとは 独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative
検索 拡張 生成 つまりRAGを使うと・・・ LLMが知らない情報を答えてくれるようになる
03 なぜ必要か? ハルシネーション の軽減 LLMが出力した内容が正確か どうかをチェックすることが できるようになる ※ハルシネーションとは AIや言語モデルが事実とは異 なる情報や存在しないデータ
を生成する現象 未学習データ の出力 社内データやインターネット 上にない情報をLLMに回答さ せることが可能になる QAボットや問い合わせボッ トなど専門性が求められるも のに使用することができる
04 RAGの仕組み ユーザー チャット アプリケーション ベクトルDB LLM ① 質問 ⑥
回答 ② 検索 ③ 結果取得 ④ プロンプト ⑤ 回答作成
04 RAGの仕組み
04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割 エンべディングモデル
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
06 チャンクとは? データを小さな「かたまり」に分けて効率的に 検索や処理ができるようにするための手法
07 チャンクの必要性 コンテキストウインドの限界 コンテキストの情報精度の限界
07-1 コンテキストウインドの限界 LLMには、一度に処理できるテキスト量に制限 がある。テキストを小さなチャンクに分割する ことで、LLM は情報をより効率的に処理する ことができます。 LLMには、一度に処理できるテキスト量に制限がある。 テキストを小さなチャンクに分割することで、 LLM
は情報をより効率的に処理することが可能。
07-2 コンテキストの情報精度の限界 LLM が一度に全体のテキストを処理できたとしても、 文書全体のコンテキストを維持するのが難しい。 テキストを特定のアイデアやセクションに焦点を当てた チャンクに分割することで、LLM はテキストの異なる 部分間の関係をよりよく理解することが可能。
08 チャンクの種類 セマンティック チャンク MoGG 固定長チャンク 階層チャンク 文ベース チャンク
08-1 固定長チャンク 一定の文字数やトークン数でテキストを分割する方法 概要 メリット 実装が簡単で、計算資源が少なくて済む デメリット テキストの構造を考慮しないため、文の途中で切れることがある
08-1 固定長チャンク
08-2 セマンティックチャンク 意味的に関連するテキストを一緒に保持する方法 概要 メリット 情報の意味を保持し、検索精度を向上させる デメリット 計算コストが高く、実装が複雑
08-2 セマンティックチャンク
08-3 階層チャンク ⼤きな階層と⼩さな階層でチャンクに親⼦関係を持たせる 概要 メリット 検索時は⼦チャンク、回答⽣成時には親チャンクを利⽤するため、検索・回答⽣成 の両⽅の精度を向上させる デメリット 親⼦関係をネスト化した構造を定義する必要があるため前処理が大変
08-3 階層チャンク
08-4 文ベースチャンク 文の区切り(ピリオドや感嘆符、疑問符、日本語の場合には句読点など)で分割する 概要 メリット 文の意味を保持したまま分割することができる デメリット 文章が離れている場合、精度が下がる
08-5 参照ドキュメントをグラフ化することで、離れた場所にある関連情報を効率的に取 得できる 概要 メリット 他ファイルを参照している場合や、注:などの近くに情報がないナレッジに有効 デメリット 実装コストが高い 引用:https://arxiv.org/abs/2406.00456 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割
ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得 例)インボイス制度とは? 近い意味のチャンクのみ取得
08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成
08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定
08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる
T H A N K Y O U