Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャンク戦略
Search
わいわい
December 24, 2025
Technology
0
3
チャンク戦略
チャンク分割のさまざまな手法について解説しています。
わいわい
December 24, 2025
Tweet
Share
More Decks by わいわい
See All by わいわい
Everything As Code
yosuke_ai
0
390
AI駆動開発
yosuke_ai
0
4
本の読み方
yosuke_ai
0
5
AI時代における情報収集術
yosuke_ai
0
4
生成AIをちゃんと使う
yosuke_ai
0
4
Other Decks in Technology
See All in Technology
Identity Management for Agentic AI 解説
fujie
0
590
The State of AI Agent Security:2025年の総括と2026年の宿題
pict3
0
110
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
120
まだ間に合う! Agentic AI on AWSの現在地をやさしく一挙おさらい
minorun365
19
3.3k
小さく、早く、可能性を多産する。生成AIプロジェクト / prAIrie-dog
visional_engineering_and_design
0
220
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Agentic AIが変革するAWSの開発・運用・セキュリティ ~Frontier Agentsを試してみた~ / Agentic AI transforms AWS development, operations, and security I tried Frontier Agents
yuj1osm
0
160
戰略轉變:從建構 AI 代理人到發展可擴展的技能生態系統
appleboy
0
170
AI with TiDD
shiraji
1
330
BidiAgent と Nova 2 Sonic から考える音声 AI について
yama3133
2
130
Next.js 16の新機能 Cache Components について
sutetotanuki
0
200
Kiro を用いたペアプロのススメ
taikis
4
2.1k
Featured
See All Featured
Claude Code のすすめ
schroneko
67
210k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
The Cost Of JavaScript in 2023
addyosmani
55
9.4k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
110
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
53
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
250
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
260
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Transcript
C H U N K S T R A T
E G Y 2024年10月21日 チ ャ ン ク 戦 略 わいわい
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
02 RAGとは 独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative
検索 拡張 生成 つまりRAGを使うと・・・ LLMが知らない情報を答えてくれるようになる
03 なぜ必要か? ハルシネーション の軽減 LLMが出力した内容が正確か どうかをチェックすることが できるようになる ※ハルシネーションとは AIや言語モデルが事実とは異 なる情報や存在しないデータ
を生成する現象 未学習データ の出力 社内データやインターネット 上にない情報をLLMに回答さ せることが可能になる QAボットや問い合わせボッ トなど専門性が求められるも のに使用することができる
04 RAGの仕組み ユーザー チャット アプリケーション ベクトルDB LLM ① 質問 ⑥
回答 ② 検索 ③ 結果取得 ④ プロンプト ⑤ 回答作成
04 RAGの仕組み
04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割 エンべディングモデル
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
06 チャンクとは? データを小さな「かたまり」に分けて効率的に 検索や処理ができるようにするための手法
07 チャンクの必要性 コンテキストウインドの限界 コンテキストの情報精度の限界
07-1 コンテキストウインドの限界 LLMには、一度に処理できるテキスト量に制限 がある。テキストを小さなチャンクに分割する ことで、LLM は情報をより効率的に処理する ことができます。 LLMには、一度に処理できるテキスト量に制限がある。 テキストを小さなチャンクに分割することで、 LLM
は情報をより効率的に処理することが可能。
07-2 コンテキストの情報精度の限界 LLM が一度に全体のテキストを処理できたとしても、 文書全体のコンテキストを維持するのが難しい。 テキストを特定のアイデアやセクションに焦点を当てた チャンクに分割することで、LLM はテキストの異なる 部分間の関係をよりよく理解することが可能。
08 チャンクの種類 セマンティック チャンク MoGG 固定長チャンク 階層チャンク 文ベース チャンク
08-1 固定長チャンク 一定の文字数やトークン数でテキストを分割する方法 概要 メリット 実装が簡単で、計算資源が少なくて済む デメリット テキストの構造を考慮しないため、文の途中で切れることがある
08-1 固定長チャンク
08-2 セマンティックチャンク 意味的に関連するテキストを一緒に保持する方法 概要 メリット 情報の意味を保持し、検索精度を向上させる デメリット 計算コストが高く、実装が複雑
08-2 セマンティックチャンク
08-3 階層チャンク ⼤きな階層と⼩さな階層でチャンクに親⼦関係を持たせる 概要 メリット 検索時は⼦チャンク、回答⽣成時には親チャンクを利⽤するため、検索・回答⽣成 の両⽅の精度を向上させる デメリット 親⼦関係をネスト化した構造を定義する必要があるため前処理が大変
08-3 階層チャンク
08-4 文ベースチャンク 文の区切り(ピリオドや感嘆符、疑問符、日本語の場合には句読点など)で分割する 概要 メリット 文の意味を保持したまま分割することができる デメリット 文章が離れている場合、精度が下がる
08-5 参照ドキュメントをグラフ化することで、離れた場所にある関連情報を効率的に取 得できる 概要 メリット 他ファイルを参照している場合や、注:などの近くに情報がないナレッジに有効 デメリット 実装コストが高い 引用:https://arxiv.org/abs/2406.00456 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割
ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得 例)インボイス制度とは? 近い意味のチャンクのみ取得
08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成
08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定
08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる
T H A N K Y O U