Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャンク戦略
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
わいわい
December 24, 2025
Technology
25
0
Share
チャンク戦略
チャンク分割のさまざまな手法について解説しています。
わいわい
December 24, 2025
More Decks by わいわい
See All by わいわい
Everything As Code
yosuke_ai
0
650
AI駆動開発
yosuke_ai
0
52
本の読み方
yosuke_ai
0
12
AI時代における情報収集術
yosuke_ai
0
14
生成AIをちゃんと使う
yosuke_ai
0
20
Other Decks in Technology
See All in Technology
SaaSの操作主体は人間からAIへ - 経理AIエージェントが目指す深い自動化
nishihira
0
130
AI時代のシステム開発者の仕事_20260328
sengtor
0
320
Datadog で実現するセキュリティ対策 ~オブザーバビリティとセキュリティを 一緒にやると何がいいのか~
a2ush
0
180
MIX AUDIO EN BROADCAST
ralpherick
0
140
VSCode中心だった自分がターミナル沼に入門した話
sanogemaru
0
880
Microsoft Fabricで考える非構造データのAI活用
ryomaru0825
0
580
15年メンテしてきたdotfilesから開発トレンドを振り返る 2011 - 2026
giginet
PRO
2
260
スケーリングを封じられたEC2を救いたい
senseofunity129
0
130
マルチモーダル非構造データとの闘い
shibuiwilliam
1
110
JEDAI認定プログラム JEDAI Order 2026 受賞者一覧 / JEDAI Order 2026 Winners
databricksjapan
0
430
ブラックボックス化したMLシステムのVertex AI移行 / mlops_community_62
visional_engineering_and_design
1
260
Move Fast and Break Things: 10 in 20
ramimac
0
110
Featured
See All Featured
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
250
RailsConf 2023
tenderlove
30
1.4k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
230
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
110
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
370
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
10k
ラッコキーワード サービス紹介資料
rakko
1
2.8M
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
190
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
240
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
510
Transcript
C H U N K S T R A T
E G Y 2024年10月21日 チ ャ ン ク 戦 略 わいわい
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
02 RAGとは 独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative
検索 拡張 生成 つまりRAGを使うと・・・ LLMが知らない情報を答えてくれるようになる
03 なぜ必要か? ハルシネーション の軽減 LLMが出力した内容が正確か どうかをチェックすることが できるようになる ※ハルシネーションとは AIや言語モデルが事実とは異 なる情報や存在しないデータ
を生成する現象 未学習データ の出力 社内データやインターネット 上にない情報をLLMに回答さ せることが可能になる QAボットや問い合わせボッ トなど専門性が求められるも のに使用することができる
04 RAGの仕組み ユーザー チャット アプリケーション ベクトルDB LLM ① 質問 ⑥
回答 ② 検索 ③ 結果取得 ④ プロンプト ⑤ 回答作成
04 RAGの仕組み
04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割 エンべディングモデル
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
06 チャンクとは? データを小さな「かたまり」に分けて効率的に 検索や処理ができるようにするための手法
07 チャンクの必要性 コンテキストウインドの限界 コンテキストの情報精度の限界
07-1 コンテキストウインドの限界 LLMには、一度に処理できるテキスト量に制限 がある。テキストを小さなチャンクに分割する ことで、LLM は情報をより効率的に処理する ことができます。 LLMには、一度に処理できるテキスト量に制限がある。 テキストを小さなチャンクに分割することで、 LLM
は情報をより効率的に処理することが可能。
07-2 コンテキストの情報精度の限界 LLM が一度に全体のテキストを処理できたとしても、 文書全体のコンテキストを維持するのが難しい。 テキストを特定のアイデアやセクションに焦点を当てた チャンクに分割することで、LLM はテキストの異なる 部分間の関係をよりよく理解することが可能。
08 チャンクの種類 セマンティック チャンク MoGG 固定長チャンク 階層チャンク 文ベース チャンク
08-1 固定長チャンク 一定の文字数やトークン数でテキストを分割する方法 概要 メリット 実装が簡単で、計算資源が少なくて済む デメリット テキストの構造を考慮しないため、文の途中で切れることがある
08-1 固定長チャンク
08-2 セマンティックチャンク 意味的に関連するテキストを一緒に保持する方法 概要 メリット 情報の意味を保持し、検索精度を向上させる デメリット 計算コストが高く、実装が複雑
08-2 セマンティックチャンク
08-3 階層チャンク ⼤きな階層と⼩さな階層でチャンクに親⼦関係を持たせる 概要 メリット 検索時は⼦チャンク、回答⽣成時には親チャンクを利⽤するため、検索・回答⽣成 の両⽅の精度を向上させる デメリット 親⼦関係をネスト化した構造を定義する必要があるため前処理が大変
08-3 階層チャンク
08-4 文ベースチャンク 文の区切り(ピリオドや感嘆符、疑問符、日本語の場合には句読点など)で分割する 概要 メリット 文の意味を保持したまま分割することができる デメリット 文章が離れている場合、精度が下がる
08-5 参照ドキュメントをグラフ化することで、離れた場所にある関連情報を効率的に取 得できる 概要 メリット 他ファイルを参照している場合や、注:などの近くに情報がないナレッジに有効 デメリット 実装コストが高い 引用:https://arxiv.org/abs/2406.00456 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割
ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得 例)インボイス制度とは? 近い意味のチャンクのみ取得
08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成
08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定
08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる
T H A N K Y O U