RAGのためのビジネス文書解析技術
by
eida
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
RAGのためのビジネス文書解析技術 ストックマーク株式会社 Researcher 會田 勇斗
Slide 2
Slide 2 text
2 ストックマーク株式会社 Stockmark Inc. 〒107-0062 東京都港区南青山1丁目12-3 LIFORK MINAMI AOYAMA S209 2016年 11月 CTO 有馬 幸介 CEO 林 達 自然言語処理AIを活用した企業向け 情報収集・資料作成支援サービスの提供 95名(2024年1月末時点) 会社名 所在地 設 立 創業者 事業内容 従業員数 会社概要
Slide 3
Slide 3 text
必要な情報がワンストップで見つかる情報収集 SaaS データ構造化プラットフォーム PaaS 3 AIを活用した情報収集と 組織内共有を実現 膨大な時間がかかる 市場調査を AIが瞬時に実現 あらゆる情報を RAG-Readyに 精度を飛躍的に向上させる プロダクト
Slide 4
Slide 4 text
GENIAC 1.0, 2.0でのLLM開発 45億円の資金調達 4 最近のニュース
Slide 5
Slide 5 text
アジェンダ • ビジネス文書のRAGにおける課題とSAT • RAGのためのレイアウト解析
Slide 6
Slide 6 text
ビジネス文書のRAGにおける課題とSAT
Slide 7
Slide 7 text
課題:精度に影響する変数が多くなり検証が複雑化、改善の壁に RAGは検索と生成で成り立つ 7 アプリケーション 質問 回答 生成(Generation) 継続事前学習 ファインチューニング プロンプトチューニング … 情報検索 (Retrieval) チャンク戦略 ハイブリッド検索 クエリ拡張 リランキング … ? ? ?
Slide 8
Slide 8 text
検索性の向上が鍵 8 次のような事例を「うまく検索」する必要がある • PDF, スライドなど様々なフォーマット • 図表を含む ソースが正しく高品質であれば おそらく生成可能 社内情報RAGの検索対象はどんなものか? 生成(Generation) 継続事前学習 ファインチューニング プロンプトチューニング … 情報検索 (Retrieval) チャンク戦略 ハイブリッド検索 クエリ拡張 リランキング …
Slide 9
Slide 9 text
• ドキュメントを意味単位で適切にパーズ・構造化 • チャンキング、ナレッジグラフ化などRAGに特化 9 あらゆる情報をRAG-Ready にする AI x ETLを実現する マルチモーダルLLM搭載のプラットフォーム
Slide 10
Slide 10 text
非構造データからRAGのためのデータを自動的に作り出す データを自動的に検索可能にし、生成に備える 10 Indexing embedding レイアウト 解析 図・表 関係抽出 チャンキング Knowledge Graph 表の 構造化
Slide 11
Slide 11 text
RAGのためのレイアウト解析 • どんな技術か • 技術の特徴 • 最新手法 • ストックマークでの取り組み
Slide 12
Slide 12 text
文書構造を自動解析する深層学習技術 SAT搭載技術の一つ「レイアウト解析」 12 Indexing embedding レイアウト 解析 図・表 関係抽出 チャンキング Knowledge Graph 表の 構造化
Slide 13
Slide 13 text
ドキュメントを構成する要素を自動検出 レイアウト解析 13 出典:経済産業省 資源エネルギー庁 令和4年度 エネルギーに関する年次報告(エネルギー白書2023)
Slide 14
Slide 14 text
どこに何があるかをAIで検出する技術 物体検出技術をドキュメントに適用 14 通常の物体検出*1 レイアウト解析 ヘッダー、フッター、図、表、 キャプションなどを自動認識 *1:画像出典 https://arxiv.org/pdf/1506.02640
Slide 15
Slide 15 text
通常の 物体検出 ドキュメントに特化した事前学習 15 ドキュメント特化 物体検出 大量の画像*1 Fine tuning (検出の学習) ラベル付きの学習 大量の文書画像 事前学習 (省略も可) ラベルなしで学習 ドキュメントの レイアウト解析 に強いモデル 検出モデル *1:画像出典 https://arxiv.org/pdf/1409.0575
Slide 16
Slide 16 text
合成データによる事前学習で、様々タスクで高速かつ高性能を実現 文献 : https://arxiv.org/pdf/2410.12628 レイアウト解析の最新手法紹介 DocLayout-YOLO 16
Slide 17
Slide 17 text
複雑な図表や、RAGの検索で重要な「意味のまとまり」に強いレイアウト解析へ -> 学術的なデータセット、汎用APIのカバー範囲がビジネス文書に追いついていない ストックマークの取り組み: 日本語ビジネス文書に特化したデータセットで学習 17 レポート スライド マニュアル 学習 Stockmark 他社API 画像出典:https://www.jisf.or.jp/
Slide 18
Slide 18 text
• SATでは図表を含むビジネス文書のRAG環境を簡単に構築できる • レイアウト解析は、図表を含むビジネス文書をRAG, LLMで扱う際に有効 • 文書に特化した事前学習や、ドメイン適合データによるFine tuningにより レイアウト解析の精度向上が狙える • レイアウト解析に限らず、複雑な文書とLLMを組み合わせるユースケースにおいて、 ドキュメント系のAI、基盤モデルが重要になる まとめ 18
Slide 19
Slide 19 text
Stockmarkでは一緒にプロダクトと組織を 成長させていただける方を広く募集しています! https://herp.careers/v1/stockmark
Slide 20
Slide 20 text
No content