Slide 1

Slide 1 text

RAGのためのビジネス文書解析技術 ストックマーク株式会社 Researcher 會田 勇斗

Slide 2

Slide 2 text

2 ストックマーク株式会社 Stockmark Inc. 〒107-0062 東京都港区南青山1丁目12-3 LIFORK MINAMI AOYAMA S209 2016年 11月 CTO 有馬 幸介 CEO 林 達 自然言語処理AIを活用した企業向け 情報収集・資料作成支援サービスの提供 95名(2024年1月末時点) 会社名 所在地 設 立 創業者 事業内容 従業員数 会社概要

Slide 3

Slide 3 text

必要な情報がワンストップで見つかる情報収集 SaaS データ構造化プラットフォーム PaaS 3 AIを活用した情報収集と 組織内共有を実現 膨大な時間がかかる 市場調査を AIが瞬時に実現 あらゆる情報を RAG-Readyに 精度を飛躍的に向上させる プロダクト

Slide 4

Slide 4 text

GENIAC 1.0, 2.0でのLLM開発 45億円の資金調達 4 最近のニュース

Slide 5

Slide 5 text

アジェンダ • ビジネス文書のRAGにおける課題とSAT • RAGのためのレイアウト解析

Slide 6

Slide 6 text

ビジネス文書のRAGにおける課題とSAT

Slide 7

Slide 7 text

課題:精度に影響する変数が多くなり検証が複雑化、改善の壁に RAGは検索と生成で成り立つ 7 アプリケーション 質問 回答 生成(Generation) 継続事前学習 ファインチューニング プロンプトチューニング … 情報検索 (Retrieval) チャンク戦略 ハイブリッド検索 クエリ拡張 リランキング … ? ? ?

Slide 8

Slide 8 text

検索性の向上が鍵 8 次のような事例を「うまく検索」する必要がある • PDF, スライドなど様々なフォーマット • 図表を含む ソースが正しく高品質であれば おそらく生成可能 社内情報RAGの検索対象はどんなものか? 生成(Generation) 継続事前学習 ファインチューニング プロンプトチューニング … 情報検索 (Retrieval) チャンク戦略 ハイブリッド検索 クエリ拡張 リランキング …

Slide 9

Slide 9 text

• ドキュメントを意味単位で適切にパーズ・構造化 • チャンキング、ナレッジグラフ化などRAGに特化 9 あらゆる情報をRAG-Ready にする AI x ETLを実現する マルチモーダルLLM搭載のプラットフォーム

Slide 10

Slide 10 text

非構造データからRAGのためのデータを自動的に作り出す データを自動的に検索可能にし、生成に備える 10 Indexing embedding レイアウト 解析 図・表 関係抽出 チャンキング Knowledge Graph 表の 構造化

Slide 11

Slide 11 text

RAGのためのレイアウト解析 • どんな技術か • 技術の特徴 • 最新手法 • ストックマークでの取り組み

Slide 12

Slide 12 text

文書構造を自動解析する深層学習技術 SAT搭載技術の一つ「レイアウト解析」 12 Indexing embedding レイアウト 解析 図・表 関係抽出 チャンキング Knowledge Graph 表の 構造化

Slide 13

Slide 13 text

ドキュメントを構成する要素を自動検出 レイアウト解析 13 出典:経済産業省 資源エネルギー庁 令和4年度 エネルギーに関する年次報告(エネルギー白書2023)

Slide 14

Slide 14 text

どこに何があるかをAIで検出する技術 物体検出技術をドキュメントに適用 14 通常の物体検出*1 レイアウト解析 ヘッダー、フッター、図、表、 キャプションなどを自動認識 *1:画像出典 https://arxiv.org/pdf/1506.02640

Slide 15

Slide 15 text

通常の 物体検出 ドキュメントに特化した事前学習 15 ドキュメント特化 物体検出 大量の画像*1 Fine tuning (検出の学習) ラベル付きの学習 大量の文書画像 事前学習 (省略も可) ラベルなしで学習 ドキュメントの レイアウト解析 に強いモデル 検出モデル *1:画像出典 https://arxiv.org/pdf/1409.0575

Slide 16

Slide 16 text

合成データによる事前学習で、様々タスクで高速かつ高性能を実現 文献 : https://arxiv.org/pdf/2410.12628 レイアウト解析の最新手法紹介 DocLayout-YOLO 16

Slide 17

Slide 17 text

複雑な図表や、RAGの検索で重要な「意味のまとまり」に強いレイアウト解析へ -> 学術的なデータセット、汎用APIのカバー範囲がビジネス文書に追いついていない ストックマークの取り組み: 日本語ビジネス文書に特化したデータセットで学習 17 レポート スライド マニュアル 学習 Stockmark 他社API 画像出典:https://www.jisf.or.jp/

Slide 18

Slide 18 text

• SATでは図表を含むビジネス文書のRAG環境を簡単に構築できる • レイアウト解析は、図表を含むビジネス文書をRAG, LLMで扱う際に有効 • 文書に特化した事前学習や、ドメイン適合データによるFine tuningにより レイアウト解析の精度向上が狙える • レイアウト解析に限らず、複雑な文書とLLMを組み合わせるユースケースにおいて、 ドキュメント系のAI、基盤モデルが重要になる まとめ 18

Slide 19

Slide 19 text

Stockmarkでは一緒にプロダクトと組織を 成長させていただける方を広く募集しています! https://herp.careers/v1/stockmark

Slide 20

Slide 20 text

No content