Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RAGのためのビジネス文書解析技術

eida
November 05, 2024

 RAGのためのビジネス文書解析技術

LLMとVLMの実践的ビジネス活用 (2024/11/06(水)開催)の登壇資料
https://sansan.connpass.com/event/333009/

発表者のx
https://x.com/Axxdo_o0

eida

November 05, 2024
Tweet

Other Decks in Technology

Transcript

  1. 2 ストックマーク株式会社 Stockmark Inc. 〒107-0062 東京都港区南青山1丁目12-3 LIFORK MINAMI AOYAMA S209

    2016年 11月 CTO 有馬 幸介 CEO 林 達 自然言語処理AIを活用した企業向け 情報収集・資料作成支援サービスの提供 95名(2024年1月末時点) 会社名 所在地 設 立 創業者 事業内容 従業員数 会社概要
  2. 検索性の向上が鍵 8 次のような事例を「うまく検索」する必要がある • PDF, スライドなど様々なフォーマット • 図表を含む ソースが正しく高品質であれば おそらく生成可能

    社内情報RAGの検索対象はどんなものか? 生成(Generation) 継続事前学習 ファインチューニング プロンプトチューニング … 情報検索 (Retrieval) チャンク戦略 ハイブリッド検索 クエリ拡張 リランキング …
  3. 通常の 物体検出 ドキュメントに特化した事前学習 15 ドキュメント特化 物体検出 大量の画像*1 Fine tuning (検出の学習)

    ラベル付きの学習 大量の文書画像 事前学習 (省略も可) ラベルなしで学習 ドキュメントの レイアウト解析 に強いモデル 検出モデル *1:画像出典 https://arxiv.org/pdf/1409.0575