Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Geminiによる図表・テキスト情報の統合抽出

Avatar for 松岡玲央 松岡玲央
April 25, 2025
360

 Geminiによる図表・テキスト情報の統合抽出

Avatar for 松岡玲央

松岡玲央

April 25, 2025
Tweet

Transcript

  1. | 2 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 自己紹介 松岡 玲央 (Matsuoka Reo) 株式会社 Exa Enterprise AI AI戦略グループ所属 ~ 2021 不動産賃貸営業 ↓ ~ 2024 機械学習エンジニア データサイエンティスト ↓ 現在 ML領域をメインにアプリケーション開発
  2. | 3 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial IRアシスタントの概要
  3. | 4 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial Q&A生成機能 想定問答集を作るためにIR関連資料からQとAを生成する機能
  4. | 5 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 回答を生成 Q&A生成機能 想定問答集を作るためにIR関連資料からQとAを生成する機能 テキスト 質問を生成 情報をテキスト化して抽出 質問 IR関連資料 IR関連資料 回答
  5. | 6 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 回答を生成 Q&A生成機能 情報をテキスト化する精度向上のための検証 テキスト 質問を生成 情報をテキスト化して抽出 質問 IR関連資料 IR関連資料 回答
  6. | 7 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial ドキュメント情報の読み取りにおける問題点 テキストだけでなくグラフ・表・図が混在
  7. | 8 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 抽出結果 一般的なParser グラフの数値は取得されているが出力の順序が誤っており、何を指す数値か分かりづらい
  8. | 9 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial ドキュメント読み取り検証 用途に合わせた2パターンの方法で情報の抽出を検証 Markdown形式でデータを抽出 PDF … … markdown markdown markdown 出力データ 構造化してデータを抽出 処理のロジックがシンプルで 資料の流れを残したまま情報を取得することが可能 カスタマイズが行いやすく 特定の情報を容易に取得できる PDF 出力データ Text情報 図・表・グラフの個数 PDF 図・表・グラフの情報 ① ② 5ページ 3ページ
  9. | 10 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial すべての情報をMarkDown形式で出力 処理のロジックがシンプルで汎用的な利用が可能 PDF … … markdown markdown markdown 出力データ メリット • 処理ロジックがシンプルで並列化しやすい • 情報抽出の精度が高い デメリット • リスエスト数がPDFのページ分発生する。 • 特定の情報の抽出が難しい リクエスト数とコスト 30ページのPDFの場合、 • リクエスト数:30回 • 抽出コスト:約1.9円 • 約0.000412$ / リクエスト ユースケース • 文書のアーカイブと検索 • チャットボットのための蓄積情報 • 文書の概要把握 • 論文やドキュメントの要約 • 高速な処理が必要な場合
  10. | 11 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 2段階処理を行い構造化データで出力 特定の情報を取得しやすい形式で出力したい場合におすすめ PDF 出力データ Text情報 図・表・グラフの個数 PDF 図・表・グラフの情報 ① ② 5ページ 3ページ メリット • 複数ページまとめて処理が可能(リクエスト数の削減) • 構造化されているため特定の情報抽出が容易 • 出力形式を調整しやすい デメリット • 2段階の処理に分かれているため、並列化が難しい • 1度に処理を行うページ数が多いと、精度はMarkdownに比 べて劣る • 表があっても認識できない • リピーティングが起きやすくなる リクエスト数とコスト 30ページのPDFの場合、 • リクエスト数:概要生成が6回、要素生成が10回 • 抽出コスト:約2.6円 • 概要生成:約0.00132$ / リクエスト • 要素生成:約0.00096$ / リクエスト ユースケース • 特定のデータに関する分析 • 特定のグラフの数値を追跡する • 複雑な文書解析
  11. | 12 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 抽出結果 Markdown形式でデータを出力するパターン テキスト情報はもちろん、グラフの数値やX軸の情報が上手く抽出できている
  12. | 13 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 抽出結果 2段階処理を行い構造化データで出力するパターン こちらでもグラフの情報が上手く抽出できており、’graphs’に情報が格納されているため、グラフ情報の抽出が容易 カスタマイズ次第でより詳細にデータを抽出することも可能 グラフ部分のみ抽出
  13. | 14 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 最後に • なるべく簡単なタスクに落とし込む仕組みを考える • リピーティングやハルシネーションの回避 • ユースケースに合わせてLLMの処理ロジックを組む必要がある • 出力形式の柔軟性 • コスト • 並列処理の必要性
  14. | 15 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial ご清聴ありがとうございました