Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Geminiによる図表・テキスト情報の統合抽出

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for 松岡玲央 松岡玲央
April 25, 2025
400

 Geminiによる図表・テキスト情報の統合抽出

Avatar for 松岡玲央

松岡玲央

April 25, 2025
Tweet

Transcript

  1. | 2 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 自己紹介 松岡 玲央 (Matsuoka Reo) 株式会社 Exa Enterprise AI AI戦略グループ所属 ~ 2021 不動産賃貸営業 ↓ ~ 2024 機械学習エンジニア データサイエンティスト ↓ 現在 ML領域をメインにアプリケーション開発
  2. | 3 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial IRアシスタントの概要
  3. | 4 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial Q&A生成機能 想定問答集を作るためにIR関連資料からQとAを生成する機能
  4. | 5 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 回答を生成 Q&A生成機能 想定問答集を作るためにIR関連資料からQとAを生成する機能 テキスト 質問を生成 情報をテキスト化して抽出 質問 IR関連資料 IR関連資料 回答
  5. | 6 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 回答を生成 Q&A生成機能 情報をテキスト化する精度向上のための検証 テキスト 質問を生成 情報をテキスト化して抽出 質問 IR関連資料 IR関連資料 回答
  6. | 7 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial ドキュメント情報の読み取りにおける問題点 テキストだけでなくグラフ・表・図が混在
  7. | 8 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 抽出結果 一般的なParser グラフの数値は取得されているが出力の順序が誤っており、何を指す数値か分かりづらい
  8. | 9 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial ドキュメント読み取り検証 用途に合わせた2パターンの方法で情報の抽出を検証 Markdown形式でデータを抽出 PDF … … markdown markdown markdown 出力データ 構造化してデータを抽出 処理のロジックがシンプルで 資料の流れを残したまま情報を取得することが可能 カスタマイズが行いやすく 特定の情報を容易に取得できる PDF 出力データ Text情報 図・表・グラフの個数 PDF 図・表・グラフの情報 ① ② 5ページ 3ページ
  9. | 10 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial すべての情報をMarkDown形式で出力 処理のロジックがシンプルで汎用的な利用が可能 PDF … … markdown markdown markdown 出力データ メリット • 処理ロジックがシンプルで並列化しやすい • 情報抽出の精度が高い デメリット • リスエスト数がPDFのページ分発生する。 • 特定の情報の抽出が難しい リクエスト数とコスト 30ページのPDFの場合、 • リクエスト数:30回 • 抽出コスト:約1.9円 • 約0.000412$ / リクエスト ユースケース • 文書のアーカイブと検索 • チャットボットのための蓄積情報 • 文書の概要把握 • 論文やドキュメントの要約 • 高速な処理が必要な場合
  10. | 11 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 2段階処理を行い構造化データで出力 特定の情報を取得しやすい形式で出力したい場合におすすめ PDF 出力データ Text情報 図・表・グラフの個数 PDF 図・表・グラフの情報 ① ② 5ページ 3ページ メリット • 複数ページまとめて処理が可能(リクエスト数の削減) • 構造化されているため特定の情報抽出が容易 • 出力形式を調整しやすい デメリット • 2段階の処理に分かれているため、並列化が難しい • 1度に処理を行うページ数が多いと、精度はMarkdownに比 べて劣る • 表があっても認識できない • リピーティングが起きやすくなる リクエスト数とコスト 30ページのPDFの場合、 • リクエスト数:概要生成が6回、要素生成が10回 • 抽出コスト:約2.6円 • 概要生成:約0.00132$ / リクエスト • 要素生成:約0.00096$ / リクエスト ユースケース • 特定のデータに関する分析 • 特定のグラフの数値を追跡する • 複雑な文書解析
  11. | 12 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 抽出結果 Markdown形式でデータを出力するパターン テキスト情報はもちろん、グラフの数値やX軸の情報が上手く抽出できている
  12. | 13 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 抽出結果 2段階処理を行い構造化データで出力するパターン こちらでもグラフの情報が上手く抽出できており、’graphs’に情報が格納されているため、グラフ情報の抽出が容易 カスタマイズ次第でより詳細にデータを抽出することも可能 グラフ部分のみ抽出
  13. | 14 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial 最後に • なるべく簡単なタスクに落とし込む仕組みを考える • リピーティングやハルシネーションの回避 • ユースケースに合わせてLLMの処理ロジックを組む必要がある • 出力形式の柔軟性 • コスト • 並列処理の必要性
  14. | 15 ©︎ Copyright Exa Ent erprise AI Inc. All

    R ights Reserved. Co nfid en tial ご清聴ありがとうございました