Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI技術で簡単にPDFや画像の文字起こし! 「AI Document Intelligence...

AI技術で簡単にPDFや画像の文字起こし! 「AI Document Intelligence」の紹介

現場で役立つAzure神小技10+α 〜生成AI,RAG,コスト削減など旬な技術満載のLT大会〜にて登壇した内容です。
https://tech-lab.connpass.com/event/319077/

Avatar for Akira Sato

Akira Sato

July 19, 2024
Tweet

More Decks by Akira Sato

Other Decks in Technology

Transcript

  1. © SIOS Technology Inc. All rights Reserved. AI技術で簡単にPDFや画像の文字起こし! 「AI Document

    Intelligence」の紹介 佐藤 陽 サイオステクノロジー株式会社
  2. © SIOS Technology Inc. All rights Reserved. 自己紹介 2 佐藤

    陽 / Sato Akira サイオステクノロジー株式会社 Professional Service SL in 静岡 仕事 Azureクラウド構築 生成AIを活用したアプリ開発 ブログ執筆 / 外部登壇 趣味 運動(ロードバイク/ランニング) 音楽(FUJI ROCK FESTIVAL) 読書(森博嗣/有栖川有栖)
  3. © SIOS Technology Inc. All rights Reserved. Azure AI Document

    Intelligence 4 Azure AI Document Intelligence (旧称:Form Recognizer) 高度な機械学習を応用し 様々なドキュメント(PDF, 画像など)を分析し テキストや、図、構造などの内容を抽出する
  4. © SIOS Technology Inc. All rights Reserved. Azure AI Document

    Intelligence 5 要は単なる OCR(光学文字認識)でしょ?
  5. © SIOS Technology Inc. All rights Reserved. Azure AI Document

    Intelligence 高機能かつ、生成AIとの親和性の高い ドキュメント分析ツール Document Intelligence= 強力なOCR + 機械学習
  6. © SIOS Technology Inc. All rights Reserved. モデルの紹介 ▪ Document分析モデル

    7 ▪ 事前構築済みモデル Read テキストのみを 抽出します Layout テキストおよび レイアウト情報 を抽出します ▪ カスタムモデル 名刺 領収書 カスタムモデル and more
  7. © SIOS Technology Inc. All rights Reserved. モデルの紹介 ▪ Document分析モデル

    8 ▪ 事前構築済みモデル Read テキストのみを 抽出します Layout テキストおよび レイアウト情報 を抽出します ▪ カスタムモデル 名刺 領収書 カスタムモデル and more
  8. © SIOS Technology Inc. All rights Reserved. Layoutモデル 10 ▪

    文章の構造を抽出できる ▪ 表やチェックボックスを抽出できる ▪ Markdown形式で出力できる
  9. © SIOS Technology Inc. All rights Reserved. Document Intelligence Studio

    ①ファイルの選択 ②分析開始 ③結果の表示
  10. © SIOS Technology Inc. All rights Reserved. 構造情報 16 sections/0

    /sections/1 /paragraphs/0:"SIOS HOGEHOGE TECH…" /sections/2 /paragraphs/1:"調査概要 2024 年9月4日" /sections/3 /paragraphs/2:"調査目的" /paragraphs/3:""本市場調査の..." /sections/4 /paragraphs/4:"調査方法" /paragraphs/5:"1. プライマリー…" /paragraphs/6:"2. データ分析…" 詳細については 後述するブログにを参照ください!
  11. © SIOS Technology Inc. All rights Reserved. Markdown出力のメリット ①生成AIが理解しやすい 生成AIはMarkdown構文を理解できる

    Markdown形式の情報を生成AIに与えることで 質の高い回答が期待できる 21 Azure OpenAI Service Document Intelligence PDF Markdown
  12. © SIOS Technology Inc. All rights Reserved. Markdown出力のメリット 22 ②セマンティックチャンキングが容易

    RAG構築において重要な「チャンキング戦略」において セマンティックチャンキングの利用が容易となる (セマンティックチャンキング:意味ある部分で区切ったチャンク化) Markdown PDF Document Intelligence Chunked Markdown Azure AI Search
  13. © SIOS Technology Inc. All rights Reserved. AI Ready 23

    AI Document Intelligenceを利用することで 様々なファイルが簡単にAI Readyな状態に!
  14. © SIOS Technology Inc. All rights Reserved. 費用 ▪ FREE

    ▪ 1 か月あたり 0 から 500 ページが無料 ▪ PDFの読み込みは2ページまで ▪ S0 ▪ Document分析モデル,事前構築済みモデル ▪ 1,000 ページあたり ¥1,606.151~ ▪ カスタムモデル ▪ … 24
  15. © SIOS Technology Inc. All rights Reserved. 注意点 ▪ FREEプランはサブスクリプションに1つまで

    ▪ 作り変える際はリソースを完全に削除する必要あり ▪ リージョンに関しては以下のものを推奨 ▪ 米国東部, 米国西部 2, 西ヨーロッパ 25