$30 off During Our Annual Pro Sale. View Details »

Document Understanding 概要

Document Understanding 概要

oracle4engineer
PRO

August 25, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. ドキュメントの理解 ご紹介
    Subhead goes here on one line
    2023年5月

    View Slide

  2. 人工知能・機械学習を製品に組み込み、コアビジネスでの迅速な価値創出に貢献する
    オラクルの人工知能・機械学習に対するビジョンと戦略と提供するサービス
    Copyright © 2023, Oracle and/or its affiliates
    3
    Ready-to-Go
    業務オペレーションの効率化
    Ready-to-Work
    保守・運用作業の省人化
    Ready-to-Build
    迅速な試行錯誤を支援
    AI Services
    Machine Learning Services
    Cloud Infrastructure
    Data Management
    Data Integration
    Compute Networking Storage Security
    Data Science Machine Learning Data Labeling
    Analytics Applications
    Big Data
    Service
    Data Flow Autonomous
    Database
    Streaming GoldenGate Data
    Catalog
    Data
    Integration
    Digital
    Assistant
    Language Speech Anomaly
    Detection
    Analytics Cloud SaaS
    Forecasting
    Vision Document
    Understanding

    View Slide

  3. クラウドサービス、アプリ、データ資産にまたがる統合AI/MLプラットフォーム
    OCI AI Services
    Copyright © 2023, Oracle and/or its affiliates
    4
    専門知識不要 エンタープライズ向けAIを提供 無償から利用可能
    専門家ではない開発者が機械学習を
    深く知らなくても、AIを適用することを可
    能にするサービス群を提供することで、ビ
    ジネス課題を解決することが可能
    Oracle DatabaseやExadataなどに
    蓄積したデータ、Fusion Application
    やNetSuiteのようなアプリケーションから
    のデータ、OCIによるクラウドインフラを提
    供し、様々なデータを持っている唯一の
    企業が提供するAIサービス
    機械学習は学習にかかる費用とコスト
    が高いが、Oracleは、最もコスト競争
    力を持ったAIサービスを提供。
    これによって、すべてのデータにAIが気
    軽に利用可能

    View Slide

  4. OCI AI Services lineup
    Copyright © 2023, Oracle and/or its affiliates
    5
    Digital Assistant Language Speech Vision
    Anomary Detection Forecasting
    チャット・ボットの開発・運用
    に必要な機能を提供
    事前学習済みのモデルを用
    いた言語解析機能を提供
    音声や動画ファイルのトラン
    スクリプション機能を提供
    事前学習済みのモデルを用
    いた画像分類、物体検出
    の機能を提供
    ※Data Labelingを併用したカスタムモデルの作
    成も可能
    時系列データに基づいた異
    常検出モデルを提供
    時系列予測と予測結果の
    Explainabilityを提供
    coming
    soon
    Document
    Understanding
    事前学習済みのモデルを用
    いたドキュメント分析機能を
    提供

    View Slide

  5. • OCR(光学文字認識)*
    • PDF, TIFF等のドキュメントから単語、行レベルで文字を検出し、その境界ボックスや信頼度のスコア情報を提供
    • ドキュメント分類
    • 分析したドキュメントの分類とその信頼度のスコアを提供
    • 分類:請求書/レシート/履歴書/税金フォーム/免許証/パスポート/銀行取引明細書/チェック(✓)/給料明細/その他
    • 表抽出*
    • ドキュメント内の表を識別し、内容を抽出とその信頼度のスコア情報を提供
    • キー・バリュー抽出*
    • 事前定義済みのキーを持つドキュメントからの値の抽出機能を提供
    • サポートするドキュメント:領収書*/請求書/運転免許証*/パスポートのMRZ(Machine Readable Zone)
    • OCR(光学文字認識) PDF
    • 検索可能なPDFをオブジェクト・ストレージに生成する機能を提供
    *: 英語のみをサポート
    ドキュメントの理解で提供される分析機能の一覧
    Copyright © 2023, Oracle and/or its affiliates
    6

    View Slide

  6. 制限 制限値
    ファイル形式 JPEG, PNG, PDF, TIFF
    ファイルサイズの上限 1ドキュメント当たり500MB
    最大件数(OCI Console) 1ドキュメント当たり5ページ以下かつ8MB以下
    最大件数(API) • 1ドキュメント当たり2,000ページ以下
    • 1ジョブ当たり2,000ドキュメント or 1ジョブ当たり500KB以下
    テキストの位置 ○: 水平、×: 垂直
    文字の種類 手書き文字: ○、印刷文字: ○
    認識可能な文字 • a-z
    • A-Z
    • 0-9
    • % } + ~ ^ = * ; ÷ _ ( € < , " @ # ¤ £ ¢ / § ? ] . ¥ > ₹ - ®
    ` ! © & $ ¥ ' { ¥¥ [ | ) :
    主な制限事項
    Copyright © 2023, Oracle and/or its affiliates
    7
    その他の制限事項、最新の情報はドキュメントをご参照ください:
    https://docs.oracle.com/ja-jp/iaas/document-understanding/document-understanding/using/limits.htm

    View Slide

  7. ■特徴
    • ドキュメント内のテキストを検出して認識が可能
    • ドキュメント内で検出したテキストの周囲に境界ボック
    スを描画し、テキストのデジタル化を行う
    • 英語のみ対応
    ■サポートされる機能
    • 単語レベルのテキスト抽出
    • 行レベルのテキスト抽出
    • 信頼度スコアの提供
    • 境界ボックスの描画
    • 単一のリクエスト/非同期APIを活用したバッチ処理
    OCR(光学文字認識)
    Copyright © 2023, Oracle and/or its affiliates
    8

    View Slide

  8. ■特徴
    • 分析したドキュメントに対して使用可能なドキュメント・
    タイプのリストを提供可能
    • 請求書/レシート/履歴書/税金フォーム/免許証
    /パスポート/銀行取引明細書/チェック(✓)/給料
    明細/その他
    • 各ドキュメント・タイプごとに信頼度スコアを提供
    • 信頼度スコア: 0~1の範囲で提供され、1に近いほ
    ど確からしい
    ■サポートされる機能
    • ドキュメントの分類
    • 信頼度スコアの提供
    • 単一のリクエスト/非同期APIを活用したバッチ処理
    ドキュメント分類
    Copyright © 2023, Oracle and/or its affiliates
    9

    View Slide

  9. ■特徴
    • ドキュメント内の表を識別し、その内容が抽出可能
    • 表の行、列の数、セルのコンテンツを提供
    • 各表ごとに信頼度スコアを提供
    • 信頼度スコア: 0~1の範囲で提供され、1に近いほ
    ど確からしい
    ■サポートされる機能
    • 表の抽出(境界あり/なしともに対応)
    • 境界ボックスの描画
    • 単一のリクエスト/非同期APIを活用したバッチ処理
    表抽出
    Copyright © 2023, Oracle and/or its affiliates
    10

    View Slide

  10. ■特徴
    • 事前定義済みのキーを持つドキュメントからの値の抽
    出機能を提供
    • 領収書*/請求書/運転免許証*/パスポートの
    MRZ(Machine Readable Zone)をサポート
    • 各ドキュメントにおける事前定義済みのキーは、
    事前トレーニングされた文書AIモデルを参照
    ■サポートされる機能
    • 事前定義済みのキー・バリューの抽出
    • 境界ボックスの描画
    • 信頼度スコアの提供
    *: 英語のみ対応
    キー・バリュー抽出
    Copyright © 2023, Oracle and/or its affiliates
    11

    View Slide

  11. ■特徴
    • OCRしたPDFに対して、検索可能なPDFをオブジェク
    ト・ストレージに生成
    ■サポートされる機能
    • 検索可能なPDFの生成
    • 単一のリクエスト/非同期APIを活用したバッチ処理
    OCR(光学文字認識) PDF
    Copyright © 2023, Oracle and/or its affiliates
    12

    View Slide

  12. ドキュメントの理解を使用した、ドキュメントからのデータ抽出
    Reference Architecture
    Copyright © 2023, Oracle and/or its affiliates
    13
    https://docs.oracle.com/ja/solutions/ai-vision-extract-data/index.html#GUID-E979D24C-007B-41BF-BE27-01AB2F8D2874
    WebアプリからObject Storageに
    ドキュメントデータをアップロード
    新しいファイルが配置されたことを
    検知し、Functions連携
    ドキュメントの理解のAPIを使用してドキュメントの分析を実施。
    実行結果は、Webアプリで使用するDBへ格納

    View Slide

  13. ■ユースケース
    • バックオフィス・タスクを自動化し、ドキュメントを迅速に処理し
    たい
    • 分析結果に含まれるメタデータを活用し、ドキュメントの
    検索性を向上させる
    • 請求書の自動処理を行う
    ■特徴
    • 事前トレーニング済みのモデルを用いて、素早くドキュメントに
    対する分析処理を実施可能
    • OCR/分類/表抽出/キー・バリュー抽出/検索可能
    PDFの生成
    ■価格(2023年1月現在)
    • OCR:最初の5,000回は無料、以降1,000回ごとに¥140
    • 抽出(表/キー・バリュー): 最初の5,000回は無料、以降
    1,000回ごとに¥1,400
    • 分類: 最初の5,000回は無料、以降1,000回ごとに¥35
    ドキュメントの理解
    Copyright © 2023, Oracle and/or its affiliates
    14
    OCR/OCR-PDF ドキュメント分類
    キー・バリュー抽出
    表抽出

    View Slide

  14. Copyright © 2023, Oracle and/or its affiliates
    15
    Thank you

    View Slide

  15. View Slide