Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Document Understanding 概要

Document Understanding 概要

oracle4engineer

August 25, 2023
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. 人工知能・機械学習を製品に組み込み、コアビジネスでの迅速な価値創出に貢献する オラクルの人工知能・機械学習に対するビジョンと戦略と提供するサービス Copyright © 2023, Oracle and/or its affiliates 3

    Ready-to-Go 業務オペレーションの効率化 Ready-to-Work 保守・運用作業の省人化 Ready-to-Build 迅速な試行錯誤を支援 AI Services Machine Learning Services Cloud Infrastructure Data Management Data Integration Compute Networking Storage Security Data Science Machine Learning Data Labeling Analytics Applications Big Data Service Data Flow Autonomous Database Streaming GoldenGate Data Catalog Data Integration Digital Assistant Language Speech Anomaly Detection Analytics Cloud SaaS Forecasting Vision Document Understanding
  2. クラウドサービス、アプリ、データ資産にまたがる統合AI/MLプラットフォーム OCI AI Services Copyright © 2023, Oracle and/or its

    affiliates 4 専門知識不要 エンタープライズ向けAIを提供 無償から利用可能 専門家ではない開発者が機械学習を 深く知らなくても、AIを適用することを可 能にするサービス群を提供することで、ビ ジネス課題を解決することが可能 Oracle DatabaseやExadataなどに 蓄積したデータ、Fusion Application やNetSuiteのようなアプリケーションから のデータ、OCIによるクラウドインフラを提 供し、様々なデータを持っている唯一の 企業が提供するAIサービス 機械学習は学習にかかる費用とコスト が高いが、Oracleは、最もコスト競争 力を持ったAIサービスを提供。 これによって、すべてのデータにAIが気 軽に利用可能
  3. OCI AI Services lineup Copyright © 2023, Oracle and/or its

    affiliates 5 Digital Assistant Language Speech Vision Anomary Detection Forecasting チャット・ボットの開発・運用 に必要な機能を提供 事前学習済みのモデルを用 いた言語解析機能を提供 音声や動画ファイルのトラン スクリプション機能を提供 事前学習済みのモデルを用 いた画像分類、物体検出 の機能を提供 ※Data Labelingを併用したカスタムモデルの作 成も可能 時系列データに基づいた異 常検出モデルを提供 時系列予測と予測結果の Explainabilityを提供 coming soon Document Understanding 事前学習済みのモデルを用 いたドキュメント分析機能を 提供
  4. • OCR(光学文字認識)* • PDF, TIFF等のドキュメントから単語、行レベルで文字を検出し、その境界ボックスや信頼度のスコア情報を提供 • ドキュメント分類 • 分析したドキュメントの分類とその信頼度のスコアを提供 •

    分類:請求書/レシート/履歴書/税金フォーム/免許証/パスポート/銀行取引明細書/チェック(✓)/給料明細/その他 • 表抽出* • ドキュメント内の表を識別し、内容を抽出とその信頼度のスコア情報を提供 • キー・バリュー抽出* • 事前定義済みのキーを持つドキュメントからの値の抽出機能を提供 • サポートするドキュメント:領収書*/請求書/運転免許証*/パスポートのMRZ(Machine Readable Zone) • OCR(光学文字認識) PDF • 検索可能なPDFをオブジェクト・ストレージに生成する機能を提供 *: 英語のみをサポート ドキュメントの理解で提供される分析機能の一覧 Copyright © 2023, Oracle and/or its affiliates 6
  5. 制限 制限値 ファイル形式 JPEG, PNG, PDF, TIFF ファイルサイズの上限 1ドキュメント当たり500MB 最大件数(OCI

    Console) 1ドキュメント当たり5ページ以下かつ8MB以下 最大件数(API) • 1ドキュメント当たり2,000ページ以下 • 1ジョブ当たり2,000ドキュメント or 1ジョブ当たり500KB以下 テキストの位置 ◦: 水平、×: 垂直 文字の種類 手書き文字: ◦、印刷文字: ◦ 認識可能な文字 • a-z • A-Z • 0-9 • % } + ~ ^ = * ; ÷ _ ( € < , " @ # ¤ £ ¢ / § ? ] . ¥ > ₹ - ® ` ! © & $ ¥ ' { ¥¥ [ | ) : 主な制限事項 Copyright © 2023, Oracle and/or its affiliates 7 その他の制限事項、最新の情報はドキュメントをご参照ください: https://docs.oracle.com/ja-jp/iaas/document-understanding/document-understanding/using/limits.htm
  6. ▪特徴 • ドキュメント内のテキストを検出して認識が可能 • ドキュメント内で検出したテキストの周囲に境界ボック スを描画し、テキストのデジタル化を行う • 英語のみ対応 ▪サポートされる機能 •

    単語レベルのテキスト抽出 • 行レベルのテキスト抽出 • 信頼度スコアの提供 • 境界ボックスの描画 • 単一のリクエスト/非同期APIを活用したバッチ処理 OCR(光学文字認識) Copyright © 2023, Oracle and/or its affiliates 8
  7. ▪特徴 • 分析したドキュメントに対して使用可能なドキュメント・ タイプのリストを提供可能 • 請求書/レシート/履歴書/税金フォーム/免許証 /パスポート/銀行取引明細書/チェック(✓)/給料 明細/その他 • 各ドキュメント・タイプごとに信頼度スコアを提供

    • 信頼度スコア: 0~1の範囲で提供され、1に近いほ ど確からしい ▪サポートされる機能 • ドキュメントの分類 • 信頼度スコアの提供 • 単一のリクエスト/非同期APIを活用したバッチ処理 ドキュメント分類 Copyright © 2023, Oracle and/or its affiliates 9
  8. ▪特徴 • ドキュメント内の表を識別し、その内容が抽出可能 • 表の行、列の数、セルのコンテンツを提供 • 各表ごとに信頼度スコアを提供 • 信頼度スコア: 0~1の範囲で提供され、1に近いほ

    ど確からしい ▪サポートされる機能 • 表の抽出(境界あり/なしともに対応) • 境界ボックスの描画 • 単一のリクエスト/非同期APIを活用したバッチ処理 表抽出 Copyright © 2023, Oracle and/or its affiliates 10
  9. ▪特徴 • 事前定義済みのキーを持つドキュメントからの値の抽 出機能を提供 • 領収書*/請求書/運転免許証*/パスポートの MRZ(Machine Readable Zone)をサポート •

    各ドキュメントにおける事前定義済みのキーは、 事前トレーニングされた文書AIモデルを参照 ▪サポートされる機能 • 事前定義済みのキー・バリューの抽出 • 境界ボックスの描画 • 信頼度スコアの提供 *: 英語のみ対応 キー・バリュー抽出 Copyright © 2023, Oracle and/or its affiliates 11
  10. ドキュメントの理解を使用した、ドキュメントからのデータ抽出 Reference Architecture Copyright © 2023, Oracle and/or its affiliates

    13 https://docs.oracle.com/ja/solutions/ai-vision-extract-data/index.html#GUID-E979D24C-007B-41BF-BE27-01AB2F8D2874 WebアプリからObject Storageに ドキュメントデータをアップロード 新しいファイルが配置されたことを 検知し、Functions連携 ドキュメントの理解のAPIを使用してドキュメントの分析を実施。 実行結果は、Webアプリで使用するDBへ格納
  11. ▪ユースケース • バックオフィス・タスクを自動化し、ドキュメントを迅速に処理し たい • 分析結果に含まれるメタデータを活用し、ドキュメントの 検索性を向上させる • 請求書の自動処理を行う ▪特徴

    • 事前トレーニング済みのモデルを用いて、素早くドキュメントに 対する分析処理を実施可能 • OCR/分類/表抽出/キー・バリュー抽出/検索可能 PDFの生成 ▪価格(2023年1月現在) • OCR:最初の5,000回は無料、以降1,000回ごとに¥140 • 抽出(表/キー・バリュー): 最初の5,000回は無料、以降 1,000回ごとに¥1,400 • 分類: 最初の5,000回は無料、以降1,000回ごとに¥35 ドキュメントの理解 Copyright © 2023, Oracle and/or its affiliates 14 OCR/OCR-PDF ドキュメント分類 キー・バリュー抽出 表抽出