Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DSOC OCR 全項目展開に向けた取り組み / Approaches for deploym...

Sansan
November 05, 2021

DSOC OCR 全項目展開に向けた取り組み / Approaches for deployment of DSOC OCR

■イベント

Sansan Builders Stage 2021
https://jp.corp-sansan.com/engineering/buildersstage2021/

■登壇概要

タイトル:DSOC OCR 全項目展開に向けた取り組み

登壇者:技術本部 DSOC 研究開発部 Automationグループ 研究員 内田 奏

▼Sansan Engineering
https://jp.corp-sansan.com/engineering/

Sansan

November 05, 2021
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. - ビジネス利⽤の性質上、名刺のデータ化は100%に近い精度が必要 - E-mailアドレス・電話番号は1⽂字異なるだけで機能を失う - DSOCは、⼈とコンピュータを組み合わせ、99%以上の精度でデータを納品 開発の背景 DSOC OCR とは

    ⻑所: - スケールが可能 短所: - ベンダーOCRでは精度不⾜ ⻑所: - 精度がコントロール可能 短所: - スケールしにくい - ⾼コスト - セキュリティ担保の仕組み コンピュータ ⼈
  2. - 内容 - 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 - 評価指標 - Character Error Rate(CER):

    ⁄ !"#"$ % ×100 (%:挿⼊回数, &:置換回数, ':削除回数, (:⽂字列⻑) - Accuracy: 正解⽂字列との完全⼀致率 - ⽐較対象 - A社: 名刺OCRの機能があり,項⽬単位で返却.Non-deep. - B社: 汎⽤OCR.項⽬セグメンテーションと組み合わせて項⽬を判定.Deep. ベンダーOCRとの⽐較実験 DSOC OCR とは
  3. - CER、AccuracyともにDSOC OCRが最⾼性能 - レスポンスタイムも平均0.15[秒/枚]と最速 (A社: 2.8[s /枚], B社: 0.43[s

    /枚])※ - 項⽬単位の検出器によって区切り⽂字(@, -, _ etc.)の⾒落としが減少 実験結果 DSOC OCR とは CER (↓) A社 7.39% B社 2.53% DSOC OCR 0.390% ※プロダクション環境での実測値 Accuracy (↑) A社 68.4% B社 86.6% DSOC OCR 99.2%
  4. - 全国各拠点のメンバーによって構成 - 主に東京のメンバーが増員 - OCR処理ごとに研究員の役割を分担 - 検出器 - 認識器

    - 認識結果の統合 etc. 開発体制の強化 全項⽬展開に向けて Sansan Innovation Lab (GrM 1名, 研究員 1名) Sansan札幌ラボ (アーキテクト 1名) Sansan ONE (研究員 2-3名)
  5. - CRNNベースは基本的に1⾏認識向け - 特徴エンコードの際に遷移の⽅向を仮定するため - ⾃然⾔語処理分野で発展した Transformer を応⽤ - 主にSelf-Attentionを⽤いた

    Encoder-decoder - 2D認識が可能になるように改良 複数⾏認識 全項⽬展開に向けて Transformerの構造 ([A. Vaswani+ NIPS2017]より引⽤)
  6. - Attention l E 0 9 - 1 +1 S

    YK@UH=3 <3D?+ 1 : “ DSOC Automation ”
  7. - 今までの取り組みの紹介 - 開発の背景・現⾏モデルについて - 全項⽬展開に向けた取り組み - 開発体制 - 改善ポイント

    - 今後の課題 - 情報統合のリッチ化 - 名刺OCRとしての完成形を⽬指す - 継続的な改善サイクル - ⼩さいところからMLOps的な施策を打っていく DSOC OCR 全項⽬展開 まとめ
  8. ⁻ [O. Ronneberger+ MICCAI2015] O. Ronneberger et al., ‘U-Net: Convolutional

    Networks for Biomedical Image Segmentation’, in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 2015, pp. 234–241. ⁻ [B. Shi+ TPAMI2017] B. Shi et al., ‘An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition’, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. ⁻ [Y. Lin+ CVPR2017] T.-Y. Lin et al., ‘Feature Pyramid Networks for Object Detection’, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 936–944. ⁻ [A. Vaswani+ NIPS2017] A. Vaswani et al., ‘Attention is All you Need’, in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008. 参考⽂献