Save 37% off PRO during our Black Friday Sale! »

DSOC OCR 全項目展開に向けた取り組み / Approaches for deployment of DSOC OCR

13d936e697fe0f4fa96f926d0a712f6c?s=47 Sansan
PRO
November 05, 2021

DSOC OCR 全項目展開に向けた取り組み / Approaches for deployment of DSOC OCR

■イベント

Sansan Builders Stage 2021
https://jp.corp-sansan.com/engineering/buildersstage2021/

■登壇概要

タイトル:DSOC OCR 全項目展開に向けた取り組み

登壇者:技術本部 DSOC 研究開発部 Automationグループ 研究員 内田 奏

▼Sansan Engineering
https://jp.corp-sansan.com/engineering/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan
PRO

November 05, 2021
Tweet

Transcript

  1. 内⽥ 奏 DSOC OCR 全項⽬展開に向けた取り組み STAGE 1 研究員 SESSION TAG

  2. 東京電機⼤学⼤学院⼯学研究科情報通信⼯学専攻 修了。 超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事。 2020年4⽉に新卒としてSansanに⼊社。 名刺画像補正・OCRエンジンの研究開発に従事。 内⽥ 奏 技術本部 DSOC 研究開発部

    Automationグループ 研究員
  3. DSOCにおけるデータ化

  4. DATA 事業成⻑を根幹から⽀える「出会いのデータベース」 出会いの データベース 名刺 -ビジネスの出会いの証し- プレスリリース 財 務 情

    報 請求書 ニュース 契約書 企 業 情 報 あらゆるビジネスデータを集約
  5. マイクロタスク×マルチソーシングによる 独⾃の名刺データ化システム 名刺取り込み 背景分離 画像補正 1 項⽬分割 2 セキュリティー項⽬細分割、項⽬⼊⼒ 3

    チェック&補正 5 マージ 4 セキュアな環境を構築 名刺データ化システム「GEES」
  6. スマートキャプチャー 撮影されてから数秒で結果をユーザーに届けることを可能にする技術 項⽬セグメンテーション ⽂字を読み取らずに、名刺のデザインから項⽬を⾒分ける ⾔語判定 ⽂字を読み取らずに⾔語を判定 ミステイクディテクター 誤りの傾向を学習してミスの可能性を予測 独⾃に研究開発したさまざまな画像認識技術によって、 名刺を⾼速かつ⾼精度でデータ化

    AI・画像認識技術
  7. DSOC OCR とは

  8. - ビジネス利⽤の性質上、名刺のデータ化は100%に近い精度が必要 - E-mailアドレス・電話番号は1⽂字異なるだけで機能を失う - DSOCは、⼈とコンピュータを組み合わせ、99%以上の精度でデータを納品 開発の背景 DSOC OCR とは

    ⻑所: - スケールが可能 短所: - ベンダーOCRでは精度不⾜ ⻑所: - 精度がコントロール可能 短所: - スケールしにくい - ⾼コスト - セキュリティ担保の仕組み コンピュータ ⼈
  9. - DSOCが⻑年蓄積してきたデータ化ノウハウをOCRエンジンに展開 - 精度 99.7%・平均レスポンス時間 0.3秒でE-mailアドレスを認識 名刺に特化した独⾃OCRエンジン DSOC OCR とは

  10. DSOC OCRのプロセス DSOC OCR とは dummy035@sansan.co.jp 1. ⽂字列検出 (+項⽬推定) 2.

    ⽂字認識
  11. - U-Net [O. Ronneberger+ MICCAI2015] ベースの検出器を採⽤ - ⽂字列らしい部分をヒートマップとして出⼒し、画素同志の結合を判断して⽂字列を切り出す セグメンテーションベースの検出器 DSOC

    OCR とは
  12. - CRNN [B. Shi+ TPAMI2017] ベースの⽂字認識器を採⽤ - 画像特徴の系列認識問題として解くことで、前後の⽂脈からO(オー)と0(ゼロ)などを判別可能 CRNNベースの⽂字認識器 DSOC

    OCR とは d u m m o . j p Convolutional Recurrent Neural Network
  13. - 内容 - 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 - 評価指標 - Character Error Rate(CER):

    ⁄ !"#"$ % ×100 (%:挿⼊回数, &:置換回数, ':削除回数, (:⽂字列⻑) - Accuracy: 正解⽂字列との完全⼀致率 - ⽐較対象 - A社: 名刺OCRの機能があり,項⽬単位で返却.Non-deep. - B社: 汎⽤OCR.項⽬セグメンテーションと組み合わせて項⽬を判定.Deep. ベンダーOCRとの⽐較実験 DSOC OCR とは
  14. - CER、AccuracyともにDSOC OCRが最⾼性能 - レスポンスタイムも平均0.15[秒/枚]と最速 (A社: 2.8[s /枚], B社: 0.43[s

    /枚])※ - 項⽬単位の検出器によって区切り⽂字(@, -, _ etc.)の⾒落としが減少 実験結果 DSOC OCR とは CER (↓) A社 7.39% B社 2.53% DSOC OCR 0.390% ※プロダクション環境での実測値 Accuracy (↑) A社 68.4% B社 86.6% DSOC OCR 99.2%
  15. 全項⽬展開に向けて

  16. - 全国各拠点のメンバーによって構成 - 主に東京のメンバーが増員 - OCR処理ごとに研究員の役割を分担 - 検出器 - 認識器

    - 認識結果の統合 etc. 開発体制の強化 全項⽬展開に向けて Sansan Innovation Lab (GrM 1名, 研究員 1名) Sansan札幌ラボ (アーキテクト 1名) Sansan ONE (研究員 2-3名)
  17. - OCR仕様について合宿 - 研究開発部⻑・GrM・研究員で2⽇間会話 - 決定した主な要件 - 検出器: 物体検出モデルへの移⾏ -

    認識器: 複数⾏認識 キックオフ in 京都 全項⽬展開に向けて Sansan Innovation Lab
  18. - Bounding Boxの回帰・識別を⾏う物体検出モデルを採⽤ - 回帰・識別を同時に⾏う 1stage 検出器 - ⼀般物体検出より⼩さい領域を検出するため⼯夫 物体検出モデルへの移⾏

    全項⽬展開に向けて 参考: Feature Pyramid Network [Y. Lin+ CVPR2017] predict predict predict
  19. - 精度⾼くマルチクラスに⽂字列を検出可能 - 部署役職・住所などは複数⾏の⽂字列として検出される 検出結果 全項⽬展開に向けて 開発中モデルによる検出結果

  20. - CRNNベースは基本的に1⾏認識向け - 特徴エンコードの際に遷移の⽅向を仮定するため - ⾃然⾔語処理分野で発展した Transformer を応⽤ - 主にSelf-Attentionを⽤いた

    Encoder-decoder - 2D認識が可能になるように改良 複数⾏認識 全項⽬展開に向けて Transformerの構造 ([A. Vaswani+ NIPS2017]より引⽤)
  21. - Attention l E 0 9 - 1 +1 S

    YK@UH=3 <3D?+ 1 : “ DSOC Automation ”
  22. まとめ

  23. - 今までの取り組みの紹介 - 開発の背景・現⾏モデルについて - 全項⽬展開に向けた取り組み - 開発体制 - 改善ポイント

    - 今後の課題 - 情報統合のリッチ化 - 名刺OCRとしての完成形を⽬指す - 継続的な改善サイクル - ⼩さいところからMLOps的な施策を打っていく DSOC OCR 全項⽬展開 まとめ
  24. 近⽇第1弾リリース予定!!!

  25. ⁻ [O. Ronneberger+ MICCAI2015] O. Ronneberger et al., ‘U-Net: Convolutional

    Networks for Biomedical Image Segmentation’, in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 2015, pp. 234–241. ⁻ [B. Shi+ TPAMI2017] B. Shi et al., ‘An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition’, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. ⁻ [Y. Lin+ CVPR2017] T.-Y. Lin et al., ‘Feature Pyramid Networks for Object Detection’, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 936–944. ⁻ [A. Vaswani+ NIPS2017] A. Vaswani et al., ‘Attention is All you Need’, in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008. 参考⽂献
  26. 研究員 Twitter @s_aiueo32 Virtual Card 内⽥ 奏