DSOC OCR 全項目展開に向けた取り組み / Approaches for deployment of DSOC OCR

by Sansan

Slide 1

Slide 1 text

内⽥奏 DSOC OCR 全項⽬展開に向けた取り組み STAGE 1 研究員 SESSION TAG

Slide 2

Slide 2 text

東京電機⼤学⼤学院⼯学研究科情報通信⼯学専攻修了。超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事。 2020年4⽉に新卒としてSansanに⼊社。名刺画像補正・OCRエンジンの研究開発に従事。内⽥奏技術本部 DSOC 研究開発部 Automationグループ研究員

Slide 3

Slide 3 text

DSOCにおけるデータ化

Slide 4

Slide 4 text

DATA 事業成⻑を根幹から⽀える「出会いのデータベース」出会いのデータベース名刺 -ビジネスの出会いの証し- プレスリリース財務情報請求書ニュース契約書企業情報あらゆるビジネスデータを集約

Slide 5

Slide 5 text

マイクロタスク×マルチソーシングによる独⾃の名刺データ化システム名刺取り込み背景分離画像補正 1 項⽬分割 2 セキュリティー項⽬細分割、項⽬⼊⼒ 3 チェック＆補正 5 マージ 4 セキュアな環境を構築名刺データ化システム「GEES」

Slide 6

Slide 6 text

スマートキャプチャー撮影されてから数秒で結果をユーザーに届けることを可能にする技術項⽬セグメンテーション⽂字を読み取らずに、名刺のデザインから項⽬を⾒分ける⾔語判定⽂字を読み取らずに⾔語を判定ミステイクディテクター誤りの傾向を学習してミスの可能性を予測独⾃に研究開発したさまざまな画像認識技術によって、名刺を⾼速かつ⾼精度でデータ化 AI・画像認識技術

Slide 7

Slide 7 text

DSOC OCR とは

Slide 8

Slide 8 text

- ビジネス利⽤の性質上、名刺のデータ化は100%に近い精度が必要 - E-mailアドレス・電話番号は1⽂字異なるだけで機能を失う - DSOCは、⼈とコンピュータを組み合わせ、99%以上の精度でデータを納品開発の背景 DSOC OCR とは⻑所: - スケールが可能短所: - ベンダーOCRでは精度不⾜⻑所: - 精度がコントロール可能短所: - スケールしにくい - ⾼コスト - セキュリティ担保の仕組みコンピュータ⼈

Slide 9

Slide 9 text

- DSOCが⻑年蓄積してきたデータ化ノウハウをOCRエンジンに展開 - 精度 99.7%・平均レスポンス時間 0.3秒でE-mailアドレスを認識名刺に特化した独⾃OCRエンジン DSOC OCR とは

Slide 10

Slide 10 text

DSOC OCRのプロセス DSOC OCR とは [email protected] 1. ⽂字列検出 (+項⽬推定) 2. ⽂字認識

Slide 11

Slide 11 text

- U-Net [O. Ronneberger+ MICCAI2015] ベースの検出器を採⽤ - ⽂字列らしい部分をヒートマップとして出⼒し、画素同志の結合を判断して⽂字列を切り出すセグメンテーションベースの検出器 DSOC OCR とは

Slide 12

Slide 12 text

- CRNN [B. Shi+ TPAMI2017] ベースの⽂字認識器を採⽤ - 画像特徴の系列認識問題として解くことで、前後の⽂脈からO(オー)と0(ゼロ)などを判別可能 CRNNベースの⽂字認識器 DSOC OCR とは d u m m o . j p Convolutional Recurrent Neural Network

Slide 13

Slide 13 text

- 内容 - 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 - 評価指標 - Character Error Rate(CER): ⁄ !"#"$ % ×100 (%:挿⼊回数, &:置換回数, ':削除回数, (:⽂字列⻑) - Accuracy: 正解⽂字列との完全⼀致率 - ⽐較対象 - A社: 名刺OCRの機能があり，項⽬単位で返却．Non-deep． - B社: 汎⽤OCR．項⽬セグメンテーションと組み合わせて項⽬を判定．Deep．ベンダーOCRとの⽐較実験 DSOC OCR とは

Slide 14

Slide 14 text

- CER、AccuracyともにDSOC OCRが最⾼性能 - レスポンスタイムも平均0.15[秒/枚]と最速 (A社: 2.8[s /枚], B社: 0.43[s /枚])※ - 項⽬単位の検出器によって区切り⽂字(@, -, _ etc.)の⾒落としが減少実験結果 DSOC OCR とは CER (↓) A社 7.39% B社 2.53% DSOC OCR 0.390% ※プロダクション環境での実測値 Accuracy (↑) A社 68.4% B社 86.6% DSOC OCR 99.2%

Slide 15

Slide 15 text

全項⽬展開に向けて

Slide 16

Slide 16 text

- 全国各拠点のメンバーによって構成 - 主に東京のメンバーが増員 - OCR処理ごとに研究員の役割を分担 - 検出器 - 認識器 - 認識結果の統合 etc. 開発体制の強化全項⽬展開に向けて Sansan Innovation Lab (GrM 1名, 研究員 1名) Sansan札幌ラボ (アーキテクト 1名) Sansan ONE (研究員 2-3名)

Slide 17

Slide 17 text

- OCR仕様について合宿 - 研究開発部⻑・GrM・研究員で2⽇間会話 - 決定した主な要件 - 検出器: 物体検出モデルへの移⾏ - 認識器: 複数⾏認識キックオフ in 京都全項⽬展開に向けて Sansan Innovation Lab

Slide 18

Slide 18 text

- Bounding Boxの回帰・識別を⾏う物体検出モデルを採⽤ - 回帰・識別を同時に⾏う 1stage 検出器 - ⼀般物体検出より⼩さい領域を検出するため⼯夫物体検出モデルへの移⾏全項⽬展開に向けて参考: Feature Pyramid Network [Y. Lin+ CVPR2017] predict predict predict

Slide 19

Slide 19 text

- 精度⾼くマルチクラスに⽂字列を検出可能 - 部署役職・住所などは複数⾏の⽂字列として検出される検出結果全項⽬展開に向けて開発中モデルによる検出結果

Slide 20

Slide 20 text

- CRNNベースは基本的に1⾏認識向け - 特徴エンコードの際に遷移の⽅向を仮定するため - ⾃然⾔語処理分野で発展した Transformer を応⽤ - 主にSelf-Attentionを⽤いた Encoder-decoder - 2D認識が可能になるように改良複数⾏認識全項⽬展開に向けて Transformerの構造 ([A. Vaswani+ NIPS2017]より引⽤)

Slide 21

Slide 21 text

- Attention l E 0 9 - 1 +1 S YK@UH=3 <3D?+ 1 : “ DSOC Automation ”

Slide 22

Slide 22 text

まとめ

Slide 23

Slide 23 text

- 今までの取り組みの紹介 - 開発の背景・現⾏モデルについて - 全項⽬展開に向けた取り組み - 開発体制 - 改善ポイント - 今後の課題 - 情報統合のリッチ化 - 名刺OCRとしての完成形を⽬指す - 継続的な改善サイクル - ⼩さいところからMLOps的な施策を打っていく DSOC OCR 全項⽬展開まとめ

Slide 24

Slide 24 text

近⽇第1弾リリース予定!!!

Slide 25

Slide 25 text

⁻ [O. Ronneberger+ MICCAI2015] O. Ronneberger et al., ‘U-Net: Convolutional Networks for Biomedical Image Segmentation’, in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 2015, pp. 234–241. ⁻ [B. Shi+ TPAMI2017] B. Shi et al., ‘An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition’, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. ⁻ [Y. Lin+ CVPR2017] T.-Y. Lin et al., ‘Feature Pyramid Networks for Object Detection’, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 936–944. ⁻ [A. Vaswani+ NIPS2017] A. Vaswani et al., ‘Attention is All you Need’, in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008. 参考⽂献

Slide 26

Slide 26 text

研究員 Twitter @s_aiueo32 Virtual Card 内⽥奏