DSOC OCR 全項目展開に向けた取り組み / Approaches for deployment of DSOC OCR

内⽥奏 DSOC OCR 全項⽬展開に向けた取り組み STAGE 1 研究員 SESSION TAG

東京電機⼤学⼤学院⼯学研究科情報通信⼯学専攻修了。超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事。 2020年4⽉に新卒としてSansanに⼊社。名刺画像補正・OCRエンジンの研究開発に従事。内⽥奏技術本部 DSOC 研究開発部
Automationグループ研究員

DSOCにおけるデータ化

DATA 事業成⻑を根幹から⽀える「出会いのデータベース」出会いのデータベース名刺 -ビジネスの出会いの証し- プレスリリース財務情
報請求書ニュース契約書企業情報あらゆるビジネスデータを集約

マイクロタスク×マルチソーシングによる独⾃の名刺データ化システム名刺取り込み背景分離画像補正 1 項⽬分割 2 セキュリティー項⽬細分割、項⽬⼊⼒ 3
チェック＆補正 5 マージ 4 セキュアな環境を構築名刺データ化システム「GEES」

スマートキャプチャー撮影されてから数秒で結果をユーザーに届けることを可能にする技術項⽬セグメンテーション⽂字を読み取らずに、名刺のデザインから項⽬を⾒分ける⾔語判定⽂字を読み取らずに⾔語を判定ミステイクディテクター誤りの傾向を学習してミスの可能性を予測独⾃に研究開発したさまざまな画像認識技術によって、名刺を⾼速かつ⾼精度でデータ化
AI・画像認識技術

DSOC OCR とは

- ビジネス利⽤の性質上、名刺のデータ化は100%に近い精度が必要 - E-mailアドレス・電話番号は1⽂字異なるだけで機能を失う - DSOCは、⼈とコンピュータを組み合わせ、99%以上の精度でデータを納品開発の背景 DSOC OCR とは
⻑所: - スケールが可能短所: - ベンダーOCRでは精度不⾜⻑所: - 精度がコントロール可能短所: - スケールしにくい - ⾼コスト - セキュリティ担保の仕組みコンピュータ⼈

- DSOCが⻑年蓄積してきたデータ化ノウハウをOCRエンジンに展開 - 精度 99.7%・平均レスポンス時間 0.3秒でE-mailアドレスを認識名刺に特化した独⾃OCRエンジン DSOC OCR とは

DSOC OCRのプロセス DSOC OCR とは [email protected] 1. ⽂字列検出 (+項⽬推定) 2.
⽂字認識

- U-Net [O. Ronneberger+ MICCAI2015] ベースの検出器を採⽤ - ⽂字列らしい部分をヒートマップとして出⼒し、画素同志の結合を判断して⽂字列を切り出すセグメンテーションベースの検出器 DSOC
OCR とは

- CRNN [B. Shi+ TPAMI2017] ベースの⽂字認識器を採⽤ - 画像特徴の系列認識問題として解くことで、前後の⽂脈からO(オー)と0(ゼロ)などを判別可能 CRNNベースの⽂字認識器 DSOC
OCR とは d u m m o . j p Convolutional Recurrent Neural Network

- 内容 - 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 - 評価指標 - Character Error Rate(CER):
⁄ !"#"$ % ×100 (%:挿⼊回数, &:置換回数, ':削除回数, (:⽂字列⻑) - Accuracy: 正解⽂字列との完全⼀致率 - ⽐較対象 - A社: 名刺OCRの機能があり，項⽬単位で返却．Non-deep． - B社: 汎⽤OCR．項⽬セグメンテーションと組み合わせて項⽬を判定．Deep．ベンダーOCRとの⽐較実験 DSOC OCR とは

- CER、AccuracyともにDSOC OCRが最⾼性能 - レスポンスタイムも平均0.15[秒/枚]と最速 (A社: 2.8[s /枚], B社: 0.43[s
/枚])※ - 項⽬単位の検出器によって区切り⽂字(@, -, _ etc.)の⾒落としが減少実験結果 DSOC OCR とは CER (↓) A社 7.39% B社 2.53% DSOC OCR 0.390% ※プロダクション環境での実測値 Accuracy (↑) A社 68.4% B社 86.6% DSOC OCR 99.2%

全項⽬展開に向けて

- 全国各拠点のメンバーによって構成 - 主に東京のメンバーが増員 - OCR処理ごとに研究員の役割を分担 - 検出器 - 認識器
- 認識結果の統合 etc. 開発体制の強化全項⽬展開に向けて Sansan Innovation Lab (GrM 1名, 研究員 1名) Sansan札幌ラボ (アーキテクト 1名) Sansan ONE (研究員 2-3名)

- OCR仕様について合宿 - 研究開発部⻑・GrM・研究員で2⽇間会話 - 決定した主な要件 - 検出器: 物体検出モデルへの移⾏ -
認識器: 複数⾏認識キックオフ in 京都全項⽬展開に向けて Sansan Innovation Lab

- Bounding Boxの回帰・識別を⾏う物体検出モデルを採⽤ - 回帰・識別を同時に⾏う 1stage 検出器 - ⼀般物体検出より⼩さい領域を検出するため⼯夫物体検出モデルへの移⾏
全項⽬展開に向けて参考: Feature Pyramid Network [Y. Lin+ CVPR2017] predict predict predict

- 精度⾼くマルチクラスに⽂字列を検出可能 - 部署役職・住所などは複数⾏の⽂字列として検出される検出結果全項⽬展開に向けて開発中モデルによる検出結果

- CRNNベースは基本的に1⾏認識向け - 特徴エンコードの際に遷移の⽅向を仮定するため - ⾃然⾔語処理分野で発展した Transformer を応⽤ - 主にSelf-Attentionを⽤いた
Encoder-decoder - 2D認識が可能になるように改良複数⾏認識全項⽬展開に向けて Transformerの構造 ([A. Vaswani+ NIPS2017]より引⽤)

- Attention l E 0 9 - 1 +1 S
YK@UH=3 <3D?+ 1 : “ DSOC Automation ”

まとめ

- 今までの取り組みの紹介 - 開発の背景・現⾏モデルについて - 全項⽬展開に向けた取り組み - 開発体制 - 改善ポイント
- 今後の課題 - 情報統合のリッチ化 - 名刺OCRとしての完成形を⽬指す - 継続的な改善サイクル - ⼩さいところからMLOps的な施策を打っていく DSOC OCR 全項⽬展開まとめ

近⽇第1弾リリース予定!!!

⁻ [O. Ronneberger+ MICCAI2015] O. Ronneberger et al., ‘U-Net: Convolutional
Networks for Biomedical Image Segmentation’, in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 2015, pp. 234–241. ⁻ [B. Shi+ TPAMI2017] B. Shi et al., ‘An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition’, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. ⁻ [Y. Lin+ CVPR2017] T.-Y. Lin et al., ‘Feature Pyramid Networks for Object Detection’, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 936–944. ⁻ [A. Vaswani+ NIPS2017] A. Vaswani et al., ‘Attention is All you Need’, in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008. 参考⽂献

研究員 Twitter @s_aiueo32 Virtual Card 内⽥奏

DSOC OCR 全項目展開に向けた取り組み / Approaches for deploym...

DSOC OCR 全項目展開に向けた取り組み / Approaches for deployment of DSOC OCR

Sansan

More Decks by Sansan

Other Decks in Technology

Featured

Transcript

内⽥奏 DSOC OCR 全項⽬展開に向けた取り組み STAGE 1 研究員 SESSION TAG

DSOCにおけるデータ化

DATA 事業成⻑を根幹から⽀える「出会いのデータベース」出会いのデータベース名刺 -ビジネスの出会いの証し- プレスリリース財務情

マイクロタスク×マルチソーシングによる独⾃の名刺データ化システム名刺取り込み背景分離画像補正 1 項⽬分割 2 セキュリティー項⽬細分割、項⽬⼊⼒ 3

DSOC OCR とは

- ビジネス利⽤の性質上、名刺のデータ化は100%に近い精度が必要 - E-mailアドレス・電話番号は1⽂字異なるだけで機能を失う - DSOCは、⼈とコンピュータを組み合わせ、99%以上の精度でデータを納品開発の背景 DSOC OCR とは

- DSOCが⻑年蓄積してきたデータ化ノウハウをOCRエンジンに展開 - 精度 99.7%・平均レスポンス時間 0.3秒でE-mailアドレスを認識名刺に特化した独⾃OCRエンジン DSOC OCR とは

DSOC OCRのプロセス DSOC OCR とは [email protected] 1. ⽂字列検出 (+項⽬推定) 2.

- U-Net [O. Ronneberger+ MICCAI2015] ベースの検出器を採⽤ - ⽂字列らしい部分をヒートマップとして出⼒し、画素同志の結合を判断して⽂字列を切り出すセグメンテーションベースの検出器 DSOC

- CRNN [B. Shi+ TPAMI2017] ベースの⽂字認識器を採⽤ - 画像特徴の系列認識問題として解くことで、前後の⽂脈からO(オー)と0(ゼロ)などを判別可能 CRNNベースの⽂字認識器 DSOC

- 内容 - 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 - 評価指標 - Character Error Rate(CER):

- CER、AccuracyともにDSOC OCRが最⾼性能 - レスポンスタイムも平均0.15[秒/枚]と最速 (A社: 2.8[s /枚], B社: 0.43[s

全項⽬展開に向けて

- 全国各拠点のメンバーによって構成 - 主に東京のメンバーが増員 - OCR処理ごとに研究員の役割を分担 - 検出器 - 認識器

- OCR仕様について合宿 - 研究開発部⻑・GrM・研究員で2⽇間会話 - 決定した主な要件 - 検出器: 物体検出モデルへの移⾏ -

- Bounding Boxの回帰・識別を⾏う物体検出モデルを採⽤ - 回帰・識別を同時に⾏う 1stage 検出器 - ⼀般物体検出より⼩さい領域を検出するため⼯夫物体検出モデルへの移⾏

- 精度⾼くマルチクラスに⽂字列を検出可能 - 部署役職・住所などは複数⾏の⽂字列として検出される検出結果全項⽬展開に向けて開発中モデルによる検出結果

- CRNNベースは基本的に1⾏認識向け - 特徴エンコードの際に遷移の⽅向を仮定するため - ⾃然⾔語処理分野で発展した Transformer を応⽤ - 主にSelf-Attentionを⽤いた

- Attention l E 0 9 - 1 +1 S

まとめ

- 今までの取り組みの紹介 - 開発の背景・現⾏モデルについて - 全項⽬展開に向けた取り組み - 開発体制 - 改善ポイント

近⽇第1弾リリース予定!!!

⁻ [O. Ronneberger+ MICCAI2015] O. Ronneberger et al., ‘U-Net: Convolutional

研究員 Twitter @s_aiueo32 Virtual Card 内⽥奏