Slide 1

Slide 1 text

内⽥ 奏 DSOC OCR 全項⽬展開に向けた取り組み STAGE 1 研究員 SESSION TAG

Slide 2

Slide 2 text

東京電機⼤学⼤学院⼯学研究科情報通信⼯学専攻 修了。 超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事。 2020年4⽉に新卒としてSansanに⼊社。 名刺画像補正・OCRエンジンの研究開発に従事。 内⽥ 奏 技術本部 DSOC 研究開発部 Automationグループ 研究員

Slide 3

Slide 3 text

DSOCにおけるデータ化

Slide 4

Slide 4 text

DATA 事業成⻑を根幹から⽀える「出会いのデータベース」 出会いの データベース 名刺 -ビジネスの出会いの証し- プレスリリース 財 務 情 報 請求書 ニュース 契約書 企 業 情 報 あらゆるビジネスデータを集約

Slide 5

Slide 5 text

マイクロタスク×マルチソーシングによる 独⾃の名刺データ化システム 名刺取り込み 背景分離 画像補正 1 項⽬分割 2 セキュリティー項⽬細分割、項⽬⼊⼒ 3 チェック&補正 5 マージ 4 セキュアな環境を構築 名刺データ化システム「GEES」

Slide 6

Slide 6 text

スマートキャプチャー 撮影されてから数秒で結果をユーザーに届けることを可能にする技術 項⽬セグメンテーション ⽂字を読み取らずに、名刺のデザインから項⽬を⾒分ける ⾔語判定 ⽂字を読み取らずに⾔語を判定 ミステイクディテクター 誤りの傾向を学習してミスの可能性を予測 独⾃に研究開発したさまざまな画像認識技術によって、 名刺を⾼速かつ⾼精度でデータ化 AI・画像認識技術

Slide 7

Slide 7 text

DSOC OCR とは

Slide 8

Slide 8 text

- ビジネス利⽤の性質上、名刺のデータ化は100%に近い精度が必要 - E-mailアドレス・電話番号は1⽂字異なるだけで機能を失う - DSOCは、⼈とコンピュータを組み合わせ、99%以上の精度でデータを納品 開発の背景 DSOC OCR とは ⻑所: - スケールが可能 短所: - ベンダーOCRでは精度不⾜ ⻑所: - 精度がコントロール可能 短所: - スケールしにくい - ⾼コスト - セキュリティ担保の仕組み コンピュータ ⼈

Slide 9

Slide 9 text

- DSOCが⻑年蓄積してきたデータ化ノウハウをOCRエンジンに展開 - 精度 99.7%・平均レスポンス時間 0.3秒でE-mailアドレスを認識 名刺に特化した独⾃OCRエンジン DSOC OCR とは

Slide 10

Slide 10 text

DSOC OCRのプロセス DSOC OCR とは [email protected] 1. ⽂字列検出 (+項⽬推定) 2. ⽂字認識

Slide 11

Slide 11 text

- U-Net [O. Ronneberger+ MICCAI2015] ベースの検出器を採⽤ - ⽂字列らしい部分をヒートマップとして出⼒し、画素同志の結合を判断して⽂字列を切り出す セグメンテーションベースの検出器 DSOC OCR とは

Slide 12

Slide 12 text

- CRNN [B. Shi+ TPAMI2017] ベースの⽂字認識器を採⽤ - 画像特徴の系列認識問題として解くことで、前後の⽂脈からO(オー)と0(ゼロ)などを判別可能 CRNNベースの⽂字認識器 DSOC OCR とは d u m m o . j p Convolutional Recurrent Neural Network

Slide 13

Slide 13 text

- 内容 - 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 - 評価指標 - Character Error Rate(CER): ⁄ !"#"$ % ×100 (%:挿⼊回数, &:置換回数, ':削除回数, (:⽂字列⻑) - Accuracy: 正解⽂字列との完全⼀致率 - ⽐較対象 - A社: 名刺OCRの機能があり,項⽬単位で返却.Non-deep. - B社: 汎⽤OCR.項⽬セグメンテーションと組み合わせて項⽬を判定.Deep. ベンダーOCRとの⽐較実験 DSOC OCR とは

Slide 14

Slide 14 text

- CER、AccuracyともにDSOC OCRが最⾼性能 - レスポンスタイムも平均0.15[秒/枚]と最速 (A社: 2.8[s /枚], B社: 0.43[s /枚])※ - 項⽬単位の検出器によって区切り⽂字(@, -, _ etc.)の⾒落としが減少 実験結果 DSOC OCR とは CER (↓) A社 7.39% B社 2.53% DSOC OCR 0.390% ※プロダクション環境での実測値 Accuracy (↑) A社 68.4% B社 86.6% DSOC OCR 99.2%

Slide 15

Slide 15 text

全項⽬展開に向けて

Slide 16

Slide 16 text

- 全国各拠点のメンバーによって構成 - 主に東京のメンバーが増員 - OCR処理ごとに研究員の役割を分担 - 検出器 - 認識器 - 認識結果の統合 etc. 開発体制の強化 全項⽬展開に向けて Sansan Innovation Lab (GrM 1名, 研究員 1名) Sansan札幌ラボ (アーキテクト 1名) Sansan ONE (研究員 2-3名)

Slide 17

Slide 17 text

- OCR仕様について合宿 - 研究開発部⻑・GrM・研究員で2⽇間会話 - 決定した主な要件 - 検出器: 物体検出モデルへの移⾏ - 認識器: 複数⾏認識 キックオフ in 京都 全項⽬展開に向けて Sansan Innovation Lab

Slide 18

Slide 18 text

- Bounding Boxの回帰・識別を⾏う物体検出モデルを採⽤ - 回帰・識別を同時に⾏う 1stage 検出器 - ⼀般物体検出より⼩さい領域を検出するため⼯夫 物体検出モデルへの移⾏ 全項⽬展開に向けて 参考: Feature Pyramid Network [Y. Lin+ CVPR2017] predict predict predict

Slide 19

Slide 19 text

- 精度⾼くマルチクラスに⽂字列を検出可能 - 部署役職・住所などは複数⾏の⽂字列として検出される 検出結果 全項⽬展開に向けて 開発中モデルによる検出結果

Slide 20

Slide 20 text

- CRNNベースは基本的に1⾏認識向け - 特徴エンコードの際に遷移の⽅向を仮定するため - ⾃然⾔語処理分野で発展した Transformer を応⽤ - 主にSelf-Attentionを⽤いた Encoder-decoder - 2D認識が可能になるように改良 複数⾏認識 全項⽬展開に向けて Transformerの構造 ([A. Vaswani+ NIPS2017]より引⽤)

Slide 21

Slide 21 text

- Attention l E 0 9 - 1 +1 S YK@UH=3 <3D?+ 1 : “ DSOC Automation ”

Slide 22

Slide 22 text

まとめ

Slide 23

Slide 23 text

- 今までの取り組みの紹介 - 開発の背景・現⾏モデルについて - 全項⽬展開に向けた取り組み - 開発体制 - 改善ポイント - 今後の課題 - 情報統合のリッチ化 - 名刺OCRとしての完成形を⽬指す - 継続的な改善サイクル - ⼩さいところからMLOps的な施策を打っていく DSOC OCR 全項⽬展開 まとめ

Slide 24

Slide 24 text

近⽇第1弾リリース予定!!!

Slide 25

Slide 25 text

⁻ [O. Ronneberger+ MICCAI2015] O. Ronneberger et al., ‘U-Net: Convolutional Networks for Biomedical Image Segmentation’, in Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015, 2015, pp. 234–241. ⁻ [B. Shi+ TPAMI2017] B. Shi et al., ‘An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition’, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 11, pp. 2298–2304, Nov. 2017. ⁻ [Y. Lin+ CVPR2017] T.-Y. Lin et al., ‘Feature Pyramid Networks for Object Detection’, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 936–944. ⁻ [A. Vaswani+ NIPS2017] A. Vaswani et al., ‘Attention is All you Need’, in Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008. 参考⽂献

Slide 26

Slide 26 text

研究員 Twitter @s_aiueo32 Virtual Card 内⽥ 奏