Slide 1

Slide 1 text

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition Sansan株式会社 DSOC R&D Automation Group 内⽥奏 第六回 全⽇本コンピュータビジョン勉強会 @2021/04/18

Slide 2

Slide 2 text

Data Strategy and Operation Center ⾃⼰紹介 2020/03: 東京電機⼤学⼤学院 ⼯学研究科 情報通信⼯学専攻 修了 局所特徴量を⽤いたトラッキング,Metric Learningを⽤いたファッション 画像の特徴抽出,超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04:Sansan株式会社 ⼊社(インターンとしては2018/10より在籍) 画像⽣成技術を応⽤した名刺画像補正やOCR精度改善に関する研究に従事 内⽥ 奏 So Uchida s_aiueo32 S-aiueo32 Sansan 株式会社 DSOC R&D(研究開発部)Automation Group 研究員 オンライン名刺

Slide 3

Slide 3 text

2

Slide 4

Slide 4 text

Data Strategy and Operation Center Sansan株式会社が展開する3つの事業 クラウド名刺管理サービス 名刺アプリ クラウド請求書受領サービス

Slide 5

Slide 5 text

Data Strategy and Operation Center 組織構成 名刺管理サービス Sansanの開発、提供 名刺アプリサービス Eightの開発、提供 Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部⾨ クラウド請求書受領サービス BillOneの開発、提供 BillOne事業部 研究開発部(R&D) データ分析・研究開発 (画像処理/機械学習・AI) サービス開発部 システム開発・ データマネジメント EBPM⽀援室 客観的エビデンスの 活⽤を⽀援 データ戦略室 データ活⽤戦略の⽴案や 新規事業の企画・開発

Slide 6

Slide 6 text

Data Strategy and Operation Center ໊ࢗ اۀ৘ใ ੥ٻॻ ൃߦ෺ χϡʔε ௐࠪ৘ใ ਓࣄҟಈ৘ใ ܖ໿ॻ ࡒ຿৘ใ ϓϨεϦϦʔε DSOC Activating Business Data あらゆるビジネスデータを集約し、出会いの未来を描く ニュース配信 Bill One Data Science Report Data Visualization Sansan Labs

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

Data Strategy and Operation Center アジェンダ 1. 背景 1. 深層学習時代の⽂字認識 2. ⽂字認識 + Transformer 2. 論⽂紹介 1. コンセプト 2. ⼿法の詳細 3. 実験・結果 3. まとめ ※図表は論⽂・発表資料より引⽤しています

Slide 9

Slide 9 text

Data Strategy and Operation Center 深層学習時代の⽂字認識 畳み込み+系列認識の枠組みで解く • 主に4つのステージに分割できる 1. Transformation: 湾曲した⽂字列を読みやすい形に変換する.Rectificationとも. 2. Feature extraction: CNNで画像特徴抽出を抽出する. 3. Sequence modeling: 前後の⽂脈を考慮して特徴をエンコードする⼯程. 4. Prediction: 特徴を⽂字列にデコードする⼯程.出⼒とラベルの位置合わせ. Scene Text Recognitionのフロー例 [J. Baek+ ICCV2019]

Slide 10

Slide 10 text

Data Strategy and Operation Center ⽂字認識 + Transformer 2019年ごろからちらほら提案されてきている • 今年は⼤Transformer時代になってから初めてのICDARなので楽しみ ⽂字認識におけるTransformerの担当部分 • Sequence modeling → Transformer Encoder • Prediction → Transformer Decoder, Non-autoregressiveならEncoderでもいい • +α: Prediction後の誤り訂正 Transformerを使う利点 • 2D⽂字認識への拡張が容易, Non-autoregressiveなモデルが結構いい精度 etc.

Slide 11

Slide 11 text

Data Strategy and Operation Center NRTR [F. Sheng+ ICDAR2019] ⽂字認識モデルに初めてTransformerを導⼊ • 畳み込みで特徴抽出&縦⽅向に結合してTransformerに⼊⼒ • 1Dの特徴列として⼊⼒されるため,1⾏の⽂字列にのみ対応可能

Slide 12

Slide 12 text

Data Strategy and Operation Center SATRN [J. Lee+ CVPRW2020] NRTRを2D⽂字認識に拡張 • Adaptive 2D positional encoding (A2DPE) > Positional encodingを2D化 > Encodingを縦横独⽴に変換してから加算 (変換パラメータも学習パラメータとする) • Locality-aware feedforward > Encoderのpoint-wise feedforwardを separatable convolutionに置き換え > point-wise feedforwardから パラメータ数を変えずに⾼精度化

Slide 13

Slide 13 text

Data Strategy and Operation Center SRN [D. Yu+ CVPR2020] Non-autoregressive⽂字認識モデルとTransformerの組み合わせ • PVAM (Parallel Visual Attention Module) > 何番⽬の⽂字かを表すPosition EncodingをQueryとして,並列に各⽂字特徴を獲得 • GSRM (Global Semantic Reasoning Module) > 画像特徴を⽂字に変換&トークン化 > Transformer Encoderによる校正 • ちょっと詳細について謎が多い…

Slide 14

Slide 14 text

論⽂紹介

Slide 15

Slide 15 text

Data Strategy and Operation Center 論⽂情報 タイトル Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition 採択状況 CVPR2021, Oral 著者 Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang 所属 University of Science and Technology of China

Slide 16

Slide 16 text

Data Strategy and Operation Center コンセプト - Autonomous(⾃律的) - 認知⼼理的に,視覚/⾔語モデルは互いに独⽴している • 仮に聴覚or視覚が不⾃由であっても,他⽅は完全に機能するとされるため • 従来のモデル(a)では,視覚/⾔語モデルをカスケードしている場合が多い > モデル同⼠が特徴空間を共有し,暗黙的に⾔語モデルを学習することを期待 • 提案⼿法(b)では,視覚モデルには画像,⾔語モデルには⽂字列を⼊⼒ > モデル同⼠が独⽴し,それぞれ事前学習などが可能に

Slide 17

Slide 17 text

Data Strategy and Operation Center コンセプト - Bidirectional(双⽅向的) - 不可読⽂字に対して,左右の可読⽂字から⽂字を推定する • RNN(d), BiRNN(e)ではダメなのか? > 各⽅向は独⽴に計算されたのちに結合されるため,特徴表現としては単⽅向 > モデルを2つ⽤意したり,アンサンブルするコストが⾼い Masked LM的に,⽳埋め問題として解くのが効率的(c) > 並列に双⽅向の特徴表現を獲得可能

Slide 18

Slide 18 text

Data Strategy and Operation Center コンセプト - Iterative(反復的) - 低品質な画像は⼀発で読めないことが多い • ⼀度⽂字に起こして,パターンを考えると読めたりする • 認識を反復して確信度を向上させるとよい > Confidence Calibration的な効果も? 反復することで視覚モデルの誤りの影響を緩和 • SRNでは⽂字数の影響が⼤きい

Slide 19

Slide 19 text

Data Strategy and Operation Center 提案モデル (ABINet) VM-LM間の勾配伝播をブロック LMへの初期⼊⼒値 反復的校正結果

Slide 20

Slide 20 text

Data Strategy and Operation Center Vision Model (VM) Backbone(ResNet+Transfomer)とPosition Attentionで構成 • Position Attention: PVAMのKey直前にMini-Unetを挿⼊した構造 • ⽂字出⼒とFusionへの⼊⼒に分岐する

Slide 21

Slide 21 text

Data Strategy and Operation Center Language Model (LM) Transformer Decoderで構成 • Query: Position Encodingを並列⼊⼒ • Key&Value: VM/Fusionの出⼒ • Mask: 対⾓成分をキャンセルするマスク SRNとの差分 • GSRMはマスク付きTransformer Encoderで構成 > ⼊⼒はVMの出⼒で,VMの誤りが強く伝播 > GSRMだと[MASK]部分の情報は完全に⽋落するが, ここでは全てのポジションに対して Memoryから適した情報を抽出するよう学習

Slide 22

Slide 22 text

Data Strategy and Operation Center 実験項⽬ 1. VM1: ネットワーク構造⽐較 2. LM1: ⾃律性に関する実験 3. LM2: 双⽅向性に関する実験 (⽐較対象が曖昧なため割愛) 4. LM3: 反復回数に関する実験 5. Self-trainingについて ([J. Baek+ ICCV2019]を読んだ⽅がいいと思うので割愛.) 6. 従来⼿法との⽐較

Slide 23

Slide 23 text

Data Strategy and Operation Center VM1: ネットワーク構造⽐較 Attentionの種類とTransformerのレイヤ数でAblation Study • 提案⽅法の有効性を確認 & Transformerは深い⽅がいい ※ paralell: PVAM (w/o Mini-Unet), position: 提案モデル (w/ Mini-Unet)

Slide 24

Slide 24 text

Data Strategy and Operation Center LM1: ⾃律性に関する実感 VM/LM単体での事前学習の効果を確認 • 事前学習した⽅が⾼精度 • LMは⼊⼒がテキストであるため,外部データでの事前学習も可能 VM-LM間の勾配伝播を許すと精度が低下 • VMのみ事前学習する場合より低くなる • LM単体の事前学習ができなくなるので 伸び代も少ない

Slide 25

Slide 25 text

Data Strategy and Operation Center LM3:反復回数に関する実験 反復ごとに精度が向上することを確認 反復回数3で平均0.3-0.4%向上 画像の歪みが⼤きいIC15やSVTでは1.0%以上向上 反復することで⽂字列⻑の不整合も解決可能 認識結果の変遷 GT, iter.1 iter.2, iter.3 ( )

Slide 26

Slide 26 text

Data Strategy and Operation Center 従来⼿法との⽐較

Slide 27

Slide 27 text

Data Strategy and Operation Center まとめ ⽂字認識 + Transformer について概観 2019年ごろから提案され始めている,ICDAR2021に期待 Autoregressive, Non-autoregressiveなモデルが存在 ABINet Autonomous, Bidirectional, Iterativeをコンセプトにしたネットワーク 独⽴に事前学習が可能であり,校正における⽂字列⻑の不整合を解決 コード公開が待たれる: https://github.com/FangShancheng/ABINet

Slide 28

Slide 28 text

Data Strategy and Operation Center 引⽤⽂献 [J. Baek+ ICCV2019] J. Baek et al., “What is wrong with scene text recognition model comparisons? dataset and model analysis,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 4715–4723. [F. Sheng+ ICDAR2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786. [J. Lee+ CVPRW2020] J. Lee, S. Park, J. Baek, S. Joon Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020, pp. 546–547. [D. Yu+ CVPR2020] D. Yu et al., “Towards accurate scene text recognition with semantic reasoning networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 12113–12122. [S. Fang+ CVPR2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition,” arXiv [cs.CV], Mar. 11, 2021. [J. Baek+ CVPR2021] J. Baek, Y. Matsui, and K. Aizawa, “What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels,” arXiv [cs.CV], Mar. 07, 2021.

Slide 29

Slide 29 text

We are hiring!

Slide 30

Slide 30 text

No content