Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Recognition Sansan株式会社 DSOC R&D Automation Group 内⽥奏第六回全⽇本コンピュータビジョン勉強会 @2021/04/18

Data Strategy and Operation Center ⾃⼰紹介 2020/03：東京電機⼤学⼤学院⼯学研究科情報通信⼯学専攻
修了局所特徴量を⽤いたトラッキング，Metric Learningを⽤いたファッション画像の特徴抽出，超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04：Sansan株式会社⼊社（インターンとしては2018/10より在籍）画像⽣成技術を応⽤した名刺画像補正やOCR精度改善に関する研究に従事内⽥奏 So Uchida s_aiueo32 S-aiueo32 Sansan 株式会社 DSOC R&D（研究開発部）Automation Group 研究員オンライン名刺

Data Strategy and Operation Center Sansan株式会社が展開する3つの事業クラウド名刺管理サービス名刺アプリクラウド請求書受領サービス

Data Strategy and Operation Center 組織構成名刺管理サービス Sansanの開発、提供名刺アプリサービス Eightの開発、提供
Sansan事業部 Eight事業部 DSOC Sansan株式会社データ統括部⾨クラウド請求書受領サービス BillOneの開発、提供 BillOne事業部研究開発部(R&D) データ分析・研究開発（画像処理／機械学習・AI）サービス開発部システム開発・データマネジメント EBPM⽀援室客観的エビデンスの活⽤を⽀援データ戦略室データ活⽤戦略の⽴案や新規事業の企画・開発

Data Strategy and Operation Center ໊ࢗ اۀ৘ใ ੥ٻॻ ൃߦ෺ χϡʔε
ௐࠪ৘ใ ਓࣄҟಈ৘ใ ܖ໿ॻ ࡒ຿৘ใ ϓϨεϦϦʔε DSOC Activating Business Data あらゆるビジネスデータを集約し、出会いの未来を描くニュース配信 Bill One Data Science Report Data Visualization Sansan Labs

Data Strategy and Operation Center アジェンダ 1. 背景 1. 深層学習時代の⽂字認識
2. ⽂字認識 + Transformer 2. 論⽂紹介 1. コンセプト 2. ⼿法の詳細 3. 実験・結果 3. まとめ ※図表は論⽂・発表資料より引⽤しています

Data Strategy and Operation Center 深層学習時代の⽂字認識畳み込み+系列認識の枠組みで解く • 主に4つのステージに分割できる 1.
Transformation: 湾曲した⽂字列を読みやすい形に変換する．Rectificationとも． 2. Feature extraction: CNNで画像特徴抽出を抽出する． 3. Sequence modeling: 前後の⽂脈を考慮して特徴をエンコードする⼯程． 4. Prediction: 特徴を⽂字列にデコードする⼯程．出⼒とラベルの位置合わせ． Scene Text Recognitionのフロー例 [J. Baek+ ICCV2019]

Data Strategy and Operation Center ⽂字認識 + Transformer 2019年ごろからちらほら提案されてきている •
今年は⼤Transformer時代になってから初めてのICDARなので楽しみ⽂字認識におけるTransformerの担当部分 • Sequence modeling → Transformer Encoder • Prediction → Transformer Decoder, Non-autoregressiveならEncoderでもいい • +α: Prediction後の誤り訂正 Transformerを使う利点 • 2D⽂字認識への拡張が容易， Non-autoregressiveなモデルが結構いい精度 etc.

Data Strategy and Operation Center NRTR [F. Sheng+ ICDAR2019] ⽂字認識モデルに初めてTransformerを導⼊
• 畳み込みで特徴抽出&縦⽅向に結合してTransformerに⼊⼒ • 1Dの特徴列として⼊⼒されるため，1⾏の⽂字列にのみ対応可能

Data Strategy and Operation Center SATRN [J. Lee+ CVPRW2020] NRTRを2D⽂字認識に拡張
• Adaptive 2D positional encoding (A2DPE) > Positional encodingを2D化 > Encodingを縦横独⽴に変換してから加算 (変換パラメータも学習パラメータとする) • Locality-aware feedforward > Encoderのpoint-wise feedforwardを separatable convolutionに置き換え > point-wise feedforwardからパラメータ数を変えずに⾼精度化

Data Strategy and Operation Center SRN [D. Yu+ CVPR2020] Non-autoregressive⽂字認識モデルとTransformerの組み合わせ
• PVAM (Parallel Visual Attention Module) > 何番⽬の⽂字かを表すPosition EncodingをQueryとして，並列に各⽂字特徴を獲得 • GSRM (Global Semantic Reasoning Module) > 画像特徴を⽂字に変換&トークン化 > Transformer Encoderによる校正 • ちょっと詳細について謎が多い…

論⽂紹介

Data Strategy and Operation Center 論⽂情報タイトル Read Like Humans:
Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition 採択状況 CVPR2021, Oral 著者 Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang 所属 University of Science and Technology of China

Data Strategy and Operation Center コンセプト - Autonomous(⾃律的) - 認知⼼理的に，視覚/⾔語モデルは互いに独⽴している
• 仮に聴覚or視覚が不⾃由であっても，他⽅は完全に機能するとされるため • 従来のモデル(a)では，視覚/⾔語モデルをカスケードしている場合が多い > モデル同⼠が特徴空間を共有し，暗黙的に⾔語モデルを学習することを期待 • 提案⼿法(b)では，視覚モデルには画像，⾔語モデルには⽂字列を⼊⼒ > モデル同⼠が独⽴し，それぞれ事前学習などが可能に

Data Strategy and Operation Center コンセプト - Bidirectional(双⽅向的) - 不可読⽂字に対して，左右の可読⽂字から⽂字を推定する
• RNN(d), BiRNN(e)ではダメなのか? > 各⽅向は独⽴に計算されたのちに結合されるため，特徴表現としては単⽅向 > モデルを2つ⽤意したり，アンサンブルするコストが⾼い Masked LM的に，⽳埋め問題として解くのが効率的(c) > 並列に双⽅向の特徴表現を獲得可能

Data Strategy and Operation Center コンセプト - Iterative(反復的) - 低品質な画像は⼀発で読めないことが多い
• ⼀度⽂字に起こして，パターンを考えると読めたりする • 認識を反復して確信度を向上させるとよい > Confidence Calibration的な効果も? 反復することで視覚モデルの誤りの影響を緩和 • SRNでは⽂字数の影響が⼤きい

Data Strategy and Operation Center 提案モデル (ABINet) VM-LM間の勾配伝播をブロック LMへの初期⼊⼒値反復的校正結果

Data Strategy and Operation Center Vision Model (VM) Backbone(ResNet+Transfomer)とPosition Attentionで構成
• Position Attention: PVAMのKey直前にMini-Unetを挿⼊した構造 • ⽂字出⼒とFusionへの⼊⼒に分岐する

Data Strategy and Operation Center Language Model (LM) Transformer Decoderで構成
• Query: Position Encodingを並列⼊⼒ • Key&Value: VM/Fusionの出⼒ • Mask: 対⾓成分をキャンセルするマスク SRNとの差分 • GSRMはマスク付きTransformer Encoderで構成 > ⼊⼒はVMの出⼒で，VMの誤りが強く伝播 > GSRMだと[MASK]部分の情報は完全に⽋落するが，ここでは全てのポジションに対して Memoryから適した情報を抽出するよう学習

Data Strategy and Operation Center 実験項⽬ 1. VM1: ネットワーク構造⽐較 2.
LM1: ⾃律性に関する実験 3. LM2: 双⽅向性に関する実験 (⽐較対象が曖昧なため割愛) 4. LM3: 反復回数に関する実験 5. Self-trainingについて ([J. Baek+ ICCV2019]を読んだ⽅がいいと思うので割愛．) 6. 従来⼿法との⽐較

Data Strategy and Operation Center VM1: ネットワーク構造⽐較 Attentionの種類とTransformerのレイヤ数でAblation Study •
提案⽅法の有効性を確認 & Transformerは深い⽅がいい ※ paralell: PVAM (w/o Mini-Unet), position: 提案モデル (w/ Mini-Unet)

Data Strategy and Operation Center LM1: ⾃律性に関する実感 VM/LM単体での事前学習の効果を確認 • 事前学習した⽅が⾼精度
• LMは⼊⼒がテキストであるため，外部データでの事前学習も可能 VM-LM間の勾配伝播を許すと精度が低下 • VMのみ事前学習する場合より低くなる • LM単体の事前学習ができなくなるので伸び代も少ない

Data Strategy and Operation Center LM3:反復回数に関する実験反復ごとに精度が向上することを確認反復回数3で平均0.3-0.4%向上画像の歪みが⼤きいIC15やSVTでは1.0%以上向上反復することで⽂字列⻑の不整合も解決可能
認識結果の変遷 GT, iter.1 iter.2, iter.3 ( )

Data Strategy and Operation Center 従来⼿法との⽐較

Data Strategy and Operation Center まとめ⽂字認識 + Transformer について概観
2019年ごろから提案され始めている，ICDAR2021に期待 Autoregressive, Non-autoregressiveなモデルが存在 ABINet Autonomous, Bidirectional, Iterativeをコンセプトにしたネットワーク独⽴に事前学習が可能であり，校正における⽂字列⻑の不整合を解決コード公開が待たれる: https://github.com/FangShancheng/ABINet

Data Strategy and Operation Center 引⽤⽂献 [J. Baek+ ICCV2019] J.
Baek et al., “What is wrong with scene text recognition model comparisons? dataset and model analysis,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 4715–4723. [F. Sheng+ ICDAR2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786. [J. Lee+ CVPRW2020] J. Lee, S. Park, J. Baek, S. Joon Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020, pp. 546–547. [D. Yu+ CVPR2020] D. Yu et al., “Towards accurate scene text recognition with semantic reasoning networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 12113–12122. [S. Fang+ CVPR2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition,” arXiv [cs.CV], Mar. 11, 2021. [J. Baek+ CVPR2021] J. Baek, Y. Matsui, and K. Aizawa, “What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels,” arXiv [cs.CV], Mar. 07, 2021.

We are hiring!

Read Like Humans: Autonomous, Bidirectional and...

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

Sansan DSOC

More Decks by Sansan DSOC

Other Decks in Science

Featured

Transcript