Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

Sansan DSOC
April 18, 2021

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

■イベント 
:第六回 全日本コンピュータビジョン勉強会
https://kantocv.connpass.com/event/205271/

■登壇概要
タイトル:Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition
発表者: 
DSOC R&D研究員  内田 奏

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

April 18, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Science

Transcript

  1. Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for

    Scene Text Recognition Sansan株式会社 DSOC R&D Automation Group 内⽥奏 第六回 全⽇本コンピュータビジョン勉強会 @2021/04/18
  2. Data Strategy and Operation Center ⾃⼰紹介 2020/03: 東京電機⼤学⼤学院 ⼯学研究科 情報通信⼯学専攻

    修了 局所特徴量を⽤いたトラッキング,Metric Learningを⽤いたファッション 画像の特徴抽出,超解像・画像縮⼩を中⼼とした画像⽣成の研究に従事 2020/04:Sansan株式会社 ⼊社(インターンとしては2018/10より在籍) 画像⽣成技術を応⽤した名刺画像補正やOCR精度改善に関する研究に従事 内⽥ 奏 So Uchida s_aiueo32 S-aiueo32 Sansan 株式会社 DSOC R&D(研究開発部)Automation Group 研究員 オンライン名刺
  3. 2

  4. Data Strategy and Operation Center 組織構成 名刺管理サービス Sansanの開発、提供 名刺アプリサービス Eightの開発、提供

    Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部⾨ クラウド請求書受領サービス BillOneの開発、提供 BillOne事業部 研究開発部(R&D) データ分析・研究開発 (画像処理/機械学習・AI) サービス開発部 システム開発・ データマネジメント EBPM⽀援室 客観的エビデンスの 活⽤を⽀援 データ戦略室 データ活⽤戦略の⽴案や 新規事業の企画・開発
  5. Data Strategy and Operation Center ໊ࢗ اۀ৘ใ ੥ٻॻ ൃߦ෺ χϡʔε

    ௐࠪ৘ใ ਓࣄҟಈ৘ใ ܖ໿ॻ ࡒ຿৘ใ ϓϨεϦϦʔε DSOC Activating Business Data あらゆるビジネスデータを集約し、出会いの未来を描く ニュース配信 Bill One Data Science Report Data Visualization Sansan Labs
  6. Data Strategy and Operation Center アジェンダ 1. 背景 1. 深層学習時代の⽂字認識

    2. ⽂字認識 + Transformer 2. 論⽂紹介 1. コンセプト 2. ⼿法の詳細 3. 実験・結果 3. まとめ ※図表は論⽂・発表資料より引⽤しています
  7. Data Strategy and Operation Center 深層学習時代の⽂字認識 畳み込み+系列認識の枠組みで解く • 主に4つのステージに分割できる 1.

    Transformation: 湾曲した⽂字列を読みやすい形に変換する.Rectificationとも. 2. Feature extraction: CNNで画像特徴抽出を抽出する. 3. Sequence modeling: 前後の⽂脈を考慮して特徴をエンコードする⼯程. 4. Prediction: 特徴を⽂字列にデコードする⼯程.出⼒とラベルの位置合わせ. Scene Text Recognitionのフロー例 [J. Baek+ ICCV2019]
  8. Data Strategy and Operation Center ⽂字認識 + Transformer 2019年ごろからちらほら提案されてきている •

    今年は⼤Transformer時代になってから初めてのICDARなので楽しみ ⽂字認識におけるTransformerの担当部分 • Sequence modeling → Transformer Encoder • Prediction → Transformer Decoder, Non-autoregressiveならEncoderでもいい • +α: Prediction後の誤り訂正 Transformerを使う利点 • 2D⽂字認識への拡張が容易, Non-autoregressiveなモデルが結構いい精度 etc.
  9. Data Strategy and Operation Center NRTR [F. Sheng+ ICDAR2019] ⽂字認識モデルに初めてTransformerを導⼊

    • 畳み込みで特徴抽出&縦⽅向に結合してTransformerに⼊⼒ • 1Dの特徴列として⼊⼒されるため,1⾏の⽂字列にのみ対応可能
  10. Data Strategy and Operation Center SATRN [J. Lee+ CVPRW2020] NRTRを2D⽂字認識に拡張

    • Adaptive 2D positional encoding (A2DPE) > Positional encodingを2D化 > Encodingを縦横独⽴に変換してから加算 (変換パラメータも学習パラメータとする) • Locality-aware feedforward > Encoderのpoint-wise feedforwardを separatable convolutionに置き換え > point-wise feedforwardから パラメータ数を変えずに⾼精度化
  11. Data Strategy and Operation Center SRN [D. Yu+ CVPR2020] Non-autoregressive⽂字認識モデルとTransformerの組み合わせ

    • PVAM (Parallel Visual Attention Module) > 何番⽬の⽂字かを表すPosition EncodingをQueryとして,並列に各⽂字特徴を獲得 • GSRM (Global Semantic Reasoning Module) > 画像特徴を⽂字に変換&トークン化 > Transformer Encoderによる校正 • ちょっと詳細について謎が多い…
  12. Data Strategy and Operation Center 論⽂情報 タイトル Read Like Humans:

    Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition 採択状況 CVPR2021, Oral 著者 Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang 所属 University of Science and Technology of China
  13. Data Strategy and Operation Center コンセプト - Autonomous(⾃律的) - 認知⼼理的に,視覚/⾔語モデルは互いに独⽴している

    • 仮に聴覚or視覚が不⾃由であっても,他⽅は完全に機能するとされるため • 従来のモデル(a)では,視覚/⾔語モデルをカスケードしている場合が多い > モデル同⼠が特徴空間を共有し,暗黙的に⾔語モデルを学習することを期待 • 提案⼿法(b)では,視覚モデルには画像,⾔語モデルには⽂字列を⼊⼒ > モデル同⼠が独⽴し,それぞれ事前学習などが可能に
  14. Data Strategy and Operation Center コンセプト - Bidirectional(双⽅向的) - 不可読⽂字に対して,左右の可読⽂字から⽂字を推定する

    • RNN(d), BiRNN(e)ではダメなのか? > 各⽅向は独⽴に計算されたのちに結合されるため,特徴表現としては単⽅向 > モデルを2つ⽤意したり,アンサンブルするコストが⾼い Masked LM的に,⽳埋め問題として解くのが効率的(c) > 並列に双⽅向の特徴表現を獲得可能
  15. Data Strategy and Operation Center コンセプト - Iterative(反復的) - 低品質な画像は⼀発で読めないことが多い

    • ⼀度⽂字に起こして,パターンを考えると読めたりする • 認識を反復して確信度を向上させるとよい > Confidence Calibration的な効果も? 反復することで視覚モデルの誤りの影響を緩和 • SRNでは⽂字数の影響が⼤きい
  16. Data Strategy and Operation Center Vision Model (VM) Backbone(ResNet+Transfomer)とPosition Attentionで構成

    • Position Attention: PVAMのKey直前にMini-Unetを挿⼊した構造 • ⽂字出⼒とFusionへの⼊⼒に分岐する
  17. Data Strategy and Operation Center Language Model (LM) Transformer Decoderで構成

    • Query: Position Encodingを並列⼊⼒ • Key&Value: VM/Fusionの出⼒ • Mask: 対⾓成分をキャンセルするマスク SRNとの差分 • GSRMはマスク付きTransformer Encoderで構成 > ⼊⼒はVMの出⼒で,VMの誤りが強く伝播 > GSRMだと[MASK]部分の情報は完全に⽋落するが, ここでは全てのポジションに対して Memoryから適した情報を抽出するよう学習
  18. Data Strategy and Operation Center 実験項⽬ 1. VM1: ネットワーク構造⽐較 2.

    LM1: ⾃律性に関する実験 3. LM2: 双⽅向性に関する実験 (⽐較対象が曖昧なため割愛) 4. LM3: 反復回数に関する実験 5. Self-trainingについて ([J. Baek+ ICCV2019]を読んだ⽅がいいと思うので割愛.) 6. 従来⼿法との⽐較
  19. Data Strategy and Operation Center VM1: ネットワーク構造⽐較 Attentionの種類とTransformerのレイヤ数でAblation Study •

    提案⽅法の有効性を確認 & Transformerは深い⽅がいい ※ paralell: PVAM (w/o Mini-Unet), position: 提案モデル (w/ Mini-Unet)
  20. Data Strategy and Operation Center LM1: ⾃律性に関する実感 VM/LM単体での事前学習の効果を確認 • 事前学習した⽅が⾼精度

    • LMは⼊⼒がテキストであるため,外部データでの事前学習も可能 VM-LM間の勾配伝播を許すと精度が低下 • VMのみ事前学習する場合より低くなる • LM単体の事前学習ができなくなるので 伸び代も少ない
  21. Data Strategy and Operation Center まとめ ⽂字認識 + Transformer について概観

    2019年ごろから提案され始めている,ICDAR2021に期待 Autoregressive, Non-autoregressiveなモデルが存在 ABINet Autonomous, Bidirectional, Iterativeをコンセプトにしたネットワーク 独⽴に事前学習が可能であり,校正における⽂字列⻑の不整合を解決 コード公開が待たれる: https://github.com/FangShancheng/ABINet
  22. Data Strategy and Operation Center 引⽤⽂献 [J. Baek+ ICCV2019] J.

    Baek et al., “What is wrong with scene text recognition model comparisons? dataset and model analysis,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 4715–4723. [F. Sheng+ ICDAR2019] F. Sheng, Z. Chen, and B. Xu, “NRTR: A No-Recurrence Sequence-to-Sequence Model for Scene Text Recognition,” in 2019 International Conference on Document Analysis and Recognition (ICDAR), Sep. 2019, pp. 781–786. [J. Lee+ CVPRW2020] J. Lee, S. Park, J. Baek, S. Joon Oh, S. Kim, and H. Lee, “On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020, pp. 546–547. [D. Yu+ CVPR2020] D. Yu et al., “Towards accurate scene text recognition with semantic reasoning networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 12113–12122. [S. Fang+ CVPR2021] S. Fang, H. Xie, Y. Wang, Z. Mao, and Y. Zhang, “Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition,” arXiv [cs.CV], Mar. 11, 2021. [J. Baek+ CVPR2021] J. Baek, Y. Matsui, and K. Aizawa, “What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels,” arXiv [cs.CV], Mar. 07, 2021.