Slide 1

Slide 1 text

深層学習時代の⽂字認識とその周辺 技術本部 DSOC R&D Automation Group 研究員 宮本 優⼀ 【SenseTimeJapan × Sansan】画像処理勉強会

Slide 2

Slide 2 text

Data Strategy and Operation Center 自己紹介 2010年〜2015年 デジタルカメラメーカー • 画像処理系研究開発 2015年〜2020年 広告制作会社 • イベントなどで使われる画像処理システムの開発 2021年1⽉〜 Sansan株式会社 • 名刺画像から様々な情報を認識するシステムの開発 宮本 優⼀ Yuichi Miyamoto Sansan 株式会社 技術本部 DSOC R&D Automation Group 研究員 OCRの分野については素⼈の状態で⼊社

Slide 3

Slide 3 text

Data Strategy and Operation Center Sansanのカジュアル⾯談を受ける前のOCRに対するイメージ 2 ・ OCRってもう枯れた技術じゃないの? ・ 画像処理の教科書とかでも触れられることは少ない ・ たまに「いやー、まだまだやることあるんですよ…」とは聞く ・ とはいえ⼿書きならまだしも印刷された活字なら精度99%くらいはいくでしょ

Slide 4

Slide 4 text

Data Strategy and Operation Center Sansanに転職が決まったあとのOCRに対するイメージ 3 ・ ⽂字を読み取るの意外と⼤変そう ・ 電話番号、メールアドレスなどは1⽂字間違えただけで連絡取れなくなる ・ ⽂字を読み取るだけじゃないタスクもある ・ 何語で書かれた名刺なのか ・ その⽂字列が名前なのか、住所なのか、電話番号なのかFax番号なのか判定 使っている技術も最近の論⽂を使ってて意外とやること多そうだし、 おもしろそう

Slide 5

Slide 5 text

Data Strategy and Operation Center ⼊社後のOCRに対するイメージ 4 ・ 名刺の読み取り難しすぎない? ・ 世の中には本当にいろんなデザインの名刺がある ・ OCRをする前の処理も必要(名刺切り出し、ホワイトニング、超解像など) ・ ⽂字画像であることを考慮したアルゴリズムも多く提案されている ・ 画像と⾃然⾔語処理 ・ 画像とグラフネットワークなど OCRなんもわからん。 勉強しないと…!

Slide 6

Slide 6 text

Data Strategy and Operation Center 発表の流れ 5 ・ 名刺の読み取りに必要な画像処理技術 ・ 論⽂紹介 ・ Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition ・ BEDSR-Net: A Deep Shadow Removal Network from a Single Document Image ・ Document Binarization using Recurrent Attention Generative Model ・ LayoutLMv2: Multi-modal pre-training for visually-rich document understanding ・ まとめ 注)紹介する論⽂は社内勉強会で読んだもので実際にSansan株式会社で利⽤しているアルゴリズム とは異なります

Slide 7

Slide 7 text

Data Strategy and Operation Center 名刺の読み取りに必要な画像処理技術の例 6 ・ 名刺領域の認識 ・ 画像の正規化(影の除去など) ・ OCR(⽂字検出、⽂字認識) ・ 項⽬推定 *ダミー名刺です

Slide 8

Slide 8 text

Data Strategy and Operation Center 影除去 7 ・ BEDSR-Net: A Deep Shadow Removal Network from a Single Document Image ・ Yun-Hsuan Lin, et al. ・ National Taiwan University ・ CVPR2020 ・ 著者⽈く 「⽂書画像の影を除去するために特別に設計された 初のディープネットワーク」

Slide 9

Slide 9 text

Data Strategy and Operation Center 既存⼿法の問題点 8 ・ 多くは⾃然画像が対象(晴れた⽇の地⾯の影の除去) ・ ⽂章画像の場合は室内で撮影されることが多いため 天井からの光源がいくつかあったり、 境界がはっきりしていない影であることが多い ・ ImageNetで事前学習しているモデルのため⽂章画像の 特性を考慮していない ・ 従来の⽂章画像の影除去論⽂ではヒューリスティックな⼿法を採⽤し ているため、うまくいく画像とそうでない画像で差がある(前ページ の画像)

Slide 10

Slide 10 text

Data Strategy and Operation Center 提案⼿法 9 ・ 影領域のアテンションマップと背景⾊を推定し、その領域の影を除去する ・ 2つのサブネットワークで構成されている ・ BE-Net(Background Estimation Network): ⽂章の背景⾊と影のアテンションマップを⽣成 ・ SR-Net(Shadow Removal Network): 影を除去する。⼊⼒は影付き画像とBE-Netの出⼒ ・ 学習に必要なデータは影つき画像と影なし画像のペア

Slide 11

Slide 11 text

Data Strategy and Operation Center ネットワークの概要 10 1. ⽂章の背景⾊とアテンションマップを⽣成 2. 影を除去する

Slide 12

Slide 12 text

Data Strategy and Operation Center BE-Net 11 ・ 正解データの背景⾊の取得は半⾃動で⾏った ・ 影なし画像の画素値のヒストグラムを取得する ・ ヒストグラムを混合ガウスモデルで2つに分ける ・ ⽂章の背景は明るいことが多いのでヒストグラムの明るい⽅を背景とする ・ 背景が暗い場合はユーザーが修正した ・ conv layer×4, global max pooling, fully connected layer ・ Lossは影つき画像の推定背景⾊と背景⾊の差分 ・ 背景⾊を推測した際の根拠となる部分をGrad-CAMで出⼒してアテンショ ンマップとして使う

Slide 13

Slide 13 text

Data Strategy and Operation Center SR-Net 12 ・ conditional GANモデル ・ GeneratorはU-Net (encoder、decoderは5階層) ・ Generatorへの⼊⼒は影つき画像、推定された背景⾊、アテンションマップ ・ 推定された影なし画像と実際の影なし画像の差

Slide 14

Slide 14 text

Data Strategy and Operation Center 結果画像 13

Slide 15

Slide 15 text

Data Strategy and Operation Center ⽂字画像に応じた2値化 14 ・ ⽬視で⾒やすくするだけでなくOCRの精度を上げる ためにも重要な技術 ・ Document Binarization using Recurrent Attention Generative Model ・ ShunChun Liu, et al.(中国のフードデリバリー企業等) ・ ⼿法の概要 1. 複雑な背景からの⼲渉を抑制するために、⾮局所的なアテンションブロックを 導⼊し、空間的な⻑距離依存性を捉える。 2. Spatial Recurrent Neural Networks を⽤いて画像上の空間的に変化する コンテクスト情報を伝達する。

Slide 16

Slide 16 text

Data Strategy and Operation Center ネットワークの概要 15 pix2pixの枠組みの中にattention構造を⼊れた

Slide 17

Slide 17 text

Data Strategy and Operation Center 実験結果 16

Slide 18

Slide 18 text

Data Strategy and Operation Center OCR(⽂字検出・⽂字認識) 17 ・ ⽂字領域を⾒つける「⽂字検出」 と何が書かれているか認識する「⽂字認 識」に⼤きく分かれる ・ Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition ・ Shancheng Fang, et al. ・ University of Science and Technology of China ・ CVPR2021 ・ 最近増えてきたTransformerを使った⽂字認識モデル

Slide 19

Slide 19 text

Data Strategy and Operation Center 提案⼿法 18 ・ Autonomous(⾃律的) ・ 従来のモデルでは,視覚/⾔語モデルをカスケードしている場合が多い →モデル同⼠が特徴空間を共有し,暗黙的に⾔語モデルを学習することを期待 ・ 提案⼿法では,視覚モデルには画像,⾔語モデルには⽂字列を⼊⼒ ・ Bidirectional(双⽅向的) ・ 不可読⽂字に対して,左右の可読⽂字から⽂字を推定する ・ BERTのMasked language model的に解くのが妥当。 計算効率が良いBidirectional cloze network (BCN) を提案 ・ Iterative(反復的) ・ ⼀度⽂字に起こして,パターンを考えると読めたりする ・ 認識を反復して確信度を向上させる

Slide 20

Slide 20 text

Data Strategy and Operation Center ネットワークの概要(ABINet) 19

Slide 21

Slide 21 text

Data Strategy and Operation Center Vision Model (VM) Backbone(ResNet+Transfomer)とPosition Attentionで構成 ・ Position Attention module ・ 何番目の文字であるかをスポットする ・ Key直前にMini-Unetを挿⼊した構造

Slide 22

Slide 22 text

Data Strategy and Operation Center Language Model (LM) ・ Transformer Decoderで構成 ・ Query: Position Encodingを並列⼊⼒ ・ Key&Value: VM/Fusionの出⼒ ・ Mask: 対⾓成分をキャンセルするマスク ・ Bidirectional cloze network (BCN) ・ Multi-head Attention & Feed Forward network + residual connection & layer normalization ・ 通常のTransformerとは異なり、⽂字ベクトルはネットワーク の第1層ではなく、 Multi-head Attentionブロックに供給 ・ Attention masksは、「⾃分⾃⾝を⾒てしまう」ことを防ぐよ うに設計されている。 ・ 時間ステップをまたいだリークを防ぐため、 self-attentionは ⾏わない。 ・ 独⽴して並列に計算を⾏うことができる。

Slide 23

Slide 23 text

Data Strategy and Operation Center 項⽬推定 22 ・ ⽂字列がどういう項⽬か推定する ・ 名刺:姓名、住所、肩書きなど ・ レシート:⽇付、合計⾦額など ・ LayoutLMv2: Multi-modal pre-training for visually-rich document understanding ・ Yang Xu, et al. ・ Harbin Institute of Technology, Microsoft Research Asiaなど ・ OCR部分は既存の⼿法を使⽤。OCRで検出された単語やPDF Parserによって得 られたテキストをもとに、⽂書のレイアウトを学習するというモデル。

Slide 24

Slide 24 text

Data Strategy and Operation Center LayoutLM(v1) 23 ・ テキストとレイアウト構造を同時に学習する ・ 事前学習はトークンをランダムにマスクし、2次元位置と⽂脈からマスクされた トークンを予測するようにモデルを学習

Slide 25

Slide 25 text

Data Strategy and Operation Center LayoutLMv2 24 • multi-modal Transformer • Transformerのアーキテクチャを踏襲 • ⼊⼒はテキスト、画像、レイアウト情報の3つ • v1とは違い画像もTransformerに⼊れる • Spatial-Aware Self-Attention • オリジナルのself-attention機構だと⼊⼒トークンと絶対位置の関係を暗黙的に しか捉えられないので相対位置情報を明⽰的にしめす • 位置が近いトークン間ほど⼤きなAttentionになるような⼯夫

Slide 26

Slide 26 text

Data Strategy and Operation Center 事前学習 – 3種類のタスク 26 ・ Masked Visual-Language Model (MVLM) ・ マスクされて⼊⼒されたTextトークンを推定する ・ ⽂章画像のマスクされたトークンに対応する部分もマスクする ・ モデルが近傍のトークンの特徴を捉えるのに有効 ・ 例えば、たくさんの数字に囲まれた表の中のマスクされた部分は、数字である可能性が⾼いと考えられる ・ Text-Image Alignment (TIA) ・ ⽂書画像を⾏単位でカバーし、対応するTextトークンがカバーされているかどうかを判定する 2値分類 ・ これによって、テキストと画像の細かい対応関係が学習されることを期待している ・ ⽂書画像の解像度が低いことを考慮し、単語単位ではなく、⾏単位で実施する ・ Text-Image Matching (TIM) ・ ランダムに⽂書画像全体を別の⽂書に置換して、それを予測するように学習 ・ これによって、テキストと画像の粗い対応関係が学習されることを期待している ・ TIAと連動しており、⽂書画像全体が置換されている場合は、カバーされているとする

Slide 27

Slide 27 text

Data Strategy and Operation Center まとめと今後について 27 ・ 名刺を精度よく読むために必要な技術要素を紹介 ・ いくつかの技術について近年発表された⼿法を紹介 ・ 処理するデータ量が膨⼤なため少しでも認識精度があがるとそれなりに インパクトがある。 ・ 名刺以外の認識タスク(請求書など)、新規事業でもOCRはかなり重要 ・ OCRはこれからも発展していく技術。 ⼀緒に働いていただける⽅を募集中です。