Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ドキュメント/レイアウト祭り

 ドキュメント/レイアウト祭り

CVPR 2023で発表された、ドキュメント/レイアウト周りの論文
- Unifying Vision, Text, and Layout for Universal Document Processing
- GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction
- M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis
- Unifying Layout Generation With a Decoupled Diffusion Model
- LayoutDM: Transformer-Based Diffusion Model for Layout Generation
- LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
- LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space Restriction
- PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout
- Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation
- Document Image Shadow Removal Guided by Color-Aware Background
- Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution
- Towards Flexible Multi-Modal Document Models

を、第59回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/288902/
で広く浅く読みました。

ドキュメント文書の理解とか生成とかに興味のある方のお役に立てれば幸いです。

Yoshitaka Ushiku

August 26, 2023
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Transcript

  1. 自己紹介(学職歴) 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研

    研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~ 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.
  2. 自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 情報・システムソサイエティ 庶務幹事 著作権管理委員会

    委員 代議員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)
  3. 自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 情報・システムソサイエティ 庶務幹事 著作権管理委員会

    委員 代議員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)
  4. ムーンショット:科学的原理・解法を発見するAI ロボット • 幅広い分野で →マルチディシプリン • 実験を行い – 自ら計画 –

    自律的に実行 →研究の主張と実験 • 法則を見つけ出す – 実験結果の解析 – 仮説の検証 →研究の解析と記述&対話 4
  5. マイルストーン 5 主張 実験 解析 記述 & 対話 主張 実験

    解析 記述 & 対話 2025年 研究を理解するAIサイエンティスト 2030年 科学者と研究するAIサイエンティスト 既存の主張から実験計画と実験 結果の解析、論文全体の記述と の関係を理解 新たな主張を科学者と議論し、 実験を計画・実行して結果を 解析、主張に沿う論文を記述 2023年→研究を理解するAIサイエンティストのFeasibility Study
  6. 今日のテーマ 研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for

    parts for another humanoid robot. [SDXL] テーマが去年のCVPR読み会と 変わってないよ!
  7. 参考:去年のCVPR読み会で読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:

    Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation http://bit.ly/3Pdm2za
  8. 参考:去年のCVPR読み会で読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:

    Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation http://bit.ly/3Pdm2za 今年は12本をスライド2枚( )ずつで紹介します!
  9. Unifying Vision, Text, and Layout for Universal Document Processing ドキュメント基盤モデルUniversal

    Document Processing (UDOP) • Transformerベースのエンコーダ・デコーダモデル • 画像パッチ内にあるテキストトークンを足して埋込み • 文書画像自体を生成するデコーダ – MAE [He+, CVPR 2022] から流用 – 文書画像の一部とテキストから残りの文書画像を生成 [Tang+, CVPR 2023]
  10. Unifying Vision, Text, and Layout for Universal Document Processing •

    事前学習 – テキストはT5-large [Raffel+, JMLR 2020]、画像はMAE-large [He+, CVPR 2022] – IIT-CDIP Test Collection 1.0(1100万スキャン文書)で更に自己教師あり学習 • ダウンストリームタスク – ドキュメント分類、レイアウト解析、情報抽出、質問応答、含意関係性認識 – LayoutLMv3large [Huang+, ACM MM 2022] 等を上回る精度 [Tang+, CVPR 2023]
  11. GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction • LayoutLMv3 [Huang+,

    ACM MM 2022] – 文書解析のSoTA – だが関係性抽出に失敗する(右図) • (a) 位置関係より意味的な関係に依存 • (b) 上側は関係性抽出に成功してるが 下側では失敗 (似たような位置関係なのに) • Relation Extraction (RE) の改善 – Semantic Entity Recognition (SER) は成功している – 幾何学的な関係性3種をモデル化したGeoLayoutLMの提案 • GeoPair: 2つのテキストセグメント間の位置関係 • GeoMPair: 複数のセグメントペア間の位置関係 • GeoTriplet: 3つのテキストセグメント間の位置関係 [Luo+, CVPR 2023]
  12. GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction • Geometric Pre-training

    – CRP: Coarse Relation Prediction • 方向と距離によるGeoPairのモデル – RFE: Relation Feature Enhancement • 要素ペア間の方向の例外を発見する GeoMPairのモデル • FUNSD(フォーム)とCORD(レシート)で実験 – 特にREの精度が改善された [Luo+, CVPR 2023]
  13. M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset

    for Modern Document Layout Analysis 実写文書画像によるレイアウト解析M6Doc • Multi-Format スキャン、写真、PDF • Multi-Type 学術記事、教科書、書籍、テスト用紙、雑誌、新聞、メモ • Multi-Layout 矩形、格子状、非格子状、マルチコラム格子状 • Multi-Language 中国語、英語 • Multi-Annotation Category 74種類のラベル • Modern documents [Cheng+, CVPR 2023]
  14. M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset

    for Modern Document Layout Analysis • TransDLANet – TransformerによるInstance Sementation 手法のISTR [Hu+, CVPR 2021] がベース – 𝐾回のイテレーションによって改善 • 実験結果 – M6Docでの物体検出精度 – ついでにTransDLANetを他の文書データセットで検出精度評価 [Cheng+, CVPR 2023]
  15. Unifying Layout Generation With a Decoupled Diffusion Model • 拡散モデルによるレイアウト生成

    – Layout Diffusion Generative Model (LDGM) – 論文、文書、UIを単一モデルで生成 • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – 欠落した粗いレイアウト ⇔完成レイアウト – 逆拡散過程をレイアウト共通で学習 – 𝑁個の要素の種類、位置と可視性を インクリメンタルにアップデート [Hui+, CVPR 2023]
  16. Unifying Layout Generation With a Decoupled Diffusion Model • Magazine

    (雑誌), Rico (UI), PubLayNet (論文)データセット • それぞれのタスクで提案手法の LDGM(一番右)がSoTA 右図は上から – U-Gen: 条件なし生成 – Gen-T: 要素のタイプだけ指定して生成 – Gen-TS: 要素のタイプとサイズだけ 指定して生成 – Gen-TR: 要素のタイプと位置関係だけ 指定して生成 – Refinement: ガタガタのレイアウトを 直す – Completion: 一部のレイアウトから 全体を復元 [Hui+, CVPR 2023]
  17. LayoutDM: Transformer-Based Diffusion Model for Layout Generation • 拡散モデルによるレイアウト生成 –

    Layout Diffusion Model (LayoutDM) – 論文、文書、UIを単一モデルで生成 • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – ランダムなレイアウト ⇔完成レイアウト – 逆拡散過程をTransformerで学習 – 𝑁個の要素の種類、位置を インクリメンタルにアップデート [Chai+, CVPR 2023]
  18. LayoutDM: Transformer-Based Diffusion Model for Layout Generation • Magazine (雑誌),

    Rico (UI), PubLayNet (論文)データセット • TextLogo3K(テキストロゴ)とCOCO(シーン)も実験 [Chai+, CVPR 2023] 生成されたレイアウトから [Ashual+Wolf, ICCV 2019] で画像を生成
  19. LayoutDM: Discrete Diffusion Model for Controllable Layout Generation • 拡散モデルによるレイアウト生成

    – Layout Diffusion Model (LayoutDM) – 論文、UIのレイアウトを扱える • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – 欠落した粗いレイアウト ⇔完成レイアウト – 𝑁個の要素の種類、位置と可視性を インクリメンタルにアップデート (右下図:要素が2個あり、最大3個) [Inoue+, CVPR 2023]
  20. LayoutDM: Discrete Diffusion Model for Controllable Layout Generation • Rico

    (UI), PubLayNet (論文)データセット • 他のCVPR 2023の手法と比べて良いの? – 分かりません – 実験条件が統一されていない [Inoue+, CVPR 2023]
  21. 拡散モデル×レイアウト生成のまとめ • LDGM [Hui+, CVPR 2023] – Vector Quantized Diffusion

    [Gu+, CVPR 2022] によるmaskの導入 – 実験したレイアウト生成の数は一番多い • LayoutDM [Chai+, CVPR 2023] – Maskの導入なし→要素の数の増減ができない – 一般的なレイアウト生成以外の派生タスクにも取り組んでいる • LayoutDM [Inoue+, CVPR 2023] – Vector Quantized Diffusion [Gu+, CVPR 2022] によるmaskの導入 – 推論速度と精度のトレードオフについての実験にも取り組んでいる
  22. LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding

    Space Restriction • これまでの研究だと – 条件付きレイアウト生成のパターンを全て 同時に満たす手法が少ない – 制約の柔軟性とレイアウトのクオリティが 両立しない • 提案手法では – 複数の制約を文の形式で入力 – レイアウトも𝑐, 𝑥, 𝑦, 𝑤, ℎを𝑁個分、文の 形式で出力 – TransformerによるEncoder-Decoder – 出力時は制約を活用して刈り込み [Jiang+, CVPR 2023]
  23. LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding

    Space Restriction • Rico(UI・左図)とPubLayNet(論文・右図)による実験 • 定量的な比較でも有効性を確認 [Jiang+, CVPR 2023]
  24. PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation

    Layout • 「他のレイアウトデータセットはレイヤーの概念がない」 – 他のデータセットでは要素が重複しない – でもグラフィックデザインによっては 重なり合う場合があるよね? – しかも、重要なエリア(商品など)には 重ならないよね? • PKU PosterLayoutデータセット – 1万弱のポスターからなるデータセット 「既存のデータセットよりダイバーシティとバラエティに優れている」 – CGL-GANデータセット [Zhou+, IJCAI 2022] 6万枚のポスターのデータセット – Crello [Yamaguchi, ICCV 2021] 2万枚のcreate.vista.comのグラフィックデータセット [Hsu+, CVPR 2023] 著者 このデータセットは 要素数が10個未満なので簡単 (引用なし)
  25. PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation

    Layout • 提案手法:DS-GAN (Design Sequence GAN) – (a) Generator • 入力:キャンバス画像 • 出力:レイアウト – (b) Discriminator • 入力:キャンバス画像とレイアウト • 出力:真偽 • 実験結果 – SmartText・CGL-GANと比較 – 結論 • 定量評価指標はベターである • 定性的にも不快なオーバーレイを 避けつつ複雑なレイアウトを生成 [Hsu+, CVPR 2023]
  26. Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation

    • GANによるレイアウト生成 • 学習時と推論時のデータにドメインギャップがあるのでは? →ドメインのDiscriminatorつきPDA-GANの提案・CGL-GANと比較 [Xu+, CVPR 2023] 学習時: 完成ポスターの 一部をinpaint したもの 推論時: 製品画像
  27. Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation

    • GANによるレイアウト生成 • 学習時と推論時のデータにドメインギャップがあるのでは? →ドメインのDiscriminatorつきPDA-GANの提案・CGL-GANと比較 [Xu+, CVPR 2023] 学習時: 完成ポスターの 一部をinpaint したもの 推論時: 製品画像 牛久の理解による注釈: このDiscriminatorに対応する GeneratorはLayout Generator ではない! 厳密にはLayout Generatorの 最初の特徴量抽出部分
  28. Document Image Shadow Removal Guided by Color-Aware Background [Zhang+, CVPR

    2023] リアル文書画像からの影除去 • [2]→Shadow Mapを推定して引く [24]→単一背景色と影を推定して引く • 本論文の主張:どちらも影/背景の推定が不正確なので失敗しがち [Bako+, ACCV 2018] [Lin+, CVPR 2020]
  29. Document Image Shadow Removal Guided by Color-Aware Background [Zhang+, CVPR

    2023] • 影あり・影なしの実画像ペア5000件弱からなる データセットRDDを収集 • 影なし画像から画像の細かい背景をパッチごとに GMMと平滑化で作成 • 背景推定のCBENetと組み合わせてBGShadowNetに よる影除去を学習 • 右下図の様に、影の高精度な除去に成功 元画像 粗い背景 平滑化 元画像 影除去 正解
  30. Towards Robust Tampered Text Detection in Document Image: New Dataset

    and New Solution • 改ざんされた文書画像の検出 – Document Tampering Detector (DTD) • 新たなデータセットDocTamperの公開 – 17万件の改ざん文書データ • 提案手法 – Frequency Perception Head (FPH) 周波数領域の活用 – Multi-view Iterative Decoder (MID) 複数スケール特徴の活用 – Curriculum Learning for Tampering Detection (CLTD) 画像圧縮に対する頑健性 +汎化性能 [Qu+, CVPR 2023]
  31. Towards Robust Tampered Text Detection in Document Image: New Dataset

    and New Solution • DocTamperとT-SROIEデータセットで比較 • 定量評価による先行研究との比較および各モジュールのablation study • 定性的な比較は以下の通り [Qu+, CVPR 2023]
  32. Towards Flexible Multi-Modal Document Models • FlexDM: フレキシブルなドキュメントモデル(左下) – 種々のベクターグラフィック処理を統一的に実行可能なモデル

    – レイアウト生成、テキスト/画像/要素の挿入、フォントファミリー・色推定 • Transformerを用いたネットワーク構造(右下) – 要素とその属性に対するmasked field predictionを活用 [Inoue+, CVPR 2023]
  33. Towards Flexible Multi-Modal Document Models • Rico(UI)とCrello(グラフィックデザイン)で実験 • 要素の挿入実験(左下) –

    赤い点線で囲まれた部分が推定するべきだった要素 • その他のタスクも含めた実験結果(右下) [Inoue+, CVPR 2023]