ドキュメント/レイアウト祭り

CVPR 2023 読み会ドキュメント/レイアウト祭り牛久祥孝 losnuevetoros

自己紹介（学職歴） 2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研
研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2020.4～津田塾大学非常勤講師 2021.7～東北大学非常勤講師 2022.1～合同会社ナインブルズ代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

自己紹介（その他）主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会一般会員コンピュータビジョン勉強会＠関東幹事電子情報通信学会情報・システムソサイエティ庶務幹事著作権管理委員会
委員代議員人工知能学会論文誌編集委員会編集委員建築情報学会理事日本ディープラーニング協会有識者会員共立出版コンピュータビジョン最前線編集主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot（PM:牛久祥孝） 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業（代表:長藤圭介） 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I（代表:牛久祥孝） 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)（代表:内田誠一）

ムーンショット：科学的原理・解法を発見するAI ロボット • 幅広い分野で →マルチディシプリン • 実験を行い – 自ら計画 –
自律的に実行 →研究の主張と実験 • 法則を見つけ出す – 実験結果の解析 – 仮説の検証 →研究の解析と記述＆対話 4

マイルストーン 5 主張実験解析記述＆対話主張実験
解析記述＆対話 2025年研究を理解するAIサイエンティスト 2030年科学者と研究するAIサイエンティスト既存の主張から実験計画と実験結果の解析、論文全体の記述との関係を理解新たな主張を科学者と議論し、実験を計画・実行して結果を解析、主張に沿う論文を記述 2023年→研究を理解するAIサイエンティストのFeasibility Study

今日のテーマ研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for
parts for another humanoid robot. [SDXL]

parts for another humanoid robot. [DALL·E] 去年のCVPR読み会のスライド

parts for another humanoid robot. [SDXL]

parts for another humanoid robot. [SDXL] テーマが去年のCVPR読み会と変わってないよ！

参考：去年のCVPR読み会で読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:
Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation http://bit.ly/3Pdm2za

参考：去年のCVPR読み会で読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:
Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation http://bit.ly/3Pdm2za 今年は12本をスライド2枚( )ずつで紹介します！

レイアウト解析

Unifying Vision, Text, and Layout for Universal Document Processing ドキュメント基盤モデルUniversal
Document Processing (UDOP) • Transformerベースのエンコーダ・デコーダモデル • 画像パッチ内にあるテキストトークンを足して埋込み • 文書画像自体を生成するデコーダ – MAE [He+, CVPR 2022] から流用 – 文書画像の一部とテキストから残りの文書画像を生成 [Tang+, CVPR 2023]

Unifying Vision, Text, and Layout for Universal Document Processing •
事前学習 – テキストはT5-large [Raffel+, JMLR 2020]、画像はMAE-large [He+, CVPR 2022] – IIT-CDIP Test Collection 1.0（1100万スキャン文書）で更に自己教師あり学習 • ダウンストリームタスク – ドキュメント分類、レイアウト解析、情報抽出、質問応答、含意関係性認識 – LayoutLMv3large [Huang+, ACM MM 2022] 等を上回る精度 [Tang+, CVPR 2023]

GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction • LayoutLMv3 [Huang+,
ACM MM 2022] – 文書解析のSoTA – だが関係性抽出に失敗する（右図） • (a) 位置関係より意味的な関係に依存 • (b) 上側は関係性抽出に成功してるが下側では失敗（似たような位置関係なのに） • Relation Extraction (RE) の改善 – Semantic Entity Recognition (SER) は成功している – 幾何学的な関係性3種をモデル化したGeoLayoutLMの提案 • GeoPair: 2つのテキストセグメント間の位置関係 • GeoMPair: 複数のセグメントペア間の位置関係 • GeoTriplet: 3つのテキストセグメント間の位置関係 [Luo+, CVPR 2023]

GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction • Geometric Pre-training
– CRP: Coarse Relation Prediction • 方向と距離によるGeoPairのモデル – RFE: Relation Feature Enhancement • 要素ペア間の方向の例外を発見する GeoMPairのモデル • FUNSD（フォーム）とCORD（レシート）で実験 – 特にREの精度が改善された [Luo+, CVPR 2023]

M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset
for Modern Document Layout Analysis 実写文書画像によるレイアウト解析M6Doc • Multi-Format スキャン、写真、PDF • Multi-Type 学術記事、教科書、書籍、テスト用紙、雑誌、新聞、メモ • Multi-Layout 矩形、格子状、非格子状、マルチコラム格子状 • Multi-Language 中国語、英語 • Multi-Annotation Category 74種類のラベル • Modern documents [Cheng+, CVPR 2023]

M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset
for Modern Document Layout Analysis • TransDLANet – TransformerによるInstance Sementation 手法のISTR [Hu+, CVPR 2021] がベース – 𝐾回のイテレーションによって改善 • 実験結果 – M6Docでの物体検出精度 – ついでにTransDLANetを他の文書データセットで検出精度評価 [Cheng+, CVPR 2023]

レイアウト生成

Unifying Layout Generation With a Decoupled Diffusion Model • 拡散モデルによるレイアウト生成
– Layout Diffusion Generative Model (LDGM) – 論文、文書、UIを単一モデルで生成 • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – 欠落した粗いレイアウト ⇔完成レイアウト – 逆拡散過程をレイアウト共通で学習 – 𝑁個の要素の種類、位置と可視性をインクリメンタルにアップデート [Hui+, CVPR 2023]

Unifying Layout Generation With a Decoupled Diffusion Model • Magazine
(雑誌), Rico (UI), PubLayNet (論文)データセット • それぞれのタスクで提案手法の LDGM（一番右）がSoTA 右図は上から – U-Gen: 条件なし生成 – Gen-T: 要素のタイプだけ指定して生成 – Gen-TS: 要素のタイプとサイズだけ指定して生成 – Gen-TR: 要素のタイプと位置関係だけ指定して生成 – Refinement: ガタガタのレイアウトを直す – Completion: 一部のレイアウトから全体を復元 [Hui+, CVPR 2023]

LayoutDM: Transformer-Based Diffusion Model for Layout Generation • 拡散モデルによるレイアウト生成 –
Layout Diffusion Model (LayoutDM) – 論文、文書、UIを単一モデルで生成 • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – ランダムなレイアウト ⇔完成レイアウト – 逆拡散過程をTransformerで学習 – 𝑁個の要素の種類、位置をインクリメンタルにアップデート [Chai+, CVPR 2023]

LayoutDM: Transformer-Based Diffusion Model for Layout Generation • Magazine (雑誌),
Rico (UI), PubLayNet (論文)データセット • TextLogo3K（テキストロゴ）とCOCO（シーン）も実験 [Chai+, CVPR 2023] 生成されたレイアウトから [Ashual+Wolf, ICCV 2019] で画像を生成

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation • 拡散モデルによるレイアウト生成
– Layout Diffusion Model (LayoutDM) – 論文、UIのレイアウトを扱える • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – 欠落した粗いレイアウト ⇔完成レイアウト – 𝑁個の要素の種類、位置と可視性をインクリメンタルにアップデート（右下図：要素が2個あり、最大3個） [Inoue+, CVPR 2023]

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation • Rico
(UI), PubLayNet (論文)データセット • 他のCVPR 2023の手法と比べて良いの？ – 分かりません – 実験条件が統一されていない [Inoue+, CVPR 2023]

拡散モデル×レイアウト生成のまとめ • LDGM [Hui+, CVPR 2023] – Vector Quantized Diffusion
[Gu+, CVPR 2022] によるmaskの導入 – 実験したレイアウト生成の数は一番多い • LayoutDM [Chai+, CVPR 2023] – Maskの導入なし→要素の数の増減ができない – 一般的なレイアウト生成以外の派生タスクにも取り組んでいる • LayoutDM [Inoue+, CVPR 2023] – Vector Quantized Diffusion [Gu+, CVPR 2022] によるmaskの導入 – 推論速度と精度のトレードオフについての実験にも取り組んでいる

LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding
Space Restriction • これまでの研究だと – 条件付きレイアウト生成のパターンを全て同時に満たす手法が少ない – 制約の柔軟性とレイアウトのクオリティが両立しない • 提案手法では – 複数の制約を文の形式で入力 – レイアウトも𝑐, 𝑥, 𝑦, 𝑤, ℎを𝑁個分、文の形式で出力 – TransformerによるEncoder-Decoder – 出力時は制約を活用して刈り込み [Jiang+, CVPR 2023]

LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding
Space Restriction • Rico（UI・左図）とPubLayNet（論文・右図）による実験 • 定量的な比較でも有効性を確認 [Jiang+, CVPR 2023]

PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation
Layout • 「他のレイアウトデータセットはレイヤーの概念がない」 – 他のデータセットでは要素が重複しない – でもグラフィックデザインによっては重なり合う場合があるよね？ – しかも、重要なエリア（商品など）には重ならないよね？ • PKU PosterLayoutデータセット – 1万弱のポスターからなるデータセット「既存のデータセットよりダイバーシティとバラエティに優れている」 – CGL-GANデータセット [Zhou+, IJCAI 2022] 6万枚のポスターのデータセット – Crello [Yamaguchi, ICCV 2021] 2万枚のcreate.vista.comのグラフィックデータセット [Hsu+, CVPR 2023] 著者このデータセットは要素数が10個未満なので簡単（引用なし）

PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation
Layout • 提案手法：DS-GAN (Design Sequence GAN) – (a) Generator • 入力：キャンバス画像 • 出力：レイアウト – (b) Discriminator • 入力：キャンバス画像とレイアウト • 出力：真偽 • 実験結果 – SmartText・CGL-GANと比較 – 結論 • 定量評価指標はベターである • 定性的にも不快なオーバーレイを避けつつ複雑なレイアウトを生成 [Hsu+, CVPR 2023]

Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation
• GANによるレイアウト生成 • 学習時と推論時のデータにドメインギャップがあるのでは？ →ドメインのDiscriminatorつきPDA-GANの提案・CGL-GANと比較 [Xu+, CVPR 2023] 学習時：完成ポスターの一部をinpaint したもの推論時：製品画像

Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation
• GANによるレイアウト生成 • 学習時と推論時のデータにドメインギャップがあるのでは？ →ドメインのDiscriminatorつきPDA-GANの提案・CGL-GANと比較 [Xu+, CVPR 2023] 学習時：完成ポスターの一部をinpaint したもの推論時：製品画像牛久の理解による注釈：このDiscriminatorに対応する GeneratorはLayout Generator ではない！厳密にはLayout Generatorの最初の特徴量抽出部分

その他

Document Image Shadow Removal Guided by Color-Aware Background [Zhang+, CVPR
2023] リアル文書画像からの影除去 • [2]→Shadow Mapを推定して引く [24]→単一背景色と影を推定して引く • 本論文の主張：どちらも影/背景の推定が不正確なので失敗しがち [Bako+, ACCV 2018] [Lin+, CVPR 2020]

Document Image Shadow Removal Guided by Color-Aware Background [Zhang+, CVPR
2023] • 影あり・影なしの実画像ペア5000件弱からなるデータセットRDDを収集 • 影なし画像から画像の細かい背景をパッチごとに GMMと平滑化で作成 • 背景推定のCBENetと組み合わせてBGShadowNetによる影除去を学習 • 右下図の様に、影の高精度な除去に成功元画像粗い背景平滑化元画像影除去正解

Towards Robust Tampered Text Detection in Document Image: New Dataset
and New Solution • 改ざんされた文書画像の検出 – Document Tampering Detector (DTD) • 新たなデータセットDocTamperの公開 – 17万件の改ざん文書データ • 提案手法 – Frequency Perception Head (FPH) 周波数領域の活用 – Multi-view Iterative Decoder (MID) 複数スケール特徴の活用 – Curriculum Learning for Tampering Detection (CLTD) 画像圧縮に対する頑健性＋汎化性能 [Qu+, CVPR 2023]

Towards Robust Tampered Text Detection in Document Image: New Dataset
and New Solution • DocTamperとT-SROIEデータセットで比較 • 定量評価による先行研究との比較および各モジュールのablation study • 定性的な比較は以下の通り [Qu+, CVPR 2023]

Towards Flexible Multi-Modal Document Models • FlexDM: フレキシブルなドキュメントモデル（左下） – 種々のベクターグラフィック処理を統一的に実行可能なモデル
– レイアウト生成、テキスト/画像/要素の挿入、フォントファミリー・色推定 • Transformerを用いたネットワーク構造（右下） – 要素とその属性に対するmasked field predictionを活用 [Inoue+, CVPR 2023]

Towards Flexible Multi-Modal Document Models • Rico（UI）とCrello（グラフィックデザイン）で実験 • 要素の挿入実験（左下） –
赤い点線で囲まれた部分が推定するべきだった要素 • その他のタスクも含めた実験結果（右下） [Inoue+, CVPR 2023]

ドキュメント/レイアウト祭り

ドキュメント/レイアウト祭り

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Featured

Transcript