Slide 1

Slide 1 text

CVPR 2023 読み会 ドキュメント/レイアウト祭り 牛久 祥孝 losnuevetoros

Slide 2

Slide 2 text

自己紹介(学職歴) 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~ 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

Slide 3

Slide 3 text

自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 情報・システムソサイエティ 庶務幹事 著作権管理委員会 委員 代議員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)

Slide 4

Slide 4 text

自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 情報・システムソサイエティ 庶務幹事 著作権管理委員会 委員 代議員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)

Slide 5

Slide 5 text

ムーンショット:科学的原理・解法を発見するAI ロボット • 幅広い分野で →マルチディシプリン • 実験を行い – 自ら計画 – 自律的に実行 →研究の主張と実験 • 法則を見つけ出す – 実験結果の解析 – 仮説の検証 →研究の解析と記述&対話 4

Slide 6

Slide 6 text

マイルストーン 5 主張 実験 解析 記述 & 対話 主張 実験 解析 記述 & 対話 2025年 研究を理解するAIサイエンティスト 2030年 科学者と研究するAIサイエンティスト 既存の主張から実験計画と実験 結果の解析、論文全体の記述と の関係を理解 新たな主張を科学者と議論し、 実験を計画・実行して結果を 解析、主張に沿う論文を記述 2023年→研究を理解するAIサイエンティストのFeasibility Study

Slide 7

Slide 7 text

今日のテーマ 研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for parts for another humanoid robot. [SDXL]

Slide 8

Slide 8 text

今日のテーマ 研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for parts for another humanoid robot. [DALL·E] 去年のCVPR読み会のスライド

Slide 9

Slide 9 text

今日のテーマ 研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for parts for another humanoid robot. [SDXL]

Slide 10

Slide 10 text

今日のテーマ 研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for parts for another humanoid robot. [SDXL] テーマが去年のCVPR読み会と 変わってないよ!

Slide 11

Slide 11 text

参考:去年のCVPR読み会で読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation http://bit.ly/3Pdm2za

Slide 12

Slide 12 text

参考:去年のCVPR読み会で読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation http://bit.ly/3Pdm2za 今年は12本をスライド2枚( )ずつで紹介します!

Slide 13

Slide 13 text

レイアウト解析

Slide 14

Slide 14 text

Unifying Vision, Text, and Layout for Universal Document Processing ドキュメント基盤モデルUniversal Document Processing (UDOP) • Transformerベースのエンコーダ・デコーダモデル • 画像パッチ内にあるテキストトークンを足して埋込み • 文書画像自体を生成するデコーダ – MAE [He+, CVPR 2022] から流用 – 文書画像の一部とテキストから残りの文書画像を生成 [Tang+, CVPR 2023]

Slide 15

Slide 15 text

Unifying Vision, Text, and Layout for Universal Document Processing • 事前学習 – テキストはT5-large [Raffel+, JMLR 2020]、画像はMAE-large [He+, CVPR 2022] – IIT-CDIP Test Collection 1.0(1100万スキャン文書)で更に自己教師あり学習 • ダウンストリームタスク – ドキュメント分類、レイアウト解析、情報抽出、質問応答、含意関係性認識 – LayoutLMv3large [Huang+, ACM MM 2022] 等を上回る精度 [Tang+, CVPR 2023]

Slide 16

Slide 16 text

GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction • LayoutLMv3 [Huang+, ACM MM 2022] – 文書解析のSoTA – だが関係性抽出に失敗する(右図) • (a) 位置関係より意味的な関係に依存 • (b) 上側は関係性抽出に成功してるが 下側では失敗 (似たような位置関係なのに) • Relation Extraction (RE) の改善 – Semantic Entity Recognition (SER) は成功している – 幾何学的な関係性3種をモデル化したGeoLayoutLMの提案 • GeoPair: 2つのテキストセグメント間の位置関係 • GeoMPair: 複数のセグメントペア間の位置関係 • GeoTriplet: 3つのテキストセグメント間の位置関係 [Luo+, CVPR 2023]

Slide 17

Slide 17 text

GeoLayoutLM: Geometric Pre-Training for Visual Information Extraction • Geometric Pre-training – CRP: Coarse Relation Prediction • 方向と距離によるGeoPairのモデル – RFE: Relation Feature Enhancement • 要素ペア間の方向の例外を発見する GeoMPairのモデル • FUNSD(フォーム)とCORD(レシート)で実験 – 特にREの精度が改善された [Luo+, CVPR 2023]

Slide 18

Slide 18 text

M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis 実写文書画像によるレイアウト解析M6Doc • Multi-Format スキャン、写真、PDF • Multi-Type 学術記事、教科書、書籍、テスト用紙、雑誌、新聞、メモ • Multi-Layout 矩形、格子状、非格子状、マルチコラム格子状 • Multi-Language 中国語、英語 • Multi-Annotation Category 74種類のラベル • Modern documents [Cheng+, CVPR 2023]

Slide 19

Slide 19 text

M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis • TransDLANet – TransformerによるInstance Sementation 手法のISTR [Hu+, CVPR 2021] がベース – 𝐾回のイテレーションによって改善 • 実験結果 – M6Docでの物体検出精度 – ついでにTransDLANetを他の文書データセットで検出精度評価 [Cheng+, CVPR 2023]

Slide 20

Slide 20 text

レイアウト生成

Slide 21

Slide 21 text

Unifying Layout Generation With a Decoupled Diffusion Model • 拡散モデルによるレイアウト生成 – Layout Diffusion Generative Model (LDGM) – 論文、文書、UIを単一モデルで生成 • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – 欠落した粗いレイアウト ⇔完成レイアウト – 逆拡散過程をレイアウト共通で学習 – 𝑁個の要素の種類、位置と可視性を インクリメンタルにアップデート [Hui+, CVPR 2023]

Slide 22

Slide 22 text

Unifying Layout Generation With a Decoupled Diffusion Model • Magazine (雑誌), Rico (UI), PubLayNet (論文)データセット • それぞれのタスクで提案手法の LDGM(一番右)がSoTA 右図は上から – U-Gen: 条件なし生成 – Gen-T: 要素のタイプだけ指定して生成 – Gen-TS: 要素のタイプとサイズだけ 指定して生成 – Gen-TR: 要素のタイプと位置関係だけ 指定して生成 – Refinement: ガタガタのレイアウトを 直す – Completion: 一部のレイアウトから 全体を復元 [Hui+, CVPR 2023]

Slide 23

Slide 23 text

LayoutDM: Transformer-Based Diffusion Model for Layout Generation • 拡散モデルによるレイアウト生成 – Layout Diffusion Model (LayoutDM) – 論文、文書、UIを単一モデルで生成 • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – ランダムなレイアウト ⇔完成レイアウト – 逆拡散過程をTransformerで学習 – 𝑁個の要素の種類、位置を インクリメンタルにアップデート [Chai+, CVPR 2023]

Slide 24

Slide 24 text

LayoutDM: Transformer-Based Diffusion Model for Layout Generation • Magazine (雑誌), Rico (UI), PubLayNet (論文)データセット • TextLogo3K(テキストロゴ)とCOCO(シーン)も実験 [Chai+, CVPR 2023] 生成されたレイアウトから [Ashual+Wolf, ICCV 2019] で画像を生成

Slide 25

Slide 25 text

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation • 拡散モデルによるレイアウト生成 – Layout Diffusion Model (LayoutDM) – 論文、UIのレイアウトを扱える • 普通の画像生成拡散モデルは – ノイズ画像⇔きれいな画像 • 提案手法は – 欠落した粗いレイアウト ⇔完成レイアウト – 𝑁個の要素の種類、位置と可視性を インクリメンタルにアップデート (右下図:要素が2個あり、最大3個) [Inoue+, CVPR 2023]

Slide 26

Slide 26 text

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation • Rico (UI), PubLayNet (論文)データセット • 他のCVPR 2023の手法と比べて良いの? – 分かりません – 実験条件が統一されていない [Inoue+, CVPR 2023]

Slide 27

Slide 27 text

拡散モデル×レイアウト生成のまとめ • LDGM [Hui+, CVPR 2023] – Vector Quantized Diffusion [Gu+, CVPR 2022] によるmaskの導入 – 実験したレイアウト生成の数は一番多い • LayoutDM [Chai+, CVPR 2023] – Maskの導入なし→要素の数の増減ができない – 一般的なレイアウト生成以外の派生タスクにも取り組んでいる • LayoutDM [Inoue+, CVPR 2023] – Vector Quantized Diffusion [Gu+, CVPR 2022] によるmaskの導入 – 推論速度と精度のトレードオフについての実験にも取り組んでいる

Slide 28

Slide 28 text

LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space Restriction • これまでの研究だと – 条件付きレイアウト生成のパターンを全て 同時に満たす手法が少ない – 制約の柔軟性とレイアウトのクオリティが 両立しない • 提案手法では – 複数の制約を文の形式で入力 – レイアウトも𝑐, 𝑥, 𝑦, 𝑤, ℎを𝑁個分、文の 形式で出力 – TransformerによるEncoder-Decoder – 出力時は制約を活用して刈り込み [Jiang+, CVPR 2023]

Slide 29

Slide 29 text

LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space Restriction • Rico(UI・左図)とPubLayNet(論文・右図)による実験 • 定量的な比較でも有効性を確認 [Jiang+, CVPR 2023]

Slide 30

Slide 30 text

PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout • 「他のレイアウトデータセットはレイヤーの概念がない」 – 他のデータセットでは要素が重複しない – でもグラフィックデザインによっては 重なり合う場合があるよね? – しかも、重要なエリア(商品など)には 重ならないよね? • PKU PosterLayoutデータセット – 1万弱のポスターからなるデータセット 「既存のデータセットよりダイバーシティとバラエティに優れている」 – CGL-GANデータセット [Zhou+, IJCAI 2022] 6万枚のポスターのデータセット – Crello [Yamaguchi, ICCV 2021] 2万枚のcreate.vista.comのグラフィックデータセット [Hsu+, CVPR 2023] 著者 このデータセットは 要素数が10個未満なので簡単 (引用なし)

Slide 31

Slide 31 text

PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout • 提案手法:DS-GAN (Design Sequence GAN) – (a) Generator • 入力:キャンバス画像 • 出力:レイアウト – (b) Discriminator • 入力:キャンバス画像とレイアウト • 出力:真偽 • 実験結果 – SmartText・CGL-GANと比較 – 結論 • 定量評価指標はベターである • 定性的にも不快なオーバーレイを 避けつつ複雑なレイアウトを生成 [Hsu+, CVPR 2023]

Slide 32

Slide 32 text

Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation • GANによるレイアウト生成 • 学習時と推論時のデータにドメインギャップがあるのでは? →ドメインのDiscriminatorつきPDA-GANの提案・CGL-GANと比較 [Xu+, CVPR 2023] 学習時: 完成ポスターの 一部をinpaint したもの 推論時: 製品画像

Slide 33

Slide 33 text

Unsupervised Domain Adaption With Pixel-Level Discriminator for Image-Aware Layout Generation • GANによるレイアウト生成 • 学習時と推論時のデータにドメインギャップがあるのでは? →ドメインのDiscriminatorつきPDA-GANの提案・CGL-GANと比較 [Xu+, CVPR 2023] 学習時: 完成ポスターの 一部をinpaint したもの 推論時: 製品画像 牛久の理解による注釈: このDiscriminatorに対応する GeneratorはLayout Generator ではない! 厳密にはLayout Generatorの 最初の特徴量抽出部分

Slide 34

Slide 34 text

その他

Slide 35

Slide 35 text

Document Image Shadow Removal Guided by Color-Aware Background [Zhang+, CVPR 2023] リアル文書画像からの影除去 • [2]→Shadow Mapを推定して引く [24]→単一背景色と影を推定して引く • 本論文の主張:どちらも影/背景の推定が不正確なので失敗しがち [Bako+, ACCV 2018] [Lin+, CVPR 2020]

Slide 36

Slide 36 text

Document Image Shadow Removal Guided by Color-Aware Background [Zhang+, CVPR 2023] • 影あり・影なしの実画像ペア5000件弱からなる データセットRDDを収集 • 影なし画像から画像の細かい背景をパッチごとに GMMと平滑化で作成 • 背景推定のCBENetと組み合わせてBGShadowNetに よる影除去を学習 • 右下図の様に、影の高精度な除去に成功 元画像 粗い背景 平滑化 元画像 影除去 正解

Slide 37

Slide 37 text

Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution • 改ざんされた文書画像の検出 – Document Tampering Detector (DTD) • 新たなデータセットDocTamperの公開 – 17万件の改ざん文書データ • 提案手法 – Frequency Perception Head (FPH) 周波数領域の活用 – Multi-view Iterative Decoder (MID) 複数スケール特徴の活用 – Curriculum Learning for Tampering Detection (CLTD) 画像圧縮に対する頑健性 +汎化性能 [Qu+, CVPR 2023]

Slide 38

Slide 38 text

Towards Robust Tampered Text Detection in Document Image: New Dataset and New Solution • DocTamperとT-SROIEデータセットで比較 • 定量評価による先行研究との比較および各モジュールのablation study • 定性的な比較は以下の通り [Qu+, CVPR 2023]

Slide 39

Slide 39 text

Towards Flexible Multi-Modal Document Models • FlexDM: フレキシブルなドキュメントモデル(左下) – 種々のベクターグラフィック処理を統一的に実行可能なモデル – レイアウト生成、テキスト/画像/要素の挿入、フォントファミリー・色推定 • Transformerを用いたネットワーク構造(右下) – 要素とその属性に対するmasked field predictionを活用 [Inoue+, CVPR 2023]

Slide 40

Slide 40 text

Towards Flexible Multi-Modal Document Models • Rico(UI)とCrello(グラフィックデザイン)で実験 • 要素の挿入実験(左下) – 赤い点線で囲まれた部分が推定するべきだった要素 • その他のタスクも含めた実験結果(右下) [Inoue+, CVPR 2023]