Slide 1

Slide 1 text

CVPR 2022 読み会 パーツ探し ~ PubTables-1M: Towards comprehensive table extraction from unstructured documents と XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding と V-Doc : Visual questions answers with Documents と Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation は読んだし、 TableFormer: Table Structure Understanding with Transformers と Neural Collaborative Graph Machines for Table Structure Recognition と Revisiting Document Image Dewarping by Grid Regularization と Fourier Document Restoration for Robust Document Dewarping and Recognition は気になったが読まなかった。 牛久 祥孝 losnuevetoros

Slide 2

Slide 2 text

自己紹介(学職歴) 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~ 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

Slide 3

Slide 3 text

自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 パターン認識・メディア理解研究会 専門委員 情報・システムソサイエティ 庶務幹事 著作権管理委員会 委員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ロボット学会 代議員 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)

Slide 4

Slide 4 text

人と融和して知の創造・越境をするAIロボット 3 2025 2027 2030 2040 達成する イノベーション Proof of Concept 査読・追試ができる (思考の理解) 卒業論文がかける (下から上に演繹) 査読付き論文誌等に アクセプトされる (小規模な回遊) Nature/Science級の 論文誌等にアクセプト される (創発と回遊) ノーベル賞級の研究を人とAIロボットが創出 2050

Slide 5

Slide 5 text

査読・追試ができるAIロボットの課題(~2025) 論文を査読・追試できるAIを完成し、実験作業を理解できるロボットを実現 主張:理解 実験:理解と評価 記述&対話:論文の理解 解析:主張と比較 実験手順抽出 実験動作理解・評価 主張収集と新規性等の学習 新 規 性 主張 実験結果と主張の含意関係理解 図表・考察 主張 査読生成と対話的改善 4

Slide 6

Slide 6 text

査読付き論文を人間と生み出せるAIロボットの課題(~2030) 研究者にひらめきを促し、ほぼ自動で研究を遂行できるAIロボットを実現 主張:先読み・行動変容 実験:ほぼ全て自動実行 記述&対話:対話的な論文生成 解析:効果的な解析実行 サイバー空間 実験系自動構築・実行 +対話的改善 フィジカル空間 実験系構築の補助 +自動実行 インパクトの予測 +個々の研究者との適性に応じた提示 学術的インパクトを最大化する説明・図示の選択 自動執筆と 対話的改善 査読理解と 応答文生成 実 現 性 新 規 性 5

Slide 7

Slide 7 text

今日のテーマ 研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for parts for another humanoid robot. [DALL·E]

Slide 8

Slide 8 text

今日読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation

Slide 9

Slide 9 text

今日読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation それぞれスライド3枚( )ずつで紹介!

Slide 10

Slide 10 text

今日読まなかった論文 TableFormer: Table Structure Understanding with Transformers Neural Collaborative Graph Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition

Slide 11

Slide 11 text

今日読まなかった論文 Neural Collaborative Graph Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition TableFormer: Table Structure Understanding with Transformers carnavi さんが第11回全日本コンピュータビジョン 勉強会(前編)で(つまり今日)読んでくださっています

Slide 12

Slide 12 text

今日読まなかった論文 TableFormer: Table Structure Understanding with Transformers. Neural Collaborative Graph Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition 歪んだ表や論文画像の理解を行う研究 →一旦整ったドキュメントを前提とするので割愛します

Slide 13

Slide 13 text

PubTables-1M: Towards comprehensive table extraction from unstructured documents

Slide 14

Slide 14 text

表読解タスクとデータセットについて • 表読解:以前のコンペ [Göbel+, ICDAR’13] では3つのタスクに分類 – Table Detection (TD):表を文書全体から正しく検出 – Table Structure Recognition (TSR):行/列/セル認識 – Functional Analysis (FA):KeyとValueの認識 • 深層学習のためのデータセットも増えたが… – HTMLやXMLとしての教師情報では →位置座標が不明だし更にレイアウト上の関係性も不明 – 加えて、クラウドソーシングだと →oversegmentation(統合されたセルをバラしてしまう)アノテーションが散見される 元々の表 Oversegmentedな表 正準化 (Canonicalization) された表

Slide 15

Slide 15 text

PubTables-1M データセット • PubMed Central Open Access Subset から収集 • 現在最大の比較可能なデータセットの約2倍の大きさ • より豊富なアノテーション情報 – 行と列の位置 – 正準化された構造 • さらに誤差の原因を減らすために – いくつかの品質検証および制御ステップを実装 – Ground Truth の品質について測定可能な保証を提供

Slide 16

Slide 16 text

ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020]

Slide 17

Slide 17 text

ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] DETRの解説はこちら

Slide 18

Slide 18 text

ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] • DETR強い! • 表検出タスクはかなり正確

Slide 19

Slide 19 text

ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] • DETR強い! • 更に… – NC(正準化なし)のデータに よるDETR-NCより – DETRの方が良い!

Slide 20

Slide 20 text

XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding

Slide 21

Slide 21 text

Visually-Rich Document Understanding (VRDU) • 自然言語処理、コンピュータビジョン、文書解析 (ICDARなど) で発表 • 従来のアプローチは – 画像ベース [Soto+Yoo, EMNLP’19][Schreiber+, ICDAR’17][Katti+, EMNLP’18] – テキストベース [Garncarek+, ICDAR’21] – グラフベース [Liu+, NAACL’19] • 例によってTransformerによる手法が増えてきた – SelfDoc [Li+, CVPR’21] – DocFormer [Appalaraju+, ICCV’21] – StructuralLM [Li+, ACL’21] – LayoutLM [Xu+, KDD’20], v2 [Xu+, ACL’21] – LayoutXLM [Xu+, 2021] • ただし、2つの問題がある 1. 読む順が分からないまま処理している 座標の相対的な位置埋め込みだけでは不十分 2. 学習サンプルより長い系列に対応できない

Slide 22

Slide 22 text

XYLayoutLM • LayoutLMv2 [Xu+, ACL’21] の改良版 • 正しい読み順を推定可能なXY Cut [Ha+, ICDAE’95] – OCRで得たテキストボックスを分ける「谷」を発見 – 谷でどんどんボックスを分けていって木を形成 – 分割が終了したら木を上から見て行って読み順を決定 • 種々の長さの系列データを処理できるDilated Conditional Position Encoding – 1次元のテキストも2次元の画像もどちらも対応 – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが… 1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない 2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない – 提案手法 • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決! • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む! • さらに、Receptive Field広げたいからDilated Conv!

Slide 23

Slide 23 text

XYLayoutLM • LayoutLMv2 [Xu+, ACL’21] の改良版 • 正しい読み順を推定可能なXY Cut [Ha+, ICDAE’95] – OCRで得たテキストボックスを分ける「谷」を発見 – 谷でどんどんボックスを分けていって木を形成 – 分割が終了したら木を上から見て行って読み順を決定 • 種々の長さの系列データを処理できるDilated Conditional Position Encoding – 1次元のテキストも2次元の画像もどちらも対応 – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが… 1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない 2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない – 提案手法 • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決! • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む! • さらに、Receptive Field広げたいからDilated Conv! ツッコミどころが多すぎる • “Best viewed in Adobe Acrobat DC” と主張された粗い ラスタ画像によるFig. 2 • Augmented XY Cut って要するに [Ha+, ICDAE’95] を 持ってきただけでは? • Dilated Conditional Position Encodingって • [Chu+, 2021]がViT用に2D畳込みで系列長を揃えたのを • テキスト用に1D畳込みも入れて • Dilationも入れた それだけ?!

Slide 24

Slide 24 text

文書理解実験 • FUNSDデータセット:スキャンした約200点の英語フォーム • XFUNデータセット:英語以外の7か国語による約1400点のフォーム • Semantic Entity Recognition – 各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク • Relation Extraction – 項目とその値になっているトークンペアを抽出するタスク OursがSoTA!

Slide 25

Slide 25 text

文書理解実験 • FUNSDデータセット:スキャンした約200点の英語フォーム • XFUNデータセット:英語以外の7か国語による約1400点のフォーム • Semantic Entity Recognition – 各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク • Relation Extraction – 項目とその値になっているトークンペアを抽出するタスク 更に巨大なモデルで殴る奴には負けるよ! めっちゃAblation Studyしている →面白くないが落としにくい論文

Slide 26

Slide 26 text

V-Doc : Visual questions answers with Documents

Slide 27

Slide 27 text

V-Doc = Document VQAのためのプラットフォーム • Document-VQAが増えてきた – Webサイト [Tanaka+, AAAI’21]、教科書 [Kembhavi, CVPR’17]、スキャンされたフォーム(と言う かさっきのFUNSD)[Guillaume+Thiran, ICDAR WS’2019]、ごちゃ混ぜ[Mathew+, WACV’21] • そもそもVQAめっちゃ研究されている – 一方でそれらを公平に比較するための プラットフォームが無い • 本研究:3つのコンポーネントからなる Document VQAのプラットフォーム – Dataset Storage – Model Storage – Graphical User Interface

Slide 28

Slide 28 text

One more thing: PubVQA Dataset • PubMed Central Open Access Subset から収集(本日2回目) – PDFをpdf2imageで画像化 – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出(下図(a)) – 各項目間の属性や関係性、読み順などをアップデート(下図(b)) – CLEVR Dataset [Johnson+, CVPR’17] と似たノリで テンプレートに基づいて情報抽出、QAを自動生成 オブジェクトの数や位置、有無などを問う質問 →著者らがAbstractive Doc-VQAと呼ぶもの • 補足:FUNSD-QA Dataset – FUNSDは約200点のPDFスキャン のみ – 前述の通り質問、回答、ヘッダ、その他の4クラス ラベルが付いている – 単純にこの分類を問うQAのデータセットを作成 (それはQAと言うより分類のままなのでは…) →著者らがExtractive Doc-VQAと呼ぶもの

Slide 29

Slide 29 text

One more thing: PubVQA Dataset • PubMed Open Access Subset から収集 – PDFをpdf2imageで画像化 – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出(下図(a)) – 各項目間の属性や関係性、読み順などをアップデート(下図(b)) – CLEVR Dataset [Johnson+, CVPR’17] と似たノリで テンプレートに基づいて情報抽出、QAを自動生成 オブジェクトの数や位置、有無などを問う質問 →著者らがAbstractive Doc-VQAと呼ぶもの • 補足:FUNSD-QA Dataset – FUNSDは約200点のPDFスキャン のみ – 前述の通り質問、回答、ヘッダ、その他の4クラス ラベルが付いている – 単純にこの分類を問うQAのデータセットを作成 (それはQAと言うより分類のままなのでは…) →著者らがExtractive Doc-VQAと呼ぶもの 冒頭の図👇👇と、途中~最後までの記述で… Abstractive/Extractiveが入れ替わっているから注意な!

Slide 30

Slide 30 text

UIやベースラインモデル • Web上にUIを構築 – https://github.com/usydnlp/vdoc • ベースラインモデルを用意 • FUNSD-QAでの実験 – BERTとLayoutLMv2 [Xu+, ACL’21] • PubVQAでの実験 – LSTM+CNNとMAC [Hudson+Manning, ICLR’18]

Slide 31

Slide 31 text

Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation

Slide 32

Slide 32 text

画像からのレポート生成 • 画像からのレポート生成について取り組みが増えてきた – 胸部X線画像 [Li+, AAAI’19][Chen+, EMNLP’20][Zhang+, AAAI’20] [Liu+, CVPR’21] – 眼底画像のベンチマークとCNNやTransformerによるベースラインを提供 [Li+, NeurIPS’21] • 本論文でやりたいこと – 医学知識を取り入れた長文キャプション生成みたいな問題に相当 – 👆👆の研究では知識グラフを入れて医学知識を導入 – より賢い医学知識の導入方法をグラフベースで模索したい→本論文

Slide 33

Slide 33 text

提案手法 in a single slide ( )

Slide 34

Slide 34 text

提案手法 in a single slide ( ) フルオレセイン眼底血管造影法 (fundus fluorescein angiography, FFA) による画像

Slide 35

Slide 35 text

提案手法 in a single slide ( ) Kinetics Datasetで学習したI3D [Carreira+Zisserman, CVPR’17] で画像特徴量抽出

Slide 36

Slide 36 text

提案手法 in a single slide ( ) 事前にHuman-in-the-loopに定義した トリプレットに基づくグラフ生成

Slide 37

Slide 37 text

提案手法 in a single slide ( ) 画像特徴量を1本にしたやつ(左上) と 各トリプレットの各単語の表現

Slide 38

Slide 38 text

提案手法 in a single slide ( ) 何単語目か?

Slide 39

Slide 39 text

提案手法 in a single slide ( ) 何文目か?

Slide 40

Slide 40 text

提案手法 in a single slide ( ) よく見るオーソドックスな Transformerエンコーダ

Slide 41

Slide 41 text

提案手法 in a single slide ( ) トリプレット内のみに アテンションを絞る 𝐡𝐡i t = softmax 𝐐𝐐i 𝐊𝐊t d 𝐕𝐕𝑡𝑡

Slide 42

Slide 42 text

提案手法 in a single slide ( ) よく見るオーソドックスな Transformerデコーダ →レポートを自己回帰的に生成

Slide 43

Slide 43 text

提案手法 in a single slide ( ) よく見るオーソドックスな Transformerデコーダ →レポートを自己回帰的に生成

Slide 44

Slide 44 text

提案手法 in a single slide ( ) ふう、スライド一枚で説明できたぞ

Slide 45

Slide 45 text

実際にレポートを生成してみたよ • データセット:FFA-IR [Li+, NeurIPS’21] – 約100万のFFA画像に対する約1万のレポート – レポートは2か国語 – 病変部位に対する約1万2千のバウンディングボックス • 定量的な結果 – キャプション生成手法:[16]から[28]の行まで – レポート生成手法:[9]と[21](正確には[Chen+, EMNLP’20][Li+, NeurIPS’21])

Slide 46

Slide 46 text

まとめ • ムーンショットのAI用パーツ探し A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張 実験 解析 記述 & 対話

Slide 47

Slide 47 text

まとめ • ムーンショットのAI用パーツ探し A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張 実験 解析 記述 & 対話 より賢くなった ③Doc-VQA ④レポート生成 ①表読解 ②文書構造理解

Slide 48

Slide 48 text

まとめ • ムーンショットのAI用パーツ探し • クオリティは度外視してテーマのみで 読む論文を選択 – 今回の論文が初というタスクは無い – 手堅い実験によって採録に結び付けている A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張 実験 解析 記述 & 対話

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

来年のCVPRでは読まれる側に回りたいという人は メンターシッププログラム@CVPR 2023まで!