パーツ探し

CVPR 2022 読み会パーツ探し～ PubTables-1M: Towards comprehensive table extraction
from unstructured documents と XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding と V-Doc : Visual questions answers with Documents と Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation は読んだし、 TableFormer: Table Structure Understanding with Transformers と Neural Collaborative Graph Machines for Table Structure Recognition と Revisiting Document Image Dewarping by Grid Regularization と Fourier Document Restoration for Robust Document Dewarping and Recognition は気になったが読まなかった。牛久祥孝 losnuevetoros

自己紹介（学職歴） 2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研
研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2020.4～津田塾大学非常勤講師 2021.7～東北大学非常勤講師 2022.1～合同会社ナインブルズ代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

自己紹介（その他）主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会一般会員コンピュータビジョン勉強会＠関東幹事電子情報通信学会パターン認識・メディア理解研究会専門委員情報・システムソサイエティ
庶務幹事著作権管理委員会委員人工知能学会論文誌編集委員会編集委員建築情報学会理事日本ロボット学会代議員日本ディープラーニング協会有識者会員共立出版コンピュータビジョン最前線編集主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot（PM:牛久祥孝） 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業（代表:長藤圭介） 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I（代表:牛久祥孝） 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)（代表:内田誠一）

人と融和して知の創造・越境をするAIロボット 3 2025 2027 2030 2040 達成するイノベーション Proof of
Concept 査読・追試ができる（思考の理解）卒業論文がかける（下から上に演繹）査読付き論文誌等にアクセプトされる（小規模な回遊） Nature/Science級の論文誌等にアクセプトされる（創発と回遊）ノーベル賞級の研究を人とAIロボットが創出 2050

査読・追試ができるAIロボットの課題（～2025）論文を査読・追試できるAIを完成し、実験作業を理解できるロボットを実現主張：理解実験：理解と評価記述＆対話：論文の理解解析：主張と比較実験手順抽出実験動作理解・評価主張収集と新規性等の学習新
規性主張実験結果と主張の含意関係理解図表・考察主張査読生成と対話的改善 4

査読付き論文を人間と生み出せるAIロボットの課題（～2030）研究者にひらめきを促し、ほぼ自動で研究を遂行できるAIロボットを実現主張：先読み・行動変容実験：ほぼ全て自動実行記述＆対話：対話的な論文生成解析：効果的な解析実行サイバー空間実験系自動構築・実行＋対話的改善フィジカル空間
実験系構築の補助＋自動実行インパクトの予測＋個々の研究者との適性に応じた提示学術的インパクトを最大化する説明・図示の選択自動執筆と対話的改善査読理解と応答文生成実現性新規性 5

今日のテーマ研究を一緒にやってくれるAIロボットのパーツ探し Japanese colored comic of a girl looking for
parts for another humanoid robot. [DALL·E]

今日読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:
Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation

今日読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:
Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation それぞれスライド3枚( )ずつで紹介！

今日読まなかった論文 TableFormer: Table Structure Understanding with Transformers Neural Collaborative Graph
Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition

今日読まなかった論文 Neural Collaborative Graph Machines for Table Structure Recognition Revisiting
Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition TableFormer: Table Structure Understanding with Transformers carnavi さんが第11回全日本コンピュータビジョン勉強会（前編）で（つまり今日）読んでくださっています

今日読まなかった論文 TableFormer: Table Structure Understanding with Transformers. Neural Collaborative Graph
Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition 歪んだ表や論文画像の理解を行う研究 →一旦整ったドキュメントを前提とするので割愛します

PubTables-1M: Towards comprehensive table extraction from unstructured documents

表読解タスクとデータセットについて • 表読解：以前のコンペ [Göbel+, ICDAR’13] では3つのタスクに分類 – Table Detection (TD)：表を文書全体から正しく検出
– Table Structure Recognition (TSR)：行/列/セル認識 – Functional Analysis (FA)：KeyとValueの認識 • 深層学習のためのデータセットも増えたが… – HTMLやXMLとしての教師情報では →位置座標が不明だし更にレイアウト上の関係性も不明 – 加えて、クラウドソーシングだと →oversegmentation（統合されたセルをバラしてしまう）アノテーションが散見される元々の表 Oversegmentedな表正準化 (Canonicalization) された表

PubTables-1M データセット • PubMed Central Open Access Subset から収集 •
現在最大の比較可能なデータセットの約2倍の大きさ • より豊富なアノテーション情報 – 行と列の位置 – 正準化された構造 • さらに誤差の原因を減らすために – いくつかの品質検証および制御ステップを実装 – Ground Truth の品質について測定可能な保証を提供

ベースラインによる実験とデータセット品質の検証 • ベースライン： Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+,
ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020]

ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] DETRの解説はこちら

ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] • DETR強い！ • 表検出タスクはかなり正確

ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] • DETR強い！ • 更に… – NC（正準化なし）のデータによるDETR-NCより – DETRの方が良い！

XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding

Visually-Rich Document Understanding (VRDU) • 自然言語処理、コンピュータビジョン、文書解析 (ICDARなど) で発表 • 従来のアプローチは
– 画像ベース [Soto+Yoo, EMNLP’19][Schreiber+, ICDAR’17][Katti+, EMNLP’18] – テキストベース [Garncarek+, ICDAR’21] – グラフベース [Liu+, NAACL’19] • 例によってTransformerによる手法が増えてきた – SelfDoc [Li+, CVPR’21] – DocFormer [Appalaraju+, ICCV’21] – StructuralLM [Li+, ACL’21] – LayoutLM [Xu+, KDD’20], v2 [Xu+, ACL’21] – LayoutXLM [Xu+, 2021] • ただし、2つの問題がある 1. 読む順が分からないまま処理している座標の相対的な位置埋め込みだけでは不十分 2. 学習サンプルより長い系列に対応できない

XYLayoutLM • LayoutLMv2 [Xu+, ACL’21] の改良版 • 正しい読み順を推定可能なXY Cut [Ha+,
ICDAE’95] – OCRで得たテキストボックスを分ける「谷」を発見 – 谷でどんどんボックスを分けていって木を形成 – 分割が終了したら木を上から見て行って読み順を決定 • 種々の長さの系列データを処理できるDilated Conditional Position Encoding – 1次元のテキストも2次元の画像もどちらも対応 – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが… 1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない 2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない – 提案手法 • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決！ • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む！ • さらに、Receptive Field広げたいからDilated Conv！

XYLayoutLM • LayoutLMv2 [Xu+, ACL’21] の改良版 • 正しい読み順を推定可能なXY Cut [Ha+,
ICDAE’95] – OCRで得たテキストボックスを分ける「谷」を発見 – 谷でどんどんボックスを分けていって木を形成 – 分割が終了したら木を上から見て行って読み順を決定 • 種々の長さの系列データを処理できるDilated Conditional Position Encoding – 1次元のテキストも2次元の画像もどちらも対応 – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが… 1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない 2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない – 提案手法 • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決！ • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む！ • さらに、Receptive Field広げたいからDilated Conv！ツッコミどころが多すぎる • “Best viewed in Adobe Acrobat DC” と主張された粗いラスタ画像によるFig. 2 • Augmented XY Cut って要するに [Ha+, ICDAE’95] を持ってきただけでは？ • Dilated Conditional Position Encodingって • [Chu+, 2021]がViT用に2D畳込みで系列長を揃えたのを • テキスト用に1D畳込みも入れて • Dilationも入れたそれだけ？！

文書理解実験 • FUNSDデータセット：スキャンした約200点の英語フォーム • XFUNデータセット：英語以外の7か国語による約1400点のフォーム • Semantic Entity Recognition –
各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク • Relation Extraction – 項目とその値になっているトークンペアを抽出するタスク OursがSoTA!

文書理解実験 • FUNSDデータセット：スキャンした約200点の英語フォーム • XFUNデータセット：英語以外の7か国語による約1400点のフォーム • Semantic Entity Recognition –
各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク • Relation Extraction – 項目とその値になっているトークンペアを抽出するタスク更に巨大なモデルで殴る奴には負けるよ！めっちゃAblation Studyしている →面白くないが落としにくい論文

V-Doc : Visual questions answers with Documents

V-Doc = Document VQAのためのプラットフォーム • Document-VQAが増えてきた – Webサイト [Tanaka+, AAAI’21]、教科書
[Kembhavi, CVPR’17]、スキャンされたフォーム（と言うかさっきのFUNSD）[Guillaume+Thiran, ICDAR WS’2019]、ごちゃ混ぜ[Mathew+, WACV’21] • そもそもVQAめっちゃ研究されている – 一方でそれらを公平に比較するためのプラットフォームが無い • 本研究：3つのコンポーネントからなる Document VQAのプラットフォーム – Dataset Storage – Model Storage – Graphical User Interface

One more thing: PubVQA Dataset • PubMed Central Open Access
Subset から収集（本日2回目） – PDFをpdf2imageで画像化 – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出（下図(a)） – 各項目間の属性や関係性、読み順などをアップデート（下図(b)） – CLEVR Dataset [Johnson+, CVPR’17] と似たノリでテンプレートに基づいて情報抽出、QAを自動生成オブジェクトの数や位置、有無などを問う質問 →著者らがAbstractive Doc-VQAと呼ぶもの • 補足：FUNSD-QA Dataset – FUNSDは約200点のPDFスキャンのみ – 前述の通り質問、回答、ヘッダ、その他の4クラスラベルが付いている – 単純にこの分類を問うQAのデータセットを作成（それはQAと言うより分類のままなのでは…） →著者らがExtractive Doc-VQAと呼ぶもの

One more thing: PubVQA Dataset • PubMed Open Access Subset
から収集 – PDFをpdf2imageで画像化 – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出（下図(a)） – 各項目間の属性や関係性、読み順などをアップデート（下図(b)） – CLEVR Dataset [Johnson+, CVPR’17] と似たノリでテンプレートに基づいて情報抽出、QAを自動生成オブジェクトの数や位置、有無などを問う質問 →著者らがAbstractive Doc-VQAと呼ぶもの • 補足：FUNSD-QA Dataset – FUNSDは約200点のPDFスキャンのみ – 前述の通り質問、回答、ヘッダ、その他の4クラスラベルが付いている – 単純にこの分類を問うQAのデータセットを作成（それはQAと言うより分類のままなのでは…） →著者らがExtractive Doc-VQAと呼ぶもの冒頭の図👇👇と、途中～最後までの記述で… Abstractive/Extractiveが入れ替わっているから注意な！

UIやベースラインモデル • Web上にUIを構築 – https://github.com/usydnlp/vdoc • ベースラインモデルを用意 • FUNSD-QAでの実験 –
BERTとLayoutLMv2 [Xu+, ACL’21] • PubVQAでの実験 – LSTM+CNNとMAC [Hudson+Manning, ICLR’18]

Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation

画像からのレポート生成 • 画像からのレポート生成について取り組みが増えてきた – 胸部X線画像 [Li+, AAAI’19][Chen+, EMNLP’20][Zhang+, AAAI’20] [Liu+,
CVPR’21] – 眼底画像のベンチマークとCNNやTransformerによるベースラインを提供 [Li+, NeurIPS’21] • 本論文でやりたいこと – 医学知識を取り入れた長文キャプション生成みたいな問題に相当 – 👆👆の研究では知識グラフを入れて医学知識を導入 – より賢い医学知識の導入方法をグラフベースで模索したい→本論文

提案手法 in a single slide ( )

提案手法 in a single slide ( ) フルオレセイン眼底血管造影法 (fundus fluorescein
angiography, FFA) による画像

提案手法 in a single slide ( ) Kinetics Datasetで学習したI3D [Carreira+Zisserman,
CVPR’17] で画像特徴量抽出

提案手法 in a single slide ( ) 事前にHuman-in-the-loopに定義したトリプレットに基づくグラフ生成

提案手法 in a single slide ( ) 画像特徴量を1本にしたやつ（左上）と各トリプレットの各単語の表現

提案手法 in a single slide ( ) 何単語目か？

提案手法 in a single slide ( ) 何文目か？

提案手法 in a single slide ( ) よく見るオーソドックスな Transformerエンコーダ

提案手法 in a single slide ( ) トリプレット内のみにアテンションを絞る 𝐡𝐡i
t = softmax 𝐐𝐐i 𝐊𝐊t d 𝐕𝐕𝑡𝑡

提案手法 in a single slide ( ) よく見るオーソドックスな Transformerデコーダ →レポートを自己回帰的に生成

提案手法 in a single slide ( ) ふう、スライド一枚で説明できたぞ

実際にレポートを生成してみたよ • データセット：FFA-IR [Li+, NeurIPS’21] – 約100万のFFA画像に対する約1万のレポート – レポートは2か国語 –
病変部位に対する約1万2千のバウンディングボックス • 定量的な結果 – キャプション生成手法：[16]から[28]の行まで – レポート生成手法：[9]と[21]（正確には[Chen+, EMNLP’20][Li+, NeurIPS’21]）

まとめ • ムーンショットのAI用パーツ探し A girl walking on a distant journey,
wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張実験解析記述＆対話

まとめ • ムーンショットのAI用パーツ探し A girl walking on a distant journey,
wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張実験解析記述＆対話より賢くなった ③Doc-VQA ④レポート生成 ①表読解 ②文書構造理解

まとめ • ムーンショットのAI用パーツ探し • クオリティは度外視してテーマのみで読む論文を選択 – 今回の論文が初というタスクは無い – 手堅い実験によって採録に結び付けている
A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張実験解析記述＆対話

来年のCVPRでは読まれる側に回りたいという人はメンターシッププログラム@CVPR 2023まで！

パーツ探し

パーツ探し

More Decks by Yoshitaka Ushiku

Other Decks in Research

Featured

Transcript