Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パーツ探し

 パーツ探し

~ PubTables-1M: Towards comprehensive table extraction from unstructured documents と XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding と V-Doc : Visual questions answers with Documents と Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation は読んだし、 TableFormer: Table Structure Understanding with Transformers と Neural Collaborative Graph Machines for Table Structure Recognition と Revisiting Document Image Dewarping by Grid Regularization と Fourier Document Restoration for Robust Document Dewarping and Recognition は気になったが読まなかった。

第11回 全日本コンピュータビジョン勉強会(前編)
https://kantocv.connpass.com/event/253622/
で読みました。自分のムーンショットプロジェクトに使えそうな=一緒に研究をしてくれそうなAIロボット(?!)につながっていきそうなパーツを探しました。

Yoshitaka Ushiku

August 07, 2022
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Research

Transcript

  1. CVPR 2022 読み会 パーツ探し ~ PubTables-1M: Towards comprehensive table extraction

    from unstructured documents と XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding と V-Doc : Visual questions answers with Documents と Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation は読んだし、 TableFormer: Table Structure Understanding with Transformers と Neural Collaborative Graph Machines for Table Structure Recognition と Revisiting Document Image Dewarping by Grid Regularization と Fourier Document Restoration for Robust Document Dewarping and Recognition は気になったが読まなかった。 牛久 祥孝 losnuevetoros
  2. 自己紹介(学職歴) 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研

    研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~ オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~ 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.
  3. 自己紹介(その他) 主な学術団体活動 ACM・IEEE・情報処理学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 電子情報通信学会 パターン認識・メディア理解研究会 専門委員 情報・システムソサイエティ

    庶務幹事 著作権管理委員会 委員 人工知能学会 論文誌編集委員会 編集委員 建築情報学会 理事 日本ロボット学会 代議員 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)
  4. 人と融和して知の創造・越境をするAIロボット 3 2025 2027 2030 2040 達成する イノベーション Proof of

    Concept 査読・追試ができる (思考の理解) 卒業論文がかける (下から上に演繹) 査読付き論文誌等に アクセプトされる (小規模な回遊) Nature/Science級の 論文誌等にアクセプト される (創発と回遊) ノーベル賞級の研究を人とAIロボットが創出 2050
  5. 今日読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:

    Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation
  6. 今日読んだ論文 PubTables-1M: Towards comprehensive table extraction from unstructured documents XYLayoutLM:

    Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding V-Doc : Visual questions answers with Documents Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation それぞれスライド3枚( )ずつで紹介!
  7. 今日読まなかった論文 TableFormer: Table Structure Understanding with Transformers Neural Collaborative Graph

    Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition
  8. 今日読まなかった論文 Neural Collaborative Graph Machines for Table Structure Recognition Revisiting

    Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition TableFormer: Table Structure Understanding with Transformers carnavi さんが第11回全日本コンピュータビジョン 勉強会(前編)で(つまり今日)読んでくださっています
  9. 今日読まなかった論文 TableFormer: Table Structure Understanding with Transformers. Neural Collaborative Graph

    Machines for Table Structure Recognition Revisiting Document Image Dewarping by Grid Regularization Fourier Document Restoration for Robust Document Dewarping and Recognition 歪んだ表や論文画像の理解を行う研究 →一旦整ったドキュメントを前提とするので割愛します
  10. 表読解タスクとデータセットについて • 表読解:以前のコンペ [Göbel+, ICDAR’13] では3つのタスクに分類 – Table Detection (TD):表を文書全体から正しく検出

    – Table Structure Recognition (TSR):行/列/セル認識 – Functional Analysis (FA):KeyとValueの認識 • 深層学習のためのデータセットも増えたが… – HTMLやXMLとしての教師情報では →位置座標が不明だし更にレイアウト上の関係性も不明 – 加えて、クラウドソーシングだと →oversegmentation(統合されたセルをバラしてしまう)アノテーションが散見される 元々の表 Oversegmentedな表 正準化 (Canonicalization) された表
  11. PubTables-1M データセット • PubMed Central Open Access Subset から収集 •

    現在最大の比較可能なデータセットの約2倍の大きさ • より豊富なアノテーション情報 – 行と列の位置 – 正準化された構造 • さらに誤差の原因を減らすために – いくつかの品質検証および制御ステップを実装 – Ground Truth の品質について測定可能な保証を提供
  12. ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+,

    ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020]
  13. ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+,

    ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] DETRの解説はこちら
  14. ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+,

    ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] • DETR強い! • 表検出タスクはかなり正確
  15. ベースラインによる実験とデータセット品質の検証 • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+,

    ECCV 2020] • 表検出 (TD) タスク • 表構造認識 (TSR) と機能解析 (FA) タスク [Carion+, ECCV 2020] • DETR強い! • 更に… – NC(正準化なし)のデータに よるDETR-NCより – DETRの方が良い!
  16. Visually-Rich Document Understanding (VRDU) • 自然言語処理、コンピュータビジョン、文書解析 (ICDARなど) で発表 • 従来のアプローチは

    – 画像ベース [Soto+Yoo, EMNLP’19][Schreiber+, ICDAR’17][Katti+, EMNLP’18] – テキストベース [Garncarek+, ICDAR’21] – グラフベース [Liu+, NAACL’19] • 例によってTransformerによる手法が増えてきた – SelfDoc [Li+, CVPR’21] – DocFormer [Appalaraju+, ICCV’21] – StructuralLM [Li+, ACL’21] – LayoutLM [Xu+, KDD’20], v2 [Xu+, ACL’21] – LayoutXLM [Xu+, 2021] • ただし、2つの問題がある 1. 読む順が分からないまま処理している 座標の相対的な位置埋め込みだけでは不十分 2. 学習サンプルより長い系列に対応できない
  17. XYLayoutLM • LayoutLMv2 [Xu+, ACL’21] の改良版 • 正しい読み順を推定可能なXY Cut [Ha+,

    ICDAE’95] – OCRで得たテキストボックスを分ける「谷」を発見 – 谷でどんどんボックスを分けていって木を形成 – 分割が終了したら木を上から見て行って読み順を決定 • 種々の長さの系列データを処理できるDilated Conditional Position Encoding – 1次元のテキストも2次元の画像もどちらも対応 – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが… 1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない 2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない – 提案手法 • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決! • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む! • さらに、Receptive Field広げたいからDilated Conv!
  18. XYLayoutLM • LayoutLMv2 [Xu+, ACL’21] の改良版 • 正しい読み順を推定可能なXY Cut [Ha+,

    ICDAE’95] – OCRで得たテキストボックスを分ける「谷」を発見 – 谷でどんどんボックスを分けていって木を形成 – 分割が終了したら木を上から見て行って読み順を決定 • 種々の長さの系列データを処理できるDilated Conditional Position Encoding – 1次元のテキストも2次元の画像もどちらも対応 – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが… 1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない 2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない – 提案手法 • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決! • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む! • さらに、Receptive Field広げたいからDilated Conv! ツッコミどころが多すぎる • “Best viewed in Adobe Acrobat DC” と主張された粗い ラスタ画像によるFig. 2 • Augmented XY Cut って要するに [Ha+, ICDAE’95] を 持ってきただけでは? • Dilated Conditional Position Encodingって • [Chu+, 2021]がViT用に2D畳込みで系列長を揃えたのを • テキスト用に1D畳込みも入れて • Dilationも入れた それだけ?!
  19. 文書理解実験 • FUNSDデータセット:スキャンした約200点の英語フォーム • XFUNデータセット:英語以外の7か国語による約1400点のフォーム • Semantic Entity Recognition –

    各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク • Relation Extraction – 項目とその値になっているトークンペアを抽出するタスク OursがSoTA!
  20. 文書理解実験 • FUNSDデータセット:スキャンした約200点の英語フォーム • XFUNデータセット:英語以外の7か国語による約1400点のフォーム • Semantic Entity Recognition –

    各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク • Relation Extraction – 項目とその値になっているトークンペアを抽出するタスク 更に巨大なモデルで殴る奴には負けるよ! めっちゃAblation Studyしている →面白くないが落としにくい論文
  21. V-Doc = Document VQAのためのプラットフォーム • Document-VQAが増えてきた – Webサイト [Tanaka+, AAAI’21]、教科書

    [Kembhavi, CVPR’17]、スキャンされたフォーム(と言う かさっきのFUNSD)[Guillaume+Thiran, ICDAR WS’2019]、ごちゃ混ぜ[Mathew+, WACV’21] • そもそもVQAめっちゃ研究されている – 一方でそれらを公平に比較するための プラットフォームが無い • 本研究:3つのコンポーネントからなる Document VQAのプラットフォーム – Dataset Storage – Model Storage – Graphical User Interface
  22. One more thing: PubVQA Dataset • PubMed Central Open Access

    Subset から収集(本日2回目) – PDFをpdf2imageで画像化 – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出(下図(a)) – 各項目間の属性や関係性、読み順などをアップデート(下図(b)) – CLEVR Dataset [Johnson+, CVPR’17] と似たノリで テンプレートに基づいて情報抽出、QAを自動生成 オブジェクトの数や位置、有無などを問う質問 →著者らがAbstractive Doc-VQAと呼ぶもの • 補足:FUNSD-QA Dataset – FUNSDは約200点のPDFスキャン のみ – 前述の通り質問、回答、ヘッダ、その他の4クラス ラベルが付いている – 単純にこの分類を問うQAのデータセットを作成 (それはQAと言うより分類のままなのでは…) →著者らがExtractive Doc-VQAと呼ぶもの
  23. One more thing: PubVQA Dataset • PubMed Open Access Subset

    から収集 – PDFをpdf2imageで画像化 – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出(下図(a)) – 各項目間の属性や関係性、読み順などをアップデート(下図(b)) – CLEVR Dataset [Johnson+, CVPR’17] と似たノリで テンプレートに基づいて情報抽出、QAを自動生成 オブジェクトの数や位置、有無などを問う質問 →著者らがAbstractive Doc-VQAと呼ぶもの • 補足:FUNSD-QA Dataset – FUNSDは約200点のPDFスキャン のみ – 前述の通り質問、回答、ヘッダ、その他の4クラス ラベルが付いている – 単純にこの分類を問うQAのデータセットを作成 (それはQAと言うより分類のままなのでは…) →著者らがExtractive Doc-VQAと呼ぶもの 冒頭の図👇👇と、途中~最後までの記述で… Abstractive/Extractiveが入れ替わっているから注意な!
  24. 画像からのレポート生成 • 画像からのレポート生成について取り組みが増えてきた – 胸部X線画像 [Li+, AAAI’19][Chen+, EMNLP’20][Zhang+, AAAI’20] [Liu+,

    CVPR’21] – 眼底画像のベンチマークとCNNやTransformerによるベースラインを提供 [Li+, NeurIPS’21] • 本論文でやりたいこと – 医学知識を取り入れた長文キャプション生成みたいな問題に相当 – 👆👆の研究では知識グラフを入れて医学知識を導入 – より賢い医学知識の導入方法をグラフベースで模索したい→本論文
  25. 実際にレポートを生成してみたよ • データセット:FFA-IR [Li+, NeurIPS’21] – 約100万のFFA画像に対する約1万のレポート – レポートは2か国語 –

    病変部位に対する約1万2千のバウンディングボックス • 定量的な結果 – キャプション生成手法:[16]から[28]の行まで – レポート生成手法:[9]と[21](正確には[Chen+, EMNLP’20][Li+, NeurIPS’21])
  26. まとめ • ムーンショットのAI用パーツ探し A girl walking on a distant journey,

    wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張 実験 解析 記述 & 対話
  27. まとめ • ムーンショットのAI用パーツ探し A girl walking on a distant journey,

    wearing a hood, aiming for the summit of a mountain. [Midjourney] 主張 実験 解析 記述 & 対話 より賢くなった ③Doc-VQA ④レポート生成 ①表読解 ②文書構造理解