Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パーツ探し

 パーツ探し

~ PubTables-1M: Towards comprehensive table extraction from unstructured documents と XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding と V-Doc : Visual questions answers with Documents と Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation は読んだし、 TableFormer: Table Structure Understanding with Transformers と Neural Collaborative Graph Machines for Table Structure Recognition と Revisiting Document Image Dewarping by Grid Regularization と Fourier Document Restoration for Robust Document Dewarping and Recognition は気になったが読まなかった。

第11回 全日本コンピュータビジョン勉強会(前編)
https://kantocv.connpass.com/event/253622/
で読みました。自分のムーンショットプロジェクトに使えそうな=一緒に研究をしてくれそうなAIロボット(?!)につながっていきそうなパーツを探しました。

Yoshitaka Ushiku
PRO

August 07, 2022
Tweet

More Decks by Yoshitaka Ushiku

Other Decks in Research

Transcript

  1. CVPR 2022 読み会
    パーツ探し
    ~ PubTables-1M: Towards comprehensive table extraction from unstructured documents と
    XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding と
    V-Doc : Visual questions answers with Documents と
    Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation は読んだし、
    TableFormer: Table Structure Understanding with Transformers と
    Neural Collaborative Graph Machines for Table Structure Recognition と
    Revisiting Document Image Dewarping by Grid Regularization と
    Fourier Document Restoration for Robust Document Dewarping and Recognition は気になったが読まなかった。
    牛久 祥孝
    losnuevetoros

    View Slide

  2. 自己紹介(学職歴)
    2013.6~2013.8 Microsoft Research Intern
    2014.3 博士(情報理工学)、東京大学
    2014.4~2016.3 NTT CS研 研究員
    2016.4~2018.9 東京大学 講師 (原田牛久研究室)
    2016.9~ 産業技術総合研究所 協力研究員
    2016.12~2018.9 国立国語研究所 共同研究員
    2018.10~ オムロンサイニックエックス株式会社 Principal Investigator
    2019.1~ 株式会社 Ridge-i Chief Research Officer
    2020.4~ 津田塾大学 非常勤講師
    2021.7~ 東北大学 非常勤講師
    2022.1~ 合同会社ナインブルズ 代表
    [Ushiku+, ACMMM 2012]
    [Ushiku+, ICCV 2015]
    画像キャプション生成 動画の特定区間と
    キャプションの相互検索
    [Yamaguchi+, ICCV 2017]
    A guy is skiing with no shirt on
    and yellow snow pants.
    A yellow train on the tracks
    near a train station.

    View Slide

  3. 自己紹介(その他)
    主な学術団体活動
    ACM・IEEE・情報処理学会・応用物理学会 一般会員
    コンピュータビジョン勉強会@関東 幹事
    電子情報通信学会 パターン認識・メディア理解研究会 専門委員
    情報・システムソサイエティ 庶務幹事
    著作権管理委員会 委員
    人工知能学会 論文誌編集委員会 編集委員
    建築情報学会 理事
    日本ロボット学会 代議員
    日本ディープラーニング協会 有識者会員
    共立出版 コンピュータビジョン最前線 編集
    主な研究プロジェクト
    2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝)
    2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介)
    2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝)
    2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)

    View Slide

  4. 人と融和して知の創造・越境をするAIロボット
    3
    2025 2027 2030 2040
    達成する
    イノベーション
    Proof of
    Concept
    査読・追試ができる
    (思考の理解)
    卒業論文がかける
    (下から上に演繹)
    査読付き論文誌等に
    アクセプトされる
    (小規模な回遊)
    Nature/Science級の
    論文誌等にアクセプト
    される
    (創発と回遊)
    ノーベル賞級の研究を人とAIロボットが創出
    2050

    View Slide

  5. 査読・追試ができるAIロボットの課題(~2025)
    論文を査読・追試できるAIを完成し、実験作業を理解できるロボットを実現
    主張:理解 実験:理解と評価
    記述&対話:論文の理解 解析:主張と比較
    実験手順抽出 実験動作理解・評価
    主張収集と新規性等の学習



    主張
    実験結果と主張の含意関係理解
    図表・考察
    主張
    査読生成と対話的改善
    4

    View Slide

  6. 査読付き論文を人間と生み出せるAIロボットの課題(~2030)
    研究者にひらめきを促し、ほぼ自動で研究を遂行できるAIロボットを実現
    主張:先読み・行動変容 実験:ほぼ全て自動実行
    記述&対話:対話的な論文生成 解析:効果的な解析実行
    サイバー空間
    実験系自動構築・実行
    +対話的改善
    フィジカル空間
    実験系構築の補助
    +自動実行
    インパクトの予測
    +個々の研究者との適性に応じた提示
    学術的インパクトを最大化する説明・図示の選択
    自動執筆と
    対話的改善
    査読理解と
    応答文生成






    5

    View Slide

  7. 今日のテーマ
    研究を一緒にやってくれるAIロボットのパーツ探し
    Japanese colored comic of a girl looking for parts for another humanoid robot. [DALL·E]

    View Slide

  8. 今日読んだ論文
    PubTables-1M: Towards
    comprehensive table extraction
    from unstructured documents
    XYLayoutLM: Towards
    Layout-Aware Multimodal
    Networks For Visually-Rich
    Document Understanding V-Doc : Visual questions
    answers with Documents
    Cross-modal Clinical Graph
    Transformer for Ophthalmic
    Report Generation

    View Slide

  9. 今日読んだ論文
    PubTables-1M: Towards
    comprehensive table extraction
    from unstructured documents
    XYLayoutLM: Towards
    Layout-Aware Multimodal
    Networks For Visually-Rich
    Document Understanding V-Doc : Visual questions
    answers with Documents
    Cross-modal Clinical Graph
    Transformer for Ophthalmic
    Report Generation
    それぞれスライド3枚( )ずつで紹介!

    View Slide

  10. 今日読まなかった論文
    TableFormer: Table Structure
    Understanding with Transformers
    Neural Collaborative
    Graph Machines for Table
    Structure Recognition
    Revisiting Document
    Image Dewarping by
    Grid Regularization
    Fourier Document Restoration
    for Robust Document
    Dewarping and Recognition

    View Slide

  11. 今日読まなかった論文
    Neural Collaborative
    Graph Machines for Table
    Structure Recognition
    Revisiting Document
    Image Dewarping by
    Grid Regularization
    Fourier Document Restoration
    for Robust Document
    Dewarping and Recognition
    TableFormer: Table Structure
    Understanding with Transformers
    carnavi さんが第11回全日本コンピュータビジョン
    勉強会(前編)で(つまり今日)読んでくださっています

    View Slide

  12. 今日読まなかった論文
    TableFormer: Table Structure
    Understanding with Transformers.
    Neural Collaborative
    Graph Machines for Table
    Structure Recognition
    Revisiting Document
    Image Dewarping by
    Grid Regularization
    Fourier Document Restoration
    for Robust Document
    Dewarping and Recognition
    歪んだ表や論文画像の理解を行う研究
    →一旦整ったドキュメントを前提とするので割愛します

    View Slide

  13. PubTables-1M: Towards comprehensive table
    extraction from unstructured documents

    View Slide

  14. 表読解タスクとデータセットについて
    • 表読解:以前のコンペ [Göbel+, ICDAR’13] では3つのタスクに分類
    – Table Detection (TD):表を文書全体から正しく検出
    – Table Structure Recognition (TSR):行/列/セル認識
    – Functional Analysis (FA):KeyとValueの認識
    • 深層学習のためのデータセットも増えたが…
    – HTMLやXMLとしての教師情報では
    →位置座標が不明だし更にレイアウト上の関係性も不明
    – 加えて、クラウドソーシングだと
    →oversegmentation(統合されたセルをバラしてしまう)アノテーションが散見される
    元々の表 Oversegmentedな表 正準化 (Canonicalization) された表

    View Slide

  15. PubTables-1M データセット
    • PubMed Central Open Access Subset から収集
    • 現在最大の比較可能なデータセットの約2倍の大きさ
    • より豊富なアノテーション情報
    – 行と列の位置
    – 正準化された構造
    • さらに誤差の原因を減らすために
    – いくつかの品質検証および制御ステップを実装
    – Ground Truth の品質について測定可能な保証を提供

    View Slide

  16. ベースラインによる実験とデータセット品質の検証
    • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020]
    • 表検出 (TD) タスク
    • 表構造認識 (TSR) と機能解析 (FA) タスク
    [Carion+, ECCV 2020]

    View Slide

  17. ベースラインによる実験とデータセット品質の検証
    • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020]
    • 表検出 (TD) タスク
    • 表構造認識 (TSR) と機能解析 (FA) タスク
    [Carion+, ECCV 2020]
    DETRの解説はこちら

    View Slide

  18. ベースラインによる実験とデータセット品質の検証
    • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020]
    • 表検出 (TD) タスク
    • 表構造認識 (TSR) と機能解析 (FA) タスク
    [Carion+, ECCV 2020]
    • DETR強い!
    • 表検出タスクはかなり正確

    View Slide

  19. ベースラインによる実験とデータセット品質の検証
    • ベースライン: Faster RCNN [Ren+, NIPS 2015] とDETR [Carion+, ECCV 2020]
    • 表検出 (TD) タスク
    • 表構造認識 (TSR) と機能解析 (FA) タスク
    [Carion+, ECCV 2020]
    • DETR強い!
    • 更に…
    – NC(正準化なし)のデータに
    よるDETR-NCより
    – DETRの方が良い!

    View Slide

  20. XYLayoutLM: Towards Layout-Aware Multimodal
    Networks For Visually-Rich Document Understanding

    View Slide

  21. Visually-Rich Document Understanding (VRDU)
    • 自然言語処理、コンピュータビジョン、文書解析 (ICDARなど) で発表
    • 従来のアプローチは
    – 画像ベース [Soto+Yoo, EMNLP’19][Schreiber+, ICDAR’17][Katti+, EMNLP’18]
    – テキストベース [Garncarek+, ICDAR’21]
    – グラフベース [Liu+, NAACL’19]
    • 例によってTransformerによる手法が増えてきた
    – SelfDoc [Li+, CVPR’21]
    – DocFormer [Appalaraju+, ICCV’21]
    – StructuralLM [Li+, ACL’21]
    – LayoutLM [Xu+, KDD’20], v2 [Xu+, ACL’21]
    – LayoutXLM [Xu+, 2021]
    • ただし、2つの問題がある
    1. 読む順が分からないまま処理している
    座標の相対的な位置埋め込みだけでは不十分
    2. 学習サンプルより長い系列に対応できない

    View Slide

  22. XYLayoutLM
    • LayoutLMv2 [Xu+, ACL’21] の改良版
    • 正しい読み順を推定可能なXY Cut [Ha+, ICDAE’95]
    – OCRで得たテキストボックスを分ける「谷」を発見
    – 谷でどんどんボックスを分けていって木を形成
    – 分割が終了したら木を上から見て行って読み順を決定
    • 種々の長さの系列データを処理できるDilated Conditional Position Encoding
    – 1次元のテキストも2次元の画像もどちらも対応
    – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが…
    1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない
    2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない
    – 提案手法
    • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決!
    • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む!
    • さらに、Receptive Field広げたいからDilated Conv!

    View Slide

  23. XYLayoutLM
    • LayoutLMv2 [Xu+, ACL’21] の改良版
    • 正しい読み順を推定可能なXY Cut [Ha+, ICDAE’95]
    – OCRで得たテキストボックスを分ける「谷」を発見
    – 谷でどんどんボックスを分けていって木を形成
    – 分割が終了したら木を上から見て行って読み順を決定
    • 種々の長さの系列データを処理できるDilated Conditional Position Encoding
    – 1次元のテキストも2次元の画像もどちらも対応
    – Conditional Position Encoding [Chu+, 2021] は、2次元の畳み込みでトークン数を調整するが…
    1. Visual Transformerで有効でも、VRDUタスクでは近隣のトークンの畳込みが最善とは限らない
    2. テキストは2Dじゃなくて1Dなので、どうにかしないといけない
    – 提案手法
    • 1つ目の課題は、Augmented XY Cutで読み順が分かったので解決!
    • 2つ目の課題は、画像は2Dで畳み込み、テキストは1Dで畳み込む!
    • さらに、Receptive Field広げたいからDilated Conv!
    ツッコミどころが多すぎる
    • “Best viewed in Adobe Acrobat DC” と主張された粗い
    ラスタ画像によるFig. 2
    • Augmented XY Cut って要するに [Ha+, ICDAE’95] を
    持ってきただけでは?
    • Dilated Conditional Position Encodingって
    • [Chu+, 2021]がViT用に2D畳込みで系列長を揃えたのを
    • テキスト用に1D畳込みも入れて
    • Dilationも入れた
    それだけ?!

    View Slide

  24. 文書理解実験
    • FUNSDデータセット:スキャンした約200点の英語フォーム
    • XFUNデータセット:英語以外の7か国語による約1400点のフォーム
    • Semantic Entity Recognition
    – 各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク
    • Relation Extraction
    – 項目とその値になっているトークンペアを抽出するタスク
    OursがSoTA!

    View Slide

  25. 文書理解実験
    • FUNSDデータセット:スキャンした約200点の英語フォーム
    • XFUNデータセット:英語以外の7か国語による約1400点のフォーム
    • Semantic Entity Recognition
    – 各トークンを質問、回答、ヘッダ、その他の4クラスに分類するタスク
    • Relation Extraction
    – 項目とその値になっているトークンペアを抽出するタスク
    更に巨大なモデルで殴る奴には負けるよ!
    めっちゃAblation Studyしている
    →面白くないが落としにくい論文

    View Slide

  26. V-Doc : Visual questions answers with Documents

    View Slide

  27. V-Doc = Document VQAのためのプラットフォーム
    • Document-VQAが増えてきた
    – Webサイト [Tanaka+, AAAI’21]、教科書 [Kembhavi, CVPR’17]、スキャンされたフォーム(と言う
    かさっきのFUNSD)[Guillaume+Thiran, ICDAR WS’2019]、ごちゃ混ぜ[Mathew+, WACV’21]
    • そもそもVQAめっちゃ研究されている
    – 一方でそれらを公平に比較するための
    プラットフォームが無い
    • 本研究:3つのコンポーネントからなる
    Document VQAのプラットフォーム
    – Dataset Storage
    – Model Storage
    – Graphical User Interface

    View Slide

  28. One more thing: PubVQA Dataset
    • PubMed Central Open Access Subset から収集(本日2回目)
    – PDFをpdf2imageで画像化
    – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出(下図(a))
    – 各項目間の属性や関係性、読み順などをアップデート(下図(b))
    – CLEVR Dataset [Johnson+, CVPR’17] と似たノリで
    テンプレートに基づいて情報抽出、QAを自動生成
    オブジェクトの数や位置、有無などを問う質問
    →著者らがAbstractive Doc-VQAと呼ぶもの
    • 補足:FUNSD-QA Dataset
    – FUNSDは約200点のPDFスキャン のみ
    – 前述の通り質問、回答、ヘッダ、その他の4クラス
    ラベルが付いている
    – 単純にこの分類を問うQAのデータセットを作成
    (それはQAと言うより分類のままなのでは…)
    →著者らがExtractive Doc-VQAと呼ぶもの

    View Slide

  29. One more thing: PubVQA Dataset
    • PubMed Open Access Subset から収集
    – PDFをpdf2imageで画像化
    – PubLayNet Dataset [Zhong+, ICDAR’19] で訓練したMask-RCNNモデルで項目を検出(下図(a))
    – 各項目間の属性や関係性、読み順などをアップデート(下図(b))
    – CLEVR Dataset [Johnson+, CVPR’17] と似たノリで
    テンプレートに基づいて情報抽出、QAを自動生成
    オブジェクトの数や位置、有無などを問う質問
    →著者らがAbstractive Doc-VQAと呼ぶもの
    • 補足:FUNSD-QA Dataset
    – FUNSDは約200点のPDFスキャン のみ
    – 前述の通り質問、回答、ヘッダ、その他の4クラス
    ラベルが付いている
    – 単純にこの分類を問うQAのデータセットを作成
    (それはQAと言うより分類のままなのでは…)
    →著者らがExtractive Doc-VQAと呼ぶもの
    冒頭の図👇👇と、途中~最後までの記述で…
    Abstractive/Extractiveが入れ替わっているから注意な!

    View Slide

  30. UIやベースラインモデル
    • Web上にUIを構築
    – https://github.com/usydnlp/vdoc
    • ベースラインモデルを用意
    • FUNSD-QAでの実験
    – BERTとLayoutLMv2 [Xu+, ACL’21]
    • PubVQAでの実験
    – LSTM+CNNとMAC [Hudson+Manning, ICLR’18]

    View Slide

  31. Cross-modal Clinical Graph Transformer for
    Ophthalmic Report Generation

    View Slide

  32. 画像からのレポート生成
    • 画像からのレポート生成について取り組みが増えてきた
    – 胸部X線画像 [Li+, AAAI’19][Chen+, EMNLP’20][Zhang+, AAAI’20] [Liu+, CVPR’21]
    – 眼底画像のベンチマークとCNNやTransformerによるベースラインを提供 [Li+, NeurIPS’21]
    • 本論文でやりたいこと
    – 医学知識を取り入れた長文キャプション生成みたいな問題に相当
    – 👆👆の研究では知識グラフを入れて医学知識を導入
    – より賢い医学知識の導入方法をグラフベースで模索したい→本論文

    View Slide

  33. 提案手法 in a single slide ( )

    View Slide

  34. 提案手法 in a single slide ( )
    フルオレセイン眼底血管造影法
    (fundus fluorescein angiography, FFA)
    による画像

    View Slide

  35. 提案手法 in a single slide ( )
    Kinetics Datasetで学習したI3D
    [Carreira+Zisserman, CVPR’17]
    で画像特徴量抽出

    View Slide

  36. 提案手法 in a single slide ( )
    事前にHuman-in-the-loopに定義した
    トリプレットに基づくグラフ生成

    View Slide

  37. 提案手法 in a single slide ( )
    画像特徴量を1本にしたやつ(左上)

    各トリプレットの各単語の表現

    View Slide

  38. 提案手法 in a single slide ( )
    何単語目か?

    View Slide

  39. 提案手法 in a single slide ( )
    何文目か?

    View Slide

  40. 提案手法 in a single slide ( )
    よく見るオーソドックスな
    Transformerエンコーダ

    View Slide

  41. 提案手法 in a single slide ( )
    トリプレット内のみに
    アテンションを絞る
    𝐡𝐡i
    t = softmax
    𝐐𝐐i
    𝐊𝐊t
    d
    𝐕𝐕𝑡𝑡

    View Slide

  42. 提案手法 in a single slide ( )
    よく見るオーソドックスな
    Transformerデコーダ
    →レポートを自己回帰的に生成

    View Slide

  43. 提案手法 in a single slide ( )
    よく見るオーソドックスな
    Transformerデコーダ
    →レポートを自己回帰的に生成

    View Slide

  44. 提案手法 in a single slide ( )
    ふう、スライド一枚で説明できたぞ

    View Slide

  45. 実際にレポートを生成してみたよ
    • データセット:FFA-IR [Li+, NeurIPS’21]
    – 約100万のFFA画像に対する約1万のレポート
    – レポートは2か国語
    – 病変部位に対する約1万2千のバウンディングボックス
    • 定量的な結果
    – キャプション生成手法:[16]から[28]の行まで
    – レポート生成手法:[9]と[21](正確には[Chen+, EMNLP’20][Li+, NeurIPS’21])

    View Slide

  46. まとめ
    • ムーンショットのAI用パーツ探し
    A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney]
    主張 実験
    解析
    記述

    対話

    View Slide

  47. まとめ
    • ムーンショットのAI用パーツ探し
    A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney]
    主張 実験
    解析
    記述

    対話
    より賢くなった
    ③Doc-VQA
    ④レポート生成
    ①表読解
    ②文書構造理解

    View Slide

  48. まとめ
    • ムーンショットのAI用パーツ探し
    • クオリティは度外視してテーマのみで
    読む論文を選択
    – 今回の論文が初というタスクは無い
    – 手堅い実験によって採録に結び付けている
    A girl walking on a distant journey, wearing a hood, aiming for the summit of a mountain. [Midjourney]
    主張 実験
    解析
    記述

    対話

    View Slide

  49. View Slide

  50. 来年のCVPRでは読まれる側に回りたいという人は
    メンターシッププログラム@CVPR 2023まで!

    View Slide