LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

Slide 1

Slide 1 text

© LayerX Inc. 【論文紹介】 LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao 2024/07/07 第61回コンピュータビジョン勉強会@関東(前編) Yuta Kamikawa(株式会社LayerX)

Slide 2

Slide 2 text

© LayerX Inc. 2 ● 経歴 ○ 京都大学情報学研究科知能情報学専攻 ○ 2019/04 ~ 2024/03 Preferred Networks ■ サッカーや医療などの分野で機械学習を用いたシステムの開発 ○ 2024/04 ~ LayerX 機械学習エンジニア ■ 請求書や領収書をはじめとする書類から支払金額や日付などの項目を OCRで読み取る機能の開発を行っています ● 初勉強会ですが、これから積極的に参加していきたいと思っています！ ● 懇親会も参加予定です！よろしくお願いします！！自己紹介上川優太(Yuta Kamikawa)

Slide 3

Slide 3 text

特に注釈がなければ資料ないの画像等は論文内のものを使用しています

Slide 4

Slide 4 text

© LayerX Inc. 4 本日の紹介論文背景 LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding レイアウト情報を明示的に利用するLayout Instruction TuningとLayout Chain-of-Thought(LayoutCoT)を提案し、ゼロショットのDocument AIタスクにおいて、既存のLLM/MLLMベースの手法の性能を大きく上回ることを示した。

Slide 5

Slide 5 text

目次 Agenda ● 背景 ● 提案手法 ● まとめ

Slide 6

Slide 6 text

背景

Slide 7

Slide 7 text

Slide 8

Slide 8 text

© LayerX Inc. 8 Document AIのタスクは幅広い背景 ● Document Classification ○ 書類種別は何か？ → 請求書 ● Document QA ○ 請求金額はいくら？ → 242,000 ● Layout Detection ○ 明細テーブルはどこ？ → [20, 150, 200, 300] ● Information Extraction ○ 取引先名：株式会社東日本橋 + bboxの位置画像、テキスト、レイアウト情報が重要になる

Slide 9

Slide 9 text

© LayerX Inc. 9 Document AIと大規模言語モデル背景 ● Document AIは大規模データセットで事前学習し、ファインチューニングすることにより、優れた性能を達成している ● 実世界では日々いろんなタイプのドキュメントが生まれる ● ファインチューニングには限界があり、ゼロショット性能が重要 ● ChatGPTのようなLLMやマルチモーダルLLM(MLLM)は、フ様々なタスクでゼロショット性能を示している ● Document AIも例外ではない ○ OCRで座標(bbox)抽出はできなかった ○ DocVQAやInformation Extractionはそこそこできた

Slide 10

Slide 10 text

Slide 11

Slide 11 text

© LayerX Inc. 11 MLLMの場合 1. OCRでドキュメントからテキストを抽出 2. テキストと質問と画像をプロンプトに与える 3. 回答生成課題 ● Visual Encoderで画像特徴をLLMに入力しているが、正しい回答ができないことが多い ● レイアウト情報を、暗黙的に画像特徴として渡しているだけなので、レイアウトを考慮した上での回答ができない ○ 表の行や列を指定した質問など難しい既存手法背景

Slide 12

Slide 12 text

© LayerX Inc. 12 本論文における貢献背景 ● レイアウトを考慮したinstruction形式の学習手法であるLayout instruction tuningを提案 ○ Layout-aware pre-training(事前学習) ○ Layout-aware SFT(ファインチューニング) ● レイアウトを考慮したChain-of-Thought(CoT)であるLayout CoTを提案 ○ 回答を段階的に行うことで、回答の信頼性と解釈性が向上 ○ 対話的に修正が可能なので、より正確な回答の生成が可能 ● ゼロショットのDocument AIに関するベンチマークの結果、オープンソースの7B LLM/MLLMを大幅に上回った

Slide 13

Slide 13 text

提案手法

Slide 14

Slide 14 text

© LayerX Inc. 14 ● 基本的にはLLaVAのようなシンプルな設計 ● 画像エンコーダの代わりにマルチモーダルなエンコーダであるLayoutLMv3を利用 ○ 教師あり設定のSOTAモデルの事前学習モデルで初期化 ○ 画像、テキスト、bbox(レイアウト)を入力し、ドキュメントの特徴を抽出 ● ドキュメント特徴はProjectorでドキュメント埋め込みに変換 ● ドキュメント埋め込みを質問の埋め込みと共に LLMに入力アーキテクチャ LayoutLLM

Slide 15

Slide 15 text

Slide 16

Slide 16 text

© LayerX Inc. 16 Layout-aware pre-training Layout Instruction Turning 以下の3つレベルのレイアウト情報を明示的に考慮した7種類の事前学習タスクを行う ● Documentレベル ● Regionレベル ● Segmentレベルタスクごとにドキュメント画像に対する特定の質問(指示)があり、それに対してLLMが回答を生成するようなinstruction tuning形式で学習

Slide 17

Slide 17 text

© LayerX Inc. 17 ドキュメント全体の(グローバルな)レイアウト情報を考慮し、回答を生成するように学習 ● Document Dense Description ○ ドキュメント全体に関するキャプションを生成 ■ Q: このドキュメントについて詳細な説明をしてください。 ■ A: この文書は、2024年7月7日付けの手紙で、宛先は... ● Text and Layout Reconstruction ○ ドキュメント画像のマスクされた全てのテキストとレイアウトを再構成 ■ Q: このドキュメントのマスクされた全てのテキストと座標情報を生成してください。 ■ A: <[528, 124, 658, 146], 関東>, <[33, 407, 187, 424],　コンピュータビジョン>, <[35, 423, 452, 413], 勉強会>... Documentレベルの事前学習 Layout-aware pre-training

Slide 18

Slide 18 text

© LayerX Inc. 18 DocumentとSegmentの中間くらいのレイアウト情報を考慮し、回答を生成するように学習 ● Document Layout Analysis ○ 特定の項目の領域と種類を回答 ■ Q: 図はどこにありますか？ ■ A: [181, 64, 454, 875]と[577, 675, 780, 814]に2つあります。 ● Table Understanding ○ テーブル領域における行と列の情報を回答 ■ Q: このテーブルにはいくつの行と列がありますか？ ■ A: 行が14で、列が9あります。 Regionレベルの事前学習 Layout-aware pre-training

Slide 19

Slide 19 text

© LayerX Inc. 19 テキストレベルの(ローカルな)レイアウト情報を考慮し、回答を生成するように学習 ● Masked Vision Language Modeling ○ 画像上のテキストをランダムにマスキングし、その部分のテキストを生成 ■ Q: のテキストの内容はなんですか？ ■ A: ”コンピュータビジョン” ● Mask Position Instruction ○ 入力テキストのbboxの座標を生成 ■ Q: “勉強会”というテキストはbboxはどこですか？ ■ A:　[15, 20, 70 ,30]です。 ● Geometric Layout Instruction ○ ランダムな2つのテキストの位置関係を生成 ■ Q: “日付”からみた”金額”の方向と距離を教えてください。 ■ A:　方向は右下で、距離は100です。 Segmentレベルの事前学習 Layout-aware pre-training

Slide 20

Slide 20 text

© LayerX Inc. 20 ● 複数の公開データセットからランダムサンプリング ● 事前学習タスクごとにデータを作成 ○ Documentレベル ■ Document Dense Descriptionタスクは、GPT3.5-Turboでキャプションを生成 ○ Regionレベル ■ 元データセットのテキストやbboxなどのアノテーションを利用 ○ Segmentレベル ■ テキストや画像をマスキングする形でself-supervised learning用データを生成 570万の質問と回答のペアを作成し、instruction形式で学習データセット収集 Layout-aware pre-training

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

© LayerX Inc. 23 ドキュメントのレイアウト情報を根拠とした正確な回答を生成するために、3つの段階的な思考の中間ステップで構成 LayoutCoT Layout-aware SFT 1. Question Analysis ○ ドキュメント全体のレイアウトと質問を照会し質問を分析することで、回答の方針を決める 2. Relevant Area Concentration ○ 1で分析した回答方針からドキュメント上の関連する領域を探し、その領域の位置情報を生成する 3. Answer Formation ○ 2の結果からドキュメントのどこに注目すべきか探索範囲を狭めつつ、正しい回答を生成する

Slide 24

Slide 24 text

© LayerX Inc. 24 ● 複数の公開データセットからランダムサンプリング ● OCRやPDFパーサでドキュメント画像からテキストとbboxを抽出 ● 段階的な回答プロセスの正解が必要なので、GPT3.5-Turboでアノテーション a. 元のQAデータセットの質問の分析 b. 回答の根拠となるbboxの座標は元のデータセットのbboxを使用 c. 回答の根拠となるテキストと最終的な回答を生成データセット収集 Layout-aware SFT

Slide 25

Slide 25 text

© LayerX Inc. 25 モデルの設定 ● エンコーダとして、LayoutLMv3-largeを使用 ● LLMはVicuna-7B-v1.5の重みで初期化 ● エンコーダとLLM以外のパラメータはランダムに初期化し、事前学習ではLLM以外のパラメータを更新 ● ファインチューニングでは、エンコーダをフリーズしそれ以外のLLMを含むパラメータを更新評価方法 ● ゼロショット性能を評価 ● 標準的なベンチマークのDocVQAとQA for Visual Information Extraction(VIE)で実験 ○ DocVQA(DocVQA: 5,188問、VisualMRC: 6,708問) ○ QA for VIE(FUNSD: 50問、CORD: 100問、SROIE: 347問) 実験設定実験設定

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

© LayerX Inc. 28 Q: 1954年7月の所得税の源泉徴収額はいくらですか？ → 正解: なし A(既存手法): $22.00(Vicuna-1.5-7B)、$22.38(Qwen-VL-7B) 定性評価1 評価 A(LayoutLLM): Step1. この質問はキーと値の抽出に関するもので、 1954年7月の所得税の源泉徴収額について尋ねています。 Step2. その答えは、次の領域で見つけることができます: [153, 433, 756, 559]。 Step3. 1954年7月の所得税の源泉徴収額は、文書に記載されている通り「None」です。

Slide 29

Slide 29 text

© LayerX Inc. 29 Q: Exit 2004の総額はいくらですか？ → 正解: 70.31 A(既存手法): 79.19(Vicuna-1.5-7B)、82.39(Qwen-VL-7B) 定性評価2 評価 A(LayoutLLM w/o LayoutCoT): 64.73 A(LayoutLLM): Step1. この質問はテーブルに関するもので、Exit 2004の総額を尋ねています。 Step2. その答えは、次の領域で見つけることができます: [118, 249, 840, 390]。 Step3. Exit 2004の総額を見つけるには、「Exit 2004」列の対応する値を探す必要があります。関連する文章から、Exit 2004の総額が「70.31」であることがわかります。

Slide 30

Slide 30 text

© LayerX Inc. 30 Step1: この質問はキーと値の抽出に関するもので、「vender」について尋ねています。 Step2: その答えは、次の領域で見つけることができます: [28, 123, 317, 148]。 Step3: 表に入力された「ベンダー」の名前は、Roger Emerson Jr. MDです。定性評価3 評価 Step1: この質問はキーと値の抽出に関するもので、「vender」について尋ねています。 Step2: その答えは、次の領域で見つけることができます: [46, 702, 467, 839]。 Step3: 表に入力された「ベンダー」の番号は、013684です。対話による回答の修正の例回答の根拠となる正しい領域(bbox)を特定し回答を再生成し修正 Q: ページの左下にある表で、「vender」に入力されている番号は何ですか？正解: 013684 間違った回答正しい回答の再生成

Slide 31

Slide 31 text

まとめ

Slide 32

Slide 32 text

© LayerX Inc. 32 まとめまとめ ● Document AIのための大規模言語モデルであるLayoutLLMの紹介 ● レイアウトを明示的に考慮したLayout instruction tuningを提案 ● LayoutCoTで段階的に回答を生成することによって、回答の精度および信頼性と解釈性が向上 ○ 対話的に修正し正しい回答を生成することも可能 ● 結果として、ゼロショットの性能評価において、標準的なベンチマークで既存手法を大きく上回った

Slide 33

Slide 33 text

ご清聴ありがとうございました

Slide 34

Slide 34 text

© LayerX Inc. 34 参考文献 [1] https://github.com/JaidedAI/EasyOCR [2] PubLayNet: largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836 [3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609