Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LMDX / 論文紹介 LMDX:Language Model-based Document ...

ymicky06
October 11, 2024
20

LMDX / 論文紹介 LMDX:Language Model-based Document Information Extraction and Localization

ymicky06

October 11, 2024
Tweet

Transcript

  1. document information extractionの難しさ • 多様なテンプレート、情報のレイアウト • スタンプや手書き文字 • 文書の回転やコントラスト •

    高い精度が求められ、文書内のドキュメントのどこから情報を抽出した のかを示す必要がある ◦ 人間による確認や修正のしやすさ • 限られたアノテーションリソース
  2. 3. Prompt Generation • ChunkingされたN個の文書チャンクに対してプロンプトを作る • 以下の方法が含まれる ◦ ドキュメント情報、タスク説明、スキーマ •

    ドキュメントの表現方法 ◦ 「<セグメント内のテキスト情報> XX|YY」という形式でテキ ストセグメントをすべて結合 ◦ 座標情報を正規化してB個のバケットに量子化され、index 番号として表現 ◦ ここはいろいろなバリエーションが考えられる ▪ セグメント・ビニングの粒度、座標の表現数 ◦ 論文の設定は行単位セグメント、B=100、2つのセンター座 標
  3. 3. Prompt Generation • タスク説明 ◦ “From the document, extract

    the text values and tags of the following entities” ◦ ここは自分たちのやり方でより作り込めそう
  4. 4. LLM inference • json形式で出力 • entityはプロンプトのドキュメント情報と同じ形式で出力させる ◦ 座標情報を含む。これを使用して文書中のどこから抽出したかを判定 ◦

    < text on segment1 > XX|YYsegment1\n < text on segment2 > XX|Y Ysegment2\n … ▪ fine tuningしない場合、こんなにうまく出力してくれるのか謎 ◦ 見つけられなかったエンティティは null or [] で表現 ◦ チャンクごとのN個のプロンプトそれぞれに対してK回推論を行い、最終的な出力を 決定する ▪ 後述するがこれはそんなに必要ないかも
  5. 5. Decoding • スキーマに指定していないのに抽出された entityは破棄 • 単一の値を抽出するように指定したのに複数の値が抽出されていた場合、最も出現頻度 の高いものを採用 • LLMの生出力を最終的に欲しい

    entityと座標に変換する • 座標情報をもとに文書中の該当するテキストセグメントを特定、抽出されたテキストが正確 に元のテキストと一致しているかどうかを検証 ◦ ハルシネーション防止 • 抽出したentityに含まれるすべての単語セグメントを包含する最小の bboxを計算し、entity のbboxを計算 • 同文書チャンクのK個の出力をentity種ごとに多数決で決める • etc
  6. 実験設定 • LLMとしてPaLM2-SとGemini Proを使用 • 2段階でfinetuning ◦ 1段階 ▪ 様々なパターンの文書を集めた上で内部ツールでアノテーションしたものを利

    用 ▪ 様々な文書や抽出タスク、階層構造パターンを学習させる ◦ 2段階 ▪ 解きたいタスクに特化したファインチューン ▪ ゼロショットの実験設定ではここはやらない
  7. データセット • Visually Rich Document Understanding (VRDU) ◦ registration form

    ◦ ad-buy form • Consolidated Receipt Dataset (CORD) ◦ インドネシアの店舗の領収書データセット