Slide 17
Slide 17 text
© LayerX Inc. 17
ドキュメント全体の(グローバルな)レイアウト情報を考慮し、回答を生成するように学習
● Document Dense Description
○ ドキュメント全体に関するキャプションを生成
■ Q: このドキュメントについて詳細な説明をしてください。
■ A: この文書は、2024年7月7日付けの手紙で、宛先は...
● Text and Layout Reconstruction
○ ドキュメント画像のマスクされた全てのテキストとレイアウトを再構成
■ Q: このドキュメントのマスクされた全てのテキストと座標情報を生成してください。
■ A: <[528, 124, 658, 146], 関東>, <[33, 407, 187, 424], コンピュータビジョ
ン>, <[35, 423, 452, 413], 勉強会>...
Documentレベルの事前学習
Layout-aware pre-training