Chat GPTによるXML自動生成の可能性

Chat GPTによる XML自動生成の可能性家入千晶（小宮山印刷工業株式会社）

テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト（日英混在文書） 1と2の比較で入力ファイルの整形は有効かどうか、 2～5の比較で入力ファイルのレイアウトによる違いがあるかを検証

テキストファイルは整形をしたほうがよいか１と２の変換結果の比較では、全く整形をしていないベタなテキストよりは各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が上がり、変換エラーが少ないようであった。

整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の著者原稿から書き出したテキストでは、不足している情報を勝手に補完しするなど、不安な点も見られた。要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされてしまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるものと思われる。

日英混在文書の解析は英文のみの文書に比べて構造の解析が難しいようではあるが、要素が対になっていれば比較的よい結果が得らえることがわかった。

実際のワークフローに取り込める可能性は？ • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る

AIでのJATS XML自動生成はまだ無理なの？ SciSpace for Publishers / MS-Word to JATS XML
Converter

https://typeset.io/for-publishers/convert/word-to-jats-xml/

Chat GPTによるXML自動生成の可能性

Chat GPTによるXML自動生成の可能性

XSPA

More Decks by XSPA

Other Decks in Technology

Featured

Transcript