学術情報XML推進協議会セミナー 日時 :2020年8月8日(火曜日)16:30 – 17:00 場所:アルカディア市ヶ谷(私学会館)
Chat GPTによるXML自動生成の可能性家入 千晶(小宮山印刷工業株式会社)
View Slide
テスト用に用意したデータ1. PDFから書き出ししたテキスト2. 1を加工したテキスト3. PDFからコピペし、加工したテキスト4. 組版ソフトから書き出したテキスト5. 著者原稿から書き出したテキスト6. PDFから書き出したテキスト(日英混在文書)1と2の比較で入力ファイルの整形は有効かどうか、2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の著者原稿から書き出したテキストでは、不足している情報を勝手に補完しするなど、不安な点も見られた。要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされてしまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるものと思われる。
日英混在文書の解析は英文のみの文書に比べて構造の解析が難しいようではあるが、要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は?• 出力結果が安定しない• 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、図表などは別途処理が必要• 処理速度もトラフィックに依存する• 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの?SciSpace for Publishers / MS-Word to JATS XML Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/