$30 off During Our Annual Pro Sale. View Details »

Chat GPTによるXML自動生成の可能性

XSPA
August 08, 2023

Chat GPTによるXML自動生成の可能性

学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館) 

XSPA

August 08, 2023
Tweet

More Decks by XSPA

Other Decks in Technology

Transcript

  1. Chat GPTによる
    XML自動生成の可能性
    家入 千晶(小宮山印刷工業株式会社)

    View Slide

  2. テスト用に用意したデータ
    1. PDFから書き出ししたテキスト
    2. 1を加工したテキスト
    3. PDFからコピペし、加工したテキスト
    4. 組版ソフトから書き出したテキスト
    5. 著者原稿から書き出したテキスト
    6. PDFから書き出したテキスト(日英混在文書)
    1と2の比較で入力ファイルの整形は有効かどうか、
    2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証

    View Slide

  3. テキストファイルは整形をしたほうがよいか
    1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは
    各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が
    上がり、変換エラーが少ないようであった。

    View Slide

  4. 整形をしたデータならばどのようなテキストでもよいか
    3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを
    入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の
    著者原稿から書き出したテキストでは、不足している情報を勝手に補完し
    するなど、不安な点も見られた。
    要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて
    しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの
    と思われる。

    View Slide

  5. 日英混在文書の解析は
    英文のみの文書に比べて構造の解析が難しいようではあるが、
    要素が対になっていれば比較的よい結果が得らえることがわかった。

    View Slide

  6. 実際のワークフローに取り込める可能性は?
    • 出力結果が安定しない
    • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、
    図表などは別途処理が必要
    • 処理速度もトラフィックに依存する
    • 多言語文書では対になっていないと解析を誤る

    View Slide

  7. AIでのJATS XML自動生成はまだ無理なの?
    SciSpace for Publishers / MS-Word to JATS XML Converter

    View Slide

  8. https://typeset.io/for-publishers/convert/word-to-jats-xml/

    View Slide