Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
150
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
J-STAGEおよびJxivの現況
xspa2012
0
110
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
31
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
xspa2012
0
280
全文XML作成ツールの感想
xspa2012
0
270
全文 XML 作成ツールについて
xspa2012
0
240
InDesignからのXML書き出し
xspa2012
0
590
oXygenによる作成技法
xspa2012
0
140
学術情報を結びつ ける識別子
xspa2012
1
88
Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki
xspa2012
0
130
Other Decks in Technology
See All in Technology
開発スピードの維持向上を支える、テスト設計の 漸進的進化への取り組み / Continuous Test Design Development for Speed of Product Development
ropqa
0
190
Real World Type Puzzle and Code Generation
yukukotani
4
650
AWS アーキテクチャ作図入門/aws-architecture-diagram-101
ma2shita
16
6.7k
Password cracking: past, present, future
openwall
0
330
Money-saving tips for the frugal serverless developer
theburningmonk
1
430
My road to OSEE Part1
yunolay
0
130
Step by Stepで学ぶ、ADT(代数的データ型)、モナドからEffect-TSまで
leveragestech
1
3.3k
Databricksの生成AI戦略
taka_aki
1
390
AWSの生成AI入門書を執筆しました🎉
minorun365
PRO
0
160
CloudflareとHonoを使って飲食店のレビューができるLINEアプリを作った
shinaps
2
850
TypeScript の抽象構文木を用いた、数百を超える API の大規模リファクタリング戦略
yanaemon
6
1.3k
LINEヤフーのウェブアクセシビリティ
lycorptech_jp
PRO
3
220
Featured
See All Featured
Clear Off the Table
cherdarchuk
86
310k
The Invisible Side of Design
smashingmag
294
49k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
7k
Automating Front-end Workflow
addyosmani
1357
200k
Making Projects Easy
brettharned
109
5.6k
The MySQL Ecosystem @ GitHub 2015
samlambert
244
12k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Learning to Love Humans: Emotional Interface Design
aarron
268
39k
Thoughts on Productivity
jonyablonski
60
3.9k
Side Projects
sachag
451
41k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
275
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
22
1.6k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/