Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
220
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
J-STAGEおよびJxivの現況
xspa2012
0
150
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
40
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
xspa2012
0
320
全文XML作成ツールの感想
xspa2012
0
300
全文 XML 作成ツールについて
xspa2012
0
280
InDesignからのXML書き出し
xspa2012
0
690
oXygenによる作成技法
xspa2012
0
170
学術情報を結びつ ける識別子
xspa2012
1
100
Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki
xspa2012
0
130
Other Decks in Technology
See All in Technology
Functional TypeScript
naoya
11
4.7k
Swift Testingのconfirmationを コードリーディング/Dive into Swift Testing confirmation
laprasdrum
1
240
言葉は感情の近似値である。その感情と言葉の誤差を最小化しよう ~コミュニケーションにおけるアナログ/デジタル変換の課題に立ち向かう~
nktamago
0
160
スタッフエンジニアの道: The Staff Engineer’s Path
snoozer05
PRO
43
14k
OR学会2024秋_短期収益と将来のオフ方策評価性能を考慮したクーポン割当方策混合比の決定
recruitengineers
PRO
4
450
PdMはどのように全てのスピードを上げられるか ~ 非連続進化のための具体的な取り組み ~
sansantech
PRO
4
1.1k
LLVM/ASMを使った有限体の高速実装
herumi
0
120
スーパーマリオRPGのリメイク版の変更点からみるUX
nishiharatsubasa
1
340
ロリポップ! for Gamersを支えるインフラ/lolipop for gamers infrastructure
takumakume
0
120
Autonomous Database Serverless 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
15
40k
再考 アクターモデル/ reconsider actor model
ytake
0
160
Oracle Autonomous Database:サービス概要のご紹介
oracle4engineer
PRO
1
7k
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
21
3k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
How to Think Like a Performance Engineer
csswizardry
16
950
Documentation Writing (for coders)
carmenintech
65
4.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
190
16k
The Brand Is Dead. Long Live the Brand.
mthomps
53
38k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
278
13k
The Mythical Team-Month
searls
218
43k
Fantastic passwords and where to find them - at NoRuKo
philnash
48
2.8k
For a Future-Friendly Web
brad_frost
174
9.3k
Typedesign – Prime Four
hannesfritz
39
2.3k
The Cost Of JavaScript in 2023
addyosmani
42
5.6k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/