Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
350
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
力任せ法_20250609_ Nakanishi Printing Company, Ltd
xspa2012
0
41
eXtyles3B2-JATS-XML_20250609_komiyama printing co.,Ltd..
xspa2012
0
33
OxygenとAntenna House Formatterで作る_20250609_Antenna House
xspa2012
0
28
即時OA時代のJATS XMLの重要性_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
28
AI活用_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
45
J-STAGEおよびJxivの現況
xspa2012
0
250
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
99
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
xspa2012
1
490
全文XML作成ツールの感想
xspa2012
0
380
Other Decks in Technology
See All in Technology
【CEDEC2025】『ウマ娘 プリティーダービー』における映像制作のさらなる高品質化へ!~ 豊富な素材出力と制作フローの改善を実現するツールについて~
cygames
PRO
0
240
Claude Codeは仕様駆動の夢を見ない
gotalab555
23
5.4k
大規模イベントに向けた ABEMA アーキテクチャの遍歴 ~ Platform Strategy 詳細解説 ~
nagapad
0
190
dipにおけるSRE変革の軌跡
dip_tech
PRO
1
240
MCP認可の現在地と自律型エージェント対応に向けた課題 / MCP Authorization Today and Challenges to Support Autonomous Agents
yokawasa
5
2k
Vision Language Modelと自動運転AIの最前線_20250730
yuyamaguchi
3
1.2k
Segment Anything Modelの最新動向:SAM2とその発展系
tenten0727
0
540
Serverless Meetup #21
yoshidashingo
1
110
Claude CodeでKiroの仕様駆動開発を実現させるには...
gotalab555
3
930
Amazon Q と『音楽』-ゲーム音楽もAmazonQで作成してみた感想-
senseofunity129
0
120
Oracle Cloud Infrastructure:2025年7月度サービス・アップデート
oracle4engineer
PRO
1
130
相互運用可能な学修歴クレデンシャルに向けた標準技術と国際動向
fujie
0
210
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Designing Experiences People Love
moore
142
24k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
How STYLIGHT went responsive
nonsquared
100
5.7k
How to Think Like a Performance Engineer
csswizardry
25
1.8k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
Practical Orchestrator
shlominoach
190
11k
Why Our Code Smells
bkeepers
PRO
337
57k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/