Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
330
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
力任せ法_20250609_ Nakanishi Printing Company, Ltd
xspa2012
0
30
eXtyles3B2-JATS-XML_20250609_komiyama printing co.,Ltd..
xspa2012
0
24
OxygenとAntenna House Formatterで作る_20250609_Antenna House
xspa2012
0
19
即時OA時代のJATS XMLの重要性_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
18
AI活用_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
34
J-STAGEおよびJxivの現況
xspa2012
0
230
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
89
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
xspa2012
0
460
全文XML作成ツールの感想
xspa2012
0
370
Other Decks in Technology
See All in Technology
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
2.6k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
43
26k
評価の納得感を2段階高める「構造化フィードバック」
aloerina
1
160
讓測試不再 BB! 從 BDD 到 CI/CD, 不靠人力也能 MVP
line_developers_tw
PRO
0
150
TODAY 看世界(?) 是我們在看扣啦!
line_developers_tw
PRO
0
160
What's new in OpenShift 4.19
redhatlivestreaming
1
230
VCpp Link and Library - C++ breaktime 2025 Summer
harukasao
0
150
Securing your Lambda 101
chillzprezi
0
260
Workflows から Agents へ ~ 生成 AI アプリの成長過程とアプローチ~
belongadmin
3
150
Cloud Native Scalability for Internal Developer Platforms
hhiroshell
2
450
Long journey of Continuous Delivery at Mercari
hisaharu
1
210
doda開発 生成AI元年宣言!自家製AIエージェントから始める生産性改革 / doda Development Declaration of the First Year of Generated AI! Productivity Reforms Starting with Home-grown AI Agents
techtekt
0
140
Featured
See All Featured
Faster Mobile Websites
deanohume
307
31k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.3k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.3k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.5k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
The Straight Up "How To Draw Better" Workshop
denniskardys
233
140k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Why Our Code Smells
bkeepers
PRO
337
57k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
650
Building Applications with DynamoDB
mza
95
6.4k
Typedesign – Prime Four
hannesfritz
42
2.7k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/