Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
380
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
即時オープンアクセス義務化とXML推進_20250729_ Nakanishi Printing Company, Ltd
xspa2012
0
89
J-STAGEの現況とメタデータの重要性_20250729_ Japan Science and Technology Agency
xspa2012
0
61
力任せ法_20250609_ Nakanishi Printing Company, Ltd
xspa2012
0
72
eXtyles3B2-JATS-XML_20250609_komiyama printing co.,Ltd..
xspa2012
0
60
OxygenとAntenna House Formatterで作る_20250609_Antenna House
xspa2012
0
49
即時OA時代のJATS XMLの重要性_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
55
AI活用_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
70
J-STAGEおよびJxivの現況
xspa2012
0
280
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
120
Other Decks in Technology
See All in Technology
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.6k
202512_AIoT.pdf
iotcomjpadmin
0
180
RALGO : AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
3
860
国井さんにPurview の話を聞く会
sophiakunii
1
330
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
I tried making a solo advent calendar!
zzzzico
0
140
20251225_たのしい出張報告&IgniteRecap!
ponponmikankan
0
110
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
140
業務の煩悩を祓うAI活用術108選 / AI 108 Usages
smartbank
9
19k
AI with TiDD
shiraji
1
340
迷わない!AI×MCP連携のリファレンスアーキテクチャ完全ガイド
cdataj
0
320
田舎で20年スクラム(後編):一個人が企業で長期戦アジャイルに挑む意味
chinmo
1
1.2k
Featured
See All Featured
The agentic SEO stack - context over prompts
schlessera
0
580
How to Talk to Developers About Accessibility
jct
1
94
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
48
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
270
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
140
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
AI: The stuff that nobody shows you
jnunemaker
PRO
1
160
The browser strikes back
jonoalderson
0
300
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
110
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
40
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/