Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
380
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
即時オープンアクセス義務化とXML推進_20250729_ Nakanishi Printing Company, Ltd
xspa2012
0
87
J-STAGEの現況とメタデータの重要性_20250729_ Japan Science and Technology Agency
xspa2012
0
57
力任せ法_20250609_ Nakanishi Printing Company, Ltd
xspa2012
0
68
eXtyles3B2-JATS-XML_20250609_komiyama printing co.,Ltd..
xspa2012
0
58
OxygenとAntenna House Formatterで作る_20250609_Antenna House
xspa2012
0
47
即時OA時代のJATS XMLの重要性_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
52
AI活用_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
67
J-STAGEおよびJxivの現況
xspa2012
0
280
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
110
Other Decks in Technology
See All in Technology
日本の AI 開発と世界の潮流 / GenAI Development in Japan
hariby
2
700
小さく、早く、可能性を多産する。生成AIプロジェクト / prAIrie-dog
visional_engineering_and_design
0
200
Keynoteから見るAWSの頭の中
nrinetcom
PRO
1
130
The State of AI Agent Security:2025年の総括と2026年の宿題
pict3
0
110
フィッシュボウルのやり方 / How to do a fishbowl
pauli
2
430
20251222_サンフランシスコサバイバル術
ponponmikankan
2
150
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
290
Agentic AIが変革するAWSの開発・運用・セキュリティ ~Frontier Agentsを試してみた~ / Agentic AI transforms AWS development, operations, and security I tried Frontier Agents
yuj1osm
0
140
Bedrock AgentCore Evaluationsで学ぶLLM as a judge入門
shichijoyuhi
2
290
Agent Skillsがハーネスの垣根を超える日
gotalab555
6
4.8k
2025年 山梨の技術コミュニティを振り返る
yuukis
0
120
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
3
210
Featured
See All Featured
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
330
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Building the Perfect Custom Keyboard
takai
1
660
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
520
Done Done
chrislema
186
16k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
80
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
We Are The Robots
honzajavorek
0
130
Mobile First: as difficult as doing things right
swwweet
225
10k
Become a Pro
speakerdeck
PRO
31
5.8k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.4k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/