Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
380
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
即時オープンアクセス義務化とXML推進_20250729_ Nakanishi Printing Company, Ltd
xspa2012
0
89
J-STAGEの現況とメタデータの重要性_20250729_ Japan Science and Technology Agency
xspa2012
0
61
力任せ法_20250609_ Nakanishi Printing Company, Ltd
xspa2012
0
72
eXtyles3B2-JATS-XML_20250609_komiyama printing co.,Ltd..
xspa2012
0
60
OxygenとAntenna House Formatterで作る_20250609_Antenna House
xspa2012
0
49
即時OA時代のJATS XMLの重要性_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
55
AI活用_20250609_ Nakanishi Printing Company, Ltd.
xspa2012
0
70
J-STAGEおよびJxivの現況
xspa2012
0
280
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
120
Other Decks in Technology
See All in Technology
AIと融ける人間の冒険
pujisi
0
110
『君の名は』と聞く君の名は。 / Your name, you who asks for mine.
nttcom
1
150
複雑さを受け入れるか、拒むか? - 事業成長とともに育ったモノリスを前に私が考えたこと #RSGT2026
murabayashi
1
1.4k
2025年 山梨の技術コミュニティを振り返る
yuukis
0
150
わが10年の叡智をぶつけたカオスなクラウドインフラが、なくなるということ。
sogaoh
PRO
1
330
歴史から学ぶ、Goのメモリ管理基礎
logica0419
10
2.3k
SES向け、生成AI時代におけるエンジニアリングとセキュリティ
longbowxxx
0
300
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
2
720
人工知能のための哲学塾 ニューロフィロソフィ篇 第零夜 「ニューロフィロソフィとは何か?」
miyayou
0
380
#22 CA × atmaCup 3rd 1st Place Solution
yumizu
1
130
テストセンター受験、オンライン受験、どっちなんだい?
yama3133
0
200
製造業から学んだ「本質を守り現場に合わせるアジャイル実践」
kamitokusari
0
430
Featured
See All Featured
How Software Deployment tools have changed in the past 20 years
geshan
0
31k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
420
Product Roadmaps are Hard
iamctodd
PRO
55
12k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
87
Exploring anti-patterns in Rails
aemeredith
2
220
A Tale of Four Properties
chriscoyier
162
23k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
97
Practical Orchestrator
shlominoach
190
11k
Claude Code のすすめ
schroneko
67
210k
Thoughts on Productivity
jonyablonski
73
5k
Color Theory Basics | Prateek | Gurzu
gurzu
0
170
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/