Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
320
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
J-STAGEおよびJxivの現況
xspa2012
0
210
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
75
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
xspa2012
0
440
全文XML作成ツールの感想
xspa2012
0
360
全文 XML 作成ツールについて
xspa2012
0
390
InDesignからのXML書き出し
xspa2012
0
860
oXygenによる作成技法
xspa2012
0
240
学術情報を結びつ ける識別子
xspa2012
1
130
Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki
xspa2012
0
150
Other Decks in Technology
See All in Technology
encoding/json v2を予習しよう!
yuyu_hf
PRO
1
220
とあるEdTechベンチャーのシステム構成こだわりN選 / edtech-system
gotok365
5
380
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
730
計装を見直してアプリケーションパフォーマンスを改善させた話
donkomura
2
180
SaaS公式MCPサーバーをリリースして得た学び
kawamataryo
5
1.4k
dbtとリバースETLでデータ連携の複雑さに立ち向かう
morookacube
0
1.6k
OCI Full Stack Disaster Recovery サービス概要
oracle4engineer
PRO
1
120
本番環境への影響リスクが低い Real Application Testing (SQL Performance Analyzer) の実施方法の検討と実践
jri_narita
0
200
ITベンダーから見る内製化支援の本質/in-house-dev
slsops
1
180
チェックツールを導入したけど使ってもらえなかった話 #GAADjp
lycorptech_jp
PRO
1
140
VitePress & MCPでアプリ仕様のオープン化に挑戦する
hal_spidernight
0
150
Next.jsと状態管理のプラクティス
uhyo
6
2.4k
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.2k
For a Future-Friendly Web
brad_frost
177
9.7k
Making Projects Easy
brettharned
116
6.2k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
720
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3k
How GitHub (no longer) Works
holman
314
140k
Fontdeck: Realign not Redesign
paulrobertlloyd
84
5.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
19
1.2k
Stop Working from a Prison Cell
hatefulcrawdad
268
20k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.2k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
34
2.2k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/