Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chat GPTによるXML自動生成の可能性
Search
XSPA
August 08, 2023
Technology
0
140
Chat GPTによるXML自動生成の可能性
学術情報XML推進協議会セミナー
日時 :2020年8月8日(火曜日)16:30 – 17:00
場所:アルカディア市ヶ谷(私学会館)
XSPA
August 08, 2023
Tweet
Share
More Decks by XSPA
See All by XSPA
J-STAGEおよびJxivの現況
xspa2012
0
110
デジタルアーカイブとしての電子ジャーナル
xspa2012
0
29
日本のデジタル辞書を支えるXMLフォーマット"LeXML"
xspa2012
0
270
全文XML作成ツールの感想
xspa2012
0
260
全文 XML 作成ツールについて
xspa2012
0
230
InDesignからのXML書き出し
xspa2012
0
580
oXygenによる作成技法
xspa2012
0
130
学術情報を結びつ ける識別子
xspa2012
1
87
Text Encoding Initiative のご紹介/ 20190802-xml-nagasaki
xspa2012
0
130
Other Decks in Technology
See All in Technology
LayerXにおけるLLMプロダクト開発の今までとこれから
layerx
PRO
3
590
生成AIの変革の時代に、直近1年で直面した課題とその解決策
ktc_wada
0
510
ゼロから始めるVue.jsコミュニティ貢献 / first-vuejs-community-contribution-link-and-motivation
lmi
1
150
Amplify 🩷 Bedrock 〜生成AI入門〜
minorun365
PRO
7
350
How to do well in consulting–Balkan Ruby 2024
irinanazarova
0
120
Rustで「プリズモイダル法」を利用して「土量計算」をガチでやる
nokonoko1203
1
240
IPUT App Dev. Co. -Overview 2024/4
iputapp
0
120
LLM開発・活用の舞台裏@2024.04.25
yushin_n
3
1.1k
TechFeed Experts Night#27 〜 フロントエンドフレームワーク最前線 (Svelte)
baseballyama
2
590
コードや知識を組み込む / Incorporate Code and knowledge
ks91
PRO
0
130
今日からできる!簡単 .NET 高速化 Tips -2024 edition-
xin9le
7
3.4k
よく聞くけど使ったことないソフトウェアNo.1 KafkaとSnowflake
foursue
4
470
Featured
See All Featured
Producing Creativity
orderedlist
PRO
338
39k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
51k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
188
16k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
352
28k
The Illustrated Children's Guide to Kubernetes
chrisshort
32
46k
For a Future-Friendly Web
brad_frost
172
9k
Music & Morning Musume
bryan
41
5.6k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
A Philosophy of Restraint
colly
197
16k
The Mythical Team-Month
searls
216
42k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
Transcript
Chat GPTによる XML自動生成の可能性 家入 千晶(小宮山印刷工業株式会社)
テスト用に用意したデータ 1. PDFから書き出ししたテキスト 2. 1を加工したテキスト 3. PDFからコピペし、加工したテキスト 4. 組版ソフトから書き出したテキスト 5.
著者原稿から書き出したテキスト 6. PDFから書き出したテキスト(日英混在文書) 1と2の比較で入力ファイルの整形は有効かどうか、 2~5の比較で入力ファイルのレイアウトによる違いがあるかを検証
テキストファイルは整形をしたほうがよいか 1と2の変換結果の比較では、全く整形をしていないベタなテキストよりは 各要素の区切りがわかるように多少整形をしたファイルのほうが認識率が 上がり、変換エラーが少ないようであった。
整形をしたデータならばどのようなテキストでもよいか 3のPDFからのコピペテキストと4の組版ソフトから書き出したテキストデータを 入力ファイルとした場合の比較ではほぼ同等の結果を得られたものの、5の 著者原稿から書き出したテキストでは、不足している情報を勝手に補完し するなど、不安な点も見られた。 要素の出現順が標準的な論文体裁とは異なる場合、誤った解析がされて しまう傾向があったため、著者原稿も同様の理由で解析エラーが生じるもの と思われる。
日英混在文書の解析は 英文のみの文書に比べて構造の解析が難しいようではあるが、 要素が対になっていれば比較的よい結果が得らえることがわかった。
実際のワークフローに取り込める可能性は? • 出力結果が安定しない • 入力ファイルがテキストのため、上下付きなど書式付きのテキストや数式、 図表などは別途処理が必要 • 処理速度もトラフィックに依存する • 多言語文書では対になっていないと解析を誤る
AIでのJATS XML自動生成はまだ無理なの? SciSpace for Publishers / MS-Word to JATS XML
Converter
https://typeset.io/for-publishers/convert/word-to-jats-xml/