学術情報XML推進協議会セミナー 日時 :2021年4月26日(月曜日) 場所:WEB会議システム ZOOM
全文XML作成ツールの感想永崎研宣(一般財団法人人文情報学研究所)
View Slide
簡単な自己紹介• XML歴23年• 主にPHPやJavaScriptで XMLを操作・処理• この数年はPython3/BeautifulSoupも。• 直近の仕事:渋沢栄一ダイアリー https://shibusawa-dlab.github.io/app1/• TEI/XMLで記述した渋沢栄一日記をビジュアライゼーション。• 永崎は、自動的な固有表現(地名人名)抽出⇒TEI/XMLタグ付けを担当• ライティングの場合、この15年ほどは主にOxygen XML Editor• 主にTEI/XMLスキーマを利用。たまにJATS、KML等も。• VSCodeのプラグインで利用することも• TEI Consortium 東アジア/日本語分科会の運営に従事• https://github.com/TEI-EAJ/jp_guidelines/wiki
JATSとの関わり• J-STAGEで使い始めた。最初は書誌XMLのみ。• 一応、NIHのサイトからスキーマをダウンロードして色々試してみた。• 最初にXMLを引用した論文があり、ややこしそうだったので断念した。• https://www.jstage.jst.go.jp/browse/jadh/-char/ja• https://www.jstage.jst.go.jp/browse/jjadh/-char/en• JATSの開発に関わった Wendell Piez氏を日本デジタル・ヒューマニティーズ学会のキーノートスピーチに招待し、JATSとTEIの関係について講演をしていただいた。• J-STAGEで全文XML作成ツールが公開されたと知人から聞き、やや誘われた感じだったのでちょっと試してみた。• ⇒今回のお話につながりました。
全文XML作成ツールを含む作業の流れ• ワード上で論文にスタイル付与• 全文XML作成ツールにアップロード• いったんまとめてダウンロード• ローカル環境でOxygen XML Editor で細部を修正• J-STAGEにアップロード
全文XML作成ツールを含む作業の流れ• ワード上で論文にスタイル付与• 全文XML作成ツールにアップロード• いったんまとめてダウンロード• 全文XML作成ツールのエディタがあまり開発に力を入れてない風だったので使うのを早々に断念。• 「スキーマを読み取ってその箇所にふさわしいタグ候補を提示」「選択したテキストの前後に開始・終了タグを付ける」というごく基本的な機能がなかった• 最初、Webブラウザ上に表示されているXMLデータをOxygenに貼り付けて作業したが、これだと画像のパスがずれてしまうことが後からわかり、やり直しが発生した。みなさまもご注意ください。• ローカル環境でOxygen XML Editor で細部を修正• J-STAGEにアップロード
全文XML作成ツールを含む作業の流れ• ワード上で論文にスタイル付与• 全文XML作成ツールにアップロード• いったんまとめてダウンロード• ローカル環境でOxygen XML Editor で細部を修正• 主に、参考文献情報のタグ修正• 自動的に著者名タイトルにタグ付けしてくれるが、かなりの確率で失敗し、著者名もまともにタグ付けできないことが多いので大部分に手修正が必要だった。• 画像タグもうまくつかないことがあったため手でタグを修正。• その他、太字、イタリックなどの修正• J-STAGEにアップロード
全文XML作成ツールを含む作業の流れ• ワード上で論文にスタイル付与• 全文XML作成ツールにアップロード• いったんまとめてダウンロード• ローカル環境でOxygen XML Editor で細部を修正• J-STAGEにアップロード• JATSスキーマではOKでもJ-STAGEにアップロードしたらエラーになることが• 細かな違いは色々ある模様• テキスト表示の見た目が微妙に異なる…?• 全文XML作成ツールとJ-STAGEではスタイルシートが微妙に異なる• 複数のビブリオリスト非表示⇔複数のビブリオリスト表示• 「ガイドライン」とも微妙に異なる• ⇒J-STAGEセンターに問い合わせれば確認してくださる• 30分ごとにアップロードして結果を確認しないといけない• ⇒アマチュアの片手間仕事としては無茶• ⇒プロでも無駄に高額になってしまう
全文XML作成ツールを含む作業の流れ• ワード上で論文にスタイル付与• 全文XML作成ツールにアップロード• いったんまとめてダウンロード• ローカル環境でOxygen XML Editor で細部を修正• J-STAGEにアップロード• JATSスキーマではOKでもJ-STAGEにアップロードしたらエラーになることが• 細かな違いは色々ある模様• テキスト表示の見た目が微妙に異なる…?• 全文XML作成ツールとJ-STAGEではスタイルシートが微妙に異なる• 複数のビブリオリスト非表示⇔複数のビブリオリスト表示• 「ガイドライン」とも微妙に異なる• ⇒J-STAGEセンターに問い合わせれば確認してくださる• 30分ごとにアップロードして結果を確認しないといけない• ⇒アマチュアの片手間仕事としては無茶• ⇒プロでも無駄に高額になってしまうこれを一瞬でできるようにするのがXML技術の有用性の重要部分
全文XML作成ツールを含む作業の流れ• ワード上で論文にスタイル付与• 全文XML作成ツールにアップロード• いったんまとめてダウンロード• ローカル環境でOxygen XML Editor で細部を修正• J-STAGEにアップロード• JATSスキーマではOKでもJ-STAGEにアップロードしたらエラーになることが• 細かな違いは色々ある模様• テキスト表示の見た目が微妙に異なる…?• 全文XML作成ツールとJ-STAGEではスタイルシートが微妙に異なる• 複数のビブリオリスト非表示⇔複数のビブリオリスト表示• 「ガイドライン」とも微妙に異なる• ⇒J-STAGEセンターに問い合わせれば確認してくださる• 30分ごとにアップロードして結果を確認しないといけない• ⇒アマチュアの片手間仕事としては無茶• ⇒プロでも無駄に高額になってしまう J-STAGEサーバで使われているXSLTスタイルシート/CSSファイルを公開するとよいのではJ-STAGEのスキーマを作って公開をこれを一瞬でできるようにするのがXML技術の有用性の重要部分オンタイム変換でなくてもいいです
ついでのお願い?• もしかしたらどこかでやっているかもしれませんが…• スキーマのタグの解説を日本語化してあると非常に便利です。• TEI/XMLではボランティアグループが週2~月1で集まって日本語化しています。
もう一つお願い?• 全文XMLを作成したあと、そこそこきれいなPDFファイルを出力できるようにしてほしい。• (J-STAGE日本語論文用公式PDF変換ツールを配布するなど?)• JATS公式のものは日本語だと一応できそうだがデザイン的に…• ⇒今のところはアンテナハウスから買うしかない?• ⇒買わなければ、XMLとは別途、ワードやインデザインでデザインしなければならず、二度手間。• ⇒ビジネスを邪魔しないように、あくまでも簡素なものを。
詳しくはこちらに:• digitalnagasakiのブログ• 新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その1)• https://digitalnagasaki.hatenablog.com/entry/2020/12/26/053558• 新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その2)• https://digitalnagasaki.hatenablog.com/entry/2020/12/26/211751