Upgrade to Pro — share decks privately, control downloads, hide ads and more …

なぜXMLオンラインジャーナルは有利なのか -機械可読性の視点から- / 20140318-xml-nakanishi

XSPA
May 03, 2015

なぜXMLオンラインジャーナルは有利なのか -機械可読性の視点から- / 20140318-xml-nakanishi

J-STAGE利用学協会意見交換会、学術情報XML推進協議会(XSPA)セミナー
日付: 2014年3月18日 (火曜日)
場所: 京都リサーチパーク AV会議室 (1号館4F)

XSPA

May 03, 2015
Tweet

More Decks by XSPA

Other Decks in Technology

Transcript

  1. 学術情報 XML 推進協議会2014
    なぜXMLオンラインジャーナル
    は有利なのか

    -機械可読性の視点から-
    2014.  3.18 3.19
    JST意見交換会  

    中西秀彦 Ph.D.

    中西印刷株式会社
    学術情報 XML  推進協議会
    [email protected]

    View Slide

  2. 学術情報 XML 推進協議会2014
    学術情報 XML  推進協議会
    •  学術情報の XML  製作・流通を推進するた
    め結成
    – 2012/6/28  
    – 学会、印刷会社、JST、学識者
    – 会長:  時実 象一(愛知大学教授)
    •  XML  普及のための活動
    – XML  普及のための広報・宣伝
    – 学会・印刷会社への情報提供・教育
    – JATS  の改良のための研究・助言
    2

    View Slide

  3. 学術情報 XML 推進協議会2014
    PDF と XML オンラインジャーナル
    •  PDFオンラインジャーナル
    – 紙の誌面を一旦作成し、それを配布する
    – プリントアウトすると紙の誌面そのもの
    – 紙の誌面作成の方法が通用する
    •  XMLオンラインジャーナル
    – レイアウトより構造を優先
    – 画面で読まれることを前提
    – 様々な応用可能性
    3

    View Slide

  4. 学術情報 XML 推進協議会2014
    PDF公開 紙版と同じ
    4

    View Slide

  5. 学術情報 XML 推進協議会2014
    HTML版(XMLより製作)オンラインジャーナル
    5

    View Slide

  6. 学術情報 XML 推進協議会2014
    HTML版
    6

    View Slide

  7. 学術情報 XML 推進協議会2014
    ArEcle  of  the  Future  
    7

    View Slide

  8. 学術情報 XML 推進協議会2014
    ArEcle  of  the  Future  
    8
    2012/11/2
    学術情報 XML 推進協議会講演

    View Slide

  9. 学術情報 XML 推進協議会2014 9
    学術情報 XML 推進協議会講演

    View Slide

  10. 学術情報 XML 推進協議会2014
    PDFオンラインジャーナルの限界
    •  現在はPDFが電子出版の中心
    –  J-STAGE2まで
    •  PDFは紙の本を画面に移し替えただけ
    –  画面では見にくい 2段組など
    –  プリントアウトして読む
    –  画面中心の時代に適合しない
    •  マシンリーダビリティに弱い
    –  PDF最大の欠点
    –  人間には読みやすいが検索・再利用しにく


    10

    View Slide

  11. 学術情報 XML 推進協議会2014
    マシンリーダービリティ
    •  機械可読性(Machine  Readability  )  
    – 人間ではなく機械に読み取ってもらいやすい
    – 機械で利用しやすい
    •  インターネット時代の情報流通の要
    – 多くの情報の中から適した情報を発見するのは
    機械(コンピュータ)
    – 情報を加工統合するのもコンピュータ
    11

    View Slide

  12. 学術情報 XML 推進協議会2014
    機械可読性優位の世界へ
    •  機械によるフィルタリング
    •  膨大な文書から何を読むべきかは機械が選ぶ
    –  機械可読性の壁
    検索エンジン
    SNSS
    レビュ-
    書評
    過去の検
    索結果
    内容
    評価

    View Slide

  13. 学術情報 XML 推進協議会2014
    検索されやすさという視点
    •  より読まれるための「検索されやすさ」
    – 検索の論理条件に適合しやすいようなデータ
    •  SEO対策の流行
    – Search  Engine  OpEmizaEon  
    – 検索エンジンに拾われやすくする
    中西印刷HPソース

    View Slide

  14. 学術情報 XML 推進協議会2014
    機械可読性の低い論文
    •  機械が読めない雑誌は
    – 発見されない。
      ↓
    – 読まれない。
      ↓
    – 引用されない。
    14

    View Slide

  15. 学術情報 XML 推進協議会2014
    人間可読性と機械可読性の違い
    •  人間の読みやすい文書
    – 適切な余白、タイトルと本文の視覚上の区別など
    – 論理的整合性は重要ではない
    •  機械の読みやすい文書
    – 余白や視覚上の区別は必要ない
    – 論理的整合性がなにより必要
    15

    View Slide

  16. 学術情報 XML 推進協議会2014
    人間の読みや
    すい文書

    View Slide

  17. 学術情報 XML 推進協議会2014
    機械の読みやすい文書

    View Slide

  18. 学術情報 XML 推進協議会2014
    機械可読性の本質
    •  表現形式と構造の分離
    •  PDFからXML記載へ

    View Slide

  19. 学術情報 XML 推進協議会2014
    幅広く利用されるXML  
    •  eXtensible  Markup  Language  
    – 現在電子文書の中心
    – データ交換に有利
    •  メタデータ記述 (RDF)  
    •  電子ジャーナル
    •  電子書籍 (XHTML,  EPUB)  
    •  MicrosoX  Office  docx  xlsxの拡張子を持つもの  
    19

    View Slide

  20. 学術情報 XML 推進協議会2014
    XMLの実例
    •  例
    <社員情報>  
       <社員番号>1000社員番号>  
       <氏名>  
           <姓>田中姓>  
           <名>次郎名>  
       氏名>  
       <部署>総務部署>  
    社員情報>  
    20

    View Slide

  21. 学術情報 XML 推進協議会2014
    DTD  
    •  Document  Type  DefiniEon  
    – SGML,  XML  において、文書構造 (文書型)  を定義
    するスキーマ
    – 具体的には
    •  要素 (element)  
    •  属性 (a_ribute)  
    – などを定義する
    21
    学術情報 XML 推進協議会講演

    View Slide

  22. 学術情報 XML 推進協議会2014
    JATS  
    •  NLM  DTD    
    – 学術雑誌における XML  の DTD  として開発
    (2002)  
    •  Journal  ArEcle  Tag  Suite  (JATS)  
    – PubMed  Central  改良計画 (NCBI)NLM  DTD  3.1  
    (draX)  が NISO  に移行
    – JATS  version  0.4  
    •  トライアルが 2011/9/30  で終了
    – version  1.0  は 2012/8/9 に ANSI  承認、公開
    22

    View Slide

  23. 学術情報 XML 推進協議会2014
    実際のJATS  XML形式
    23

    View Slide

  24. 学術情報 XML 推進協議会2014
    XMLと構造化
    •  それぞれの文の中の位置づけを文書に与え
    る。
    – 人間は「林」は文脈の中で初めて人の名前なの
    か、木の集合なのかを判断できる。
    – 林  
    – とすることで、文脈に依存せず、名前であること
    がわかる
    – 林  だと所属
    •  コンピュータが容易に判別して分析可能
    24

    View Slide

  25. 学術情報 XML 推進協議会2014
    構造化のメリット
    •  表現に依存しない。
    – どういう表現で見るかは見るデバイスの問題
    •  PC   or    タブレット or    スマホ
    – 読む人の好みによってかえればよい
    •  再利用しやすい
    – タイトルだけ抜き出して目次・索引
    – Fund  tagなどのあらたな付加価値 
    •  このあとの時実講演にて例示
    •  検索性の向上
    – 検索される⇒読まれる⇒引用される  
    25

    View Slide

  26. 学術情報 XML 推進協議会2014
    J-­‐STAGE  
    •  新バージョン 2012/5  に公開
    •  JATS  0.4  を正式サポート
    •  JATS  1.0  (2.25見解)
    – J-­‐STAGEでは、順次JATSのサポートを拡大の方針
    – JATS1.0についてはバージョンへの準拠よりもむし
    ろ対応タグの拡充
    – 優先度の高いタグや表示仕様等について、協議
    会の要望・意見をいれて準備したい。
    26

    View Slide

  27. 学術情報 XML 推進協議会2014
    J-­‐STAGE  
    27

    View Slide

  28. 学術情報 XML 推進協議会2014
    New  J-­‐STAGE  
    28
    2012/11/2
    学術情報 XML 推進協議会講演

    View Slide

  29. 学術情報 XML 推進協議会2014
    J-­‐STAGEでのXML公開(full-­‐J)
    29
    •  英文誌 27誌  
    –  ACTA  HISTOCHEMICA  ET  CYTOCHEMICA  
    –  Anthropological  Science  
    –  Biological  and  PharmaceuEcal  BulleEn  
    –  Breeding  Science  
    –  Cell  Structure  and  FuncEon  
    –  Chemical  and  PharmaceuEcal  BulleEn  
    –  Current  Herpetology  
    –  Experimental  Animals  
    –  Food  Science  and  Technology  Research  
    –  Food  Safety  
    –  Genes  &  GeneEc  Systems  
    –  Hypertension  Research  in  Pregnancy  
    –  Industrial  Health  
    –  ISIJ  InternaEonal  
    –  JAMSTEC  Report  of  Research  and  Development  
    –  Journal  of  Applied  Glycoscience  
    –  Journal  of  the  Japanese  Society  for  HorEcultural  
    Science  
    –  Journal  of  the  Mass  Spectrometry  Society  of  
    Japan  
    –  Journal  of  OccupaEonal  Health  
    –  Journal  of  PesEcide  Science  
    –  Journal  of  Toxicologic  Pathology  
    –  KONA  Powder  and  ParEcle  Journal  
    –  Microbes  and  Environments  
    –  Mass  Spectrometry  
    –  Proceedings  of  the  Japan  Academy,  Series  B  
    –  The  Tohoku  Journal  of  Experimental  Medicine  
    –  Tropical  Medicine  and  Health
    •  和文誌 10誌
    –  育種学研究
    –  産業衛生学雑誌
    –  情報管理
    –  鉄と鋼
    –  日本看護科学会誌
    –  日本消化器外科学会雑誌
    –  日本食品保蔵科学会誌
    –  行動医学研究
    –  日本官能評価学会誌
    –  日本内分泌・甲状腺外科学会雑誌
    •  その他、書誌のみXML(本文はPDF)(Bib-­‐JXML
    誌)が約250誌
    •  2/25現在 急拡大中 

    View Slide

  30. 学術情報 XML 推進協議会2014
    今はまだメリットがないと言われる方へ


    •  早く始めるほど、XMLデータが蓄積できる。
    –  XMLはあとから遡って作成できない。
    –  XML対応ソフトができてからの作成では蓄積がない
    •  オープンアクセスは紙では難しい
    –  学会会費は本の雑誌の対価とは思われていない
    –  購読料モデルから投稿料モデルへの変化
    •  日本語で発表した論文でもJ-­‐STAGEでは海外から読ま
    れている。
    –  翻訳ソフトの発達 XMLであればこそ利用可能
    •  剽窃・盗用発見ソフト(Cross  Checkなど)もXMLであれば
    こそ利用可能
    •  XMLはもはや理系英文誌だけのものではない

    30

    View Slide

  31. 学術情報 XML 推進協議会2014
    オンライン優先への製作法進化
    •  1990年以前
    –  活版、手動写植、電算写植 再利用不可能
    –  電算写植の場合は文字のみ再利用
    –  紙に出力する以上の発想なし 
    •  1990年以後
    –  DTPの利用  PageMaker  QuarkXpress
    –  レイアウト優先であるが One-­‐Source  MulEuseを意識
    •  2000年以後 
    –  SGML  XMLとの同時組版  FrameMaker      3B2
    –  オンラインでの使用前提
    •  2010年以後
    –  XML優位組版 各種 XMLパーサ AH  Forma_erなどの
    自動組版
    –  オンラインが第一選択

    View Slide

  32. 学術情報 XML 推進協議会2014
    機械可読性と人間可読性の両立
    •  検索されても最後に読むのは人間
    •  機械用と人間用で組版を分けられない
    – そもそも二度手間
    – 途中変更や校正などでの同期
    •  XML優先製作 自動化組版
    – 現在のところ唯一の解
    – 4/18 セミナ-予定「XML  自動組版を実践する」
    32

    View Slide

  33. 学術情報 XML 推進協議会2014
    構造化XMLから冊子製作
    1.  XMLで製作
    2.  自動組版でPDFとHTMLを同時製作
    原稿
    構造化ファイル
    XML
    PDF
    オンライン







    PDF
    構造化ファイル
    XML

    View Slide

  34. 学術情報 XML 推進協議会2014
    機械可読性文書の非可逆
    人間可読性 < 機械可読性
    •  機械可読性の高い文書は人間可読性の高い
    文書に自動変換が可能
    •  人間可読性の高い文書は機械可読性の高い
    文書に自動変換が困難

    View Slide

  35. 学術情報 XML 推進協議会2014
    XMLとPDFの両立とトラブル
    •  冊子体製作法で人間可読性を追求すると構造化
    ファイルに影響  
    •  構造化組み版による自動製作
    原稿
    構造化ファイル
    XML
    PDF
    オンライン







    トラブル

    View Slide

  36. 学術情報 XML 推進協議会2014
    出版編集と機械可読性
    •  「紙雑誌」は人間可読性優位
    – 版面へのこだわり
    •  書体、版面バランス、禁則処理など
    •  写真レイアウト
    •  ページ数と判型の均衡
    •  嫌われる組み版 ウィドウとオーファン

    View Slide

  37. 学術情報 XML 推進協議会2014
    OLJ  出版編集と機械可読性
    •  字送り・ハイフネーション処理
    – XML文書内にユニコードの (ノーブレーク
    スペース)や‍(幅なし接続子)を適宜入れ
    て調整する
    窒素固定は酸素感受性の酵素ニトロゲナーゼがN2
    sub>をア‍ン‍モニアに還元する反応であり、多くの遺
    伝子がこの生体反応に関わっている。今回我々は嫌気条件下でヘテロシ
    ‍ス‍ト‍を形‍成‍せずに窒
    素固定を行う糸状性シアノバクテリアLeptolyngbya boryanaにお
    いて、転写制御タンパク質PatBが

    View Slide

  38. 学術情報 XML 推進協議会2014
    OLJ 出版編集と機械可読性
    •   XMLエレメントを増やせば解決?
    •  限りないエレメント創出要求
    – 人間の表現のために構造化が犠牲

    View Slide

  39. 学術情報 XML 推進協議会2014
    学術情報XML推進協議会として
    •  人間可読性と機械可読性の両立
    – 喫緊の課題解決
    •  様々な技術的問題点の解決
    – ソフトウェアの開発促進
    – JATSの改訂への提案  
    •  印刷会社や学協会のXML対応を強化するこ
    とで、世界への発信強化
    – JATS規格の翻訳
    – XML作成技法の普及
    39

    View Slide

  40. 学術情報 XML 推進協議会2014
    JATS  1.0
    •  以下を提案
    – グループ著者の多言語化のための alternaEves>  の導入 (○)  
    – ふりがな記述を可能に (×) ⇒1.1で可能に  
    – 非グレゴリー暦 (和暦、イスラム暦など)  の記述方
    法の導入 (○)  
    – 引用文献の多言語化のための  
    の導入 (×)  
    40

    View Slide

  41. 学術情報 XML 推進協議会2014
    我々の提案が世界へ
    •  著者名の多言語表記
    •   ラッパー
    41

    View Slide

  42. 学術情報 XML 推進協議会2014
    日本からの発信の重要性
    •  アメリカ・ヨーロッパ・アジアという3誌
    体制
    –  American Journal,European Journal
    –  そして Asian Journal
    –  このままではアジア代表誌がChinese Journal
    になりかねない
    •  海外でRejectされてアイデアだけが漏洩し
    ないか
    •  日本で日本の税金を使った研究成果を海外
    出版社に金を払って読むのはおかしい
    •  Open Access と 国産ジャーナルの推進
    • なにはともあれXML
    42

    View Slide

  43. 学術情報 XML 推進協議会2014
    学術情報XML推進協議会
    •  印刷会社や学協会のXML対応を強化する
    ことで、世界への発信強化
    –  技術囲い込み戦略からの脱皮
    –  競争相手は国内ではなく、インドから世界

    •  日本語のXML規格を世界水準へ
    •  加盟をお願いします
    –  年会費がたったの50,000円
    –  学協会 無料!


    43

    View Slide