Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JAIRO Cloud上のメタデータをWebサイトで活用する

JAIRO Cloud上のメタデータをWebサイトで活用する

日本国内では機関リポジトリ環境提供サービスJAIRO Cloudを機関リポジトリとして利用する機関が多く、2022年度末でその数は大学、研究機関等714機関に達している。JAIRO Cloudで入力、蓄積されたメタデータは主に学術機関リポジトリデータベース(IRDB)を経由してCiNiiやジャパンリンクセンター(JaLC)などに提供され、学術情報の効率的な流通に貢献している。また、これらの運用が可能なよう、JAIRO CloudではXMLやJSON形式でのメタデータの出力機能を有している。 本発表では、主に自機関Webサイトで公開しているコンテンツとの統合的な運用を目指して、JAIRO Cloud上のメタデータをCMS(Drupal)の機能によりWebサイトに取り込み利用する手法を紹介したい。

Code4Lib JAPAN Conference 2023 通常発表セッション1 (2023/09/02)
https://wiki.code4lib.jp/wiki/C4ljp2023/presentation

Takanori Hayashi

September 02, 2023
Tweet

Other Decks in Technology

Transcript

  1. 今日の内容 • JAIRO Cloudに登録したメタデータを 他のWebサイトで活用したい • 図書館(の業務全部)とWebサイトの担当なので両方扱える • Webサイトで研究業績等を公開したいが、入力の手間を省きたい •

    WEKO3のインターフェースによらず研究業績を表示させたい • 以下を使ってWebサイトに取り込んでみた • JAIRO Cloudのメタデータ出力機能(OAI-PMH) • CMSのデータ取り込み機能 • DrupalのFeedsモジュール+Feeds Extensible Parsersモジュールを使用
  2. JAIRO Cloudとは • 国立情報学研究所とオープンアクセスリポジトリ推進協会 (JPCOAR)による、機関リポジトリ環境提供サービス • 研究データや関連の資料を公開するためのデータ公開基盤 • 日本国内の大学、研究機関等、700以上の機関が利用している •

    リポジトリソフトウェアとしてWEKOを使用 • WEKO2からWEKO3への移行が順次進められている • メタデータの流通基盤の一つ • WEKO3自体でメタデータと本文PDF等を公開 • メタデータを学術機関リポジトリデータベース(IRDB)を経由してCiNiiや ジャパンリンクセンター(JaLC)などに提供
  3. JAIRO Cloudからのメタデータ流通 OAI-PMH 機関リポジトリ (JAIRO Cloud) IRDB CiNii Research Japan

    Link Center(JaLC) 国立国会図書館 • OAI-PMHによるメタデータハーベストが利用されている • 今回は「エクスポート」から出力できるメタデータを 自機関Webサイトに取り込んで利用する 自機関 Webサイト
  4. 環境 • 国際農林水産業研究センター(国際農研)公式Webサイトを想定 • CMSとしてDrupalを使用している • Drupalはモジュールにより機能拡張が容易 • Drupalでは、Feedsモジュールにより CSVなどで記述されたデータを取り込んでコンテンツを登録できる

    • 多数のコンテンツをまとめて作成する際に使用される • ファイルのアップロードのほか、URLを指定してインポートできる • この機能を利用して、JAIRO Cloud(WEKO3)がOAI-PMHで出力するXMLを取り込む • Feedsモジュールのほか XML、JSONの取り込み用にFeeds Extensible Parsersモ ジュールを追加した • 今回はGitpodでDrupalの試行環境を構築した • クラウド上の開発環境の一つ。1カ月あたり50時間までは無料 • 「DrupalPod」を使用してDrupalの初期環境を簡単に構築できる。
  5. レシピ(Drupalでの設定) • 事前の設定 • コンテンツタイプを設定 • タイトル、責任表示、内容記述などの入力項目を設定する • XMLからのマッピングを設定 •

    XMLタグの記述内容をどの入力項目に入力するか • 今回はJPCOARスキーマ 1.0で設定した • 自動転送 • リポジトリのURLをもとに、アクセス数、ダウンロード数の統計をリポジトリ側でまとめて取得でき るよう、リポジトリに自動転送する設定とした • コンテンツの登録 • 登録したいコンテンツのURLをfeedsで設定 https://tsukuba.repo.nii.ac.jp/oai?verb=GetRecord&metadataPrefix=jpcoar_1.0&iden tifier=oai:tsukuba.repo.nii.ac.jp:00037472 • インポートを実行するとコンテンツが作成される • 登録には「つくばリポジトリ」のデータを使用した
  6. XML出力の差異の例 <dc:title>Structure analysis and a schema definition method for creating

    Linked Open Data from complex information resources</dc:title> <dc:title>複合的な情報資源のLinked Open Data化における構造 分析とスキーマ定義手法</dc:title> (略) <dc:identifier>情報知識学会誌</dc:identifier> <dc:identifier>1</dc:identifier> <dc:identifier>26</dc:identifier> <dc:identifier>11</dc:identifier> <dc:identifier>28</dc:identifier> DublinCore(oai_dc) <dc:title>複合的な情報資源のLinked Open Data化における構 造分析とスキーマ定義手法</dc:title> <dcterms:alternative>Structure analysis and a schema definition method for creating Linked Open Data from complex information resources</dcterms:alternative> (略) <jpcoar:sourceTitle>情報知識学会誌</jpcoar:sourceTitle> <jpcoar:volume>26</jpcoar:volume> <jpcoar:issue>1</jpcoar:issue> <jpcoar:pageStart>11</jpcoar:pageStart> <jpcoar:pageEnd>28</jpcoar:pageEnd> JPCOAR (1.0) • oai_dcでは詳細な情報が落ちている • ダムダウンの仕様上、やむを得ない • 和英タイトルがどちらも dc:titleで識別できない • 掲載誌、ページ数、巻号が dc:identifierにまとまっていて識別できない
  7. XMLからのマッピングの例 XML 属性値の条件 Drupal項目名 dc:title タイトル dcterms:alternative 別タイトル jpcoar:creator/jpcoar:creatorName 責任表示

    dc:rights 権利 datacite:description 内容記述 datacite:date dateTypeが“Issued”の場合 掲載年 jpcoar:identifier identifierTypeが“URI”の場合 リポジトリURL jpcoar:relation/jpcoar:relatedIdentifi er identifierTypeが“DOI”の場合 DOI jpcoar:sourceTitle 掲載誌 jpcoar:volume 巻 jpcoar:issue 号 jpcoar:pageStart 開始ページ jpcoar:pageEnd 終了ページ jpcoar:file/jpcoar:URI ファイルリンク
  8. その他のCMSでの適用 • Wordpress • XML, CSVからのインポートプラグイン Import any XML or

    CSV File to WordPress(WP all Import)がある https://ja.wordpress.org/plugins/wp-all-import/ • インポートする要素と項目のマッピングがGUIでできる • URLからのインポートは有償版(PRO)の機能
  9. まとめ • JAIRO Cloud(WEKO3)上のメタデータを使用してCMSのコ ンテンツを自動的にインポートすることができる • CMS上のその他のコンテンツ同様に管理・編集・表示・検索ができる • 必要な項目だけを取り込むことができる •

    今回はつくばリポジトリのメタデータを使用したが、基本的にはJAIRO Cloudのどのリポジトリも(XMLで出力できれば)対象にできる • XMLで出力できるサービスであれば、同様にCMS(Drupal)に 取り込むことができる • XMLで出力しない項目はインポートの対象にできない • WEKO3で出力の設定を適宜行う必要がある