Slide 1

Slide 1 text

SHACL (Shapes Constraint Language) によるアプリケーション プロファイル記述の試み 高久雅生(筑波大学) 江草由佳(国立教育政策研究所) 1 2021年11月26日 (金) 第55回SWO研究会 (人工知能学会合同研究会2021)

Slide 2

Slide 2 text

背景 • メタデータの重要性 多様なメディアコンテンツなどの共有、流通 (最近の事例)デジタルアーカイブやオープンサ イエンス • 複数のメタデータ語彙の共有、利用、理解 • アプリケーションプロファイル (Metadata Application Profile) 2000年代初頭から開発 Singapore framework [Nilsson:2008] • 構造、内容書式、使用例文書、機能要件など 様々な領域での活用: Europeana [edm], DC-NDL [dcndl] 2 • [Nilsson:2008] Mikael Nilsson et al. (Eds.): The Singapore Framework for Dublin Core Application Profiles, https: //dublincore.org/specifications/dublin-core/singapore-framework/ (2008) • [Edm] Europeana Data Model: Europeana Pro, https://pro.europeana.eu/page/edm-documentation • [Dcndl]国立国会図書館ダブリンコアメタデータ記 述(DC-NDL), https://www.ndl.go.jp/jp/ dlib/standards/meta/

Slide 3

Slide 3 text

アプリケーションプロファイルの 記述と提供にまつわる課題 • 課題(要件) 人間が読んでわかりやすい表現力(記述力) 記述内容を容易に編集して提供するための文書編 集への対応 機械可読によるデータ検証能力 • 既存のツールだけでは十分ではない • 基礎的な方法論の開発(SHACLを基礎とする) 手軽に編集できるExcel形式 (→ SHACLへの変換 ツール) 人間が読んで分かる文書形式(→ SHACLからの変 換ツール) 3

Slide 4

Slide 4 text

目的 • アプリケーションプロファイル記述を共有 する手法の開発 LODデータセットに対して SHACLを用いる 文書化と形式記述を両立 • 実践例として「教科書LOD」[江草:2018][jp- textbook] 4 • [江草:2018] 江草由佳, 高久雅生: 教科書Linked Open Data(LOD)の構築と公開, 情報の科学と技術, 68 (7), pp.361-367 (2018) • [jp-textbook]教科書LOD プロジェクト: プロジェクトについて - 教科書Linked Open Data (LOD), https://w3id.org/jp-textbook/about

Slide 5

Slide 5 text

関連研究 • メタデータスキーマ、プロファイル記述の 手法/ツール RDFデータシェイプによる表現とデータ検証 • ShEx (Shape Expressions) [Prud'hommeau:2019] • SHACL (Shapes Constraint Language) [Knublauch:2017] MetaBridge [Nagamori:2011] YAMA [Nishad:2019] DCTAP [Dctap] 5 • [Prud'hommeau:2019] Eric Prud'hommeaux, et al. Eds: Shape Expressions Language 2.1. Final Community Group Report 8 October 2019. http://shex.io/shex-semantics/ (2019) • [Knublauch:2017] Holger Knublauch, et al. Eds: Shapes Constraint Language (SHACL), W3C Recommendation 20 July 2017, https://www.w3.org/TR/shacl/ (2017) • [Nagamori:2011] Mitsuharu Nagamori, et al.: Meta-Bridge: A Development of Metadata Information Infrastructure in Japan. Proceedings of DC-2011. pp.63-68 (2011) • [Nishad:2019] Nishad Thalhath, et al. : Authoring For- mats and Their Extensibility for Application Profiles, Proceedings of ICADL 2019, pp.116-122 (2019) • [Dctap] DCMI Application Profiles IG: DC Tabular Application Profile, https://github.com/dcmi/dctap/

Slide 6

Slide 6 text

提案手法 6 リリース毎の説明 • 項目プロパティの情報 • 必須・繰り返し • 構造・値・書式 変換プログラム xlsx2shapes データ検証 shapes.ttl about.html 変換プログラム ttl2html プロファイル記述 データセット SHACLエンジン 公開

Slide 7

Slide 7 text

最終的なプロファイル記述文書の イメージ 7 リソース毎の説明 • 項目プロパティの情報 • 必須・繰り返しの有無 • プロパティ値の書式例 • 構造、値、書式 https://jp-textbook.github.io/about#textbook-resource

Slide 8

Slide 8 text

プロファイル記述 (SHACL) a sh:NodeShape; sh:targetClass ; sh:property [ sh:path ; sh:name "書名"@ja; sh:name "Title"@en; skos:example "NEW CROWN ENGLISH SERIES 3"; sh:maxCount 1; sh:minCount 1; sh:datatype ; sh:order 1 ]; sh:property [ sh:path ; sh:name "編著者名"@ja; sh:name "Editor(s)"@en; skos:example "森住衛 ほか29名"; sh:maxCount 1; sh:minCount 1; sh:datatype ; sh:order 2 ]; 8 対象となるリソース クラス プロパティ項目 項目の名称 項目の記述例 必須・繰り返しの有無

Slide 9

Slide 9 text

プロファイル記述 (Excel) 9

Slide 10

Slide 10 text

考察 (1) • プロファイル記述としての表現力  SHACLにおけるNodeShapeに基づく記述を前提とする • SHACLによる任意の記述を実装するものでは無い  「教科書LOD」のような規模ではほぼ十分 • 約7,500冊の教科書に関する書誌情報+α,約29万トリプル • 13種類のNodeShape – 教科書、学習指導要領、教科、種目、教科書目録、発行者、学校種別、 教科・種目種別を表わすリソース • 延べプロパティ項目数: 79  単なる必須・任意や繰り返しの有無だけでなく、ブラ ンクノードを介した構造や sh:or による構造記述にも 対応 • データ検証  SHACLエンジンは既存のものを利用可能 10

Slide 11

Slide 11 text

考察 (2) : 方法論としての限界 • SHACL語彙を超える仕様 多言語化 プロパティの使用例を示す語彙はSKOSから借用 リソースURIそのものに関する説明など • HTML記述を前提とする仕様 11 sh:property [ sh:path ; sh:name "関連リンク"@ja, “Related links”@en; sh:description "繰り返しあり。本文のアーカイブ(Wayback Machine, WARPなど)へのリンク、国立国会図書館サーチCiNii Booksへのリンク"@ja;0

Slide 12

Slide 12 text

12 • SHACL語彙を超える仕様  多言語化  プロパティの使用例を示す語彙 はSKOSから借用  リソースURIそのものに関する 説明など

Slide 13

Slide 13 text

おわりに • SHACLをベースにしたアプリケーションプ ロファイル記述の方法論 手軽に編集できるExcel形式 (→ SHACLへの変 換ツール) 人間が読んで分かる文書形式(← SHACLからの 変換ツール) • 「教科書LOD」への適用例 13