Slide 1

Slide 1 text

オープンデータ5つ星の真実(?) 国⽴情報学研究所  オープンサイエンス基盤研究センター 加藤 ⽂彦 オープンデータ・トークシリーズ第22回, 2017-12-19 1

Slide 2

Slide 2 text

5-star deployment scheme for Open Data 2

Slide 3

Slide 3 text

この図が⼀⼈歩きしている問題

Slide 4

Slide 4 text

何故こんなタイトルで 話せと呼ばれたのか?

Slide 5

Slide 5 text

翻訳者だから

Slide 6

Slide 6 text

翻訳者だからって真実を 知っているとは(ry

Slide 7

Slide 7 text

5つ星展開スキームの歴史

Slide 8

Slide 8 text

初出 • 26 May 2010: "Open, Linked Data for a Global Community" • By Tim Berners-Lee at Gov 2.0 Expo 2010 • https://www.youtube.com/watch?v=ga1aSJXCFe0 8

Slide 9

Slide 9 text

⽂字化 • 4 Jun 2010: ブログで紹介 • By InkRoid (Ed Summers) • https://inkdroid.org/2010/06/04/the-5- stars-of-open-linked-data/ • 19 Jun 2010: TimBLによる逆紹介 • https://web.archive.org/web/ 20100619205657/https://www.w3.org/ DesignIssues/LinkedData.html 9

Slide 10

Slide 10 text

本採⽤ • 1 Dec 2010: オープンライセンス • 1★にオープンライセンスを明⽰ • "Linked Data" マグカップ • 2 Dec 2010: セクション新設 • データセットのメタデータやレジス トリ (ckan.net, data.gov.uk, data.gov等)についても⾔及 • その後も加筆、右は最新の状態 10

Slide 11

Slide 11 text

バッジ • 7 Dec 2010: Linked Open Data star badges • By Michael Hausenblas (and Richard Cygniak) • オープンとそうでないのを0★と1★で分離 • http://lab.linkeddata.deri.ie/2010/lod- badges/ 11

Slide 12

Slide 12 text

そして... • 22 Jan 2012 • 新ドメインでリニューアル • ボランティアが翻訳 12

Slide 13

Slide 13 text

⼤枠として • ウェブ上にデータを公開共有するというのをどう 進めていけばよいかというTimBLなりのビジョン • 理想: Linked (Open) Data • 現実: そもそもウェブ上にデータが少ない • 理想に向かっていくためのステップを⽰したもの • 各ステップ毎にコストと利益を説明している 13

Slide 14

Slide 14 text

Q1. 1★がオープンライセンスなの⾟い • これは啓蒙のためにあえて最初にしてある • ⼀⽅でオープンではないLinked Dataは普通に有り得る • だからLinked "Open" Dataと⾔っている 14

Slide 15

Slide 15 text

Q2. 3★はCSVじゃなきゃいけないの? • 3は"⾮独占の形式を使いましょう (例: ExcelよりもCSV)" • 英語: "non-proprietary format" • 標準化されているものがより望ましい • 標準化されていなくても仕様が誰でも使える 15

Slide 16

Slide 16 text

Q3. CSVで出せばいいんでしょ? • 適切なデータ構造や⽤途に応じて出したほうが本来は良いのでは? • それがどこまで⾏政の仕事なのかは別の課題として • データ構造 • 表: CSVやその派⽣ • ⽊: XMLやJSON • ⽤途: 特定⽤途ですでに流通しているものはそれ尊重したほうが利活⽤すすむのでは • GeoJSON (JSON) • GTFS (拡張⼦TXTだけどCSV) • Popolo (JSON-LD) 16

Slide 17

Slide 17 text

Q4. なんでExcelが2★なんだ • 少なくともヨーロッパの⼈達はXLSXも2だと思っているらしい • 2014年の時点で誰もOOXML Strict使っていない問題 • https://github.com/mhausenblas/5stardata.info/issues/3 • https://joinup.ec.europa.eu/document/complex-singularity- versus-openness • 2017現在では違うかもしれないし興味ある⽅は調べて • 但し、これはExcelを出すなという話でない • CSVにしにくいものも無理やりCSVにしろではなく、まずあるも のを出すべき • 整理はその後だと個⼈的にはおもうが⾏政の⼈は整理済じゃな いと出したくない問題も派⽣としてある 17

Slide 18

Slide 18 text

Q5. 4★の意味がわからない • 3★から4★は1ステップにするのは無理筋 • 特定の形式でファイルを置くという話ではない • データの中⾝とデータへのアクセス⽅法の話 (APIと⾔ってもいい) • IDとしてURIを使い、そのURIにアクセスするとそのデータが返ってくる • ID がそのままデータへのアクセス⼿段にもなるのがLODの世界 • ID、項⽬名、データ構造の理解や検討が必要 • 本来3★でも検討すべきだが、ファイル形式の話にだけになっているのが問題 • 3★の次の段階に"項⽬名参照しましょう"とかデータの中⾝に関するステップが必要なのでは 18

Slide 19

Slide 19 text

Q6. 全官公庁が5★⽬指さないといけないのか? • やるには相応のコストや知識が必要だしそんなことはないと思う • 市区町村 • 全部にやってもらうというレベルでは、まずは何かのファイル出して もらうだけでも⼗分なのでは? • ファイルの中⾝についてどの段階でどこまで共通化するのかが課題 • 都道府県や政令指定都市 • 収集、整理、公開するときに⼿段の⼀つとして検討するのはあり 19

Slide 20

Slide 20 text

Q6. (続き) • 省庁、独法等 • ⼿段として採⽤するかはきちんと検討してほしい • 例1: コードリストや、ID管理や名寄せをしている基礎的なデータ • 整備されると他でもIDやコードの再利⽤や名寄せなどで恩恵 • 例2: 国際連携が重要で相⼿がすでに4-5★のもの • ⽇本でも法⼈ポータルや統計LOD、GSJ LDなどでてきた 20

Slide 21

Slide 21 text

超私⾒まとめ • そもそも形式なんて⽤途によって使い分けるものでは • とはいえ決めて欲しい勢がいるらしい • アプリ開発者はデータ記述についてはJSONが嬉しい • 特にウェブフロントエンドの⼈達 • データ解析の⼈達はExcelやCSVが嬉しい時もある? • 4-5★のデータ記述も表に出すのはJSON-LDが有⼒ • RDFのモデルをそのまま使いたい⼈はTurtleだけど • SPARQL結果は元々JSONやXMLなど 21