オープンデータ5つ星の真実 (?) / 5 star open data
by
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
オープンデータ5つ星の真実(?) 国⽴情報学研究所 オープンサイエンス基盤研究センター 加藤 ⽂彦 オープンデータ・トークシリーズ第22回, 2017-12-19 1
Slide 2
Slide 2 text
5-star deployment scheme for Open Data 2
Slide 3
Slide 3 text
この図が⼀⼈歩きしている問題
Slide 4
Slide 4 text
何故こんなタイトルで 話せと呼ばれたのか?
Slide 5
Slide 5 text
翻訳者だから
Slide 6
Slide 6 text
翻訳者だからって真実を 知っているとは(ry
Slide 7
Slide 7 text
5つ星展開スキームの歴史
Slide 8
Slide 8 text
初出 • 26 May 2010: "Open, Linked Data for a Global Community" • By Tim Berners-Lee at Gov 2.0 Expo 2010 • https://www.youtube.com/watch?v=ga1aSJXCFe0 8
Slide 9
Slide 9 text
⽂字化 • 4 Jun 2010: ブログで紹介 • By InkRoid (Ed Summers) • https://inkdroid.org/2010/06/04/the-5- stars-of-open-linked-data/ • 19 Jun 2010: TimBLによる逆紹介 • https://web.archive.org/web/ 20100619205657/https://www.w3.org/ DesignIssues/LinkedData.html 9
Slide 10
Slide 10 text
本採⽤ • 1 Dec 2010: オープンライセンス • 1★にオープンライセンスを明⽰ • "Linked Data" マグカップ • 2 Dec 2010: セクション新設 • データセットのメタデータやレジス トリ (ckan.net, data.gov.uk, data.gov等)についても⾔及 • その後も加筆、右は最新の状態 10
Slide 11
Slide 11 text
バッジ • 7 Dec 2010: Linked Open Data star badges • By Michael Hausenblas (and Richard Cygniak) • オープンとそうでないのを0★と1★で分離 • http://lab.linkeddata.deri.ie/2010/lod- badges/ 11
Slide 12
Slide 12 text
そして... • 22 Jan 2012 • 新ドメインでリニューアル • ボランティアが翻訳 12
Slide 13
Slide 13 text
⼤枠として • ウェブ上にデータを公開共有するというのをどう 進めていけばよいかというTimBLなりのビジョン • 理想: Linked (Open) Data • 現実: そもそもウェブ上にデータが少ない • 理想に向かっていくためのステップを⽰したもの • 各ステップ毎にコストと利益を説明している 13
Slide 14
Slide 14 text
Q1. 1★がオープンライセンスなの⾟い • これは啓蒙のためにあえて最初にしてある • ⼀⽅でオープンではないLinked Dataは普通に有り得る • だからLinked "Open" Dataと⾔っている 14
Slide 15
Slide 15 text
Q2. 3★はCSVじゃなきゃいけないの? • 3は"⾮独占の形式を使いましょう (例: ExcelよりもCSV)" • 英語: "non-proprietary format" • 標準化されているものがより望ましい • 標準化されていなくても仕様が誰でも使える 15
Slide 16
Slide 16 text
Q3. CSVで出せばいいんでしょ? • 適切なデータ構造や⽤途に応じて出したほうが本来は良いのでは? • それがどこまで⾏政の仕事なのかは別の課題として • データ構造 • 表: CSVやその派⽣ • ⽊: XMLやJSON • ⽤途: 特定⽤途ですでに流通しているものはそれ尊重したほうが利活⽤すすむのでは • GeoJSON (JSON) • GTFS (拡張⼦TXTだけどCSV) • Popolo (JSON-LD) 16
Slide 17
Slide 17 text
Q4. なんでExcelが2★なんだ • 少なくともヨーロッパの⼈達はXLSXも2だと思っているらしい • 2014年の時点で誰もOOXML Strict使っていない問題 • https://github.com/mhausenblas/5stardata.info/issues/3 • https://joinup.ec.europa.eu/document/complex-singularity- versus-openness • 2017現在では違うかもしれないし興味ある⽅は調べて • 但し、これはExcelを出すなという話でない • CSVにしにくいものも無理やりCSVにしろではなく、まずあるも のを出すべき • 整理はその後だと個⼈的にはおもうが⾏政の⼈は整理済じゃな いと出したくない問題も派⽣としてある 17
Slide 18
Slide 18 text
Q5. 4★の意味がわからない • 3★から4★は1ステップにするのは無理筋 • 特定の形式でファイルを置くという話ではない • データの中⾝とデータへのアクセス⽅法の話 (APIと⾔ってもいい) • IDとしてURIを使い、そのURIにアクセスするとそのデータが返ってくる • ID がそのままデータへのアクセス⼿段にもなるのがLODの世界 • ID、項⽬名、データ構造の理解や検討が必要 • 本来3★でも検討すべきだが、ファイル形式の話にだけになっているのが問題 • 3★の次の段階に"項⽬名参照しましょう"とかデータの中⾝に関するステップが必要なのでは 18
Slide 19
Slide 19 text
Q6. 全官公庁が5★⽬指さないといけないのか? • やるには相応のコストや知識が必要だしそんなことはないと思う • 市区町村 • 全部にやってもらうというレベルでは、まずは何かのファイル出して もらうだけでも⼗分なのでは? • ファイルの中⾝についてどの段階でどこまで共通化するのかが課題 • 都道府県や政令指定都市 • 収集、整理、公開するときに⼿段の⼀つとして検討するのはあり 19
Slide 20
Slide 20 text
Q6. (続き) • 省庁、独法等 • ⼿段として採⽤するかはきちんと検討してほしい • 例1: コードリストや、ID管理や名寄せをしている基礎的なデータ • 整備されると他でもIDやコードの再利⽤や名寄せなどで恩恵 • 例2: 国際連携が重要で相⼿がすでに4-5★のもの • ⽇本でも法⼈ポータルや統計LOD、GSJ LDなどでてきた 20
Slide 21
Slide 21 text
超私⾒まとめ • そもそも形式なんて⽤途によって使い分けるものでは • とはいえ決めて欲しい勢がいるらしい • アプリ開発者はデータ記述についてはJSONが嬉しい • 特にウェブフロントエンドの⼈達 • データ解析の⼈達はExcelやCSVが嬉しい時もある? • 4-5★のデータ記述も表に出すのはJSON-LDが有⼒ • RDFのモデルをそのまま使いたい⼈はTurtleだけど • SPARQL結果は元々JSONやXMLなど 21