https://doi.org/10.6084/m9.figshare.5947399
2017-12-19 オープンデータ・トークシリーズ 第22回 https://peatix.com/event/327709
オープンデータ5つ星の真実(?)国⽴情報学研究所 オープンサイエンス基盤研究センター加藤 ⽂彦オープンデータ・トークシリーズ第22回, 2017-12-191
View Slide
5-star deployment scheme for Open Data2
この図が⼀⼈歩きしている問題
何故こんなタイトルで話せと呼ばれたのか?
翻訳者だから
翻訳者だからって真実を知っているとは(ry
5つ星展開スキームの歴史
初出• 26 May 2010: "Open, Linked Data for a GlobalCommunity"• By Tim Berners-Lee at Gov 2.0 Expo 2010• https://www.youtube.com/watch?v=ga1aSJXCFe08
⽂字化• 4 Jun 2010: ブログで紹介• By InkRoid (Ed Summers)• https://inkdroid.org/2010/06/04/the-5-stars-of-open-linked-data/• 19 Jun 2010: TimBLによる逆紹介• https://web.archive.org/web/20100619205657/https://www.w3.org/DesignIssues/LinkedData.html9
本採⽤• 1 Dec 2010: オープンライセンス• 1★にオープンライセンスを明⽰• "Linked Data" マグカップ• 2 Dec 2010: セクション新設• データセットのメタデータやレジストリ (ckan.net, data.gov.uk,data.gov等)についても⾔及• その後も加筆、右は最新の状態10
バッジ• 7 Dec 2010: Linked Open Data star badges• By Michael Hausenblas (and RichardCygniak)• オープンとそうでないのを0★と1★で分離• http://lab.linkeddata.deri.ie/2010/lod-badges/11
そして...• 22 Jan 2012• 新ドメインでリニューアル• ボランティアが翻訳12
⼤枠として• ウェブ上にデータを公開共有するというのをどう進めていけばよいかというTimBLなりのビジョン• 理想: Linked (Open) Data• 現実: そもそもウェブ上にデータが少ない• 理想に向かっていくためのステップを⽰したもの• 各ステップ毎にコストと利益を説明している13
Q1. 1★がオープンライセンスなの⾟い• これは啓蒙のためにあえて最初にしてある• ⼀⽅でオープンではないLinked Dataは普通に有り得る• だからLinked "Open" Dataと⾔っている14
Q2. 3★はCSVじゃなきゃいけないの?• 3は"⾮独占の形式を使いましょう (例: ExcelよりもCSV)"• 英語: "non-proprietary format"• 標準化されているものがより望ましい• 標準化されていなくても仕様が誰でも使える15
Q3. CSVで出せばいいんでしょ?• 適切なデータ構造や⽤途に応じて出したほうが本来は良いのでは?• それがどこまで⾏政の仕事なのかは別の課題として• データ構造• 表: CSVやその派⽣• ⽊: XMLやJSON• ⽤途: 特定⽤途ですでに流通しているものはそれ尊重したほうが利活⽤すすむのでは• GeoJSON (JSON)• GTFS (拡張⼦TXTだけどCSV)• Popolo (JSON-LD)16
Q4. なんでExcelが2★なんだ• 少なくともヨーロッパの⼈達はXLSXも2だと思っているらしい• 2014年の時点で誰もOOXML Strict使っていない問題• https://github.com/mhausenblas/5stardata.info/issues/3• https://joinup.ec.europa.eu/document/complex-singularity-versus-openness• 2017現在では違うかもしれないし興味ある⽅は調べて• 但し、これはExcelを出すなという話でない• CSVにしにくいものも無理やりCSVにしろではなく、まずあるものを出すべき• 整理はその後だと個⼈的にはおもうが⾏政の⼈は整理済じゃないと出したくない問題も派⽣としてある17
Q5. 4★の意味がわからない• 3★から4★は1ステップにするのは無理筋• 特定の形式でファイルを置くという話ではない• データの中⾝とデータへのアクセス⽅法の話 (APIと⾔ってもいい)• IDとしてURIを使い、そのURIにアクセスするとそのデータが返ってくる• ID がそのままデータへのアクセス⼿段にもなるのがLODの世界• ID、項⽬名、データ構造の理解や検討が必要• 本来3★でも検討すべきだが、ファイル形式の話にだけになっているのが問題• 3★の次の段階に"項⽬名参照しましょう"とかデータの中⾝に関するステップが必要なのでは18
Q6. 全官公庁が5★⽬指さないといけないのか?• やるには相応のコストや知識が必要だしそんなことはないと思う• 市区町村• 全部にやってもらうというレベルでは、まずは何かのファイル出してもらうだけでも⼗分なのでは?• ファイルの中⾝についてどの段階でどこまで共通化するのかが課題• 都道府県や政令指定都市• 収集、整理、公開するときに⼿段の⼀つとして検討するのはあり19
Q6. (続き)• 省庁、独法等• ⼿段として採⽤するかはきちんと検討してほしい• 例1: コードリストや、ID管理や名寄せをしている基礎的なデータ• 整備されると他でもIDやコードの再利⽤や名寄せなどで恩恵• 例2: 国際連携が重要で相⼿がすでに4-5★のもの• ⽇本でも法⼈ポータルや統計LOD、GSJ LDなどでてきた20
超私⾒まとめ• そもそも形式なんて⽤途によって使い分けるものでは• とはいえ決めて欲しい勢がいるらしい• アプリ開発者はデータ記述についてはJSONが嬉しい• 特にウェブフロントエンドの⼈達• データ解析の⼈達はExcelやCSVが嬉しい時もある?• 4-5★のデータ記述も表に出すのはJSON-LDが有⼒• RDFのモデルをそのまま使いたい⼈はTurtleだけど• SPARQL結果は元々JSONやXMLなど21