Pro Yearly is on sale from $80 to $50! »

オープンデータ5つ星の真実 (?) / 5 star open data

B787785d08597c63186c123075d446be?s=47 fumi
December 19, 2017

オープンデータ5つ星の真実 (?) / 5 star open data

https://doi.org/10.6084/m9.figshare.5947399

2017-12-19 オープンデータ・トークシリーズ 第22回
https://peatix.com/event/327709

B787785d08597c63186c123075d446be?s=128

fumi

December 19, 2017
Tweet

Transcript

  1. オープンデータ5つ星の真実(?) 国⽴情報学研究所  オープンサイエンス基盤研究センター 加藤 ⽂彦 オープンデータ・トークシリーズ第22回, 2017-12-19 1

  2. 5-star deployment scheme for Open Data 2

  3. この図が⼀⼈歩きしている問題

  4. 何故こんなタイトルで 話せと呼ばれたのか?

  5. 翻訳者だから

  6. 翻訳者だからって真実を 知っているとは(ry

  7. 5つ星展開スキームの歴史

  8. 初出 • 26 May 2010: "Open, Linked Data for a

    Global Community" • By Tim Berners-Lee at Gov 2.0 Expo 2010 • https://www.youtube.com/watch?v=ga1aSJXCFe0 8
  9. ⽂字化 • 4 Jun 2010: ブログで紹介 • By InkRoid (Ed

    Summers) • https://inkdroid.org/2010/06/04/the-5- stars-of-open-linked-data/ • 19 Jun 2010: TimBLによる逆紹介 • https://web.archive.org/web/ 20100619205657/https://www.w3.org/ DesignIssues/LinkedData.html 9
  10. 本採⽤ • 1 Dec 2010: オープンライセンス • 1★にオープンライセンスを明⽰ • "Linked

    Data" マグカップ • 2 Dec 2010: セクション新設 • データセットのメタデータやレジス トリ (ckan.net, data.gov.uk, data.gov等)についても⾔及 • その後も加筆、右は最新の状態 10
  11. バッジ • 7 Dec 2010: Linked Open Data star badges

    • By Michael Hausenblas (and Richard Cygniak) • オープンとそうでないのを0★と1★で分離 • http://lab.linkeddata.deri.ie/2010/lod- badges/ 11
  12. そして... • 22 Jan 2012 • 新ドメインでリニューアル • ボランティアが翻訳 12

  13. ⼤枠として • ウェブ上にデータを公開共有するというのをどう 進めていけばよいかというTimBLなりのビジョン • 理想: Linked (Open) Data •

    現実: そもそもウェブ上にデータが少ない • 理想に向かっていくためのステップを⽰したもの • 各ステップ毎にコストと利益を説明している 13
  14. Q1. 1★がオープンライセンスなの⾟い • これは啓蒙のためにあえて最初にしてある • ⼀⽅でオープンではないLinked Dataは普通に有り得る • だからLinked "Open"

    Dataと⾔っている 14
  15. Q2. 3★はCSVじゃなきゃいけないの? • 3は"⾮独占の形式を使いましょう (例: ExcelよりもCSV)" • 英語: "non-proprietary format"

    • 標準化されているものがより望ましい • 標準化されていなくても仕様が誰でも使える 15
  16. Q3. CSVで出せばいいんでしょ? • 適切なデータ構造や⽤途に応じて出したほうが本来は良いのでは? • それがどこまで⾏政の仕事なのかは別の課題として • データ構造 • 表:

    CSVやその派⽣ • ⽊: XMLやJSON • ⽤途: 特定⽤途ですでに流通しているものはそれ尊重したほうが利活⽤すすむのでは • GeoJSON (JSON) • GTFS (拡張⼦TXTだけどCSV) • Popolo (JSON-LD) 16
  17. Q4. なんでExcelが2★なんだ • 少なくともヨーロッパの⼈達はXLSXも2だと思っているらしい • 2014年の時点で誰もOOXML Strict使っていない問題 • https://github.com/mhausenblas/5stardata.info/issues/3 •

    https://joinup.ec.europa.eu/document/complex-singularity- versus-openness • 2017現在では違うかもしれないし興味ある⽅は調べて • 但し、これはExcelを出すなという話でない • CSVにしにくいものも無理やりCSVにしろではなく、まずあるも のを出すべき • 整理はその後だと個⼈的にはおもうが⾏政の⼈は整理済じゃな いと出したくない問題も派⽣としてある 17
  18. Q5. 4★の意味がわからない • 3★から4★は1ステップにするのは無理筋 • 特定の形式でファイルを置くという話ではない • データの中⾝とデータへのアクセス⽅法の話 (APIと⾔ってもいい) •

    IDとしてURIを使い、そのURIにアクセスするとそのデータが返ってくる • ID がそのままデータへのアクセス⼿段にもなるのがLODの世界 • ID、項⽬名、データ構造の理解や検討が必要 • 本来3★でも検討すべきだが、ファイル形式の話にだけになっているのが問題 • 3★の次の段階に"項⽬名参照しましょう"とかデータの中⾝に関するステップが必要なのでは 18
  19. Q6. 全官公庁が5★⽬指さないといけないのか? • やるには相応のコストや知識が必要だしそんなことはないと思う • 市区町村 • 全部にやってもらうというレベルでは、まずは何かのファイル出して もらうだけでも⼗分なのでは? •

    ファイルの中⾝についてどの段階でどこまで共通化するのかが課題 • 都道府県や政令指定都市 • 収集、整理、公開するときに⼿段の⼀つとして検討するのはあり 19
  20. Q6. (続き) • 省庁、独法等 • ⼿段として採⽤するかはきちんと検討してほしい • 例1: コードリストや、ID管理や名寄せをしている基礎的なデータ •

    整備されると他でもIDやコードの再利⽤や名寄せなどで恩恵 • 例2: 国際連携が重要で相⼿がすでに4-5★のもの • ⽇本でも法⼈ポータルや統計LOD、GSJ LDなどでてきた 20
  21. 超私⾒まとめ • そもそも形式なんて⽤途によって使い分けるものでは • とはいえ決めて欲しい勢がいるらしい • アプリ開発者はデータ記述についてはJSONが嬉しい • 特にウェブフロントエンドの⼈達 •

    データ解析の⼈達はExcelやCSVが嬉しい時もある? • 4-5★のデータ記述も表に出すのはJSON-LDが有⼒ • RDFのモデルをそのまま使いたい⼈はTurtleだけど • SPARQL結果は元々JSONやXMLなど 21