Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「特別区の統計」を用いたオープンデータ・ポータルの開発

 「特別区の統計」を用いたオープンデータ・ポータルの開発

2021年度卒業研究論文

d-lab 北陸大学

December 10, 2021
Tweet

More Decks by d-lab 北陸大学

Other Decks in Education

Transcript

  1. 2021 年度 経済経営学部 卒業研究 題名「特別区の統計」を用いたオープンデータ・ポータルの開発 学科名 学籍番号 氏名 マネジメント学科 2018M006

    天池 紘子 マネジメント学科 2018M157 中西 唯来 マネジメント学科 2018M210 松井 涼華 卒業研究担当 ◦ 印 ( 月 日) [教員署名・捺印・確認日]
  2. i 要旨 2021 年 9 月 1 日にデジタル庁が設立されたように今日、データサイエンスが注目され ている。世界でもオープンデータの重要性が高まっており、日本もオープンデータを推進 している。しかし、日本は世界より遅れている。それは、日本では検索やデータ抽出機能

    の8割が機能していないことが明らかになったからである。データ社会と言われている現 代で良いデータポータルサイト、データセットとは何かを明確にする必要がある。 そこで本論文では、良いデータポータルサイト、データセットの新たな定義の提案を試 みた。まず、データポータルサイトの定義を提案するために既存世界のデータポータルサ イトのルーブリックを作成し比較する。次に、データセットでは総務省のデータセットの 定義を照らし合わせ比較していく。そしてその定義を使い、東京都の特別区統計のデータ のダッシュボード化を検討した。 今後、日本でのデータポータルサイトの二次利用への関心、総務省のデータセットの定 義が浸透していくことを期待する。そして、私たちの考えた新たな定義も第三者に使って もらうことで精度を上げていくことが課題である。
  3. ii

  4. iii 目次 第1章 はじめに ........................................................................................................ 1 第2章 統計危機とオープンデータ ........................................................................... 3

    第1節 日本の公的統計の問題点 ............................................................................... 3 第2節 オープンデータの流れ .................................................................................. 5 第3章 世界の統計データポータルサイト ............................................................... 11 第1節 データポータルサイトの紹介 ....................................................................... 11 第1項 e-Stat(https://www.e-stat.go.jp/) ..................................................... 11 第2項 日本銀行(https://www.boj.or.jp/) ..................................................... 12 第3項 世界銀行(https://www.worldbank.org/en/home) ............................ 12 第4項 OECD(https://www.oecd.org/) ........................................................ 13 第5項 Our World in Data(https://ourworldindata.org/) ........................... 14 第6項 JETRO(https://www.jetro.go.jp/) .................................................... 14 第2節 各ポータルサイトの比較 ............................................................................. 15 第4章 「良い」データセットの定義 ...................................................................... 19 第1節 総務省の定義 ............................................................................................... 19 第2節 各ポータルサイトダウンロードデータの比較 ............................................. 23 第3節 d-lab 版定義 ................................................................................................ 28 第5章 「特別区の統計」データのダッシュボード化 ............................................. 35 第1節 ダッシュボードとは .................................................................................... 35 第2節 特別区の統計ダッシュボードの開発 ........................................................... 35 第1項 「特別区の統計」の紹介 ...................................................................... 35 第2項 Tableau によるダッシュボード化 ........................................................ 37 第6章 おわりに ...................................................................................................... 43 謝辞 .............................................................................................................................. 45 参考文献 ....................................................................................................................... 47
  5. iv 図表目次 図 3.1 ホームページ(e-Stat) ................................................................................ 11 図 3.2 ホームページ(日本銀行)

    ............................................................................ 12 図 3.3 ホームページ(世界銀行) ............................................................................ 13 図 3.4 ホームページ(OECD) ................................................................................... 13 図 3.5 ホームページ(Our World in Date) ............................................................ 14 図 3.6 ホームページ(JETRO) ................................................................................. 15 図 4.1 ダウンロードデータ(e-Stat) .................................................................... 24 図 4.2 ダウンロードデータ(日本銀行) ................................................................. 24 図 4.3 ダウンロードデータ(世界銀行) ................................................................. 25 図 4.4 ダウンロードデータ(OECD) ........................................................................ 25 図 4.5 ダウンロードデータ(Our World in Date) ................................................. 26 図 4.6 ダウンロードデータ(JETRO) ...................................................................... 26 図 4.7 テーブル形式の特徴 ...................................................................................... 29 図 4.8 単位表記方法 ................................................................................................. 30 図 4.9 e-Stat(左:元ファイル,右:修正ファイル) ........................................... 31 図 4.10 日本銀行(左:元ファイル,右:修正ファイル) ...................................... 32 図 4.11 世界銀行(左:元ファイル,右:修正ファイル) ...................................... 32 図 4.12 OECD(左:元ファイル,右:修正ファイル) ............................................. 33 図 4.13 Our World in Date(左:元ファイル,右:修正ファイル) ...................... 33 図 4.14 JETRO(左:元ファイル,右:修正ファイル) ........................................... 34 図 5.1 特別区協議会「特別区の統計」 .................................................................... 36 図 5.2 データの読み込み .......................................................................................... 37 図 5.3 データインタープリター ............................................................................... 38 図 5.4 ワイルドカードユニオン ............................................................................... 38 図 5.5 「特別区の統計」フィールド名 .................................................................... 39 図 5.6 Tableau Prep Builder ................................................................................... 39 図 5.7 西暦表記対応表 ............................................................................................. 40 図 5.8 Tableau Prep Builder で結合 ....................................................................... 40 図 5.9 Tableau Desktop ............................................................................................ 41
  6. v 図 5.10 「特別区の統計」ダッシュボード化 ............................................................ 41 図 5.11 Tableau Public

    ギャラリーにパブリッシュしたダッシュボード ................ 42 表 2.1 基本計画 .......................................................................................................... 4 表 3.1 ルーブリック ................................................................................................. 15 表 4.1 総務省の定義 ................................................................................................. 19 表 4.2 特殊記号 ........................................................................................................ 23 表 4.3 ダウンロードデータ比較 ............................................................................... 27 表 5.1 「特別区の統計」令和 2 年度版 .................................................................... 37
  7. vi

  8. 1 第1章 はじめに 執筆担当:天池紘子 日本経済新聞(2021)9 月 1 日の記事によると、会計検査院は、政府統計のポータルサ イトで検索やデータ抽出機能が使えない統計が全体の 8

    割であると述べている。2012 年 に総務省を主体としたオープンデータ流通推進コンソーシアムが設立されたにもかかわら ず、その後 9 年経っても未だにオープンデータが機能しておらず使えていないのである。 世界中でデータの公開が注目され、推進されている中、日本のオープンデータは遅れてい る。 そこで本論文では、良いデータとデータセットとは何かの定義を提案する。そしてダッ シュボード化を行っていく。まず、世界のデータサイトのルーブリックを作成し分析、比 較する。そして、総務省の定義と照らし合わせて新しい定義を作成する。新しい定義を元 に公益財団法人特別区協議会が提供している「特別区の統計」を分析し、ダッシュボード 化する。 本論文の章の構成は以下の通りである。第 2 章では、日本のオープンデータの現状、問 題点そしてオープンデータについて述べていく。第 3 章では、日本と世界のデータポータ ルサイトの紹介、ルーブリックを作成し比較をする。第 4 章では、良いデータセットの定 義を作るため、 第 3 章で紹介したデータポータルサイトを総務省の定義と照らし合わせる。 そして新しい定義を提案する。第 5 章では、ダッシュボードとは何か、 「特別区の統計」の 紹介、そして Tableau でダッシュボード化を行う。
  9. 2

  10. 3 第2章 統計危機とオープンデータ 執筆担当:中西唯来 第1節 日本の公的統計の問題点 日本の公的統計の問題点を説明する前に、そもそもなぜ統計改革が必要なのかについて 説明する。近年の日本経済の低調のなかで、公的統計が実体経済の動きを表していないと の不満が募った。 2015

    年の経済財政諮問会議で表面化し、 政府として統計改革に舵を切る きっかけとなった。いわゆる分散型統計システムのもとで、日本の統計を司る司令塔が存 在しなかった、 ということが理由として大きかった。 1990 年代にそうした機能を持つべき 統計審議会の機能・権限が次第に縮小されていたのである。この流れにブレーキをかける ため、統計法の改正、統計委員会が設立されたが、統計委員会も結局は運営面から実質的 に機能・権限が制限されていった。そうしたなかで、経済統計の問題が政府内で大きく取 り上げられるようになり、経済財政諮問会議や統計委員会での議論を経て、統計改革を遂 行するために統計改革推進会議が設置され、統計法の 2 度目の改正が 2019 年実現した。 そして、司令塔機能が強化された統計委員会のもと、第Ⅲ期「基本計画」 (2018~2022 年 度)が実行され、統計委員会の主導のもと統計改革が始動しだしたのである。 第Ⅲ期「基本計画」は、統計法に基づき計画を策定したものであり、平成 30 年 3 月に 策定した計画を変更したものである。不適切統計事案の発生を受けた統計委員会の「再発 防止策」 、統計改革推進会議統計行政新生部会の「総合的対策」における提言を受けて、新 たな取り組みを織り込むために一部変更に至ったという背景がある。変更内容は、再発防 止策・総合的対策の提言内容を織り込んだものであり、①品質確保に向けた取組の強化、 ②統計の重要度に応じたメリハリのある管理、③各府省の統計部局による政府内の他組織 への広範な支援、④専門性を有する人材の確保・育成、⑤職場風土等の確立である。 表 2.1 は、第Ⅲ期「基本計画」の策定経緯である。
  11. 4 表 2.1 基本計画 次に、公的統計の問題点について説明する。統計に対する批判は、1990 年代以降、繰り 返し高まりを見せているが、論点はこの 20 年間ほとんど変化していない。一貫して、景気 関連統計(物価統計を含む)と国内総生産(GDP)の推計精度の低下(推計精度の不足)

    を主に批判されている。 まとめると 5 つの論点がある。 第一に、 景気判断のもととなる GDP や景気関連統計の振れ (ノイズ) が大きいことである。 日本の景気関連統計や四半期別 GDP 速報(QE)の振れは、他の先進国と比べて非常に大きく、これは政府や民間エコノミスト が景気判断を行う際の大きな障害となっている。第二に、統計のカバレッジが十分ではな いこと、GDP が経済活動を十分に捕捉できていないことである。経済構造の複雑化(サー ビス化・グローバル化)に対応することができず、統計のカバレッジが低下しており、カ バレッジが低下すれば、 GDP 統計が経済活動を十分に捕捉できていないことになる。 第三 に、インフレ率の推計精度が十分ではないことである。金融政策との関連から消費者物価 指数に対する推計精度批判が主であるが、実はサービスを主とする物価統計の未整備とい う問題が深刻である。サービス価格を測ることは理論的にも実践的にもさまざまな困難を 伴い、その解決が重要となる。第四に、日本経済の成長力(潜在成長率・生産性)を正確 2016 年 12 月 21 日 経済財政諮問会議が「統計改革の基本方針」を決定 2017 年 2 月 23 日 総務大臣から公的統計の整備に関する基本的な計画の変更につ いて統計委員会に諮問 2017 年 5 月 19 日 統計改革推進会議が「統計改革推進会議最終取りまとめ」を決定 2017 年 12 月 19 日 統計委員会から総務大臣に答申 2018 年 1 月~2 月 国民に意見公募 2018 年 3 月 6 日 第Ⅲ期基本計画(当初)を閣議決定 2019 年 9 月 30 日 統計委員会が 「公的統計の総合的品質管理を目指した取組につい て(建議)」を取りまとめ 2019 年 12 月 24 日 統計改革推進会議統計行政新生部会が 「統計行政の新生に向けて ~将来にわたって高い品質の統計を提供するために~」 を取りま とめ 2020 年 3 月 16 日 総務大臣から公的統計の整備に関する基本的な計画の変更につ いて統計委員会に諮問 2020 年 3 月~4 月 国民に意見公募 2020 年 5 月 1 日 統計委員会から総務大臣に答申 2020 年 6 月 2 日 第Ⅲ期基本計画の変更を閣議決定
  12. 5 に評価できていないことである。日本経済の現状や将来を考える上で、生産性の把握が重 要になり、生産性は生産関数を推計して、全要素生産性を計算することで求められる。生 産性は GDP やインフレ率から計算されるため、第二や第三の問題を解決しないと正確に 評価することはできない。第五に、統計作成プロセスが、日本の社会経済の構造変化に対 応していないことである。統計調査を取り巻く社会経済環境は、いわゆるバブル経済崩壊 後、サービス経済化の進展や少子高齢化の影響等で大きく変化した。これに対して統計作 成プロセスは適切に対応できておらず、回答率の低下や、サンプル調査におけるサンプル

    替え前後の不安定な動きが増大しているようにみえる。このため、作成された統計の時系 列の動きが、実態の動きなのか、それとも統計作成上生じるノイズなのか、分からないと の指摘が多い。 第2節 オープンデータの流れ オープンデータとは「機械判読に適したデータ形式で、二次利用が可能な利用ルールで 公開されたデータ」であり「人手を多くかけずにデータの二次利用を可能とするもの」で ある。つまり、許可されたルールの範囲内であれば、誰でも自由に複製・加工や頒布など ができるデータのことをいう。 「人口統計」や「公共施設の場所」などをはじめとした様々 な公共のデータを、ユーザ(市民、民間企業など)に有効活用してもらい、社会経済全体 の発展に寄与することを目的として、世界中で同様の試みに取り組まれている。 公共データの二次利用可能な形での公開とその活用を促進するオープンデータの意義 と目的は次のとおりである。 第一には、 国民参加・官民協働の推進を通じた諸課題の解決、 経済活性化である。広範な主体による公共データの活用が進展することで、創意工夫を活 かした多様なサービスの迅速かつ効率的な提供、官民の協働による公共サービスの提供や 改善が実現し、 ニーズや価値観の多様化、 技術革新等の環境変化への適切な対応とともに、 厳しい財政状況、急速な少子高齢化の進展等の我が国が直面する諸課題の解決に貢献する ことができる。また、ベンチャー企業等による多様な新サービスやビジネスの創出、企業 活動の効率化等が促され、我が国全体の経済活性化にもつながる。第二として、行政の高 度化・効率化である。国や地方公共団体においてデータ活用により得られた情報を根拠と
  13. 6 して政策や施策の企画及び立案が行われることで(EBPM1:Evidence Based Policy Making) 、効果的かつ効率的な行政の推進につながる。第三に、透明性・信頼の向上であ る。政策立案等に用いられた公共データが公開されることで、国民は政策等に関して十分 な分析、 判断を行うことが可能になり、 行政の透明性、

    行政に対する国民の信頼が高まる。 次にオープンデータの定義について述べる。国、地方公共団体及び事業者が保有する官 民データのうち、国民誰もがインターネット等を通じて容易に利用(加工、編集、再配布 等)できるよう、①営利目的、非営利目的を問わず二次利用可能なルールが適用されたも の。②機械判読2に適したもの。③無償3で利用できるもの。前述の 3 つのいずれの項目に も該当する形で公開されたデータをオープンデータと定義している。 そして、オープンデータの基本的なルールについて説明する。第一に、行政保有データ のオープンデータ公開の原則である。 公共データは国民共有の財産であるとの認識に立ち、 政策(法令、予算を含む)の企画・立案の根拠となったデータを含め、各府省庁が保有す るデータはすべてオープンデータとして公開することを原則としている。なお、①個人情 報が含まれるもの。②国や公共の安全、秩序の維持に支障を及ぼすおそれがあるもの。③ 法人や個人の権利利益を害するおそれがあるもの等、公開することが適当ではない情報に 対して公開の要望があった場合は、オープンデータとして公開できない理由を公開するこ とを原則としている。第二に、公開データの二次利用に関するルールである。各府省庁の ウェブサイト上で公開されるデータについては、原則、政府標準利用規約4を適用し、具体 的かつ合理的な根拠により二次利用が認められないものを除き、公開データの二次利用を 積極的に促進すること。第三に、公開環境である。各府省庁は、ウェブサイトで容易に検 索・利用できる形でデータを公開する。 特に 「各府省庁にしか提供できないデータ」 、 「様々 な分野での基礎資料となり得る信頼性の高いデータ」 、 または 「リアルタイム性を有するデ ータ」等の有用なデータについては社会的ニーズが高いと想定されるため、積極的な公開 を図ることとされている。加えて、利用者の利便性やシステムの負荷及び効率性の観点か ら、一括ダウンロードを可能とする仕組みの導入や、API を通じた提供を推進している。 第四に、公開データの形式である。公開するデータについては、機械判読に適した構造及 1 証拠に基づく政策立案。 2 コンピュータプログラムが自動的にデータを加工、編集等できることを指す。 3 オープンデータとは言えないものの、データ提供システムの維持管理に要するコストを限定された 利用者からの料金徴収でまかなうケースもある。 4 政府機関のウェブサイトで公開されているデータの二次利用を促進する観点から、統一的なひな形 として示された各府省庁ウェブサイトの利用に関するルール。
  14. 7 びデータ形式で掲載することを原則とし、共通語彙基盤等やオープンデータの達成度の評 価指標として用いられている「5 つ星」5の指標を参考に、より活用がしやすい用語や形式 での公開に努めなければならない。なお、国民への情報公開の観点から、人が読むという 従来からの利用形態に適したデータ形式での公開も継続するが、この場合であってもテキ スト検索や抽出ができることが必要である。特に構造化しやすいデータはより活用がしや すいデータ形式である「3 つ星(CSV や

    XML 等のフォーマット) 」6以上での公開を原則 としている。また、構造化が困難なデータを含む全ての公開データは可視化や API 利用が 容易になるよう、データカタログサイトの利用等、メタ情報公開に向けた環境の整備に努 めなければならない。第五に、未公開データの限定公開である。第二の基本的ルールに示 した通り、各府省庁が保有するデータはすべてオープンデータとして公開されることが原 則であるが、何らかの理由によって即座にオープンデータとして公開することが困難な情 報7もある。現在公開していないデータをオープンデータとして公開することで、市民生活 の安全の維持に支障を及ぼすおそれ等があるときには、公開に先立って効果とリスクの比 較検討をすることが求められている。こうしたデータについて、段階的にオープンデータ 化を進めていく観点からは、データの利用目的、範囲、提供先などを限定して公開し、そ の活用を図っていくこと(以下「限定公開」という)が有効である。なお、限定公開を行 う府省庁は、その理由と考え方をあわせて公開することとする。限定公開は、将来的なオ ープンデータ化を見据えて行われることが望ましいが、オープンデータ化に問題があると された場合には、その理由を公開することを原則とする。第六に、有償データの公開に係 る原則である。第二の基本的ルールに示した定義のとおり、データ提供システムの維持管 理に必要とするコストを限定された利用者からの料金徴収でまかなうときには、オープン データとはいえないが、その取扱いに従い、二次利用可能なルールを適応することが望ま しい。また、当該料金については、提供に係る経費の算出根拠と一定の検討のタイミング を明示したうえで、次の 3 つの観点で、見直しを図ることとする。第一に、安価かつ安全 な最新技術を活用することによる、提供に係る経費の低減化の検討。第二に、利用者を増 加させ、個別の利用者の負担額を低減する取組の検討。第三に、利用者負担での提供とす 5 Web の創設者 Tim Berners-Lee が提唱した 5 段階の指標で、ファイル形式に関わらず二次利用が可 能なライセンスを満たす場合は第 1 段階、機械判読性の比較的高い csv 形式は第 3 段階とされている。 6 特定の機能に限定されず共通で利用できるフォーマット(CSV、XML) 。 7 既に紙によるものを含め、利用者の求めに応じて情報公開を含め公開されている情報については対 象外とする。なお、限定公開の対象となるデータの考え方や運用(限定公開の決定プロセスや進捗状況 を把握・評価する体制等)については必要に応じ、今後さらに検討する。
  15. 8 ることが社会的経済的に適当かどうかの再検討である。オープンデータの基本的ルールの 最後は、公開済みデータの更新である。データの迅速な公開やその鮮度の維持が重要なデ ータについては、可能な限り迅速に公開するとともに適時適切な更新を行う。また、デー タ更新の周期等を明示し、利用者が予め更新の時期を把握できるようにしていくこととさ れている。 オープンデータの公開と活用を促す仕組みとして、オープンデータ・バイ・デザインが 推進されている。 「行政が保有するデータについては、 オープンデータを前提として情報シ

    ステムや業務プロセス全体の企画、整備及び運用を行う」というのがオープンデータ・バ イ・デザインの定義であり、各府省庁はこの考えに基づき、行政保有データを利用者が活 用しやすい形で公開するために行政手続き及び情報システムの企画・設計段階から必要な 措置を講じる。そして、内閣官房 IT 総合戦略室は政府 CIO の下、各府省庁の取組につい て助言を行う。もうひとつ、オープンデータの公開と活用を促す仕組みとして、利用者ニ ーズの繁栄がある。オープンデータの推進に当たっては、利用者ニーズを的確に反映しな がら進めることが極めて重要であるため、各府省庁は保有するデータとその公開状況を整 理したリストを公開することで、潜在的なものを含めて利用者ニーズを把握の上、ニーズ に基づいた形でのデータの公開に取り組んでいる。オープンデータに差し響く利用者のニ ーズ(要望) ・意見を積極的に収集・把握し、政府一体となった取組に反映するために、内 閣官房 IT 総合戦略室にオープンデータに関する総合的な相談窓口を設置し、利用者から のオープンデータに関する個別の問い合わせ等に積極的に対応している。 地方公共団体、独立行政法人、事業者におけるそれぞれのオープンデータの取組につい て説明する。地方公共団体は、官民データ活用推進基本法の第 11 条第 1 項によると、 「国 及び地方公共団体は、自らが保有する官民データについて、個人及び法人の権利利益、国 の安全等が害されることのないようにしつつ、国民がインターネットその他の高度情報通 信ネットワークを通じて容易に利用できるよう、 必要な措置を講ずるものとする。 」 とされ ている。地方公共団体は、官民データ活用推進基本法の趣旨及び基本指針を踏まえてオー プンデータを推進することが求められていて、推進に関しては、国や地方公共団体が公開 するデータを広範囲に活用することができるように、標準的な形式及びルールに基づいた 公開に努めることが望ましい。また、複数団体が共同でオープンデータポータルサイトを 立ち上げるといった取組も有効である。 政府は、オープンデータに関する専門家等の派遣、地方公共団体において特に公開が望
  16. 9 まれる分野やデータ項目の提示、先進的な取組事例集や手引き等の提供、人材育成ツール の提供などを通して、地方公共団体におけるオープンデータの取組を積極的に支援してい る。 事業者は、官民データ活用推進基本法の第 11 条第 2 項によると、 「事業者は、自らが保

    有する官民データであって公益の増進に資するものについて、個人及び法人の権利利益、 国の安全等が害されることのないようにしつつ、国民がインターネットその他の高度情報 通信ネットワークを通じて容易に利用できるよう、必要な措置を講ずるよう努めるものと する」とされている。 独立行政法人や大学等においては、国費によって運営されていること又は実施している 事業や研究があることに鑑み、本基本指針に従い、オープンデータの取組を推進すること が望ましい。また、電力・ガス、通信・放送、交通等の公益事業分野の事業者については、 その公益性に鑑み、本基本指針及び利用者ニーズを踏まえて、オープンデータを推進する ことが望ましい。本基本指針は、各種施策の成果や国民・事業者等の意見要望等を踏まえ つつ、技術動向、国際環境等の状況変化に応じ、柔軟に見直しを行うものとしている。 今後、オープンデータに携わる機関はさらに増加するものと思われる。公開だけを目的 とするのではなく、オープンガバメントの理想である行政機関と市民との協働が達成され ることを願ってやまない。
  17. 10

  18. 11 第3章 世界の統計データポータルサイト 担当編集:天池紘子 第1節 データポータルサイトの紹介 世界のデータポータルサイトを 6 つ紹介する。e-Stat、日本銀行、JETRO は日本のサイ

    トであり、世界銀行(The World Bank) 、OECD、Our World in Date、は、世界のサイト である。 第1項 e-Stat(https://www.e-stat.go.jp/) e-Stat は、政府統計のポータルサイトである。公表されている統計データを一つにまと めてあり、統計データを簡単に検索し、多くの利用者の需要に合わせて、グラフ機能やさ まざまな絞り込み項目を備えている。総務省統計局が整備し、独立行政法人統計センター が管理を行っている。政府の統計窓口と言われている。680 の調査データと 1,575,262 件 のデータセットがあり(2021 年 11 月 10 日調べ) 、17 分野に分かれている。利用ガイドが あり、初心者でも使いやすくなっている。検索ワードのランキング表もあり、何が1番検 索されているかが分かる。ユーザー登録すると新着情報配信サービスやマイページ機能、 開発者向けの API 機能8、地図で見る統計を利用することができる。 図 3.1 ホームページ(e-Stat) 8 ソフトウェアから OS の機能を利用するための仕様またはインターフェースの総称で、アプリケーシ ョンの開発を容易にするためのソフトウェア資源。
  19. 12 第2項 日本銀行(https://www.boj.or.jp/) 日本銀行は、わが国の中央銀行であり、日本銀行法により定められている認可法人であ る。 マネーストック9や資金循環10といった金融に関する統計、 企業マインド11を示す短観12、 物価の動向を掴む上で注目される企業物価指数13、国のあらゆる対外経済取引を取りまと めた国際収支統計などの統計を作成している。通貨や金融市場、預金や貸出金、決済、企 業動向、物価、財政、国際収支などに関する

    12 分野の統計がある。他に日本銀行では、適 切な政策・業務運営を支えることを目的に、自ら調査・分析や基礎的研究を行っており、 ホームページ等を通じて公表している。 図 3.2 ホームページ(日本銀行) 第3項 世界銀行(https://www.worldbank.org/en/home) 世界銀行(The World Bank)は、189 の加盟国、130 以上の場所にオフィスを構えてい る。そして国際復興開発銀行、国際開発協会、国際金融公社、多数国間投資保証機関、国 際投資紛争解決センターの 5 つの組織で構成されている。様々なツールを使った「オープ ンな開発」を推進している。各国の政府から債務保証を受けた機関に対し融資を行う国際 機関である。世界銀行(The World Bank)が積み上げてきた約 8000 の開発指標や 1 万件 9 金融部門から経済全体に供給されている通貨の総量。 10 国民経済における通貨、信用の流れ。 11 企業の設備投資や雇用などに対する意欲。 12 統計法に基づいて日本銀行が行う統計調査。 13 日本銀行が公表する、企業間で売買される物品の価格変動を示す指標。
  20. 13 以上の調査研究等を無料で公開している。統計データ量は、4962 件あり、国ごとに検索す ることができる。 図 3.3 ホームページ(世界銀行) 第4項 OECD(https://www.oecd.org/) OECD(Organisation

    for Economic Co-operation and Development)は、経済協力開 発機構のことである。国際マクロ経済動向、貿易、開発援助といった分野に加え、最近で は持続可能な開発、ガバナンスといった新たな分野についても加盟国間の分析を行ってい る。ヨーロッパ諸国を中心に日本・アメリカを含め 38 カ国の先進国が加盟する国際機関 である。OECD は、国際経済全般について協議することを目的としていて「世界最大のシ ンクタンク」とも呼ばれている。統計データ量は 8063 件のデータあり、全て英語表記で ある。OECD 東京というサイトがあり、日本の統計データが載っている。 図 3.4 ホームページ(OECD)
  21. 14 第5項 Our World in Data(https://ourworldindata.org/) Our World in Date

    は、オックスフォード大学と慈善団体ザ・グローバル・チェンジ・ データ・ラボ(The Global Change Data Lab)が共同で制作している各種データまとめサ イトである。貧困、病気、飢餓、気候変動、戦争等リスクそして不平等という地球規模の 大きな問題に対して進歩を遂げるためにデータの公開、研究を行っている。このデータや 研究は公共財としてユーザーに無料で提供されている。今流行しているコロナウイルスに 関するグローバルデータも公開している。 図 3.5 ホームページ(Our World in Date) 第6項 JETRO(https://www.jetro.go.jp/) JETRO(Japan External Trade Organization 日本貿易振興機構)は、日本貿易振興機 構法に基づき、 前身の日本貿易振興会を引き継いで設立された独立行政法人である。 貿易・ 投資促進と開発途上国研究を通じ、 日本の経済 ・ 社会の更なる発展のために活動している。 国内外に拠点があり、海外の地域・産業調査等に豊富な知識を持つ人材を持つ。そして政 府・企業・研究機関・国際機関とのネットワーク、アジア経済研究所における研究成果の 積み重ねの強みを活用して調査・分析を行っている。統計として日本と世界の貿易統計、 投資統計、国際収支統計がある。そして、世界各国の基礎データ、貿易、投資制度、基礎 的経済指標の分野を比較することができる。分野からさらに細かく項目を選択でき、過去 3年分のデータが載っている。
  22. 15 図 3.6 ホームページ(JETRO) 第2節 各ポータルサイトの比較 各種ポータルサイトでの違いがあるか比較していく。まず、ルーブリックを作り、比較 となる項目を作成した。項目はデータ量、期間指定ができるか、ファイル形式が csv もし

    くは xlsx である、グラフ機能があるかの4項目である。そして、その項目を 5 段階で評価 し結果は表 3.1 でまとめた。 表 3.1 ルーブリック データ数が多いという項目は、明確な基準がなかったため 8000 以上のデータ数のポー タルサイトはデータ数が多いと定義する。データ数が分からない場合は、空欄とする。期 間指定ができるは、日または月、年単位のいずれかが期間指定ができることとする。ファ イル形式は、csv または、xlsx のどちらかがあること。グラフ機能は、あるかないかで判 断する。 e-Stat は、日本のあらゆる統計データがあるため、データ量が多い。1,567,154 件のデ e-Stat 日本銀行 世界銀行 O EC D O urW orl d i n D ate JETR O データ数が多い 5 3 5 期間指定ができる 5 5 3 5 5 1 ファイル形式(csv,xlsx) 3 3 5 5 5 5 グラフ機能がある 5 5 3 5 5 1 合計点 18 13 14 20 15 7
  23. 16 ータセットあるため、基準よりも多いことが分かる。期間指定では、調査年、調査月と指 定して調べることができる。その他にも、分野別や組織、統計の種類、50 音など幅広い項 目により詳しく調べることができる。 そしてファイル形式では、 新しいものは csv、 xlsx が

    多いが古い統計データは pdf といった印刷目的のための形式であった。グラフ機能では、 統計ダッシュボードといった統計データをグラフ等に加工したシステムを導入している。 このシステムにより、 グラフ一目見て分かりやすく、 簡単に利用できるようになっている。 しかし、完成されたデータのみがあり元のデータ見つけづらい点があった。 日本銀行は、総データ量に関しては見つけられなかった。期間指定は、時系列統計デー タサイトから年単位で検索することができる。分野や絞り込み項目もあり検索しやすくな っている。ファイル形式では、新しいものは csv、xlsx で、古いデータは pdf であった。 グラフ機能は、時系列統計データサイトにあったが、そのグラフの元のデータがどれなの か分かりにくかった。 世界銀行(The World Bank)は、約 8000 の開発指標や 1 万件以上の調査研究等がある が、データセット自体は、4962 件のデータセットであるため、データ総数は多くはない。 期間指定は、年単位で変更できる。しかし、変更できるデータが限られている。各国ごと に検索することができ、リソースで絞り込むこともできる。表示の仕方も、最終に更新さ れた順や最適なもの選ぶことができる。ファイル形式は、csv、xlsx になっている。グラフ 機能はあるがグラフにできるデータが限られている。グラフの元のデータが見つけやすく なっている。全て英語表記である。 OECD は、 8063 件のデータセットがあり基準以上であるためデータ量は多い。 年単位、 四半期、月単位で期間指定ができる。12 分野に分かれており、各国ごとに絞り込むことが できる。 タイプでもフィルタリングすることができる。 ファイル形式は csv になっている。 グラフ機能もあり、その元のデータも見つけやすい。全て英語表記である。 Our World in Dateの総データ量に関しては見つけることができなかった。 期間指定は、 年単位で指定することができる。ファイル形式は csv である。グラフ機能はある。全て英 語表記である。 JETRO の総データ量を見つけることは出来ず、期間指定も出来なかった。ファイル形 式は xlsx であり、グラフ機能はない。世界各国と比較はできるが、元のデータが載ってい ないため分析しづらい。ビジネスデータベースコーナでのデータはダウンロードできずプ リンアウト用であるため、二次利用できない。JETRO に統計データはあまりなく、情報
  24. 17 データが多いため使いづらい。 6 つのデータポータルサイトを分析した結果、それぞれ使いやすいところや使いづらい ところがあることが分かる。特に日本のデータポータルサイトは、まだまだ印刷目的であ る pdf が多くあるため、データを加工しにくいという現状である。データを加工しにくい と調査や研究、分析ができないのである。海外のデータポータルサイトでは、pdf がなく

    csv や xlsx がほとんどであった。しかし、海外のデータポータルサイトは英語表記である ためデータを見つけづらかった。世界中の誰でも使えるように様々な言語に対応していく ことが大切だと感じた。 次章では、紹介した6つのデータポータルサイトの Excel ファイルを比較し、総務省の 定義と照らし合わせていく。
  25. 18

  26. 19 第4章 「良い」データセットの定義 執筆担当:松井涼華 第1節 総務省の定義 総務省では令和 2 年 12

    月 18 日、各府省が政府統計の総合窓口(e-Stat)に掲載する統 計表における機械判読可能なデータの表記方向の統一ルールを規定した。 15 のチェック項 目はデータ形式の留意点、データ項目の取り扱い、表の構成の取り扱いの 3 つに分かれて おり利用者の利便性向上のために策定された。 15 のチェック項目について順に説明してい く。 表 4.1 総務省の定義 (1)チェック項目 1-1 ファイル形式は Excel か csv となっているか 統計データのファイル形式は仕様が公開・標準化されているものまたは国際的に標準化 されているフォーマットであることと定めている。しかしながら、データベース形式とし
  27. 20 て公表している場合はその限りではない。 具体的な形式として Excel や CSV、 XML14、 ods (Open Document

    Format)15が挙げられる。また、統計表の解説や注釈、図が入った報 道発表資料や報告書ベースのファイル (PDF や印刷することを目的として作成した表形式 データ)で掲載する場合であっても、それとは別途、その表の基データを登録する必要が ある。 (2)チェック項目 1-2 1セル1データとなっているか 1セルに複数のデータが入力されていると、計算や昇順・降順の並び替え、コピーペー ストやグラフ化等加工編集する場合に多くの手作業やプログラムの作成が必要となり、す ぐにデータとして利用できない。そのため 1 セル1データが基本となる。 (3)チェック項目 1-3 数値データは数値属性とし、文字列を含まないこと 数値データに、円、¥、㎏、㌧やマイナス記号(▲)などを文字列として入力すると、 Excel では数値ではなく文字列として扱われてしまう。そのため関数等で計算ができなく なる(エラーとなる)ほか、昇順・降順の並び替えも正確にできない場合がある。また、 ヒトがデータを見やすくするための工夫として、千円単位を示す「, (カンマ) 」を文字列 として直接入力している場合、関数によっては正確に計算できない場合がある。 「, (カン マ) 」を入力したデータの Excel ファイルを csv 化すると csv ではカンマによってデータ を区切るため思わぬ挙動を示す場合がある。他にも、Python16等でデータを読み込む際に 1つの列は整数、少数、文字列といった単一のデータの型であることを前提としているた め、注釈・脚注等の文字列が混在するとその列は数値を含めてすべて文字列として扱われ てしまい、その後の処理で思わぬ挙動を示すことがある。そのため表内に注釈・脚注があ る場合は「別途列を設けて注釈を分離させる」 、 「票の欄外に記載する」または「注釈を別 シートに記載する」のいずれかの方法により記載する必要がある。 (4)チェック項目 1-4 セルの結合をしていないか 表形式データのうち、特にレコード形式17のデータを機械判読可能なデータとして利用 するためには1つのデータを横1行で入力 (レコード) または縦1列で入力 (フィールド) 14 Extensible Markup Language 拡張可能なマークアップ言語のこと 15 XML をベースとしたオフィススイート用ファイルフォーマットのこと 16 1990 年代初頭頃から公開されているプログラミング言語 17 データベースにおいて、テーブルを構成するレコードの内容や種類のこと
  28. 21 する必要がある。セルを結合した場合、並び替えができない、グラフ化ができない、範囲 選択が容易でない、コピーペーストができないなど不都合が発生する。そのためセルの結 合や不必要な分離は行わないことが重要である。 (5)チェック項目 1-5 スペースや改行等で体裁を整えていないか スペースや改行などで体裁を整えた場合データの検索性が低下、複数の表を横断的に利 用する場合においても不都合が生じる可能性がある。スペースで体裁を整えると本来の情 報とは無関係な情報が入力されることになり、他の統計データと結合しようとしても

    VLOOKUP 関数など同じ分類が一致せずに結合できないという可能性がある。 項目の体裁 を整えるために改行が使用されても機械にはその改行に意味があるか判別できないのであ る。そのため、体裁を整えるスペースや改行は削除する必要がある。 (6)チェック項目 1-6 項目名等を省略していないか 私たちヒトであれば省略されている部分の意味を理解できるがソフトウェアなどのプ ログラムではそれができない。そのため省略せずに入力する必要がある。 (7)チェック項目 1-7 数式を使用している場合は、数値データに修正しているか 数式を使用してセルの値を入力している場合、並べ替えを行った際正確な値が表示され なくなる可能性がある。そのためセルのデータは値のみとすることが必要である。 (8)チェック項目 1-8 オブジェクトを使用していないか ふきだしなどのオブジェクトを使用して体裁を整えている場合、機械判読に適していな い。オブジェクトを削除した上でセルを結合させずそれぞれのセルにデータを入力する必 要がある。 (9)チェック項目 1-9 データの単位を記載しているか 物理単位や貨幣単位などデータの単位はデータ処理に必須である。そのため入力する必 要がある。 (10)チェック項目 1-10 機種依存文字を使用していないか。 機種依存文字は利用者の環境によっては正しく表示されない可能性がある。そのため機 種依存文字は利用しないこと。
  29. 22 (11)チェック項目 1-11 e-Stat の時間軸コードの表記、西暦表記又は和暦に西暦の併記 がされているか 時間軸を示すデータについてソフトウェアなどのプログラムは年代の値の大小により 認識することが多いため和暦表示のみでは元号が移り変わる際に手作業で西暦表示に変換 する必要がある。すでに e-Stat

    で用いられている時間軸コードを活用することで、府省間 の共通化を図るとともにデータ収集や横断的利用の自動化が容易となる。そのため可能な 限り e-Stat で用いられている時間軸コードを記載することを推奨する。注意点として、す でに独自の時間軸コードが設定されている場合は同一表内で e-Stat に用いられる時間軸 コードと重複させないこと。時間軸コードのセルには時間軸コード以外の情報を記載しな いこと。時間軸コードがない場合は、西暦表記に直すまたは和暦に西暦を併記することが 注意する点である。 (12)チェック項目 1-12 地域コード又は地域名称が表記されているか 地域の表記について、県名の省略や順不同の記載、同一名称の場合利用者が混乱するこ とを防ぐために都道府県及び市区町村の区域を示す統計情報の表章及び当該情報の相互利 用のための基準である「統計に用いる標準地域コード(昭和 45 年 4 月統計審議会答申決 定)(以下、 「標準コード」という。)」を可能な限り記載しこれによらない場合は、同コード に定められた地域の名称を記載することとされている。また時間軸コードと同様に独自の 標準地域コードが背呈されている場合は同一表内で標準コードと重複させないこと。地域 コードのセルには地域コード以外の情報を記載しないことが注意点である。 (13)チェック項目 1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 数値データの同一列内に秘匿などの特殊処理を行っている記号を掲載している場合、数 値データとしてではなく文字列として扱われる。しかし同一セルには数値が入っておらず Excel 関数で計算した場合特殊処理を行っているセルは無視されて計算される。そのため 特殊記号は例外とし、数値データと同一列に記載することを許容する。ただし、同一セル 内の数値と文字は混同させないことが重要である。 なお、特殊処理した記号は原則以下の通りに統一し、これによらない場合は使用した記 号の意味を明記することとする。
  30. 23 表 4.2 特殊記号 特殊処理 記号 集計した結果がゼロ、表章桁未満 0 集計に必要なデータがない ***

    秘匿データ X (14)チェック項目 2-1 データが分離されていないか 空白の列などを追加、Excel の 1 シートに複数の表頭・表側を設定した場合、データが 分断されてしまい機械判読が容易ではなくなる可能性がある。また表の印刷や形成を意識 した不必要な空白行(列)を追加しないこと。データが分断されている場合は空白部分を 削除しデータが分断されないようにする必要がある。 (15)チェック項目 2-2 1 シートに複数の表が掲載されていないか 1 シートに複数の表が掲載されている場合、正確な計算や昇順・降順の並び替えなどが できないことがある。よって 1 つの表を 1 シートに分断する必要がある。 第2節 各ポータルサイトダウンロードデータの比較 第 2 章で紹介した世界の統計ポータルサイトのダウンロードデータを総務省の統計表に おける機械判読可能なデータの表記方向の統一ルールに従って比較していく。世界の統計 データポータルサイトのダウンロードデータを以下の表にまとめた。
  31. 27 表 4.3 ダウンロードデータ比較 表の記号について、〇表記は該当する、×表記は該当しない、△表記は部分的に該当す ることを表している。また今回比較のためにダウンロードしたデータでは判断できないも のについては空白で表記されている。 e-Stat についてチェック項目 1-1

    ではファイル形式が csv、Excel のものは多く存在し たがデータが古いものになると pdf のものが多く△表記になった。チェック項目 1-3 では 数値データに見えやすい工夫としてカンマが入力されていたため×表記とした。チェック 項目 1-5 では都道府県名をスペースで体裁を整えていたため×表記とした。チェック項目 1-9 の単位表記では表の外に単位が記載されているが項目名の箇所に記載されていなかっ たため△表記とした。 日本銀行についてチェック項目 1-1 では e-Stat と同様にファイル形 式が csv、Excel のものが存在しているがファイル形式が pdf のものも多く存在したため △表記とした。チェック項目 1-3 も同様にカンマが入力されていたため×表記とした。チ ェック項目 1-9 もデータの単位が表の外にあるが項目名の箇所に記載されていないため△ 表記とした。チェック項目 1-12 では項目に地域名が存在しなかったため判断できず空白 とした。世界銀行(The World Bank)についてチェック項目 1-3 では$マーク表記があっ たため×としチェック項目 1-9 ではデータの単位の記載がなかったため×表記とした。 OECD についてチェック項目 1-9 では同様にデータの単位の記載がなかったため×表記と した。チェック項目 1-12 ではオーストラリアが AUT のように地域名称が省略されていた ため×表記とした。Our World in Date についてチェック項目 1-9 ではデータの単位の記 載がどこにもなかったため×表記とした。JETRO についてチェック項目 1-1 では Excel e-Stat 日本銀行 The W orl d B ank O EC D O ur W orl d i n D ate JETR O □チェック項目1-1 △ △ 〇 〇 〇 △ □チェック項目1-2 〇 〇 〇 〇 〇 〇 □チェック項目1-3 × × × 〇 〇 × □チェック項目1-4 〇 〇 〇 〇 〇 〇 □チェック項目1-5 × 〇 〇 〇 〇 〇 □チェック項目1-6 〇 〇 〇 〇 〇 〇 □チェック項目1-7 〇 〇 〇 〇 〇 〇 □チェック項目1-8 〇 〇 〇 〇 〇 〇 □チェック項目1-9 △ △ × × × △ □チェック項目1-10 〇 〇 〇 〇 〇 〇 □チェック項目1-11 〇 〇 〇 〇 〇 〇 □チェック項目1-12 〇 〇 × 〇 □チェック項目1-13 〇 〇 〇 〇 〇 〇 □チェック項目2-1 〇 〇 〇 〇 〇 〇 □チェック項目2-2 〇 〇 〇 〇 〇 〇
  32. 28 データは存在したが多くの pdf データが存在したため△表記とした。チェック項目 1-3 で は数値データにカンマが入力されていたこと、 ▲ (マイナス) 表記があったため×とした。

    チェック項目 1-9 ではデータの単位表記が表の外にあるが項目名の箇所に記載されていな かったため△表記とした。 6 つの世界の統計データポータルサイトのダウンロードデータを比較してみると、どの サイトにおいても総務省の表記方法のルールにすべて該当するものは存在しなかった。特 にチェック項目 1-9 データの単位を記載しているかについてはどのサイトも適していると はいえない。また表から分かるように該当しないチェック項目はどの統計データポータル サイトも似ていることが分かる。つまりどのサイトも同じ箇所が機械判読困難な状態であ ることが明らかになった。 第3節 d-lab 版定義 第 4 章 1 節、 2 節では 「良い」 データセットの定義を総務省の表記方法のルールを説明、 各サイトデータの比較を行ったが総務省の表記方法のルールすべてに適応していれば機械 判読が容易になるかというとそれだけではまだ不十分だと考え、私たち d-lab はより機械 判読が容易になる定義を検討した。d-lab とは私たちが所属するゼミナールの組織名であ りデータ分析と地域デザインがテーマで活動している。始めに標準的なテーブル形式につ いて説明し、次に総務省の表記方法のルールについて改善した方が良い点について述べて いく。最後に総務省のルールの中では述べられていないが私たち d-lab が提案する機械判 読が容易になるような表記方法について述べていく。 まずは標準的なテーブル形式とは何かを説明する。データ分析ツールでは表の表記はデ ータベースのテーブルの表記ルールに従っていることが前提としてある。まとめると以下 となる。 • 横方向(列)に項目(フィールド)が並ぶ。 • 縦方向に(行)データ(レコード)が並ぶ • 先頭行は項目名。 • 1 行に 1 レコード。 • 1 つのセルには複数のデータを入れない。
  33. 29 • 同じ種類のデータを同じ列に(複数種類を 1 列に入れない) 。 図 4.7 テーブル形式の特徴 次に総務省の表記ルールの改善点について述べていく。総務省の表記方法チェック項目

    1-3 について、総務省の表記方法では表内に注釈・脚注がある場合は「別途列を設けて注 釈を分離させる」 、 「表の欄外に記載する」又は「注釈を別シートに記載する」のいずれか の方法により記載することとあった。しかし、私たちはいずれかの方法を選択させるので はなく定義として 「注釈を別シート又は別ファイルに記載する」 を適用すべきだと考える。 なぜなら私たち d-lab がグラフ作成する際に使用した Tableau というソフトウェアでは注 釈・脚注が別途列にある場合や表の欄外にあった場合不明な値となりグラフ作成が困難に なる場合がある。したがって注釈・脚注が存在する場合は別テーブルに分ける又は別ファ イルに記載することを提案する。またチェック項目 1-9 について、データの単位が含まれ る項目について別セルにその項目の単位を入力することとあるがそれでは機械判読が容易 ではない。なぜならば標準的なテーブル形式で述べたように、Tableau を含め多くのデー タ分析ツールでは表の表記はデータベースのテーブルの表記ルールに従っていることが前 提であり、テーブルでは1行目は項目(フィールド)が入り 2 行目からデータが入る想定 にある。チェック項目 1-9 の表記方法にすると変数名を表すことに 2 行使用しているため 変数名は1行にする必要がある。単位の表記方法について、単位専用の独立した列を作成 することを提案する(図 4.8 参照) 。
  34. 30 図 4.8 単位表記方法 次に私たち d-lab が提案する機械判読が容易になるような表記方法を述べていく。総務 省のルールの改善点で述べたようにテーブルでは1行目にフィールド名、2行目からデー タが入ることが想定されているため定義付けとして1行目はフィールド名、2行目からは データを入れることを提案する。しかし図

    4.1 や図 4.2 を見ると明らかなように1行目か らフィールド名が入っていない。なぜなら1行目には図 4.1 ならば総人口、図 4.2 ならば 期末貸借対照表勘定といった説明がなされている。その解決案としてシート名にその説明 文を入れる、または1行目に説明を書かなくてもダウンロードサイトの方には何のデータ なのか記載があるため省略するという手段を考えた。また図 4.1 を見て明らかなように都 道府県といった1つのフィールド名に複数のセルが使用されている。変数名を表すことに 10 行も使用されており良いデータとは言えない。総務省の定義では1セル1データか、ス ペースや改行で体裁を整えていないか、セルを結合させていないかということであり定義 的には問題ないのだが実際にこのデータを機械で取り込むとフィールド名は都道府県だが 周りの空白のセルもデータの一部と判断され不明なデータとなり、 機械判読が困難となる。 なぜ複数のセルを使用しているのか、これは印刷した際の表の見やすさを重視しているた めこのようなことが起きたのではないかと考える。機械判読するデータは印刷を目的とし たものとは別に作成する必要がある。定義としてスペースや改行で体裁を整えないは無論 セルによる体裁を整える行為も定義として追加するべきだと考えた。 その他にも同一年度でないデータ(前年のデータ)が列にある場合を想定する。その場 合では西暦の列を作成し、同一の変数の過年度データは同列に配置するようにすると良い
  35. 31 と考えた。また図 4.1 の表内にある全国のような合計や構成比などは表計算で求められる ためデータに記載する必要はないと考える。表 4.3 においてデータの単位を記載している かについて△表記にしたように表の外にデータの単位が記載されていると不明な値となる ことがあるため表外ではなくフィールド名(変数名)のところに記載する必要があると考 えた。

    以上をまとめると、d-lab 版定義は以下となる。 • 注釈・脚注は別シートまたは別ファイルに記載する。 • フィールド名(変数名)は 1 行にする。 • 単位は、単位専用の独立した列を作成する。 • データの 1 行目はフィールド名(変数名)2 行目からデータを入力する。 • セルによって体裁を整えない。 • 前年データがある場合西暦の列を作成し過年度データを同列に配置する。 • 合計・構成比は記載しないが d-lab 版定義である。 比較した各サイトの Excel ファイルを d-lab 版に修正したものを図 4.9~図 4.14 にまと めた。 図 4.9 e-Stat(左:元ファイル,右:修正ファイル)
  36. 35 第5章 「特別区の統計」データのダッシュボード化 執筆担当:松井涼華 第1節 ダッシュボードとは ダッシュボードとはさまざまなデータをグラフィカルにまとめ、一目で理解できるよう にするデータ可視化の方法のことをいう。Tableau を含め多くの BI

    ツールではダッシュ ボード機能が実装されている。個々に作成したグラフを一画面上にまとめて表示したもの で、一覧表示することにより一つ一つのデータを参照する手間が省けグラフ同士を対比さ せることも容易になるためより情報が伝わりやすくなる。車のダッシュボードと同様にデ ータのダッシュボードは重要であり可視化されたデータを使用し問題解決に変革をもたら すことができる。ダッシュボードでは任意の図のデータを選択すると他のデータも連動す るという機能が備わっている。 次に私たち d-lab がグラフ作成、ダッシュボード化する際に使用するソフトウェアであ る Tableau を紹介する。Tableau はデータドリブン18な課題解決を変革し組織のデータを 最大限活用することを可能にするビジュアル分析プラットフォームである。Tableau の分 析プラットフォームはデータの探索と管理を簡単に行い、ビジネスや世界を変革する可能 性があるインサイトを迅速に見出して共有することを可能にしている。Tableau が設立さ れたのは 2003 年であり、分析フローを改善し、ビジュアライゼーションを通じて人々が データをさらに利用できることを目的としてスタンフォード大学のコンピューターサイエ ンスプロジェクトから誕生した。 第2節 特別区の統計ダッシュボードの開発 第1項 「特別区の統計」の紹介 18 勘や経験だけに頼るのではなくデータの分析結果をもとに課題解決のための施策を立案やビジネス の意志決定などを行う業務プロセスを指す
  37. 36 私たちは公益財団法人特別区協議会が提供する東京 23 区の各行政分野における基礎的 なデータをとりまとめた 「特別区の統計」 を活用してダッシュボード化に取り組んでいく。 特別区とは東京都にある 23 の区のことを特別区という。特別区という名称は戦後間もな

    い昭和 22(1947)年に成立した地方自治法に「都の区は、これを特別区という。 」と定め られたことに由来する。特別区は市と同じ基礎的な自治体である。政令指定都市の中にも 「区」という区域が存在するが自治体である特別区とは異なり、住民の利便性のために設 けられた行政区画(行政区)である。次に「特別区の統計」について説明していく。 「特別 区の統計」は 13 分野 85 項目 117 表からなる二次統計データベースである。分割されてい る表もあるため実際の Excel ファイル数は 166 である(表 5.1 参照) 。昭和 56(1981)年 から平成 18(2006)年のデータは PDF ファイルのみ提供され、平成 19(2007)年から 令和 3(2021)年は Excel ファイルで提供されている(令和 3 年版データは随時更新され ている) 。 図 5.1 特別区協議会「特別区の統計」
  38. 37 表 5.1 「特別区の統計」令和 2 年度版 第2項 Tableau によるダッシュボード化 BI

    ツールである Tableau を活用してデータのダッシュボード化に取り組んでいく。前 準備として同一フォルダ内に「特別区の統計」の各年度の同じデータファイルをダウンロ ードして保存しておく。Tableau を活用してダッシュボード化に取り組む前にまず Tableau Prep Builder という前処理ツールを用いてデータの読み込みを行った。 図 5.2 データの読み込み Excel データの読み込みを行ったが、テーブルルールに従っていないためうまく読み込 むことができない。しかし Tableau Prep Builder 内にある「データインタープリター」と いう機能をオンにすることで適切な範囲を読み込み、 フィールド名をつけることができる。 分野 項目 Excelファイル数 1.土地と人口 1~ 12 17 2.産業 13~ 18 13 3.住居 19~ 22 5 4.道路・公園 23~ 31 9 5.保健衛生 32~ 38 19 6.区民 39~ 41 5 7.福祉 42~ 52 17 8.環境 53~ 60 9 9.教育・文化 61~ 67 24 10.交通・災害 68~ 72 5 11.選挙・議会 73~ 78 10 12.執行機関 79~ 80 9 13.財政 81~ 85 24 166
  39. 38 図 5.3 データインタープリター 次に Tableau Prep Builder 内の「ワイルドカードユニオン」という箇所を選択し 「*toukei-001」を一致パターンとして指定することで前準備として同一フォルダ内に保

    存したデータを縦につなげることが可能になる。これはファイル名がルールに従っていた ことで可能になった。 図 5.4 ワイルドカードユニオン
  40. 41 Tableau Prep Builder で処理したデータを、Tableau Desktop で読み込む。区別の折 れ線グラフを作成した。同じような手順で「特別区の統計」以外でも活用できる。 Tableau では作成したグラフ(Viz)を

    Tableau Online という WEB サイトに発行するこ とができる。この WEB サイトはアカウントを所持している人限定ではあるが様々なグラ フ(Viz)を見ることができる。 図 5.9 Tableau Desktop 今回、ダッシュボード化するために「特別区の統計」土地と人口の特別区の面積と人 口、交通・災害の交通事故発生件数及び死傷者数の Excel ファイルの変数の結合(ジョ イン)を行った。 図 5.10 「特別区の統計」ダッシュボード化
  41. 42 今回作成した「特別区の統計」のダッシュボードを Tableau Public ギャラリーにパブ リッシュを行った。Tableau Public とはデータビジュアライゼーシをオンラインで共有 および探索するための無料のプラットフォームであり下記の URL

    から私たちの作成した グラフ(Viz)を見ることができる。 (https://public.tableau.com/app/profile/d.lab6302/viz/_16387976712070/1) 図 5.11 Tableau Public ギャラリーにパブリッシュしたダッシュボード シートでグラフを作成し、それらをダッシュボードにまとめる。様々な角度から可視 化したデータを組み合わせ、複数のフィルターを絞り込むことで今まで気づかなかったイ ンサイトが得られやすくなる。また、シートやダッシュボード化で得られたインサイトを 説明するときは Tableau のインタラクティブ性を活かせるようにストーリー機能を使用 すると良い。今回使用した「特別区の統計」のデータでは変数の範囲が少なかったこと、 グラフ作成の技術面が乏しかったためグラフの比較、インサイトを見いだすことが非常に 難しいものとなった。様々なグラフを作成し、Tableau やその他の BI ツールの理解を深 めることを今後の課題として取り組んでいきたい。
  42. 43 第6章 おわりに 執筆担当:天池紘子 第 2 章では、オープンデータの流れに触れ、日本の公的統計の問題点について述べた。 オープンデータとは特定のデータが許可されたルールの範囲内において、全ての人が自由 に複製・加工や頒布などできるデータである。第 3

    章では、世界と日本のデータポータル サイトの紹介・比較を行った。結果、日本は世界と比較してデータの二次利用に対し遅れ ていた。第 4 章では総務省の定義を紹介した。しかし、その内容だけでは機械判読が容易 ではなかった。そのため私たち d-lab が新しい定義を作成した。第 5 章では、東京都の公 益財団法人特別区協議会が提供する 「特別区の統計」 を用いてダッシュボード化を行った。 世界で推進されているオープンデータの日本の現状、問題点、世界のデータポータルサ イトの比較と総務省の定義との比較を行い、良いデータポータルサイトとデータセットの 定義について検討した。定義を定めることでデータを扱いやすくし、共通化することで誰 でも簡単にアクセスでき調査・研究・分析を行うことができるのである。その結果、日本 のデータポータルサイトは世界のデータポータルサイトと比べて二次利用に関し遅れてい ることが分かった。二次利用は本来、加工しやすい csv もしくは xlsx が望ましい。しかし ながら日本でのファイル形式は pdf が多かった。総務省の定義を実際のデータと照らし合 わせると、不十分なところがあり d-lab 版定義は、機械判読が容易な定義として追加や修 正を行った。 私たちが作成した定義を多くの人に活用してもらうことが今後の課題である。情報社会 である今日において、目に触れやすい SNS に投稿していきたい。インターネットに公開 し周知に努め、活用してもらうことを期待する。また、Tableau やその他の BI ツールの理 解をより深め、さまざまなグラフの作成に挑戦したい。
  43. 44

  44. 46

  45. 47 参考文献 JETRO,https://www.jetro.go.jp/,(2021 年 11 月 23 日アクセス). OECD,https://www.meti.go.jp/policy/trade_policy/oecd/index.html,(2021 年

    11 月 23 日アクセス) . Our World in Date,https://ourworldindata.org/,(2021 年 11 月 23 日アクセス) . The World Bank,https://www.worldbank.org/en/home,(2021 年 11 月 23 日アクセ ス) . 公益財団法人特別区協議会, 「特別区の統計」 ,https://www.tokyo-23city.or.jp/chosa/toke i/tokubetsuku/index.html,(2021 年 11 月 23 日アクセス) . 庄司昌彦責任編集(2014) 『オープンデータ特集号』 ,国際大学グローバル・コミュニケ ーション・センター. 総務省,2020.12.18,「統計表における機械判読可能なデータ 作成に関する表記方法」,htt ps://www.soumu.go.jp/main_content/000723626.pdf 総務省統計局,「e-Stat 政府統計の総合窓口」,https://www.e-stat.go.jp/,(2021 年 11 月 2 3 日アクセス). 高度情報通信ネットワーク社会推進戦略本部,2021.6.15,「オープンデータ基本指針」, https://cio.go.jp/sites/default/files/uploads/documents/data_shishin.pdf 高度情報通信ネットワーク社会推進戦略本部(IT 総合戦略本部)(2016) 「官民データ活用 推進基本法」 ,https://www.kantei.go.jp/jp/singi/it2/hourei/detakatsuyo_honbun.html https://www.e-stat.go.jp/,(2021 年 11 月 23 日アクセス). 日本銀行,https://www.boj.or.jp/,(2021 年 11 月 23 日アクセス) . 西村清彦・山澤成康・肥後雅博(2020) 『統計 危機と改革 システム劣化からの復活』 , 日経 BP. 日本経済新聞(2021 年) 「政府統計、8 割がデータ検索できず 縦割りが浮き彫り」 ,2021 年 9 月 1 日,https://www.nikkei.com/news/printarticle/?R_FLG=0&bf=0&ng=DGXZ QOUA31AJD0R30C21A8000000 松島七衣(2019) 『Tableau による最強・最速のデータ可視化テクニック~データ加工か らダッシュボード作成まで~』 ,翔泳社.