Slide 1

Slide 1 text

デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展 〜 Agile&FragileからTrust&Robustへ〜 Data Engineering Study #22 5社のデータエンジニアが振り返る2023 2023-12-12 デジタル庁 Fact & Data Unit Data Engineer ⻑⾕川(hase-ryo)

Slide 2

Slide 2 text

デジタル庁 Fact & Data Unit ⻑⾕川 亮(hase-ryo) ● 経歴 ○ インテージでデータ整備とデータ基盤 
 ○ Webメディアやリクルートをフラフラしてデータ分析 
 ○ メルカリでデータ分析とデータマネジメント 
 ○ デジタル庁(週4) + メルカリ(週1)
 &データ経営コンサル『風音屋』アドバイザー 
 ● デジタル庁での業務 ○ Fact & Data Unitでデータ分析基盤の開発・整備 
 ○ 社会の基本データ(ベース・レジストリ)のオープンデータ化 
 ○ などなど
 2 ⾃⼰紹介

Slide 3

Slide 3 text

● ターゲット ○ 社内や庁内でデータ分析組織の⽴ち上げとスケールを狙いたい⼈ ■ データアナリストなどのデータ⼈材 ■ 経営層 ○ 今運⽤しているデータ分析基盤をぶっ壊して作り直したい⼈ ■ 課題感をもつデータエンジニア ○ ⾏政組織におけるデータ活⽤の現状についてふんわり知りたい⼈ ● 持ち帰ってほしい知⾒ ○ 需要を意識してパイプラインを作ること 3 今⽇の話のターゲット

Slide 4

Slide 4 text

1. デジタル庁でこんなことやってます 2. 中央省庁のデータはどうなっているのか? 3. Agile & Fragileに作るデータパイプライン 4. 期待の⾼まり 5. Trust & Robustなデータパイプラインへ 6. まとめ 利⽤者の期待に追従すること 4 アジェンダ

Slide 5

Slide 5 text

5 デジタル庁でデータ分析基盤を作っています デジタル庁のデータ分析基盤「 sukuna」 https://digital-gov.note.jp/n/na227ce427930

Slide 6

Slide 6 text

6 政策データダッシュボードで情報透明化 政策データダッシュボード一覧( https://www.digital.go.jp/resources/govdashboard)

Slide 7

Slide 7 text

7 そもそも中央省庁のデータってどうなってるの? データの蓄積 データの綺麗さ データの利用状況

Slide 8

Slide 8 text

8 省庁にデータは溜まっているのか?  YES or NO データの蓄積

Slide 9

Slide 9 text

9 省庁にデータは溜まっているのか? YES であり NO ● データが蓄積されているかどうかはまちまち ○ 統計データは多いがローデータは少ない ○ 委託事業者が所持している場合が多い ○ 事業者から提供可能かどうかは別問題 ● 分析観点でのデータ蓄積は少ない ○ 分析利用のためには高いハードルがある ● Excelの状態で人が見る前提のデータが多い ○ アンケート形式で収集されるものなど ○ 稀にAPIからデータ取得可能なものもある データはあるにはある、けど・・。

Slide 10

Slide 10 text

10 省庁のデータは使いやすい状態か? YES or NO データの綺麗さ

Slide 11

Slide 11 text

11 省庁のデータは使いやすい状態か? ほとんどの場合でNO ● 人が見る前提のExcelデータ = 機械可読性が低い ○ いわゆる神Excelなど・・・ ○ 公開することが目的化したPDF形式もある ● 総務省が機械可読性の高いExcel形式を推奨する ガイドラインを公開してはいるが浸透していない ○ 統計表における機械判読可能なデータ作成に関する表記方法について (https://www.soumu.go.jp/main_content/000723697.pdf) ● 委託事業者の持っているデータはサービス提供観点 ○ 分析観点では一歩足りないことが多い 神Excelを浄化してCSVにするのは まぁ面倒くさい

Slide 12

Slide 12 text

12 省庁のデータ活⽤は進んでいるか? YES or NO データの利用状況

Slide 13

Slide 13 text

13 省庁のデータ活⽤は進んでいるか? まだまだNOが多い ● データが使いにくいので活用も進まない ○ さらにKPIの振り返りなど、データを見る制度自体少な い ○ データは危険なものという慎重な姿勢 ○ たまに政策の効果検証などで単発的に実施される ● 一部の省庁では進んでいるが全体的にはまだまだ データ活用はあっても細々

Slide 14

Slide 14 text

14 中央省庁のデータ データの蓄積 まちまち データの綺麗さ 使いにくい データの利用状況 進んでない

Slide 15

Slide 15 text

15 この状態で『EBPM』やるにはどうすれば‧‧‧?

Slide 16

Slide 16 text

16 とにかく『使える』『活⽤できる』ことを優先! ● まずはデータによる便益を人々に届ける! ○ ターゲットは政策を実施している官僚など ○ データを使ったことがない、使うシーンがないのに データの上流に気が配られることはない ● データの集めにくさ、汚さには目を瞑る ○ ・・というか人の手で一旦解決する ● とにかくデータ活用が「アタリマエ」になるように 価値を実感することが大事

Slide 17

Slide 17 text

17 Agileに、Fragileでもパイプラインを敷く→sukuna誕⽣ ● GCPでシュッと作りました ○ 1プロジェクトで完結 ● Cloud functionでデータ取り込み&クリーニング ○ データの機械可読性の低さはここでケアする ○ 人力でExcel加工している部分もあり ● データレイク/データウェアハウス/データマートは BigQuery ○ じゃんじゃんクエリを回して試行錯誤する ● データPMが一時データのアップロード→加工→ダッシュ ボード作成まで行える権限をもつ ○ データ所持者やデータ利用者との調整と並行業務 ○ 安定してきたらdbtなどで機械にバトンタッチ まずはデータが流れること優先!

Slide 18

Slide 18 text

18 データ活⽤がデジタル庁内で徐々に広まり始めた! →冒頭の成果に繋がっていく

Slide 19

Slide 19 text

19 EBPMへの期待が⾼まりつつある 議長の岸田総理と河野デジタル大臣 ● 総理大臣が議長の「デジタル行財政改革会議」で EBPMに言及 ○ ダッシュボード等で「見える化」を徹底せよ ○ ROIや効果検証の前にまずモニタリングせよ ● データを行政内で負担なく取得できる仕組み構築 ○ データ取得方法の刷新! ○ データ分析の共通基盤化! ○ データの標準化!

Slide 20

Slide 20 text

20 やばい! これで耐えれんのか!?

Slide 21

Slide 21 text

21 今後はTrustかつRobustなデータ分析基盤が求められる がっしり・どっしり、安定と信頼を確保するパイプライン ● パイプラインへの期待値の変化 ○ データ活用に資することは大前提 ○ 安定して使い続けられる ○ 信頼してデータを預けられる ○ 取得方法への柔軟な対応 ○ 人ではなく仕組み・システムで 担保する安全性 ○ メンテナンス性の高さ ● データ分析基盤のリアーキテクチャが 進行中 ○ 鋭意開発中です

Slide 22

Slide 22 text

22 まとめ 利⽤者の期待値の変化に追従しよう Agile & Fragile Trust & Robust 素早く柔軟な価値創出が求められる 安定性と信頼性が求められる 事業や組織のPhase

Slide 23

Slide 23 text

23 まとめ 時には⼤胆にパイプラインを作り替える 東京都水道歴史館にて撮影 御茶ノ水駅から徒歩 5分、入館無料 江戸時代の水道 木製の樋が地中を走っていた 明治時代に入り期待値が変化 「もう少し立派な水道にしなければ」 明治期の鋼鉄製の水道管 手前のものは令和にも現役

Slide 24

Slide 24 text

デジタル庁で採⽤やってます 24 ついでに宣伝! 「デジタル庁」「採用」で検索!

Slide 25

Slide 25 text

No content