Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析...
Search
hase-ryo
December 11, 2023
Business
2
430
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
Data Engineering Study #22 5社のデータエンジニアが振り返る2023
https://forkwell.connpass.com/event/299633/
発表資料
hase-ryo
December 11, 2023
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
デジタル庁のデータ分析基盤におけるdbtの活用
haseryo
1
180
20230725_データエンジニアに求められるソフトスキル
haseryo
5
5.3k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
260
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.3k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.8k
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
haseryo
0
330
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
53k
Concept of Data Management
haseryo
1
440
Other Decks in Business
See All in Business
enechain company deck
enechain
PRO
9
130k
malna-recruiting-pitch
malna
0
8.4k
GeminiのCanvas機能で脳を悦ばせてみた
o2mami
1
220
AIで変わるPdMの役割──思考する力が武器になる
itsukikacky
18
12k
PLAID ALPHAらしさ
plaid
PRO
1
480
採用ピッチ資料/エアモビリティ株式会社
airmobility_jinji
0
2.2k
あえてのNotAI_AI時代の営業、人の感情と志にBetする
hitoshi_kakizawa
0
270
実践!Holistic testing
hironoritsukiji
0
880
株式会社FinT 事業紹介資料_2025/07~
fint_recruit
0
1k
技術的負債に立ち向かう、 ひとりから始めるチームづくり / From One to Team: Building Momentum Against Technical Debt
yoshiyoshifujii
1
180
アークエル株式会社 会社説明資料
aakel
1
6k
会社概要_DataLabs
datalabs
1
780
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
512
110k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Code Review Best Practice
trishagee
69
19k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Making Projects Easy
brettharned
117
6.3k
Balancing Empowerment & Direction
lara
2
570
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
Scaling GitHub
holman
462
140k
Producing Creativity
orderedlist
PRO
347
40k
Transcript
デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展 〜 Agile&FragileからTrust&Robustへ〜 Data Engineering Study #22 5社のデータエンジニアが振り返る2023 2023-12-12 デジタル庁
Fact & Data Unit Data Engineer ⻑⾕川(hase-ryo)
デジタル庁 Fact & Data Unit ⻑⾕川 亮(hase-ryo) • 経歴 ◦ インテージでデータ整備とデータ基盤
◦ Webメディアやリクルートをフラフラしてデータ分析 ◦ メルカリでデータ分析とデータマネジメント ◦ デジタル庁(週4) + メルカリ(週1) &データ経営コンサル『風音屋』アドバイザー • デジタル庁での業務 ◦ Fact & Data Unitでデータ分析基盤の開発・整備 ◦ 社会の基本データ(ベース・レジストリ)のオープンデータ化 ◦ などなど 2 ⾃⼰紹介
• ターゲット ◦ 社内や庁内でデータ分析組織の⽴ち上げとスケールを狙いたい⼈ ▪ データアナリストなどのデータ⼈材 ▪ 経営層 ◦ 今運⽤しているデータ分析基盤をぶっ壊して作り直したい⼈
▪ 課題感をもつデータエンジニア ◦ ⾏政組織におけるデータ活⽤の現状についてふんわり知りたい⼈ • 持ち帰ってほしい知⾒ ◦ 需要を意識してパイプラインを作ること 3 今⽇の話のターゲット
1. デジタル庁でこんなことやってます 2. 中央省庁のデータはどうなっているのか? 3. Agile & Fragileに作るデータパイプライン 4. 期待の⾼まり
5. Trust & Robustなデータパイプラインへ 6. まとめ 利⽤者の期待に追従すること 4 アジェンダ
5 デジタル庁でデータ分析基盤を作っています デジタル庁のデータ分析基盤「 sukuna」 https://digital-gov.note.jp/n/na227ce427930
6 政策データダッシュボードで情報透明化 政策データダッシュボード一覧( https://www.digital.go.jp/resources/govdashboard)
7 そもそも中央省庁のデータってどうなってるの? データの蓄積 データの綺麗さ データの利用状況
8 省庁にデータは溜まっているのか? YES or NO データの蓄積
9 省庁にデータは溜まっているのか? YES であり NO • データが蓄積されているかどうかはまちまち ◦ 統計データは多いがローデータは少ない ◦
委託事業者が所持している場合が多い ◦ 事業者から提供可能かどうかは別問題 • 分析観点でのデータ蓄積は少ない ◦ 分析利用のためには高いハードルがある • Excelの状態で人が見る前提のデータが多い ◦ アンケート形式で収集されるものなど ◦ 稀にAPIからデータ取得可能なものもある データはあるにはある、けど・・。
10 省庁のデータは使いやすい状態か? YES or NO データの綺麗さ
11 省庁のデータは使いやすい状態か? ほとんどの場合でNO • 人が見る前提のExcelデータ = 機械可読性が低い ◦ いわゆる神Excelなど・・・ ◦ 公開することが目的化したPDF形式もある •
総務省が機械可読性の高いExcel形式を推奨する ガイドラインを公開してはいるが浸透していない ◦ 統計表における機械判読可能なデータ作成に関する表記方法について (https://www.soumu.go.jp/main_content/000723697.pdf) • 委託事業者の持っているデータはサービス提供観点 ◦ 分析観点では一歩足りないことが多い 神Excelを浄化してCSVにするのは まぁ面倒くさい
12 省庁のデータ活⽤は進んでいるか? YES or NO データの利用状況
13 省庁のデータ活⽤は進んでいるか? まだまだNOが多い • データが使いにくいので活用も進まない ◦ さらにKPIの振り返りなど、データを見る制度自体少な い ◦ データは危険なものという慎重な姿勢 ◦
たまに政策の効果検証などで単発的に実施される • 一部の省庁では進んでいるが全体的にはまだまだ データ活用はあっても細々
14 中央省庁のデータ データの蓄積 まちまち データの綺麗さ 使いにくい データの利用状況 進んでない
15 この状態で『EBPM』やるにはどうすれば‧‧‧?
16 とにかく『使える』『活⽤できる』ことを優先! • まずはデータによる便益を人々に届ける! ◦ ターゲットは政策を実施している官僚など ◦ データを使ったことがない、使うシーンがないのに データの上流に気が配られることはない •
データの集めにくさ、汚さには目を瞑る ◦ ・・というか人の手で一旦解決する • とにかくデータ活用が「アタリマエ」になるように 価値を実感することが大事
17 Agileに、Fragileでもパイプラインを敷く→sukuna誕⽣ • GCPでシュッと作りました ◦ 1プロジェクトで完結 • Cloud functionでデータ取り込み&クリーニング ◦
データの機械可読性の低さはここでケアする ◦ 人力でExcel加工している部分もあり • データレイク/データウェアハウス/データマートは BigQuery ◦ じゃんじゃんクエリを回して試行錯誤する • データPMが一時データのアップロード→加工→ダッシュ ボード作成まで行える権限をもつ ◦ データ所持者やデータ利用者との調整と並行業務 ◦ 安定してきたらdbtなどで機械にバトンタッチ まずはデータが流れること優先!
18 データ活⽤がデジタル庁内で徐々に広まり始めた! →冒頭の成果に繋がっていく
19 EBPMへの期待が⾼まりつつある 議長の岸田総理と河野デジタル大臣 • 総理大臣が議長の「デジタル行財政改革会議」で EBPMに言及 ◦ ダッシュボード等で「見える化」を徹底せよ ◦ ROIや効果検証の前にまずモニタリングせよ
• データを行政内で負担なく取得できる仕組み構築 ◦ データ取得方法の刷新! ◦ データ分析の共通基盤化! ◦ データの標準化!
20 やばい! これで耐えれんのか!?
21 今後はTrustかつRobustなデータ分析基盤が求められる がっしり・どっしり、安定と信頼を確保するパイプライン • パイプラインへの期待値の変化 ◦ データ活用に資することは大前提 ◦ 安定して使い続けられる ◦
信頼してデータを預けられる ◦ 取得方法への柔軟な対応 ◦ 人ではなく仕組み・システムで 担保する安全性 ◦ メンテナンス性の高さ • データ分析基盤のリアーキテクチャが 進行中 ◦ 鋭意開発中です
22 まとめ 利⽤者の期待値の変化に追従しよう Agile & Fragile Trust & Robust 素早く柔軟な価値創出が求められる 安定性と信頼性が求められる
事業や組織のPhase
23 まとめ 時には⼤胆にパイプラインを作り替える 東京都水道歴史館にて撮影 御茶ノ水駅から徒歩 5分、入館無料 江戸時代の水道 木製の樋が地中を走っていた 明治時代に入り期待値が変化 「もう少し立派な水道にしなければ」 明治期の鋼鉄製の水道管
手前のものは令和にも現役
デジタル庁で採⽤やってます 24 ついでに宣伝! 「デジタル庁」「採用」で検索!
None