Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析...
Search
hase-ryo
December 11, 2023
Business
2
260
20231212_DataEngineeringStudy#22_デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展
Data Engineering Study #22 5社のデータエンジニアが振り返る2023
https://forkwell.connpass.com/event/299633/
発表資料
hase-ryo
December 11, 2023
Tweet
Share
More Decks by hase-ryo
See All by hase-ryo
20230725_データエンジニアに求められるソフトスキル
haseryo
4
5k
20230126 10X-Data-Management-for-Social-Issues Data Standards Initiatives by the Digital Agency of Japan
haseryo
1
230
20230118 kazaneya TeckTalk3 Data Standards and Open Data Initiatives by the Digital Agency of Japan
haseryo
5
5.1k
DataEngineeringStudy #12 明日から真似できる! ケース別データ可視化のノウハウ
haseryo
6
2.7k
水道の歴史からみる データ品質の過去と未来 - インフラとしてのデータ分析環境を目指して -
haseryo
0
270
メルカリにおけるDashboard Replacementの事例 / 20190906 Looker User Meetup Merpay
haseryo
5
51k
Concept of Data Management
haseryo
1
360
Other Decks in Business
See All in Business
“難しい”をもっと楽に簡単に♪ 届出ダンジョンからの脱出
tokyo_metropolitan_gov_digital_hr
0
290
VISASQ: ABOUT US
eikohashiba
15
460k
バイセルのものさし(Ver. 1.1)
buyselltechnologies
0
190
5 Things Every L&D Pro Should Steal From Marketing
trainlikeamarketer
0
420
これを使用
ehealthcare2004
0
290
不感対策ソリューション 詳細資料
jtes
0
160
HERBEST_about service
beat
0
630
la belle vie Inc. Company Introduction for Engineers
recruiting
0
820
三井物産グループのデジタル証券〜三井物産グループのデジタル証券〜三重・イオンタウン鈴鹿〜徹底解説セミナースライド(20241023)
c0rp_mdm
0
2.5k
IT 未経験者をVue.js で開発できる IT コンサルタントに育てあげる秘訣/ Future's New Employee Training
yut0naga1_fa
0
290
エムスリーキャリア エンジニア採用資料 / M3C Engineer Guide
m3c
1
86k
ビジネスの変化に迅速に反応 質・量どちらも追及する 星野リゾートのノーコード戦略
junkokotake
0
260
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Gamification - CAS2011
davidbonilla
80
5k
A Tale of Four Properties
chriscoyier
156
23k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Ruby is Unlike a Banana
tanoku
97
11k
Visualization
eitanlees
145
15k
Being A Developer After 40
akosma
86
590k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
120
Transcript
デジタル庁のデータ分析基盤「sukuna」の立ち上げと発展 〜 Agile&FragileからTrust&Robustへ〜 Data Engineering Study #22 5社のデータエンジニアが振り返る2023 2023-12-12 デジタル庁
Fact & Data Unit Data Engineer ⻑⾕川(hase-ryo)
デジタル庁 Fact & Data Unit ⻑⾕川 亮(hase-ryo) • 経歴 ◦ インテージでデータ整備とデータ基盤
◦ Webメディアやリクルートをフラフラしてデータ分析 ◦ メルカリでデータ分析とデータマネジメント ◦ デジタル庁(週4) + メルカリ(週1) &データ経営コンサル『風音屋』アドバイザー • デジタル庁での業務 ◦ Fact & Data Unitでデータ分析基盤の開発・整備 ◦ 社会の基本データ(ベース・レジストリ)のオープンデータ化 ◦ などなど 2 ⾃⼰紹介
• ターゲット ◦ 社内や庁内でデータ分析組織の⽴ち上げとスケールを狙いたい⼈ ▪ データアナリストなどのデータ⼈材 ▪ 経営層 ◦ 今運⽤しているデータ分析基盤をぶっ壊して作り直したい⼈
▪ 課題感をもつデータエンジニア ◦ ⾏政組織におけるデータ活⽤の現状についてふんわり知りたい⼈ • 持ち帰ってほしい知⾒ ◦ 需要を意識してパイプラインを作ること 3 今⽇の話のターゲット
1. デジタル庁でこんなことやってます 2. 中央省庁のデータはどうなっているのか? 3. Agile & Fragileに作るデータパイプライン 4. 期待の⾼まり
5. Trust & Robustなデータパイプラインへ 6. まとめ 利⽤者の期待に追従すること 4 アジェンダ
5 デジタル庁でデータ分析基盤を作っています デジタル庁のデータ分析基盤「 sukuna」 https://digital-gov.note.jp/n/na227ce427930
6 政策データダッシュボードで情報透明化 政策データダッシュボード一覧( https://www.digital.go.jp/resources/govdashboard)
7 そもそも中央省庁のデータってどうなってるの? データの蓄積 データの綺麗さ データの利用状況
8 省庁にデータは溜まっているのか? YES or NO データの蓄積
9 省庁にデータは溜まっているのか? YES であり NO • データが蓄積されているかどうかはまちまち ◦ 統計データは多いがローデータは少ない ◦
委託事業者が所持している場合が多い ◦ 事業者から提供可能かどうかは別問題 • 分析観点でのデータ蓄積は少ない ◦ 分析利用のためには高いハードルがある • Excelの状態で人が見る前提のデータが多い ◦ アンケート形式で収集されるものなど ◦ 稀にAPIからデータ取得可能なものもある データはあるにはある、けど・・。
10 省庁のデータは使いやすい状態か? YES or NO データの綺麗さ
11 省庁のデータは使いやすい状態か? ほとんどの場合でNO • 人が見る前提のExcelデータ = 機械可読性が低い ◦ いわゆる神Excelなど・・・ ◦ 公開することが目的化したPDF形式もある •
総務省が機械可読性の高いExcel形式を推奨する ガイドラインを公開してはいるが浸透していない ◦ 統計表における機械判読可能なデータ作成に関する表記方法について (https://www.soumu.go.jp/main_content/000723697.pdf) • 委託事業者の持っているデータはサービス提供観点 ◦ 分析観点では一歩足りないことが多い 神Excelを浄化してCSVにするのは まぁ面倒くさい
12 省庁のデータ活⽤は進んでいるか? YES or NO データの利用状況
13 省庁のデータ活⽤は進んでいるか? まだまだNOが多い • データが使いにくいので活用も進まない ◦ さらにKPIの振り返りなど、データを見る制度自体少な い ◦ データは危険なものという慎重な姿勢 ◦
たまに政策の効果検証などで単発的に実施される • 一部の省庁では進んでいるが全体的にはまだまだ データ活用はあっても細々
14 中央省庁のデータ データの蓄積 まちまち データの綺麗さ 使いにくい データの利用状況 進んでない
15 この状態で『EBPM』やるにはどうすれば‧‧‧?
16 とにかく『使える』『活⽤できる』ことを優先! • まずはデータによる便益を人々に届ける! ◦ ターゲットは政策を実施している官僚など ◦ データを使ったことがない、使うシーンがないのに データの上流に気が配られることはない •
データの集めにくさ、汚さには目を瞑る ◦ ・・というか人の手で一旦解決する • とにかくデータ活用が「アタリマエ」になるように 価値を実感することが大事
17 Agileに、Fragileでもパイプラインを敷く→sukuna誕⽣ • GCPでシュッと作りました ◦ 1プロジェクトで完結 • Cloud functionでデータ取り込み&クリーニング ◦
データの機械可読性の低さはここでケアする ◦ 人力でExcel加工している部分もあり • データレイク/データウェアハウス/データマートは BigQuery ◦ じゃんじゃんクエリを回して試行錯誤する • データPMが一時データのアップロード→加工→ダッシュ ボード作成まで行える権限をもつ ◦ データ所持者やデータ利用者との調整と並行業務 ◦ 安定してきたらdbtなどで機械にバトンタッチ まずはデータが流れること優先!
18 データ活⽤がデジタル庁内で徐々に広まり始めた! →冒頭の成果に繋がっていく
19 EBPMへの期待が⾼まりつつある 議長の岸田総理と河野デジタル大臣 • 総理大臣が議長の「デジタル行財政改革会議」で EBPMに言及 ◦ ダッシュボード等で「見える化」を徹底せよ ◦ ROIや効果検証の前にまずモニタリングせよ
• データを行政内で負担なく取得できる仕組み構築 ◦ データ取得方法の刷新! ◦ データ分析の共通基盤化! ◦ データの標準化!
20 やばい! これで耐えれんのか!?
21 今後はTrustかつRobustなデータ分析基盤が求められる がっしり・どっしり、安定と信頼を確保するパイプライン • パイプラインへの期待値の変化 ◦ データ活用に資することは大前提 ◦ 安定して使い続けられる ◦
信頼してデータを預けられる ◦ 取得方法への柔軟な対応 ◦ 人ではなく仕組み・システムで 担保する安全性 ◦ メンテナンス性の高さ • データ分析基盤のリアーキテクチャが 進行中 ◦ 鋭意開発中です
22 まとめ 利⽤者の期待値の変化に追従しよう Agile & Fragile Trust & Robust 素早く柔軟な価値創出が求められる 安定性と信頼性が求められる
事業や組織のPhase
23 まとめ 時には⼤胆にパイプラインを作り替える 東京都水道歴史館にて撮影 御茶ノ水駅から徒歩 5分、入館無料 江戸時代の水道 木製の樋が地中を走っていた 明治時代に入り期待値が変化 「もう少し立派な水道にしなければ」 明治期の鋼鉄製の水道管
手前のものは令和にも現役
デジタル庁で採⽤やってます 24 ついでに宣伝! 「デジタル庁」「採用」で検索!
None