Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データマネジメントのトレードオフに立ち向かう
Search
Ikki Miyazaki
February 20, 2025
Technology
6
830
データマネジメントのトレードオフに立ち向かう
2025.02.20 白金鉱業 Meetup Vol.17の登壇スライドです。
Ikki Miyazaki
February 20, 2025
Tweet
Share
More Decks by Ikki Miyazaki
See All by Ikki Miyazaki
データ基盤の負債を生まない技術と技術以外の話
ikkimiyazaki
13
5.7k
incrementalモデルの理解を深める
ikkimiyazaki
2
1.2k
Other Decks in Technology
See All in Technology
スクラムのイテレーションを導入してチームの雰囲気がより良くなった話
eccyun
0
110
『AWS Distinguished Engineerに学ぶ リトライの技術』 #ARC403/Marc Brooker on Try again: The tools and techniques behind resilient systems
quiver
0
140
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
130
開発スピードは上がっている…品質はどうする? スピードと品質を両立させるためのプロダクト開発の進め方とは #DevSumi #DevSumiB / Agile And Quality
nihonbuson
2
2.8k
スタートアップ1人目QAエンジニアが QAチームを立ち上げ、“個”からチーム、 そして“組織”に成長するまで / How to set up QA team at reiwatravel
mii3king
2
1.4k
RSNA2024振り返り
nanachi
0
560
TAMとre:Capセキュリティ編 〜拡張脅威検出デモを添えて〜
fujiihda
1
230
マルチモーダル理解と生成の統合 DeepSeek Janus, etc... / Multimodal Understanding and Generation Integration
hiroga
0
380
データ資産をシームレスに伝達するためのイベント駆動型アーキテクチャ
kakehashi
PRO
2
500
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
6
57k
なぜ私は自分が使わないサービスを作るのか? / Why would I create a service that I would not use?
aiandrox
0
700
Datadogとともにオブザーバビリティを布教しよう
mego2221
0
140
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
410
The World Runs on Bad Software
bkeepers
PRO
67
11k
Done Done
chrislema
182
16k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.1k
Automating Front-end Workflow
addyosmani
1368
200k
GraphQLとの向き合い方2022年版
quramy
44
13k
Mobile First: as difficult as doing things right
swwweet
223
9.3k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Being A Developer After 40
akosma
89
590k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Transcript
Copyright stable, inc. All rights reserved. データマネジメントの トレードオフに立ち向かう 2025.02.20 白金鉱業
Meetup Vol.17 1 stable株式会社 代表取締役 宮﨑一輝
Copyright stable, inc. All rights reserved. 早速ですが... 2 データサイエンティストの方はどれぐらいいますか?✋
Copyright stable, inc. All rights reserved. 早速ですが... 3 データマネジメントをやっている人はどれぐらいいますか?✋
Copyright stable, inc. All rights reserved. 本日お話しすること 4 - データマネジメントによって、何を目指しているのか?
- データマネジメントの難しさ - データマネジメントの具体的な取り組み例 「そもそもデータマネジメントを何のためにやっているのか」の 根本的な部分についてお話しできればと思います。
Copyright stable, inc. All rights reserved. 自己紹介 5 宮﨑一輝(ikki) stable株式会社
代表取締役 & データエンジニア - 略歴 - コンサル → データアナリスト → データエンジニア - 2023年にstable株式会社を創業 - 得意領域 - dbtを用いたデータモデリング - データ分析 - その他 - 犬2匹を飼っています🐶
Copyright stable, inc. All rights reserved. 顧客 会社説明 6 データ基盤
支援 データ活用の推進 事業価値への貢献 stableは、データ基盤構築を作って終わりではく、その先の顧客企業における データ活用推進や事業価値への貢献まで見据えて支援を行っています。
Copyright stable, inc. All rights reserved. 1. 前置き 2. データマネジメントが目指しているもの
3. データマネジメントの課題 4. どう課題を解決しようとしているか 5. まとめ 7
Copyright stable, inc. All rights reserved. データを販売・サービス利用する。 データ基盤を使うのは顧客や協業先の人 データマネジメントの大分類 「誰のためか」という観点で、データマネジメントを社内向けと社外向けの
2つに分類する。 8 社内向けのデータマネジメント 社外向けのデータマネジメント 社内の意思決定の根拠として使われる。 データ基盤を使うのは社内の分析者
Copyright stable, inc. All rights reserved. データを販売・サービス利用する。 データ基盤を使うのは顧客や協業先の人 データマネジメントの大分類 「誰のためか」という観点で、データマネジメントを社内向けと社外向けの
2つに分類する。 9 社内向けのデータマネジメント 社外向けのデータマネジメント 社内の意思決定の根拠として使われる。 データ基盤を使うのは社内の分析者 今回お話しする内容
Copyright stable, inc. All rights reserved. 社内向けのデータマネジメント 社内向けでは、主に「データを用いた意思決定の精度向上」を目的として、 意思決定のサイクルを回すためにデータが至るところで活用される。 10
Plan(計画) - 計画・目標数値の決定 - 施策の方向性を決める ためのデータ分析 Do(施策の実行) - データに基づいた クーポンの送付 Check(測定・評価) - 施策結果のモニタリング - 施策の効果検証 Action(対策・改善) - 現状の再把握 - 改善策を出すための データ分析
Copyright stable, inc. All rights reserved. 社内向けのデータマネジメントに重要な2つの要素 データマネジメントの責務として、データ活用のサイクルを「早く、たくさん回 すこと」に加えて、使われるデータが「正しいこと」を保証する必要がある。 11
データ活用のサイクルを早く、たくさん回す 使われるデータが正しい 使われるデータに、間違いや曖昧性がなく、 間違った意思決定がされないようにする データを適切に管理して、 意思決定サイクルに使いやすい状態にする
Copyright stable, inc. All rights reserved. ①サイクルを早く、たくさん回す 分析ユーザーの人数を増やす、分析の頻度を増やす、分析の効率を上げる、など の取り組みにより、社内のデータを活かした意思決定サイクルの総量を増やす。 12
- 分析ユーザーの人数を増やす - 分析が行われる頻度を増やす - 分析作業の効率を高める 目指す方向性 データ活用のサイクルを早く、たくさん回す データを活かした意思決定サイクルの 総量を増やす
Copyright stable, inc. All rights reserved. ②使われるデータが正しい データ活用の総量を増やしたとしても、データに誤りがあれば意味がなくなる。 そのために、データの正しさを保証する取り組みも必要となる。 13
- データの誤りをなくす - 障害によりデータが見れない状態を防ぐ - 人によって定義が異なる指標の定義を統一する 目指す方向性 間違ったデータが使われることで、 誤った意思決定がされることを防ぐ 使われるデータが正しい
Copyright stable, inc. All rights reserved. 1. 前置き 2. データマネジメントが目指しているもの
3. データマネジメントの課題 4. どう課題を解決しようとしているか 5. まとめ 14
Copyright stable, inc. All rights reserved. データマネジメントのトレードオフ 「データ活用の総量を増やすこと」と、「データの正しさ」は、 しばしばトレードオフの関係になってしまう。 15
データ活用の 総量を増やす データの正しさ
Copyright stable, inc. All rights reserved. データマネジメントのトレードオフ / 自由度を高めると... 社内のデータ活用の総量を増やすために拡大を進めると、様々なデータ品質的な
課題が山のように出てきてしまう。 16 データ活用の 総量を増やす データの 正しさ 多くの人が、高頻度で、 どんどんクエリを書いている状態 - 1回きりのダッシュボードが乱立... - クエリからクエリへの多重参照... - 鰻のタレのような注ぎ足しのクエリ... - 人によって集計の定義が違う...
Copyright stable, inc. All rights reserved. データマネジメントのトレードオフ / ガバナンスを強めると... データの正しさを絶対的に担保するため、ガバナンスを強めすぎると、
データ抽出のリードタイムは長くなり、施策に使えない状態になってしまう。 17 データ活用の 総量を増やす 間違ったデータやカオスを0にするために 中央集権でガバナンスを強める - 自由にデータを使えない... - データチームに依頼するしかない... - データを見るまでのリードタイムが長い... - 遅すぎて施策に間に合わないので使われない... データの 正しさ
Copyright stable, inc. All rights reserved. データマネジメントにおけるトレードオフの構造 分析の総量を増やすことで、データが意思決定に寄与するような機会を作り、 データ活用に関するポジティブなループを回したい。 18
分析の総量 データが 意思決定に寄与 施策が上手くいく 分析に対する好感 ポジティブ
Copyright stable, inc. All rights reserved. データマネジメントにおけるトレードオフの構造 一方で、分析の総量が増えることで、カオスやデータ品質の問題が生まれ、 ネガティブループを引き起こす要因にもなってしまう。 19
分析の総量 データが 意思決定に寄与 施策が上手くいく カオスが生まれる データに誤りが 含まれる データに対する 不信感 分析に対する好感 ネガティブ ポジティブ
Copyright stable, inc. All rights reserved. データマネジメントにおけるトレードオフの構造 トレードオフの構造に対して、データエンジニアが”介入”を行うことで、 適切にデータ活用のサイクルが回り続ける状態を実現しようとしている。 20
介入 分析の総量 データが 意思決定に寄与 施策が上手くいく カオスが生まれる データに誤りが 含まれる データに対する 不信感 分析に対する好感 介入 介入 介入 介入 介入 介入 介入 介入 介入 介入 介入
Copyright stable, inc. All rights reserved. 1. 前置き 2. データマネジメントが目指しているもの
3. データマネジメントの課題 4. どう課題を解決しようとしているか 5. まとめ 21
Copyright stable, inc. All rights reserved. データマネジメントの取り組み例 目的に応じて様々な取り組みを行っている。一例を紹介する。 22 データ活用の
総量を増やす データの 正しさ 1 BIツールの導入 ✅ 2 データカタログ ✅ ✅ 3 テストの拡充 ✅ 4 CI/CD ✅ 5 オブザーバビリティ ✅ 6 データモデリング ✅ ✅ 7 セマンティックレイヤー ✅ ✅ 8 データメッシュ ✅ ✅
Copyright stable, inc. All rights reserved. データマネジメントの取り組み例(1/8) BIツールの導入 23 概要
- BIツールを選定し、導入する 得られる成果の例 - 使いやすいツールを選ぶことで、 分析者の分析効率を上げられる - SQLを不要とするものや、LLMを活用できる ものなど、さらなる効率アップも期待できる
Copyright stable, inc. All rights reserved. データマネジメントの取り組み例(2/8) データカタログ 24 *1:
OpenMetadata公式HP(https://open-metadata.org/ ) 概要 - データに関するデータ(メタデータ)を 集約するためのツール - 分析で使うデータがどういうデータなのかを 分析者が理解するために必要となる 得られる成果の例 - 分析者がどこにどのデータがあるかを理解で きるようになり、分析がしやすくなる - データに関する説明を見えるようにすること で、データを間違った解釈で使うリスクを減 らせる ▼データカタログツールのOpenMetadataの例*1
Copyright stable, inc. All rights reserved. データマネジメントの取り組み例(3/8) テストの拡充 25 概要
- dbtなどのパイプラインで、 データに関するテストを実施する - データテスト、ユニットテスト、 鮮度テスト、など様々な種類がある 得られる成果の例 - 間違ったデータが提供されるリスクを減らす - データが更新されていないことに早く気付け るようにする ▼dbt testはyamlで簡単に実装できる ▼dbt ユニットテストのイメージ
Copyright stable, inc. All rights reserved. データマネジメントの取り組み例(4/8) CI/CD(Continuous Integration/ Continuous
Delivery) 26 *1: Fujitsu Cloud Direct「CI/CDとは」(https://clouddirect.jp.fujitsu.com/service/navi-words-ci_cd ) 概要 - モデルの変更があった際に、変更内容を 自動的にテストしたり、本番環境に自動で デプロイするような仕組み - 変更内容を本番環境に自動で適用したりする 仕組み 得られる成果の例 - テストが自動化されることにより、 全ての変更がテスト済みの状態で提供される - 自動化によって、開発者の生産性が向上する ▼一般的なCI/CDの概念図*1
Copyright stable, inc. All rights reserved. データマネジメントの取り組み例(5/8) データオブザーバービリティ 27 *1:
Monte Carlo「What is Data Observability? 5 Key Pillars To Know」 (https://www.montecarlodata.com/blog-what-is-data-observability/ ) *2: Elementary 公式HP(https://www.elementary-data.com/ ) 概要 - テストは予測可能な問題に対してしか、 データ品質の検証をすることができない - より広範囲にデータをモニタリングして、 予測できない問題にも気付けるようにする 得られる成果の例 - テストで拾えなかったデータ異常に気付ける ▼elementaryというツールの画面*2 ▼テストとの関係性*1
Copyright stable, inc. All rights reserved. ▼データモデリングとは*1 データマネジメントの取り組み例(6/8) データモデリング 28
*1: stable株式会社「データモデリングの価値」(https://stable.co.jp/blog/data-modeling-value ) 概要 - 分析者が分析しやすいように、 データを整える営みのこと - ディメンショナルモデリングが代表的 得られる成果の例 - 分析者が分析しやすくなる - 集計の定義が統一され、人によってズレない
Copyright stable, inc. All rights reserved. セマンティックレイヤー 概要 - 様々なツールで使える、共通的なメトリクス
を一箇所に集約してくれるもの - ユーザーの分析ニーズに合わせて、 柔軟にSQLを発行して結果を返してくれる 得られる成果の例 - 分析者がSQLを書く必要がなくなる - 集計の定義が統一され、人によってズレない ▼セマンティックレイヤーの概念図*1 データマネジメントの取り組み例(7/8) 29 *1: たくまん「セマンティックレイヤー / Headless BIとは」(https://zenn.dev/churadata/articles/e779a733c5fb35 )
Copyright stable, inc. All rights reserved. データメッシュ 概要 - 中央集権的にデータ基盤を管理するのではな
く、管理主体を事業ドメイン側に持たせる - 事業ドメイン間で、APIのようにデータをやり 取りする 得られる成果の例 - 中央集権のデータチームのリソース不足に 依存しないため、スピードを高められる - 事業ドメイン固有の知識を活かして、 データ基盤開発を行うことができる ▼データメッシュの概念図*1 データマネジメントの取り組み例(8/8) 30 *1: 「Example of dbt Multi-Projects」 (https://medium.com/refined-and-refactored/dbt-mesh-powering-the-data-mesh-the-ultimate-guide-a721ab78d008 )
Copyright stable, inc. All rights reserved. 1. 前置き 2. データマネジメントが目指しているもの
3. データマネジメントの課題 4. どう課題を解決しようとしているか 5. まとめ 31
Copyright stable, inc. All rights reserved. まとめ 32 データマネジメントに重要な要素 -
データ活用の総量を増やすこと - データの正しさ データマネジメントの課題 - 上記の2つはトレードオフ - バランスをとりながら適切に拡大していく どう課題を解決しようとしているか - 以下のような領域で課題の解決を試みている - データ活用の推進:BIツール、データカタログの導入 - データ品質の向上:テスト、CI/CD、データオブザーバビリティ - 両方:データモデリング、セマンティックレイヤー、データメッシュ - これらの技術は直近2,3年で急速に成長していて面白い時代!
Copyright stable, inc. All rights reserved. まとめ 33 結論 データエンジニアリングは面白い!
皆もデータエンジニアになろう! \ カジュアル面談募集中 /
Copyright stable, inc. All rights reserved. 34 END ご清聴ありがとうございました