Slide 1

Slide 1 text

データ基盤の負債を生まない 技術と技術以外の話 2024.08.20 大規模データの負債解消への道のり Lunch LT stable株式会社 Ikki Miyazaki

Slide 2

Slide 2 text

背景:データ負債の現状 昨今のデータ活用・データエンジニアリングの重要性の高まりに伴い、 データ基盤の開発が進むとともに、副産物としてデータ負債問題が生じている。 昨今、データの重要性は言うまでもなく、 データ基盤の開発が進められてきた 生み出した成果の副産物として、
 データ基盤の負債に関する問題も生じている 成果 負債 Copyright stable, inc. All rights reserved. 1

Slide 3

Slide 3 text

背景:負債解消に役立つ技術の発展と普及 *1: Infrastructure as Codeの略称 データ基盤に関する技術・ツールは、日進月歩で発展しており、 データ負債の解消に大きく貢献している。 カテゴリ ツール例 負債解消への寄与 データウェアハウス BigQuery, Snowflake ・計算性能向上に伴い、あらゆる処理がシンプルに ・周辺機能との連携が進み、使いやすくなった データ加工ツール dbt, Dataform ・SQLでほとんどのデータ加工が行えるようになった ・リネージが可視化され、パイプラインが管理しやすく ・テストやメタデータ管理など、データ品質も向上 データ転送ツール Fivetran, TROCCO ・SaaSによって、ノーコードでデータ転送が可能に ・障害対応や保守運用コストが大幅に削減 IaC*1ツール Terraform ・インフラがコード管理され、手作業が不要に Copyright stable, inc. All rights reserved. 2

Slide 4

Slide 4 text

本資料のテーマ 技術が発展してきている中で、それでも悩まされるデータ負債に対して、 技術以外の観点でどうアプローチすると良いかを検討する。 技術が発展してきているのに、 データの負債の解消に悩んでいる人は多い 技術 ˜ ツール・技術の発… ˜ データモデリング手法の普及 技術以外 技術以外 ˜ 組織k ˜ マインドk ˜ 仕組み 本資料のメインテーマ Copyright stable, inc. All rights reserved. 3

Slide 5

Slide 5 text

自己紹介 W 宮﨑 一輝(Miyazaki Ikki8 W 略歴4 ) コンサル(データアナリスト9 ) スタートアップ(データアナリスト・データエンジニア9 ) フリーランス(データエンジニア9 ) stable株式会社 創業 ▼正社員募集中! Copyright stable, inc. All rights reserved. 4

Slide 6

Slide 6 text

会社説明 企業のデータ活用に関する、あらゆる領域で支援を行っている会社です。 データ基盤 データチーム Y ログ基盤の構P Y ELTパイプラインの構築 Y DWHの構P Y Airflow→dbtへの移“ Y ディメンショナルモデリング導入 データ発生側 データ活用側 Y 開発環境(Terraform, CI/CD等)の整q Y コスト管理体制の構築 Y データ分’ Y KPIダッシュボード作成 Copyright stable, inc. All rights reserved. 5

Slide 7

Slide 7 text

アジェンダ 2! 前置) ! データ負債による問題と課 ! データ負債に対する技術以外の対策

Slide 8

Slide 8 text

課題:データ負債によって生じる問題 データ負債が蓄積することにより、あらゆる箇所で、あらゆる問題が発生。 ダッシュボード間の
 数値が一致しない 前に集計したものと
 数値が変わった 「データ抽出依頼の 対応が遅い...」 「どこに何のデータが
 あるか分からない...」 サイロ化したデータ基盤 集計ミスに気付けない 障害が発生して
 データが利用不可に アプリログの
 形式がバラバラ データ転送処理の
 メンテナンスが大変 Copyright stable, inc. All rights reserved. 7

Slide 9

Slide 9 text

課題:解決すべき3つの課題 生じる問題を抽象化して考えると、以下の3つの課題に突き当たることが多い。 WV 戦略がなP HV 知見がなP FV リソースがない Copyright stable, inc. All rights reserved. 8

Slide 10

Slide 10 text

アジェンダ G2 前置D (2 データ負債による問題と課" &2 データ負債に対する技術以外の対$ 戦略がなÉ 知見がなÉ リソースがない

Slide 11

Slide 11 text

課題1:戦略がない データに関する戦略がないと局所最適で短期志向のデータ基盤が生まれやすい。 £ データに関する戦略がないことは、データ負債の要因とな„ £ 俯瞰的かつ中長期的な視点で理想像を持たないと、 で のデータ基盤が生まれ„ £ 「局所最適」になることは、データ基盤にとって大きな問y £ 最も大きな問題として、 という問題が発生す„ £ 少しぐらい... と思うかもしれないが、データ基盤の複雑化に伴い、少しのずれが各所に伝播し、
 やがて大きな問題を引き起こすかもしれな| £ 「短期志向」もまた、負債の大きいデータ基盤を生み出す要‡ £ 短期志向でデータ基盤を作ると、 £ そして、 £ なぜなら、ユーザーの要望はその場の思いつきであったり、日々変化するものだから 局所最適 短期志向 「各所で数値の定義がズレる」 ユーザーの要望を打ち返すことにほぼ全ての時間を使 多種多様なユーザーの要望に応え続けた結果、負債が積み上がっていÀ Copyright stable, inc. All rights reserved. 10

Slide 12

Slide 12 text

Tips1 「リーダーシップを持って全体最適を図る」 — 俯瞰的かつ中長期的な視点を持つためには、リーダシップを持つ/持たせることが必要不可 中長期的な戦略から逆算して、タスクの優先順位をつけることが重‡ — なお、局所最適は必ずしも悪ではなv — 局所最適は、全体最適に比べて短期的なスピードを早めることがあd — だが、 — リーダシップとは、肩書きを意味しなv 1日15分でも、全体最適や中長期的に効く取り組みを増やす ê リーダシップを持たずに基盤開発をすると、「タスク打ち返し型」から抜け出せな¹ ê 「スピードが重要」という言葉を盾にして、
 全体最適から目を逸らしてはいけな¹ ê 受動的にタスクを打ち返す時間を減らし、
 能動的な取り組みを増やすところから始まÉ ê Copyright stable, inc. All rights reserved. 11

Slide 13

Slide 13 text

Tips2 「周辺チームとの関係性を築く」 Q データの戦略を周りと共有し、周辺チームとの理解を得て、関係性を築いておくのが重要 上流側(データ発生側U Q データベースやログの設計から 見直してもらうように依頼すp Q データ発生の段階で、
 負債となりうる要因を排除する 下流側(データ活用側U Q 集計の定義の修正や変更があることを 理解してもらƒ Q 安定的に数値提供するためには、
 データ品質の取り組みに、工数がかか ることを理解してもらう データ基盤 Copyright stable, inc. All rights reserved. 12

Slide 14

Slide 14 text

アジェンダ G2 前置D (2 データ負債による問題と課" &2 データ負債に対する技術以外の対$ 戦略がなÉ 知見がなÉ リソースがない

Slide 15

Slide 15 text

課題2:知見がない データに関する知見がなく、戦略を立てるのが難しい...。 Š そもそも、戦略を立てようにも何をどの順番でやるべきなのかが分からない..™ Š dbtなどのツールも、まだ普及して数年なので、誰もが経験を持っているわけではなn Š そもそも、データ人材が社内にいなn Š データ活用の特徴として、 という特徴があ‘ Š なので、バックエンドエンジニアや、SQLの書けるマーケターなどが、
 Š (これ自体は素晴らしいことだが、) 「何となく出来てしまう」 本職の片手間でデータ基盤を運用しているケースも多— 結果として負債化してしまう可能性は高い Copyright stable, inc. All rights reserved. 14

Slide 16

Slide 16 text

Tips3 「早期のデータ人材採用」 R 最初は、バックエンドエンジニアや、SQLの書けるマーケター等 の人材がデータを管理することも多% R 場合によっては、外部パートナーや副業人材も検討する  しかし、中長期的に負債化を防ごうと思うと、
 やはりデータの専門人材の採用が重要にな‰  リーダシップを持つという観点でも、専門人材の価値は高„ R 当然サービス内容にもよるが、 R データを顧客提供している場合、より早期からデータに関する課題は発生しやすい 会社規模15-30人ぐらいからデータに関する課題は各地で発生す‰ Copyright stable, inc. All rights reserved. 15

Slide 17

Slide 17 text

アジェンダ G2 前置D (2 データ負債による問題と課" &2 データ負債に対する技術以外の対$ 戦略がなÉ 知見がなÉ リソースがない

Slide 18

Slide 18 text

課題3:リソースがない やるべきことは分かっているが、時間がない...。 d やるべきことは分かってい d 社内でも重要だという認識は高まっていて、何回も話には出てい d d データ負債解消が重要なのは分かっているが、他にもやることが多すぎ でも、気づいたら半年が経っていた..l f いつまでに欲しいと言われている、データ抽出やダッシュボード作成のタスクがいくつもある... Copyright stable, inc. All rights reserved. 17

Slide 19

Slide 19 text

Tips4 「作らない」 g リソースを増やす前に、タスクを減らすことを考えu g 単純に、依頼を断るだけではダメ(嫌われるだけH g 依頼が来たときにQ g などの項目をちゃんとヒアリングすu g その結果、  最もインパクトが大きいのは、「作らない」こr  「背景と目的  「そのデータが見られるようになったら何をするのか  「いつ、どこで、どれぐらいの頻度で使うのか 依頼者の目的が、他の解決策や、
 以前すでに集計したデータを使って解決できるかもしれない Copyright stable, inc. All rights reserved. 18

Slide 20

Slide 20 text

Tips5 「作る。でも言われた通りに作らない」  作るとしても、より簡単に作ることを考えR  データ集計の依頼が来た際に{ の順番に実装の工数は高くなR  我々がプロダクトマネジメントから学ぶことは多C のであって、
 ユーザーの要望を答えることが目的ではなC また、1人のユーザーの要望だけ答えればいいのではなく、
 Ð 言われた要件をそのまま作るだけではなÌ Ð アドホック集計 → データマート → ダッシュボード
 Ð より簡単な解決策で、依頼者の目的を達成することを考えÂ Ð ユーザーにとって価値のあるものを作る Ð 社内全体のデータに関する要望に応える必要がある Copyright stable, inc. All rights reserved. 19

Slide 21

Slide 21 text

Tips6 「一定の割合を負債解消や改善にあてる」 • いわゆる のようなもw • 負債解消や改善系のタスクに取り組む時間を優先的に確保す‘ • 具体的には、 や、 といった感じで、
 チームで集まって、もくもく会のようにやると良˜ • 日々、データ抽出などの依頼にスピーディに応えていると、
 データ基盤は確実に荒れてく‘ のような感覚で、
 一定時間をリファクタリングに充てると良い 「Googleの20%ルール」 1日30分 週に2時間 › 使った後の片付け Copyright stable, inc. All rights reserved. 20

Slide 22

Slide 22 text

まとめ データ負債における課題と、それに立ち向かうためのTips。 戦略がない Tips1「リーダーシップを持って全体最適を図る」 Tips2「周辺チームとの関係性を築く」 Tips3「早期のデータ人材採用」 Tips4「作らない」 Tips5「作る。でも言われた通りに作らない」 Tips6「一定の割合を負債解消や改善にあてる」 知見がない リソースがない Copyright stable, inc. All rights reserved. 21

Slide 23

Slide 23 text

EOF.