Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ活用で事業貢献するためのデータマネジメント立ち上げ

CyberAgent
December 10, 2023
580

 データ活用で事業貢献するためのデータマネジメント立ち上げ

DS/ML職のみなさんは日々、統計・機械学習などを活用して事業貢献に取り組んでいるかと思います。しかしデータ活用をしていて「データの品質が高くなく前処理に時間がかかる」「データの定義書を見てもわからない」といったことで本来やるべき専門的なことに注力できないということはないでしょうか?DS職の立場からこのような環境を変えるためにデータマネジメントチームを立ち上げて、データマネジメントの成熟度を定量評価するためにDMBOKを参考にオリジナルの成熟度評価を作成して、データマネジメントの現状を理解できるようにしました。立ち上げるためにどんなことをやったのか?どのような成熟度評価をなぜ作成したのか?についてお話します。

CyberAgent

December 10, 2023
Tweet

More Decks by CyberAgent

Transcript

  1. 自己紹介 鈴木 元也(すずき もとや) • 社歴:2017年01月中途入社 • 所属:メディア統括本部 > Data

    Science Center(DSC) • 担当サービス:主にAmebaLIFE • 業務概要: ◦ 事業のデータ戦略を検討 ◦ 横軸組織のマネジメント ◦ データ分析、データエンジニアリング • @__9en__
  2. プロダクトライフサイクルで求められるデータ活用 導入期 成長期 成熟期~衰退期 データの種類,量 △ 〇 〇 企業の数 △

    △ 〇 リソース(ヒトモノカネ) △ 〇 △ データ活用状況 ・事業指標など最低限の指標 ・集計ベースでデータを可視化 ・施策や開発に利用 ・機械学習など高度な技術 ・施策や開発に利用 ・機械学習など高度な技術 ※筆者の肌感です
  3. 多くの企業が該当する「成熟期~衰退期」 導入期 成長期 成熟期~衰退期 データの種類,量 △ 〇 〇 企業の数 △

    △ 〇 リソース(ヒトモノカネ) △ 〇 △ データ活用状況 ・事業指標など最低限の指標 ・集計ベースでデータを可視化 ・施策や開発に利用 ・機械学習など高度な技術 ・施策や開発に利用 ・機械学習など高度な技術 ※筆者の肌感です
  4. ステークホルダのデータ活用に関する課題 事業責任者 ビジネス職 エンジニア職 どのように事業貢献に繋がっているか分からない シンプルな指標のはずなのにSQLが複雑 データ更新が遅延してサービス影響がある 何度もログの実装依頼が来るのでログを全て出し たい(自身の成果にもならないし) 誰が使っているかわからないからログが消せない

    データ抽出やログの調査依頼が多い 集計レベルの依頼が多く専門的なことができない データの品質が低く前処理に時間がかかる データの定義書を見ても分からない すぐにデータを使った調査ができない 正しいデータの見方が分からない 頻繁に数値がおかしくなるので信用できない データ抽出する人によって値がバラバラ 活用 蓄積 活用 蓄積 蓄積 戦略 データ職(MLDS)
  5. 成熟したサービスでは簡単に増員できない 事業責任者 データ職(MLDS) データ活用するためには データマネジメントが必要です。 データマネジメント人材を増やしたいです。 そうだよね、分かった。 データマネジメント人材を増やそう! ✕ データマネジメントを強化することで、

    事業インパクトをどれだけ出せるの? いまもデータ活用できてるけど、データマネ ジメントやることで何が変わるの? 現状のコストを〇円下げることができます! 売上には、、、 でもデータ活用にはいろいろ役立って、、、 とはかなかなならないです
  6. 成熟したサービスでは簡単に増員できない 事業責任者 データ職(MLDS) データ活用するためには データマネジメントが必要です。 データマネジメント人材を増やしたいです。 そうだよね、分かった。 データマネジメント人材を増やそう! ✕ データマネジメントを強化することで、

    事業インパクトをどれだけ出せるの? いまもデータ活用できてるけど、データマネ ジメントやることで何が変わるの? 現状のコストを〇円下げることができます! 売上には、、、 でもデータ活用にはいろいろ役立って、、、 成熟したサービスではコスト削減をすることは当たり前 コスト削減のために人員を増やしたいと言うのはメリットが分からない コスト以外の主張は理解されにくい なぜ理解されにくいのか?
  7. なぜ主張が理解されにくいのか? 事業責任者 データ職(MLDS) データマネジメントを強化することで、 事業インパクトをどれだけ出せるの? いまもデータ活用できてるけど、データマネ ジメントやることで何が変わるの? 現状のコストを〇円下げることができます! 売上には、、、 でもデータ活用にはいろいろ役立って、、、

    単純になぜデータマネジメントが 必要なのかが分からないから聞い ているだけなのに説明してくれな い。 事業インパクトに直結すること じゃないしそんな説明は無理。 データマネジメントで変わること を説明してもどうせ伝わらない。
  8. なぜ主張が理解されにくいのか? 事業責任者 データ職(MLDS) データマネジメントを強化することで、 事業インパクトをどれだけ出せるの? いまもデータ活用できてるけど、データマネ ジメントやることで何が変わるの? 現状のコストを〇円下げることができます! 売上には、、、 でもデータ活用にはいろいろ役立って、、、

    詰めている気持ちはない 単純になぜデータマネジメントが 必要なのかが分からないから聞い ているだけ 事業インパクトに直結すること じゃないしそんな説明無理 データマネジメントで変わること を説明してもどうせ分からない データ職が説明することを 事業責任者が理解することを あきらめている
  9. あきらめず説明しました 【分析するまでの無駄の説明】 1. 定義書が存在するか確認 2. 定義書通りにログがはかれているかを確認 3. ログを扱ったことある人を探して詳細について確認 4. 自分のIDで特定の行動を行い、自分のIDをログから

    探し出して、意図通りに吐かれているかを確認 5. ログを実装した人を探し出して、ログの仕様を聞い たり改修依頼と改修後の確認をする 6. おかしなログを除外した上で分析を再設計 【サービス内に協力者を作る】 - 過去一緒に仕事した人を説得する - 同じような問題意識を感じている人を探す 【事業指標の信頼性を伝える】 - 大量のボットが混ざっていることを伝える - データがバグっていたり障害が発生しても気づけない 【データが簡単に扱えない】 - ログ自体が大規模なためシステム負荷がかかってしまう ため長期間のデータ扱えない - サービスやシステム改修が積み重なって複雑な条件や暗 黙のルールを知らないとデータを扱えない - データを格納している場所が分散しているので、複数の 指標を1つのレポートで見れない。または人力でコピペし て実現しているためミスが発生する
  10. その結果 事業責任者 データ職(MLDS) Amebaのデータに関するいまの状況は~ それによってデータ活用にとってこんないい ことがあるんですよ~ データ活用でこんな事業貢献ができるんです よ~ そんな状況だったのか! 事業インパクトとかいう以前の話だね。

    データマネジメント人材を増やそう! ※Amebaブログでは以下前提があり、前提なしではおそらくうまくいかないケースの方が多いと思います - 事業責任者の方が既にデータ活用に前向きで協力的だった - データ職以外の職種の方も既にデータ活用に前向きで協力的だった - 事業責任者との信頼関係が既に構築できていた
  11. その結果 • 専任:3人(社内異動2名 + 中途採用1名) • 協力者:7名 • 推進者:鈴木 → 加藤 •

    対象サービス:Amebaブログ → 追加でAmebaマンガ、ピグパーティなど
  12. なぜ成熟度評価をしたいのか? 事業責任者 データ職(MLDS) Amebaのデータに関するいまの状況は~ それによってデータ活用にとってこんないい ことがあるんですよ~ データ活用でこんな事業貢献ができるんです よ~ そんな状況だったのか! 事業インパクトとかいう以前の話だね。

    データマネジメント人材を増やそう! 立ち上げ時 1年後 そういえばデータマネジメントやってるけど ほんとに意味あるんだっけ? データをどういう状態に変えていく計画なん だっけ?
  13. なぜ成熟度評価をしたいのか? 事業責任者 データ職(MLDS) Amebaのデータに関するいまの状況は~ それによってデータ活用にとってこんないい ことがあるんですよ~ データ活用でこんな事業貢献ができるんです よ~ そんな状況だったのか! 事業インパクトとかいう以前の話だね。

    データマネジメント人材を増やそう! 立ち上げ時 1年後 そういえばデータマネジメントやってるけど ほんとに意味あるんだっけ? データをどういう状態に変えていく計画なん だっけ? 正直やること自体は無限にある やることリストを出すだけでは なぜやるのか? やった結果どういう状態になるのか? が分からない (やることの価値が伝えられない) データマネジメント成熟度評価で計画と状態を伝える
  14. CA横軸組織の成熟度評価 レベル1: 実行された レベル2: 管理された レベル3: 定義された レベル4: 測定された レベル5:

    最適化している 成熟度評価の課題 DAMA-DMBOKの定義 レベル0:能力が欠如した状態 レベル1:初期/場当たり的な状態 レベル2:反復可能な状態 レベル3:定義された状態 レベル4:管理された状態 レベル5:最適化された状態 基準や説明が抽象的で評価するのが難しい 納得感をもって評価するために、既存のフレームワークを参考に具体化
  15. 具体化するために定義したこと • 共通言語を定義する(DMBOK知識領域) • 評価粒度を定義する(データフロー) • 評価方法を定義する(DMBOK成熟度アセスメント) • 対象者を定義する(データロール) •

    背景やスコープを定義する(Design Docs) ここに至るまでの試行錯誤(v9まであります)もお伝えしたいですが、 時間と資料作成する私の気力の関係で割愛します。
  16. 共通言語を定義する(DMBOK知識領域) 参照データとマスタデータ データストレー ジとオペレー ション データウェアハ ウジングとBI データ モデリング データ統合と

    相互運用性 データアーキテクチャー データガバナンス データ品質 データセキュリティ ドキュメントとコンテンツと メタデータ管理 ・みんなでDMBOKを勉強 ・DMBOKの知識領域について 「定義」と「成果物」の認識を すり合わせた ・知識領域毎の関係性を可視化 して認識をすり合わせた ※共通言語はメインで加藤が作成
  17. 対象者を定義する(データロール) データフローや知識領域によって「誰向けに」成熟度を上げるのかによって難易度が変わる 誰向けか明確にするために、対象者(データロール)を定義した ロール名称 ロールイメージ スキルセット 管理者 データに関わる運用全般を行う Amebaのデータマネジメントチームのメンバー 分析者

    / 開発者 BigQueryのテーブル作成、Tableauの作成など行う データマートを適切に設計できる人 レポート作成者 BigQueryの実行とTableauの作成を行う Tableauを適切に作成できる人 データ抽出者 BigQueryの実行とTableauの閲覧を行う SQLを適切に実行できる人 レポート閲覧者 Tableauの閲覧を行う スキル不要
  18. 背景やスコープを定義する(Design Docs) データフロー × 知識領域 ごとに背景やスコープなどを定義することで認識ズレを無くす Google Design Docs を参考に定義した

    • 前提 / Context • 背景・課題 / Context • 実現したいこと / Goals • 実現しないこと / Non-goals • どのようにやっていくか / Approach, Detailed design • 他の手段 / Alternative approach • 想定される問題 / Drawback, Risk • 関連リンク / Related link
  19. 伝えたいこと データ抽出や簡単 な集計依頼しか来 ない サービスの依頼が ころころ変わって 対応できない ログやレポートの 問い合わせばかり で業務が進まない

    締め切りが短すぎ て簡単な分析しか できない 高度な分析をした いがいまの環境で はできない データが汚いから 前処理に時間がか かってやりたいこ とができない 要件やログについ て聞いても連絡が 返ってこなくで分 析が進められない 人員を増やしてく れないからやりた いことができない いろいろな課題 データ抽出や簡単 な集計依頼しか来 ない サービスの依頼が ころころ変わって 対応できない いろいろな課題
  20. 伝えたいこと データ抽出や簡単 な集計依頼しか来 ない サービスの依頼が ころころ変わって 対応できない ログやレポートの 問い合わせばかり で業務が進まない

    締め切りが短すぎ て簡単な分析しか できない 高度な分析をした いがいまの環境で はできない データが汚いから 前処理に時間がか かってやりたいこ とができない 要件やログについ て聞いても連絡が 返ってこなくで分 析が進められない 人員を増やしてく れないからやりた いことができない いろいろな課題 データ抽出や簡単 な集計依頼しか来 ない サービスの依頼が ころころ変わって 対応できない いろいろな課題 データ抽出や簡単 な集計依頼しか来 ない サービスの依頼が ころころ変わって 対応できない データ抽出や簡単な 集計依頼しか来ない サービスの依頼がこ ろころ変わって対応 できない 実はどこも環境はそんなに変わらないのでは? 周囲の人や組織、環境を言い訳にしている人は 環境を作り変えるためにできることを考えてみては? そうじゃないと 冒頭で話した良い環境じゃないと成果が出せない人に、、、 自分で成果を出せる環境を作って事業貢献できる人って データ職としてめちゃくちゃ強いと思います