Tech × Marketing Conference 2021 #データマネジメント のイベントにおける発表資料です。
Copyright © 2021 Classi Corp. All Rights Reserved.Tech × Marketing Conference 2021 2021/12/10(金) Classi株式会社 開発本部 本部長 兼 データAI部 部長 伊藤徹郎 事業会社でのデータマネジメントのプラクティス
View Slide
Copyright © 2021 Classi Corp. All Rights Reserved.自己紹介 ● 名前:伊藤 徹郎 (@tetsuroito) ● 所属:Classi株式会社 開発本部|データAI部 ● 役職:本部長|部長 ● 分野:Educational Technology , Learning Analytics ● 著書 ○ データサイエンティスト養成読本ビジネス活用編 ○ AI・データ分析プロジェクトのすべて ○ 実践的データ基盤への処方箋 1
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • 会社概要 • データ組織の紹介 • データ組織のプラクティスの紹介 2
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • 会社概要 • データ組織の紹介 • データ組織のプラクティスの紹介 3
Copyright © 2021 Classi Corp. All Rights Reserved.4Classiの会社概要 https://speakerdeck.com/classijp/we-are-hiring より
Copyright © 2021 Classi Corp. All Rights Reserved.5Classiのミッション・ビジョン・バリュー https://speakerdeck.com/classijp/we-are-hiring より子供の無限の可能性を解き放ち、学びの形を進化させる先生とともに、学びから学ぶ仕組みを創り、ワクワクする子どもを増やします● Unlearn & Learn● Love Difference● Make Happen⁃ 既存の知識を外す勇気。「学び方」を学び続けよう。失敗してもいい。新しい学びに挑戦しよう。⁃ 違いを愛そう。チームを超えて協働しよう。多様性こそClassiの強み。多様な方がわくわくする。⁃ 共に作り、共に実現する。大切なのは、信じて、やり抜くこと。ValueMissionVision
Copyright © 2021 Classi Corp. All Rights Reserved.6Classiのサービス https://speakerdeck.com/classijp/we-are-hiring より
Copyright © 2021 Classi Corp. All Rights Reserved.7サービス導入実績 https://speakerdeck.com/classijp/we-are-hiring より
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • 会社概要 • データ組織の紹介 • データ組織のプラクティスの紹介 8
Copyright © 2021 Classi Corp. All Rights Reserved.9組織体制 データチーム https://speakerdeck.com/classijp/we-are-hiring より
Copyright © 2021 Classi Corp. All Rights Reserved.10データ組織の職能と役割 職種 役割 体制 データサイエンティスト モデル開発・運用・分析 データ活用推進 ダッシュボード構築・運用 R&D データエンジニア データ基盤開発・運用 データ活用推進 クラウドセキュリティ Admin Pythonエンジニア MLプロダクト開発・運用 データ活用推進 クラウドセキュリティ
Copyright © 2021 Classi Corp. All Rights Reserved.データ基盤の構成図 11出典:Classiのデータ分析基盤であるソクラテスの紹介https://tech.classi.jp/entry/2021/05/31/120000
Copyright © 2021 Classi Corp. All Rights Reserved.• 提供サービスのDBデータ • 各種サービス利用データ • テキストデータ • 数値データ • アクセスログ • Google AnalyticsやFirebase Analytics • アプリケーションログ • 3rd Partyデータ • SalesForceやHubspotなど • Auditデータ • クラウドサービスの監査ログ、Tableau/Redashのログなど 扱っているデータの種類 12
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ組織の歴史 • 2018年6月AI室が誕生 • 4名の組織(エンジニア2人,データサイエンティスト2人) • 2018年7月データエンジニア入社 • データ基盤のプロトタイプの検討を開始 • Embulk,Cron,Scheduled Queryのデータパイプライン → BigQuery (第一世代) • 2018年11月 PJ Cockpitにより全社でBIを導入 • 2019年4月 データAI部が誕生 • https://www.wantedly.com/companies/classi/post_articles/141663 • 2019年5月 2人目のデータエンジニア入社 • Cloud Composer(Airflow)を利用したパイプラインへのアーキテクチャ変更 • 2020年1月 AWS Glueを利用したETL処理へ移行 • 2020年9月 データエンジニアが2名追加 • チーム開発体制へ • TerraformによるIaC化やCI/CD整備、スクラムライクな開発スタイルへ 13
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略 • データを活用する目的 = Visionの達成のため 14https://corp.classi.jp/company/message/
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略 • 全社の目標にデータ活用が入っています 15
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略 • データ民主化の戦略を取っています • Tableau/RedashなどのBIツールの利用と普及啓蒙 • データ基盤チームはDWH開発、DM開発サポートまでを責務に • 全社のデータ活用度合いをチームのKPIに 16
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • 会社概要 • データ組織の紹介 • データ組織のプラクティスの紹介 17
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク) 18データデータマネジメント ライフサイクル管理データガバナンスアクティビティ戦略データ評価原則と倫理ポリシースチュワード文化の変革リスク管理:セキュリティ、プライバシー、コンプライアンスメタデータ管理データ品質管理計画と設計 利用と強化 実装と維持アーキテクチャデータとモデリングとデザインオペレーションDWHデータ統合と相互運用性マスタデータ管理データストレージ参照データ管理BIデータサイエンスマスタデータの利用データ収益化予測分析ドキュメントコンテンツ管理
Copyright © 2021 Classi Corp. All Rights Reserved.19データデータマネジメント ライフサイクル管理データガバナンスアクティビティ戦略データ評価原則と倫理ポリシースチュワード文化の変革リスク管理:セキュリティ、プライバシー、コンプライアンスメタデータ管理データ品質管理計画と設計 利用と強化 実装と維持アーキテクチャデータとモデリングとデザインオペレーションDWHデータ統合と相互運用性マスタデータ管理データストレージ参照データ管理BIデータサイエンスマスタデータの利用データ収益化予測分析ドキュメントコンテンツ管理データマネジメントでよく議論される機能要件データマネジメントで見落とされがちな非機能要件Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク)
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク) 20データデータマネジメント ライフサイクル管理データガバナンスアクティビティ戦略データ評価原則と倫理ポリシースチュワード文化の変革リスク管理:セキュリティ、プライバシー、コンプライアンスメタデータ管理データ品質管理計画と設計 利用と強化 実装と維持アーキテクチャデータとモデリングとデザインオペレーションDWHデータ統合と相互運用性マスタデータ管理データストレージ参照データ管理BIデータサイエンスマスタデータの利用データ収益化予測分析ドキュメントコンテンツ管理① ①②③④
Copyright © 2021 Classi Corp. All Rights Reserved.• 初期のフェーズでは組織の状態把握と設計に注力 ①:計画と設計 21https://speakerdeck.com/yuukimiya/dpctfa-biao-zi-liao より
Copyright © 2021 Classi Corp. All Rights Reserved.• 制約はあるがサイクルを回せるデータでBIを全社導入 • PJ_Cockpit • https://www.wantedly.com/companies/classi/post_articles/141663 • データ活用のゴール設定と目的を設定 • Tableauの公式トレーニングを社内で実施 • Classi Viz Challengeを開催 • Visionに沿ったPJ化を意識して社内イベント化で周知 ①:実装と維持 22
Copyright © 2021 Classi Corp. All Rights Reserved.• データサイエンスの共同研究を推進 ①:実装と維持 23
Copyright © 2021 Classi Corp. All Rights Reserved.• マスタデータやドキュメント管理 • ドキュメントベースから内製ツールへ ①:実装と維持 24
Copyright © 2021 Classi Corp. All Rights Reserved.• データ基盤の設計、開発・運用に注力 • 一方で活用側も同時に掘り起こし • 価値貢献する活用を見据えないデータ基盤はアンチパターン ①:実装と維持 25
Copyright © 2021 Classi Corp. All Rights Reserved.• データ基盤のベースの構成要素を確立 • 連携データのカバレッジを拡充 • データ基盤を専任で担当するチームを全社横断で設置 ②:利用と強化 26
Copyright © 2021 Classi Corp. All Rights Reserved.• 利用を拡大すると同時に権限管理やセキュリティも強化 • Adminチームの初期形成 • 組織レベルでの管理・運用 • 属人的なロールを廃止。グループ単位での管理へ • セキュリティチームと共にデータのポリシーを策定 • 階層でグラデーションをつけ、データの重要度を定義 • 各リソースにおいて保持可能なデータが明示的になる • DWHはデータレイク側のETLのみだけでなく、データマート側のPullRequestを受けるように • Pull Requestを送るのはデータサイエンティストや一部非データ系メンバーのパワーユーザー • レビュワーはデータエンジニアチーム ②:利用と強化 27
Copyright © 2021 Classi Corp. All Rights Reserved.• データAI部で全社データ活用推進のKPIを設定 • 半期ごとに目標設定とふりかえりを行い逐次更新 ②:利用と強化 28
Copyright © 2021 Classi Corp. All Rights Reserved.• SQL勉強会の実施や学習コンテンツの準備 ②:利用と強化 29
Copyright © 2021 Classi Corp. All Rights Reserved.• Security Command Centerの利用による検知強化 ③:アクティビティ 30
Copyright © 2021 Classi Corp. All Rights Reserved.• メタデータ管理への模索 • dbtの導入検証と断念 • データカタログの検討 ③:アクティビティ 31https://tech.classi.jp/entry/2021/08/19/120000
Copyright © 2021 Classi Corp. All Rights Reserved.• データ品質管理 ③:アクティビティ 32
Copyright © 2021 Classi Corp. All Rights Reserved.• データ活用文化醸成のためにUniposを活用 • 運用が肝の施策で、厳格にキャラクターを設定せず、運用の中で確立 ④:ガバナンス 33
Copyright © 2021 Classi Corp. All Rights Reserved.• データ活用戦略実現のための採用活動の継続実施 ④:ガバナンス 34
Copyright © 2021 Classi Corp. All Rights Reserved.• スクラム開発のフレームワークを導入 • ワーキングアグリーメントの策定 ④:ガバナンス 35
Copyright © 2021 Classi Corp. All Rights Reserved.• より安定したデータ基盤の運用と品質向上 • dev/stg環境とテストの実施 • ストリームデータパイプラインの構築 • セキュアなデータパイプラインの構築 • より活用されるデータマートのためのDWH開発 • データ品質の向上 • データ基盤のリアーキテクチャ • ML SysとのML Pipeline接続 • 非構造化データを扱うパイプラインの検討 etc... データ基盤チームがこれからやっていきたいこと 36
Copyright © 2021 Classi Corp. All Rights Reserved.• データマネジメントに間接的にバリューを出すおすすめ書籍 Appendix:おすすめ書籍 37
Copyright © 2021 Classi Corp. All Rights Reserved.• データマネジメントに直接的にバリューを出すおすすめ書籍 Appendix:おすすめ書籍 38🙏🙏🙏
Copyright © 2021 Classi Corp. All Rights Reserved.おわり 39ご静聴 ありがとうございました! 🙏🙏🙏