2022/06/17 Engineers in CARTA vol.3 #データエンジニアリングの発表資料です
Copyright © 2021 Classi Corp. All Rights Reserved.Engineers in CARTA vol.3 #データエンジニアリング 2022/06/17(金) Classi株式会社 開発本部 本部長 兼 データAI部 部長 伊藤徹郎 データエンジニアリングの 潮流を俯瞰する
View Slide
Copyright © 2021 Classi Corp. All Rights Reserved.自己紹介 ● 名前:伊藤 徹郎 (@tetsuroito) ● 所属:Classi株式会社 開発本部|データAI部 ● 役職:本部長|部長 ● 分野:Educational Technology , Learning Analytics ● 著書 ○ データサイエンティスト養成読本ビジネス活用編 ○ AI・データ分析プロジェクトのすべて ○ 実践的データ基盤への処方箋 1
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • データエンジニアリングの潮流を俯瞰 • 私はそれをどう活かしていったのか 2
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • データエンジニアリングの潮流を俯瞰 • 私はそれをどう活かしていったのか 3
Copyright © 2021 Classi Corp. All Rights Reserved.はじめに • 先日開催されたイベントで最新のトレンドをキャッチアップするのに適切なスライドがありますので、最新はこちらへ 4https://speakerdeck.com/satoshihirose/modandetasutatukugai-lu
Copyright © 2021 Classi Corp. All Rights Reserved.• 最近データエンジニアが盛り上がっている • 数年前まではそこまで知られる状況ではなかった • しかし、こうした役割をになっていた人は存在していた • どういうきっかけでこの分野が盛り上がってきたかを考察したい • それをどのように実務に活かしていったかも共有したい 今日話すこと 5
Copyright © 2021 Classi Corp. All Rights Reserved.データエンジニアの検索トレンド 6• 10年の間に右肩上がりに成長
Copyright © 2021 Classi Corp. All Rights Reserved.きっかけとなった書籍 7• 出版は2015年7月 • 前半はSQLの指南書 • 肝は第2部の分析システムの構築 • 日本でのデータ基盤3層構造の初出(?) • 本人曰く、書きたいことを書いた • (余談)私もレビューに参加
Copyright © 2021 Classi Corp. All Rights Reserved.• 出版は2017年9月 • クラウドベースのデータ分析基盤を解説した良書(ETLからELTへ) • 分散システムの利用 • BIツールやアドホック分析の接続などにも言及 • データパイプラインにも触れられている データ基盤の金字塔となった書籍 8
Copyright © 2021 Classi Corp. All Rights Reserved.• 初版は2009年に出版 • 2018年に大改訂され第2版に • 体系的にデータマネジメントを解説 • データのみならず、組織や文化、セキュリティなどにも言及 • 30分でわかる本などの入門もある データマネジメントを体系的に解説 9
Copyright © 2021 Classi Corp. All Rights Reserved.• ニッチなテーマに応募が3倍 • 募ってみると参加者もいる • 発表者もバラエティに富んだ (余談)データエンジニアリングコミュニティを開催してみた 10
Copyright © 2021 Classi Corp. All Rights Reserved.• 出版は2021年12月 • ゆずたそさん、渡部さんという業界の有識者と共に執筆 • 構想から出版まで2年 • 処方箋というタイトルの通り、知識で終わらず実践ができるような内容に • 大事なことははじめにに書いてある • データスチュワードをフィーチャー DMBOKをもう少し噛み砕いた書籍 11
Copyright © 2021 Classi Corp. All Rights Reserved.データ基盤の全体像 12
Copyright © 2021 Classi Corp. All Rights Reserved.datatech-jpで輪読会をしてもらった様子 13https://gihyo.jp/news/report/2022/06/0601?page=1
Copyright © 2021 Classi Corp. All Rights Reserved.• 最近データエンジニアが盛り上がっている • 元々DWHやETLなどはオンプレ時代からあった • クラウドサービスの普及と書籍の発売と主に、知識と環境が整い、多くの環境で取り組まれるようになった • 職能に名前がなく、多くの現場で日の目をみることが多くなかった • コミュニティやニーズの高まりによって、再度ブームの兆しが出て今に至る 潮流のまとめ 14
Copyright © 2021 Classi Corp. All Rights Reserved.アジェンダ • データエンジニアリングの潮流を俯瞰 • 私はそれをどう活かしていったのか 15
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ組織の歴史 • 2018年6月AI室が誕生 • 4名の組織(エンジニア2人,データサイエンティスト2人) • 2018年7月データエンジニア入社 • データ基盤のプロトタイプの検討を開始 • Embulk,Cron,Scheduled Queryのデータパイプライン → BigQuery (第一世代) • 2018年11月 PJ Cockpitにより全社でBIを導入 • 2019年4月 データAI部が誕生 • https://www.wantedly.com/companies/classi/post_articles/141663 • 2019年5月 2人目のデータエンジニア入社 • Cloud Composer(Airflow)を利用したパイプラインへのアーキテクチャ変更 • 2020年1月 AWS Glueを利用したETL処理へ移行 • 2020年9月 データエンジニアが2名追加 • チーム開発体制へ • TerraformによるIaC化やCI/CD整備、スクラムライクな開発スタイルへ 16
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略 • データを活用する目的 = Visionの達成のため 17https://corp.classi.jp/company/message/
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略 • 全社の目標にデータ活用が入っています 18
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略 • データ民主化の戦略を取っています • Tableau/RedashなどのBIツールの利用と普及啓蒙 • データ基盤チームはDWH開発、DM開発サポートまでを責務に • 全社のデータ活用度合いをチームのKPIに 19
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク) 20データデータマネジメント ライフサイクル管理データガバナンスアクティビティ戦略データ評価原則と倫理ポリシースチュワード文化の変革リスク管理:セキュリティ、プライバシー、コンプライアンスメタデータ管理データ品質管理計画と設計 利用と強化 実装と維持アーキテクチャデータとモデリングとデザインオペレーションDWHデータ統合と相互運用性マスタデータ管理データストレージ参照データ管理BIデータサイエンスマスタデータの利用データ収益化予測分析ドキュメントコンテンツ管理
Copyright © 2021 Classi Corp. All Rights Reserved.21データデータマネジメント ライフサイクル管理データガバナンスアクティビティ戦略データ評価原則と倫理ポリシースチュワード文化の変革リスク管理:セキュリティ、プライバシー、コンプライアンスメタデータ管理データ品質管理計画と設計 利用と強化 実装と維持アーキテクチャデータとモデリングとデザインオペレーションDWHデータ統合と相互運用性マスタデータ管理データストレージ参照データ管理BIデータサイエンスマスタデータの利用データ収益化予測分析ドキュメントコンテンツ管理データマネジメントでよく議論される機能要件データマネジメントで見落とされがちな非機能要件Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク)
Copyright © 2021 Classi Corp. All Rights Reserved.Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク) 22データデータマネジメント ライフサイクル管理データガバナンスアクティビティ戦略データ評価原則と倫理ポリシースチュワード文化の変革リスク管理:セキュリティ、プライバシー、コンプライアンスメタデータ管理データ品質管理計画と設計 利用と強化 実装と維持アーキテクチャデータとモデリングとデザインオペレーションDWHデータ統合と相互運用性マスタデータ管理データストレージ参照データ管理BIデータサイエンスマスタデータの利用データ収益化予測分析ドキュメントコンテンツ管理① ①②③④
Copyright © 2021 Classi Corp. All Rights Reserved.• 初期のフェーズでは組織の状態把握と設計に注力 ①:計画と設計 23https://speakerdeck.com/yuukimiya/dpctfa-biao-zi-liao より
Copyright © 2021 Classi Corp. All Rights Reserved.• 制約はあるがサイクルを回せるデータでBIを全社導入 • PJ_Cockpit • https://www.wantedly.com/companies/classi/post_articles/141663 • データ活用のゴール設定と目的を設定 • Tableauの公式トレーニングを社内で実施 • Classi Viz Challengeを開催 • Visionに沿ったPJ化を意識して社内イベント化で周知 ①:実装と維持 24
Copyright © 2021 Classi Corp. All Rights Reserved.• データサイエンスの共同研究を推進 ①:実装と維持 25
Copyright © 2021 Classi Corp. All Rights Reserved.• マスタデータやドキュメント管理 • ドキュメントベースから内製ツールへ ①:実装と維持 26
Copyright © 2021 Classi Corp. All Rights Reserved.• データ基盤の設計、開発・運用に注力 • 一方で活用側も同時に掘り起こし • 価値貢献する活用を見据えないデータ基盤はアンチパターン ①:実装と維持 27
Copyright © 2021 Classi Corp. All Rights Reserved.• データ基盤のベースの構成要素を確立 • 連携データのカバレッジを拡充 • データ基盤を専任で担当するチームを全社横断で設置 ②:利用と強化 28
Copyright © 2021 Classi Corp. All Rights Reserved.• 利用を拡大すると同時に権限管理やセキュリティも強化 • Adminチームの初期形成 • 組織レベルでの管理・運用 • 属人的なロールを廃止。グループ単位での管理へ • セキュリティチームと共にデータのポリシーを策定 • 階層でグラデーションをつけ、データの重要度を定義 • 各リソースにおいて保持可能なデータが明示的になる • DWHはデータレイク側のETLのみだけでなく、データマート側のPullRequestを受けるように • Pull Requestを送るのはデータサイエンティストや一部非データ系メンバーのパワーユーザー • レビュワーはデータエンジニアチーム ②:利用と強化 29
Copyright © 2021 Classi Corp. All Rights Reserved.• データAI部で全社データ活用推進のKPIを設定 • 半期ごとに目標設定とふりかえりを行い逐次更新 ②:利用と強化 30
Copyright © 2021 Classi Corp. All Rights Reserved.• SQL勉強会の実施や学習コンテンツの準備 ②:利用と強化 31
Copyright © 2021 Classi Corp. All Rights Reserved.• Security Command Centerの利用による検知強化 ③:アクティビティ 32
Copyright © 2021 Classi Corp. All Rights Reserved.• メタデータ管理への模索 • dbtの導入検証と断念 • データカタログの検討 ③:アクティビティ 33https://tech.classi.jp/entry/2021/08/19/120000
Copyright © 2021 Classi Corp. All Rights Reserved.• データ品質管理 ③:アクティビティ 34
Copyright © 2021 Classi Corp. All Rights Reserved.• データ活用文化醸成のためにUniposを活用 • 運用が肝の施策で、厳格にキャラクターを設定せず、運用の中で確立 ④:ガバナンス 35
Copyright © 2021 Classi Corp. All Rights Reserved.• データ活用戦略実現のための採用活動の継続実施 ④:ガバナンス 36
Copyright © 2021 Classi Corp. All Rights Reserved.• スクラム開発のフレームワークを導入 • ワーキングアグリーメントの策定 ④:ガバナンス 37
Copyright © 2021 Classi Corp. All Rights Reserved.データ基盤の構成図 38出典:Classiのデータ分析基盤であるソクラテスの紹介https://tech.classi.jp/entry/2021/05/31/120000
Copyright © 2021 Classi Corp. All Rights Reserved.• 提供サービスのDBデータ • 各種サービス利用データ • テキストデータ • 数値データ • アクセスログ • Google AnalyticsやFirebase Analytics • アプリケーションログ • 3rd Partyデータ • SalesForceやHubspotなど • Auditデータ • クラウドサービスの監査ログ、Tableau/Redashのログなど 扱っているデータの種類 39
Copyright © 2021 Classi Corp. All Rights Reserved.We’re Hiring!! 40https://hrmos.co/pages/classi/jobs/0000026
Copyright © 2021 Classi Corp. All Rights Reserved.おわり 41ご静聴 ありがとうございました! 🙏🙏🙏