Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データエンジニアリングの潮流を俯瞰する
Search
tetsuroito
June 18, 2022
Technology
1
1.7k
データエンジニアリングの潮流を俯瞰する
2022/06/17 Engineers in CARTA vol.3 #データエンジニアリングの発表資料です
tetsuroito
June 18, 2022
Tweet
Share
More Decks by tetsuroito
See All by tetsuroito
Classiが取り組んできた 機械学習の試行錯誤
tetsuroito
0
780
事業会社でのデータマネジメントのプラクティス #TechMar
tetsuroito
1
580
Data Engineering Study #9 Classiのデータ組織の歩み
tetsuroito
5
5.5k
Data Engineering Study #3 基調講演_データ分析基盤の浸透に必要なこと
tetsuroito
4
4.6k
Subscription Meetup Vol.2 Opening Talk Slide
tetsuroito
0
110
Data_Pipeline_Casual_Talk_Vol.4_for_Ready.pdf
tetsuroito
0
1.4k
Data Pipeline Casual Talk Vol.3 for Ready #DPCT
tetsuroito
0
1.8k
データサイエンティスト養成読本ビジネス活用編のこぼれ話とエンジニアとデータサイエンティストのコラボについて
tetsuroito
3
3.2k
サブスクリプションミートアップOPトークスライド
tetsuroito
0
4.7k
Other Decks in Technology
See All in Technology
リクルートのデータ基盤 Crois 年3倍成長!1日40,000コンテナの実行を支える AWS 活用とプラットフォームエンジニアリング
recruitengineers
PRO
1
210
ナレッジベースはどのようにSQLを生成するのか / Knowledge Bases supports structed data retrieval
hayaok3
1
140
Classmethod_regrowth_2024_tokyo_security_identity_governance_summary
hiashisan
0
590
pmconf2024_UPSIDER
upsider_tech
0
7.4k
12/4(水)のBedrockアプデ速報(re:Invent 2024 Daily re:Cap #3 with AWS Heroes)
minorun365
PRO
2
420
Advancing the 3D Geospatial Ecosystem in Japan via Global Collaborations
osgeojp
0
180
宇宙最速のランチRecap LT会(AWS re:Invent 2024)
watany
1
380
ドメインロジックで考えるテスタビリティ
leveragestech
1
280
2000年てづくりキーボードの旅
tagomoris
1
170
40歲的我會給20歲的自己,關於軟體開發的7個建議
line_developers_tw
PRO
0
2.5k
論理レプリケーションを使ったDB統合
kkato1
0
310
Azure DevOps REST API活用とセキュリティのベストプラクティス-Workload Identity Federationのメリット
yutakaosada
0
100
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
We Have a Design System, Now What?
morganepeng
51
7.3k
Code Review Best Practice
trishagee
64
17k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
GraphQLとの向き合い方2022年版
quramy
44
13k
Producing Creativity
orderedlist
PRO
341
39k
Typedesign – Prime Four
hannesfritz
40
2.4k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
43
9.3k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Transcript
Copyright © 2021 Classi Corp. All Rights Reserved. Engineers in
CARTA vol.3 #データエンジニアリング 2022/06/17(金) Classi株式会社 開発本部 本部長 兼 データAI部 部長 伊藤徹郎 データエンジニアリングの 潮流を俯瞰する
Copyright © 2021 Classi Corp. All Rights Reserved. 自己紹介 •
名前:伊藤 徹郎 (@tetsuroito) • 所属:Classi株式会社 開発本部|データAI部 • 役職:本部長|部長 • 分野:Educational Technology , Learning Analytics • 著書 ◦ データサイエンティスト養成読本ビジネス活用編 ◦ AI・データ分析プロジェクトのすべて ◦ 実践的データ基盤への処方箋 1
Copyright © 2021 Classi Corp. All Rights Reserved. アジェンダ •
データエンジニアリングの潮流を俯瞰 • 私はそれをどう活かしていったのか 2
Copyright © 2021 Classi Corp. All Rights Reserved. アジェンダ •
データエンジニアリングの潮流を俯瞰 • 私はそれをどう活かしていったのか 3
Copyright © 2021 Classi Corp. All Rights Reserved. はじめに •
先日開催されたイベントで最新のトレンドをキャッチアップするのに適切 なスライドがありますので、最新はこちらへ 4 https://speakerdeck.com/satoshihirose/modandetasutatukugai-lu
Copyright © 2021 Classi Corp. All Rights Reserved. • 最近データエンジニアが盛り上がっている
• 数年前まではそこまで知られる状況ではなかった • しかし、こうした役割をになっていた人は存在していた • どういうきっかけでこの分野が盛り上がってきたかを考察したい • それをどのように実務に活かしていったかも共有したい 今日話すこと 5
Copyright © 2021 Classi Corp. All Rights Reserved. データエンジニアの検索トレンド
6 • 10年の間に右肩上がりに成長
Copyright © 2021 Classi Corp. All Rights Reserved. きっかけとなった書籍
7 • 出版は2015年7月 • 前半はSQLの指南書 • 肝は第2部の分析システムの構築 • 日本でのデータ基盤3層構造の初出(?) • 本人曰く、書きたいことを書いた • (余談)私もレビューに参加
Copyright © 2021 Classi Corp. All Rights Reserved. • 出版は2017年9月
• クラウドベースのデータ分析基盤を解説 した良書(ETLからELTへ) • 分散システムの利用 • BIツールやアドホック分析の接続などに も言及 • データパイプラインにも触れられている データ基盤の金字塔となった書籍 8
Copyright © 2021 Classi Corp. All Rights Reserved. • 初版は2009年に出版
• 2018年に大改訂され第2版に • 体系的にデータマネジメントを解説 • データのみならず、組織や文化、セキュリ ティなどにも言及 • 30分でわかる本などの入門もある データマネジメントを体系的に解説 9
Copyright © 2021 Classi Corp. All Rights Reserved. • ニッチなテーマに応募が3倍
• 募ってみると参加者もいる • 発表者もバラエティに富んだ (余談)データエンジニアリングコミュニティを開催してみた 10
Copyright © 2021 Classi Corp. All Rights Reserved. • 出版は2021年12月
• ゆずたそさん、渡部さんという業界の有 識者と共に執筆 • 構想から出版まで2年 • 処方箋というタイトルの通り、知識で終わ らず実践ができるような内容に • 大事なことははじめにに書いてある • データスチュワードをフィーチャー DMBOKをもう少し噛み砕いた書籍 11
Copyright © 2021 Classi Corp. All Rights Reserved. データ基盤の全体像
12
Copyright © 2021 Classi Corp. All Rights Reserved. datatech-jpで輪読会をしてもらった様子
13 https://gihyo.jp/news/report/2022/06/0601?page=1
Copyright © 2021 Classi Corp. All Rights Reserved. • 最近データエンジニアが盛り上がっている
• 元々DWHやETLなどはオンプレ時代からあった • クラウドサービスの普及と書籍の発売と主に、知識と環境が整い、多く の環境で取り組まれるようになった • 職能に名前がなく、多くの現場で日の目をみることが多くなかった • コミュニティやニーズの高まりによって、再度ブームの兆しが出て今に 至る 潮流のまとめ 14
Copyright © 2021 Classi Corp. All Rights Reserved. アジェンダ •
データエンジニアリングの潮流を俯瞰 • 私はそれをどう活かしていったのか 15
Copyright © 2021 Classi Corp. All Rights Reserved. Classiのデータ組織の歴史
• 2018年6月AI室が誕生 • 4名の組織(エンジニア2人,データサイエンティスト2人) • 2018年7月データエンジニア入社 • データ基盤のプロトタイプの検討を開始 • Embulk,Cron,Scheduled Queryのデータパイプライン → BigQuery (第一世代) • 2018年11月 PJ Cockpitにより全社でBIを導入 • 2019年4月 データAI部が誕生 • https://www.wantedly.com/companies/classi/post_articles/141663 • 2019年5月 2人目のデータエンジニア入社 • Cloud Composer(Airflow)を利用したパイプラインへのアーキテクチャ変更 • 2020年1月 AWS Glueを利用したETL処理へ移行 • 2020年9月 データエンジニアが2名追加 • チーム開発体制へ • TerraformによるIaC化やCI/CD整備、スクラムライクな開発スタイルへ 16
Copyright © 2021 Classi Corp. All Rights Reserved. Classiのデータ活用戦略
• データを活用する目的 = Visionの達成のため 17 https://corp.classi.jp/company/message/
Copyright © 2021 Classi Corp. All Rights Reserved. Classiのデータ活用戦略
• 全社の目標にデータ活用が入っています 18
Copyright © 2021 Classi Corp. All Rights Reserved. Classiのデータ活用戦略
• データ民主化の戦略を取っています • Tableau/RedashなどのBIツールの利用と普及啓蒙 • データ基盤チームはDWH開発、DM開発サポートまでを責務に • 全社のデータ活用度合いをチームのKPIに 19
Copyright © 2021 Classi Corp. All Rights Reserved. Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク)
20 データ データマネジメント ライフサイクル管理 データガバナンス アクティビティ 戦略 データ評 価 原則と倫 理 ポリシー スチュ ワード 文化の変革 リスク管理:セキュリティ、プライバシー、コンプライアンス メタデータ管理 データ品質管理 計画と設計 利用と強化 実装と維持 アーキテク チャ データとモ デリングと デザイン オペレー ション DWH データ統 合と相互 運用性 マスタデー タ管理 データスト レージ 参照デー タ管理 BI データサイ エンス マスタ データの 利用 データ収 益化 予測分析 ドキュメ ント コンテン ツ管理
Copyright © 2021 Classi Corp. All Rights Reserved. 21 データ
データマネジメント ライフサイクル管理 データガバナンス アクティビティ 戦略 データ評 価 原則と倫 理 ポリシー スチュ ワード 文化の変革 リスク管理:セキュリティ、プライバシー、コンプライアンス メタデータ管理 データ品質管理 計画と設計 利用と強化 実装と維持 アーキテク チャ データとモ デリングと デザイン オペレー ション DWH データ統 合と相互 運用性 マスタデー タ管理 データスト レージ 参照デー タ管理 BI データサイ エンス マスタ データの 利用 データ収 益化 予測分析 ドキュメ ント コンテン ツ管理 データマネジメントで よく議論される機能要件 データマネジメントで 見落とされがちな 非機能要件 Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク)
Copyright © 2021 Classi Corp. All Rights Reserved. Classiのデータ活用戦略に伴った実行プラン(DAMAデータマネジメント機能フレームワーク)
22 データ データマネジメント ライフサイクル管理 データガバナンス アクティビティ 戦略 データ評 価 原則と倫 理 ポリシー スチュ ワード 文化の変革 リスク管理:セキュリティ、プライバシー、コンプライアンス メタデータ管理 データ品質管理 計画と設計 利用と強化 実装と維持 アーキテク チャ データとモ デリングと デザイン オペレー ション DWH データ統 合と相互 運用性 マスタデー タ管理 データスト レージ 参照デー タ管理 BI データサイ エンス マスタ データの 利用 データ収 益化 予測分析 ドキュメ ント コンテン ツ管理 ① ① ② ③ ④
Copyright © 2021 Classi Corp. All Rights Reserved. • 初期のフェーズでは組織の状態把握と設計に注力
①:計画と設計 23 https://speakerdeck.com/yuukimiya/dpctfa-biao-zi-liao より
Copyright © 2021 Classi Corp. All Rights Reserved. • 制約はあるがサイクルを回せるデータでBIを全社導入
• PJ_Cockpit • https://www.wantedly.com/companies/classi/post_articles/141663 • データ活用のゴール設定と目的を設定 • Tableauの公式トレーニングを社内で実施 • Classi Viz Challengeを開催 • Visionに沿ったPJ化を意識して社内イベント化で周知 ①:実装と維持 24
Copyright © 2021 Classi Corp. All Rights Reserved. • データサイエンスの共同研究を推進
①:実装と維持 25
Copyright © 2021 Classi Corp. All Rights Reserved. • マスタデータやドキュメント管理
• ドキュメントベースから内製ツールへ ①:実装と維持 26
Copyright © 2021 Classi Corp. All Rights Reserved. • データ基盤の設計、開発・運用に注力
• 一方で活用側も同時に掘り起こし • 価値貢献する活用を見据えないデータ基盤はアンチパターン ①:実装と維持 27
Copyright © 2021 Classi Corp. All Rights Reserved. • データ基盤のベースの構成要素を確立
• 連携データのカバレッジを拡充 • データ基盤を専任で担当するチームを全社横断で設置 ②:利用と強化 28
Copyright © 2021 Classi Corp. All Rights Reserved. • 利用を拡大すると同時に権限管理やセキュリティも強化
• Adminチームの初期形成 • 組織レベルでの管理・運用 • 属人的なロールを廃止。グループ単位での管理へ • セキュリティチームと共にデータのポリシーを策定 • 階層でグラデーションをつけ、データの重要度を定義 • 各リソースにおいて保持可能なデータが明示的になる • DWHはデータレイク側のETLのみだけでなく、データマート側のPull Requestを受けるように • Pull Requestを送るのはデータサイエンティストや一部非データ系メンバーのパワーユー ザー • レビュワーはデータエンジニアチーム ②:利用と強化 29
Copyright © 2021 Classi Corp. All Rights Reserved. • データAI部で全社データ活用推進のKPIを設定
• 半期ごとに目標設定とふりかえりを行い逐次更新 ②:利用と強化 30
Copyright © 2021 Classi Corp. All Rights Reserved. • SQL勉強会の実施や学習コンテンツの準備
②:利用と強化 31
Copyright © 2021 Classi Corp. All Rights Reserved. • Security
Command Centerの利用による検知強化 ③:アクティビティ 32
Copyright © 2021 Classi Corp. All Rights Reserved. • メタデータ管理への模索
• dbtの導入検証と断念 • データカタログの検討 ③:アクティビティ 33 https://tech.classi.jp/entry/2021/08/19/120000
Copyright © 2021 Classi Corp. All Rights Reserved. • データ品質管理
③:アクティビティ 34
Copyright © 2021 Classi Corp. All Rights Reserved. • データ活用文化醸成のためにUniposを活用
• 運用が肝の施策で、厳格にキャラクターを設定せず、運用の中で確立 ④:ガバナンス 35
Copyright © 2021 Classi Corp. All Rights Reserved. • データ活用戦略実現のための採用活動の継続実施
④:ガバナンス 36
Copyright © 2021 Classi Corp. All Rights Reserved. • スクラム開発のフレームワークを導入
• ワーキングアグリーメントの策定 ④:ガバナンス 37
Copyright © 2021 Classi Corp. All Rights Reserved. データ基盤の構成図
38 出典:Classiのデータ分析基盤であるソクラテスの紹介 https://tech.classi.jp/entry/2021/05/31/120000
Copyright © 2021 Classi Corp. All Rights Reserved. • 提供サービスのDBデータ
• 各種サービス利用データ • テキストデータ • 数値データ • アクセスログ • Google AnalyticsやFirebase Analytics • アプリケーションログ • 3rd Partyデータ • SalesForceやHubspotなど • Auditデータ • クラウドサービスの監査ログ、Tableau/Redashのログなど 扱っているデータの種類 39
Copyright © 2021 Classi Corp. All Rights Reserved. We’re Hiring!!
40 https://hrmos.co/pages/classi/jobs/0000026
Copyright © 2021 Classi Corp. All Rights Reserved. おわり 41
ご静聴 ありがとうございました! 🙏🙏🙏