Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Gunosyにおけるデータの民主化を促進するデータ基盤
Search
Hironori Yamamoto
May 09, 2023
Technology
1.8k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Gunosyにおけるデータの民主化を促進するデータ基盤
Hironori Yamamoto
May 09, 2023
More Decks by Hironori Yamamoto
See All by Hironori Yamamoto
Pythonistaに捧ぐ、楽しさ駆動のRust活用術 〜テストヘルパーCLI開発編〜
hiro918
0
67
Other Decks in Technology
See All in Technology
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
2
210
EventBridge Connection
_kensh
4
640
「速く作る」から「正しく作る」へ ─ 生成AI時代の開発フロー改革の ロードマップと実行 ─
starfish719
0
8.6k
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
770
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
170
[モダンアプリ勉強会]今更聞けないGit/GitHub入門
tsukuboshi
0
300
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
0
360
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
850
会社紹介資料 / Sansan Company Profile
sansan33
PRO
18
420k
ABEMA の Datadog × OTel 基盤、 中から見るか? 外から見るか?
tetsuya28
0
110
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
130
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
170
Featured
See All Featured
A Soul's Torment
seathinner
6
2.9k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
240
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Typedesign – Prime Four
hannesfritz
42
3.1k
Visualization
eitanlees
152
17k
Mind Mapping
helmedeiros
PRO
1
240
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Transcript
株式会社 Gunosy Gunosy Tech Lab Data Reliability & MLOps Group
⼭本 周典 <Hironori Yamamoto> 2023年4⽉21⽇(⾦) Gunosyにおけるデータの⺠主化を促進する データ基盤
(C) Gunosy Inc. All Rights Reserved. PAGE | • ⼭本
周典 <Hironori Yamamoto> (@hiro_o918) • Gunosy Tech Lab ◦ AdsML ◦ Data Reliability & MLOps Group • 経歴 ◦ ⼤学院修⼠課程: 機械学習を⽤いた⾳楽の⾃動⽣成 ◦ Gunosy (2020/04~) ▪ 広告機械学習モデルのパイプライン開発・運⽤ ▪ データ基盤の開発・運⽤ 2 ⾃⼰紹介
(C) Gunosy Inc. All Rights Reserved. PAGE | 3 本⽇話すこと
• Gunosy におけるデータの活⽤ • Baikal が描くデータ基盤像 • Baikal のアーキテクチャと⼯夫した点 • これから AWS 上にデータ基盤を構築したい • データ基盤を構築する上でのエッセンスを知りたい 想定する聴講者 Gunosy の統⼀データ基盤である Baikal の紹介
(C) Gunosy Inc. All Rights Reserved. Gunosy におけるデータ活⽤
(C) Gunosy Inc. All Rights Reserved. PAGE | • Biz
◦ KPI モニタリング ◦ マーケティング戦略 ◦ 営業戦略 • Dev ◦ A/B テスト ◦ 機械学習による推薦 Biz/Dev を横断して普段からデータを活⽤した意思決定をしている Gunosy におけるデータ活⽤⽂化 5
(C) Gunosy Inc. All Rights Reserved. PAGE | • ⾃社プロダクトのデータ
◦ ユーザーアクティビティのログ ◦ アプリ広告ログ ◦ アプリコンテンツ • 他社サービスのデータ ◦ ユーザー獲得経路 ◦ アプリ広告出稿データ ◦ 営業活動データ 扱うデータは多岐にわたり、全てを統合して利⽤できる必要がある Gunosy で扱う多様なデータ 6
(C) Gunosy Inc. All Rights Reserved. PAGE | データの⼀元管理による ⾞輪の再発明防⽌
不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 7 データ基盤の⽬指すすがた
(C) Gunosy Inc. All Rights Reserved. PAGE | 8 データ基盤の⽬指すすがた
データの⼀元管理による ⾞輪の再発明防⽌ • すべてのデータを⼀つのデータ基盤に集約し、 アクセスと利⽤を容易にする • 各部⾨間でのデータ共有を促進し、重複した取り組み を減らす • 粒度の細かい権限管理により誰がどのデータに アクセス・変更できるかを管理 • データ品質を保証し、誤操作や不正利⽤を未然に防ぐ 不正や誤操作を防ぐ データガバナンス
(C) Gunosy Inc. All Rights Reserved. PAGE | 幅広いユーザーに向けた 分析の⺠主化
• データ分析スキルを持たないユーザーでも利⽤できる ツールを提供 • 分析や開発に成熟したメンバーに対してはより⾼度なデ ータ活⽤のための環境を整備 組織横断な データ基盤開発の⺠主化 • 各チームがデータ基盤開発に参⼊しやすい環境を整備 • データドメインに近いチームが⾃⾝で分析データを 管理することで、組織全体のアジリティを⾼める 9 データ基盤の⽬指すすがた
(C) Gunosy Inc. All Rights Reserved. PAGE | • 「だれ」の「なに」を達成したいから進める
◦ データ基盤を作ることを⽬的化しない ◦ 社内の業務を俯瞰して⾃動化や可視化のインパクトの⼤きさを考える • ⼩さく作る ◦ 初⼿、社内データ全てを対象にして始めると終わらない ◦ 単⼀のコンポーネントで意味があるものがよい ◦ 社内ユーザーからのフィードバックを得る ▪ データが⾒られて嬉しいを社内に定着させる 10 [余談] ユーザーストーリーから考える データ基盤は社内向けプロダクトの 1 つ
(C) Gunosy Inc. All Rights Reserved. データ基盤 「Baikal」と データ基盤チームの取り組みの紹介
(C) Gunosy Inc. All Rights Reserved. PAGE | ビジネスへの活⽤ 12
Baikal のアーキテクチャ データソース Amazon QuickSight モバイル アプリケーション データ 利⽤者 BI app データ抽出・ ロード 分析・ KPI 運⽤ データ参照・ 分析⽤加⼯ プロダクトへの活⽤ Google Spread Sheets データ抽出・ ロード データ変換 Raw データ 加⼯ データ Amazon Athena AWS Lake Formation アクセス管理 AWS Data Lake
(C) Gunosy Inc. All Rights Reserved. PAGE | 13 データ基盤の⽬指すすがた
データの⼀元管理による ⾞輪の再発明防⽌ 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 ハード⾯だけではなく ソフト⾯を含めた 取り組みが重要
(C) Gunosy Inc. All Rights Reserved. PAGE | 14 Baikal
における取り組み • AWS LakeFormation による横断管理 • Amazon Athena での SQL によるデータ変換 • Athena View を IaC で管理 • 他チームの開発参加⽀援 • Amazon QuickSight による開かれたデータ基盤 • Redash による詳細な分析基盤
(C) Gunosy Inc. All Rights Reserved. PAGE | • AWS
アカウントをまたいでデータへの権限を付与 ◦ Amzaon LakeFormation の導⼊で⼀元管理された Catalog を他アカウントにも共有できるようになった • 粒度の細かい権限管理に基づくデータガバナンスの提供 ◦ テーブルやカラム粒度での権限設定が可能 ◦ ユーザーが安⼼して利⽤できるデータ基盤へ 15 Amazon LakeFormation による横断管理 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌
(C) Gunosy Inc. All Rights Reserved. PAGE | • Amazon
Athena の CTAS 機能によるデータ変換の提供 ◦ SQL を記述するだけでデータの変換を実装できる ◦ 分散処理などの専⾨知識が不要で開発に参⼊することが できる ◦ サーバーレスに実⾏可能なので管理コストも低い • 実⾏結果のコスト可視化 ◦ Amazon Athena 実⾏ログから実⾏結果のコストを可視化 ◦ Slack でコストの⾼いクエリが実⾏された場合は通知する ことで、効率的なクエリの啓蒙 16 Amazon Athena での SQL によるデータ変換 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌
(C) Gunosy Inc. All Rights Reserved. PAGE | 17 Athena
View を IaC で管理 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌ • Athena View を Terraform で記述 ◦ 頻度の⾼い分析を共通化し、再利⽤することができる ◦ レビューや CI によって SQL やメタデータの品質を 保ちやすい • Amazon QuickSight の取り込み対象を View に限定 ◦ Amzaon QuickSight で定常的にみるデータに関しては、 特にデータの品質を保つようにした ◦ Amazon QuickSight 側でのデータ変換を制限することで、 似たようなクエリやデータ変換の乱⽴を防⽌する
(C) Gunosy Inc. All Rights Reserved. PAGE | 18 他チームの開発参加⽀援
• データ基盤チーム以外に向けたドキュメントの整備 ◦ データのドメインに近いチームが⾃⾝で分析に向けた データを整備できる状態を⽬指す • ペアプロ・モブプロの開催 ◦ ペアプロ・モブプロを開催することで、 チーム外のメンバーにも開発⽅法の知⾒の共有 ◦ DB からデータ取得など定型的な内容は容易に 整備できるようコードを⼯夫 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌
(C) Gunosy Inc. All Rights Reserved. PAGE | • SQL
を使わずインタラクティブな視覚化を提供 ◦ ドリルダウンによってデータの深堀りを可能に ◦ 定型的な分析は⽇々ダッシュボードで確認できるようにし、 意思決定を効率化する 19 QuickSight による開かれた分析基盤 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌
(C) Gunosy Inc. All Rights Reserved. PAGE | • SQL
を利⽤した詳細な分析環境の提供 ◦ より深ぼった分析や可視化のために Redash による 分析基盤を提供 ◦ A/B テスト特有のメトリクスの確認や KPI の異常値調査な ど、突発的で詳細な分析を可能に 20 Redash による詳細な分析基盤 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌
(C) Gunosy Inc. All Rights Reserved. まとめ
(C) Gunosy Inc. All Rights Reserved. PAGE | 22 まとめ
• Gunosy におけるデータ活⽤の背景 ◦ Biz/Dev 問わずデータによる意思決定やプロダクトへの活⽤が定着している ◦ データ基盤として、幅広く社内ユーザー体験を⾼める事が重要 ▪ データ分析者・プロダクトの開発者 • 分析環境の⺠主化によるデータ分析体験の向上 ◦ ユーザーのニーズに沿った複数の分析環境を提供 ▪ Amazon QuickSight, Redash, Google SpreadSheets など ◦ SQL を使わずに品質の⾼いデータにアクセスできるように整備 ▪ Athena View の活⽤ • 開発環境の⺠主化によるプロダクトへのデータ活⽤体験の向上 ◦ データ基盤の開発を委譲できる体制の整備 ▪ ペアプロ、ドキュメント整備といった施策
(C) Gunosy Inc. All Rights Reserved. PAGE | • より良い社内ユーザー体験を⽬指して
◦ 分析者がより深堀りしやすい環境を⽬指す ▪ メタデータの拡充、データリネージの提供 ◦ 既存のクエリに対する検索機能の強化 ▪ 参考となるクエリへのアクセス性を⾼める • より安⼼して開発・運⽤できるデータ基盤へ ◦ データに対するテストの整備 ▪ データ品質に対する SLO/SLA 定義およびアラートの整備 23 今後の展望
情報を世界中の⼈に最適に届ける