Slide 1

Slide 1 text

株式会社 Gunosy Gunosy Tech Lab Data Reliability & MLOps Group ⼭本 周典 2023年4⽉21⽇(⾦) Gunosyにおけるデータの⺠主化を促進する データ基盤

Slide 2

Slide 2 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● ⼭本 周典 (@hiro_o918) ● Gunosy Tech Lab ○ AdsML ○ Data Reliability & MLOps Group ● 経歴 ○ ⼤学院修⼠課程: 機械学習を⽤いた⾳楽の⾃動⽣成 ○ Gunosy (2020/04~) ■ 広告機械学習モデルのパイプライン開発・運⽤ ■ データ基盤の開発・運⽤ 2 ⾃⼰紹介

Slide 3

Slide 3 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 3 本⽇話すこと ● Gunosy におけるデータの活⽤ ● Baikal が描くデータ基盤像 ● Baikal のアーキテクチャと⼯夫した点 ● これから AWS 上にデータ基盤を構築したい ● データ基盤を構築する上でのエッセンスを知りたい 想定する聴講者 Gunosy の統⼀データ基盤である Baikal の紹介

Slide 4

Slide 4 text

(C) Gunosy Inc. All Rights Reserved. Gunosy におけるデータ活⽤

Slide 5

Slide 5 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● Biz ○ KPI モニタリング ○ マーケティング戦略 ○ 営業戦略 ● Dev ○ A/B テスト ○ 機械学習による推薦 Biz/Dev を横断して普段からデータを活⽤した意思決定をしている Gunosy におけるデータ活⽤⽂化 5

Slide 6

Slide 6 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● ⾃社プロダクトのデータ ○ ユーザーアクティビティのログ ○ アプリ広告ログ ○ アプリコンテンツ ● 他社サービスのデータ ○ ユーザー獲得経路 ○ アプリ広告出稿データ ○ 営業活動データ 扱うデータは多岐にわたり、全てを統合して利⽤できる必要がある Gunosy で扱う多様なデータ 6

Slide 7

Slide 7 text

(C) Gunosy Inc. All Rights Reserved. PAGE | データの⼀元管理による ⾞輪の再発明防⽌ 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 7 データ基盤の⽬指すすがた

Slide 8

Slide 8 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 8 データ基盤の⽬指すすがた データの⼀元管理による ⾞輪の再発明防⽌ ● すべてのデータを⼀つのデータ基盤に集約し、 アクセスと利⽤を容易にする ● 各部⾨間でのデータ共有を促進し、重複した取り組み を減らす ● 粒度の細かい権限管理により誰がどのデータに アクセス・変更できるかを管理 ● データ品質を保証し、誤操作や不正利⽤を未然に防ぐ 不正や誤操作を防ぐ データガバナンス

Slide 9

Slide 9 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 幅広いユーザーに向けた 分析の⺠主化 ● データ分析スキルを持たないユーザーでも利⽤できる ツールを提供 ● 分析や開発に成熟したメンバーに対してはより⾼度なデ ータ活⽤のための環境を整備 組織横断な データ基盤開発の⺠主化 ● 各チームがデータ基盤開発に参⼊しやすい環境を整備 ● データドメインに近いチームが⾃⾝で分析データを 管理することで、組織全体のアジリティを⾼める 9 データ基盤の⽬指すすがた

Slide 10

Slide 10 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● 「だれ」の「なに」を達成したいから進める ○ データ基盤を作ることを⽬的化しない ○ 社内の業務を俯瞰して⾃動化や可視化のインパクトの⼤きさを考える ● ⼩さく作る ○ 初⼿、社内データ全てを対象にして始めると終わらない ○ 単⼀のコンポーネントで意味があるものがよい ○ 社内ユーザーからのフィードバックを得る ■ データが⾒られて嬉しいを社内に定着させる 10 [余談] ユーザーストーリーから考える データ基盤は社内向けプロダクトの 1 つ

Slide 11

Slide 11 text

(C) Gunosy Inc. All Rights Reserved. データ基盤 「Baikal」と データ基盤チームの取り組みの紹介

Slide 12

Slide 12 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ビジネスへの活⽤ 12 Baikal のアーキテクチャ データソース Amazon QuickSight モバイル アプリケーション データ 利⽤者 BI app データ抽出・ ロード 分析・ KPI 運⽤ データ参照・ 分析⽤加⼯ プロダクトへの活⽤ Google Spread Sheets データ抽出・ ロード データ変換 Raw データ 加⼯ データ Amazon Athena AWS Lake Formation アクセス管理 AWS Data Lake

Slide 13

Slide 13 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 13 データ基盤の⽬指すすがた データの⼀元管理による ⾞輪の再発明防⽌ 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 ハード⾯だけではなく ソフト⾯を含めた 取り組みが重要

Slide 14

Slide 14 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 14 Baikal における取り組み ● AWS LakeFormation による横断管理 ● Amazon Athena での SQL によるデータ変換 ● Athena View を IaC で管理 ● 他チームの開発参加⽀援 ● Amazon QuickSight による開かれたデータ基盤 ● Redash による詳細な分析基盤

Slide 15

Slide 15 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● AWS アカウントをまたいでデータへの権限を付与 ○ Amzaon LakeFormation の導⼊で⼀元管理された Catalog を他アカウントにも共有できるようになった ● 粒度の細かい権限管理に基づくデータガバナンスの提供 ○ テーブルやカラム粒度での権限設定が可能 ○ ユーザーが安⼼して利⽤できるデータ基盤へ 15 Amazon LakeFormation による横断管理 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌

Slide 16

Slide 16 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● Amazon Athena の CTAS 機能によるデータ変換の提供 ○ SQL を記述するだけでデータの変換を実装できる ○ 分散処理などの専⾨知識が不要で開発に参⼊することが できる ○ サーバーレスに実⾏可能なので管理コストも低い ● 実⾏結果のコスト可視化 ○ Amazon Athena 実⾏ログから実⾏結果のコストを可視化 ○ Slack でコストの⾼いクエリが実⾏された場合は通知する ことで、効率的なクエリの啓蒙 16 Amazon Athena での SQL によるデータ変換 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌

Slide 17

Slide 17 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 17 Athena View を IaC で管理 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌ ● Athena View を Terraform で記述 ○ 頻度の⾼い分析を共通化し、再利⽤することができる ○ レビューや CI によって SQL やメタデータの品質を 保ちやすい ● Amazon QuickSight の取り込み対象を View に限定 ○ Amzaon QuickSight で定常的にみるデータに関しては、 特にデータの品質を保つようにした ○ Amazon QuickSight 側でのデータ変換を制限することで、 似たようなクエリやデータ変換の乱⽴を防⽌する

Slide 18

Slide 18 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 18 他チームの開発参加⽀援 ● データ基盤チーム以外に向けたドキュメントの整備 ○ データのドメインに近いチームが⾃⾝で分析に向けた データを整備できる状態を⽬指す ● ペアプロ・モブプロの開催 ○ ペアプロ・モブプロを開催することで、 チーム外のメンバーにも開発⽅法の知⾒の共有 ○ DB からデータ取得など定型的な内容は容易に 整備できるようコードを⼯夫 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌

Slide 19

Slide 19 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● SQL を使わずインタラクティブな視覚化を提供 ○ ドリルダウンによってデータの深堀りを可能に ○ 定型的な分析は⽇々ダッシュボードで確認できるようにし、 意思決定を効率化する 19 QuickSight による開かれた分析基盤 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌

Slide 20

Slide 20 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● SQL を利⽤した詳細な分析環境の提供 ○ より深ぼった分析や可視化のために Redash による 分析基盤を提供 ○ A/B テスト特有のメトリクスの確認や KPI の異常値調査な ど、突発的で詳細な分析を可能に 20 Redash による詳細な分析基盤 不正や誤操作を防ぐ データガバナンス 組織横断な データ基盤開発の⺠主化 幅広いユーザーに向けた 分析の⺠主化 データの⼀元管理による ⾞輪の再発明防⽌

Slide 21

Slide 21 text

(C) Gunosy Inc. All Rights Reserved. まとめ

Slide 22

Slide 22 text

(C) Gunosy Inc. All Rights Reserved. PAGE | 22 まとめ ● Gunosy におけるデータ活⽤の背景 ○ Biz/Dev 問わずデータによる意思決定やプロダクトへの活⽤が定着している ○ データ基盤として、幅広く社内ユーザー体験を⾼める事が重要 ■ データ分析者・プロダクトの開発者 ● 分析環境の⺠主化によるデータ分析体験の向上 ○ ユーザーのニーズに沿った複数の分析環境を提供 ■ Amazon QuickSight, Redash, Google SpreadSheets など ○ SQL を使わずに品質の⾼いデータにアクセスできるように整備 ■ Athena View の活⽤ ● 開発環境の⺠主化によるプロダクトへのデータ活⽤体験の向上 ○ データ基盤の開発を委譲できる体制の整備 ■ ペアプロ、ドキュメント整備といった施策

Slide 23

Slide 23 text

(C) Gunosy Inc. All Rights Reserved. PAGE | ● より良い社内ユーザー体験を⽬指して ○ 分析者がより深堀りしやすい環境を⽬指す ■ メタデータの拡充、データリネージの提供 ○ 既存のクエリに対する検索機能の強化 ■ 参考となるクエリへのアクセス性を⾼める ● より安⼼して開発・運⽤できるデータ基盤へ ○ データに対するテストの整備 ■ データ品質に対する SLO/SLA 定義およびアラートの整備 23 今後の展望

Slide 24

Slide 24 text

情報を世界中の⼈に最適に届ける