Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ペタバイト、30プロダクトを超えて成長を続けるデータ基盤の歴史

 ペタバイト、30プロダクトを超えて成長を続けるデータ基盤の歴史

2023/03/14 に開催された
「【DeNA/PayPay/マネーフォワード】波乱万丈伝から学ぶ!成長企業におけるデータマネジメントの勘所~大規模データ分析基盤の変遷~」
での データ本部データ基盤部データエンジニアリング第一グループ 長谷川 了示の登壇資料です。

イベントページ:https://techplay.jp/event/892180

DeNA_Tech

March 15, 2023
Tweet

More Decks by DeNA_Tech

Other Decks in Technology

Transcript

  1. © DeNA Co., Ltd. 1
    ペタバイト、30プロダクトを超えて
    成長を続けるデータ基盤の歴史
    長谷川了示
    データ本部データ基盤部データエンジニアリング第一グループ
    グループリーダー
    株式会社ディー・エヌ・エー

    View Slide

  2. © DeNA Co., Ltd. 2
    長谷川 了示
    コンサルティングファーム、分析系SaaS
    ベンダを経て2016年に DeNA に入社。
    以後、一貫して全社のデータ分析基盤の設
    計・構築・運用に従事。
    直近は、 pococha を始めとしたライブ
    ストリーミング事業のデータ基盤を担当。
    データ本部データ基盤部
    データエンジニアリング第一グループ
    グループリーダー
    [email protected]
    © DeNA Co., Ltd.
    自己紹介

    View Slide

  3. © DeNA Co., Ltd. 3
    これからお話する内容
    ● DeNA のデータ基盤の歴史は「勃興 -> 浸透 -> 拡散」というフェーズを辿ってきた
    ● データ基盤の形に合わせ、組織の形も変えてきた
    ● それぞれのフェーズでどのような課題に直面し、どう対処してきたかお話します
    ※ 実際はもっと紆余曲折あったところを、分かりやすく単純化してお伝えしてます

    View Slide

  4. © DeNA Co., Ltd. 4
    DeNA 略史
    1
    DeNA データ基盤史
    データエンジニア組織の歴史
    残る課題とこれからのチャレンジ
    4
    3
    2
    目次

    View Slide

  5. © DeNA Co., Ltd. 5
    5
    DeNA 略史
    5

    View Slide

  6. © DeNA Co., Ltd. 6
    ネットオークションに始まり、ゲーム、エンタメからスポーツ、ヘルスケアまで様々な事業
    にチャレンジを続けている
    沿革
    インターネット
    オークション開始
    1999
    ショッピング
    モール開始
    2002
    モバイル
    オークション
    「モバオク」開始
    2004
    ゲーム & SNSサイト
    「モバゲータウン」
    開始
    2006
    ソーシャルゲーム
    「怪盗ロワイヤル」
    開始
    2009
    ライブ
    ストリーミング
    事業開始
    2013
    オートモーティブ
    事業開始
    2015
    東証マザーズ
    上場
    2005
    東証一部上場
    2007
    プロ野球参入
    2011
    ヘルスケア
    事業開始
    2014
    プロバスケット
    ボール
    クラブの承継
    2018

    View Slide

  7. © DeNA Co., Ltd. 7
    エンターテインメント領域と社会課題領域の両軸で多数の事業を展開中
    現在の事業ポートフォリオ
    LIVE STREAMING
    GAME HEALTH CARE
    SPORTS 新領域
    オートモーティブ
    MEDICAL

    View Slide

  8. © DeNA Co., Ltd. 8
    8
    DeNA データ基盤史
    8

    View Slide

  9. © DeNA Co., Ltd. 9
    分析の専門組織や大規模分析基盤を立ち上げる以前
    から、データに基づきプロダクトを改善する文化は
    存在していた。ただし...
    ● RDBやExcelによる分析
    ● プロダクト分析は、専任スタッフではなく、企
    画スタッフ・エンジニアが実施
    ● マーケティングチーム用には分析専用のデータ
    マートが存在し、プロダクト横断的な分析を
    行っていたが、MySQLで実行できる規模
    有史前
    Log Server

    DB Server

    App Server
    App Server
    Batch Server
    DB Server
    Marketing Data Mart
    (MySQL)

    データ基盤が「データ基盤」と呼ばれるようになる以前

    View Slide

  10. © DeNA Co., Ltd. 10
    ゲーム事業の急成長と共にデータ基盤が必要となった
    ● 怪盗ロワイヤルに代表されるモバイルゲームの大ヒット
    ○ 事業が急成長するのに伴い、分析に基づいたプロダクト改善の重要性も高まる
    ● ゲーム事業部内で、アナリストと分析基盤エンジニアが一体となった組織を構成し、大
    規模データを分析できる基盤と専門組織を立ち上げた
    ● 大規模データを分析可能にするために分散処理基盤(Hadoop)の運用を開始
    データ基盤の勃興

    View Slide

  11. © DeNA Co., Ltd. 11
    ● オンプレミスの hadoop
    ● Pig, Hive, MapReduce による処理
    ● 重要なKPIについては MySQLとBI
    ツールで可視化
    ● 単一事業のデータ基盤: 利用部門
    はゲーム事業のみ
    ● 2010年の話
    ○ "Hadoop: The Definitive Guide"
    (いわゆる象本)の初版の日本語
    版が出版された年。
    分散処理基盤の導入
    勃興期のデータ基盤
    プロダクト環境
    App Server
    DB Server
    データ基盤
    DeNA On-Premises
    Hadoop
    Batch Server
    Jenkins
    Hue
    Analytics DB
    (MySQL)
    BI Tool
    (Pentaho)

    View Slide

  12. © DeNA Co., Ltd. 12
    利用事業/部署の拡大、分析ニーズの高まり
    ● 利用事業がゲーム以外に広がる
    ● ゲーム事業においても、運営専門子会社化の立ち上げなど、体制の変化が進む
    ● 分析ニーズが高まり、アナリストの生産性向上が求められるように
    データ基盤の浸透

    View Slide

  13. © DeNA Co., Ltd. 13
    ● 全ての事業/プロダクトのデータを
    一つの基盤に同居させる
    ● 権限管理の導入
    ○ 担当範囲のデータのみ参照できる
    ように設定
    ● 生産性向上
    ○ 使い勝手のよいツールの内製
    BIツール (Argus)等
    ○ Vertica 導入によるレスポンス向上
    共通基盤へ拡張
    浸透期のデータ基盤
    Product A
    App Server
    DB Server
    データ基盤
    Product B
    Product C
    ・・・
    DeNA On-Premises
    Hadoop
    Argus
    (内製BIツール)
    Batch Server
    Jenkins
    Hue
    改善点
    プロダクト環境

    View Slide

  14. © DeNA Co., Ltd. 14
    システムが肥大化し、運用のつらみが顕在化
    ● 大規模かつマルチテナントの難しさ
    ○ 大規模分散処理システムの安定運用には高い専門性を持った人材を多数アサイン
    する必要がある
    ○ 一人のユーザが入れた重い処理が、最悪、全利用者に影響
    ○ 個別の「こんなツールを使いたい」という要望に応えづらい
    ○ 自由度を与えすぎたことによるトラブル(ユーザが意図せず環境を壊してしまう等)
    ● 後から増改築したことによる技術的負債
    ○ 権限管理可能な環境を構築するためにHadoop クラスタを追加
    (ゲーム用とそれ以外用の2つのクラスタを運用)
    データ基盤浸透に伴う課題

    View Slide

  15. © DeNA Co., Ltd. 15
    多結晶型
    基本構成は共通だがカスタマイズ可能
    な多数の環境を構成
    ● クラウド上にデータ基盤を再構築
    ○ 分散処理基盤の運用はクラウド
    ベンダに任せる
    ● 事業・プロダクト毎に環境を分割
    ● 更にコンテナ技術を活用し、利用
    者の自由度を担保しつつ統制を効
    かせる
    ● IaC により環境を金太郎飴化し、
    管理のスケール化を図る
    データ基盤拡散期へ
    BI Tools
    Product A
    プロダクト環境
    App Server
    DB Server
    データ基盤
    Product A
    GKE
    digdag batch
    web
    app
    Argus
    Product B
    Product C
    Product B
    Product C
    ・・・
    ・・・
    Cloud
    Storage
    BigQuery
    Looker
    「多結晶型」データ基盤として再構築
    改善点

    View Slide

  16. © DeNA Co., Ltd. 16
    詳細が気になった方はこちらもご覧下さい
    (3年前の登壇ではありますが)データ基盤再構築について詳しく紹介しています。
    Cloud Data Platform Day #2
    Google Cloud を使ったデータプラットフォームへの変革と最新の活用状況について
    https://www.youtube.com/watch?v=FsFHuXkBl8U

    View Slide

  17. © DeNA Co., Ltd. 17
    17
    17
    データエンジニア組織の歴史

    View Slide

  18. © DeNA Co., Ltd. 18
    横断組織化
    単一事業部門内組織
    データ基盤の進化に合わせ、データエンジニア組織も形を変えてきた
    有史前〜浸透期のデータエンジニア組織
    有史前 浸透期
    勃興期
    専門組織は存在せず
    各事業部門のエンジニアがMySQL や
    サーバ上のログがら直接取得・加工
    ゲーム事業部門内にデータエンジニア・
    アナリスト一体の組織が立ち上がる(当
    時「データエンジニア」という言葉はな
    かったが)
    ゲーム事業以外にデータ基盤の利用が広
    がるのに伴い、データエンジニアは全社
    横断組織化
    更に内部で機能別に組織化
    ゲーム事業
    データエンジニア
    データアナリスト
    A事業
    B事業
    開発エンジニア
    開発エンジニア


    ・ データエンジニア
    ゲーム事業
    ライブストリー
    ミング事業
    ヘルスケア事業
    メディカル事業



    C事業 開発エンジニア




























    View Slide

  19. © DeNA Co., Ltd. 19
    横断部門のつらみ
    ● 高い認知負荷
    ○ 把握しておくべきことが事業の数に比例して増える
    ● コンテキストスイッチ
    ○ 事業の数に比例
    ● コンテキストの喪失
    ○ 「事業側から依頼されたことに対応する」という関係
    になりがちで、それが事業にどう価値をもたらすのか
    が見えづらくなる
    浸透期の課題
    データエンジニア
    ゲーム事業
    ライブストリー
    ミング事業
    ヘルスケア事業
    メディカル事業



    View Slide

  20. © DeNA Co., Ltd. 20
    データ基盤再構築に伴い、データエンジニア組織も再編
    ● 「チームトポロジー」の考え方を活用
    ● ビジネスの価値の流れ(ストリーム)にそってチームを
    配置
    ○ ストリーム・アラインド・チーム
    (長いので以下、SATと略記)
    ● SATをサポートするためのチームも配置
    ○ テクノロジー・イネイブリング(技術支援)
    ○ ツール開発
    拡散期のデータエンジニア
    データエンジニア
    ゲーム事業
    ライブストリー
    ミング事業
    ヘルスケア事業
    メディカル事業



    ツール開発
    ゲーム支援
    ライブストリー
    ミング支援
    ヘルスケア&
    メディカル支援
    技術支援
    ストリーム・アラインド・チーム(SAT)
    は各事業のデータ基盤整備を支援
    SATを支援するチームも配置

    View Slide

  21. © DeNA Co., Ltd. 21
    滑り出しは順調
    客観面
    ● 「組織状況に関するアンケート」の結果が大幅改善
    ○ 社員が組織に対して思ってることを、半期毎に全社でアンケートしている
    個人的主観面
    ● 担当アナリストや事業側メンバとのコミュニケーションが密になり、コンテキストが把
    握しやすくなった
    ● データが意思決定に活用されるナマの現場に触れる機会が増え、モチベーションも向上
    チームトポロジーの効果

    View Slide

  22. © DeNA Co., Ltd. 22
    弊社の城谷によるプレゼンで、データエンジニアの組織変革の背景、考え方、進め方につい
    て詳しく語っています。
    詳細が気になった方はこちらもご覧下さい
    DeNAのデータエンジニアが語る、事業プロダクトを横断するデータドリブン
    な組織設計、社内データの利活用、データマネジメントとは
    https://techplay.jp/column/1626

    View Slide

  23. © DeNA Co., Ltd. 23
    23
    残る課題と
    これからのチャレンジ
    23

    View Slide

  24. © DeNA Co., Ltd. 24
    ● 横のゆるいつながりの促進
    ● 「これ、どのチームの担当だっけ?」問題
    ● 新しいツール・技術の活用
    今日は以下の3点についてお話します

    View Slide

  25. © DeNA Co., Ltd. 25
    チームトポロジー化により、それぞれのチームの課題に集中しやすくなった
    しかし、横のつながりは意識的に作らないと希薄になりがち
    横のゆるいつながりを持つことで以下のような効果が期待できる
    ● ノウハウの共有
    ● 課題の共有
    ○ 横断で取り組むべき共通課題が見えてくる
    以前から輪読会やコーヒーブレイク(雑談会)などは実施してきたが、今後、更に横のつなが
    りを意識した施策を実施していくべき時期かもしれない
    横のゆるいつながりの促進

    View Slide

  26. © DeNA Co., Ltd. 26
    「これ、どのチームの担当だっけ?」問題
    役割分担にまだ調整の余地あり
    ● 共通的に利用しているツールがある
    ● インフラは、IaC で金太郎飴化している都合上、集中管理したほうがよい?
    ● 重点的に支援している事業ドメインはSAT化したが、それ以外の事業のサポートは?
    ○ 基盤だけ利用し、データマネジメント等は事業側で自活しているケース
    チームトポロジーの考え方だと「プラットフォーム化せよ」となるが、プラットフォーム化
    すべきものと、SATで自活すべきものの見極めが必要
    ● 有効なプラットフォームを作り上げるには優れたプロダクトマネジメントが必要
    ● 何でもプラットフォーム化すると開発リードタイムのためにアジリティが下がる

    View Slide

  27. © DeNA Co., Ltd. 27
    Modern Data Stack など、データエンジニアリング周りの変化はますます速い
    使いこなせば、分析業務の生産性向上やデータの信頼性向上等のメリットが享受できそう
    データ基盤を多結晶化したおかげで、個別に最適な技術を試しやすくなった
    例えばこのような取り組みを進めている
    新しいツール・技術の活用
    VOC分析を支えるデータ基盤とモダンデータスタックの取り組み
    https://techcon2023.dena.dev/session/session12/

    View Slide

  28. © DeNA Co., Ltd. 28
    まとめ

    View Slide

  29. © DeNA Co., Ltd. 29
    多結晶型基盤
    そしてこれからも進化を続けて行く!
    データ基盤と組織を勃興期・浸透期・拡散期に合わせて進化させてきた
    勃興期 拡散期
    浸透期
    データ基盤
    データ
    エンジニア
    横断組織
    単一事業部門内組織
    ゲーム事業
    データエンジニア
    データアナリスト
    データエンジニア
    事業







    チームトポロジー
    事業



    事業支援(SAT)
    SAT支援
    共通基盤
    分散処理基盤の導入
    プロダクト環境
    データ基盤
    プロダクト環境
    データ基盤
    プロダクト環境
    プロダクト環境



    プロダクト環境
    プロダクト環境
    プロダクト環境






    SAT支援
    ?

    View Slide

  30. © DeNA Co., Ltd. 30
    TECH PLAY Data Conference 2023
    ーTech組織が考えるデータエンジニアリング・データ分析基盤・データ利活用ー
    https://techplay.jp/event/892259
    来週 3/22(木)に、弊社でゲーム事業支援のSATに所属しているメンバーがイベントに登壇し
    ます。ご興味ある方、是非ご参加下さい!
    告知
    DeNA からは、渡辺と濱田が
    「ディメンショナルモデルの実導入と実装について」
    というタイトルでお話させていただきます

    View Slide

  31. © DeNA Co., Ltd. 31
    We are Hiring!!!
    DeNAではデータ活用の課題を共に解決に導く仲間を募集しています
    ● チームは変革期
    ● 様々なデータ活用の課題を共に解決しませんか?
    DeNA データエンジニア
    TEAMの紹介ページにアクセス可能です
    ↓検索はこちら
    QRコードはこちら

    View Slide

  32. © DeNA Co., Ltd. 32

    View Slide