Upgrade to Pro — share decks privately, control downloads, hide ads and more …

プロダクト中心のデータ駆動を推進していくために必要なこと

Kazuhito Osabe
December 02, 2019

 プロダクト中心のデータ駆動を推進していくために必要なこと

プロダクト開発メンバー主導の民主的なデータ活用を目指すとどの企業でも直面することになるであろういくつかの課題と、それらに対するピクシブ株式会社データ駆動推進室の取り組みをご紹介します。

Data Platform Meetup 【vol.2】の発表資料です。
https://data-platform-meetup.connpass.com/event/155073/

ピクシブ株式会社について:
https://www.pixiv.co.jp/

Kazuhito Osabe

December 02, 2019
Tweet

Other Decks in Technology

Transcript

  1. 2 自己紹介
 • 情報系修士→ピクシブ、新卒3年目 元は有料会員部門の開発担当兼分析担当 →現データ駆動推進室のデータ基盤エンジニア • 社内のデータ基盤整備を方針決めのレベルから中 心的に進めてきました •

    データ基盤にpixiv本体のデータしかなかった状態か ら、全周辺プロダクトのデータが一括で乗った状態ま で持っていった 長部 和仁
 (@tohhy)
 データ駆動推進室
 エンジニア

  2. ピクシブについて(周辺プロダクト)
 4 • ECサイト • グッズ制作 • ファンコミュニティ • 3D事業

    などなど 会社としてのピクシブ 「創作活動がもっと楽しくなる場所を創る」を スローガンに多数の事業を運営 の中にある
  3. 8 クラウドDWH
 もたらす変化
 • 価格的にも運用的にも低コストでデータ の全数保持・全数活用が可能になる • 「不要なデータ」の減少、ログを捨てるよ り保持するべきケースの増加 •

    その結果として企業が管理するデータ 資産の総量の増加 • それを加工するデータパイプラインも複 雑化 生データと活用現場の間に挟まる低コス トの抽象化&データ蓄積層 生データ クラウド DWH 機械学習 技術 データ分析 可視化
  4. 機械学習技術
 データの価値産出の道筋が増加 より広い層に活用される 9 もたらす変化
 • 分析プロセスを経由しなくても、データ 単体で価値産出する道が生まれてくる • 自動最適化、推薦など。収益の向上は

    もちろん、単体でユーザーに価値提供 する機能になったりもする • その恩恵が研究開発系の企業だけで はなく一般Web企業まで降りてくる 生データ クラウド DWH 機械学習 技術 データ分析 可視化
  5. ピクシブでのビッグデータ×機械学習
 10 • レコメンドチーム • pixiv本体を中心に、ユーザーのアクティビティ を高めるようなレコメンドを目指すチーム • pixivのブックマークデータはidが32bit intに

    収まらないぐらいの量があるが、これを BigQuery経由でフル活用して精度向上 • 今も順調にpixiv内のアクティビティを 底上げしつつ、知見を生かして周辺サービス への展開に動き始めている
  6. • 今までログデータが捨てられていたとして、 それはそのログが生みうる価値が 保持・活用コストよりも小さかったため • クラウドDWHで保持・活用コストが下がり、 機械学習技術で生み出す価値が底上げされ • そうした前提が覆り、データは保持・活用 されなければいけなくなった

    • 機械学習はもちろん、分析・可視化でも、 保持したぶんは使わなければもったいない データを活用しないわけにはいかなくなる
 11 生データ クラウドDWH 機械学習技術 データ分析 可視化 結果的に ここも 頑張らないと ここが 充実するので
  7. 14 集権化
 良い
 • 専門家だけがデータに触れるためデー タや分析の信頼性を担保できる • ガバナンスが効く。セキュリティも担保し やすい 悪い


    • 作業依頼が介在しスピードが落ちる • 分析チームが社内全域のドメイン理解 を持たなければならない • 分析の動機を持つ人と作業者が別人で 作業内容にミスマッチが起きがち データ分析・管理の専門チームを置く。 データに直接触れる人は専門家に絞る データ変更 データ抽出 レポーティング ダッシュボード提供 分析依頼 作業依頼
  8. 15 民主化
 良い
 • 分析の動機とドメイン理解を併せ持つ 当事者が直接分析を行える • 作業依頼の伝達コストが発生せず、分 析結果も自然に活用される •

    近年のクラウドDWHの発達によってこ の形を作りやすくなった 「データの民主化」が注目される一因は、集 権化している場合に直面する主要な課題を 解決できるため 横断で分析や基盤整備を行う担当者は 最小限に留め、当事者が主体となり分析 活動やデータ加工を行う データ抽出 データ変更
  9. 16 民主化
 悪い
 • 各部署・各プロダクトの人員にデータリテラシーが必 要になる • 相応の分析基盤を整備し、その運用を平易にしてい くことが必要 •

    分析実施者が専門家ではなくなり、分析の質が悪化 したり、誤った手続きを実施してしまう懸念がある • 分析的には必要であっても当事者が必要と感じたこ としか実施されない • データに変更を加える人が多様になりデータの破損 などのリスクがある • 権限の管理をきちんとしないと見えてはいけない人 にデータが見えてしまう • ... 良いことばかりではない。ここには書きき れないぐらい超えるべきハードルがある データ抽出 データ変更
  10. ピクシブではどうしたか
 • 民主化の路線を選んだ • データ駆動推進室の立ち上げ ◦ 社内のデータ活用を促進するための小さな チームを立ち上げ ◦ 依頼を受けてこなすのではなく、仕組みを

    作ったり各部署に働きかけて自走をサポート ユーザーに価値を最速で届けるために。 ピクシブの「データ民主化」に向けた挑戦 - pixiv inside https://inside.pixiv.blog/jaggy/6421 17
  11. 3. 多様な互助組織の構築
 • 様々な軸で複数の互助組織を構築 • Slackのanalystチャンネル • 200人に満たない会社で134人が参加す る一大勢力 •

    これってどうすればいいんでしたっけ、と いう話を投げると有識者がよってたかっ て解決してくれる 28
  12. 3. 多様な互助組織の構築
 • 分析ワクワクタイム • 毎週決まった曜日の決まった時間、オープンスペースに データ駆動推進室メンバーが溜まって待機 • エンジニアもビジネス職も来る、データ基盤の話から KPI設計の話までする

    • 困ったときの駆け込み寺が成立して心理的ハードルが 下がった(はず) • データ民主化を加速させる「分析ワクワクタイム」 - pixiv inside https://inside.pixiv.blog/minamitary/7407 30
  13. 道半ばな部分
 • 例えば: ◦ 中間テーブルの管理 ▪ まだ数が多くないので回っているがここから爆発的に増えることが予想され、そ の対策も不完全 ◦ 依存関係の網羅的な把握と異常検知

    ▪ データ基盤の不具合がプロダクトの機能に影響しうる状況が生まれる ◦ 非プロダクト系チームへの普及 ▪ 人事、経理、総務など。データの性質と置き場が違い難航 36