Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実用的なデータ分析基盤について(個人的に思うカジュアルトーク)

K.Mitsuhashi
November 09, 2022

 実用的なデータ分析基盤について(個人的に思うカジュアルトーク)

2022/11/08実施「みんなの考えた最強のデータアーキテクチャ」https://datatech-jp.connpass.com/event/258157/
の発表資料を公開用に修正。

K.Mitsuhashi

November 09, 2022
Tweet

Other Decks in Technology

Transcript

  1. 発表者について 2 ◦業務経験  前職では長年に渡ってアドテクノロジーのデータ処理を担当。  オンプレHadoop, EMR, Redshift, Spark, BigQuery, Beam...etc

    ◦住まい  埼玉県比企郡。森、山、田んぼ緑多い。  近くに吉見百穴という古代の遺跡あり。 ◦趣味  週末ランニング。
  2. 6 • スーパーアプリ = プラットフォーム化し、あらゆるビジネスの起点になるアプリ • ビジネスチャットは、他SaaSと比較して圧倒的に滞在時間が長く、プラットフォーム価値が高い • Chatworkはオープンプラットフォームとして、様々なサービスやユーザー同士の連携が容易 Chatworkはビジネス版スーパーアプリへ

    * 赤字は2022年5月13日時点での提供サービス HR(ヒト) ファイナンス(カネ) CRM/SFA ドキュメント管理 Web会議 カレンダー タスク管理 プロジェクト管理 エンゲージメント 人事評価 採用 クラウド ソーシング 勤怠管理 労務管理 資金調達 (Chatwork 早期入金) (Chatwork 先払い) 助成金 (Chatwork 助成金診断) 決済 請求管理 契約管理 受発注管理 会計 コラボレーション(情報) 電話代行 (Chatwork 電話代行) ストレージ 長期ビジョン
  3. 品質を高く(技術的負債を少なく) 保つ 10 よくありガチ。に流されない仕組みにしていく • 「今は品質を犠牲にしてでも、素早く新機能を出したい」 ◦ ...犠牲にされた品質が手直しされるチャンスは永遠に来ない => 品質を犠牲にしないで素早く出せる仕組みにしていく

    • 「〜までに機能が欲しい、倍の人手で半分の期間で作ってくれ」 ◦ ...半分の期間で出来ない上に、品質も低いモノが出来上がる => 人手を増やさなくても短期間で作れる仕組みにしていく (裏付け) 「質とスピードはトレードオフではない」=t-wada氏、 「LeanとDevOpsの科学」でも調査から同じ結論。
  4. チームの開発モチベーションを高く保つ 11 モチベーションが高い状態 • リリース後不具合が少ない(=事前に問題に対処できている) ◦ 足止め感なくスムーズに開発が進む • 建設的な議論が活発に起こる(=心理的安全性が高い、自己組織化) ◦

    重箱のスミをつつくような感じではなく 技術的な解決 システム運用アンチパターンを無くす(少なくしていく)、 積極的に情報共有して、情報格差を作らない(ストック型のシステムを活用)
  5. これまで 13 13 • データソースに応じて個別に ETL実装 • 重い処理では結果書き出しに数時間かかる処理 も出てきた •

    属人化された(特定の人しかわからない )ETL データ取得 多様な可視化要望 解消しないと支障がある問題 (クリティカルボトルネック ) 解消できなくとも運用はできる 解消に向けて収束できるボトルネック 解消できるボトルネック 多様な データソース データ分析 データソース(データ連携)が 増える 処理のデータ量が 加速度的に増える 分析・可視要望が 加速度的に増える 都度の個別対応 データ取得 • コンピュートリソース不足 • データを貯め続けられない (ストレージ不足) • 情報保護のために、多数の中間テーブルが必 要 • リソース不足回避のための実装が必要 リソース不足が顕著 DWH(処理能力) • バッチ処理が終わらず、データが見れない • エンジニア不足による分析実装の遅延 • クエリ実行時間が不安定 データ同期、DWH制 約のダブルパンチ 分析・可視化対応
  6. これから 14 • MDS(モダンデータスタック )を活用した開発で実用的なデータ分析基盤の形へ刷新 データ取得 多様な データソース 多様な可視化要望 データ分析

    • データソースに応じて個別に ETL実装 • 重い処理では結果書き出しに数時間かかる処理 も出てきた • 属人化された(特定の人しかわからない )ETL 解消しないと支障がある問題 (クリティカルボトルネック ) 解消できなくとも運用はできる 解消に向けて収束できるボトルネック 解消できるボトルネック 個別対応不要 (周辺エコシステム利用) データ取得 • コンピュートリソース不足 • データを貯め続けられない (ストレージ不足) • 情報保護のために、多数の中間テーブルが必 要 • リソース不足回避のための実装が必要 リソース不足が解消 DWH(処理能力) • バッチ処理が終わらず、データが見れない • エンジニア不足による分析実装の遅延 • クエリ実行時間が不安定 DWH起因の制約 なくなる 分析・可視化対応
  7. MDS(モダンデータスタック)のポイント 15 • MDS活用することで実用性が確保できるように。 ◦ 品質を高く(技術的負債を少なく) 保つ ◦ チームの開発モチベーションを高く保つ MDSツール

    • Fivetran:Salesforce, Market...等からのデータ取り込み • Snowflake:DWH • dbt:データモデリング(=SQLフレームワーク) • Hightouch:Salesforce, Market...等へのデータ書き出し
  8. 加えて、チーム内で好評な取り組み(ふりかえり会のKPTより) 18 • 話合う機会の確保 ◦ 時間が限られた業務委託者中心だけど、 週一定例、1on1、リリース後の振り返り会を必ず実施する • こまめにdocs作成 ◦

    ステークホルダーとのmtgや、実装前の設計でこまめにdocs化していく • 少数精鋭でサクッと開発が進むスピード感 ◦ 勘所が伝わる経験者が集っており、MDSの活用、運用アンチパターンの排 除も成功してスピード感ある開発が進む
  9. まとめ。実用的なデータ分析基盤開発 19 • さまざまな要求に対して素早く対応できる ◦ 品質を高く(技術的負債を少なく) 保つ ◦ チームの開発モチベーションを高く保つ これらを支援する解決手段

    ◦ MDS(モダンデータスタック) ▪ 品質を高く(技術的負債を少なく) 保つ ◦ DevOps ▪ IaC化、システム運用アンチパターンの排除により開発がスムーズに進む。 ◦ 情報共有 ▪ ストック型のツールで情報格差を生まないよう、こまめに共有していく。