Upgrade to Pro — share decks privately, control downloads, hide ads and more …

イオンが立ち上げる超巨大データ基盤

 イオンが立ち上げる超巨大データ基盤

Ken YAMAZAKI

December 14, 2023
Tweet

More Decks by Ken YAMAZAKI

Other Decks in Technology

Transcript

  1. イオン株式会社 CTO 兼 イオンスマートテクノロジー CTO ⼭﨑 賢 ⾃⼰紹介 ・Yahoo︕ JAPANでエンジニアとしてオークション/ショッピングの開発

    ・リクルートで⼤規模サービス複数の開発責任者 ・アソビューCTO ・トラストバンクCTO ・2024年3⽉から現職 イオンをTechカン パーに化するために ⾊々発信していま す。 ⼭﨑 賢 ( やまけん @yamaken_66 )
  2. 成り⽴ち ! " # $ 歴 史 ' ︑ 合

    併 $ 歴 史 + , - . / 0 連 帯 +
  3. グループ全体のデータを統合していく データ基盤 会計 商品 店舗 顧客 ⾏動 ポイント 天気 出荷・配送

    ⽬的は個⼈の特定ではなく、顧客価値の最⼤化のため。 お客様が望んでいるもの/価値 更に⼼地よい顧客体験 データを⽤いた経営の最適化 こららの実現のためにデータを集約し活⽤することを⽬指しています。
  4. DM ETL ETL ETL Storage API MQ DB link ETL

    ㊙ 超加⼯ プロセス アーキテクチャの触りだけ ( 今後の展開も含む ) Azure Japan Region カスタマーデータプラットフォーム/従業員向けの業務サポートツール/各種ダッシュボード アドホック分析/データサイエンス/Openデータとのコラボレーション/各社とのオーケストレーション
  5. 超巨⼤とは ( 実は最も重要な観点 ) 超巨⼤ ≠ データ量 超巨⼤ = 多様性

    多様性 = 利害関係 多様性 =データ構造 多様性 =連携システム 多様性 = 利⽤者
  6. 最も考えるべきこと1 連携システムの多様性 連携システム。特にデータ源泉は多様。 ・インフラ環境も違う ( オンプレだったり、違うクラウドだったり ) ・稼働しているOSも違う( Windowsだったり、Linuxだったり )

    ・連携⽅式が違う ( APIだったり、TCPだったり、HULFTだったり、CSVだったり) ・連携タイミングが違う ( リアルだったり、バッチだったり ) ・連携鮮度が違う ( 当⽇分だったり、前⽇分だったり ) 多様な要件に合わせに⾏かない ・データ基盤は正しく運⽤し続ける必要がある ・データ源泉の多様性に合わせにいくと、無限に障害点が増える ・標準的な連携パターンを複数⽤意し、その連携パターンのどれかを選択する設計
  7. 複数の組織や事業会社から成り⽴つデータ基盤の場合、利害関係に差異が⽣まれる ・必ずしも⼤規模データを連携する源泉がデータ基盤の最⼤受益者とはならない ・むしろ保有データが少ない組織/事業ほど、⾃分らで補完出来ないデータ基盤にニー ズがある ・Give & Takeにはならない。限りなくGiveのみ。限りなくTakeのみが存在する 個別単位のベネフィットにスコープしない ・組織/事業単位の短期的なROIを考えると破綻する ・もっと⼤きな枠組み。会社全体とかグループとか。全体最適で最上位組織が

    号令を出す ・データが集まるとイノベーションが発⽣する。結果として全体が利 益を享受出来る 最も考えるべきこと3 利害関係の多様性 デ ー タ 基 盤 事業A 事業B うちで既にデータいっぱい持ってるから内部 分析で⼗分なんやけどな・・ うちデータ全然無いから、事業Aのデータ めっちゃ助かるわー デ ー タ 基 盤 事業A 事業B 全体でデータ基盤に集約することを決めよう 結果としてデータが集約されることで、新しい 発明が起き、⾮連続な成⻑が発⽣する
  8. データ基盤の利⽤者は⼈であれ、システムであれ多様となる。 ・アドホックに分析したい ・⾼度なモデルを開発したい ・⾃分⽤のダッシュボードを作りたい ・WEB接客をぶん回したい ニーズは宝。制限しない。 ・利⽤の間⼝は広げる。 ・⾃由度をあげる ・それを可能なシステムを作り上げる ・中央は聖域化し⼲渉しない

    ・中央は使わせない。衛星を作る データ基盤 最も考えるべきこと4 利⽤者の多様性 あれやりたい これやりたい もっともっと カリカリカリカリ データ基盤 あれやりたい これやりたい もっともっと カリカリカリカリ ⾃由 分析 環境 ⾼度分析⽤ リソース BI DB 専⽤ リソース 専⽤ リソース
  9. 考えるべきこと 〜 まとめ 〜 データ基盤 聖域化zone ⾃由に使わせない 堅牢に。安定的に。 多様なニーズを受け⼊れる 必要に応じて仕組みを追加する

    標準化zone 多様性を受け⼊れない ⼀定のルールで厳格化する ETL ETL ETL Storage API MQ DB link ETL 多様的利⽤zone 意志統制zone 個別でなく、組織全体/グループ全体としてデータを集めることを意思決定し推進する