Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アイスタイルのデータ契約に向けた取り組み ~今までとこれから~

Avatar for ImaiKomei ImaiKomei
November 20, 2024
930

アイスタイルのデータ契約に向けた取り組み ~今までとこれから~

Avatar for ImaiKomei

ImaiKomei

November 20, 2024
Tweet

Transcript

  1. © istyle Inc. 自己紹介 No.2 
 名前 今井 孔明 株式会社アイスタイル データ分析システム部 

    データエンジニア 旧データ分析基盤から新基盤(統合データ分析基盤) へのデータ移行 水泳、飼い猫を撫でること 所属・職業 現在の業務 趣味
  2. © istyle Inc. アジェンダ No.3 # アジェンダ 内容 1 会社紹介

    アイスタイルとは 2 アイスタイルのデータ基盤について データ基盤の紹介 3 アイスタイルのデータ契約の取組み データ契約の現在位置 失敗事例 4 今後やっていきたいこと データ生成、提供側共通 データ生成側 データ提供側
  3. 
 
 
 アイスタイルとは No.6 コスメの商品データベースとクチコミ検索機能や新商品情報などを備えた 
 日本最大のコスメ・美容の総合サイト 
 日本人女性の2人に1人が利用しています。

    月間 ユニークユーザー 1,800 万人 @cosme クチコミ数 2,000 万件+ @cosme 会員数 850 万人 ブランド数 42,000 ブランド 商品数 370,000 © istyle Inc.
  4. アイスタイルのデータ基盤について No.10 モデリング標準の作成と DWHの構築 データ品質 権限管理・セキュリティ データ収集のクラウド移行 dbtの導入 モデリング標準の作成 データ検証機能の導入

    統合監視の導入 新しい権限管理ルールの 策定 権限管理ツールの実装 Data Observabilityの 導入 データカタログの導入 個人情報のマスキング Airbyteの導入 運用業務の標準化 開発ガイドラインの策定 外部接続性 ReverseETL機能の実装 APIの提供 導入済み・導入中 今後導入を検討 統合データ分析基盤が備える機能 データ品質管理 © istyle Inc. No.10
  5. アイスタイルのデータ基盤について No.11 モデリング標準の作成と DWHの構築 データ品質 権限管理・セキュリティ データ収集のクラウド移行 dbtの導入 モデリング標準の作成 データ検証機能の導入

    統合監視の導入 新しい権限管理ルールの 策定 権限管理ツールの実装 Data Observabilityの 導入 データカタログの導入 個人情報のマスキング Airbyteの導入 運用業務の標準化 開発ガイドラインの策定 外部接続性 ReverseETL機能の実装 APIの提供 導入済み・導入中 今後導入を検討 統合データ分析基盤が備える機能 データ検証機能の導入 データ品質管理 © istyle Inc. No.11
  6. 
 • 現状、「データ契約」というレベルでは取り組めていない。
 • ソースシステム側にヒアリングして、提供されるデータを確認するという内容で進めて いる
 ◦ データ内容のヒアリング
 • ヒアリング内容はスプレッドシートで管理している


    
 
 • 提供側とのデータ契約はまだ着手できていない
 ◦ 将来的に提供側とのデータ契約の取り決めも目指す
 アイスタイルのデータ契約の取り組み データ生成者側 データ生成側 データ提供側 アイスタイルのデータ契約の現在位置 © istyle Inc. No.16
  7. • ヒアリング内容はスプレッドシートで管理 
 • データベース単位、テーブル単位、カラム単位で質問事項を細分化 
 
 • 質問事項(一部抜粋)
 


    
 アイスタイルのデータ契約の取り組み データ生成側 データベース単位 テーブル単位 カラム単位 • 担当部署・メンション先
 • ER図の有無 • 物理削除の有無
 • 更新日時として使用でき るカラムの有無
 • 完全重複するレコードの 有無
 • データのフォーマット ルール
 • 個人情報の有無
 • 空文字の有無
 © istyle Inc. No.17
  8. • スキーマ変更検知
 ◦ データ基盤到着前
 ▪ ソーステーブルのスキーマ情報
 • カラム名
 • データ型


    • データバリデーション
 ◦ メタデータ付与後
 ▪ Nullチェック
 ▪ 区分値チェック
 ▪ 正規表現によるチェック
 • など
 アイスタイルのデータ契約の取り組み データの検証方法 © istyle Inc. No.24
  9. • スプレッドシート管理からYAML管理に移行する
 ◦ YAML移行のメリット
 ▪ 構造化データとして管理できる
 ▪ プログラムとの統合性
 • CI/CDに組み込みやすい


    • データカタログに組込むことで提供側の内容確認が容易になる 
 
 今後やっていきたいこと データ生成側・データ提供側 共通 © istyle Inc. No.26
  10. • Github管理
 ◦ YAML移行したデータ契約のバージョン管理を行う 
 ◦ プルリクエストを用いた承認フローの確立 ▪ データ契約の内容を変更する際、変更側・承認側双方の同意が必要となる 


    ▪ → この承認フローをプルリクエストが担う 
 
 今後やっていきたいこと データ生成側・データ提供側 共通 この箇所を変更したいです (PR送信) OKです! (PR承認) © istyle Inc. No.27
  11. SLOの制定 ◦ データ契約を目指す際、SLOの制定は責任を明確にするために必要となる 
 
 
 今後やっていきたいこと データ生成側・データ提供側 共通 
 •

    スキーマ変更時の通知時間
 • データ鮮度
 • etc…
 
 • データ可用性
 • データ提供頻度
 • etc…
 データ生成側 データ提供側 © istyle Inc. No.28
  12. • 第一に、提供側とのデータ契約に着手して運用まで持っていく
 ◦ 「契約」まで行けなくても、提供内容の取決めを行い、双方同意の状態まで進めたい 
 
 • スプレッドシート→YAMLへの自動変換
 ◦ 提供側はYAMLに慣れていない場合もある

    
 ◦ データ基盤⇔提供側のインターフェースとしてはスプレッドシートを使用し、YAMLに自動変 換するプログラムを使用する
 
 • データカタログを使用して、提供側でも契約内容を容易に確認できるようにする
 
 今後やっていきたいこと データ提供側とのデータ契約 © istyle Inc. No.31