Slide 1

Slide 1 text

ニフティの データ基盤の話 2022.12.20 会員システムグループ/第三開発チーム 黒羽 孝夫

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

黒羽 孝夫 (くろばね たかお)

Slide 4

Slide 4 text

N1!データアーキテクト https://recruit.nifty.co.jp/interview/kurobane.htm

Slide 5

Slide 5 text

今回は データエンジニアとしての 話

Slide 6

Slide 6 text

目次 1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに

Slide 7

Slide 7 text

1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに

Slide 8

Slide 8 text

データ分析を始めたい データ基盤作りたい お伝えしたいことは・・・ 1つです

Slide 9

Slide 9 text

データ分析を始めるときに は データ基盤を進めるといい よ

Slide 10

Slide 10 text

用途が見えない状態で データ基盤を作るのは良くな い

Slide 11

Slide 11 text

データ基盤は 単体では価値が出しづら い

Slide 12

Slide 12 text

データ分析は 単体で価値は出せるけど 安定や高速化ってしづらい

Slide 13

Slide 13 text

データ分析とデータ基盤は 片方だけではなく、 どちらも考えておくのが良 い

Slide 14

Slide 14 text

ここに行き着いた理由につい て 触れさせてください

Slide 15

Slide 15 text

データを集めること は 目的ではない

Slide 16

Slide 16 text

集めることに 注力したことで 次のようなことが・・・

Slide 17

Slide 17 text

終わらないデータ収 集

Slide 18

Slide 18 text

あったら使う・便利か も (使わない)

Slide 19

Slide 19 text

長い目で見ると大事だけど、 重要でもないものまで 手をつけた

Slide 20

Slide 20 text

結果、活用は進まず 時間も溶けてしまった

Slide 21

Slide 21 text

部分的な成果を追って 失敗したことを共有したかっ た

Slide 22

Slide 22 text

今度こそ ニフティのデータ基盤のご紹 介

Slide 23

Slide 23 text

1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに

Slide 24

Slide 24 text

立ち上げ時

Slide 25

Slide 25 text

データ基盤 立ち上げ前のフ ロー

Slide 26

Slide 26 text

収集するところを 改善

Slide 27

Slide 27 text

ココ

Slide 28

Slide 28 text

このときのポイントは2つ

Slide 29

Slide 29 text

(1)

Slide 30

Slide 30 text

既存資産の Tableauを活かす

Slide 31

Slide 31 text

(2)

Slide 32

Slide 32 text

データ収集は最低限

Slide 33

Slide 33 text

最低限ってどこよ?

Slide 34

Slide 34 text

どの粒度で 取得するか

Slide 35

Slide 35 text

範囲を限定して 立ち上げを優先

Slide 36

Slide 36 text

立ち上げ当初の構成

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

活用の事例も増加、 収集するデータも 順調に増やしていった

Slide 39

Slide 39 text

No content

Slide 40

Slide 40 text

やりたいことが増えれば、 痒いところに手が届かなっ た

Slide 41

Slide 41 text

• データ追加に人手が不足 • テーブル同士の関係性が不明 • 特定のタイミングの スナップショットを取りたい • レスポンス低下 • スロークエリ多発 ︙

Slide 42

Slide 42 text

現在の構成図

Slide 43

Slide 43 text

No content

Slide 44

Slide 44 text

無加工のデータを蓄積

Slide 45

Slide 45 text

External Table定義と データ変換はdbtに集約

Slide 46

Slide 46 text

Reverse ETLは dbtで変換したテーブルを使用

Slide 47

Slide 47 text

レポーティングはTableau アドホックはRedash

Slide 48

Slide 48 text

1. お伝えしたいこと 2. データ基盤の紹介 3. 現在の課題と今後の戦略 4. まとめ

Slide 49

Slide 49 text

• メタデータがスプレッドシート • ワークロード管理が面倒 • BIの中がブラックボックス • データ収集の追加・変更が手間 • データ自体の品質が未計測 ︙

Slide 50

Slide 50 text

• メタデータがスプレッドシート • ワークロード管理が面倒 • BIの中がブラックボックス • データ収集の追加・変更が手間 • データ自体の品質が未計測 ︙

Slide 51

Slide 51 text

メタデータがスプレッドシート テーブルの定義や意味を手動管理していた。 更新が放置されたり、忘れたり、フォーマットを変えられたり、、、 信頼性はとても低い状態になっている。

Slide 52

Slide 52 text

メタデータがスプレッドシート テーブルの定義や意味を手動管理していた。 更新が放置されたり、忘れたり、フォーマットを変えられたり、、、 信頼性はとても低い状態になっている。 → テーブル定義やリネージは、dbtのドキュメント生成で賄えるか検 討。   実行後にドキュメントも合わせて更新させることで、   メタデータの品質を担保する。

Slide 53

Slide 53 text

データ収集の追加・変更が手間 テーブルの追加、変更などの作業、障害時の復旧、 サービス毎にお作法が異なるため学習コスト必要。

Slide 54

Slide 54 text

データ収集の追加・変更が手間 テーブルの追加、変更などの作業、障害時の復旧、 サービス毎にお作法が異なるため学習コスト必要。 → OSSのAirbyteや    SaaSのFivetran, troccoも含めて検討。

Slide 55

Slide 55 text

1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに

Slide 56

Slide 56 text

周辺技術が進歩したことで、 データエンジニアを始める際 に 下駄が履きやすい

Slide 57

Slide 57 text

新しいチャレンジを ニフティではやりやすい環境 が 整備されている

Slide 58

Slide 58 text

ニフティでは、 新しい仲間を募集しています https://recruit.nifty.co.jp/?utm_source=connpass&utm_medium=web&utm_campaign=2022122 0-techtalk

Slide 59

Slide 59 text

THANK YOU

Slide 60

Slide 60 text

QAタイム