×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
ニフティの データ基盤の話 2022.12.20 会員システムグループ/第三開発チーム 黒羽 孝夫
Slide 2
Slide 2 text
自己紹介
Slide 3
Slide 3 text
黒羽 孝夫 (くろばね たかお)
Slide 4
Slide 4 text
N1!データアーキテクト https://recruit.nifty.co.jp/interview/kurobane.htm
Slide 5
Slide 5 text
今回は データエンジニアとしての 話
Slide 6
Slide 6 text
目次 1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに
Slide 7
Slide 7 text
1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに
Slide 8
Slide 8 text
データ分析を始めたい データ基盤作りたい お伝えしたいことは・・・ 1つです
Slide 9
Slide 9 text
データ分析を始めるときに は データ基盤を進めるといい よ
Slide 10
Slide 10 text
用途が見えない状態で データ基盤を作るのは良くな い
Slide 11
Slide 11 text
データ基盤は 単体では価値が出しづら い
Slide 12
Slide 12 text
データ分析は 単体で価値は出せるけど 安定や高速化ってしづらい
Slide 13
Slide 13 text
データ分析とデータ基盤は 片方だけではなく、 どちらも考えておくのが良 い
Slide 14
Slide 14 text
ここに行き着いた理由につい て 触れさせてください
Slide 15
Slide 15 text
データを集めること は 目的ではない
Slide 16
Slide 16 text
集めることに 注力したことで 次のようなことが・・・
Slide 17
Slide 17 text
終わらないデータ収 集
Slide 18
Slide 18 text
あったら使う・便利か も (使わない)
Slide 19
Slide 19 text
長い目で見ると大事だけど、 重要でもないものまで 手をつけた
Slide 20
Slide 20 text
結果、活用は進まず 時間も溶けてしまった
Slide 21
Slide 21 text
部分的な成果を追って 失敗したことを共有したかっ た
Slide 22
Slide 22 text
今度こそ ニフティのデータ基盤のご紹 介
Slide 23
Slide 23 text
1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに
Slide 24
Slide 24 text
立ち上げ時
Slide 25
Slide 25 text
データ基盤 立ち上げ前のフ ロー
Slide 26
Slide 26 text
収集するところを 改善
Slide 27
Slide 27 text
ココ
Slide 28
Slide 28 text
このときのポイントは2つ
Slide 29
Slide 29 text
(1)
Slide 30
Slide 30 text
既存資産の Tableauを活かす
Slide 31
Slide 31 text
(2)
Slide 32
Slide 32 text
データ収集は最低限
Slide 33
Slide 33 text
最低限ってどこよ?
Slide 34
Slide 34 text
どの粒度で 取得するか
Slide 35
Slide 35 text
範囲を限定して 立ち上げを優先
Slide 36
Slide 36 text
立ち上げ当初の構成
Slide 37
Slide 37 text
No content
Slide 38
Slide 38 text
活用の事例も増加、 収集するデータも 順調に増やしていった
Slide 39
Slide 39 text
No content
Slide 40
Slide 40 text
やりたいことが増えれば、 痒いところに手が届かなっ た
Slide 41
Slide 41 text
• データ追加に人手が不足 • テーブル同士の関係性が不明 • 特定のタイミングの スナップショットを取りたい • レスポンス低下 • スロークエリ多発 ︙
Slide 42
Slide 42 text
現在の構成図
Slide 43
Slide 43 text
No content
Slide 44
Slide 44 text
無加工のデータを蓄積
Slide 45
Slide 45 text
External Table定義と データ変換はdbtに集約
Slide 46
Slide 46 text
Reverse ETLは dbtで変換したテーブルを使用
Slide 47
Slide 47 text
レポーティングはTableau アドホックはRedash
Slide 48
Slide 48 text
1. お伝えしたいこと 2. データ基盤の紹介 3. 現在の課題と今後の戦略 4. まとめ
Slide 49
Slide 49 text
• メタデータがスプレッドシート • ワークロード管理が面倒 • BIの中がブラックボックス • データ収集の追加・変更が手間 • データ自体の品質が未計測 ︙
Slide 50
Slide 50 text
• メタデータがスプレッドシート • ワークロード管理が面倒 • BIの中がブラックボックス • データ収集の追加・変更が手間 • データ自体の品質が未計測 ︙
Slide 51
Slide 51 text
メタデータがスプレッドシート テーブルの定義や意味を手動管理していた。 更新が放置されたり、忘れたり、フォーマットを変えられたり、、、 信頼性はとても低い状態になっている。
Slide 52
Slide 52 text
メタデータがスプレッドシート テーブルの定義や意味を手動管理していた。 更新が放置されたり、忘れたり、フォーマットを変えられたり、、、 信頼性はとても低い状態になっている。 → テーブル定義やリネージは、dbtのドキュメント生成で賄えるか検 討。 実行後にドキュメントも合わせて更新させることで、 メタデータの品質を担保する。
Slide 53
Slide 53 text
データ収集の追加・変更が手間 テーブルの追加、変更などの作業、障害時の復旧、 サービス毎にお作法が異なるため学習コスト必要。
Slide 54
Slide 54 text
データ収集の追加・変更が手間 テーブルの追加、変更などの作業、障害時の復旧、 サービス毎にお作法が異なるため学習コスト必要。 → OSSのAirbyteや SaaSのFivetran, troccoも含めて検討。
Slide 55
Slide 55 text
1. お伝えしたいこと 2. データ基盤の紹介 3. 抱えてる課題と今後の戦略 4. さいごに
Slide 56
Slide 56 text
周辺技術が進歩したことで、 データエンジニアを始める際 に 下駄が履きやすい
Slide 57
Slide 57 text
新しいチャレンジを ニフティではやりやすい環境 が 整備されている
Slide 58
Slide 58 text
ニフティでは、 新しい仲間を募集しています https://recruit.nifty.co.jp/?utm_source=connpass&utm_medium=web&utm_campaign=2022122 0-techtalk
Slide 59
Slide 59 text
THANK YOU
Slide 60
Slide 60 text
QAタイム