Slide 1

Slide 1 text

モダンデータスタック最前線 〜データオブザーバビリティ〜 2023/08 アライアンス事業部 紗紗

Slide 2

Slide 2 text

自己紹介 名 前:紗紗 ブログ:https://dev.classmethod.jp/author/shasha 役 職:アナリティクスコンサルタント 最近見てよかった映画:キアロスタミ監督作品 アマプラで数作品公開されているので、是非。どういう感性でそんなおしゃれな展開が 思い浮かぶの?というシーンに心を掴まれました。 好きなSixTONESの曲:マスカラ、Bella、Gum Tape、Curtain Call、You & I、Call me、 Hello、love u…、Cassette Tape、人人人、Ordinary Hero

Slide 3

Slide 3 text

お話しすること ・データオブザーバビリティとは? ・データオブザーバビリティって必要? ・データオブザーバビリティの実現方法 ・Monte Carlo デモ

Slide 4

Slide 4 text

Monte Carloのブログを参考にしているのである! 今日のお話は...

Slide 5

Slide 5 text

140+

Slide 6

Slide 6 text

前提条件 https://dev.classmethod.jp/articles/202007-devio2020-monitoring-1-2/ https://sre.google/#sre

Slide 7

Slide 7 text

データオブザーバビリティとは?

Slide 8

Slide 8 text

データ分析基盤の可観測性のことである! データオブザーバビリティとは?

Slide 9

Slide 9 text

 ソフトウェア開発で用いられている可観測性(Observability)  をデータエンジニアリングにも適用したものである! データ可観測性とは?

Slide 10

Slide 10 text

観測できるようにすることである! オブザーバビリティ(可観測性)とは?

Slide 11

Slide 11 text

おおっと、問題の核心を突いてきたにゃんね。可観測性(Observability)が今、導入されている背景を説明す るにゃん。 1. マイクロサービス化によるシステムの複雑性増大にゃん:現代のシステムはマイクロサービス化し  たり、クラウドベースのリソースを使ったりすることで、以前よりも格段に複雑になったにゃん。  そのため、全部の動きを見るのが難しくなったんだにゃん。そこで、システム全体の動きを把握  できる可観測性が重要となったわけだにゃん。 2. CI/CD(Continuous Integration / Continuous Delivery)とDevOpsの普及にゃん:開発速度を  上げるための取り組みとして、CI/CDやDevOpsが広く取り入れられているにゃん。しかし、高速化  する一方で、問題が発生したときに原因を特定するのが難しくなったにゃん。そこで、問題の早期  発見・解決を可能にする可観測性が求められるようになったのだにゃん。 3. ユーザ体験への注目にゃん:ユーザー体験(UX)が重視されるようになり、サービスのパフォー  マンスや可用性が直接ビジネスに影響を与えるようになったにゃん。そのため、システムの正常性  を維持するための可観測性がますます重要になってきたんだにゃん。 以上のような背景から、システムの負荷に対処する方法として可観測性の導入が広まっているんだにゃん。 なぜオブザーバビリティ? 可観測性が導入 されている 背景を教えて。

Slide 12

Slide 12 text

オブザーバビリティ(可観測性)とは? Satish Chandra Gupta - Scalable Efficient Big Data Pipeline Architecture 中身わからん。 一つの画面にまと めたいのである。

Slide 13

Slide 13 text

観測できるようにすることである! オブザーバビリティ(可観測性)とは?

Slide 14

Slide 14 text

可視化することである! オブザーバビリティ(可観測性)とは?

Slide 15

Slide 15 text

何を? データオブザーバビリティは可視化する

Slide 16

Slide 16 text

● 新鮮さ(Freshness) ● 品質(Quality) ● 量(Volume) ● スキーマ(Schema) ● リネージ(Lineage) データオブザーバビリティ 5つの柱

Slide 17

Slide 17 text

● テーブルのデータはきちんと更新されているのか? ● 最後の更新はいつだったか? ● 更新の周期は? 新鮮さ(Freshness)

Slide 18

Slide 18 text

● NULLの割合 ● ユニークの割合 ● データが許容範囲内か? 品質(Quality)

Slide 19

Slide 19 text

● どれだけ行が増えているか? 異常なほど増えていないか? 異常なほど減っていないか? 量(Volume)

Slide 20

Slide 20 text

● データの構成(スキーマ)に変更はないか? スキーマ(Schema)

Slide 21

Slide 21 text

データに破損が生じた場合に、 ● 上流のどのソースからのデータなのか? ● 下流のどのユーザーに影響があるのか? をすぐに特定できる。 リネージ(Lineage)

Slide 22

Slide 22 text

データオブザーバビリティって必要?

Slide 23

Slide 23 text

In other words, when no data is better than bad data. ごみデータなんか存在しちゃいけねーんだよ。                                            意訳() :ワイ MCの名言 *1

Slide 24

Slide 24 text

データがごみである時間 データダウンタイム

Slide 25

Slide 25 text

取り込みアプリのスキーマが変わってるのに気づかなくて、 いつの間にかNULLだらけのテーブルを数ヶ月飼っていた こんなことないだろうか?

Slide 26

Slide 26 text

手作業で実行してたワークフロー 前任者が辞めちゃって半年間ずっと止まってた こんなことないだろうか?

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

データエンジニアの使命 データダウンタイムを最小限に抑えることこそ

Slide 30

Slide 30 text

データエンジニアの使命 データダウンタイムを最小限に抑えることこそ

Slide 31

Slide 31 text

データエンジニアの使命

Slide 32

Slide 32 text

テストや監視(モニタリング)じゃぁダメなのか? データオブザーバビリティの必要性

Slide 33

Slide 33 text

vs テスト

Slide 34

Slide 34 text

無料 テストの利点

Slide 35

Slide 35 text

無料より高いものはない テストの欠点

Slide 36

Slide 36 text

モンカル調べ テストの限界 未知の未知 既知の未知: テストで事前に 問題を検知できる *2 80% 20%

Slide 37

Slide 37 text

今の、これからの、これまでのテスト                                       こぉーーーんなに                       大きいのが             こんなのと、      こんなのと、 +おメンテ

Slide 38

Slide 38 text

vs モニタリング

Slide 39

Slide 39 text

テストよりは優秀 モニタリングの利点

Slide 40

Slide 40 text

Monte Carlo blog - Beyond Monitoring: The Rise of ML Observability モニタリングの限界

Slide 41

Slide 41 text

データパイプライン全体を観測して、 機械学習でテーブルの更新パターン (いつ?頻度は?どのくらいの行が増える?)を学習 データの異常をプロアクティブに 検出、解決、予防する! データオブザーバビリティなら...

Slide 42

Slide 42 text

データパイプライン全体を観測しているから、 インシデントが発生した時でも リネージから上流のどのテーブルが関係しているのかや、 下流のどのダッシュボードを使っている ユーザーに影響が出るのかも アラートを出してくれる データオブザーバビリティなら...

Slide 43

Slide 43 text

会社の規模 データ分析の成熟度 事業におけるデータの重要度 に応じて適切なソリューションを! データオブザーバビリティの必要性

Slide 44

Slide 44 text

データオブザーバビリティの実現方法

Slide 45

Slide 45 text

データ信頼性エンジニアリングを取り入れる どのように実現する?

Slide 46

Slide 46 text

Site Reliability Engineering(SRE)を データエンジニアリングに適用したもの データ信頼性エンジニアリングとは?

Slide 47

Slide 47 text

データの品質を どんな時でもどんな状況でも維持すること データの信頼性 (Data Reliability)とは?

Slide 48

Slide 48 text

午前9時:データの品質に問題ありませんでした! 午後4時:今朝9時の時点では問題ありませんでした! データの信頼性 (Data Reliability)とは?

Slide 49

Slide 49 text

ん?今はどうなの? (午後4時の気持ち) データの信頼性 (Data Reliability)とは?

Slide 50

Slide 50 text

詳しく説明します もうちょっと

Slide 51

Slide 51 text

修正・更新が絶えないデータパイプラインで、 定められた期間内に 期待される データの品質・サービスレベルを 担保すること データの信頼性 (Data Reliability)とは?

Slide 52

Slide 52 text

再掲:データパイプライン Satish Chandra Gupta - Scalable Efficient Big Data Pipeline Architecture データパイプラインの どっかしらで常に変更 かかってるよね

Slide 53

Slide 53 text

午前9時:データの品質に問題ありません! 午後4時:データの品質に問題ありません! データの信頼性 (Data Reliability)とは?

Slide 54

Slide 54 text

半年後... データの信頼性 (Data Reliability)とは?

Slide 55

Slide 55 text

データの品質に問題ありません! データの信頼性 (Data Reliability)とは?

Slide 56

Slide 56 text

3年後... データの信頼性 (Data Reliability)とは?

Slide 57

Slide 57 text

データの品質に問題ありません! データの信頼性 (Data Reliability)とは?

Slide 58

Slide 58 text

修正・更新が絶えないデータパイプラインで、 定められた期間内に 期待される データの品質・サービスレベルを 担保すること データの信頼性 (Data Reliability)とは?

Slide 59

Slide 59 text

SLOを決めて、 それが守られているかを チェックできる指標である SLIを決める データ信頼性の実現方法は?

Slide 60

Slide 60 text

Service Level Objectives(SLO): サービスレベル目標 Service Level Indicator(SLI): サービスレベル指標 SLOとSLI

Slide 61

Slide 61 text

どうやって決めればいい? SLIは

Slide 62

Slide 62 text

● 新鮮さ(Freshness) ● 品質(Quality) ● 量(Volume) ● スキーマ(Schema) ● リネージ(Lineage) データオブザーバビリティ 5つの柱

Slide 63

Slide 63 text

かけられるコストに応じて定める SLOはどうやって決めればいい?

Slide 64

Slide 64 text

● データの所有者を決める (組織/ドメイン・プロジェクト/テーブル) ● ドキュメント化 ● インシデント後の調査体制 組織体制を整えることも大事! その他にも・・・

Slide 65

Slide 65 text

Monte Carlo demo

Slide 66

Slide 66 text

Monte Carloに関しては何もしてない まとめ

Slide 67

Slide 67 text

ご清聴ありがとうございました! 終わり

Slide 68

Slide 68 text

1. Data Testing vs. Data Quality Monitoring vs. Data Observability: What’s Right for Your Team? https://www.montecarlodata.com/data-testing-vs-data-quality-monitoring-vs-data-observability-whats-right-for-y our-team/ 2. Data Observability vs. Data Testing: Everything You Need to Know  https://www.montecarlodata.com/blog-data-observability-vs-data-testing-everything-you-need-to-know/ 出典