Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニアリアルタイムのデータ基盤を構築して得られたものと課題

j-chikushi
November 24, 2024
1.6k

 ニアリアルタイムのデータ基盤を構築して得られたものと課題

j-chikushi

November 24, 2024
Tweet

Transcript

  1. 自己紹介 ❏ chikushi ❏ 略歴 ❏ 10年くらいフリーランス、前職AIベンチャー ❏ その後2023/4にタイミーにジョイン ❏

    現在、タイミーのデータエンジニアリング部 DREチームで データ基盤構築をしてます。 ❏ 福岡在住。趣味は、お酒🍺とゲーム🎮と少し自転車󰣤な ど
  2. タイミーの実績 スキマ バイト No.1 3 累計求人案件数 ・ダウンロード数 ※1 ※2 導入事業者数

    136,000企業 ワーカー数 900万人 ※1 ※2 [調査方法]インターネット調査 [調査期間]2024 年 2 月 9 日~11 日 [調査概要]スキマバイトアプリサービスの実態調査 [調査委託先]株式会社マクロミル ※3 2024年9月時点 ※4 2024年9月時点 ※4 ※3
  3. 4

  4. データ品質とは 出典:DAMA-DMBOK 完全性 ❏ 必要なデータが全て存在するかどうかを意味する ❏ データソースのデータが漏れなく連携されていること 適時性 ❏ データが使用したい時に使用できる性質

    ❏ タイミーではデータが生成されてから使用可能になるまでの時間として定義し ている 整合性 ❏ 参照整合性(両方のオブジェクトに含まれる参照キーを介した データオブジェクト間の一貫性) ・・・
  5. ❏ 基本的なDDL・DMLを追跡して、ニアリアルタイムで連 携してくれる ❏ truncateなど一部追跡してくれないものもあり ❏ at least onceを保証 ❏

    DataSourceへのConnectionエラーが発生しても、自動修 復し、連携が途切れたところから再開してくれる ❏ バックフィルを実施することで、全データを連携しなおす ことができる Datastreamの機能説明
  6. 結果ニアリアルタイムデータ基盤の品質は... 完全性 ❏ Datastreamがat least onceを保証 ❏ 後段で重複排除することで、データの完全性を保証 適時性 ❏

    CDCによるデータ転送により15分前後まで短縮 整合性 ❏ 整合性がほぼ取れるようになった めでたし、めでたし☺
  7. 結果ニアリアルタイムデータ基盤の品質は... 完全性 ❏ Datastreamがat least onceを保証 ❏ 後段で重複排除することで、データの完全性を保証 適時性 ❏

    CDCによるデータ転送により15分前後まで短縮 整合性 ❏ 整合性がほぼ取れるようになった と思っていたが...
  8. 長期間運用してきた結果 ニアリアルタイムデータ基盤の品質は... 完全性 ❏ Datastreamがat least onceを保証 ❏ 後段で重複排除することで、データの完全性を保証 ❏

    保証してくれてませんでした ❏ 完全性が保証されてないかを確認することも難しい 適時性 ❏ CDCによるデータ転送により15分前後まで短縮 ❏ 非常に不安定で状況により数時間かかる 整合性 ❏ 整合性がほぼ取れるようになった ❏ ただ、不安定な中この品質も下がっている可能性あり 完全性に関しては、検知も難しくなり、 以前より悪化したとも言える状況となった ?