Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
データカタログ運用物語 〜令和6年夏の理想と現実〜 Cloud Operator Days Tokyo 2024 kuroda naoki
Slide 2
Slide 2 text
自己紹介 - 名前:kuroda naoki - 所属:株式会社サイバーエージェン トAI事業本部 プリズムパートナーカンパニー kuro @knkurokuro7
Slide 3
Slide 3 text
データカタログとは データカタログとは、データレイクなどからユーザーが取得したいデータを容易に取得できるよう にするために管理されているメタデータのカタログ。 引用: https://www.techtarge t.com/searchdataman agement/definition/da ta-catalog
Slide 4
Slide 4 text
データカタログとは - DataHubという LinkedIn製のOSSをホ スティング。 - EKS,Helm,OpenSear ch,MSK(Kafka),RDS を使ってホスティングし て、CI/CDには、 GitHub Actions ,Terraform等
Slide 5
Slide 5 text
データカタログとは メタデータを検索できる
Slide 6
Slide 6 text
データカタログで解決したい課題 - 散乱するメタデータ - 誰かが知っているテーブルの意味 - 使われているかどうかわからないカラム - データ抽出の際のコミュニケーションコスト - DSはもちろんビジネスサイド、エンジニアの間でデータの知識に差 がある。
Slide 7
Slide 7 text
理想の形 1. データカタログをまずは見にいく習慣がある。 2. どこに何のデータがあるかわかる。 3. 過度なコミュニケーションコストがかかることなく、データに関する意思決定が行わ れる。 →まずはここさえ見ればデータのことはなんでもわかる形を目指す
Slide 8
Slide 8 text
当初の目論見 まずは使われることを目指して、 1. 明確なユースケース 2. メタデータが更新され続けていること の2つの要素があればなんとかなりそう?
Slide 9
Slide 9 text
1. 明確なユースケース 1.データ抽出の際にどのカラムを使えばいいのかを把握できるようなカタログとして使う。 - よく使うテーブルやカラムの中身がすぐにわかる。 - 同じような名前のカラムがあるときにその違いがわかる。 2. エンジニアがシステム開発の際にカラム同士の関係や使われ方を理解するために使う。 - mysqlやdynamodb,snowflakeのカラムの意味や関係性を把握する。 3. 新しい人が入ってきた時にデータ理解のオンボーディング資料として使う。 4. あるデータに対して属人化しそうな特殊な意味が追加されたときにメモとして使う。
Slide 10
Slide 10 text
2. データが更新され続けていること 1. メタデータを人が更新するタイミングがあること。 - 作業のついでにメタデータを書き込んでもらう。 - 例えば)テーブルAは古いので2024年6月時点で使っていませ ん。カラムBにはこの抽出で使うデータが入ってます。 2. メタデータがシステムが更新するタイミングがあること。 - システム的に毎日自動連携する。 - 例えば)Snowflakeのカラム情報をGitHub Actions で連携す る。
Slide 11
Slide 11 text
1. 明確なユースケース はある程度固まってるから、 2. メタデータが更新され続けていること に注力しよう!
Slide 12
Slide 12 text
施策①連携できるメタデータの幅を増やす - DataHubのメタデータ自動連携をGithubActionsで毎日実行。 - Snowflake,dbt,MySQL,DynamoDB、Business Glossary(DataHubでの用語集 みたいな感じのもの、カラムやテーブルに紐付けられる。)等を連携する。
Slide 13
Slide 13 text
施策②散らばったテーブルメタデータを取り込む - 外部から連携されるSnowflakeテーブルごとのExcelカラム情報がGoogleDrive だったり、Slackだったり、個人のローカルだったりに散らばっていた。 - それを、CSVに変換して、DataHubのCSV Ingestionという機能で連携。
Slide 14
Slide 14 text
これで使ってもらえる!→実際データ抽出の際に参照してもらった り。。。
Slide 15
Slide 15 text
それでも残る課題 最初は物珍しさと集約したテーブルメタデータのため多少使われていた が、徐々に使われなくなりつつある。。
Slide 16
Slide 16 text
それでも残る課題 実際にヒアリングしてみると、想定していたユースケースでは使い慣れた他のツールで 代替されている。 →定期的に必要な業務に組み込む =データカタログがないと成り立たない業務フロー
Slide 17
Slide 17 text
これからやりたいこと - データの鮮度をデータワークフローの中で管理する。 - 毎日データを連携するStep FunctionsでのETLフローがあり、 その中でクエリの履歴やカラムの更新情報を取得して、 DataHub APIで「deprecated」 tagを付与する。
Slide 18
Slide 18 text
これからやりたいこと
Slide 19
Slide 19 text
これからやりたいこと - 今まであまりできていなかった「不要なテーブルの棚卸し」という業務に組 み込むことでよりデータカタログを見に行く機会が増えるのではないか。 - ここまでを実際にやりたかったのですが、間に合わなかったので、またどこ かでお話しできれば。。
Slide 20
Slide 20 text
まとめ - ユースケースを定義して周知するだけではツールは使ってもらえな い。 - 他のツールでは代替できないような用途に使えるように、業務フ ローに組み込む。 - そもそも既にデータカタログ起点で、「どこで使えるのか」を考えてし まっている。→心底必要でないなら作らない方が良かったのかもし れない。