Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion

ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion

# みんなの考えた最強のデータアーキテクチャ

https://datatech-jp.connpass.com/event/258157/

## イベント説明

datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました!
たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。
今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。
5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。
ぜひ奮ってご参加ください!

## 発表概要

広告配信システムで発生する大量で多種多様のデータ。そして、人間の多種多様なデータへのニーズに耐えるために至ったデータアーキテクチャについてお話できればと思います。

Jumpei Chikamori

November 02, 2022
Tweet

More Decks by Jumpei Chikamori

Other Decks in Technology

Transcript

  1. レポーティング基盤 DSPは様々なイベントが発生する。 それらのレポーティングだけで、 人々は疲弊していた。 その疲弊を無くすために、 レポーティング基盤が構築された。 元あったデータ分析基盤は、 分析のために作られた物であり、 メンタルモデルが合わないことや、 BigQueryよりも、要件にマッチした

    AWS Redshift(以下Redshift)を 採用した。 レポーティングとは何か?については、 過去に発表してるので、興味あればどうぞ。 speakerdeck.com, まだレポーティング業務で疲弊してるの? , 2022/11/07, https://speakerdeck.com/pei0804/aws-media-seminar-2022-q1
  2. dbt ETLがやっていること • やっていること ◦ ログを1時間ごとに、Snowflake External Stage(以下External Stage) からデータを取り出して、Snowflakeにロードする。

    • 特徴 ◦ 冪等性。 ▪ 問題が起きたら再実行するだけで良い。 ◦ データの変換処理は一切しない。 ▪ メタデータカラムだけの追加はしている。 • この時点で間違えた変換があると、巻き戻しが大変なので、 変換しないことで、問題発生ポイントをSnowflake内に、 完結させることが狙い。
  3. dbt + External Stage以外に検討した方法 • COPY句 ◦ COPYは、dbtで素直に発行できるクエリではなかった。 カスタムマテリアライゼーションとかで、頑張れば出来るけど・・・ •

    Snowflake External Table ◦ 初期作成時にパーティションが多すぎてエラーになった。 都度パーティション作るなり、頑張れば出来るけど、頑張りたくない。 • Snowflake Snowpipe(以下Snowpipe) ◦ パフォーマンス面は問題なかったけど、コスパが合わなかった。 オブジェクト数課金なので、使うなら、ログの数を減らす必要がある。 それなりに様々なサーバーがあるので、そこから頑張るのは、コスパ悪い。