ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion

ぼくのかんがえる最高のデータ分析基盤データ分析基盤の構築事例みんなの考えた最強のデータアーキテクチャ 2022/11/08

なぜこのような設計になったか、泥臭い背景とセットで話そうと思います。

誰のためのデータ基盤主に機械学習チームが使う。多種多様で大量の広告ログを、機械学習の学習データとして使いたい。また、分析する時にも簡単にクエリしたい！弊社の機械学習チームについては、過去に話をしたスライドがあるので、興味あればどうぞ。 speakerdeck.com, データをモデリングしていたら、組織をモデリングし始めた話
, 2022/11/07, speakerdeck.com/pei0804/engineers-in-carta-vol3-data-engineer

アドテクおける機械学習の活用例 Demand Side Platform(以下DSP)は、Supply Side Platform(以下SSP)と OpenRTB（≒プロトコル）を使って、オークションを行っている。 ※弊社はDSPを作っている。 SSP「こういうユーザー来たけど、何円で広告出したい？」 DSP「んーーーー。◯円！！！」
「んーーーー」って考えるところに、機械学習を使っている部分が入ってきます。 ※時間の都合上、かなり割愛しています。

多種多様なデータ OpenRTBとは、オークションを、このフォーマットで、やりましょうを決めたものです。こういうユーザー来たけど広告枠買う？は、でっかいJSONで表現されています。 OpenRTBの仕様については、インターネットで公開されています。 www.iab.com/, OpenRTB
Spec v2.5, 2022/11/07, www.iab.com/wp-content/uploads/ 2016/03/OpenRTB-API-Specification-Version-2-5-FINAL.pdf

でっかいJSONのスクリーンショットです。

この一つひとつが、分析で使う値になりえるので、扱いが面倒。

広告はそれなりに、ログが大量に発生します。 1種類の使いたいログだけでも、 day8億レコード程度。アドテクにおいてのログは、お金に直結する存在なので、丁寧に扱う必要があります。大量データアドテクのログについては、過去に発表してるので、興味あればどうぞ。
speakerdeck.com, ぼくのかんがえる最高のレポーティング基盤 , 2022/11/07, speakerdeck.com/pei0804/ hokufalsekankaeruzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian-analytics- modernization

大変なのは分かった！！いい感じにしよう！！！！

という話をする予定でした。

最終的に、全社（Zucks）向けのデータ基盤を目指すことになりました。

ぼくのかんがえる最高のデータ分析基盤データ分析基盤の構築事例みんなの考えた最強のデータアーキテクチャ 2022/11/08

話すこと • データ基盤を作る時の技術選定や設計の考え方。

話さないこと • データモデリング。 ◦ いくらでも話せますけど、時間の都合上無理でした。

アジェンダ • 自己紹介 • 背景 • 出来上がったもの

自己紹介ぺい @pei0804 近森淳平(チカモリ　ジュンペイ) CARTA HOLDINGS （旧VOYAGE GROUP） Zucks システム局
エンジニア

techblog.cartaholdings.co.jp, The Zen of Zucks, 2022/06/10, https://techblog.cartaholdings.co.jp/entry/the-zen-of-zucks

別の事に当たる2つのデータ基盤があった。

データ分析基盤とレポーティング基盤

データ分析基盤データ分析基盤が作られる前から、アプリケーションはAWSにあり、そこから生まれるログは、全てAmazon S3(以下S3)に上がっていた。サービスが成長する過程で、データの分析をしたいニーズが生まれ、 2015年頃から、Google BigQuery(以下BigQuery)をベースとしたデータ分析基盤が作られた。 BigQueryはGoogle Cloud
Storage(以下GCS)に置いたデータしか、取り込めないため、日々発生するログをS3からGCSへ転送する必要があった。この仕組みが簡単ではなく、一定の属人性が発生していた。

レポーティング基盤 DSPは様々なイベントが発生する。それらのレポーティングだけで、人々は疲弊していた。その疲弊を無くすために、レポーティング基盤が構築された。元あったデータ分析基盤は、分析のために作られた物であり、メンタルモデルが合わないことや、 BigQueryよりも、要件にマッチした
AWS Redshift(以下Redshift)を採用した。レポーティングとは何か？については、過去に発表してるので、興味あればどうぞ。 speakerdeck.com, まだレポーティング業務で疲弊してるの？ , 2022/11/07, https://speakerdeck.com/pei0804/aws-media-seminar-2022-q1

分散によるデメリットそれぞれの基盤は、当初は適材適所に機能をしていた。しかし、分散のデメリットも見え始めた。例えば、データウェアハウス(以下DWH)の片方にしか入ってないデータ。片方にしか適用されていないロジック。片方にしかない仕組みなど。一方で、どちらも同じ品質や機能性を維持すると、コストが倍になるので、生産性を上げづらい構造になってしまっていた。

一つのDWHに出来ないか？

BigQuery、Redshiftの両方の強みを持ったDWH 事前にどんなクエリが発行されるか予測がつきにくい分析は、 BigQueryのようなクエリパワーがほしい。しかし、データ運搬業が発生するため、簡単にログをロード出来ない。一方で、Redshiftは、簡単にログをロード出来て、定常クエリには強い。だけど、事前に必要なパワーが予測できない分析には、心もとない。両方のいいとこ取り出来るDWHはないのだろうか・・・。そこで、最近気になっていたSnowﬂakeを調べたところ、アーキテクチャ的にいける気がしてきたので、詳しい人に聞いてみた。

ある夜の雑談「Snowﬂakeでいけそうです？」「絶対それSnowﬂakeでいけるよ！」「なるほどおおおおおお」 ※多少文脈が省かれています。

PoCした結果、圧倒的だったので、 Snowﬂakeを採用しました。

SnowﬂakeがRedshiftより優れてるところコンピューティングとストレージが、完全に分離している。例えば、クエリの性質に応じたパワー調整が、一瞬でしかも簡単。 Redshiftだとクラスター自体の調整が必要で面倒。用途に応じて、クラスターを分けれるけど、手間がかかる。

SnowflakeがBigQueryより優れてるところ • S3にあるログを、そのままSnowflakeに取り込める。 ◦ Snowflakeの仕組み上、 AWSの同一リージョン通信で済むので、転送料がかからない。 ◦ GCSへのログ運搬が必要なくなるので、そのための仕組みが全ていらなくなる。 •
課金体系がウェアハウス（≒コンピューティング）実行時間課金。 ◦ BigQueryのスキャン量課金は、個人的に難しい。 Snowflakeなら、効率が良いテーブル作ればいいだけ。

騙されたと思って、 Snowﬂakeのトライアルやってみましょう。ガチで世界が変わります。（当社比） ※私は営業では、ありません。

ここ

S3 -> dbt -> Snowﬂake

dbtで ETL???????????? WHY!!!!!!!!!!!!!!!

ELTの「T」を担当するツールと言われています。 ELTとは、Extract（抽出）、Load（ロード）、Transform（変換）。今回は、あろうことか、ETL処理をdbtにやってもらいました。 dbtとは

dbt ETLがやっていること • やっていること ◦ ログを1時間ごとに、Snowflake External Stage(以下External Stage) からデータを取り出して、Snowflakeにロードする。
• 特徴 ◦ 冪等性。 ▪ 問題が起きたら再実行するだけで良い。 ◦ データの変換処理は一切しない。 ▪ メタデータカラムだけの追加はしている。 • この時点で間違えた変換があると、巻き戻しが大変なので、変換しないことで、問題発生ポイントをSnowflake内に、完結させることが狙い。

External Stageとは一言で言うと、SnowﬂakeからS3に直接クエリが出来る。例えばs3://adtechlog/clicks/2022/11/01/07/に取り込みたいログがある。 SELECT * FROM @adtechlog/clicks/2022/11/01/07/ で取ってこれる。結果の取得は、通常のSELECTと同じ。

dbt x Snowﬂake External Stage dbtからExternal Stageへクエリすれば、なんと簡単にETLが出来る。

dbt + External Stage以外に検討した方法 • COPY句 ◦ COPYは、dbtで素直に発行できるクエリではなかった。カスタムマテリアライゼーションとかで、頑張れば出来るけど・・・ •
Snowﬂake External Table ◦ 初期作成時にパーティションが多すぎてエラーになった。都度パーティション作るなり、頑張れば出来るけど、頑張りたくない。 • Snowﬂake Snowpipe（以下Snowpipe） ◦ パフォーマンス面は問題なかったけど、コスパが合わなかった。オブジェクト数課金なので、使うなら、ログの数を減らす必要がある。それなりに様々なサーバーがあるので、そこから頑張るのは、コスパ悪い。

dbt cloudを使っていない理由課金形態が、開発スタイルとマッチしない。弊社では、基本的に決められた開発領域がないため、データ基盤も全員が触ることを想定する必要がある。 dbt cloudだと、開発者数に応じた課金アップモデルなので、少ししか触らない人でも、一人分のコストを払う必要がある。また、dbt coreで、レポーティング基盤の実装を、
再実装をした経験もあったため、cloudの採用を見送った。

オーケストレーションにStepFunctions オーケストレーションには、 StepFunctions(以下SFN)を全面的に採用している。理由は、コストパフォーマンスが圧倒的であるため。現状は、1時間に1回の実行と、10分に1回の実行をしているSFNがある。かかっているコストは、なんと、$0.03/day だけ。例えば、これをAirﬂow(MWAAなど)で同じことをやると、維持費だけで倍以上のコストがかかる。しかも、Airﬂowじゃないと出来ないこと…が思いつかずSFNを採用。

ここ

S3 -> Snowpipe -> Snowﬂake

Snowpipeとはファイルがステージで利用可能になり次第、ファイルからデータをロードします。データは、参照パイプで定義されている COPY ステートメントに従ってロードされます。(公式の説明) docs.snowflake.com, Snowpipeの紹介,
2022/11/07, docs.snowflake.com/ja/user-guide/data-load-snowpipe-intro.html

S3イベントをトリガーに、ロードしといて！って設定すると、勝手にSnowﬂakeにロードしてくれる。

Snowpipeの用途バッチロードだと、数値を見れるのが最速でも1時間後になるので、それより早く見たいデータをSnowpipeで収集するようにしてる。オブジェクト数課金になるので、そこのコスパが合うのであれば、基本的に全てのロードは、Snowpipeでやってしまって問題ない。今回作ったデータ基盤が扱ってるログでは、コストが高くつくので、全面的な採用は見送っている。

ここ

Amazon Aurora -> Fivetran -> Snowﬂake

Fivetranとは様々なデータソースと、さくっと連携してくれるSaaS。公式サイトにどんなデータソースと連携できるか紹介されてます。 www.fivetran.com, Fivetran, 2022/11/07, www.fivetran.com

Fivetranの用途 Amazon Auroraに入ってる管理画面のデータとの連携や、今後発生するちょっとしたデータ連携などに使っていく。これを自前でやろうとすると、結構大変で、それなりの工数が発生する。これをFivetranでやると、本当にすぐ出来る。一方で、ビジネスクリティカルなデータ、大量データ部分には、Fivetranは使っていない。例えば、広告ログだと、課金体系的に高くつきすぎるのと、なんらか障害発生時に、コントロール出来る余地を残しておきたい。

Fivetranを採用した理由 ETLにカスタム設定が出来ないのが魅力的だった。個人的に、データソースから、DWHにロードする時は、 Rawデータ（≒生ログ）のままにしてほしい。経験的に、データソースから変換したものしかDWHにないと辛い。例えば、問題が起きた時に、ロード部分まで疑う必要が出る。また、再集計時にロードからやり直しになることがあるので、基本的にはRawはそのまま入ってるという状態にした。そして、FivetranはRawはそのままです！が強制されるので、良かった。

ここ

Transform by dbt in Snowﬂake

dbtを使ったデータ変換(Transform) データソースからロードされたRawデータを、使いやすいデータに変換するのにdbtを使っている。主なモデリング手法は、ディメンションモデリングを採用している。

ディメンションモデリングとはディメンションモデリングって何？は、過去の発表資料にあるので、興味あればどうぞ。ディメンションモデリングとは、データウェアハウスにデータを格納するために、最適化されたデータ構造の手法。 ※本日は、時間の都合上、モデリングについては語れません。 speakerdeck.com,
モデリングはキラキラ技術より地味だが役に立つ , 2022/11/07, speakerdeck.com/pei0804/modeling-over-shiny-tech

今後の展望

今後の展望 • BigQueryとRedshiftに乗ってる運用を、少しずつSnowﬂakeへ。 • 開発しやすさの向上。 ◦ 一旦作り上げることに注力したので、改善の余地がある。 • データの傾向監視を入れたい。 ◦
dbt testだと、時系列での監視が難しいので、 elementaryというOSSを検討中。

まとめ

これを2ヶ月くらいで作れるので、いい時代になった！

朗報です。実はエンジニア採用してます。

https://engineering.cartaholdings.co.jp/

ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architectur...

ぼくのかんがえる最高のデータ分析基盤 / strongest-data-architecture-discussion

More Decks by pei0804

Other Decks in Technology

Featured

Transcript