Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バクラクのデータ基盤をBigQueryからSnowflakeへ移管した理由 / The rea...

Civitaspo
November 22, 2024

バクラクのデータ基盤をBigQueryからSnowflakeへ移管した理由 / The reason for migrating Bakuraku data infrastructure from BigQuery to Snowflake

2024-11-22に開催した『 【Snowflake九州ユーザー会】九州のSnowflake導入企業5社による導入事例紹介!』の登壇資料です。
https://techplay.jp/event/963152

Civitaspo

November 22, 2024
Tweet

More Decks by Civitaspo

Other Decks in Technology

Transcript

  1. © LayerX Inc. 2 バクラク事業部 機械学習・データ部 DataOps チーム 兼 Platform

    Engineering部 DevOps チーム DataOps/DevSecOps/MLOps が大好きなエンジニア Snowflake九州ユーザーグループ主宰 Snowflake Squad 2024 SNS 𝕏 civitaspo   civitaspo その他 画像を入れてね 自己紹介 civitaspo (キビタスポ、きびちゃん)
  2. © LayerX Inc.  4 「バクラク」シリーズラインナップ ‧AIが請求書を5秒でデータ化 ‧仕訳 / 振込データを⾃動作成 ‧電帳法‧インボイス制度にも対応

    仕訳‧⽀払処理効率化 ‧年会費無料で何枚でも発⾏可 ‧カード利⽤制限で統制を実現 ‧すべての決済で1%以上の還元 法⼈カードの発⾏‧管理 ‧帳票の⼀括作成も個別作成も⾃由⾃在 ‧帳票の作成‧稟議‧送付‧保存を⼀本化 ‧レイアウトや項⽬のカスタマイズも可能 請求書発⾏ ‧スキャナ保存データも直接取込  ‧AI-OCRが⾃動読取&データ化 ‧[取引先][取引⽇][取引⾦額]での検索 帳票保存‧ストレージ ‧AIが⾒積書‧請求書を5秒でデータ ‧スマホからも申請‧承認OK ‧柔軟な通知設定‧承認の催促機能 稟議‧⽀払申請 ‧直感的UIで従業員の負担を軽減 ‧Slack連携で打刻や⾃動リマインド可能 ‧わかりやすい残業 / 休暇管理レポート 勤怠管理 ‧AIが領収書を5秒でデータ化 ‧スマホアプリとSlack連携あり ‧領収書の重複申請などミス防⽌機能 経費精算
  3. © LayerX Inc. 6 どうしてバクラクはBigQueryからSnowflakeへ移管したの? 今日話す内容 2022/04〜 2024/04〜 2024/09〜 Snowflake

    大活用時代 Snowflakeへの移管を決めたタイミングで抱えていた課題や思想について話します ref. BigQueryからSnowflakeへ移管して作る最強のデータ基盤 〜Data Ingestion編〜 - Speaker Deck
  4. © LayerX Inc. 11 • 保有データ量が少ないうちはスキャン量課金はコスト効率が良い • が、保有データ量が増えるにつれ、コストコントロールの難易度が上がっていった ◦ 例:

    想定外の大量スキャン、長期間集計の増加 • 半年〜1年程度で BigQuery Editions※ への移行が必要な状況だった コストコントロールの難化 BigQueryで抱えていた課題 ※ Understand BigQuery editions | Google Cloud BigQuery Editions 移行検討をきっかけに 現行データ基盤をゼロベースで再評価してみることに
  5. © LayerX Inc. 12 • バクラクのインフラはAWS <> データ基盤のみがGoogle Cloud •

    両クラウド間のデータ転送ではクラウドプロバイダーが用意したエコシステムを利用できないため、デー タ転送パイプラインは自前で構築する必要があった • データ転送パイプラインの構築に両クラウドに精通した人材が必要となり、採用面でも困難な状況に。 クラウドプロバイダーの不一致 BigQueryで抱えていた課題 データパイプライン構築・運用の工数が増大、人材採用も困難 => スタートアップの急成長を支えるデータ基盤として、この制約は看過できないのでは?
  6. © LayerX Inc. 13 BigQueryで要求を満たし続ける費用対効果の悪化 BigQueryで抱えていた課題 非エンジニアだけ要求を満たせないので、データエンジニアが施策のボトルネックに。 Cloud Data Transfer

    Security Command Center Storage Transfer Service Vertex AI Cloud Functions Cloud Run Pub/Sub Dataproc Google Kubernetes Engine Virtual Private Cloud Cloud NAT Workflows Cloud Scheduler Identity-Aware Proxy ※ Preventing data theft with GCP service controls - Tempered Works Ltd.
  7. © LayerX Inc. 15 • データ活用の要件を持っている人が自身で安全かつ容易に施策を実施できる • コストコントロールがしやすく、パフォーマンスを維持した最適化 が可能 •

    事業成長を支援する拡張性の高いデータ基盤 etc… バクラクにとって理想のデータ基盤はどのような形か データ基盤の理想像
  8. © LayerX Inc. 19 • SnowflakeはAWS上に構築することができます • なので、AWSをメインに使用するバクラクと相性が良いです • たとえば、

    ◦ 同一リージョン内のAmazon S3とのデータ転送が無料 ◦ Data FirehoseがSnowflakeへのデータ転送用専用ソリューションを提供 AWSとの親和性 Snowflakeを選択した理由
  9. © LayerX Inc. 22 今回 BigQuery から Snowflake に移管した理由をお話しました。 今回話した内容の詳細は、後日ブログとして公開予定です。

    もし今日の話を聞いて「面白そうなやつだ」と思ったら x.com/civitaspo のフォローをお願いします! もし今日の話を聞いて「もっと話したい!」と思ったら「civitaspo layerx カジュアル面談」で検索!検索! ご視聴ありがとうございました! おわりだよ〜 おわり