データアナリストが行うDatabricksを活用したETLの自動化事例

データアナリストが行う Databricksを活用したETLの自動化事例 2024.4.5

西川史乃亜 2 所属：株式会社BuySell Technologies 　　　テクノロジー戦略本部データサイエンス部略歴：2022年6月に株式会社Buysell Technologiesに入社。データアナリストとして、データ分析・効果検証・データの可視化、　　
アナリティクスエンジニアリング（ Databricks）を担当。　　前職もBuySell Technologiesと同じリユース系の会社で、　　デジタルマーケティング・事業企画・新規事業企画などを経験。趣味：飼っている猫たちと遊ぶ、筋トレ、よさこい（旗士）

02 03 01 アジェンダバイセルの事業紹介とデータ事情 3 Databricksの活用事例まとめ

01 バイセルの事業紹介とデータ事情

5 バイセルグループのリユースビジネスグループ各社がそれぞれの強みを活かして、買取から販売まで、幅広い商材を取り扱う総合リユースビジネスを展開しています。特に出張訪問買取事業は業界最大級の規模で全国展開する、バイセルの強みです。着物・切手・貴金属・ブランド品・時計等買取店舗・催事店舗
販売一般顧客外部業者 EC販売催事卸販売オークション・自社EC（バイセルオンライン等）・ECモール（ヤフオク！・楽天等）　着物・ブランド品・時計・お酒等・越境EC（ライブコマース等）　ジュエリー、ブランド品等・百貨店　着物・他社市場、相対取引等　貴金属・ジュエリー・切手等・自社市場（タイムレスオークション）　時計・ジュエリー・ブランド品等一般顧客出張訪問・宅配・店舗販売顧客買取顧客買取商品

6 プロダクト群「バイセルリユースプラットフォーム Cosmos」の開発が進行中リユースに必要なすべての機能を提供する「リユースプラットフォーム Cosmos」の開発が進行中です。 Cosmosを活用して、バイセルグループ全体での業務効率改善やデータドリブン経営の深化を目指しています。リユースプラットフォーム Cosmos 自社開発のリユース特化業務基幹システムでありサービス群の集合体
買取申込買取・査定在庫管理販売多様なチャネルで収益最大化 CRM -顧客対応- 買取種別に応じた最適なシステム構築 Visit -訪問買取 - Store -店舗買取 - Promas -商材マスタ - Appraisal -専門査定 - Stock -在庫管理 - EXS -販売管理 - Core -会員管理- Portal -データ利用- Pocket -データ基盤- 買取専門チームによる真贋・査定と連携査定申込効率的な顧客対応在庫在庫管理の最適・効率化販売データ各事業プロセスにあるデータを一元管理：基幹システム

7 プロダクト群「バイセルリユースプラットフォーム Cosmos」の開発が進行中リユースに必要なすべての機能を提供する「リユースプラットフォーム Cosmos」の開発が進行中です。 Cosmosを活用して、バイセルグループ全体での業務効率改善やデータドリブン経営の深化を目指しています。リユースプラットフォーム Cosmos 自社開発のリユース特化業務基幹システムでありサービス群の集合体
買取申込買取・査定在庫管理販売多様なチャネルで収益最大化 CRM -顧客対応- 買取種別に応じた最適なシステム構築 Visit -訪問買取 - Store -店舗買取 - Promas -商材マスタ - Appraisal -専門査定 - Stock -在庫管理 - EXS -販売管理 - Core -会員管理- Portal -データ利用- Pocket -データ基盤- 買取専門チームによる真贋・査定と連携査定申込効率的な顧客対応在庫在庫管理の最適・効率化販売データ各事業プロセスにあるデータを一元管理：基幹システム全てのデータを集約（BigQuery)

• 前提：各プロダクトのRDBはBigQueryに同期している • 課題：ExcelやCSV、Googleスプレッドシートのデータや外部ツールのデータが RDB、 BigQueryに格納されていない ◦ 手元で集計しているデータ / 独自で管理しているマスタ
/ 外部サービスのデータ（ Google、Kintoneなど）/ パブリックデータ（統計データ、気象データなど） • 影響：事業部サイドでデータ分析が進めにくい 8 Databricks導入前の背景と課題

• 前提：各プロダクトのRDBはBigQueryに同期している • 課題：ExcelやCSV、Googleスプレッドシートのデータや外部ツールのデータが RDB、 BigQueryに格納されていない ◦ 手元で集計しているデータ / 独自で管理しているマスタ
/ 外部サービスのデータ（ Google、Kintoneなど）/ パブリックデータ（統計データ、気象データなど） • 影響：事業部サイドでデータ分析が進めにくい 9 Databricks導入前の背景と課題「RDBのデータと独自で集めたデータを組み合わせてデータ分析が行える環境」を整備することが必要

02 Databricksの活用事例

11 Databricksを活用した扱いやすいデータ基盤の構築 • RDBに入っていないデータは、Databricksを用いてインポート。 • メダリオンアーキテクチャに基づいて扱いやすいデータレイクを構築。 • Bronze ◦
未加工データ。データの重複などを含む • Silver ◦ クレンジング済みデータ。データの重複を除去し、使いやすいようにデータの分割や結合を施したデータ。 • Gold ◦ ビジネスレベルに特化されたデータ。 BI ツールから参照されるデータ。

• 業務効率化 • データガバナンス強化 12 Databricksを活用するメリット

• 背景・課題： ◦ Search ConsoleのデータがRDBやBigQueryに未格納 ◦ Search Consoleからデータを手動でエクスポートし、 ExcelやGoogleスプレッドシート上でBigQueryから取得したデータと突合する必要があった
◦ 多くのサイトの分析を日々行なっているため、データ処理が煩雑化していた 13 例01：Google Search Console APIを　　　利用した各サイトデータの自動取得　　　（業務効率化）

14 例01：Google Search Console APIを　　　利用した各サイトデータの自動取得　　　（業務効率化）

• 解決方法： ◦ Databricks上でGoogle Search Console APIを実行 ◦ 分析に必要なデータを取得、整形しBigQueryに格納
◦ 毎日指定時間にジョブが実行され、取得可能な最新データが蓄積されていく 15 例01：Google Search Console APIを　　　利用した各サイトデータの自動取得　　　（業務効率化）

16 例01：Google Search Console APIを　　　利用した各サイトデータの自動取得　　　（業務効率化）

• ポイント： ◦ リクエスト時に渡すパラメータはデータ利用者と相談して決める ◦ Google側のデータ遅延等によりデータが上手く取得できない場合もあるため、開発者側でエラーを認知できるようにしておく 17 例01：Google Search
Console APIを　　　利用した各サイトデータの自動取得　　　（業務効率化）

• 背景・課題： ◦ 使用しているCTIツールとBigQueryが未連携 ◦ ツールからCSVを手動でエクスポートし、Googleスプレッドシート上でデータを加工し、データ集計や分析を行っていた 18 例02：RDBやBigQueryに連携できない　　　ツールからエクスポートしたCSVの
　　　自動取込（業務効率化）

19 例02：RDBやBigQueryに連携できない　　　ツールからエクスポートしたCSVの　　　自動取込（業務効率化）

• 解決方法： ◦ CTIツールからCSVをエクスポートする部分は引続き手動で実施 ◦ エクスポートしたCSVを指定のGoogleドライブに格納 ◦ Databricks上でGoogle
Drive APIを利用しCSVデータを取得 ◦ データ加工後、BigQueryに格納 20 例02：RDBやBigQueryに連携できない　　　ツールからエクスポートしたCSVの　　　自動取込（業務効率化）

21 例02：RDBやBigQueryに連携できない　　　ツールからエクスポートしたCSVの　　　自動取込（業務効率化）

• ポイント： ◦ BigQueryに格納されたCSVを処理中にアーカイブフォルダに移動させる ◦ 未格納のCSVがあるかどうか検知する処理を定期実行し、 CSVデータの格納漏れがあれば関係者に通知する 22 例02：RDBやBigQueryに連携できない
　　　ツールからエクスポートしたCSVの　　　自動取込（業務効率化）

• 背景・課題： ◦ データは取得するタイミングによって値が異なっている、且つ事業部ごとにデータの粒度やSQLのロジックもバラバラ ◦ 事業部間で「正しい数値」の認識にズレが生じていた ◦ データ量の関係でプロダクトのRDBに確定データを蓄積していくのは難しい（ 15万
～900万件レコードが入っているCSVファイルが数ファイル分） 23 例03：確定データ自動取得　　（ガバナンス強化）

24 例03：確定データ自動取得　　（ガバナンス強化）

• 解決方法： ◦ 正しいロジックを元に組まれた SQLをプロダクト側で実行 ◦ 出力結果をCSV化し、外部ストレージに格納 ◦ Databricksで外部ストレージに格
納されているCSVを取得した後、データをBigQueryに格納 25 例03：確定データ自動取得　　（ガバナンス強化）

26 例03：確定データ自動取得　　（ガバナンス強化）

• ポイント： ◦ 外部ストレージに格納されたCSVデータとBigQueryに格納されたデータに欠損がないかチェック（レコード件数で比較） ◦ BigQueryに格納されたデータをデータソースとして、 LookerStudio上でダッシュボードを作成（複雑なSQLを事業部側で構築する必要も無くなった） 27
例03：確定データ自動取得　　（ガバナンス強化）

03 まとめ

• 事業部が独占していたデータが自由に取れるようになり、他部署の業務理解が進んだ • 手動で行っていた集計の工数が削減され、分析業務に集中できるようになった • 使用しているツールの仕様上、閲覧できる期間や表示件数に制限があったが、必要なデータが全てBigQueryに取り込まれているため、データ分析作業が捗るようになった 29 データ利用者の反応

• Databricksは柔軟性が高く、エンジニアではないアナリストでも簡単にデータを集めることができる • データを集める中で業務効率化やデータガバナンス強化も実現可能 • 事業部が独占していたデータが民主化され、全社でのデータ活用が促進された 30 まとめ

バイセルでは今後もDatabricksを活用し、グループ全体のデータ活用を促進していきます 31 まとめ

THANK YOU 32

データアナリストが行うDatabricksを活用したETLの自動化事例

データアナリストが行うDatabricksを活用したETLの自動化事例

Shinoa Nishikawa

Other Decks in Programming

Featured

Transcript