Upgrade to Pro — share decks privately, control downloads, hide ads and more …

出版社こそデータドリブンに!Databricksを活用したデータ民主化への第一歩

 出版社こそデータドリブンに!Databricksを活用したデータ民主化への第一歩

1.自己紹介、会社紹介​

2.Databricks導入に至った背景・理由​

3.Databricksを利用して実施したことのサマリー​

4.実施した内容の詳細​

5.Databricksが便利だった点​

6.今後Databricksを利用してやりたいこと

mukubayashi

May 23, 2024
Tweet

Other Decks in Business

Transcript

  1. 自己紹介、会社紹介 【氏名】 椋林 淳一(苗字はむくばやしと読みます。) 【部署名】 株式会社集英社 情報システム部 情報マネジメント室 【略歴】 メディア系ベンチャー、Retty株式会社、合同会社DMM.comを経て

    2023年4月に株式会社集英社に入社。 Retty株式会社時代にデータアナリストにジョブチェンジをしました。 現在は社内のデータ環境整備や事業のKPI達成に向けた仮説構築から 分析実行、レポーティングまでのディレクションを主に担当しています。 【趣味】 高校野球観戦、プロレス観戦、お笑い芸人のラジオ エンタメ大好きです。
  2. 自己紹介、会社紹介 ▪本日話すこと • Databricksのイケてるところ • 今のところ我々がDatabricksでやろうとしていること • これからDatabricksを利用してやりたいと思っていること ▪本日話さないこと •

    データエンジニアリング、機械学習 • 技術的な話(自分が明るくないので、すみません。) • 他社のツールの話 ▪視聴ターゲット • Databricksを導入していない、または導入しているけどほとんど利用していない方 • どちらかというとデータアナリストや意思決定者向け • 集英社のコンテンツが大好きな方
  3. ファッション誌系通販サイト 取材・ファッション誌系WEBサイト モバイルアプリ CSV Treasure Data タグ (JavaScript) Treasure Data

    タグ (JavaScript) BigQuery 販売部関連データ(デジタルRaw) FTPで送信 EC2 Windowsサーバー SSISでETL後 S3へ送信 可視化 書店マスター(HPL) POSデータ(HPL) Synapse Pipeline オンプレ SQL サーバー CSV 販売部関連データ(紙・デジタル集計) Azure Data Lake Storage Azure Synapse Analytics Power BI Dataflows オンプレ SQL サーバー 商品マスター(SUR) 著者データ(SUR) デジタル販売部 データソース データアーキテクチャ リアル本 販売部 SqlBulkCopy マンガWebサイト Treasure Data タグ (JavaScript)
  4. ファッション誌系通販サイト 取材・ ファッション誌系 WE Bサイト モバイルアプリ CSV BigQuery 販売部関連データ( デ

    ジ タルRa w) FTP経由でデー タ受領 EC2 Windo wsサーバー SSISでET L 後 S3へ送信 書店マスター(HPL) POSデータ(HPL) オンプレ SQL サーバー CSV 販売部関連データ( 紙 ・ デ ジ タル集計 ) 一ツ橋企画 Azure Data La ke S tora g e オンプレ SQL サーバー 数理計画 商品マスター(SUR ) 著者データ(SUR) デジタル販売部 データソース データ アーキテクチャ リ アル本 販売部 マンガWebサ イト BigQuery BigQuery Federation -Import -Direct Query -Direct Lake CSV Microsoft Purview Data Catalog データカタログの設計、本番化 VNETの構築をしてIP固定したい。
  5. Databricksを利用して実施したことのサマリー 【Databricksのノートブックデータ分析から簡易ダッシュボードの構築】 ▪手順 1. KPIツリーを分解し、ダッシュボードで可視化する項目を選定する 2. SQL書いて選定された項目の日時推移をだす 3. ノートブックでビジュアライズ 4.

    ビジュアライズしたものをダッシュボードに追加 5. 必要に応じて説明文などをダッシュボードに追加 6. スケジュール、アラート設定を行い日時更新されて閲覧できるようにする 今回は上記手順の4~6について話します。
  6. Databricksが便利だった点 ▪Databricks Assistant Databricks Assistant | Databricks 今回は省きましたが、AssistantがSQLのクエリを生成したり エラーになったときに修正してくれます。 コードがある程度読めれば書く作業量が減らせるので便利・・・!

    ▪簡易ダッシュボードであればnotebookで完結する サービス・媒体の各種数値を可視化するダッシュボードであれば 今回のやり方よりもSQLメニューのダッシュボードのほうがよさそうですが たとえばABテストの結果などアドホックなダッシュボードについては 今回のやり方のほうが便利そうだなと思いました。