Slide 1

Slide 1 text

出版社こそデータドリブンに!Databricksを 活用したデータ民主化への第一歩 株式会社集英社 情報システム部 情報マネジメント室 椋林

Slide 2

Slide 2 text

おしながき 1.自己紹介、会社紹介 2.Databricks導入に至った背景・理由 3.Databricksを利用して実施したことのサマリー 4.実施した内容の詳細 5.Databricksが便利だった点 6.今後Databricksを利用してやりたいこと

Slide 3

Slide 3 text

自己紹介、会社紹介 【氏名】 椋林 淳一(苗字はむくばやしと読みます。) 【部署名】 株式会社集英社 情報システム部 情報マネジメント室 【略歴】 メディア系ベンチャー、Retty株式会社、合同会社DMM.comを経て 2023年4月に株式会社集英社に入社。 Retty株式会社時代にデータアナリストにジョブチェンジをしました。 現在は社内のデータ環境整備や事業のKPI達成に向けた仮説構築から 分析実行、レポーティングまでのディレクションを主に担当しています。 【趣味】 高校野球観戦、プロレス観戦、お笑い芸人のラジオ エンタメ大好きです。

Slide 4

Slide 4 text

自己紹介、会社紹介 【自分の得意領域と苦手領域】

Slide 5

Slide 5 text

自己紹介、会社紹介 出版を核としながら、社会の変化に応じて 様々な方法で、より多くの人に 良質なコンテンツを届けることをめざします。 右の写真は2024年元旦の新聞広告です。 このキャッチコピーかなり気に入っています。

Slide 6

Slide 6 text

自己紹介、会社紹介 ■本日話すこと • Databricksのイケてるところ • 今のところ我々がDatabricksでやろうとしていること • これからDatabricksを利用してやりたいと思っていること ■本日話さないこと • データエンジニアリング、機械学習 • 技術的な話(自分が明るくないので、すみません。) • 他社のツールの話 ■視聴ターゲット • Databricksを導入していない、または導入しているけどほとんど利用していない方 • どちらかというとデータアナリストや意思決定者向け • 集英社のコンテンツが大好きな方

Slide 7

Slide 7 text

Databricks導入に至った背景・理由 ■データ周りにおける課題と課題に対するアプローチ 様々なサービスのデータを保持することにより 既存のデータウェアハウス利用のコストが上がってしまっていることが課題でした。 データの利用状況をみると、実際に活用しているのは一部であったり、 さまざまなデータファイル形式でもっていることがわかったので 必要に応じてクエリが書ける環境であればいいのでないかと思い、導入に至りました。 今後非構造化データやストリーミングデータも積極的に取りこみたいと考えた時に Delta Live Talbleがそれらを解決してくれるのではないかと期待しています。

Slide 8

Slide 8 text

ファッション誌系通販サイト 取材・ファッション誌系WEBサイト モバイルアプリ CSV Treasure Data タグ (JavaScript) Treasure Data タグ (JavaScript) BigQuery 販売部関連データ(デジタルRaw) FTPで送信 EC2 Windowsサーバー SSISでETL後 S3へ送信 可視化 書店マスター(HPL) POSデータ(HPL) Synapse Pipeline オンプレ SQL サーバー CSV 販売部関連データ(紙・デジタル集計) Azure Data Lake Storage Azure Synapse Analytics Power BI Dataflows オンプレ SQL サーバー 商品マスター(SUR) 著者データ(SUR) デジタル販売部 データソース データアーキテクチャ リアル本 販売部 SqlBulkCopy マンガWebサイト Treasure Data タグ (JavaScript)

Slide 9

Slide 9 text

ファッション誌系通販サイト 取材・ ファッション誌系 WE Bサイト モバイルアプリ CSV BigQuery 販売部関連データ( デ ジ タルRa w) FTP経由でデー タ受領 EC2 Windo wsサーバー SSISでET L 後 S3へ送信 書店マスター(HPL) POSデータ(HPL) オンプレ SQL サーバー CSV 販売部関連データ( 紙 ・ デ ジ タル集計 ) 一ツ橋企画 Azure Data La ke S tora g e オンプレ SQL サーバー 数理計画 商品マスター(SUR ) 著者データ(SUR) デジタル販売部 データソース データ アーキテクチャ リ アル本 販売部 マンガWebサ イト BigQuery BigQuery Federation -Import -Direct Query -Direct Lake CSV Microsoft Purview Data Catalog データカタログの設計、本番化 VNETの構築をしてIP固定したい。

Slide 10

Slide 10 text

Databricksを利用して実施したことのサマリー 【Databricksのノートブックデータ分析から簡易ダッシュボードの構築】 ■背景・目的 先ほどのアーキ図にもありましたが、集英社にはたくさんの媒体・サービスが存在します。 データはおおよそ1か所にまとまっているものの、各々さまざまなツールをもちいて データの可視化を行っています。 今後はデータを1か所にまとめて可視化も可能な限り1つの場所で行いたく Databricksでのダッシュボードの構築を試してみました。 ■手段 Databricksのノートブックを利用しました。 ダッシュボードのメニューはあるものの、個人的にノートブックが好きなのと まずは簡易的なもので試したくあえてノートブックからダッシュボードを作ってみました。

Slide 11

Slide 11 text

Databricksを利用して実施したことのサマリー 【Databricksのノートブックデータ分析から簡易ダッシュボードの構築】 ■手順 1. KPIツリーを分解し、ダッシュボードで可視化する項目を選定する 2. SQL書いて選定された項目の日時推移をだす 3. ノートブックでビジュアライズ 4. ビジュアライズしたものをダッシュボードに追加 5. 必要に応じて説明文などをダッシュボードに追加 6. スケジュール、アラート設定を行い日時更新されて閲覧できるようにする 今回は上記手順の4~6について話します。

Slide 12

Slide 12 text

Databricksを利用して実施したことのサマリー ■アウトプットイメージ 画像はる。

Slide 13

Slide 13 text

Databricksを利用して実施したことのサマリー ■Databricksを使ってみた所感 ノートブックでつくったものをそのままダッシュボード化できるの最高!!!

Slide 14

Slide 14 text

実施した内容の詳細 ■ダッシュボード用のビジュアライズをノートブックで作成 画像はる ノートブックのセルの右上のメニューからダッシュボードに追加を選択 選択したセルがそのままダッシュボードとして反映されます。

Slide 15

Slide 15 text

実施した内容の詳細 ■セルの中身であれば、グラフ以外も取り込み可能 ビジュアライズしたセルだけでなく、マークダウンで記載したセルも そのままダッシュボードに反映できるのが便利!

Slide 16

Slide 16 text

実施した内容の詳細 ■スケジュール設定も簡単 右上のスケジュールメニューを選択すると スケジュール設定やアラートの設定もできます。

Slide 17

Slide 17 text

実施した内容の詳細 ■頑張ればTeamsに通知飛ばすこともできるらしい Teamsのアプリ「Incoming Webhook」を利用することで 指定ユーザへの通知も可能かもしれません。

Slide 18

Slide 18 text

Databricksが便利だった点 ■Databricks Assistant Databricks Assistant | Databricks 今回は省きましたが、AssistantがSQLのクエリを生成したり エラーになったときに修正してくれます。 コードがある程度読めれば書く作業量が減らせるので便利・・・! ■簡易ダッシュボードであればnotebookで完結する サービス・媒体の各種数値を可視化するダッシュボードであれば 今回のやり方よりもSQLメニューのダッシュボードのほうがよさそうですが たとえばABテストの結果などアドホックなダッシュボードについては 今回のやり方のほうが便利そうだなと思いました。

Slide 19

Slide 19 text

Databricksが便利だった点 つまり、Databricksの時代だァ!!!!

Slide 20

Slide 20 text

今後Databricksを利用してやりたいこと 集英社にたまっている非構造化データをもっと活用した機械学習を行いたい! 雑誌のページ画像データや、 マンガのコマの画像データ Delta Lakeをりようした 全てのデータタイプの格納 非構造化データを利用した データ分析とアウトプット

Slide 21

Slide 21 text

今後Databricksを利用してやりたいこと 集英社にたまっているエンタメのデータを全て集約し、データ販売をしたい 集英社に存在する あらゆるデータ DELTA SHARINGを利用して マーケットプレイスに展開 エンタメに関わる全ての業界に 活用できるデータの販売

Slide 22

Slide 22 text

ご清聴ありがとうございました!!!!

Slide 23

Slide 23 text

参考URL ノートブック内のダッシュボード - Azure Databricks | Microsoft Learn