Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析基盤のはじめかた

 データ分析基盤のはじめかた

オープンセミナー 2022@広島 での登壇資料です。
https://osh.connpass.com/event/242991/

一部の日本語が薄くなっています。
見にくい場合は Google Slides でご覧ください。
https://docs.google.com/presentation/d/1TB45lnY4jA7KXy2XkReX-CXEYG7D2OLcHDUULAWlm08/edit?usp=sharing

登壇時のアーカイブ動画はこちらからご覧いただけます。
https://youtu.be/81frXIr5HCI?si=tqYBN61gCzkQliFL

chanyou0311

June 28, 2022
Tweet

More Decks by chanyou0311

Other Decks in Technology

Transcript

  1. 中村 優 (chanyou0311) • 広島出身広島在住のエンジニア • 呉高専出身 • 趣味はクルマと工作 •

    PyCon JP 2022 のスタッフ 2019年4月 株式会社ガイアックス 2022年1月 株式会社 MaaS Tech Japan
  2. PyCon JP 2022 を10月に開催します 日程: 10/14(金) から 10/16(日) まで 会場:

    TOC有明コンベンションホール 数百人規模のオフラインイベントを想定しています 現在スポンサー募集中です!
  3. データ分析のアプローチ • 統計学 • 人間の意思決定を支える • グラフでアウトプットされることが多い • 機械学習 •

    人間の判断を自動化する • モデルをシステムに組み込むことが多い 関連動画は こちら
  4. • 社内の RDB、POS データ • Web API、スクレイピング • センサーデータ •

    オープンデータ、購入したデータ データソース: データの収集源 データソース データベース データ活用
  5. データソース データベース データ活用 ① 巨大な CSV だけどそ のままデータベースに保 存しておこう ②

    複雑な条件でクロス集 計したいのに処理が終わ らない… データベースのスキーマがデータ活用時と かけ離れていて、処理コストが高い… この構成のつらいところ 2/2
  6. データの処理方法 • バッチ • リアルタイムで更新されなくてもよい場合 • 例: サイトのアクセス数のダッシュボード • ストリーム

    • 次々と発生するデータをすぐに活用する場合 • 例: 異常値検知、急上昇ワードのレコメンド
  7. データ分析基盤の構成要素 データソース データレイク データウェア ハウス データマート データ活用 宅鯖の crontab で

    1分ごとに API を叩いて JSON Lines で保存する crontab で 10分ごとに BigQuery にロードする
  8. データ分析基盤の構成要素 データソース データレイク データウェア ハウス データマート データ活用 宅鯖の crontab で

    1分ごとに API を叩いて JSON Lines で保存する crontab で 10分ごとに BigQuery にロードする BigQuery の定期クエリ で15分ごとにデータマート を更新する
  9. データ分析基盤の構成要素 データソース データレイク データウェア ハウス データマート データ活用 宅鯖の crontab で

    1分ごとに API を叩いて JSON Lines で保存する crontab で 10分ごとに BigQuery にロードする BigQuery の定期クエリ で15分ごとにデータマート を更新する BigQuery の接続設定を してグラフを定義する