Upgrade to Pro — share decks privately, control downloads, hide ads and more …

freeeのデータ基盤におけるDWH/BIの運用事例紹介

yusuken
July 15, 2020

 freeeのデータ基盤におけるDWH/BIの運用事例紹介

yusuken

July 15, 2020
Tweet

Other Decks in Technology

Transcript

  1. freee 株式会社
    freeeのデータ基盤におけるDWH/BIの運⽤事例紹介
    Data Engineering Study #1
    2020.07.15

    View Slide

  2. 新卒で外資系IT企業にて技術営業
    2017年5⽉ freeeに⼊社
    ⼊社当初はデータサイエンティスト
    2017年10⽉からデータ総合格闘家
    (フライ級)
    最近ハマっている⻝べ物は鯵の⼲物
    freee株式会社
    中⼭ 裕介
    (yusuken ※nは黙字)

    View Slide

  3. スモールビジネスを、世界の主役に。
    アイデアやパッションやスキルがあればだれでも、
    ビジネスを強くスマートに育てられるプラットフォーム
    161億603万円 (資本準備⾦等含む)
    従業員数
    事業内容
    クラウド型バックオフィスサービス
    の開発・販売
    資本⾦
    設⽴年⽉⽇
    2012年7⽉
    506名(2019年6⽉末時点)

    View Slide

  4. 創業からIPOまで、バックオフィス領域における中⼩企業活性化のためのサービスを⼀気通貫で提供
    ❂ 納税する
    ↗ 育てる
    ↻ 運営する
    ✩ はじめる
    会社設⽴ freee
    開業 freee
    クラウド会計ソフト freee
    ⼈事労務 freee
    (マイナンバー管理 freee 含む)
    クラウド申告 freee
    7つのメインプロダクト

    View Slide

  5. アジェンダ
    1. データ基盤紹介
    2. 運⽤事例紹介
    3. まとめ・今後の課題

    View Slide

  6. 1 データ基盤紹介
    6
    Section

    View Slide

  7. 特徴
    ● さまざまなユーザー
    ● 多様なデータソース
    ● セキュリティ⼤事

    View Slide

  8. 現状のデータ基盤の全容
    基本的にはAWSのサービスを使っています
    σʔλιʔε σʔλநग़ɾՃ޻ɾऔΓࠐΈ #*
    RDS/Aurora
    (プロダクトDBs)
    S3(ログ)
    外部SaaS
    %8)
    Batch
    Redshift
    S3(Data Lake)
    Athena
    Lambda
    Digdag
    EC2
    参照
    参照
    S3
    ECS Glue
    ※説明の都合上、⼀部簡略化して書いております

    View Slide

  9. 本⽇の発表範囲
    DWH/BIの話ということで、Redshift/Redashの話をメインにします
    σʔλιʔε σʔλநग़ɾՃ޻ɾऔΓࠐΈ #*
    RDS/Aurora
    (プロダクトDBs)
    S3(ログ)
    外部SaaS
    %8)
    Batch
    Redshift
    S3(Data Lake)
    Athena
    Lambda
    Digdag
    EC2
    参照
    参照
    S3
    ECS Glue
    ※説明の都合上、⼀部簡略化して書いております

    View Slide

  10. 2 運⽤事例紹介
    10
    Section

    View Slide

  11. Redshiftの運⽤
    ● データ
    ○ マスク処理、カラム落としを⾏ったデータ
    ● クラスター3台を使い分け
    ○ primary, replica-1, replica-2

    View Slide

  12. Redshiftの使ってみて
    良いところ 苦労しているところ
    ● コストの⾒通しは⽴てやすい
    ○ データスキャン量課⾦ではない
    ● ちょっとした集計クエリを回す分には○
    ● S3との相性◎
    ● キャパシティプランニング難しい
    ○ 気づいた時にはDiskの100%
    ● テーブルのチューニング必要
    ○ DISTSTYLE/DISTKEY/SORTKEY周りの
    指定
    ○ 再分散が起こるとクエリは重い

    View Slide

  13. Redashの運⽤
    ● データソースは都度追加
    ● EC2インスタンスにDockerいれて稼働
    ● Mackerelで監視
    ● 全社員に開放
    Redashのクエリ画⾯

    View Slide

  14. Redashをつかってみて
    ● (OSS版)運⽤費が安い
    ○ インスタンス費⽤だけ!
    ● 定期的にKPI集計⽤のクエリを回す分には⼗分
    ● Spreadsheetへ集計結果も連携可能
    (セキュリティがガチガチでなければ・・)
    ● SQL書く前提のツールなので⼈によってはハー
    ドル⾼いので普及に限界
    ● Schedule実⾏のクエリが同時多発で実⾏されて
    RedashのWorkerのQueueが詰まる
    ○ ひいてはRedshiftも・・・・
    良いところ 苦労しているところ

    View Slide

  15. こういう⽅におすすめ
    ● Redshift
    ○ 予め予算を取る際に確実な⾦額をださないと通りにくい企業
    ○ 全社的にAWS使っている企業
    ● Redash
    ○ 無料でつかってみたい⽅(OSS版)
    ○ さくっと簡単な可視化をしたい⽅
    ○ SQLで書くことが苦でない⽅

    View Slide

  16. 3 まとめ・今後の課題
    16
    Section

    View Slide

  17. まとめ
    ● freeeの中でRedshift/Redashは現役バリバリ
    ● Redshiftまぁまぁいいぞ
    ● Redashは試しに使ってみるのオススメ

    View Slide

  18. 今後の課題
    ● Redshiftの新しいインスタンスタイプ試す
    ● データカタログ整備(メタデータ管理)
    ● ETL周りの処理のリファクタ・レガシーなやつを移⾏

    View Slide

  19. 最後に
    データエンジニア募集中!!
    https://jobs.forkwell.com/freee/jobs/7063

    View Slide

  20. スモールビジネスを、
    世界の主役に。

    View Slide