freeeのデータ基盤におけるDWH/BIの運用事例紹介
by
yusuken
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
freee 株式会社 freeeのデータ基盤におけるDWH/BIの運⽤事例紹介 Data Engineering Study #1 2020.07.15
Slide 2
Slide 2 text
新卒で外資系IT企業にて技術営業 2017年5⽉ freeeに⼊社 ⼊社当初はデータサイエンティスト 2017年10⽉からデータ総合格闘家 (フライ級) 最近ハマっている⻝べ物は鯵の⼲物 freee株式会社 中⼭ 裕介 (yusuken ※nは黙字)
Slide 3
Slide 3 text
スモールビジネスを、世界の主役に。 アイデアやパッションやスキルがあればだれでも、 ビジネスを強くスマートに育てられるプラットフォーム 161億603万円 (資本準備⾦等含む) 従業員数 事業内容 クラウド型バックオフィスサービス の開発・販売 資本⾦ 設⽴年⽉⽇ 2012年7⽉ 506名(2019年6⽉末時点)
Slide 4
Slide 4 text
創業からIPOまで、バックオフィス領域における中⼩企業活性化のためのサービスを⼀気通貫で提供 ❂ 納税する ↗ 育てる ↻ 運営する ✩ はじめる 会社設⽴ freee 開業 freee クラウド会計ソフト freee ⼈事労務 freee (マイナンバー管理 freee 含む) クラウド申告 freee 7つのメインプロダクト
Slide 5
Slide 5 text
アジェンダ 1. データ基盤紹介 2. 運⽤事例紹介 3. まとめ・今後の課題
Slide 6
Slide 6 text
1 データ基盤紹介 6 Section
Slide 7
Slide 7 text
特徴 ● さまざまなユーザー ● 多様なデータソース ● セキュリティ⼤事
Slide 8
Slide 8 text
現状のデータ基盤の全容 基本的にはAWSのサービスを使っています σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8) Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
Slide 9
Slide 9 text
本⽇の発表範囲 DWH/BIの話ということで、Redshift/Redashの話をメインにします σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8) Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
Slide 10
Slide 10 text
2 運⽤事例紹介 10 Section
Slide 11
Slide 11 text
Redshiftの運⽤ ● データ ○ マスク処理、カラム落としを⾏ったデータ ● クラスター3台を使い分け ○ primary, replica-1, replica-2
Slide 12
Slide 12 text
Redshiftの使ってみて 良いところ 苦労しているところ ● コストの⾒通しは⽴てやすい ○ データスキャン量課⾦ではない ● ちょっとした集計クエリを回す分には○ ● S3との相性◎ ● キャパシティプランニング難しい ○ 気づいた時にはDiskの100% ● テーブルのチューニング必要 ○ DISTSTYLE/DISTKEY/SORTKEY周りの 指定 ○ 再分散が起こるとクエリは重い
Slide 13
Slide 13 text
Redashの運⽤ ● データソースは都度追加 ● EC2インスタンスにDockerいれて稼働 ● Mackerelで監視 ● 全社員に開放 Redashのクエリ画⾯
Slide 14
Slide 14 text
Redashをつかってみて ● (OSS版)運⽤費が安い ○ インスタンス費⽤だけ! ● 定期的にKPI集計⽤のクエリを回す分には⼗分 ● Spreadsheetへ集計結果も連携可能 (セキュリティがガチガチでなければ・・) ● SQL書く前提のツールなので⼈によってはハー ドル⾼いので普及に限界 ● Schedule実⾏のクエリが同時多発で実⾏されて RedashのWorkerのQueueが詰まる ○ ひいてはRedshiftも・・・・ 良いところ 苦労しているところ
Slide 15
Slide 15 text
こういう⽅におすすめ ● Redshift ○ 予め予算を取る際に確実な⾦額をださないと通りにくい企業 ○ 全社的にAWS使っている企業 ● Redash ○ 無料でつかってみたい⽅(OSS版) ○ さくっと簡単な可視化をしたい⽅ ○ SQLで書くことが苦でない⽅
Slide 16
Slide 16 text
3 まとめ・今後の課題 16 Section
Slide 17
Slide 17 text
まとめ ● freeeの中でRedshift/Redashは現役バリバリ ● Redshiftまぁまぁいいぞ ● Redashは試しに使ってみるのオススメ
Slide 18
Slide 18 text
今後の課題 ● Redshiftの新しいインスタンスタイプ試す ● データカタログ整備(メタデータ管理) ● ETL周りの処理のリファクタ・レガシーなやつを移⾏
Slide 19
Slide 19 text
最後に データエンジニア募集中!! https://jobs.forkwell.com/freee/jobs/7063
Slide 20
Slide 20 text
スモールビジネスを、 世界の主役に。