freeeのデータ基盤におけるDWH/BIの運用事例紹介
by
yusukensanta
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
freee 株式会社 freeeのデータ基盤におけるDWH/BIの運⽤事例紹介 Data Engineering Study #1 2020.07.15
Slide 2
Slide 2 text
新卒で外資系IT企業にて技術営業 2017年5⽉ freeeに⼊社 ⼊社当初はデータサイエンティスト 2017年10⽉からデータ総合格闘家 (フライ級) 最近ハマっている⻝べ物は鯵の⼲物 freee株式会社 中⼭ 裕介 (yusuken ※nは黙字)
Slide 3
Slide 3 text
スモールビジネスを、世界の主役に。 アイデアやパッションやスキルがあればだれでも、 ビジネスを強くスマートに育てられるプラットフォーム 161億603万円 (資本準備⾦等含む) 従業員数 事業内容 クラウド型バックオフィスサービス の開発・販売 資本⾦ 設⽴年⽉⽇ 2012年7⽉ 506名(2019年6⽉末時点)
Slide 4
Slide 4 text
創業からIPOまで、バックオフィス領域における中⼩企業活性化のためのサービスを⼀気通貫で提供 ❂ 納税する ↗ 育てる ↻ 運営する ✩ はじめる 会社設⽴ freee 開業 freee クラウド会計ソフト freee ⼈事労務 freee (マイナンバー管理 freee 含む) クラウド申告 freee 7つのメインプロダクト
Slide 5
Slide 5 text
アジェンダ 1. データ基盤紹介 2. 運⽤事例紹介 3. まとめ・今後の課題
Slide 6
Slide 6 text
1 データ基盤紹介 6 Section
Slide 7
Slide 7 text
特徴 ● さまざまなユーザー ● 多様なデータソース ● セキュリティ⼤事
Slide 8
Slide 8 text
現状のデータ基盤の全容 基本的にはAWSのサービスを使っています σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8) Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
Slide 9
Slide 9 text
本⽇の発表範囲 DWH/BIの話ということで、Redshift/Redashの話をメインにします σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8) Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
Slide 10
Slide 10 text
2 運⽤事例紹介 10 Section
Slide 11
Slide 11 text
Redshiftの運⽤ ● データ ○ マスク処理、カラム落としを⾏ったデータ ● クラスター3台を使い分け ○ primary, replica-1, replica-2
Slide 12
Slide 12 text
Redshiftの使ってみて 良いところ 苦労しているところ ● コストの⾒通しは⽴てやすい ○ データスキャン量課⾦ではない ● ちょっとした集計クエリを回す分には○ ● S3との相性◎ ● キャパシティプランニング難しい ○ 気づいた時にはDiskの100% ● テーブルのチューニング必要 ○ DISTSTYLE/DISTKEY/SORTKEY周りの 指定 ○ 再分散が起こるとクエリは重い
Slide 13
Slide 13 text
Redashの運⽤ ● データソースは都度追加 ● EC2インスタンスにDockerいれて稼働 ● Mackerelで監視 ● 全社員に開放 Redashのクエリ画⾯
Slide 14
Slide 14 text
Redashをつかってみて ● (OSS版)運⽤費が安い ○ インスタンス費⽤だけ! ● 定期的にKPI集計⽤のクエリを回す分には⼗分 ● Spreadsheetへ集計結果も連携可能 (セキュリティがガチガチでなければ・・) ● SQL書く前提のツールなので⼈によってはハー ドル⾼いので普及に限界 ● Schedule実⾏のクエリが同時多発で実⾏されて RedashのWorkerのQueueが詰まる ○ ひいてはRedshiftも・・・・ 良いところ 苦労しているところ
Slide 15
Slide 15 text
こういう⽅におすすめ ● Redshift ○ 予め予算を取る際に確実な⾦額をださないと通りにくい企業 ○ 全社的にAWS使っている企業 ● Redash ○ 無料でつかってみたい⽅(OSS版) ○ さくっと簡単な可視化をしたい⽅ ○ SQLで書くことが苦でない⽅
Slide 16
Slide 16 text
3 まとめ・今後の課題 16 Section
Slide 17
Slide 17 text
まとめ ● freeeの中でRedshift/Redashは現役バリバリ ● Redshiftまぁまぁいいぞ ● Redashは試しに使ってみるのオススメ
Slide 18
Slide 18 text
今後の課題 ● Redshiftの新しいインスタンスタイプ試す ● データカタログ整備(メタデータ管理) ● ETL周りの処理のリファクタ・レガシーなやつを移⾏
Slide 19
Slide 19 text
最後に データエンジニア募集中!! https://jobs.forkwell.com/freee/jobs/7063
Slide 20
Slide 20 text
スモールビジネスを、 世界の主役に。