freee 株式会社freeeのデータ基盤におけるDWH/BIの運⽤事例紹介Data Engineering Study #12020.07.15
View Slide
新卒で外資系IT企業にて技術営業2017年5⽉ freeeに⼊社⼊社当初はデータサイエンティスト2017年10⽉からデータ総合格闘家(フライ級)最近ハマっている⻝べ物は鯵の⼲物freee株式会社中⼭ 裕介(yusuken ※nは黙字)
スモールビジネスを、世界の主役に。アイデアやパッションやスキルがあればだれでも、ビジネスを強くスマートに育てられるプラットフォーム161億603万円 (資本準備⾦等含む)従業員数事業内容クラウド型バックオフィスサービスの開発・販売資本⾦設⽴年⽉⽇2012年7⽉506名(2019年6⽉末時点)
創業からIPOまで、バックオフィス領域における中⼩企業活性化のためのサービスを⼀気通貫で提供❂ 納税する↗ 育てる↻ 運営する✩ はじめる会社設⽴ freee開業 freeeクラウド会計ソフト freee⼈事労務 freee(マイナンバー管理 freee 含む)クラウド申告 freee7つのメインプロダクト
アジェンダ1. データ基盤紹介2. 運⽤事例紹介3. まとめ・今後の課題
1 データ基盤紹介6Section
特徴● さまざまなユーザー● 多様なデータソース● セキュリティ⼤事
現状のデータ基盤の全容基本的にはAWSのサービスを使っていますσʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #*RDS/Aurora(プロダクトDBs)S3(ログ)外部SaaS%8)BatchRedshiftS3(Data Lake)AthenaLambdaDigdagEC2参照参照S3ECS Glue※説明の都合上、⼀部簡略化して書いております
本⽇の発表範囲DWH/BIの話ということで、Redshift/Redashの話をメインにしますσʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #*RDS/Aurora(プロダクトDBs)S3(ログ)外部SaaS%8)BatchRedshiftS3(Data Lake)AthenaLambdaDigdagEC2参照参照S3ECS Glue※説明の都合上、⼀部簡略化して書いております
2 運⽤事例紹介10Section
Redshiftの運⽤● データ○ マスク処理、カラム落としを⾏ったデータ● クラスター3台を使い分け○ primary, replica-1, replica-2
Redshiftの使ってみて良いところ 苦労しているところ ● コストの⾒通しは⽴てやすい○ データスキャン量課⾦ではない● ちょっとした集計クエリを回す分には○● S3との相性◎● キャパシティプランニング難しい○ 気づいた時にはDiskの100%● テーブルのチューニング必要○ DISTSTYLE/DISTKEY/SORTKEY周りの指定○ 再分散が起こるとクエリは重い
Redashの運⽤● データソースは都度追加● EC2インスタンスにDockerいれて稼働● Mackerelで監視● 全社員に開放Redashのクエリ画⾯
Redashをつかってみて● (OSS版)運⽤費が安い○ インスタンス費⽤だけ!● 定期的にKPI集計⽤のクエリを回す分には⼗分● Spreadsheetへ集計結果も連携可能(セキュリティがガチガチでなければ・・)● SQL書く前提のツールなので⼈によってはハードル⾼いので普及に限界● Schedule実⾏のクエリが同時多発で実⾏されてRedashのWorkerのQueueが詰まる○ ひいてはRedshiftも・・・・良いところ 苦労しているところ
こういう⽅におすすめ● Redshift○ 予め予算を取る際に確実な⾦額をださないと通りにくい企業○ 全社的にAWS使っている企業● Redash○ 無料でつかってみたい⽅(OSS版)○ さくっと簡単な可視化をしたい⽅○ SQLで書くことが苦でない⽅
3 まとめ・今後の課題16Section
まとめ● freeeの中でRedshift/Redashは現役バリバリ● Redshiftまぁまぁいいぞ● Redashは試しに使ってみるのオススメ
今後の課題● Redshiftの新しいインスタンスタイプ試す● データカタログ整備(メタデータ管理)● ETL周りの処理のリファクタ・レガシーなやつを移⾏
最後にデータエンジニア募集中!!https://jobs.forkwell.com/freee/jobs/7063
スモールビジネスを、世界の主役に。