Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
freeeのデータ基盤におけるDWH/BIの運用事例紹介
Search
yusuken
July 15, 2020
Technology
0
10k
freeeのデータ基盤におけるDWH/BIの運用事例紹介
yusuken
July 15, 2020
Tweet
Share
Other Decks in Technology
See All in Technology
公共領域から学ぶ クラウド移行についてエンジニアが意識していること
kawakawa2222
0
140
AIアシスタントの活用で品質の向上と開発ワークフローのスピードアップ
nagix
1
210
エンジニアリングマネージャーはどう学んでいくのか #devsumi / How Do Engineering Managers Continue to Learn and Grow?
expajp
4
1.3k
What if...? 처음부터 다시 LLM 어플리케이션을 개발한다면
huffon
0
1k
How to Think Like a Performance Engineer
csswizardry
4
590
エンジニアの生存戦略 〜クラウド潮流の経験から紐解く技術トレンドのメカニズムと乗りこなし方〜
shimy
9
1.9k
[2024最新版]AWS Control Towerを使ったセキュアなマルチアカウント環境の作り方
hiashisan
0
270
CTOから見た事業開発とプロダクト開発 / My Perspective on Business and Product Development as CTO
keisuke69
4
960
サービスの持続的な成長と技術負債について
siva_official
PRO
10
4.4k
AOAI Dev Day - Opening Session
yoshidashingo
2
470
初中級者用如何使用backlog -VALE TUDOEDITION-
in0u
0
140
Matterport を使ってクラスメソッド各拠点のバーチャルオフィスツアーを作成してみた
wakatsuki
0
160
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
39
47k
Designing Experiences People Love
moore
136
23k
Unsuck your backbone
ammeep
666
57k
From Idea to $5000 a Month in 5 Months
shpigford
377
46k
We Have a Design System, Now What?
morganepeng
46
7k
Debugging Ruby Performance
tmm1
71
11k
Robots, Beer and Maslow
schacon
PRO
157
8.1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
36
9.1k
Designing for Performance
lara
604
67k
How GitHub Uses GitHub to Build GitHub
holman
471
290k
Building Applications with DynamoDB
mza
89
5.8k
Transcript
freee 株式会社 freeeのデータ基盤におけるDWH/BIの運⽤事例紹介 Data Engineering Study #1 2020.07.15
新卒で外資系IT企業にて技術営業 2017年5⽉ freeeに⼊社 ⼊社当初はデータサイエンティスト 2017年10⽉からデータ総合格闘家 (フライ級) 最近ハマっている⻝べ物は鯵の⼲物 freee株式会社 中⼭ 裕介
(yusuken ※nは黙字)
スモールビジネスを、世界の主役に。 アイデアやパッションやスキルがあればだれでも、 ビジネスを強くスマートに育てられるプラットフォーム 161億603万円 (資本準備⾦等含む) 従業員数 事業内容 クラウド型バックオフィスサービス の開発・販売 資本⾦
設⽴年⽉⽇ 2012年7⽉ 506名(2019年6⽉末時点)
創業からIPOまで、バックオフィス領域における中⼩企業活性化のためのサービスを⼀気通貫で提供 ❂ 納税する ↗ 育てる ↻ 運営する ✩ はじめる 会社設⽴
freee 開業 freee クラウド会計ソフト freee ⼈事労務 freee (マイナンバー管理 freee 含む) クラウド申告 freee 7つのメインプロダクト
アジェンダ 1. データ基盤紹介 2. 運⽤事例紹介 3. まとめ・今後の課題
1 データ基盤紹介 6 Section
特徴 • さまざまなユーザー • 多様なデータソース • セキュリティ⼤事
現状のデータ基盤の全容 基本的にはAWSのサービスを使っています σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8)
Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
本⽇の発表範囲 DWH/BIの話ということで、Redshift/Redashの話をメインにします σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8)
Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
2 運⽤事例紹介 10 Section
Redshiftの運⽤ • データ ◦ マスク処理、カラム落としを⾏ったデータ • クラスター3台を使い分け ◦ primary, replica-1,
replica-2
Redshiftの使ってみて 良いところ 苦労しているところ • コストの⾒通しは⽴てやすい ◦ データスキャン量課⾦ではない • ちょっとした集計クエリを回す分には◦ •
S3との相性◎ • キャパシティプランニング難しい ◦ 気づいた時にはDiskの100% • テーブルのチューニング必要 ◦ DISTSTYLE/DISTKEY/SORTKEY周りの 指定 ◦ 再分散が起こるとクエリは重い
Redashの運⽤ • データソースは都度追加 • EC2インスタンスにDockerいれて稼働 • Mackerelで監視 • 全社員に開放 Redashのクエリ画⾯
Redashをつかってみて • (OSS版)運⽤費が安い ◦ インスタンス費⽤だけ! • 定期的にKPI集計⽤のクエリを回す分には⼗分 • Spreadsheetへ集計結果も連携可能 (セキュリティがガチガチでなければ・・)
• SQL書く前提のツールなので⼈によってはハー ドル⾼いので普及に限界 • Schedule実⾏のクエリが同時多発で実⾏されて RedashのWorkerのQueueが詰まる ◦ ひいてはRedshiftも・・・・ 良いところ 苦労しているところ
こういう⽅におすすめ • Redshift ◦ 予め予算を取る際に確実な⾦額をださないと通りにくい企業 ◦ 全社的にAWS使っている企業 • Redash ◦
無料でつかってみたい⽅(OSS版) ◦ さくっと簡単な可視化をしたい⽅ ◦ SQLで書くことが苦でない⽅
3 まとめ・今後の課題 16 Section
まとめ • freeeの中でRedshift/Redashは現役バリバリ • Redshiftまぁまぁいいぞ • Redashは試しに使ってみるのオススメ
今後の課題 • Redshiftの新しいインスタンスタイプ試す • データカタログ整備(メタデータ管理) • ETL周りの処理のリファクタ・レガシーなやつを移⾏
最後に データエンジニア募集中!! https://jobs.forkwell.com/freee/jobs/7063
スモールビジネスを、 世界の主役に。