Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
freeeのデータ基盤におけるDWH/BIの運用事例紹介
Search
yusukensanta
July 15, 2020
Technology
0
14k
freeeのデータ基盤におけるDWH/BIの運用事例紹介
yusukensanta
July 15, 2020
Tweet
Share
Other Decks in Technology
See All in Technology
AI時代のオンプレ-クラウドキャリアチェンジ考
yuu0w0yuu
0
650
AgentCoreとLINEを使った飲食店おすすめアプリを作ってみた
yakumo
2
270
開発チームとQAエンジニアの新しい協業モデル -年末調整開発チームで実践する【QAリード施策】-
qa
0
480
遊びで始めたNew Relic MCP、気づいたらChatOpsなオブザーバビリティボットができてました/From New Relic MCP to a ChatOps Observability Bot
aeonpeople
1
120
FastMCP OAuth Proxy with Cognito
hironobuiga
3
230
15年メンテしてきたdotfilesから開発トレンドを振り返る 2011 - 2026
giginet
PRO
2
230
JAWS DAYS 2026でAIの「もやっと」感が解消された話
smt7174
1
110
【AWS】CloudTrail LakeとCloudWatch Logs Insightsの使い分け方針
tsurunosd
0
130
Sansanの認証基盤を支えるアーキテクチャとその振り返り
sansantech
PRO
1
120
Zephyr(RTOS)でOpenPLCを実装してみた
iotengineer22
0
160
Bref でサービスを運用している話
sgash708
0
210
AIエージェント時代に必要な オペレーションマネージャーのロールとは
kentarofujii
0
230
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Navigating Team Friction
lara
192
16k
The SEO Collaboration Effect
kristinabergwall1
0
410
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
ラッコキーワード サービス紹介資料
rakko
1
2.8M
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
190
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
440
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Test your architecture with Archunit
thirion
1
2.2k
Transcript
freee 株式会社 freeeのデータ基盤におけるDWH/BIの運⽤事例紹介 Data Engineering Study #1 2020.07.15
新卒で外資系IT企業にて技術営業 2017年5⽉ freeeに⼊社 ⼊社当初はデータサイエンティスト 2017年10⽉からデータ総合格闘家 (フライ級) 最近ハマっている⻝べ物は鯵の⼲物 freee株式会社 中⼭ 裕介
(yusuken ※nは黙字)
スモールビジネスを、世界の主役に。 アイデアやパッションやスキルがあればだれでも、 ビジネスを強くスマートに育てられるプラットフォーム 161億603万円 (資本準備⾦等含む) 従業員数 事業内容 クラウド型バックオフィスサービス の開発・販売 資本⾦
設⽴年⽉⽇ 2012年7⽉ 506名(2019年6⽉末時点)
創業からIPOまで、バックオフィス領域における中⼩企業活性化のためのサービスを⼀気通貫で提供 ❂ 納税する ↗ 育てる ↻ 運営する ✩ はじめる 会社設⽴
freee 開業 freee クラウド会計ソフト freee ⼈事労務 freee (マイナンバー管理 freee 含む) クラウド申告 freee 7つのメインプロダクト
アジェンダ 1. データ基盤紹介 2. 運⽤事例紹介 3. まとめ・今後の課題
1 データ基盤紹介 6 Section
特徴 • さまざまなユーザー • 多様なデータソース • セキュリティ⼤事
現状のデータ基盤の全容 基本的にはAWSのサービスを使っています σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8)
Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
本⽇の発表範囲 DWH/BIの話ということで、Redshift/Redashの話をメインにします σʔλιʔε σʔλநग़ɾՃɾऔΓࠐΈ #* RDS/Aurora (プロダクトDBs) S3(ログ) 外部SaaS %8)
Batch Redshift S3(Data Lake) Athena Lambda Digdag EC2 参照 参照 S3 ECS Glue ※説明の都合上、⼀部簡略化して書いております
2 運⽤事例紹介 10 Section
Redshiftの運⽤ • データ ◦ マスク処理、カラム落としを⾏ったデータ • クラスター3台を使い分け ◦ primary, replica-1,
replica-2
Redshiftの使ってみて 良いところ 苦労しているところ • コストの⾒通しは⽴てやすい ◦ データスキャン量課⾦ではない • ちょっとした集計クエリを回す分には◦ •
S3との相性◎ • キャパシティプランニング難しい ◦ 気づいた時にはDiskの100% • テーブルのチューニング必要 ◦ DISTSTYLE/DISTKEY/SORTKEY周りの 指定 ◦ 再分散が起こるとクエリは重い
Redashの運⽤ • データソースは都度追加 • EC2インスタンスにDockerいれて稼働 • Mackerelで監視 • 全社員に開放 Redashのクエリ画⾯
Redashをつかってみて • (OSS版)運⽤費が安い ◦ インスタンス費⽤だけ! • 定期的にKPI集計⽤のクエリを回す分には⼗分 • Spreadsheetへ集計結果も連携可能 (セキュリティがガチガチでなければ・・)
• SQL書く前提のツールなので⼈によってはハー ドル⾼いので普及に限界 • Schedule実⾏のクエリが同時多発で実⾏されて RedashのWorkerのQueueが詰まる ◦ ひいてはRedshiftも・・・・ 良いところ 苦労しているところ
こういう⽅におすすめ • Redshift ◦ 予め予算を取る際に確実な⾦額をださないと通りにくい企業 ◦ 全社的にAWS使っている企業 • Redash ◦
無料でつかってみたい⽅(OSS版) ◦ さくっと簡単な可視化をしたい⽅ ◦ SQLで書くことが苦でない⽅
3 まとめ・今後の課題 16 Section
まとめ • freeeの中でRedshift/Redashは現役バリバリ • Redshiftまぁまぁいいぞ • Redashは試しに使ってみるのオススメ
今後の課題 • Redshiftの新しいインスタンスタイプ試す • データカタログ整備(メタデータ管理) • ETL周りの処理のリファクタ・レガシーなやつを移⾏
最後に データエンジニア募集中!! https://jobs.forkwell.com/freee/jobs/7063
スモールビジネスを、 世界の主役に。