Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
節約は技術!削減は芸術!何より必要なものは覚悟!
Search
Masaya Hayashi
February 01, 2024
Technology
6
6.8k
節約は技術!削減は芸術!何より必要なものは覚悟!
第1回 AWSコスト削減 天下一武道会
https://no1.connpass.com/event/305664/
Masaya Hayashi
February 01, 2024
Tweet
Share
More Decks by Masaya Hayashi
See All by Masaya Hayashi
全部AI、全員Cursor、ドキュメント駆動開発 〜DevinやGeminiも添えて〜
rinchsan
11
6.4k
VPoEキャリア(へ|から)のマイルストーン 〜先週の質問への回答を添えて〜
rinchsan
1
250
Four Keysだけじゃ足りなくない? 〜俺たちだけのFour Keysを探して〜
rinchsan
5
6.9k
「スニダン」開発組織の構造に込めた意図 ~組織作りはパッションや政治ではない!~
rinchsan
4
1.1k
QAエンジニアってスクラムで何をすればいいの?
rinchsan
2
2.7k
CTOって何をすればいいの?
rinchsan
0
680
AWS月額利用料を$137,000→$87,000に削減して信頼性に投資した話
rinchsan
8
4.3k
フロー効率を重視して「2年半でエンジニア2名→35名」の急拡大組織で高い生産性を実現した話
rinchsan
21
14k
チームが自律して生産性を改善できる3つの原則
rinchsan
2
1.1k
Other Decks in Technology
See All in Technology
「全員プロダクトマネージャー」を実現する、Cursorによる仕様検討の自動運転
applism118
22
12k
大「個人開発サービス」時代に僕たちはどう生きるか
sotarok
20
10k
AWSを利用する上で知っておきたい名前解決のはなし(10分版)
nagisa53
10
3.2k
Autonomous Database - Dedicated 技術詳細 / adb-d_technical_detail_jp
oracle4engineer
PRO
4
10k
「Linux」という言葉が指すもの
sat
PRO
4
140
DroidKaigi 2025 Androidエンジニアとしてのキャリア
mhidaka
2
370
ハードウェアとソフトウェアをつなぐ全てを内製している企業の E2E テストの作り方 / How to create E2E tests for a company that builds everything connecting hardware and software in-house
bitkey
PRO
1
160
バイブスに「型」を!Kent Beckに学ぶ、AI時代のテスト駆動開発
amixedcolor
2
580
現場で効くClaude Code ─ 最新動向と企業導入
takaakikakei
1
260
5年目から始める Vue3 サイト改善 #frontendo
tacck
PRO
3
230
Agile PBL at New Grads Trainings
kawaguti
PRO
1
440
AI時代を生き抜くエンジニアキャリアの築き方 (AI-Native 時代、エンジニアという道は 「最大の挑戦の場」となる) / Building an Engineering Career to Thrive in the Age of AI (In the AI-Native Era, the Path of Engineering Becomes the Ultimate Arena of Challenge)
jeongjaesoon
0
220
Featured
See All Featured
Optimizing for Happiness
mojombo
379
70k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
113
20k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.6k
A designer walks into a library…
pauljervisheath
207
24k
Code Review Best Practice
trishagee
71
19k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Pragmatic Product Professional
lauravandoore
36
6.9k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
Transcript
2024/02/01 第1回 AWSコスト削減 天下一武道会 節約は技術!削減は芸術! 何より必要なものは覚悟! @rinchsan
今日のキーワード
ボトルネックから潰す 「覚悟」を持つ 今日のキーワード
目次 プロダクトの急成長 1 コスト削減もボトルネックから 2 いろいろなコスト削減 3 おまけ 4
CTO @SODA inc. ◦ 2020年10月に入社 ◦ Webエンジニア → VPoE(2022/01) →
CTO(2023/10) ⇧⇧⇧ Backend Engineer @CyberAgent ◦ 2019年新卒入社 バックエンドエンジニア ◦ Go / AWSでサービス開発 Masaya Hayashi - @rinchsan X@rinchsan
プロダクトの急成長 1
鑑定付き 利用者数 No.1 スニーカー・トレカ フリマアプリ
MAU リクエスト数 デプロイ頻度 AWS月額利用料 プロダクトの急成長
3年で 100万人 → 500万人 MAU プロダクトの急成長
負荷スパイク(人気スニーカー発売など) 1万〜2万 rps リクエスト数 プロダクトの急成長
Monthlyで 60回 〜 90回 Dailyで 3回 〜 4.5回 デプロイ頻度 プロダクトの急成長
2020/02〜2022/08で $43,000 → $146,000 AWS月額利用料 プロダクトの急成長
コスト削減もボトルネックから 2
パフォーマンスチューニングの鉄則は?
ボトルネックから潰す ボトルネックを放置したら効果ゼロ パフォーマンスチューニングの鉄則
“一カ所でも大きなボトル ネックが存在していると、 システム全体の性能が大き く上がることは決してあり ません。” ISUCON本
“実際に存在しているボトル ネックを解消せずに、他の 事例において効果的だった 手段だけをいくら積み重ね ても効果は薄いのです。” ISUCON本
支配的なコストから減らす 支配的な部分を放置したら効果ゼロ コスト削減も同じく ※ パフォーマンスの議論では計算量のオーダーが違うことが多いため、それと比べるとゼロというわけではない。
実際にどう削減されていったか
2022/08 - 2023/01 $146,000 → $87,000 半年で $60,000 削減
施策A:$40,000削減 施策B:$12,000削減 施策C:$2,700削減 ︙ 支配的なコストから削減
施策A:$40,000削減 施策B:$12,000削減 施策C:$2,700削減 ︙ 支配的なコストから削減 まさにコレが Elephant in the room
あともう1つ重要なもの
覚悟
事業成長が大事 コストには目をつぶることも 後回しになりがち コスト削減には「覚悟」も必要 ※ 会社の文化やフェーズにもよるため、すべての会社に当てはまることではないはずです。
覚悟 「早く削減するほど 効果が高い」 耳が痛いですね
いろいろなコスト削減 3
まずはボトルネックを探す
削減金額予想が支配的なものを優先 ※ 構想段階のシートのため最終的な実施有無とは異なる部分があります。 ←サッと対応できるものもやる
VPC Endpoint導入:削減金額予想が最も大きいところから
まずは VPC Endpoint から!
スニダンはECS, Aurora, Elasticache, S3, ... などのオーソドックスな構成 ECS Aurora S3 Elasticache
VPC Endpoint導入の背景 ECS NAT Gateway ECR S3 Internet Private subnet
大量にNAT Gatewayを通っているのは主にECR/S3への通信のはず
数百MBytesなコンテナイメージのPullが大量に走る ECS Task起動数は35〜150個。デプロイは月に多くて100回 (=1日に5回)
S3/ECRに対するVPC Endpointを作成 ECS VPC Endpoint ECR S3 Private subnet NAT
Gatewayの料金が $50,000 削減される見込み Private接続
NAT Gatewayの通信料が一気に削減!
ここまでで $40,000 の削減 🎉
あれ、 $10,000 足りない…?
あ!! ECR Public からの Pull が!!
ECS Taskの中に、ECR PublicからPullするサイドカーコンテナが ECS VPC Endpoint ECR S3 Private subnet
Private接続 NAT Gateway Internet ECR Public 試算すると、予想通り $10,000 に
ECR pull through cache の導入
ECR Public をキャッシュ Privateに自前で置かなくていい キャッシュ更新でイメージタグ更新 (自動でイメージタグが変わると困ることも多いので注意です) ECR pull through cache
とは
ECR pull through cache の利用 Pull through cache ECR Public
ECS VPC Endpoint ECR S3 Private subnet Private接続 Privateな ECR 上に ECR Public のイメージがキャッシュできるように 🎉
今度こそNAT Gatewayの通信量を大幅に削減!
ここまでで $52,000 の削減 🎉
次のボトルネックを探す
次のボトルネックを探す
WAFのログ配信先変更
WAFのログ配信先をCloudwatch LogsからS3へ Cloudwatch Logsに比べると可視化・分析は難しくなることに注意 ログ Cloudwatch Logs WAF ログ S3
WAF
ここまでで $54,700 の削減 🎉
次のボトルネック探しの旅へ...
不要リソースの削除 Gravitonインスタンスの利用 Auto-scaling policyの見直し 他にもいくつか細かいコスト削減を
不要リソースの削除 Gravitonインスタンスの利用 Auto-scaling policyの見直し 他にもいくつか細かいコスト削減を
アタッチされてないEIP削除 使われていない環境を削除 (EC2, ECS, Aurora, Elasticache…) 不要リソースの削除
不要リソースの削除 Gravitonインスタンスの利用 Auto-scaling policyの見直し 他にもいくつか細かいコスト削減を
Intelに比べてコスト効率20%向上 データストア系のみに適用 (ECSはARMで動くかの検証が必要でPendに) Gravitonインスタンスの利用
不要リソースの削除 Gravitonインスタンスの利用 Auto-scaling policyの見直し 他にもいくつか細かいコスト削減を
Step-scalingのしきい値調整 Target-tracking scalingの検証 Scheduled-scalingの設定調整 余分なECS/Auroraインスタンスが起動しないように
最終的に $60,000 の削減 🎉
おまけ 4
CloudFront の Request-Collapsing
CloudFront Request-Collapsing(リクエスト折りたたみ)とは CloudFront ALB S3 Origin接続 Users Originへのリクエストを最低回数に折りたたんでくれる https://docs.aws.amazon.com/ja_jp/AmazonCloudFront/latest/DeveloperGuide/RequestAndResponseBehaviorCustomOrigin.html#request-custom-traffic-spikes
ALB スニダンの課題:スパイク時の負荷が高くて大変! Users スパイクすると 2万rps くらいに跳ねる 💣💥 Aurora Elasticache ECS
スニダンではALBの前段にCloudFrontを設置して、Request-Collapsingの準備 CloudFront ALB ECS Route53の加重ルーティングを利用してダウンタイムなしで移行 👏
TTLが1秒のキャッシュポリシーを設定
TTL 1秒でも意外に高いキャッシュヒット率 対象エンドポイントのキャッシュヒット率は約12%に 🎉
Datadog APMから見たリクエスト数も大きく削減され、ECSやAuroraへの負荷が軽減 🎉 対象エンドポイントのリクエスト数も約半分に
もちろんコスト削減も
2023/06 - 2023/09 $26,400 → $24,300 DataTransfer + CloudFront が
$2,100 削減 ※ コスト削減はメインの目的ではありませんでしたが、ある程度の削減に成功 🎉
ユーザ体験も改善しつつコスト削減も 🎉
まとめ
ボトルネックから潰す 「覚悟」を持つ コスト削減で重要なコト
支配的コストを放置すると効果ゼロ まずは作戦を練るところから ボトルネックから潰す ※ パフォーマンスの議論では計算量のオーダーが違うことが多いため、それと比べるとゼロというわけではない。
コスト削減は後回しになりがち 削減しないと削減されない (あたりまえ) 「覚悟」を持つ
ボトルネックから潰す 「覚悟」を持つ コスト削減で重要なコト