サーバーレスアーキテクチャにおける AWS と SaaS を活用してのスパイクアクセス対策

サーバーレスアーキテクチャにおける AWS と SaaS を活用してのスパイクアクセス対策三浦一樹北海道テレビ放送株式会社 2023/09/28

@shimagaji 無念の欠席

代打登壇！

資料がない！

先週の使い回し

serverless days のほぼ再演です

自己紹介三浦一樹北海道テレビ放送株式会社 Sonu Kim 株式会社Serverless Operations

放送に関することはいっさい仕事でやってません！

サービス紹介

2012年4月サービス開始前身のサービス PaaS を採用フロントの改修が大変スパイクに耐えられない他の自社サービスとデータ連携できない 10 年も経つと課題が、、

2つサービスの開発運用 2022 年 3 月〜 2022 年 4 月〜フルスクラッチ
AWS サーバレスで

サーバレスのおかげでなんとか 2022 年 3 月〜 2022 年 4 月〜エンジニア5名
3年前に未経験の人たちでスタート

VPC LESS VPC LESS VPC LESS OS 　LESS OS 　LESS
OS 　LESS

OIDC OIDC OIDC 全体アーキテクチャ(簡易) S3 MediaConvert S3 DynamoDB DynamoDB DynamoDB
AppSync Lambda API-GW Step Functions API-GW Amplify Amplify 担当者向け CMS 倉庫システム BFF Frontend Backend

ServerlessDays Tokyo 2022 Virtual 詳しくは昨年の ServerlessDays の資料で！

動画配信サービス hod どうでしょうの新作配信

過去のどうでしょう新作はすべてサーバーダウン

放送は落ちないのにねぇ

やってやろうじゃないの

25,000ユーザ / 5,000 TPS を耐えられるように！！絶対落ちないように ※オンプレ時代の情報を元にざっくり算出

今日のお話に出てくる覚えておいて欲しい Limit

今日のお話に出てくる AWS Service Limit AppSync Rate of request tokens DynamoDB
Hot Partition 2,000 /s (soft limit) 3,000 read /s 1,000 wright /s (hard limit) 1,500KB秒以下のメモリとvCPU時間で1トークン普通に使ってると、1 TokenConsumed / 1 query

課題

DynamoDB のホットパーテーション多段 connection 問題 AppSync TokenConsumed 問題近い構成で高負荷状態ではTokenが減少するのを確認済み

EpisodeGroup 1対多 1対多 AppSync と DynamoDB の関係 DynamoDB AppSync Program
Connection ConnectionEpisode Episode 1対多 1対1 1対1 Recoil に格納初期ロード時に全てのデータを DynamoDB User ユーザ系のデータ（ログイン時）くらい番組情報は全部で10MB amplify-cli で、どんどん増やしちゃった番組系のデータ

EpisodeGroup 1対多 1対多 AppSync と DynamoDB の関係 DynamoDB AppSync Program
Connection ConnectionEpisode Episode 1対多 1対1 1対1 くらい番組情報は全部で10MB AppSync で 3000 resolver が解決 AppSync で 200 TokenConsumed DynamoDB で EpisodeTableに集中 1query で＋

(別構成)AppSync と TokenConsumed 負荷をかけると1クエリあたりのToken消費が減る

負荷かけたけど 100 Token/query までしか下がらない

5000 TPS だと 5000 TPS ✖︎ 100 tokenだから quota は
50万必要...

AWS さん！ 50万 Token まで上げて！！！

まぁ、一旦落ち着こうか

AWSさんのご提案・cacheを使ってみよか・バックエンド作り直そか

残り２ヶ月でバックエンド作り直しは無理、、

cache しかない！！

キャッシュの試行錯誤

キャッシュはVPC内サービス、、 ElastiCache はVPC使うので却下 DAX はVPC使うので却下 AppSync に cache がついてる FULL
cache Per resolver cache これらも結局、ElastiCacheで時間課金 Cache 導入によるToken低減の期待キャッシュにオフロードできたらToken減りそう 1,500KB秒以下のメモリとvCPU時間で1トークン

AppSync の Cache Full request caching Per-resolver caching AppSync

AppSync の Cache テストしてみた Full request caching Tokenが激増 6000/query Per-resolver
caching ホットパーテーションは回避可能 Tokenは減らない。。 AppSync

これは、もう、、デスマーチ宣言をするしか、、 ☠️

サーバーレスでキャッシュがあればなぁ

4月の渋谷の夜 photo by @TAKA_0411

もめんと！

Momentoの導入

元DynamoDBを担当してた方が立ち上げたサーバーレスキャッシュサービス Momento Cache Topics

キムさんにMomentoの相談(本番50日前くらい) AppSync Merged API 採用の検討フロントエンドの修正を最小限にフロントエンドver とバックエンドver の提案
キャッシュ取得の構成案をMomentoチームと相談構成図の解説

AppSync の Merged API Build time アプローチ Run time アプローチ

AppSync の後ろに Momento Cache

AppSync の subscription 使いたい

実際の構築（2週間くらい）

実際の構成

更新を含めると

超えてきたハードル

Lambdaペイロードサイズ制限バースト耐性 momento上限緩和等実装で気をつけたこと

Lambdaペイロードサイズ制限同期呼出で6MBを超えることができず AppSyncリゾルバーではストリーミング応答もできない番組データのサンプルは最大10MBを想定更新を含めると

JSON 文字列圧縮バイナリ Chunk 1 (1MB) Chunk 1 (1MB) Chunk
1 (1MB) 圧縮バイナリのチャンク単位で Momentoにキャッシュさせる → 3MB 10MB ・・・ Momento Cache

負荷試験中、AWS Lambda でおきたスロットル

AWS Lambda のバースト耐性 Token Bucket Algorithm 同時実行数（Concurrency）とバースト制限 ※「AWS Lambda におけるバースト耐性」：https://aws.amazon.com/jp/builders-flash/202212/lambda-burst-resistance

リクエスト不可に応じたバースト制限の同時実行数とスロットリング → リトライと Provisioned Concurrency で対応 ※「AWS Lambda におけるバースト耐性」：https://aws.amazon.com/jp/builders-flash/202212/lambda-burst-resistance

Momentoキャッシュのサービス上限と緩和申請 ~ 5000 TPS ~ 5000 TPS × 1MB チャンクは
1MB までなのでそのまま

Momentoチームに課題と構成案を説明・相談 ※日本語のサポートもあります！ MoCon参加で前フリをしていたので、今回は英語で。

相談したバックエンドverの構成

相談したフロントエンドverの構成

モニタリング負荷試験

負荷試験はDistributed Load Testing on AWSを使用 5,000 rps まで負荷の負荷試験を実施 20,000 Token/s
まで上限緩和するために負荷試験を求められた AppSyncのdevとprodが同アカウントの同リージョン段階的に上限緩和をしてもらう Momento 込みで負荷試験

Distributed Load Testing on AWS CloudFormation テンプレートを配布してる

CloudWatchメトリクスで確認毎秒の値はCloudWatch Logs Insight で（高い） JMeterでレスポンスの情報をS3に保存 Colaboratory で集計してお金の節約 Momento のメトリクスもCloudWatchに連携
モニタリング

CloudWatch Dashboard dev と prod を手動で作るの大変。。 CDKは途中で心折れた…

段階的に負荷をかけていく

5,000 TPS クリア！！

CloudWatch Dashboard 負荷をかけると反応が良くなる Momento Cache 1700ms 700ms AVG 5min
Momento Cache Get Latency

もともとは AppSync Rate of request tokens DynamoDB Hot Partition 2,000
/s (soft limit) AppSync DynamoDB 200 3,000 read /s 1,000 wright /s (hard limit) TokenConsumed

上限緩和とMomento の導入 AppSync Rate of request tokens DynamoDB Hot Partition
2,000 /s (soft limit) Momento が受けてくれる！ 20,000 /s ↓ AppSync Lambda Resolver Momento Cache Concurrent executions 20,000 + Provisioned Concurrency 1 TokenConsumed

REALLY APPRECIATE!!

配信当日

8/30 23:45:00

リクエスト数 AppSync

リクエスト数 3000 request/min AppSync

リクエスト数 3000 request/min あ、オンプレのデータって毎分だったのね、、 AppSync

リクエスト数毎秒100くらい… AppSync

無風 😆

はじめて陥落しなかったからヨシ！

まとめ

ついにサーバレスキャッシュがやってきた！フロントにキャッシュするしかなかった全体でのキャッシュ戦略を考えたい NoSQL の設計をもう一度 @connection ディレクティブどうする？ Amplify GraphQL Transformer
v2 ? AppSync Resolver 自分で書く？大規模な上限緩和の相談はお早めに AWSさんには本当に感謝です負荷試験は時間かかりますまとめ

ありがとうございました！三浦一樹北海道テレビ放送株式会社 Sonu Kim 株式会社Serverless Operations 2023/09/23

サーバーレスアーキテクチャにおける AWS と SaaS を活用しての スパイクアクセス対策

サーバーレスアーキテクチャにおける AWS と SaaS を活用しての スパイクアクセス対策

More Decks by Kazuki Miura

Other Decks in Technology

Featured

Transcript

サーバーレスアーキテクチャにおける AWS と SaaS を活用してのスパイクアクセス対策

サーバーレスアーキテクチャにおける AWS と SaaS を活用してのスパイクアクセス対策