DynalystにおけるECSとAutoScalingを用いたアーキテクチャのアップデート | CA BASE NEXT

2019年度新卒⼊社 AI事業本部 AI本部領域拡⼤ディビジョン Dynalyst @ur 0 n 黒⾦宗史
Kurogane Shushi

໨࣍ Contents ໨࣍ Contents ໨࣍ Contents ໨࣍ Contents ໨࣍ Contents
Agenda 1 . Dynalstについて 2 . 旧アーキテクチャについて 1 . 旧アーキテクチャの概要 2 . 課題に感じていたところ 3 . ECSを⽤いたアーキテクチャのアップデートについて 1 . ECSの説明 2 . ECSを選択した経緯 3 . 新しいアーキテクチャとAutoScaling戦略 4 . よかったこと/悪かったこと

Dynalystについて

Dynamic Retargeting for Games DSP事業者スマホ向けリターゲティング広告配信   プラットフォーム⽇本のゲーム向け広告でトップシェアユーザーごとに最適化した広告を配信
Dynalystについて

システムの概況⼊札リクエスト/秒平均レスポンスタイム • ⼊札リクエスト量: 数⼗万リクエスト/秒(数千億リクエスト/⽉) • レスポンスタイム: 平均10ms •
ログの量: 数TB/Day(圧縮状態) • ALL AWS • アプリケーションは主にScala

• SSPと呼ばれる広告枠を管理しているシステムとインテグレーションしリクエストを送ってもらう -> 接続しているSSPによってリクエストに傾向がある • OpenRTBというプロトコルに準拠する必要があるため 10 0 ms以内にレスポンスを
返却しなければならない DSPのシステム 10 0 ms 以内 DSP DSP DSP SSP 広告枠１ WEBサイトやアプリ

旧アーキテクチャについて

Dynalystのアーキテクチャここがメインのサーバーで今⽇話すところ

配信サーバー(旧アーキテクチャ) • EC 2 を固定台数で運⽤している • ミドルウェアは直接インストール • fl uentdでログファイルを監視し
  kinesisなどに流す • 旧世代のClassicLoadBalancerを使⽤している

デプロイフロー(旧アーキテクチャ) • リリースはgithubでタグを切って踏み台にSSHし特定のサーバーを選択しデプロイする • 半分は⼿作業

•デプロイに労⼒を使う •⻑期的なトラフィックの変化に対応できない •コストの最適化ができていない課題に感じていたところ

• 踏み台サーバーからFabricを⽤いてデプロイする • ロードバランサーからデタッチしバージョンをリリースしたロードバランサーにアタッチする • デプロイ先のサーバーはhostsファイルで管理デプロイに労⼒をつかう Fabric 踏み台サーバー
bidインスタンス Classic Loadbalancer デプロイのたびに踏み台にsshし、デプロイが終わるまで⾒守る必要がある毎回30分ほどかかる /etc/hosts 10 . 0 . 0 . 1 bid 01 10 . 0 . 0 . 2 bid 02 … ..   10 . 0 . 0 . 110 bid 120 $ deploy bid 01 ,bid 02 ,bid 03… bid 1 20

•デプロイに労⼒を使う •⻑期的なトラフィックの変化に対応できない •コストの最適化ができていない課題に感じていたところ

DSPのトラフィックの上限/下限は⼤体同じだが、、、⻑期的なトラフィックの変化に対応できない

⻑期間で⾒ると上限がどんどん増えている⻑期的なトラフィックの変化に対応できない事業的な戦略でリクエスト量が増える場合もある点線が1ヶ⽉前のリクエスト量上限が1割ほど増加

⻑期的なトラフィックの変化に対応できない EC 2 Launch Template 踏み台サーバー bid xxx • AWSのコンソールにてLaunchTemplateからEC
2 を作成 • 新しいインスタンスのIPを控えhostsファイルを編集 • 踏み台サーバーからItamaeを使ってプロビジョニング • Fabricにてデプロイ⼿作業を強いられる上に 1台追加ごとに最⼤30分ほど時間がかかる

課題に感じていたところ •デプロイに労⼒を使う •⻑期的なトラフィックの変化に対応できない •コストの最適化ができていない

トラフィックの傾向に合わせてEC 2 を   簡易的にスケーリングしていたコストの最適化ができていない毎朝10台ほどcronでEC 2 をstop リクエストが戻る前にcronでEC
2 を起動もっと柔軟にスケーリングしコストの最適化ができるはず

ECSを⽤いたアーキテクチャのアップデート

• フルマネージド型のコンテナオーケストレーションサービス • インスタンスは管理するEC 2 型と   インスタンスも管理しなくて良いFargateが選べる   •
Cluster - タスクやサービスを使う論理的なグループ • Task De fi nition - コンテナの定義(使⽤するリソースなども含む) • Service - 実⾏環境の様々な設定を定義する • Task - TaskDe fi nitionに基づいて起動されたコンテナの実⾏単位 Elastic Container Service(ECS)

CapacityProviderとService Auto Scaling • CapacityProvider ECS Serviceで定義した実⾏数に応じてEC 2 インスタンスなどをオートスケーリングしてくれるもの ECSのコントロールプレーンとCloudWatch、AutoScalingGroupを組み合わせて動く
• Service Auto Scaling ECS Taskの実⾏数をスケーリングするもの

•デプロイに労⼒を使う •⻑期的なトラフィックの変化に対応できない •コストの最適化ができていない課題に感じていたところ(再掲)

•デプロイに労⼒を使う •⻑期的なトラフィックの変化に対応できない •コストの最適化ができていない課題に感じていたところ(再掲) 簡単にAutoScalingできるものにしたい

• アプリケーションやミドルウェアの起動は何で管理するか • Scale-Inする時にログが⽋損しないか • Scale-Outとデプロイが競合しないか AutoScalingする上で考えていたこと

AutoScalingする上で考えていたこと • アプリケーションやミドルウェアの起動は何で管理するか • Scale-Inする時にログが⽋損しないか • Scale-Outとデプロイが競合しないか

コンテナの依存関係を設定することでスケールイン時にログの⽋損をなくすことができる Scale-In時のログの⽋損

ECS serviceはタスク数やバージョン情報を管理しているのでAutoScalingのタイミングと被っても古いバージョンのタスクが動いていたら⾃動で切り替えてくれる Scale-Outとデプロイの競合順次v 2 に再デプロイされる

• アプリケーションやミドルウェアの起動は何で管理するか Docker化することによりシンプルに • Scale-Inする時にログが⽋損しないか ECSのコンテナ間の依存関係とFluentdの挙動でカバー • Scale-Outとデプロイが競合しないか ECSはコンピュータリソースと実⾏管理が分かれている AutoScalingする上で考えること(再掲)

• nginx,Datadog,Scala, fl uentdをそれぞれサイドカーで⼀つのインスタンスに • CapacityProviderとServiceAutoScalingでオートスケーリングを実現 • EC
2 型を使⽤することでボリュームのマウントができるためログの収集を今まで通り⾏う • コンテナ間の依存関係を設定しログの⽋損を対策 • ELBからALBに移⾏新しいアーキテクチャ

• コンテナの起動時に実⾏ファイル(jar) をダウンロードする • 無駄なdocker buildの削減 • Terraformで新しいバージョンのリリースをするだけで⾃動的にリリースが完了する
新しいデプロイフロー

AutoScaling戦略 • 事前に負荷試験などを⾏い1台が捌けるQPSを調べる • ALBのRequestCountPerTargetというメトリクスを使い、   ターゲットごとのリクエスト数がちょうど良くなるようにスケーリングさせる

AutoScaling戦略 1つのタスクに流れるトラフィックを⼤体ベースラインに合わせるようにスケーリングしている

AutoScaling戦略タスクの起動/停⽌にかかる時間やスケーリング間隔により少しずれている部分はあるが概ね満たせていることがわかる • ⾚線がリクエスト数 • ⻘いエリアが満たせているキャパシティ • 処理できるQPS x
インスタンス数

• 良かったことデプロイがかなり楽になったミドルウェアの依存度を下げることができた AutoScalingができるようになったスポットインスタンスが導⼊しやすくなった • 悪かったこと通信費が増えてしまったスケールが遅い
良かったこと/悪かったこと

• ECSのコンテナネットワークはawsvpc mode を使⽤する • awsvpc modeを使⽤する場合、外部へのトラフィック(awsのマネージドサービスを含む)は NATゲートウェイを通さなくてはならない •
NATゲートウェイはトラフィックに料⾦がかかるためVPC Endpointを使⽤し料⾦を抑える通信費の増加

スパイクはあるものの問題ないパフォーマンスを出せている達成できたのか

達成できたのかチームのSlackチャンネルにて、使ってくれている⼈からも楽になったという報告が！

• ECS on EC 2 はスケーリングは速くないがDSPなど   トラフィックに傾向があるプロダクトでは⼗分   •
ECSを使うことでオートスケーリングやオートプロビジョニング、   デプロイなどで発⽣するさまざまな悩みから解放される • ECSを正しく利⽤すれば⾼トラフィック x 低レイテンシーな   ワークロードでも簡単にオートケーリングが導⼊できるまとめ

DynalystにおけるECSとAutoScalingを用いたアーキテクチャのアップデート |...

DynalystにおけるECSとAutoScalingを用いたアーキテクチャのアップデート | CA BASE NEXT

More Decks by CyberAgent

Other Decks in Technology

Featured

Transcript