失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋

©2024 Metaps Holdings, Inc. # 2024.12.18 渋⾕でSRE⼤忘年会失敗から始まるリアーキテクト: SREの実践例で⾒る改善の道筋株式会社メタップスホールディングス
プロダクトオーナー兼 SREマネジャー⼭北尚道

©2024 Metaps Holdings, Inc. ⾃⼰紹介⼭北尚道株式会社メタップスホールディングス srestプロダクトオーナー兼
SREマネジャー Yamakita Naomichi ＠sre_yamakita ベトナム‧ハノイでのオフショア事業⽴ち上げからキャリアをスタートし、アプリケーション開発からマネジメントまでを経験 2015年に当社参画。徐々にクラウドインフラにも携わり、現在は横断的なテックリードやSREチーフエンジニアとして従事「AWS DevDay Tokyo」登壇、「Amazon Web Services ブログ」、「builders.ﬂash」寄稿昨年よりSREのためのダッシュボード「srest」プロダクトオーナーを兼任

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. オンコール発⽣頻度の低下年
オンコール発生回数月あたりのオンコール回数 2022年 96回 8 2023年 66回 (↓31.25%) 5.5 2024年 (11月末時点) 40回 (↓39.39%) 3.6

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • ⼀⼈のSREエンジニアが2〜3のサービスを運⽤している
• アラートの発⽣頻度や傾向のトレースがおざなりに ◦ 「HTTP 5XXのアラート調査どうなりました?」→ アラートが多すぎてSlackのメッセージを⾒失う ◦ SentryやDatadogなど、アカウントを横断してアラートの傾向‧集計が⾒たい発⽣した課題

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. 何をしたか? •
Terraformディレクトリ構造の再構築 • Amazon DocumentDBからAmazon OpenSearch Serviceへの移⾏ • AWS Batchの導⼊

©2024 Metaps Holdings, Inc. 従来のディレクトリ設計 • EC2やS3など、サービス単位でディレクトリを分ける • 操作ミスが発⽣しても障害範囲を最⼩限に抑えられる •
複数⼈で作業していても、コンフリクトが発⽣しにくい • stateがディレクトリ単位の管理となるため、dataの依存関係が分かりづらい

©2024 Metaps Holdings, Inc. ディレクトリ構造の⽐較ディレクトリを分けないサービスごとにディレクトリを分割抽象化したレイヤーでディレクトリを分割
applyの回数 1回で済む ▲サービス単位で実行レイヤーの粒度で実行安全性 ▲低い (影響範囲が広域に及ぶ) 高い比較的高い tfstateのサイズ ▲非常に大きい (applyの実行速度に影響) 小さい比較的小さいリソース間の依存関係シンプル ▲複雑比較的シンプルコンフリクト ▲発生しやすい発生しづらい比較的発生しづらい

©2024 Metaps Holdings, Inc. Amazon DocumentDBから Amazon OpenSearch Serviceへの移⾏
23

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • srestは、EventBridgeやAPIからイベントを
収集‧可視化する仕組みのため、スキーマレスでデータを格納できるデータベースが適していた • AWSのサービスではOpenSearch Service、 DocumentDBが候補に上がっていた • OpenSearch Serviceは利⽤料が⾼額になるため、初期リリース段階ではDocumentDB を採⽤ • ...は、想定していたが、ドキュメントが数百万を超えた辺りから、ダッシュボードでのリアルタイム集計が厳しくなった DocumentDBの採⽤理由

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • 料⾦の試算
◦ 安定稼働にはデータノードのほか、マスターノードが最低3台必要 ◦ 変数が多く、料⾦試算が難しい ▪ データノードのインスタンスサイズ、インスタンス数、ストレージサイズ ▪ マスターノード数 ▪ 利⽤者増加に伴うスケール設計 • データはExpand and Contract⽅式で移⾏ OpenSearch Service移⾏への課題

©2024 Metaps Holdings, Inc. Amazon DocumentDB Amazon OpenSearch Service Amazon
DynamoDB 書き込み中速低速高速読み込み ▲中速 (メモリ次第) 高速高速複雑な検索可能可能 ▲やや難しい (設計次第) スケーラビリティ中高 (インデックスやシャードの設計が必要) 高 (オートスケール可能) メンテナンスウィンドウありありなし利用料インスタンスやストレージ使用量による (RI) インスタンスやストレージ使用量による安いスキーマレスデータベースの機能⽐較

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. Lambda 15分の壁
• srestではOpenSearchで収集したログの集計を回していたが、Lambdaでは15分の制限があり、バッチが終わらない状況が発⽣ • 候補として上がったのはAWS Fargateと AWS Batch。今回はジョブキュー管理もできるBatchを採⽤

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • Fargate基盤
(あるいはEC2) でSQS + Run taskを実⾏することができる ◦ ジョブを作成すると、ECSクラスターのコンソールでクラスターが作成されていることが確認できる • バッチの種別によって柔軟にコンピューティングリソースを設定可能 ◦ タスク定義はBatchのコンソールから登録 Fargateとの違いは?

©2024 Metaps Holdings, Inc. AWS Lambda AWS Fargate AWS Batch
構築が容易か ◎ △ (デプロイの整備) ◯ 大規模データ処理 ▲✕ △ ◯ 実行速度 ◎ ◯ △ リトライありなしあり他のサービスとの連携 ◎ △ △ 実行時間の制限 ▲最大15分なしなしサーバーレスコンピューティング環境の⽐較

失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋

失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋

Naomichi Yamakita

More Decks by Naomichi Yamakita

Featured

Transcript

©2024 Metaps Holdings, Inc. # 2024.12.18 渋⾕でSRE⼤忘年会失敗から始まるリアーキテクト: SREの実践例で⾒る改善の道筋株式会社メタップスホールディングス

©2024 Metaps Holdings, Inc. ⾃⼰紹介⼭北尚道株式会社メタップスホールディングス srestプロダクトオーナー兼

©2024 Metaps Holdings, Inc. はじめに 3

©2024 Metaps Holdings, Inc. SREの皆様 1年間お疲れ様でした 4

©2024 Metaps Holdings, Inc. 今年、信頼性を向上させる施策はできましたでしょうか? 5

©2024 Metaps Holdings, Inc. (弊社の場合) オンコール発⽣頻度を計測してみました 6

©2024 Metaps Holdings, Inc. 2022年のオンコール

©2024 Metaps Holdings, Inc. 2023年のオンコール

©2024 Metaps Holdings, Inc. 2024年のオンコール (11⽉末時点)

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. オンコール発⽣頻度の低下年

©2024 Metaps Holdings, Inc. メタップスHDにおける SREの運⽤体制 11

©2024 Metaps Holdings, Inc. SREはプロダクトを横断した組織

©2024 Metaps Holdings, Inc. SREの関⼼領域

©2024 Metaps Holdings, Inc. フレームワークの構成をベースに各サービスの運⽤を⽀援

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • ⼀⼈のSREエンジニアが2〜3のサービスを運⽤している

©2024 Metaps Holdings, Inc. 2024年9⽉にAWS横断監視ツール srestをリリース

©2024 Metaps Holdings, Inc. その上で、今年はインフラ基盤のリアーキテクトに⼒を⼊れました 17

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. 何をしたか? •

©2024 Metaps Holdings, Inc. Terraformディレクトリ構造の再構築 19

©2024 Metaps Holdings, Inc. 従来のディレクトリ設計 • EC2やS3など、サービス単位でディレクトリを分ける • 操作ミスが発⽣しても障害範囲を最⼩限に抑えられる •

©2024 Metaps Holdings, Inc. 新しいディレクトリ設計 • networkやstorageといった抽象化したレイヤーごとにディレクトリを分割 • dataの依存関係が分かりやすくなった

©2024 Metaps Holdings, Inc. ディレクトリ構造の⽐較ディレクトリを分けないサービスごとにディレクトリを分割抽象化したレイヤーでディレクトリを分割

©2024 Metaps Holdings, Inc. Amazon DocumentDBから Amazon OpenSearch Serviceへの移⾏

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • srestは、EventBridgeやAPIからイベントを

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • 料⾦の試算

©2024 Metaps Holdings, Inc. Amazon DocumentDB Amazon OpenSearch Service Amazon

©2024 Metaps Holdings, Inc. AWS Batchの導⼊ 27

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. Lambda 15分の壁

©2024 Metaps Holdings, Inc. ©2024 Metaps Holdings, Inc. • Fargate基盤

©2024 Metaps Holdings, Inc. AWS Lambda AWS Fargate AWS Batch

©2024 Metaps Holdings, Inc. 最後に 31

©2024 Metaps Holdings, Inc. システム構成は、要件や規模に応じてリアーキテクトを検討することが重要です 32

©2024 Metaps Holdings, Inc. 33