Upgrade to Pro — share decks privately, control downloads, hide ads and more …

1年間のポストモーテム運用とそこから生まれたツール sre-advisor / SRE NEX...

1年間のポストモーテム運用とそこから生まれたツール sre-advisor / SRE NEXT 2022

SRE NEXT 2022
2022-05-14 14:45〜15:15
https://sre-next.dev/2022/schedule#jp15

FUJIWARA Shunichiro

May 14, 2022
Tweet

More Decks by FUJIWARA Shunichiro

Other Decks in Technology

Transcript

  1. @fujiwara SREチーム 自社サービスを主に担当 ISUCON 11優勝 / ISUCON 12出題 github.com/kayac/ecspresso Amazon

    ECS デプロイツール github.com/fujiwara/lambroll AWS Lambda デプロイツール
  2. sre-advisorが検出する項目(例) Amazon ECS のタスク定義で、コンテナにulimitが定義されていない デフォルトのnofiles 1024では足りないことがある ALB のデフォルトアクションで forward を指定

    IPアドレスなどによる直接アクセスが意図せず貫通する デフォルトアクションでは静的に404を返却 forwardはHostヘッダ条件などのルールで行うのを推奨 AWS Lambda の呼び出しで alias や revision を指定していない デプロイ中に$LATESTを呼び出すとエラーが発生する可能性(2021年〜) Amazon RDS でデフォルトのパラメータグループを使っている デフォルトパラメータグループは編集できない 変更する際に再起動が必要になる
  3. 検出結果(例) [Critical] ECS のタスク定義『example:1 』内のコンテナ nginx にはulimits の設定が足りていません。 [Warning] ELB

    ロードバランサー『web 』のデフォルトアクションに"forward" タイプが使用されています。 [Warning] Lambda 関数『foo 』の$LATEST は『arn:aws:events:ap-northeast-1:123456789012:rule/bar 』 からのlambda:InvokeFunction の許可が与えられてます。 [Warning] DB インスタンス『db1 』のDB パラメータグループが『default.aurora-mysql5.7 』です。
  4. どう直せばいいのか推奨も表示する [Critical] ECS のタスク定義『example:1 』内のコンテナ nginx にulimits の設定を追加してください。 nofile,nproc に関して以下のように設定してください。

    "ulimits": [ { "name": "nofile", "softLimit": 10000, "hardLimit": 10000 }, { "name": "nproc", "softLimit": 10000, "hardLimit": 10000 } ], ECS Fargate タスクでのデフォルトのnofile のソフト制限は1024 です。 設定していない場合、Too many open files のようなファイルディスクリプタの上限に達して ECS タスクが突然終了するような現象が起きる可能性があります。
  5. Trusted Advisorの推奨はAPIで返ってくるものを表示 DescribeTrustedAdvisorChecks APIが親切にHTMLで文字列を返してくれる 適当にtext化 ───────────── 推奨アクション1────────────── [Warning] Trusted Advisor[cost_optimizing

    利用頻度の低い Amazon EBS ボリューム] をOK にしてください。CheckID:DAvU99Dc4C Amazon Elastic Block Store (Amazon EBS) ボリュームの設定をチェックして、 ボリュームが十分に使用されていない可能性を警告します。課金はボリューム作成時に開始します。 ボリュームがしばらくの間アタッチされないままになっているか書き込みアクティビティが非常に少ない ( ブートボリュームを除く) 場合、そのボリュームはおそらく使用されていません。 ...( 略)
  6. 指摘されても無視したいことはある [Warning] Trusted Advisor[fault_tolerance Amazon RDS Multi-AZ] がOK ではありません。 CheckID:f2iK5R6Dep

    「開発用のRDSしかないのでMulti-AZにはしていないんですよ」 設定ファイルでIDを指定すると指摘されなくなる rules: trusted_advisor: suppression_rules: - check_id: f2iK5R6Dep
  7. 結果を GitHub Flavored Markdown で出力できる $ advisor run --reporter github

    GitHub Actionsで実行 → gh issue create でissueにできる Advisor が完走しました。: 0 Critical, 1 Warning, 2 Suppressed, 30 Good 1 箇所の推奨アクションがあります。 <details> <summary> 動作ログ </summary> ```properties [Warning] ELB ロードバランサー『web 』のデフォルトアクションに"forward" タイプが使用されています。 `` ` </details> ## 推奨アクション - [ ] [Warning] ELB ロードバランサー『web 』のデフォルトアクションには"forward" タイプを使用しないでください。
  8. 定期的に指摘潰し祭り GitHub Actions workflow ポチ sre-advisor が issue 作成 推奨アクションを分担して解消

    無視したいものは設定ファイルで 人が見慣れた警告を無視する習慣を付け ないように運用
  9. 社内ツールの配布方法 sre-advisor は現在 internal repo private/internal repo の GitHub Release

    を取得するのはちょっと面倒 (このためにpersonal access tokenを用意するのは…) GitHub Actionsでビルド → Amazon S3へ配置する Organization の AWSアカウントで認証済みなら取得できるようにしてみた
  10. S3 Bucket Policy の設定でできます Condition で "aws:PrincipalOrgID" に AWS Organization

    ID を指定する → その Organization のアカウントからのみアクセスを許可できる { "Version": "2012-10-17", "Statement": [{ "Sid": "DelegateS3Access", "Effect": "Allow", "Principal": "*", "Action": ["s3:GetObject", "s3:ListBucket"], "Resource": ["arn:aws:s3:::example-bucket", "arn:aws:s3:::example-bucket/*"], "Condition": { "StringEquals": { "aws:PrincipalOrgID": "o-999999999" // ← ここがポイント } } }] }