Upgrade to Pro — share decks privately, control downloads, hide ads and more …

チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介

チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介

SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。

Red Frasco

May 18, 2023
Tweet

More Decks by Red Frasco

Other Decks in Technology

Transcript

  1. チーム⼀丸となって信頼性向上︕
    多種多様な監視でサイトを守る取り組みの紹介
    2023/05/19 SRE⼤集合︕みんなで学ぶ、信頼性を⾼めるための取り組みLT⼤会

    View Slide

  2. ⾃⼰紹介
    猪熊 朔也 ( いのくま さくや ) / @sinocloudon
    - 株式会社 Red Frasco
    - インフラエンジニア
    u経歴
    - ⾦融系 SIer, リクルート(SUUMO), ⾦融系スタートアップ, 現職
    uその他コメント
    - うどんが好きです
    - ラーメン⼆郎が好きです
    - うどん脳 をプロフィールアイコンにすることが多いです
    2

    View Slide

  3. 3
    前提

    View Slide

  4. ⼿短に前提のお話
    • 弊社 = 不動産業界 に特化した技術組織
    • 今回の LT は実際に我々が運⽤している いい部屋ネット
    (https://www.eheya.net/)における取り組みが題材です
    4

    View Slide

  5. 5
    我々が運⽤している
    基盤全体構成

    View Slide

  6. 6
    我々が運⽤している
    基盤全体構成
    監視・モニタリング対象
    たくさんありますよね

    View Slide

  7. 7
    本題

    View Slide

  8. SRE, 信頼性を⾼める がテーマということで…
    • 監視・モニタリングの話をします
    • 役割や職種にとらわれず、必要な項⽬を⾒極めながら、みんな
    で監視・モニタリング運⽤しています
    • 弊社では、監視を Datadog に集約しています
    8

    View Slide

  9. 9
    Datadog Monitor 数
    120

    View Slide

  10. 10
    ⼀挙紹介と⾔いたかったのですが
    時間が⾜りないので

    View Slide

  11. 多種多様な監視でサイトを
    守る取り組みの紹介 5選 !

    View Slide

  12. 12
    1. KPI のしきい値監視

    View Slide

  13. KPI 監視・モニタリング
    • 何を︓CV(コンバージョン)数
    • どうやって︓しきい値監視
    • なぜ︓AWS移⾏中で⼤きなリリースが多いので、最終防衛ライ
    ンとしてCV数を常時監視
    13

    View Slide

  14. 事業に貢献できているかどうかを監視する
    • CV 数が下がっていないか常に注意を払う
    • ⼤きなリリース後でもCV数が落ちていない安⼼感を得られる
    14
    Database
    CV 数取得 メトリクスPUT
    • Database から CV 数を取得して、
    Datadog に連携
    • デバイスごと(PC/SP/App)に CV 数を監
    視・モニタリング

    View Slide

  15. 15
    2. ステータスコードの Anomaly 監視

    View Slide

  16. ステータスコード 監視・モニタリング
    • 何を︓HTTP ステータスコード(301, 302, 404, 499)
    • どうやって︓Anomaly 監視
    • なぜ︓Bot, 攻撃などの短期間のアクセス傾向の変化を早期検知・対
    処する
    16
    ※ 50x は、エラー監視という位置付けでしきい値監視してます

    View Slide

  17. 監視 SaaS の機能を活⽤して「いつもと違う」を検知する
    • Datadog の Anomaly Monitor が便利
    • 元々は、CTO がお試しでシュッと⼊れたのがはじまり
    • 本⼈も忘れた頃に Anomaly Monitor が鳴る
    • しきい値がよくわからない、しきい値では正しく検知できない
    ものは Anomaly 監視がかなり効く
    17
    恥ずかしがり屋のCTO
    なに︕この監視︕誰⼊れたの︕︖(あなたです)

    View Slide

  18. 18
    3. WAFによるアクセスブロック監視

    View Slide

  19. WAF によるアクセスブロック監視・モニタリング
    • 何を︓403 エラーレート
    • どうやって︓しきい値監視、異常監視
    • なぜ︓脆弱性探索など不審なアクセスを検知する
    19

    View Slide

  20. ブロックされなかったアクセスは⽉次モニタリングで対処
    • ブロックをすり抜けてきた怪しいアクセスを⾒つけ出す
    • IP や User Agent の上位層を時系列で⾒てあたりをつける
    20

    View Slide

  21. 21
    4. 多段 Synthetics Test

    View Slide

  22. 多段 Synthetics Test
    • 何を︓各種 L7 エンドポイント(www.eheya.net, CDN, オリジン)
    • どうやって︓Synthetics Test
    • なぜ︓アラートの出⽅によって問題箇所の特定がすぐにできる
    22

    View Slide

  23. 1つではなく多段で⾒る
    • 多段 Synthetics にすることで、問題発⽣時の切り分けがスムーズ
    • ①, ②, ③ のどの部分から不調になっているかがすぐわかる
    23
    Route 53 CloudFront ELB ECS
    オンプレ基盤
    Route 53 の部分だけではなく、すべての
    エンドポイントに対して Synthetics Test
    を実⾏する
    ① ② ③

    View Slide

  24. 24
    5. マルチアカウントのコスト予実管理

    View Slide

  25. AWS コスト監視・モニタリング
    • 何を︓利⽤料実績, 利⽤料予測(Org全体、各アカウント)
    • どうやって︓しきい値監視
    • なぜ︓予算超過リスク、想定外の利⽤を早期検知して削減策を打つ
    25

    View Slide

  26. Monitor による検知と⽉次のダッシュボード確認でコスト最適化
    • 実績だけでなく予測も監視していることで想定外のリソース使
    ⽤を検知できる
    • 例︓急に誰かがGPUインスタンス⽴てたなど
    • ダッシュボードを併⽤して、全体を俯瞰
    • 重点ポイントを⾒極め、必要に応じてコスト最適化策実施
    • 実績例1︓以下のような最適化策を実施して、15% 程度コスト削減
    • 不要な VPC エンドポイント削除
    • ログ出⼒量の最適化
    • 実績例2︓sandbox (検証⽤環境) の予算をあえてゼロにする
    • 誰かが使⽤したらすぐ検知できるので、消し忘れがないよう周知可能
    26

    View Slide

  27. 27
    コストモニタリングダッシュボード@Datadog

    View Slide

  28. 28
    各アカウントのコスト状況

    View Slide

  29. 29
    まとめ

    View Slide

  30. おわりに
    • 弊社の監視・モニタリングの取り組みについて紹介しました
    • みなさんと同じものや異なるものはありましたか︖
    • うちではこんなことやってるよ︕など情報交換あればぜひ︕
    30
    No. 監視内容 開発チームからの⼀⾔コメント
    1 KPI モニタリング アラートが鳴った実績はないが、⼤型リリースを実施すると
    きの安⼼感が違います︕
    2 ステータスコードの異常監視 Datadog など監視 SaaS を使っている⽅はぜひ試してほしい︕
    3 WAFによるアクセスブロック これを導⼊して不審なアクセスを継続的に遮断できています
    4 多段の Synthetics Test 昨⽇もこれで気づけた不具合があり、有⽤さを実感してます
    5 マルチアカウントのコスト予
    実管理
    予実管理されているので、まずはコストのことを気にせず挑
    戦できるのが最⾼です(ただし、鳴ったらすぐ対処)

    View Slide

  31. 31

    View Slide

  32. END OF
    PRESENTATION
    ご清聴ありがとうございました

    View Slide

  33. 33
    Appendix.
    (時間の都合上、以下は発表では⾔及しません)

    View Slide

  34. スロークエリ監視・モニタリング
    • 何を︓SQL 実⾏時間
    • どうやって︓しきい値監視
    • なぜ︓レスポンス遅延発⽣時の切り分けに有効
    34

    View Slide

  35. バウンスメール監視・モニタリング
    • 何を︓ハードバウンス
    • どうやって︓しきい値監視
    • なぜ︓店舗への連絡やリカバリ対応を即時に⾏うため
    35

    View Slide

  36. バッチ実⾏監視・モニタリング
    • 何を︓バッチ実⾏有無、バッチ実⾏結果
    • どうやって︓しきい値監視
    • なぜ︓バッチが想定通り動いていることを確認するため
    36

    View Slide

  37. 処理対象ファイル数監視・モニタリング
    • 何を︓物件ファイル数
    • どうやって︓しきい値監視
    • なぜ︓処理対象データが全量届いているかどうか確認する
    37

    View Slide

  38. 開発環境の数もモニタリングしています
    • Feature ブランチごとの環境を⾃動⽣成しています
    • 環境数が増えすぎてコストを圧迫しないようモニタリング
    38
    ※ 環境⾃動⽣成やBGデプロイ周りの詳細は以下のスライド参照
    https://speakerdeck.com/red_frasco/feature-huan-jing-nozi-dong-sheng-cheng-to-blue-green-deployment-dexiao-lu-de-katuan-quan-
    naririsupurosesuwogou-zhu

    View Slide