SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。
チーム⼀丸となって信頼性向上︕多種多様な監視でサイトを守る取り組みの紹介2023/05/19 SRE⼤集合︕みんなで学ぶ、信頼性を⾼めるための取り組みLT⼤会
View Slide
⾃⼰紹介猪熊 朔也 ( いのくま さくや ) / @sinocloudon- 株式会社 Red Frasco- インフラエンジニアu経歴- ⾦融系 SIer, リクルート(SUUMO), ⾦融系スタートアップ, 現職uその他コメント- うどんが好きです- ラーメン⼆郎が好きです- うどん脳 をプロフィールアイコンにすることが多いです2
3前提
⼿短に前提のお話• 弊社 = 不動産業界 に特化した技術組織• 今回の LT は実際に我々が運⽤している いい部屋ネット(https://www.eheya.net/)における取り組みが題材です4
5我々が運⽤している基盤全体構成
6我々が運⽤している基盤全体構成監視・モニタリング対象たくさんありますよね
7本題
SRE, 信頼性を⾼める がテーマということで…• 監視・モニタリングの話をします• 役割や職種にとらわれず、必要な項⽬を⾒極めながら、みんなで監視・モニタリング運⽤しています• 弊社では、監視を Datadog に集約しています8
9Datadog Monitor 数120
10⼀挙紹介と⾔いたかったのですが時間が⾜りないので
多種多様な監視でサイトを守る取り組みの紹介 5選 !
121. KPI のしきい値監視
KPI 監視・モニタリング• 何を︓CV(コンバージョン)数• どうやって︓しきい値監視• なぜ︓AWS移⾏中で⼤きなリリースが多いので、最終防衛ラインとしてCV数を常時監視13
事業に貢献できているかどうかを監視する• CV 数が下がっていないか常に注意を払う• ⼤きなリリース後でもCV数が落ちていない安⼼感を得られる14DatabaseCV 数取得 メトリクスPUT• Database から CV 数を取得して、Datadog に連携• デバイスごと(PC/SP/App)に CV 数を監視・モニタリング
152. ステータスコードの Anomaly 監視
ステータスコード 監視・モニタリング• 何を︓HTTP ステータスコード(301, 302, 404, 499)• どうやって︓Anomaly 監視• なぜ︓Bot, 攻撃などの短期間のアクセス傾向の変化を早期検知・対処する16※ 50x は、エラー監視という位置付けでしきい値監視してます
監視 SaaS の機能を活⽤して「いつもと違う」を検知する• Datadog の Anomaly Monitor が便利• 元々は、CTO がお試しでシュッと⼊れたのがはじまり• 本⼈も忘れた頃に Anomaly Monitor が鳴る• しきい値がよくわからない、しきい値では正しく検知できないものは Anomaly 監視がかなり効く17恥ずかしがり屋のCTOなに︕この監視︕誰⼊れたの︕︖(あなたです)
183. WAFによるアクセスブロック監視
WAF によるアクセスブロック監視・モニタリング• 何を︓403 エラーレート• どうやって︓しきい値監視、異常監視• なぜ︓脆弱性探索など不審なアクセスを検知する19
ブロックされなかったアクセスは⽉次モニタリングで対処• ブロックをすり抜けてきた怪しいアクセスを⾒つけ出す• IP や User Agent の上位層を時系列で⾒てあたりをつける20
214. 多段 Synthetics Test
多段 Synthetics Test• 何を︓各種 L7 エンドポイント(www.eheya.net, CDN, オリジン)• どうやって︓Synthetics Test• なぜ︓アラートの出⽅によって問題箇所の特定がすぐにできる22
1つではなく多段で⾒る• 多段 Synthetics にすることで、問題発⽣時の切り分けがスムーズ• ①, ②, ③ のどの部分から不調になっているかがすぐわかる23Route 53 CloudFront ELB ECSオンプレ基盤Route 53 の部分だけではなく、すべてのエンドポイントに対して Synthetics Testを実⾏する① ② ③
245. マルチアカウントのコスト予実管理
AWS コスト監視・モニタリング• 何を︓利⽤料実績, 利⽤料予測(Org全体、各アカウント)• どうやって︓しきい値監視• なぜ︓予算超過リスク、想定外の利⽤を早期検知して削減策を打つ25
Monitor による検知と⽉次のダッシュボード確認でコスト最適化• 実績だけでなく予測も監視していることで想定外のリソース使⽤を検知できる• 例︓急に誰かがGPUインスタンス⽴てたなど• ダッシュボードを併⽤して、全体を俯瞰• 重点ポイントを⾒極め、必要に応じてコスト最適化策実施• 実績例1︓以下のような最適化策を実施して、15% 程度コスト削減• 不要な VPC エンドポイント削除• ログ出⼒量の最適化• 実績例2︓sandbox (検証⽤環境) の予算をあえてゼロにする• 誰かが使⽤したらすぐ検知できるので、消し忘れがないよう周知可能26
27コストモニタリングダッシュボード@Datadog
28各アカウントのコスト状況
29まとめ
おわりに• 弊社の監視・モニタリングの取り組みについて紹介しました• みなさんと同じものや異なるものはありましたか︖• うちではこんなことやってるよ︕など情報交換あればぜひ︕30No. 監視内容 開発チームからの⼀⾔コメント1 KPI モニタリング アラートが鳴った実績はないが、⼤型リリースを実施するときの安⼼感が違います︕2 ステータスコードの異常監視 Datadog など監視 SaaS を使っている⽅はぜひ試してほしい︕3 WAFによるアクセスブロック これを導⼊して不審なアクセスを継続的に遮断できています4 多段の Synthetics Test 昨⽇もこれで気づけた不具合があり、有⽤さを実感してます5 マルチアカウントのコスト予実管理予実管理されているので、まずはコストのことを気にせず挑戦できるのが最⾼です(ただし、鳴ったらすぐ対処)
31
END OFPRESENTATIONご清聴ありがとうございました
33Appendix.(時間の都合上、以下は発表では⾔及しません)
スロークエリ監視・モニタリング• 何を︓SQL 実⾏時間• どうやって︓しきい値監視• なぜ︓レスポンス遅延発⽣時の切り分けに有効34
バウンスメール監視・モニタリング• 何を︓ハードバウンス• どうやって︓しきい値監視• なぜ︓店舗への連絡やリカバリ対応を即時に⾏うため35
バッチ実⾏監視・モニタリング• 何を︓バッチ実⾏有無、バッチ実⾏結果• どうやって︓しきい値監視• なぜ︓バッチが想定通り動いていることを確認するため36
処理対象ファイル数監視・モニタリング• 何を︓物件ファイル数• どうやって︓しきい値監視• なぜ︓処理対象データが全量届いているかどうか確認する37
開発環境の数もモニタリングしています• Feature ブランチごとの環境を⾃動⽣成しています• 環境数が増えすぎてコストを圧迫しないようモニタリング38※ 環境⾃動⽣成やBGデプロイ周りの詳細は以下のスライド参照https://speakerdeck.com/red_frasco/feature-huan-jing-nozi-dong-sheng-cheng-to-blue-green-deployment-dexiao-lu-de-katuan-quan-naririsupurosesuwogou-zhu