Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介
Search
Red Frasco
May 18, 2023
Technology
1
1.4k
チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介
SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。
Red Frasco
May 18, 2023
Tweet
Share
More Decks by Red Frasco
See All by Red Frasco
Datadog Synthetics 活用事例紹介
red_frasco
0
310
バッチ処理が終わらない!? -処理時間を90%削減した話-
red_frasco
1
240
不動産情報サイトにおけるデータ収集で頑張ったこと
red_frasco
0
260
コストに関するヒヤリハットのお話 ~コスト超過で手遅れにならないためにすべきこと~
red_frasco
0
390
不動産情報サイトにおけるリアルタイムデータ分析基盤の活用
red_frasco
1
230
Spring Boot 2 から 3 へバージョンアップしてみた
red_frasco
4
16k
Red Frasco 会社紹介
red_frasco
3
16k
AWS環境におけるSpring BootアプリケーションのCI/CDをCircleCIで構築した話
red_frasco
2
660
Feature 環境の自動生成と Blue Green Deployment で効率的かつ安全なリリースプロセスを構築
red_frasco
1
400
Other Decks in Technology
See All in Technology
【Snowflake九州ユーザー会#2】BigQueryとSnowflakeを比較してそれぞれの良し悪しを掴む / BigQuery vs Snowflake: Pros & Cons
civitaspo
5
1.7k
完璧を捨てろ! “攻め”のQAがもたらすスピードと革新/20250306 Hiroki Hachisuka
shift_evolve
0
200
Platform Engineering for Private Cloud
cote
PRO
0
110
早くて強い「リアルタイム解析基盤」から広げるマルチドメイン&プロダクト開発
plaidtech
PRO
1
230
EC-CUBEはサーバレスで動かせるのか?
yukishimada
1
130
Amazon Bedrock 2025 年の熱いアップデート (2025/3 時点)
icoxfog417
PRO
3
600
エンジニア採用と 技術広報の実践/acaricsummit2025
nishiuma
1
180
Amazon Bedrock Knowledge basesにLangfuse導入してみた
sonoda_mj
2
420
Cursorで学ぶAIエディター / understand-ai-editor-by-cursor
shuzon
0
210
AWSサービスアップデート2025年2月分
yuobayashi
2
110
사이드 프로젝트를 20번 실패한 주니어의 오답노트 훔쳐보기(feat. KMP)
yjyoon
0
440
“常に進化する”開発現場へ! SHIFTが語るアジャイルQAの未来/20250306 Yuma Murase
shift_evolve
0
190
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.3k
The Cost Of JavaScript in 2023
addyosmani
48
7.5k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Building an army of robots
kneath
303
45k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
GraphQLとの向き合い方2022年版
quramy
44
14k
A Tale of Four Properties
chriscoyier
158
23k
Speed Design
sergeychernyshev
28
830
YesSQL, Process and Tooling at Scale
rocio
172
14k
Docker and Python
trallard
44
3.3k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Transcript
チーム⼀丸となって信頼性向上︕ 多種多様な監視でサイトを守る取り組みの紹介 2023/05/19 SRE⼤集合︕みんなで学ぶ、信頼性を⾼めるための取り組みLT⼤会
⾃⼰紹介 猪熊 朔也 ( いのくま さくや ) / @sinocloudon -
株式会社 Red Frasco - インフラエンジニア u経歴 - ⾦融系 SIer, リクルート(SUUMO), ⾦融系スタートアップ, 現職 uその他コメント - うどんが好きです - ラーメン⼆郎が好きです - うどん脳 をプロフィールアイコンにすることが多いです 2
3 前提
⼿短に前提のお話 • 弊社 = 不動産業界 に特化した技術組織 • 今回の LT は実際に我々が運⽤している
いい部屋ネット (https://www.eheya.net/)における取り組みが題材です 4
5 我々が運⽤している 基盤全体構成
6 我々が運⽤している 基盤全体構成 監視・モニタリング対象 たくさんありますよね
7 本題
SRE, 信頼性を⾼める がテーマということで… • 監視・モニタリングの話をします • 役割や職種にとらわれず、必要な項⽬を⾒極めながら、みんな で監視・モニタリング運⽤しています • 弊社では、監視を
Datadog に集約しています 8
9 Datadog Monitor 数 120
10 ⼀挙紹介と⾔いたかったのですが 時間が⾜りないので
多種多様な監視でサイトを 守る取り組みの紹介 5選 !
12 1. KPI のしきい値監視
KPI 監視・モニタリング • 何を︓CV(コンバージョン)数 • どうやって︓しきい値監視 • なぜ︓AWS移⾏中で⼤きなリリースが多いので、最終防衛ライ ンとしてCV数を常時監視 13
事業に貢献できているかどうかを監視する • CV 数が下がっていないか常に注意を払う • ⼤きなリリース後でもCV数が落ちていない安⼼感を得られる 14 Database CV 数取得
メトリクスPUT • Database から CV 数を取得して、 Datadog に連携 • デバイスごと(PC/SP/App)に CV 数を監 視・モニタリング
15 2. ステータスコードの Anomaly 監視
ステータスコード 監視・モニタリング • 何を︓HTTP ステータスコード(301, 302, 404, 499) • どうやって︓Anomaly
監視 • なぜ︓Bot, 攻撃などの短期間のアクセス傾向の変化を早期検知・対 処する 16 ※ 50x は、エラー監視という位置付けでしきい値監視してます
監視 SaaS の機能を活⽤して「いつもと違う」を検知する • Datadog の Anomaly Monitor が便利 •
元々は、CTO がお試しでシュッと⼊れたのがはじまり • 本⼈も忘れた頃に Anomaly Monitor が鳴る • しきい値がよくわからない、しきい値では正しく検知できない ものは Anomaly 監視がかなり効く 17 恥ずかしがり屋のCTO なに︕この監視︕誰⼊れたの︕︖(あなたです)
18 3. WAFによるアクセスブロック監視
WAF によるアクセスブロック監視・モニタリング • 何を︓403 エラーレート • どうやって︓しきい値監視、異常監視 • なぜ︓脆弱性探索など不審なアクセスを検知する 19
ブロックされなかったアクセスは⽉次モニタリングで対処 • ブロックをすり抜けてきた怪しいアクセスを⾒つけ出す • IP や User Agent の上位層を時系列で⾒てあたりをつける 20
21 4. 多段 Synthetics Test
多段 Synthetics Test • 何を︓各種 L7 エンドポイント(www.eheya.net, CDN, オリジン) •
どうやって︓Synthetics Test • なぜ︓アラートの出⽅によって問題箇所の特定がすぐにできる 22
1つではなく多段で⾒る • 多段 Synthetics にすることで、問題発⽣時の切り分けがスムーズ • ①, ②, ③ のどの部分から不調になっているかがすぐわかる
23 Route 53 CloudFront ELB ECS オンプレ基盤 Route 53 の部分だけではなく、すべての エンドポイントに対して Synthetics Test を実⾏する ① ② ③
24 5. マルチアカウントのコスト予実管理
AWS コスト監視・モニタリング • 何を︓利⽤料実績, 利⽤料予測(Org全体、各アカウント) • どうやって︓しきい値監視 • なぜ︓予算超過リスク、想定外の利⽤を早期検知して削減策を打つ 25
Monitor による検知と⽉次のダッシュボード確認でコスト最適化 • 実績だけでなく予測も監視していることで想定外のリソース使 ⽤を検知できる • 例︓急に誰かがGPUインスタンス⽴てたなど • ダッシュボードを併⽤して、全体を俯瞰 •
重点ポイントを⾒極め、必要に応じてコスト最適化策実施 • 実績例1︓以下のような最適化策を実施して、15% 程度コスト削減 • 不要な VPC エンドポイント削除 • ログ出⼒量の最適化 • 実績例2︓sandbox (検証⽤環境) の予算をあえてゼロにする • 誰かが使⽤したらすぐ検知できるので、消し忘れがないよう周知可能 26
27 コストモニタリングダッシュボード@Datadog
28 各アカウントのコスト状況
29 まとめ
おわりに • 弊社の監視・モニタリングの取り組みについて紹介しました • みなさんと同じものや異なるものはありましたか︖ • うちではこんなことやってるよ︕など情報交換あればぜひ︕ 30 No. 監視内容
開発チームからの⼀⾔コメント 1 KPI モニタリング アラートが鳴った実績はないが、⼤型リリースを実施すると きの安⼼感が違います︕ 2 ステータスコードの異常監視 Datadog など監視 SaaS を使っている⽅はぜひ試してほしい︕ 3 WAFによるアクセスブロック これを導⼊して不審なアクセスを継続的に遮断できています 4 多段の Synthetics Test 昨⽇もこれで気づけた不具合があり、有⽤さを実感してます 5 マルチアカウントのコスト予 実管理 予実管理されているので、まずはコストのことを気にせず挑 戦できるのが最⾼です(ただし、鳴ったらすぐ対処)
31
END OF PRESENTATION ご清聴ありがとうございました
33 Appendix. (時間の都合上、以下は発表では⾔及しません)
スロークエリ監視・モニタリング • 何を︓SQL 実⾏時間 • どうやって︓しきい値監視 • なぜ︓レスポンス遅延発⽣時の切り分けに有効 34
バウンスメール監視・モニタリング • 何を︓ハードバウンス • どうやって︓しきい値監視 • なぜ︓店舗への連絡やリカバリ対応を即時に⾏うため 35
バッチ実⾏監視・モニタリング • 何を︓バッチ実⾏有無、バッチ実⾏結果 • どうやって︓しきい値監視 • なぜ︓バッチが想定通り動いていることを確認するため 36
処理対象ファイル数監視・モニタリング • 何を︓物件ファイル数 • どうやって︓しきい値監視 • なぜ︓処理対象データが全量届いているかどうか確認する 37
開発環境の数もモニタリングしています • Feature ブランチごとの環境を⾃動⽣成しています • 環境数が増えすぎてコストを圧迫しないようモニタリング 38 ※ 環境⾃動⽣成やBGデプロイ周りの詳細は以下のスライド参照 https://speakerdeck.com/red_frasco/feature-huan-jing-nozi-dong-sheng-cheng-to-blue-green-deployment-dexiao-lu-de-katuan-quan-
naririsupurosesuwogou-zhu