Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介
Search
Red Frasco
May 18, 2023
Technology
1
1.3k
チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介
SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。
Red Frasco
May 18, 2023
Tweet
Share
More Decks by Red Frasco
See All by Red Frasco
Datadog Synthetics 活用事例紹介
red_frasco
0
300
バッチ処理が終わらない!? -処理時間を90%削減した話-
red_frasco
1
230
不動産情報サイトにおけるデータ収集で頑張ったこと
red_frasco
0
250
コストに関するヒヤリハットのお話 ~コスト超過で手遅れにならないためにすべきこと~
red_frasco
0
380
不動産情報サイトにおけるリアルタイムデータ分析基盤の活用
red_frasco
1
230
Spring Boot 2 から 3 へバージョンアップしてみた
red_frasco
4
16k
Red Frasco 会社紹介
red_frasco
3
16k
AWS環境におけるSpring BootアプリケーションのCI/CDをCircleCIで構築した話
red_frasco
2
650
Feature 環境の自動生成と Blue Green Deployment で効率的かつ安全なリリースプロセスを構築
red_frasco
1
390
Other Decks in Technology
See All in Technology
30→150人のエンジニア組織拡大に伴うアジャイル文化を醸成する役割と取り組みの変化
nagata03
0
190
AI自体のOps 〜LLMアプリの運用、AWSサービスとOSSの使い分け〜
minorun365
PRO
6
300
Pwned Labsのすゝめ
ken5scal
2
460
"TEAM"を導入したら最高のエンジニア"Team"を実現できた / Deploying "TEAM" and Building the Best Engineering "Team"
yuj1osm
1
210
【内製開発Summit 2025】イオンスマートテクノロジーの内製化組織の作り方/In-house-development-summit-AST
aeonpeople
2
810
AIエージェント時代のエンジニアになろう #jawsug #jawsdays2025 / 20250301 Agentic AI Engineering
yoshidashingo
8
3.8k
【詳説】コンテンツ配信 システムの複数機能 基盤への拡張
hatena
0
270
EDRの検知の仕組みと検知回避について
chayakonanaika
12
5k
AWSアカウントのセキュリティ自動化、どこまで進める? 最適な設計と実践ポイント
yuobayashi
7
640
Change Managerを活用して本番環境へのセキュアなGUIアクセスを統制する / Control Secure GUI Access to the Production Environment with Change Manager
yuj1osm
0
100
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
19k
ABWG2024採択者が語るエンジニアとしての自分自身の見つけ方〜発信して、つながって、世界を広げていく〜
maimyyym
1
180
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
133
9.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
How GitHub (no longer) Works
holman
314
140k
Git: the NoSQL Database
bkeepers
PRO
427
65k
Unsuck your backbone
ammeep
669
57k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
Building Your Own Lightsaber
phodgson
104
6.2k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
Music & Morning Musume
bryan
46
6.4k
For a Future-Friendly Web
brad_frost
176
9.6k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.6k
Transcript
チーム⼀丸となって信頼性向上︕ 多種多様な監視でサイトを守る取り組みの紹介 2023/05/19 SRE⼤集合︕みんなで学ぶ、信頼性を⾼めるための取り組みLT⼤会
⾃⼰紹介 猪熊 朔也 ( いのくま さくや ) / @sinocloudon -
株式会社 Red Frasco - インフラエンジニア u経歴 - ⾦融系 SIer, リクルート(SUUMO), ⾦融系スタートアップ, 現職 uその他コメント - うどんが好きです - ラーメン⼆郎が好きです - うどん脳 をプロフィールアイコンにすることが多いです 2
3 前提
⼿短に前提のお話 • 弊社 = 不動産業界 に特化した技術組織 • 今回の LT は実際に我々が運⽤している
いい部屋ネット (https://www.eheya.net/)における取り組みが題材です 4
5 我々が運⽤している 基盤全体構成
6 我々が運⽤している 基盤全体構成 監視・モニタリング対象 たくさんありますよね
7 本題
SRE, 信頼性を⾼める がテーマということで… • 監視・モニタリングの話をします • 役割や職種にとらわれず、必要な項⽬を⾒極めながら、みんな で監視・モニタリング運⽤しています • 弊社では、監視を
Datadog に集約しています 8
9 Datadog Monitor 数 120
10 ⼀挙紹介と⾔いたかったのですが 時間が⾜りないので
多種多様な監視でサイトを 守る取り組みの紹介 5選 !
12 1. KPI のしきい値監視
KPI 監視・モニタリング • 何を︓CV(コンバージョン)数 • どうやって︓しきい値監視 • なぜ︓AWS移⾏中で⼤きなリリースが多いので、最終防衛ライ ンとしてCV数を常時監視 13
事業に貢献できているかどうかを監視する • CV 数が下がっていないか常に注意を払う • ⼤きなリリース後でもCV数が落ちていない安⼼感を得られる 14 Database CV 数取得
メトリクスPUT • Database から CV 数を取得して、 Datadog に連携 • デバイスごと(PC/SP/App)に CV 数を監 視・モニタリング
15 2. ステータスコードの Anomaly 監視
ステータスコード 監視・モニタリング • 何を︓HTTP ステータスコード(301, 302, 404, 499) • どうやって︓Anomaly
監視 • なぜ︓Bot, 攻撃などの短期間のアクセス傾向の変化を早期検知・対 処する 16 ※ 50x は、エラー監視という位置付けでしきい値監視してます
監視 SaaS の機能を活⽤して「いつもと違う」を検知する • Datadog の Anomaly Monitor が便利 •
元々は、CTO がお試しでシュッと⼊れたのがはじまり • 本⼈も忘れた頃に Anomaly Monitor が鳴る • しきい値がよくわからない、しきい値では正しく検知できない ものは Anomaly 監視がかなり効く 17 恥ずかしがり屋のCTO なに︕この監視︕誰⼊れたの︕︖(あなたです)
18 3. WAFによるアクセスブロック監視
WAF によるアクセスブロック監視・モニタリング • 何を︓403 エラーレート • どうやって︓しきい値監視、異常監視 • なぜ︓脆弱性探索など不審なアクセスを検知する 19
ブロックされなかったアクセスは⽉次モニタリングで対処 • ブロックをすり抜けてきた怪しいアクセスを⾒つけ出す • IP や User Agent の上位層を時系列で⾒てあたりをつける 20
21 4. 多段 Synthetics Test
多段 Synthetics Test • 何を︓各種 L7 エンドポイント(www.eheya.net, CDN, オリジン) •
どうやって︓Synthetics Test • なぜ︓アラートの出⽅によって問題箇所の特定がすぐにできる 22
1つではなく多段で⾒る • 多段 Synthetics にすることで、問題発⽣時の切り分けがスムーズ • ①, ②, ③ のどの部分から不調になっているかがすぐわかる
23 Route 53 CloudFront ELB ECS オンプレ基盤 Route 53 の部分だけではなく、すべての エンドポイントに対して Synthetics Test を実⾏する ① ② ③
24 5. マルチアカウントのコスト予実管理
AWS コスト監視・モニタリング • 何を︓利⽤料実績, 利⽤料予測(Org全体、各アカウント) • どうやって︓しきい値監視 • なぜ︓予算超過リスク、想定外の利⽤を早期検知して削減策を打つ 25
Monitor による検知と⽉次のダッシュボード確認でコスト最適化 • 実績だけでなく予測も監視していることで想定外のリソース使 ⽤を検知できる • 例︓急に誰かがGPUインスタンス⽴てたなど • ダッシュボードを併⽤して、全体を俯瞰 •
重点ポイントを⾒極め、必要に応じてコスト最適化策実施 • 実績例1︓以下のような最適化策を実施して、15% 程度コスト削減 • 不要な VPC エンドポイント削除 • ログ出⼒量の最適化 • 実績例2︓sandbox (検証⽤環境) の予算をあえてゼロにする • 誰かが使⽤したらすぐ検知できるので、消し忘れがないよう周知可能 26
27 コストモニタリングダッシュボード@Datadog
28 各アカウントのコスト状況
29 まとめ
おわりに • 弊社の監視・モニタリングの取り組みについて紹介しました • みなさんと同じものや異なるものはありましたか︖ • うちではこんなことやってるよ︕など情報交換あればぜひ︕ 30 No. 監視内容
開発チームからの⼀⾔コメント 1 KPI モニタリング アラートが鳴った実績はないが、⼤型リリースを実施すると きの安⼼感が違います︕ 2 ステータスコードの異常監視 Datadog など監視 SaaS を使っている⽅はぜひ試してほしい︕ 3 WAFによるアクセスブロック これを導⼊して不審なアクセスを継続的に遮断できています 4 多段の Synthetics Test 昨⽇もこれで気づけた不具合があり、有⽤さを実感してます 5 マルチアカウントのコスト予 実管理 予実管理されているので、まずはコストのことを気にせず挑 戦できるのが最⾼です(ただし、鳴ったらすぐ対処)
31
END OF PRESENTATION ご清聴ありがとうございました
33 Appendix. (時間の都合上、以下は発表では⾔及しません)
スロークエリ監視・モニタリング • 何を︓SQL 実⾏時間 • どうやって︓しきい値監視 • なぜ︓レスポンス遅延発⽣時の切り分けに有効 34
バウンスメール監視・モニタリング • 何を︓ハードバウンス • どうやって︓しきい値監視 • なぜ︓店舗への連絡やリカバリ対応を即時に⾏うため 35
バッチ実⾏監視・モニタリング • 何を︓バッチ実⾏有無、バッチ実⾏結果 • どうやって︓しきい値監視 • なぜ︓バッチが想定通り動いていることを確認するため 36
処理対象ファイル数監視・モニタリング • 何を︓物件ファイル数 • どうやって︓しきい値監視 • なぜ︓処理対象データが全量届いているかどうか確認する 37
開発環境の数もモニタリングしています • Feature ブランチごとの環境を⾃動⽣成しています • 環境数が増えすぎてコストを圧迫しないようモニタリング 38 ※ 環境⾃動⽣成やBGデプロイ周りの詳細は以下のスライド参照 https://speakerdeck.com/red_frasco/feature-huan-jing-nozi-dong-sheng-cheng-to-blue-green-deployment-dexiao-lu-de-katuan-quan-
naririsupurosesuwogou-zhu