Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
今学生に伝えたい, 監視の話 / okinawa_ac_lt
Search
cohalz
July 06, 2019
Technology
0
420
今学生に伝えたい, 監視の話 / okinawa_ac_lt
沖縄学生×企業エンジニア 7月大LT大会!!! #okinawa_ac_lt
https://connpass.com/event/132178/
の発表資料です
cohalz
July 06, 2019
Tweet
Share
More Decks by cohalz
See All by cohalz
toittaにOpenTelemetryを導入した話 / Mackerel APM リリースパーティ
cohalz
1
830
はてなにおけるfujiwara-wareの活用やecspressoのCI/CD構成 / Fujiwara Tech Conference 2025
cohalz
3
9.8k
はてなのSRE組織2024 / Road to SRE NEXT@福岡
cohalz
2
2.2k
SREのキャリア、 あるいは生態 / #ya8
cohalz
11
1.8k
カンファレンスのボランティアスタッフって何やるの? / DAIMYO Meetup #4
cohalz
0
250
小さなものでも Step Functions / Serverless Meetup Fukuoka Re:boot
cohalz
0
260
ECSのCI/CD改善と標準化の取り組み / JAWS FESTA 2023 in Kyushu
cohalz
8
7.6k
ecspressoへの貢献を振り返る / JAWS-UG コンテナ支部 #24 ecspresso MeetUp
cohalz
1
8.5k
はてなフォトライフをECSに移行した話 / Hatena Engineer Seminar #20
cohalz
1
20k
Other Decks in Technology
See All in Technology
ビズリーチにおける検索・推薦の取り組み / DEIM2026
visional_engineering_and_design
1
120
AWS SES VDMで 将来の配信事故を防げた話
moyashi
0
170
Shifting from MCP to Skills / ベストプラクティスの変遷を辿る
yamanoku
4
680
ブラックボックス観測に基づくAI支援のプロトコルのリバースエンジニアリングと再現~AIを用いたリバースエンジニアリング~ @ SECCON 14 電脳会議 / Reverse Engineering and Reproduction of an AI-Assisted Protocol Based on Black-Box Observation @ SECCON 14 DENNO-KAIGI
chibiegg
0
160
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
5
1.1k
自動テストが巻き起こした開発プロセス・チームの変化 / Impact of Automated Testing on Development Cycles and Team Dynamics
codmoninc
3
1.2k
タスク管理も1on1も、もう「管理」じゃない ― KiroとBedrock AgentCoreで変わった"判断の仕事"
yusukeshimizu
5
1.9k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
1.7k
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
4
1k
楽しく学ぼう!コミュニティ入門 AWSと人が つむいできたストーリー
hiroramos4
PRO
1
160
わたしがセキュアにAWSを使えるわけないじゃん、ムリムリ!(※ムリじゃなかった!?)
cmusudakeisuke
1
420
Dr. Werner Vogelsの14年のキーノートから紐解くエンジニアリング組織への処方箋@JAWS DAYS 2026
p0n
1
110
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.8k
Unsuck your backbone
ammeep
672
58k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.1k
Building Applications with DynamoDB
mza
96
6.9k
SEO for Brand Visibility & Recognition
aleyda
0
4.3k
エンジニアに許された特別な時間の終わり
watany
106
240k
Leo the Paperboy
mayatellez
4
1.5k
Claude Code のすすめ
schroneko
67
220k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
14k
Transcript
今学生に伝えたい, 監視の話 沖縄学生×企業エンジニア 7月大LT大会!!! id:cohalz
自己紹介 ・id:cohalz / @cohalz ・はてなインターン2017 Mackerelチーム ・株式会社はてな SRE (2018 ~)
監視って? ・サーバ上の様々なメトリックを元にアラート通知を飛ばす ・ CPU使用率や残り容量など
監視って? ・そのメトリックを保存して,グラフにして見る
なぜ監視の話?
今監視が大ブーム!
覚えて帰ってほしいこと ・監視ってそんなに難しくない ・開発者も監視をしてみよう
何を監視すればいいか?
何を監視すればいいか? ・「起きてほしくないこと」 ・例: Webアプリケーション ・500エラーを返す ・レスポンス時間の悪化 ・証明書の期限切れ
まずはサービスに近いところから ・大事なのはサービスが動いているか ・個別のサーバのCPUやメモリでアラートを設定しない ・アラートが飛びがちになる ・代わりにグラフで傾向を見よう
なんでもアラートを飛ばせばいいものでもない ・たくさんのアラートが飛んでくると? ・「アラート疲れ」 ・「オオカミ少年アラート」 ・サービス品質をよく考えて設計する
アラートが役立つ他の例 ・バッチの実行 ・失敗内容をアラートに含める ・システムのマイグレーション ・古いホストに接続してたらアラート ・安全にホストを落とせる
アラート設計の話
昔のアラート対応 ・インフラエンジニアもしくはSREがアラートを設計 ・対応するのも同じ人 ・同じ言語・フレームワークなので対応方法が決まっていた
最近のアラート対応 ・サービスが複雑になってきた ・言語やフレームワークもバラバラ ・一次対応だけでは済まないことも ・サービス開発者が対応しないといけない ・原因はアプリケーション自体にあることが多い
例: Webアプリケーションが見れなくなった ・MySQLのコネクション数が跳ね上がっていた ・接続数上限のため調査のために繋ぐこともできない!! ・一次対応として再起動をした
例: Webアプリケーションが見れなくなった ・MySQLのコネクション数が跳ね上がっていた ・接続数上限のため調査のために繋ぐこともできない!! ・一次対応として再起動をした ・実はアプリケーション側から接続を切っていなかった!! ・開発者にアプリケーションのコードを直してもらった
開発者も監視に関わるべき ・サービスの実装を一番良くわかっている ・実装時に懸念点があればそこを監視すればいい ・開発者がアラートを受け取る ・根本的解決が早くなるかも
コンテナ化と言語と監視 ・どの言語・フレームワークを使ってるか把握しにくくなる ・サービスから見た最小単位がコンテナになる ・とはいえ特有の監視をしなくていい理由にはならない ・開発者が関わるべき
監視の目的
起きてほしくないことが, 起こっていないを保証する
テストに似てる
テストは皆さん書いてますよね?
対象が違うだけで目的は同じ ・テストはソフトウェアだが,監視はシステムを見る http://developer.cybozu.co.jp/archives/kazuho/2010/01/cronlog-52f2.html
監視プラグイン ・プログラムを書いて対象の数字を出力するだけ ・ヘルパプラグインがあるので意外と簡単 ・既にいろんな人が作っていて,コードの参考にもなる
監視プラグイン ・欲しいプラグインはすでに誰かが作っているかも? ・欲しい機能がなかったらOSSのPR作成チャンス!
監視以外のいろいろ
監視も万能ではない 苦手なもの ・数値にならないもの ・統計・解析 ・1リクエストの詳細
監視以外のあれこれ ・ログ ・APM (Application Performance Management) ・分散トレーシング
監視以外のあれこれ ・ログ ・APM (Application Performance Management) ・分散トレーシング => サービスの見える化
「推測するな,計測せよ」
まとめ ・不安を安心に変えるために監視をする ・テストと同じ ・でもアラートはよく考えよう ・開発者も監視をしてみよう ・サービスに一番詳しいのは開発者
あわせて読みたい ・入門 監視 ・監視についてのアンチパターンなど詳しく載っている本 ・監視 入門 ~ マイクロサービス時代の監視設計 ・https://junkyard.song.mu/slides/rancher-meetup-tokyo-18 ・マイクロサービスに限らない,開発者に向けた現在の監視の話