Webサービスを監視するときに僕達が考えたこと / YAPC::Okinawa 2018

Web サービスを監視するときに僕達が考えたこと by id:papix (@__papix__) 株式会社はてな

papix 株式会社はてなアプリケーションエンジニア (2017 年2 月～) ｢はてなブログ｣をつくっています
アカウント類はてな: i d : p a p i x Twitter: @ _ _ p a p i x _ _ GitHub: p a p i x CPAN: P A P I X ブログ: h t t p s ? : / / p a p i x . h a t e n a ( b l o g . ( c o m | j p ) | d i a r y . j p ) / 趣味はPerl と, ( 交通機関を利用した) 旅行など去年JGC 修行を完遂しました, 折を見てSFC も修行したい...

｢僕達が考えたこと｣シリーズ第三弾 YAPC::Hokkaido ｢API をPerl で作る時に僕達が考えたこと｣ YAPC::Kansai ｢Perl
のWeb アプリケーションをデプロイする時に僕達が考えたこと｣ YAPC::Okinawa ｢Web サービスを監視するときに僕達が考えたこと｣ ←NEW!

想定している聴衆初心者向けを想定した内容です: "Web サービスの監視" について思いを馳せたことのない学生さん Web サービスの監視についての知見が欲しい/ 意見交換がしたい,
主にWeb アプリケーション開発に従事するエンジニアこのトークをきっかけに, ｢Web サービスの監視｣について思いを馳せてみましょう!

もくじなぜ僕達は" 監視" をするのか監視する時に有用なメトリック達どこまで検知して, 通知する? Web サービス開発の現場での監視
おまけ: まず初めてみる? おうち監視!

Web サービスを監視するときに僕達が考えたこと by id:papix (@__papix__) 株式会社はてな

なぜ僕達は" 監視" をするのか

サービスに這い寄る障害達 Web サービスには様々な障害が起きる: ネットワーク/ サーバの不調...
爆発的アクセス増による高負荷... バグやオペレーションミス... どれだけ優秀な人員を揃えても, どれだけ設備投資をしても, どれだけ慎重にオペレーションしても, 障害は必ず起きる

障害対応のサイクル障害対応は次のように対応される: 障害の検知調査と解決事後対応と振り返り

障害の検知障害が発生したことに気づく段階ドッグフーディングをしていてユーザからのお問い合わせ Twitter などのSNS でのユーザの声
"Web サービスの監視機構" から通知が届いてこのトークでは, この" 監視" の部分にフォーカスを当てて話をしますなるべく迅速に気付きたい " 予兆" の段階で気づければ, 実際にユーザに影響が出る前に対処できる

調査と解決発生している障害の原因を調べ, 解決するために修正やオペレーションをする段階憶測ではなく, 事実に基づいて原因を見つける焦りがちだけれど, 障害の対応が更なる障害を生み出さないように,
丁寧にペアプロ/ ペアオペなどで作業を進めていくのも有効このトークで話す" 監視" によって得られる情報は, このフェイズでも非常に役立ちます

事後対応と振り返り暫定対応で障害を解決した場合, その恒久対応が必要また, 再発防止策となる実装, オペレーションも考慮しないといけない似たような障害が発生した時に備えて, 障害の原因や対応を振り返
り, 共有することも重要社内障害情報共有のススメ http://developer.hatenastaff.com/entry/2018/02/19/180000

なぜ僕達は" 監視" をするのか障害の迅速な確認 Web サービスに問題があった時, 1 秒でも早く気付き, 対応出来
るようにする障害対応の道標監視の結果から手がかりを得て, 1 秒でも早く障害を解決することを目指す

障害対応の道標～推測するな, 計測せよ～ ISUCON でよく聞く言葉元はRob Pike 氏( 現Google,
Go の開発者) の発言だそう: ルール1: プログラムがどこで時間を消費することになるか知ることはできない。ボトルネックは驚くべき箇所で起こるものである。したがって、どこがボトルネックなのかをはっきりさせるまでは、推測を行ったり、スピードハックをしてはならない。ルール2: 計測すべし。計測するまでは速度のための調整をしてはならない。コードの一部が残りを圧倒しないのであれば、なおさらである。

障害対応の道標～推測するな, 計測せよ～｢Web サービスの開発/ 保守/ 運営｣でも同様
日頃から, Web サービスやそれを構成するインフラを監視するその情報が, 問題発生時の助けになる医者の手術と一緒人体という複雑なシステムと立ち向かう為に, 心拍数, 血圧, 体温などを計測しながら手術をする Web サービスもまた複雑なのである...

Web サービスの障害対応確認が必要な範囲がとにかく広いネットワーク, インフラ, ミドルウェア, アプリケーション...
全てのレイヤーを手探りで調べるのは非効率監視とその結果で, 怪しい範囲を絞り込むことができるもちろん, そこから一気に原因を特定できる時もある

Web サービスに必要な" 監視" とは? 個人的には, 以下の5 要素が重要: 管理可視化
蓄積検知通知

管理｢Web サービスを構成する各種インフラ( サーバ/ ミドルウェア) を紐付けて, 役割や状況を明示する｣
これによって, Web サービスがどのように構築され, どのように稼働しているか一目瞭然となる加えて, これを" 管理台帳のマスター" として, 日々のオペレーションに活用することもできる監視だけじゃない! デプロイにMackerel を使う話 http://tech.mercari.com/entry/2016/11/14/120000

可視化｢Web サービスとそれを構成する各種インフラの状態を, 数値( メトリック) として取得/ 表現し, 統一されたインター
フェイスで確認できる｣これによって, Web サービスを構成する各種インフラの状態を, 数値で言及することが出来るようになる障害対応で切羽詰まっている時に, ｢詰まっていそう｣｢負荷高そう｣といった, 抽象的な言葉は混乱を呼び起こす可能性がある更に, 統一されたインターフェイスで, 複数のインフラの状況を一気に見る/ 見比べることができる結果として, Web サービスの様子が一目瞭然になる

蓄積｢可視化のために取得したメトリックを蓄積し, 時系列に並べて, 表やグラフで表現出来るようにする｣これによって, 可視化した値の特異点がグラフィカルに認識できるようになる Web
サービスに何か問題があれば, 表は急激な凹凸を示す加えて, Web サービスとそのインフラの日常の傾向を追いやすくなる日中はアクセスが増える/ 深夜は減る, など...

検知｢可視化のために取得したメトリックに応じて, Web サービスやそれを構成するサーバ/ ミドルウェア等が異常かどうかを識別する｣これによって,
Web サービスやサーバ/ ミドルウェア等のインフラ要素に対して｢異常な状態｣を定義できるメモリ使用率が80% を越えたら警戒状態, 90% を越えたら異常状態, など... この定義を定めるのが非常に難しい( 後述)

通知｢検知した内容を適切に通知して, 調査や対応を促す｣これによって, 開発者が常時監視していなくても, 異常状態が発生したことを認知することができる常時監視しなくても良いとは言え, 誰かが気付けるような体制
を構築することは重要その辺りは｢運用｣の話でもあるので, 今回は割愛

" 監視" を実現するツール達それぞれ特長や, 得意/ 不得意がある SaaS かOSS か
push 型かpull 型か

SaaS かOSS か SaaS 管理/ 可視化/ 蓄積の仕組みがWeb サービスとして提供される( フ
ルマネージド) 大抵の場合, 監視するサーバの台数によってコストが線形的に増加する OSS 各自でサーバを用意して, その上に監視の仕組みを構築する( セルフホスティング) 構築/ 運用コストが必要だが, 監視するサーバの台数によって線形的にコストが増えることはないとはいえ, SaaS でもセルフホスティングが可能なものもあり, OSS でもフルマネージドなものもある

push 型かpull 型か監視するサーバから, どのようにしてメトリックを収拾するか push 型各サーバから,
メトリックを蓄積するサーバに投げる pull 型メトリックを蓄積するサーバが, 各サーバにリクエストを投げて取得する

具体例 DataDog Mackerel NewRelic Prometheus Zabbix ※ このトークでは, 例として筆者が使い慣れているMackerel
を中心に取り上げます

監視する時に有用なメトリック達

監視する時に有用なメトリック達 " 監視" の仕組みを導入することで, Web サービスとそのインフラに関連する様々なメトリックを可視化/ 蓄積できる
しかし, ただ単に" 監視" するだけでは意味がないそれらのメトリックの意味, 傾向を掴まなければ, いざと言う時に役に立たない

監視する時に有用なメトリック達 Mackerel のエージェントをLinux のサーバに導入した際に自動的に取得される, Linux のシステムメトリックを紹介します: l
o a d a v g 5 c p u m e m o r y d i s k i n t e r f a c e f i l e s y s t e m

l o a d a v g 5 言わずと知れた｢ロー
ドアベレージ｣ 5 は5 分間平均( 一般に, u p t i m e や w コマンドでは1/5/15 分平均のロードアベレージが見れる) さっくり言えば, ｢システム全体の負荷の様子｣を示す実行待ちプロセス数と, I/O 待ちプロセス数の合計 = CPU 等に余裕があれば, すぐに実行されるプロセス数

l o a d a v g 5 の見どころ負荷が高まれば,
その分 l o a d a v g 5 も上昇するシステムやサービスの特性によっては, 常にロードアベレージが高い場合もある瞬間的な値ではなく, その数値の傾向を見るのが重要急増した後, 減少の幅が少ない場合一定のペースで増加を続けている場合

c p u CPU( 演算処理装置) の使用率を表す用途ごとに細かく利用率が見れる: 意味 user カー
ネル以外( アプリケーション) が利用したCPU 時間の割合 (nice は含まない) system カーネルが利用したCPU 時間の割合 iowait I/O 待ちによってCPU が利用されていない時間の割合 idle CPU が使われていない時間の割合(iowait は含まない)

c p u 意味 nice 優先度(nice 値) が指定されたアプリケーションによるCPU 時
間の割合 irq ハードウェア割り込みによるCPU 時間の割合 softirq ソフトウェア割り込みによるCPU 時間の割合 steal ゲストOS( 仮想マシン) が割り当て待ちとなった時間の割合 guest ゲストOS( 仮想マシン) によるCPU 時間の割合

c p u の見どころロードアベレージと同じく, 負荷が高まればCPU 利用率も高まるサー
バ上で動作するアプリケーションやミドルウェアの負荷が高まれば u s e r の割合が増えるアプリケーションやミドルウェアによるI/O がディスクのI/O 性能に追いつかない場合, i o w a i t が増える Xen やKVM などの仮想化環境を使っていて, その負荷が高まれば s t e a l や g u e s t なども見る必要がある

c p u の見どころロードアベレージと同じく, システムやサービスの特性によって値は変わる
CPU 利用率を可視化/ 蓄積し, 日頃から傾向を掴んでおくことが大事( 後述) また, CPU 利用率が低い(= i d l e が多い) ことは, それもまた一種の問題である CPU 利用率が低い = サーバを効率的に利用できていない｢負荷低すぎはもはや障害じゃないのか｣ http://mikeda.hatenablog.com/entry/2015/02/01/195102

m e m o r y メモリの利用量を表す Mackerel では, u
s e d + b u f f e r s + c a c h e d + f r e e = t o t a l を前提とする意味 total 物理メモリの総容量 used 利用している物理メモリの容量 cached ページキャッシュに使われている物理メモリの容量 buffers バッファに使われている物理メモリの容量 free 利用されてない物理メモリの容量

m e m o r y の見どころ Linux では, 利用可能なメモリがあれば,
ページキャッシュ( c a c h e d ) とバッファ( b u f f e r s ) のために積極的に利用されるアプリケーションによってメモリが必要になった時に開放されるそのため, " メモリの利用率" を考えるなら, u s e d / t o t a l で考える必要がある Linux kernel 3.14 以降では, M e m A v a i l a b l e というパラメータがある開放不可能な c a c h e d / b u f f e r s も考慮されている

m e m o r y の見どころ一方, スワップのメトリックとして, s
w a p t o t a l , s w a p u s e d , s w a p c a c h e d があるスワップは多くの場合HDD/SSD 上に作られる物理メモリに比べて速度が遅いため, スワップの発生 = パフォーマスの低下と言える特にWeb サービスが稼働するサーバでは, 基本的に｢スワップは発生させない｣ように意識するべきメモリの利用量が漸増している場合, メモリリークなど発生していないか調査する必要がある

d i s k ディスクの読み書きに関するメトリック単位はIOPS(= 1 秒辺りに処理できるI/O の数) ディスクのIOPS
性能は明示されていることが多い Amazon Elastic Block Storage(EBS) でも, IOPS 性能が違うディスクを選ぶことができる

d i s k の見どころ IOPS の余裕がなくなると, ディスクの書き込み/ 読み込みが詰まる RDBMS(MySQL
など) が動くサーバでは特に重要 IOPS の日頃の増減傾向と, 今後起こりうる瞬間的なIOPS 増(Web サービスにとってはアクセスの急増) に耐えれるかどうかを見極める中長期的な視点で監視し, 手を打つことが重要

i n t e r f a c e ネットワー
ク帯域の利用状況を表す t x が送信, r x が受信, 単位は K B / 秒ちなみに t x は t r a n s m i t , r x は r e c e i v e のことらしいこれもまた, インフラ提供者によってネットワーク帯域に上限が定められているクラウドの場合, 更に課金額にも影響が出る

i n t e r f a c e の見どころ
Nginx やApache が動くプロキシサーバ, コンテンツを配信するサーバでは t x , r x が増えがちコンテンツを配信するサーバであれば, CDN を通すなどで対策出来る急激な t x / r x の増加があれば, 瞬間的なアクセス増やDoS 攻撃などの可能性がある

f i l e s y s t e m
ディスクとその使用量を表す s i z e はディスクの最大容量, u s e d はディスクの使用量例えばRDBMS が動くサーバでは, データが蓄積される毎に u s e d が増えていく言うまでもなく, ディスクの空き容量がなくなると書き込めなくなるので, その前に最大容量を増やす必要があるまた, ミドルウェアなどのログの書き込みでも u s e d が増えていく

f i l e s y s t e m
の見どころディスクの空き容量をすぐに増やせない場合も有り得るので, ある程度の利用率を越えたら警告するようにしておく定期的に u s e d の増加量を確認し, 警告が出て, 危険な領域に達する前に最大容量を増やせるのがベスト u s e d が急激に増えている場合, Web サービスやミドルウェアのログの出力設定を変更している場合などもあるログがより詳細に出るようになって, 大量のログがディスク上に保存されている状態

監視する時に有用なメトリック達ここまで紹介した6 つのメトリック以外にも, Web サービスやそれを構成するインフラの監視に有用なメトリックがありますアクセスログ( アクセス数, ステー
タスコードの割合, レイテンシ) 外形監視 uptime サービス/ ミドルウェアに特化したメトリック

アクセスログ Nginx など, プロキシのアクセスログからメトリックを取得する Mackerel なら: https://github.com/mackerelio/mackerel‑agent‑ plugins/tree/master/mackerel‑plugin‑accesslog

アクセスログ Access Num 1 分間辺りの総リクエスト数と, ステータスコードごとのリクエスト数ステー
タスコードは100 の位ごとにまとめられる. A c c e s s R a t e も同様 Access Rate 1 分間辺りのステータスコードの割合 Latency A v e r a g e ... リクエストにかかった秒数( レイテンシ) の平均 9 0 P e r c e n t i l e ... レイテンシの下位90% の秒数 9 5 P e r c e n t i l e ... レイテンシの下位95% の秒数 9 9 P e r c e n t i l e ... レイテンシの下位99% の秒数

アクセスログの見どころ A c c e s s N u m
Web サービスへのアクセス数が増えれば, T o t a l C o u n t が増えていく A c c e s s R a t e デプロイ後など, バグがあれば H T T P 5 x x P e r c e n t a g e が上昇しがち L a t e n c y 高負荷によって, CPU 利用率が増えたり, IOPS が上限に達した場合, レイテンシに影響が出て来る

外形監視実際にWeb サービスにリクエストを行い, 期待するレスポンスが得られるか確認するレスポンスのステータスコードなどを確認

外形監視の見どころ外形監視の結果が異常であれば, 即ち現在進行系でユーザに影響が出ているということとはいえ, ネットワークの状態等で偽陽性となることもあるレスポンスタイムが遅くなっているなら, レイテンシの様子なども
見て調査を検討する必要がある

uptime Linux などのOS が, どれくらいの時間稼働しているかを示す Mackerel なら: https://github.com/mackerelio/mackerel‑agent‑ plugins/tree/master/mackerel‑plugin‑uptime

uptime の見どころ uptime が0 になるということは, OS が再起動されたということつまり, サーバが再起動されたということ
意図しない再起動であれば, 調査をする必要がある

サービス/ ミドルウェアに特化したメトリック Mackerel の場合, プラグインでサービス/ ミドルウェアに特化したメトリックを取得できる https://github.com/mackerelio/mackerel‑agent‑plugins
Nginx/Apache/h2o といったプロキシ, MySQL/PostgresSQL といったRDBMS, Redis/Memcached といったKVS, AWS の各サービスなどを対象にしたプラグインが提供されている

任意のメトリックを取得したい! ～Mackerel では?～既存のプラグインで取得できないメトリックであれば, Go 言語でプラグインを作り, メトリックを取得して投げればよい g o
- m a c k e r e l - p l u g i n というヘルパーがある https://mackerel.io/ja/docs/entry/advanced/go‑mackerel‑ plugin とはいえ, フォーマット(Sensu のフォーマットと同じ) が同じであれば, Shell Script やPerl, Ruby などで実装しても構わない公式のプラグインリポジトリ以外にも, ユーザがそれぞれプラグインをGitHub などで公開していることがある

どこまで検知して, 通知する? ～狼少年にならないために～

正しく検知する難しさ Web サービスを監視する時に一番難しいのは, ｢検知の条件｣を組み立てる部分では...? Web サー
ビスやそれを構成するインフラが, 異常な状態であれば必ず検知したい( 当たり前) 日常的に発生するピーク, サービスの成長による( 想定の範囲内の) 負荷の上昇は異常な状態としたくない障害として検知する条件を... 厳しくすると, 実際には問題がないのに, 障害として検知され, 通知が行われてしまう(= 狼少年検知) 緩くすると, 実際に障害が発生するのに, それを検知できなくなってしまう一般には｢厳しくしすぎて, 狼少年通知が多発する｣パターンが多い気がします...

狼少年検知｢狼少年｣の寓話｢狼が来た!｣と嘘をついて騒ぎを起こし続けて, 遂に本当に狼が来た時に, ｢
狼が来た!｣と言っても誰も相手をしてくれなかった｢狼少年検知｣ Web サービスやそのインフラのメトリックに問題がないのに, 異常があると検知され, その通知が飛ぶ状態が続くと, それに慣れてしまう本当に対処するべき問題とその通知が, 問題がない通知に埋もれてしまう

｢狼少年検知｣を防ぐには? 検知の条件/ 通知の条件を定期的に棚卸しする｢狼少年｣にならないように, 異常状態として検知条件を緩和する(
メトリックがより高い数値になったら通知をするようにする) 前述の通り, 緩和しすぎると逆に異常状態であることに気づけなくなってしまう逆に, Web サービスやインフラの整備で, 平常時のメトリックの値が低く推移するようになったら, 通知条件を厳格化する必要がある棚卸しに活かすためにも, サービスの負荷の傾向を追う必要がある

サービスの負荷の傾向を追うメトリックが常に同じ値を示し続けることはない様々な単位で凹/ 凸のピークがあるサービスの負荷( メトリックの変化)
の傾向を把握することが重要通知の条件を見直す材料になるメトリックに異常値が発生したときの判断材料になる

年単位の傾向年単位のイベントによって負荷が変動することがある例: 年末年始のLINE, メール送信｢あけおめメール｣を送受信するので,
負荷が高まる

月単位月単位のイベントによって負荷が変動することがある例: 月末/ 月初 Web サービスに月単位のイベントが存在するとき, それによって負荷が高まる可能性がある

日単位週単位のイベントによって負荷が変動することがある例: B2B サービスであれば, 週末や祝日は負荷が低まる企業向けのサービスなので, 企業が休業であることの多い休日
は利用することが少ない

時間単位時間単位のイベントによって負荷が変動することがある例: 昼休みブログなどは, 昼休みに閲覧するユーザが多いので, 12 時前後にピー
クが現れる例: 深夜帯深夜帯は日中に比べて負荷が低まることが多い( ユーザが寝ているので)

検知からの通知メトリックの変化を検知できれば, Web サービスの問題発生をいち早く気づくことができるしかし, 可視化されたメトリックを四六時中眺め続けているのは現実的ではない｢
適切に｣通知をして, メトリックから問題を検知した時に気づけるようにしないといけない

監視の結果を通知したい! ～Mackerel では?～メトリックの値が一定値を越えたり, 外形監視の結果に問題があった時, Warning/Critical の通知を送ることができる対応している送付先: メー
ル, Slack, HipChat, PagerDuty, ChatWork, TypeTalk, OpsGenie, Reactio, Yammer, LINE, Twilio Twilio を使うことで, 電話での通知も対応することができる Webhook の送信にも対応しているので, 独自の通知サービスと連携することも可能

｢通知をしない｣という選択肢メトリックが異常値になり, 異常状態と検知されることが明らかな場合, 一時的に通知をOff にすることも有効瞬間的に高負荷になることが事前に明らかになっている場合プレスリリー
スが出る, テレビ/ ニュースで紹介される等... Mackerel なら... 監視ルール単位で時間指定ミュートをおこなえるようになりましたほか https://mackerel.io/ja/blog/entry/weekly/20180219

Web サービス開発の現場での監視～はてなブログの場合～

はてなブログ今年でリリースから6 年今すぐ登録→ h t t p s
: / / b l o g . h a t e n a . n e . j p / r e g i s t e r Web アプリケーションエンジニア5 人(+ アルバイト) で開発中 3 人が京都オフィス, 2 人が東京オフィスのリモート体制インフラはAWS もちろんMackerel も活用中

Mackerel を活用した取り組み ‑ PWG Performance Working Group 毎月1 回開催 (
はてなブログ担当の)Web オペレーションエンジニアも参加 Mackerel のグラフを見ながら, パラメータの変化を確認対応が必要なものはGHE にIssue を立てて着手たくさんのホスト/ メトリックがあるので, 重要度の高いものをダッシュボードにまとめている

ダッシュボードの様子

グラフアノテーション " 可視化" の観点で非常に便利な機能デプロイの度にアノテーションを残す Description として, そのデプロイに紐付いたPull
Request の URL を記載グラフに急激な変化があった時, その原因となったPull Request を推測しやすい

グラフアノテーションの様子

サービスメトリックよくあるサービスメトリックははてなブログでも投稿していますステータスコードの割合, レスポンスタイム...

デプロイにかかる時間 1 回のデプロイに要した時間を記録 c a r t o n _
i n s t a l l ... ライブラリインストールにかかった時間 d e p l o y _ u p d a t e ... ファイルの配布にかかった時間 r e s t a r t ... プロセス再起動にかかった時間可視化することで問題点を洗い出し, 改善することができる詳しくは: はてなブログのデプロイを約6 倍高速化したはなし http://this.aereal.org/entry/2016/12/16/170000

更新が必要なnpm パッケージ y a r n o u t
d a t e d で取得した更新が必要なnpm パッケージの数を投稿し, Mackerel で可視化詳しくは: ｢更新が必要なnpm パッケージを可視化する｣ http://developer.hatenastaff.com/entry/2017/06/06/163000

おまけ: まず初めてみる? おうち監視!

まず初めてみる? おうち監視! ｢Web サービス監視｣のツール/ サービスは, 身近なところから試して
みよう契約しているVPS とか, Mac とか... 一方で, " 自宅の監視" から試してみるのも手です!

EdgeRouter X 米Ubiquiti 製のルータ Amazon で1 万程度で購入できる割に高性能 VPN が設定できたりするので,
ネットワーク周りの技術の入門にも有用 MIPS の上にEdgeOS が載っている EdgeOS はVyatta( ネットワーク機器向けDebian ベースのLinux OS) の派生版故に, G O O S = l i n u x , G O A R C H = m i p s l e でビルドすれば, m a c k e r e l - a g e n t やGo 製のMackerel プラグインが動く! Perl も5.14.2 が入っている他, "Raspberry Pi" の上で動かすなどの手もある

mackerel‑plugin‑nasne

mackerel‑plugin‑nasne https://github.com/ayumu83s/mackerel‑plugin‑nasne ソニーのHDD レコーダー, "nasne" を監視するplugin(Go 製) 録画に成功/
失敗した番組の数, HDD の残り容量などを監視できる

mackerel‑plugin‑nature‑remo

mackerel‑plugin‑nature‑remo https://github.com/papix/mackerel‑plugin‑nature‑remo スマートリモコン"Nature Remo" を監視するplugin( 拙作, Go 製) Nature
Remo にある, 温度/ 湿度の測定機能の結果をMackerel に投稿できる

Netatmo 温度, 湿度, 気圧, 二酸化炭素, 騒音を測定できるガジェット 10 分毎に値が更新, API 経由で取得できる

Netatmo はてなでは... 社内の各フロアに設置されていて, 一定の数値を越えるとSlack に通知が飛ぶ

さいごに

さいごに以下のテーマについて話しました: なぜ僕達は" 監視" をするのか監視する時に有用なメトリック達どこまで検知して, 通知する? Web
サービス開発の現場での監視

さいごに Web サービスが公開され, 利用者がいる以上, 障害は必ず起きますその時に備えて, " 監視" についてしっかり取り組む必要がある
Web サービスの特性, 利用しているインフラ/ ミドルウェアの特性, 開発チームの特性など, 様々な変数によって最適な" 監視" は変わる変化を恐れず, 試行錯誤をしていきましょう! 知見を共有して, より良い" 監視" を目指していきたいものです...

おわりご清聴ありがとうございました!

あわせてよみたい Mackerel サーバ監視[ 実践] 入門 http://gihyo.jp/book/2017/978‑4‑7741‑9213‑0 Mackerel でみる Linux
システムメトリック項目の見方・考え方 http://blog.a‑know.me/entry/2017/02/02/215641 突然IT インフラを任された人のための… 監視設計入門 https://www.koemu.com/etc/yapcasia2014/

Webサービスを監視するときに僕達が考えたこと / YAPC::Okinawa 2018

Webサービスを監視するときに僕達が考えたこと / YAPC::Okinawa 2018

More Decks by papix

Other Decks in Programming

Featured

Transcript