Upgrade to Pro — share decks privately, control downloads, hide ads and more …

nagios phase 3 #TechLunch

nagios phase 3 #TechLunch

nagios phase 3
2013/07/03 (水) @ Livesense TechLunch
発表者:鈴木 翔一郎

E60aa4f80303f3f386898546ddb3686a?s=128

Livesense Inc.
PRO

April 21, 2014
Tweet

Transcript

  1. Haraos  phase  3

  2. Haraos  phase  2  目標 ü no  more  誤検知 ü no  more  時報

    ü no  more  とりあえずメール
  3. no  more  誤検知 ü nagiosは誰でも簡単に閾値変更可能 # vim /etc/nagios/include/nrpe_custom.cfg # /etc/init.d/nrpe reload

    $ etckeeper commit "nrpe threshold"
  4. no  more  誤検知 ü 1  request落ちてもアラートをあげない ü 一時的高負荷/deployの誤検知防止 ü max_check_attempts ü Soft  Critail  /

     Hard  Critcal
  5. no  more  時報 ü check  /  notification  抑制機能 ü GUI/CLI  の両方をサポート ü crontabに登録すれば時報の抑制も

  6. no  more  とりあえずメール ü メールを飛ばすのは監視とは言わない ü 緊急時のみメール&グラフ化が必要 ü PNP  pluginによる可視化 ü 適切なthreshold/attempt

  7. Haraos  phase  2 ü   HR系DB  master  発火を検知 ü   haken  slave

     query滞留を検知 ü   LDAP  disk枯渇を検知 ü   mod  proxy  障害は検知できず (CentOS  5.Xはharaos未設定です)
  8. Haraos  phase  2 何とかDBリプレイスに間に合いました ⊂(・∀・)つセーフ!! ü   HB同等レベルの監視項目設定 ü   HBやや遅い監視体制

  9. 1年前は・・・

  10. jsen  APサーバで高負荷状態

  11. 関連サーバの負荷を調査 master  DB  の  munin  グラフを表示

  12. 待つ事  5分・・・

  13. ボトルネック特定に時間が かかりすぎ・・・

  14. 今では・・・ ü 障害機器一覧が一目瞭然

  15. Haraos  phase  3  目標 ü メール通知のnagios化 ü 不要監視項目の断捨離 ü メディア主体の閾値調整

  16. Haraos  phase  3  目標 ü メール通知のnagios化 ü 不要監視項目の断捨離 ü メディア主体の閾値調整

  17. メール通知のnagios化 ü lsync  delay  haraos化  完了 ü mys  delay  haraos化  完了 (夜間メール抑制対応追加)

    ü あとは既存メール設定削除
  18. 不要監視項目の断捨離 ◇対応内容  貴社ユーザーと思われるログインを 多数確認致しましたので  一時的に注意監視とさせて頂きます。 ü 要らないですよね?

  19. メディア主体の閾値調整 ü すぐに対応できないアラートは とりあえず止めてしまう ü 要らないchat通知を抑制して 集中して仕事できる体制へ

  20. メディア主体の閾値調整 ü apache  error_log ü Unable  to  open  PDO  conn ü SQLSTATE ü 件数

     /  min ü apache  access_log ü 5XX  error  件数
  21. 大事な事なので2回言います

  22. メディア主体の閾値調整 ü haraosを使いこなせれば不要 アラートを抑制できます。 ü haraosを使いこなせれば事業 判断に基づく閾値調整が可能 です

  23. 大事な事なので3回言います

  24. メディア主体の閾値調整 ü haraosを使いこなせれば不要 アラートを抑制できます。 ü haraosを使いこなせれば事業 判断に基づく閾値調整が可能 です

  25. 以上 次回  haraos  phase  4