#o11yjp Observability Japan Online #1 登壇資料
「Webエンジニアのための監視システム実装ガイド」発売!Observability Japan Online2020-03-17
View Slide
登場人物2@netmarkjpばば としあき@ymotongpoo@katzchangKazunori Otani
Webエンジニアのための監視システム実装ガイド第1章 監視テクノロジの動向第2章 監視テクノロジの概要第3章 監視テクノロジの基礎第4章 監視テクノロジの導⼊第5章 監視テクノロジの実装第6章 インシデント対応実践編第7章 監視構成例【Topic】監視テクノロジの歴史や特徴、監視システムの基本動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、ChaosEngineering、監視方式のActive/Passive、メトリクス収集方式のPush/Pull、オンコール...https://netmark.jp/2020/03/2020-03-03-21-21.html 3https://amzn.to/330B1CQ
きっかけ4入門 監視https://www.amazon.co.jp/dp/4873118646/2019/1/17発売この本が全てのきっかけ出版社:監視の本がアツいぞ…わたし:監視の本なら関わりたかった…
Webエンジニアのための監視システム実装ガイド 執筆経緯2014-12-27 Webエンジニアが知っておきたいインフラの基本 発売2019-02-08 ↑の編集さんから打診→本書の編集さんを紹介いただく2019-02-08 企画書をいただく→目次案作成開始2019-03-25 目次案fix(2019-04執筆開始⇒2019-09初旬脱稿予定)2019-03-31 15時間でわかるMySQL実践入門 脱稿、本書を執筆開始(2019-08に、2019-10初旬脱稿予定に変更)2019-09-07 ISUCON予選⇒初日3位で久々に突破!2019-10-05 ISUCON本選⇒11位...2019-10-08 脱稿2020-02-14 編集さんと初顔合わせ(基本メールだった)2020-02-19 書名決定2020-03-24 発売予定5
ばばが本を書くときの気持ち● 自分の経験・知見をまとめて形にしたい○ 欲● 毎度説明する代わりに「これ読んでください」したい○ Webエンジニアが知っておきたいインフラの基本はいまだに活躍しています● 自分の/エンジニアの常識・新常識を権威付けしたい○ 章を設けたりコラムを書いたりしました● 会社の宣伝をしたい○株式会社ハートビーツ https://heartbeats.jp/MSP事業/開発事業やってます6
Webエンジニアのための監視システム実装ガイド 概要1Amazonのリード https://amzn.to/330B1CQシステムは、何もしないと壊れます。システムは、よくわからない状態になります。どれだけ技術力の高いエンジニアが設計・構築しても、残念な事実として、システムを構築した後に何もしないと壊れます、よくわからない状態になります。システムを「監視」あるいは「モニタリング」することで、・異常を検知し復旧させること・システムの価値を維持・向上させることができます。本書では、監視テクノロジの動向から組織での実装まで、わかりやすく学ぶことができます。最新ツールの説明、実装パターンの紹介だけでなく、組織での実装にあたっての態勢づくり、システムづくりについても現場目線で寄り添って解説しています。これから監視を始める方にはもちろん、現状の監視システムに疑問を抱いている方にもおすすめの1冊です。7
Webエンジニアのための監視システム実装ガイド 概要28監視(モニタリング)を-狭義:定期的・継続的に 、観測し異常を検知し復旧させること-広義:定期的・継続的に 、観測しシステムの価値を維持・向上させる営みの全てに分類し、まずは狭義→発展として広義を紹介しています。監視システムの目的をチェック/メトリクスにわけて考え、それぞれの目的での観測処理・観測結果収集・異常検知(判定)・通知などの流れや仕組みを解説しています。監視テクノロジ/運用の価値と限界、自己修復機構との役割分担について言及しました。
もくじ第1章 監視テクノロジの動向1.1 システムにまつわる残念な事実1.2 監視テクノロジの2つの志向性1.3 監視テクノロジの動向1.4 Webシステム運用の文化第2章 監視テクノロジの概要2.1 監視テクノロジで実現したいこと2.2 可用性の測り方2.3 監視システムの種類2.4 監視システムの構成概要2.5 自己修復機構と監視テクノロジ2.6 自己修復システムの継続的運用を支える Chaos Engineering第3章 監視テクノロジの基礎3.1 監視テクノロジの基礎3.2 観測部分の基礎技術3.3 データ収集部分の基礎技術3.4 データ利用部分の基礎技術3.5 時系列データベースの基礎技術3.6 ログの基礎技術9第4章 監視テクノロジの導⼊4.1 「監視」に対する期待4.2 監視を始める4.3 監視ツールどれにしよう問題第5章 監視テクノロジの実装5.1 アラーティングする / しないの基準5.2 アラーティング目的の観測項目を決める5.3 定番 の観測項目第6章 インシデント対応実践編6.1 インシデント対応の基礎知識6.2 インシデント対応の心構え6.3 インシデントが Open ステータスのときにやること6.4 インシデントが Resolved ステータスのときにやること6.5 恒久対応 / 改善対応第7章 監視構成例7.1 チェック、メトリクス、ログ、トレース、APMの構成例7.2 通知、 コミュニケーション、ドキュメント、チケットの構成例
小ネタ・コラム Pick up● Pets to Cattle ( ペットから家畜へ ) とDisposable ( 廃棄可能 )○ インフラの常識の変化の話● 時間ベースの可用性を採用するときに監視システムの実装から生じる制約○ N分間隔のチェックだと変動の最小単位がN分だから%の測り方と目標値設定に注意● 時間ベース ・ リクエストベースとその先の可用性計算手法○ Meaningful Availabilityの紹介● 可用性指標の妥当性の検討○ ユーザが喜ぶ/悲しむ指標はいい指標● 自己修復機構を活かすための作り方の話○ The Twelve-Factor Appの紹介● 監視テクノロジで可用性は上がらない !○ 下がりすぎないようにするもの● SLA は読み方が難しい○ 保証じゃなくて返金規準だし申請も難しい● MSP事業者の探し方○ 宣伝● 監視テクノロジを活用する我々はシステムのお医者さんなのかもしれない○ 医療業界の「プライマリケア」の紹介● コトにフォーカスして論理的にエンジニアリングしよう○ 直感や感情で対処してはならない○ トリプルチェックの実験結果の紹介10
はじめに→ディスカッションネタ帳● 監視(モニタリング)にどっぷりはまって/染まっていった理由や経緯● 監視/モニタリング関連のテクノロジの魅力● 監視/モニタリング関連の仕事の魅力11
Webエンジニアのための監視システム実装ガイド第1章 監視テクノロジの動向第2章 監視テクノロジの概要第3章 監視テクノロジの基礎第4章 監視テクノロジの導⼊第5章 監視テクノロジの実装第6章 インシデント対応実践編第7章 監視構成例【Topic】監視テクノロジの歴史や特徴、監視システムの基本動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、ChaosEngineering、監視方式のActive/Passive、メトリクス収集方式のPush/Pull、オンコール...12https://amzn.to/330B1CQ