2023/5/23開催「オブザーバビリティ最前線 〜 事例LTから学ぶ、オブザーバビリティの成熟度〜」
© 2023 New Relic, Inc. All rights reservedオブザーバビリティ最前線 〜 事例LTから学ぶ、オブザーバビリティの成熟度〜 伊藤 覚宏 Senior Technical Support Engineer
View Slide
© 2023 New Relic, Inc. All rights reservedゴール ● オブザーバビリティについての全体ステップがわかり、今自社がどのフェーズにいるのかわかる ● オブザーバビリティの次のアクションがわかる ● オブザーバビリティについてどのように指標を計測することができるか、セキュリティへの取り組みについても理解できる
© 2023 New Relic, Inc. All rights reservedNew Relic 会社概要日本法人設立代表者シェア本社事業内容設立代表者上場従業員数顧客数売上New Relic 株式会社2018年8月小西 真一朗(代表取締役社長)国内オブザーバビリティ市場シェア No.1*New Relic, Inc. (HQ: サンフランシスコ、USA)オブザーバビリティ・プラットフォームの提供2008年ビル・ステイプルズ(Bill Staples - CEO)ニューヨーク証券取引所: NEWR約2,200人15,000 以上$786M(2022年3月末)3*出典:株式会社テクノ・システム・リサーチ創業者 ルー・サーニー (Lew Cirne)
© 2022 New Relic, Inc. All rights reserved© 2023 New Relic, Inc. All rights reservedWhat is New Relic ?L e w C i r n eN e w R e l i c
© 2023 New Relic, Inc. All rights reserved自己紹介伊藤 覚宏 (いとう あきひろ)New Relic 株式会社シニアテクニカルサポートエンジニア• OSS監視ソリューションのテクニカルサポート、クラウド環境の構築・設計、運用設計の経験を活かしお客様をサポートいたします。– 専門:監視、クラウドアーキテクト、AWS、 VMware、Zabbix• インフラエンジニア• クラウドエンジニア• サポートエンジニア
© 2023 New Relic, Inc. All rights reservedAgenda 01 オブザーバビリティの成熟度モデルと 監視からオブザーバビリティへ 02 サービスレベル管理 (SLM) とは? - 計測すべき指標と活用について- 03 DevSecOpsへの展開 - 全てのチームの能力を最大限に引き出す
© 2023 New Relic, Inc. All rights reservedオブザーバビリティの成熟度モデル 監視からオブザーバビリティへ
© 2023 New Relic, Inc. All rights reservedシステムの異常を知るための仕組み: 監視サーバー異常、停止 人が検知監視さえできていれば、システム障害を防ぎ安定稼働を実現できる?監視(Monitoring): あるシステムやそのシステムのコンポーネントの振る舞いや出力を観察しチェックし続ける行為通知出典: 入門監視(O’reilly, 2019)
その答えは、NO“アマゾンはシステム管理のプロセスを改善するために25年もの旅をしてきました。そして、システムを管理するには 「監視するだけで充分」 という考えを捨てました。大量のデータやログをどのように分析するか、問題が発生したときにどのように問題を解決し話し合うかに至るまで、業務に対する全体的なアプローチに乗り出しています。まさにそれこそが「オブザーバビリティ (可観測性) 」なのです。”Dr. Werner VogelsVice President and CTO of Amazon
© 2023 New Relic, Inc. All rights reservedなぜ監視だけでは不十分なのか?これ以降の内容ITシステムの歴史と監視の変化オブザーバビリティという概念の登場背景と監視との相違点オブザーバビリティの実現方法
© 2023 New Relic, Inc. All rights reservedITシステムの進化と監視の変化
© 2023 New Relic, Inc. All rights reservedITシステムの進化と役割の変化1960年〜 1980年〜 2000年〜 2010年〜 2020年〜メインフレーム オープンシステム サーバー仮想化 クラウド コンテナ・サーバレスモード1:既存業務の維持モード2:価値の提供業務効率化 業務拡張 事業創造メールやドキュメントなど インターネット検索や eコマース システム = ビジネスシステム=ビジネスそのものになる時代へ業務処理会計処理など
© 2023 New Relic, Inc. All rights reservedITシステムの進化の背景VM VM VM VMメインフレーム オープンシステム サーバー仮想化 クラウド コンテナ・サーバレス一部の社員 社員全員 世界中の人取引先安定稼働利用者 少 多重視されていること安定稼働 新機能追加システムに対する需要が読めない → より簡単にスケールする仕組みへ市場ニーズに対する早急な対応や新規需要の創出を目指す → 基盤のコード化(IaC)やマイクロサービス化へ
© 2023 New Relic, Inc. All rights reservedITシステムの進化に伴う監視の変化VM VM VM VMメインフレーム オープンシステム サーバー仮想化 クラウド コンテナ・サーバレスサーバー 仮想マシン コンテナクラウドリソース監視対象の数少 多監視の観点 システム内部 ユーザー体験監視対象はより多く、より複雑にユーザー視点の監視が重視されるように監視対象の状態静的 動的監視対象は常に変化するように
© 2023 New Relic, Inc. All rights reserved監視の対象と観点が変化する 過去のシステム アプリ (モノリシック) 基盤 (オンプレ) 近年のシステム 基盤 (オンプレ・クラウド) リソース抽象化 (仮想化、コンテナ等) アプリ (マイクロサービス) • 構成要素がシンプル • システム変更が少ない • 基盤を監視していればアプリの振る舞いとサービスの状態も予測できる • 構成要素が複雑 • 新機能リリースなど変化が当たり前 • 基盤を監視してもサービスの状態を把握できない→ユーザー体験の監視へ新機能
© 2023 New Relic, Inc. All rights reservedクラウドのシステムモデル• 1台のサーバを見るのでは無く無数のサーバをクラスタとして管理する• アプリはクラスタメンバーの個々のサーバー内で動作する• オートスケールやオートヒーリングを適切に動作させる事が重要 オンプレミスからIaaSへ• APIによる連携• オートヒーリングやオートスケールは基本機能として組み込まれておりユーザーは意識しない• 個々のコンテナでは無くシステム集合が動作していることが重要IaaSからコンテナへ
© 2023 New Relic, Inc. All rights reservedIT環境のシステムモデルの遷移●ペットモデル・キャトルモデル Microsoft Bill Baker 提唱オルガノモデル New Relic 伊藤 覚宏 提唱● 小数の個別サーバーを管理する● 大事なペットを守るような運用● システムはステートフル● モノリシックな実装ペットモデル● 同じ機能を持った複数のサーバーをクラスタとして運用● 家畜のように群れとしての運用● AutoScalingやAutoHealingを設定してシステムの堅牢性を確保● アプリサーバーやDBサーバーは分離されているが、実装自体はモノリシックに近いキャトルモデル(家畜)● コンテナによるオーケストレーション● コンテナの数やスペックはマニュフェストにより定義され、問題があれば自動的に再配置される● 臓器のように個々のコンテナ(細胞)が複製やアポトーシスを行う● 個々のコンテナの死活では無くシステム自体が機能を提供している事が重要オルガノモデル(臓器)※
© 2023 New Relic, Inc. All rights reserved監視からオブザーバビリティへ
© 2023 New Relic, Inc. All rights reserved近年のシステム監視 3つの特徴システムの構成要素が多いシステムの変化が当たり前ユーザー体験が重要123
© 2023 New Relic, Inc. All rights reserved監視にまつわる新たな課題監視を1つ1つ網羅的に 設定する労力が甚大アラートが出ても、 解釈と原因特定が困難ブラウザアプリモバイルアプリアプリ ロジックDB サーバーコンテナクラウド?
© 2023 New Relic, Inc. All rights reserved監視にまつわる新たな課題新機能などを既存の 監視設定でカバーできない想定外のアクセスなど前例の ない問題への対処が困難従来の機能 新機能?
© 2023 New Relic, Inc. All rights reserved監視にまつわる新たな課題ユーザー体験の計測方法の確立が難しいユーザー体験の悪化の原因の 調査が困難ユーザーの手元で今起こっていることを知りたい?
© 2023 New Relic, Inc. All rights reserved従来の監視の限界システムがビジネスに寄与する割合は大きくなっているため、ビジネス影響は甚大に予め対象を決めて監視を することの限界 アラートから原因を特定し 迅速に復旧することの限界 問題に気づかず、復旧のための 初動が遅れる 復旧に時間がかかり、ダウンタイムが長引く
© 2023 New Relic, Inc. All rights reserved解決策: オブザーバビリティ(可観測性)システム全体を可視化し、異常を知らせるありとあらゆるコンポーネントの稼働状況を取得可能な状態にし、リアルタイムで収集するデータの関連付けを行うシステムの異常にすぐに気づき、素早く原因にたどり着くことが可能
© 2023 New Relic, Inc. All rights reserved監視からオブザーバビリティへ• まずは全てのデータを収集する• データの関連付けと可視化を自動で行い、システムの全容を把握できる• いつもと異なる振る舞いを自動で認識監視 オブザーバビリティ• あらかじめ見るものを決め、それに合わせてデータを収集する• 個々のデータは独立• 一定のしきい値を超えたら異常とするよう設定
© 2023 New Relic, Inc. All rights reserved監視からオブザーバビリティへ• 各種センサー、記録係を付けて生活する• データは自動で分析され可視化される• いつもと異なる値が出たら生活に注意する監視 オブザーバビリティ• 明らかに病気の症状が出る• 症状が出たら医者にかかる
© 2023 New Relic, Inc. All rights reserved監視からオブザーバビリティへ• 監視では障害通知があると、 CPUやメモリなどの値を確認します。死活監視 反応があるか PingMetric 体温・血圧 CPU使用率/メモリ使用率Log 「頭が痛い」 Errorメッセージ原因はわからないけど、異常は見られないので頭痛薬飲んでおきましょう>とりあえず再起動
© 2023 New Relic, Inc. All rights reserved監視からオブザーバビリティへ• オブザーバビリティではより多くの情報を収集し、何が起こったのかを明らかにして根本原因に対処します。• 障害ではなくて「いつもと違う」を検知して対処します。Metric 気温・気圧・湿度・体温・血圧 CPU/メモリ使用率・プロセス・ User満足度・応答時間Event 昨日19時から2時まで飲みに行った リクエスト数・プログラム処理時間(トランザクション)Log 「今朝から頭が痛い」 Errorlog、スタックトレースTrace 飲み屋でBさんとテキーラ10杯飲んだ DB呼び出し、API呼び出し二日酔いですね、この頭痛薬と胃腸薬を飲みましょう深酒しちゃだめですよ、節制しましょう>原因の究明と、システムの改善
© 2023 New Relic, Inc. All rights reserved監視ツールとオブザーバービリティの違いアプリケーション監視インフラ監視ネットワーク監視顧客体験監視オブザーバビリティビジネス監視監視は個々のデータを必要に応じて収集するが、オブザーバビリティは全てを収集する
© 2022 New Relic, Inc. All rights reservedObservability成熟度モデルDataDriven● データドリブンによる経営判断● 素早い市場投入● CSAT/Netスコアの改善Predictive予測的Proactive積極的Reactive受動的● 顧客満足度● SLOによる経営計画と判断● 市場投入数特徴 KPIGettingStarted42301● New Relicによる運用● 顧客体験の改善● ちょうどよいスケーリング● MTTD(Mean Time To Discover)の改善● サービスレベルの計測● デジタル顧客体験の策定● MTTR(Mean Time To Repair)の改善● アプリケーションパフォーマンスの気付き● 顧客に影響がある事象への対応の改善● パフォーマンス計測● スケールする製品の投入計画● サービスレベルの維持● 重大な障害率● エラーバジェット消費率● SLOに関連するアラート率● ビジネスメトリックの改善率● 平均MTTD● SLOが定義されているサービスの割合● クリティカル・ケイパビリティの策定の割合● 平均MTTR● パフォーマンス低下を伴う障害率● サービス停止を伴う障害率● New Relicでの監視率● データの量成熟度