Upgrade to Pro — share decks privately, control downloads, hide ads and more …

もし大規模障害が、10分で解決できたら?

masaaki_K
November 21, 2024

 もし大規模障害が、10分で解決できたら?

日本IBM CSM TEAMのnoteにアップロードする資料です。

クリエイターページのURLは下記となります。
https://note.com/ibmj_csm/

APMについて紹介し、どのように大規模障害を解決していくのか、その効果について説明しています。

masaaki_K

November 21, 2024
Tweet

More Decks by masaaki_K

Other Decks in Technology

Transcript

  1. Copyright ©2024 IBM Corporation. 複雑化するインフラ サービスが増える。技術も増える。 コンテナやクラウド、多くの知識。 もう誰も全体像が見えなくなっている。 障害の本当の場所は? エラーが出たサーバーAにアクセス。

    ログファイルを確認。 しかし原因はサーバーBに存在していた。 視覚的に状況を見たい 時間経過と共に変化する環境データ。 数字で見ても直感的にわからない。 自動でグラフ表示して欲しい。 平均修正時間が長い 障害通知が届き、調査を開始する。 原因の切り分けに難航する。 MTTRの時間は短くならない。 よくある運用の悩み、問題解決のプレッシャー
  2. Copyright ©2024 IBM Corporation. 障害は1秒でも早く解決したい インシデント 発生 情報 収集 障害

    場所 障害 内容 対処 方法 障害の レベル 焦り、不安、困惑 原因 解析 障害 対処 復旧 赤枠の時間は出来るだけ減らしたい、 障害のレベルが変化しても、すぐに対処まで進みたい。 APMの活用 問題背景 – 障害対応は時間との勝負
  3. Copyright ©2024 IBM Corporation. なぜいまAPMが不可欠なのか? 従来の方法 APMの活用 多様なクラウドやマイクロサービスの普及に より環境の急速な複雑化に追いつけない。 ベテランエンジニアの記憶が頼り。

    環境の変化を自動でマッピングする。 新しい技術の追加に柔軟に対応される。 新人であっても、環境を目視で理解できる。 ユーザーの期待するアプリケーションの パフォーマンスを維持できない状況になる。 問題の特定をする余裕もない。 障害発生時、複雑化したインフラによって 解決までの時間が増加していく。 MTTRの時間が伸び、ストレスは蓄積する。 アプリケーションの問題特定が容易になる。 問題が起きている場所、なにが問題になって いるのかを見つけることができる。 障害発生時、どこで問題が発生しているかを すぐに切り分けることができる。 MTTRの改善によって、顧客のストレス緩和。 これまで起きていた問題には、早期対応、あるいは事前対応を可能にします。 APMを活用することは、ビジネスのダメージを最小にすることであり、安定運用のカギです。
  4. Copyright ©2024 IBM Corporation. APMがもたらしてくれる、具体的な成果 パフォーマンス監視 スケーラビリティ ユーザー体験 顧客行動の変化 素早く異常検知、パフォーマンスを向上させる

    利用率を視覚化、効果的なサイズ感へ 変化を読み取り、ユーザー体験を常に適切にする 顧客行動の変化に合わせて、戦略を最適化
  5. Copyright ©2024 IBM Corporation. 事例 可観測性を高めて簡単に原因を究明する セブン&アイ・ネットメディア様 引用元: https://www.ibm.com/downloads/cas/LVLN2LN1 インシデントを選択するだけで、

    詳細が確認できる。 APM活用経緯 導入はしていたものの、うまく利活用に繋がらず 従来の対応で障害に対応していた。 対応状況 迅速な障害特定に繋がらない。 それどころか障害原因がわからないこともしばしば。 APMの再活用 スキルの再取得、APMの識者がいなくても、 わかりやすいUIと機能によって再度理解を進める。 結果 スキル再取得の直後に発生した障害において、 原因特定と復旧経過の観察に大きく活用される。
  6. Copyright ©2024 IBM Corporation. 事例 インフラ全体やメインフレームの追跡ができる APMの導入によって得られる 依存関係を把握することができる。 依存関係を自動で図に作成する。 観測する範囲が大きく広がっても、どの

    アプリケーションに依存関係があるのか がわかる。 また観測範囲が大きくなっても、個別の インシデント一覧によって情報が錯綜す る事がなくなる。 障害の切り分けが楽になり、 チームが一丸となって活動できる。 Sogei Company様 (イタリアの経済財務省が所有する公共IT企業) 引用元: https://speakerdeck.com/instanautsjp/shi-li-how-to-use-instana- itariazheng-fu-guo-min-6000mo-ren-wozhi-eruinstananoli
  7. Copyright ©2024 IBM Corporation. 事例 適切なトラブルシュートと速度改善 発生した事案 あるアプリで、画面遷移に5分かかる事態。 エンジニアによる分析が行われる。 対応状況

    ベテランエンジニアでも、問題がわからない。 「SQLは遅くないからDBは原因ではない」と判断する。 Airitech株式会社様 引用元: https://speakerdeck.com/instanautsjp/koredesheng-turu-toraburusiyutowu-yong-chuan-by-instana APMでの対応 APMで再度確認、確かに遅いSQLではない。 分析によって、参照履歴の肥大化が確認される。 結果 確かにSQLに問題はない。 しかし原因の大元はDBにあることが判明する。 APMによる 再度の分析。 原因特定と対応 300秒 → 4秒 画面遷移の時間は1/75に短縮。 大幅な速度改善。 本番環境を影響なく 見ることができる
  8. Copyright ©2024 IBM Corporation. 問題背景 – 解決の糸口はAPM 障害は1秒でも早く解決したい インシデント 発生

    情報 収集 障害 場所 障害 内容 対処 方法 障害の レベル 焦り、不安、困惑 原因 解析 障害 対処 復旧 APM = IBM Instana Observabilityが このエリアをまるっと引き受けます!
  9. Copyright ©2024 IBM Corporation. 早速体験してみませんか? https://www.ibm.com/account/reg/us- en/signup?formid=urx-52345 IBM Instana Observabilityには

    14日の無料利用があります。 日本語もありますので、安心して利用できます。 まずは環境を立ち上げてみて、どのように利用 できるのかをお試しください。 まず動画でInstanaを知りたい方は次の資料へ。 無料での利用導入方法が知りたいという場合は、 別途ご相談ください。
  10. Copyright ©2024 IBM Corporation. 最後に:改めてAPMが当たり前の選択になる理由 APMは将来にわたってビジネスに必要な存在です。 ・リスクを低減する ・可観測性で可用率を高め続ける ・技術が多彩になっても人間をフォローし続ける ・トラブルシュートの強い味方である

    ・ユーザー体験を高め、ビジネスを継続する ・テスト環境で再現ではなく、本番環境を直に見る IBM Instana Observability で運用、障害対処を楽に 人間の管理には限界がある。コンピューターは人間の機能を外部から強化してくれる。 「どこかわからない」は「ここだ」に変わる。