Upgrade to Pro — share decks privately, control downloads, hide ads and more …

合併後のインフラ環境におけるアラートフローの問題点洗い出しと改善をした話

 合併後のインフラ環境におけるアラートフローの問題点洗い出しと改善をした話

日々の運用で発生するアラート対応は、事象によってエスカレーションや社内の複数チームにまたがる対応が求められます。
LINEとヤフー合併により、様々なサービスを乗せる大規模インフラは更に大規模になりました。
その中でLINEとヤフーのそれぞれのアラートフローがあり、お互いの接続ポイントで障害が発生した際に、フローに沿って円滑に対応できるかの確認は安定したインフラ提供のためにとても重要なポイントになります。そこでアラートフローの有効性とメンバーのフロー理解向上を目的とした訓練を実施しました。
本発表では、この訓練の詳細、訓練を通じて明らかになった課題、そしてそれらを運用にどうフィードバックしたかについてお話しします。

LY Corporation Tech

October 18, 2024
Tweet

More Decks by LY Corporation Tech

Other Decks in Technology

Transcript

  1. © LY Corporation • 名前 • 永島 薫 / Kaoru

    Nagashima • 福岡県 宗像市出身 • 2021年3月 九州工業大学 大学院@飯塚 修了 • 2021年4月 ヤフー株式会社 新卒入社 • ~ 2023/10 • 旧ヤフーの金融/個人情報のNW、Egress Proxy • 2023/04 ~ 現在 • 旧ヤフーのバックボーン / Peering 運用 • LINEヤフー Backbone 統合の設計等 • AS23816/AS24572/AS38631 • 過去の登壇 • QUNOG26 • ansibleとCI/CDの話 2 自己紹介
  2. © LY Corporation • 2023年 LINEヤフー発足 ( https://www.lycorp.co.jp/ja/news/release/000846/ ) •

    様々なものが統合される • 組織、社内システム、etc. LINEヤフーの発足と大きな流れ 3 合併しました
  3. © LY Corporation 社内からの要求がネットワークの担当部署に上がってくる • システム間連携 • プロダクト間の連携 バックボーンが専用線で最初に接続 •

    組織間の連携を一番最初に求められる箇所 • 運用の統合は準備中 • 専用アラートフローを作成 バックボーンの接続 4 合併後の変化 ヤフー (西) AS 24572 ヤフー (東) AS 23816 LINE AS 38631 New New
  4. © LY Corporation overview 5 アラートフロー 監視チーム アラート当番 事象発生 対応

    静観 アラート当番の判断でマネージャーへエスカレーション 基本的には同じ流れ アラート当番の違い • 旧ヤフー → ネットワーク担当領域が別れており、 担当チームごとに対応ネットワーク担当領域 が別れており、担当チームごとに対応 • 旧LINE → ネットワーク担当部署の全員 多くのメンバーは下記が必要 • 今までのフローの相互理解 • LINEとヤフー間の接続のアラートフロー理解
  5. © LY Corporation • ネットワーク部署で利用している障害情報共有で利用しているのSlackのチャンネルは3つ それぞれの利用範囲や用途 6 障害情報共有のSlackチャンネル 用途 利用例

    旧LINE組織アラート対応 アラート対応 LINK down, 筐体reload、etc.. 旧ヤフー組織アラート対応 アラート対応 LINK down, 筐体reload、etc… サービス影響がある場合 エスカレーションが必要な アラート対応 VPN継続DOWN、筐体が 不安定でトラフィック吸い込む etc..
  6. © LY Corporation 統合によって生まれたアラートフローの課題 1. まだ利用されておらず問題点の洗い出しができていない 2. 対応者が把握しているか確認できていない overview 7

    今日の発表 Out of scope: LINEヤフーのネットワーク統合について 訓練を実施し、課題解決を目指す 話すこと • 訓練を実施した際のフィードバック • 運用の変化 • これからやりたいこと
  7. © LY Corporation • 目的 1. アラートフローの有効性確認 2. メンバーのフロー理解向上 •

    実施回数 • 2回 (異なるメンバーで実施) • 利用ツール • Slack / Zoom (必要に応じて) • シナリオ • 旧LINE – 旧ヤフー間専用線の全断 • 技術的に手を動かすことはない overview 8 訓練 ヤフー (西) AS 24572 ヤフー (東) AS 23816 LINE AS 38631
  8. © LY Corporation アラートフローと運用の齟齬を確認 周知 / コミュニケーションの確認 • 旧LINE –

    旧ヤフー組織間連携 • 上長へのエスカレーション • 社内への周知 • 社外とのコミュニケーション 目的1 目的2 課題ごとのアプローチ 9 訓練のゴール 期待 アラートフローが有効であること 期待 アラートフローへの理解していること
  9. © LY Corporation • 障害対応のslackチャンネルの使い分け 目的1の課題 • 人による認識の差があった 目的ごとにわかった課題 10

    訓練結果 • 目的は達成、概ね期待通り • いくつかの課題が見つかった 総括 • 訓練だとわかっているからやってしまったこと • 次回以降の訓練で実施したいこと 目的2の課題 その他
  10. © LY Corporation 3つのSlackチャンネルの使い分けが できていない • チャンネルの利用方法を再整理を検討 • 次回以降の訓練で慣れてもらう 問題点

    今後の方針 目的1 ( アラートフローの有効性確認 ) の課題 11 アラートフローの認識の違い 旧LINE組織アラート対応 旧ヤフー組織アラート対応 サービス影響がある場合 情報過多 結果: 流れを追うのが大変な状態に 記載内容(例) 旧LINE組織アラート対応 実機の操作関連 旧ヤフー組織アラート対応 実機の操作関連 サービス影響がある場合 時系列、対応方針、影響範囲
  11. © LY Corporation • 構成の把握 • すぐに全断と判断できない • 即全断と判断 •

    利用するフローの把握 • 該当区間はどのフロー? • アラートフローの不備を 指摘する人 • アラートフローのwikiに構成を記載 • アラートフローの修正と再周知 修正内容 1. ルールの適用範囲を追記 2. Zoomの利用を明文化 問題点 運用へのフィードバック 目的2 ( メンバーのフロー理解向上 ) の課題 12 認識の違い
  12. © LY Corporation 訓練とわかっているからやってしまった こと • 上長へのエスカレーションを 実際にする/しない • Zoomなしでslackで完結してしまう

    どこまでリアリティを持って実施するか うまく伝えれていなかった運営の問題 • 次回以降の訓練で改善 (運営) • Zoom利用の再周知 / wikiに記載 問題点 フィードバック 運営のポイント 13 その他課題
  13. © LY Corporation • アラートフロー定着のため定期的な実施を想定 • アラートフロー成熟と、メンバー理解が最優先 • 慣れてきたら新しい要素を追加する •

    検証環境の機器を利用して障害を起こす • 障害レポートの作成 • 現地の物理的な作業も実施する フィードバックを踏まえて 14 次回以降にやりたいこと 基本方針 検討している追加要素
  14. © LY Corporation • まとめ • LINEヤフーが発足し、組織やシステムが統合中 • ネットワークの担当部署への要望が会社からあがっており、旧LINEと旧ヤフー間を接続 •

    旧LINEと旧ヤフーの組織間の訓練を初めて実施 • 障害訓練から得たこと • アラートフローの有効性を確認したこと • 課題の把握をしたこと • 今後の訓練でさらに理解を深める必要性があること • 議論したいこと • フローの定期的な見直し、訓練等をしていますか • エスカレーションできるか / 技術的に障害対応できることを混合しているか • 実際の対応で役割分担どうしている • リモートでの障害対応で工夫している点 統括と議論について 15 まとめ