Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
現状分析と予兆検知を融合した監視システムの確立
Search
ShowNet
PRO
February 22, 2023
0
1k
現状分析と予兆検知を融合した監視システムの確立
ShowNet.conf_ での講演資料
ShowNet
PRO
February 22, 2023
Tweet
Share
More Decks by ShowNet
See All by ShowNet
【shownet.conf_】ShowNet 2024 ~ Inter * Network ~
shownet
PRO
0
770
【shownet.conf_】ShowNet伝送改めShowNet APN 2024
shownet
PRO
0
640
【shownet.conf_】コンピューティング資源を統合した分散コンテナ基盤の進化
shownet
PRO
0
610
【shownet.conf_】ShowNet x 宇宙ネットワーク
shownet
PRO
0
580
【shownet.conf_】多様化するネットワーク環境を柔軟に統合するルーティングテクノロジー
shownet
PRO
0
560
【shownet.conf_】3Dアプローチで守るセキュリティ
shownet
PRO
0
560
【shownet.conf_】トポロジ図の歩き方
shownet
PRO
0
750
【shownet.conf_】AI技術とUX監視の応用でShowNetの基盤を支えるモニタリングシステム
shownet
PRO
0
560
【shownet.conf_】ローカル5Gを活用したウォーキングツアーの体感向上
shownet
PRO
0
520
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
520
39k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
44
2.2k
Become a Pro
speakerdeck
PRO
25
5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Into the Great Unknown - MozCon
thekraken
32
1.5k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Facilitating Awesome Meetings
lara
50
6.1k
Agile that works and the tools we love
rasmusluckow
327
21k
Navigating Team Friction
lara
183
14k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Transcript
ShowNet NOCチームメンバー モニタリング担当 岩本裕真 現状分析と予兆検知を融合した 監視システムの確立
ShowNetにおける監視の必要性 • 安定したインターネットサービスの提供 • 出展者ブース・来場者・構築メンバーへのサービスの提供 • 構築中の予期せぬ障害 • 設定ミス・配線ミスと言った人為的 •
配線の整理作業で意図せず作業対象外ケーブルが抜ける • 機器のバグ • イベントネットワークという特殊な監視 • データセンターとは違った厳しい環境での温湿度管理(外気からの影響 を強く受ける)
監視要件の変化 1. DCの構築 2. ネットワークの構築 3. サーバ・ストレージ基盤の構築 4. セキュリティサービスの構築 5.
アプリケーションの安定稼働 6. プロバイダサービスの提供 プロバイダのサービスを 2週間で構築し提供 監視要件も都度変化する 変化する監視要件に追従するシステム設計
変化する監視要件に追従するシステム設計 • Hotstages前期(6/3〜6/4) • 温湿度監視、機器への死活監視、syslog受信監視 • Hotstage後期(6/5〜6/8) • 機器の監視設定、特定ログ/キーワード監視 •
Deploy Day(6/8〜6/9) • Pod監視、syslog監視、xFlow監視、品質監視 • Interop Tokyo Day1〜3(6/15〜6/17) • 安定稼働のための監視 ※6/3は主に機器マウント
モニタリングコンセプト
過去からの継続 • 統合監視(SNMPを用いた全体監視) • ログ監視・xFlow監視 • syslog/xFlow/snmpトラップ転送 • 時刻ずれ監視 •
パケット解析・可視化 • 仮想化基盤監視 • 各種監視サービスの連携
モニタリングテーマ2022 現状分析と予兆検知を融合した監視システムの確立 • 監視データを利用した予兆検知技術の運用への応用 • ハイブリッドクラウドを活用した高可用性な監視システムの実現 • トラフィック解析技術を駆使した進化するネットワーク詳細分析技術 モニタリング 現状分析
xFlow,SNMP,Syslog 詳細分析 パケット解析 経路解析 フィードフォワード 障害予測 キャパシティ予測 運用オペレーション 運用サポート 運用(障害)分析 運用サポート技術 アラート・ 統計情報 仮想基盤監視 クラウド監視
監視データを利用した予兆検知技術の運用へ の応用 • 「AI」「機械学習」といったキーワードを売りにした製 品をどのように運用に取り入れるか。 • 異常検知 • 急なネットワーク変化による変化のアラート検知 •
キャパシティ予測 • コンピューターリソースの使用状況 • Syslog出力量 • CPU,メモリ,ディスク容量
ハイブリッドクラウドを活用した高可用性な 監視システムの実現 • オンプレミス・クラウド両方からのActive-Active監視 • 監視環境が地理的配置に依存しない構成 • クラウド内のリージョンを跨いだ冗長構成 Zabbix-1 System
AnswerG3 [1-3] Azure ManagementNetwork Backup/Restore Zabbix-3 Zabbix-2 HA System AnswerG3 [1-3] Azure SQL Database West ThousandEyes- agent System AnswerG3 [1-3] East ThousandEyes- agent ShowNet機器群 監視 監視
トラフィック解析技術を駆使した進化する ネットワーク詳細分析技術 • リアルタイムトラフィック分析 • マイクロバースト・遅延値・品質値のリアルタイム測定 • リアルタイムlogの検索、監視、分析 • 映像トラフィックのシーケンス番号を識別し、jitter値をマイクロ
秒オーダで測定 • データプレーントラフィックからのフロー生成・分析 • ミラートラフィックからnetflow生成
None
モニタリング基盤
モニタリングから見るShowNet2022 • 監視ホスト数 :807(ping監視,HV監視含む) • SNMP通信による監視ホスト数:301 • 最大Syslog数/days:60,801,894(秒間42,223) • Syslog容量:
176GByte 日付 Syslog数 6/5 1,832,683 6/6 3,350,579 6/7 5,657,782 6/8 6,507,565 6/9 24,903,675 6/10 22,592,948 6/11 42,538,821 6/12 60,801,894 6/13 47,750,972 6/14 22,520,640 6/15 27,977,222 6/16 22,939,715 6/17 16,098,140 日付 counts
監視項目別モニタリング システムの紹介
統合監視① SystemAnswerG3 API FlowmonCollector SystemAnswerG3 • 情報収集と自動分析 • ベースライン監視/予兆検知 •
System Answer XCを用いた統合管理 • クラウドとオンプレを利用したハイブリット監視 • FlowCollectorと統合監視の連携による一元管理
統合監視② Zabbix • コンソールサーバと監視サーバの連携 • 温湿度監視/CO2監視 • クラウド内冗長化デモンストレーション • LLDPトポロジマップ
• クラウドとオンプレを利用したハイブリット監視 • ハイパーバイザー・仮想マシン監視
統合監視③ Zabbix-1 SmartCS アラートをトリガーに コンソール通信コマンド実行 API 統合監視とコンソールサーバの連携 • N1〜N12ラックのSmartCSをAPI越しにシリアルコンソー ル接続
• 監視項目のしきい値を超えるとZabbixサーバからコマンド • 今年のデモでは映像伝送トラフィックが一定量を超えた際にインターフェース 情報取得 mgmt-7 ptx10k シリアルコンソール接続
統合監視④ AX-Network-Manager • Syslog,SNMPを用いた分析 • スイッチのMACアドレステーブルから接続デバイスの可視化 • トポロジ図へマッピング
クラウド連携 Zabbix-1 System AnswerG3 [1-3] Azure ManagementNetwork Backup/Restore Zabbix-3 Zabbix-2
HA System AnswerG3 [1-3] Azure SQL Database West ThousandEyes- agent System AnswerG3 [1-3] East ThousandEyes- agent 監視 監視 ThousandEyes 監視
ログ分析 vRealize LogInsight • リアルタイムlogの検索、監視、分析 • 全文検索でログファイルとホスト・プロトコル・障 害内容を検知しアラート • ShowNet内仮想環境にてログ分析用クラスタを構築
時刻監視 TS-2850 • 時刻ずれ監視 • 意図せずNTPサーバとなっているホストの検知 ・・・ 時刻同期
監視データの予兆検知技術 • 「AI」「機械学習」といったキーワードを売りにした 製品をどのように運用に取り入れるか。 • 異常検知 • 急なネットワーク変化による変化のアラート検知 • キャパシティ予測
• コンピューターリソースの使用状況 • Syslog出力量 • CPU,メモリ,ディスク容量
監視データの予兆検知技術 予測 予測 pa5280.svcの帯域値② (6/15) pa5280.svcの予測と実測の比較 pa5280.svcの帯域値①(6/13) 切り取り範囲 予測 faz1kf.secの帯域値②(6/15)
予測 faz1kf.secの帯域値①(6/13) faz1kf.secの予測と実測の比較 切り取り範囲
ネットワーク詳細分析技術 @FlowInspector • 映像伝送との連携による映像トラフィックの品質分析 • 低コストなハードウェアキャプチャ • 可視化機能含めてコントリビューション 映像品質の異常検知 slack通知
FlowInspector-10G PacketMaster EX5-[1-2] FlowInspector-100G EXA64100 #N-6 Rack ミラートラフィック ミラートラフィック slack通知
フロー監視・経路監視 FlowmonCollector • NetFlow/sFlow/IPFIX可視化 • 対外接続・内部ネットワークのトラフィック量の可視化 FlowmonProbe • データプレーントラヒックからフローデータを生成 •
ネットワーク機器からフローを生成することなくフローをベースとした解 析を可能にする
フロー監視・経路監視② vRealize Network Insight • NetFlow可視化 • アラート検知 ThousandEyes •
複数テストパターンを組み合わせた複合 テスト • クラウド環境と組み合わせた監視 • 定常的な経路可視化 • Cisco製ルータと連携した情報収集
ShowNetオンプレミス環境 Azure Flowmon Collector Logstare FlowInspe ctor-10G Zabbix6.0 R220 Pipeline
SNMP trap Syslog sFlow NetFlow IPFIX アプリケーション間連携 System Answer XC ミラートラフィック Flowmon Probe Flowmon Collector-vm Zabbix-1 System Answer Logoption System Answer StatsOption SystemAnswer G3-[1-3] モニタリング ShowNet機器群 vRealizeNetwork Insight AX-Network- Manager FlowInspe ctor-100G EXA64100 #N-6 Rack PacketMaster EX5-[1-2] System AnswerG3 [1-3] Zabbix-3 Zabbix-2 監視トラフィックの集約・分散
監視トラフィックの集約・転送 28 Syslog(udp_dst:514) SNMPtrap(udp_dst:612) NetFlow(udp_dst:2055) sFlow(udp_dst:6343) IPFIX(udp_dst:4739) global PacketMasterEX5-[1-2] 監視トラフィック集約
転送先 機能 Syslog SNMP Trap sFlow NetFlow IPFIX Zabbix 統合監視 ✔ ✔ SystemAnswer Logoption 統合監視 ✔ ✔ Flowmon Collector Flowコレクタ ✔ ✔ ✔ SystemAnswer Statsoption 統合監視 ✔ DatalaiQ ログ解析 ✔ logdispatcher セキュリティ ✔ nirvana-flow セキュリティ ✔ ✔ ✔ nsx-ndr セキュリティ ✔ ✔ ✔ FortiNAC セキュリティ ✔ AXManager ネットワーク監視 ✔ ✔ ✔ VMware Network Insight ネットワーク分析 ✔ VMware Loginsight ログ解析 ✔ mgmt
おわりに • ShowNet特有な部分もあるが、根幹となる監視網は商用網に活 かせるような監視基盤を構築 • オンプレミス・クラウドの両方を活かした冗長性の高い監視シ ステムを構築 • 粒度・側面の違う監視項目を複合的に利用して運用に活かす事 で安定運用を維持
• 予兆検知やキャパシティ予測機能を利用すれば傾向が可視化さ れるため今後のシステム拡張に非常に有用
協力いただいたいコントリビュータさま