Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
現状分析と予兆検知を融合した監視システムの確立
Search
ShowNet
PRO
February 22, 2023
0
510
現状分析と予兆検知を融合した監視システムの確立
ShowNet.conf_ での講演資料
ShowNet
PRO
February 22, 2023
Tweet
Share
More Decks by ShowNet
See All by ShowNet
ShowNetの歩き方 2023
shownet
PRO
0
3
ShowNet2023 Topology
shownet
PRO
0
310
ShowNet2023 External
shownet
PRO
0
17
【shownet.conf_2023】ShowNetのネットワークを解説~最新鋭の技術で作るマルチテナントバックボーン~
shownet
PRO
0
1.3k
【shownet.conf_2023】ローカル5Gサービス提供への挑戦とその知見
shownet
PRO
0
1.4k
【shownet.conf_2023】パフォーマンス計測と詳細分析を組合わせた監視基盤の実現
shownet
PRO
0
1.3k
【shownet.conf_2023】ShowNetを守るセキュリティ〜広帯域化するネットワークを守る新たな挑戦〜
shownet
PRO
0
1.4k
【shownet.conf_2023】ShowNet を効率良く試験するために
shownet
PRO
0
1.6k
【shownet.conf_2023】ShowNet2023 伝送報告
shownet
PRO
0
1.6k
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
Imperfection Machines: The Place of Print at Facebook
scottboms
260
12k
Producing Creativity
orderedlist
PRO
337
39k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
19
1.7k
The MySQL Ecosystem @ GitHub 2015
samlambert
243
12k
A Philosophy of Restraint
colly
197
16k
Making Projects Easy
brettharned
108
5.5k
The Power of CSS Pseudo Elements
geoffreycrofte
60
5k
Navigating Team Friction
lara
178
13k
Documentation Writing (for coders)
carmenintech
60
3.9k
Building Applications with DynamoDB
mza
88
5.6k
Docker and Python
trallard
34
2.7k
Transcript
ShowNet NOCチームメンバー モニタリング担当 岩本裕真 現状分析と予兆検知を融合した 監視システムの確立
ShowNetにおける監視の必要性 • 安定したインターネットサービスの提供 • 出展者ブース・来場者・構築メンバーへのサービスの提供 • 構築中の予期せぬ障害 • 設定ミス・配線ミスと言った人為的 •
配線の整理作業で意図せず作業対象外ケーブルが抜ける • 機器のバグ • イベントネットワークという特殊な監視 • データセンターとは違った厳しい環境での温湿度管理(外気からの影響 を強く受ける)
監視要件の変化 1. DCの構築 2. ネットワークの構築 3. サーバ・ストレージ基盤の構築 4. セキュリティサービスの構築 5.
アプリケーションの安定稼働 6. プロバイダサービスの提供 プロバイダのサービスを 2週間で構築し提供 監視要件も都度変化する 変化する監視要件に追従するシステム設計
変化する監視要件に追従するシステム設計 • Hotstages前期(6/3〜6/4) • 温湿度監視、機器への死活監視、syslog受信監視 • Hotstage後期(6/5〜6/8) • 機器の監視設定、特定ログ/キーワード監視 •
Deploy Day(6/8〜6/9) • Pod監視、syslog監視、xFlow監視、品質監視 • Interop Tokyo Day1〜3(6/15〜6/17) • 安定稼働のための監視 ※6/3は主に機器マウント
モニタリングコンセプト
過去からの継続 • 統合監視(SNMPを用いた全体監視) • ログ監視・xFlow監視 • syslog/xFlow/snmpトラップ転送 • 時刻ずれ監視 •
パケット解析・可視化 • 仮想化基盤監視 • 各種監視サービスの連携
モニタリングテーマ2022 現状分析と予兆検知を融合した監視システムの確立 • 監視データを利用した予兆検知技術の運用への応用 • ハイブリッドクラウドを活用した高可用性な監視システムの実現 • トラフィック解析技術を駆使した進化するネットワーク詳細分析技術 モニタリング 現状分析
xFlow,SNMP,Syslog 詳細分析 パケット解析 経路解析 フィードフォワード 障害予測 キャパシティ予測 運用オペレーション 運用サポート 運用(障害)分析 運用サポート技術 アラート・ 統計情報 仮想基盤監視 クラウド監視
監視データを利用した予兆検知技術の運用へ の応用 • 「AI」「機械学習」といったキーワードを売りにした製 品をどのように運用に取り入れるか。 • 異常検知 • 急なネットワーク変化による変化のアラート検知 •
キャパシティ予測 • コンピューターリソースの使用状況 • Syslog出力量 • CPU,メモリ,ディスク容量
ハイブリッドクラウドを活用した高可用性な 監視システムの実現 • オンプレミス・クラウド両方からのActive-Active監視 • 監視環境が地理的配置に依存しない構成 • クラウド内のリージョンを跨いだ冗長構成 Zabbix-1 System
AnswerG3 [1-3] Azure ManagementNetwork Backup/Restore Zabbix-3 Zabbix-2 HA System AnswerG3 [1-3] Azure SQL Database West ThousandEyes- agent System AnswerG3 [1-3] East ThousandEyes- agent ShowNet機器群 監視 監視
トラフィック解析技術を駆使した進化する ネットワーク詳細分析技術 • リアルタイムトラフィック分析 • マイクロバースト・遅延値・品質値のリアルタイム測定 • リアルタイムlogの検索、監視、分析 • 映像トラフィックのシーケンス番号を識別し、jitter値をマイクロ
秒オーダで測定 • データプレーントラフィックからのフロー生成・分析 • ミラートラフィックからnetflow生成
None
モニタリング基盤
モニタリングから見るShowNet2022 • 監視ホスト数 :807(ping監視,HV監視含む) • SNMP通信による監視ホスト数:301 • 最大Syslog数/days:60,801,894(秒間42,223) • Syslog容量:
176GByte 日付 Syslog数 6/5 1,832,683 6/6 3,350,579 6/7 5,657,782 6/8 6,507,565 6/9 24,903,675 6/10 22,592,948 6/11 42,538,821 6/12 60,801,894 6/13 47,750,972 6/14 22,520,640 6/15 27,977,222 6/16 22,939,715 6/17 16,098,140 日付 counts
監視項目別モニタリング システムの紹介
統合監視① SystemAnswerG3 API FlowmonCollector SystemAnswerG3 • 情報収集と自動分析 • ベースライン監視/予兆検知 •
System Answer XCを用いた統合管理 • クラウドとオンプレを利用したハイブリット監視 • FlowCollectorと統合監視の連携による一元管理
統合監視② Zabbix • コンソールサーバと監視サーバの連携 • 温湿度監視/CO2監視 • クラウド内冗長化デモンストレーション • LLDPトポロジマップ
• クラウドとオンプレを利用したハイブリット監視 • ハイパーバイザー・仮想マシン監視
統合監視③ Zabbix-1 SmartCS アラートをトリガーに コンソール通信コマンド実行 API 統合監視とコンソールサーバの連携 • N1〜N12ラックのSmartCSをAPI越しにシリアルコンソー ル接続
• 監視項目のしきい値を超えるとZabbixサーバからコマンド • 今年のデモでは映像伝送トラフィックが一定量を超えた際にインターフェース 情報取得 mgmt-7 ptx10k シリアルコンソール接続
統合監視④ AX-Network-Manager • Syslog,SNMPを用いた分析 • スイッチのMACアドレステーブルから接続デバイスの可視化 • トポロジ図へマッピング
クラウド連携 Zabbix-1 System AnswerG3 [1-3] Azure ManagementNetwork Backup/Restore Zabbix-3 Zabbix-2
HA System AnswerG3 [1-3] Azure SQL Database West ThousandEyes- agent System AnswerG3 [1-3] East ThousandEyes- agent 監視 監視 ThousandEyes 監視
ログ分析 vRealize LogInsight • リアルタイムlogの検索、監視、分析 • 全文検索でログファイルとホスト・プロトコル・障 害内容を検知しアラート • ShowNet内仮想環境にてログ分析用クラスタを構築
時刻監視 TS-2850 • 時刻ずれ監視 • 意図せずNTPサーバとなっているホストの検知 ・・・ 時刻同期
監視データの予兆検知技術 • 「AI」「機械学習」といったキーワードを売りにした 製品をどのように運用に取り入れるか。 • 異常検知 • 急なネットワーク変化による変化のアラート検知 • キャパシティ予測
• コンピューターリソースの使用状況 • Syslog出力量 • CPU,メモリ,ディスク容量
監視データの予兆検知技術 予測 予測 pa5280.svcの帯域値② (6/15) pa5280.svcの予測と実測の比較 pa5280.svcの帯域値①(6/13) 切り取り範囲 予測 faz1kf.secの帯域値②(6/15)
予測 faz1kf.secの帯域値①(6/13) faz1kf.secの予測と実測の比較 切り取り範囲
ネットワーク詳細分析技術 @FlowInspector • 映像伝送との連携による映像トラフィックの品質分析 • 低コストなハードウェアキャプチャ • 可視化機能含めてコントリビューション 映像品質の異常検知 slack通知
FlowInspector-10G PacketMaster EX5-[1-2] FlowInspector-100G EXA64100 #N-6 Rack ミラートラフィック ミラートラフィック slack通知
フロー監視・経路監視 FlowmonCollector • NetFlow/sFlow/IPFIX可視化 • 対外接続・内部ネットワークのトラフィック量の可視化 FlowmonProbe • データプレーントラヒックからフローデータを生成 •
ネットワーク機器からフローを生成することなくフローをベースとした解 析を可能にする
フロー監視・経路監視② vRealize Network Insight • NetFlow可視化 • アラート検知 ThousandEyes •
複数テストパターンを組み合わせた複合 テスト • クラウド環境と組み合わせた監視 • 定常的な経路可視化 • Cisco製ルータと連携した情報収集
ShowNetオンプレミス環境 Azure Flowmon Collector Logstare FlowInspe ctor-10G Zabbix6.0 R220 Pipeline
SNMP trap Syslog sFlow NetFlow IPFIX アプリケーション間連携 System Answer XC ミラートラフィック Flowmon Probe Flowmon Collector-vm Zabbix-1 System Answer Logoption System Answer StatsOption SystemAnswer G3-[1-3] モニタリング ShowNet機器群 vRealizeNetwork Insight AX-Network- Manager FlowInspe ctor-100G EXA64100 #N-6 Rack PacketMaster EX5-[1-2] System AnswerG3 [1-3] Zabbix-3 Zabbix-2 監視トラフィックの集約・分散
監視トラフィックの集約・転送 28 Syslog(udp_dst:514) SNMPtrap(udp_dst:612) NetFlow(udp_dst:2055) sFlow(udp_dst:6343) IPFIX(udp_dst:4739) global PacketMasterEX5-[1-2] 監視トラフィック集約
転送先 機能 Syslog SNMP Trap sFlow NetFlow IPFIX Zabbix 統合監視 ✔ ✔ SystemAnswer Logoption 統合監視 ✔ ✔ Flowmon Collector Flowコレクタ ✔ ✔ ✔ SystemAnswer Statsoption 統合監視 ✔ DatalaiQ ログ解析 ✔ logdispatcher セキュリティ ✔ nirvana-flow セキュリティ ✔ ✔ ✔ nsx-ndr セキュリティ ✔ ✔ ✔ FortiNAC セキュリティ ✔ AXManager ネットワーク監視 ✔ ✔ ✔ VMware Network Insight ネットワーク分析 ✔ VMware Loginsight ログ解析 ✔ mgmt
おわりに • ShowNet特有な部分もあるが、根幹となる監視網は商用網に活 かせるような監視基盤を構築 • オンプレミス・クラウドの両方を活かした冗長性の高い監視シ ステムを構築 • 粒度・側面の違う監視項目を複合的に利用して運用に活かす事 で安定運用を維持
• 予兆検知やキャパシティ予測機能を利用すれば傾向が可視化さ れるため今後のシステム拡張に非常に有用
協力いただいたいコントリビュータさま