Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【shownet.conf_2023】パフォーマンス計測と詳細分析を組合わせた監視基盤の実現
Search
ShowNet
PRO
October 02, 2023
0
1.4k
【shownet.conf_2023】パフォーマンス計測と詳細分析を組合わせた監視基盤の実現
shownet.conf_ での講演資料(モニタリング)
ShowNet
PRO
October 02, 2023
Tweet
Share
More Decks by ShowNet
See All by ShowNet
ShowNetの歩き方 2023
shownet
PRO
0
3
ShowNet2023 Topology
shownet
PRO
0
310
ShowNet2023 External
shownet
PRO
0
19
【shownet.conf_2023】ShowNetのネットワークを解説~最新鋭の技術で作るマルチテナントバックボーン~
shownet
PRO
0
1.3k
【shownet.conf_2023】ローカル5Gサービス提供への挑戦とその知見
shownet
PRO
0
1.4k
【shownet.conf_2023】ShowNetを守るセキュリティ〜広帯域化するネットワークを守る新たな挑戦〜
shownet
PRO
0
1.4k
【shownet.conf_2023】ShowNet を効率良く試験するために
shownet
PRO
0
1.6k
【shownet.conf_2023】ShowNet2023 伝送報告
shownet
PRO
0
1.6k
【shownet.conf_2023】TTDB と Rails の10年間の振り返りとこれからshownet
shownet
PRO
0
1.3k
Featured
See All Featured
Six Lessons from altMBA
skipperchong
21
3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
244
20k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
121
39k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Making Projects Easy
brettharned
108
5.5k
Gamification - CAS2011
davidbonilla
76
4.6k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
14
1.6k
A Philosophy of Restraint
colly
197
16k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
116
18k
Design by the Numbers
sachag
274
18k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
125
32k
Rebuilding a faster, lazier Slack
samanthasiow
73
8.2k
Transcript
パフォーマンス計測と詳細分析 を組合わせた監視基盤の実現 NOCチームメンバ モニタリング担当 岩本裕真
ShowNetにおける監視の必要性 安定したインターネットサービスの提供 出展者ブース・来場者・構築メンバーへのインターネットサービスの提供 構築中の予期せぬ障害 設定ミス・配線ミスと言った人為的なトラブル 配線の整理作業で意図せず作業対象外ケーブルが抜線される 機器のバグが起因となる障害の発見 ShowNet特有の環境 データセンターとは違った厳しい環境での温湿度管理(外気からの影響を強 く受ける)
2
変化する監視要件に追従するシステム設計 監視要件の変化 1. DCサービス・監視網の構築 2. ネットワークの構築 3. サーバ・ストレージ基盤の構築 4. セキュリティサービスの構築
5. アプリケーションの安定稼働 6. プロバイダサービスの提供 3 プロバイダのサービスを 2週間で構築し提供 監視要件も都度変化する
変化する監視要件に追従するシステム設計 Hotstages前期(6/2〜6/3) 温湿度監視、機器への死活監視、syslog受信監視 Hotstage後期(6/4〜6/7) 機器の監視設定、特定ログ/キーワード監視 Deploy Day(6/8〜6/9) Pod監視、syslog監視、xFlow監視、品質監視 Interop Tokyo
Day1〜3(6/14〜6/16) 安定稼働のための監視 4 ※6/2は主に機器マウント
5
6 モニタリング基盤
ShowNetのモニタリングシステム群 7 物理 ShowNet仮想基盤 クラウド基盤
ShowNet2023テーマ メインテーマ パフォーマンス計測と詳細分析を組合わせた監視基盤の実現 小テーマ ネットワーク可視化技術と監視データ分析による詳細解析 通信解析と映像分析を組み合わせた映像配信監視 多拠点パフォーマンス測定による通信品質測定 8
ネットワーク可視化技術と監視データ分析 による詳細解析 9
過去からの継続 統合監視(SNMPを用いた全体監視) ログ監視・xFlow監視 syslog/xFlow/snmpトラップ転送 時刻ずれ監視 パケット解析・可視化 仮想化基盤監視 各種監視サービスの連携 10
モニタリングから見るShowNet • 監視ホスト数 :672(ping監視,HV監視含む) • SNMP通信による監視ホスト数: 250 • 最大Syslog数/days: 239,899,092(秒間20k程度)
• Syslog容量: 259GByte 日付 Syslog数 6/3 242,692 6/4 2,387,185 6/5 2,460,007 6/6 6,447,112 6/7 16,123,733 6/8 239,899,092 6/9 179,431,068 6/10 61,375,365 6/11 56,619,872 6/12 14,159,752 6/13 13,877,261 6/14 17,814,529 6/15 41,871,956 6/16 13,913,363 日付 counts
Flowmon Collector FlowInspector Zabbix6.0 SNMP trap Syslog sFlow NetFlow IPFIX
アプリケーション間連携 ミラートラフィック Flowmon Probe Flowmon Collector-vm ZS7600-1 System Answer Logoption System Answer StatsOption SystemAnswer G3-[1-3] モニタリング ShowNet機器群 Splunk AX-Network- Manager iNetSec-FC 監視トラフィック転送 SP7500 Sensor-Control System AnswerG3 [1-3] Zabbix-2 SDPF ThousandEyesAgent AriaOpLogs[1-3] AccedianVM ZS7600-2 S8000 PacketMaster EX5-[1-2] ShowNet機器からの監視トラフィック送信 ShowNet監視基盤へのトラフィック転送 クラウド監視基盤への監視トラフィック転送
監視トラフィックの集約・転送 監視運用の省人化と高レジリエンスな監視システムの提供 • パケットブローカーを用いてxFlow,Syslog,SNMP Trapを転送 • CubroEX5で必要箇所に分配 13 Syslog(udp_dst:514) SNMPtrap(udp_dst:612)
NetFlow(udp_dst:2055) sFlow(udp_dst:6343) IPFIX(udp_dst:4739) 転送用マシン 監視トラフィック集約 mgmt global 転送先ホスト Syslog (UDP) Syslog (TCP) SNMP Trap sFlow NetFlow IPFIX zs-7600-0.mon ◯ ◯ ◯ zs-7600-1.mon ◯ ◯ ◯ zabbix6.mon ◯ ◯ ◯ System Answer G3-0 System Answer G3-1 ◯ System Answer G3-2 ◯ System Answer Log-option ◯ Flowmon collector(仮想) ◯ ◯ ◯ Flowmon collector(物理) ◯ ◯ ◯ ax-nm.mon ◯ ◯ ◯ ◯ ◯ splunk ◯ ◯ ◯ ◯ ◯ Arbor Sightline SP7500 ◯ ◯ ◯ Cortex XDR Broker VM ◯ FortiSIEM ◯ NIRVANA改 logdispatcher ◯ Secure Network Analytics ◯ ◯ ◯ NIRVANA改 flow-collector ◯ ◯ ◯ Thunder 7445 ◯ loginsight ◯ zabbix6.cloud ◯ ◯ sag3.cloud ◯ CDG ◯ ◯ ◯
統合監視 14 Zabbix • コンソールサーバとの連携 • 温湿度監視/CO2監視 • LLDPトポロジマップ •
クラウドとオンプレを利用したハイブリット監視 • PTP環境の時刻監視 SystemAnswerG3 • 情報収集と自動分析 • ベースライン監視/予兆検知 • クラウド・オンプレのハイブリット監視 • FlowCollectorとの一元管理 • コンソールサーバとの連携 PATLITE • 障害時の音声通知によるアラート通知 アラート通知
ストリーミングテレメトリによる可視化 15 0-0-0-1 ▲ Cisco8608 Splunk ストリーミングテレメトリ 受光情報の可視化 SNMPで取得不可な情報をテレメトリを用いてリアルタイムに可視化
ログ監視 16 VMware Aria Operations for Logs • ログ全文探索・可視化 •
アラート通知 Splunk • ログ全文探索・可視化 • テレメトリ連携
ネットワークフロー監視・パケット解析 17 @Flowinspector • 低コストなハードウェアキャプチャ • パケット詳細分析・アノマリ検知 FlowmonCollector • NetFlow/sFlow/IPFIX可視化
FlowmonProbe • Flowmon Probeでトラヒックからフロー データの生成
ネットワーク可視化 18 AX-Network-Manager • Syslog,SNMPを用いた分析 • トポロジ図へマッピングさせた接続 デバイスの可視化 • 脅威検出時のNW自動遮断
iNetSec FC • NW構成可視化、管理自動化 • SNMPを用いたNW負荷、品質確認 ThousandEyes • エージェントによるマルチレイヤー 監視、問題原因分析 • NW図自動作成、デバイス情報管理 • Grafana等のOSSとの連携
クラウド連携 19 Zabbix-1 System AnswerG3 [1-3] ManagementNetwork Zabbix-2 ThousandEyes- agent
監視 死活・監視 ThousandEyes 経路監視 System AnswerG3 [1-3] ShowNet監視基盤とクラウド監視基盤で2系統で冗長化 SDPF 経路分析 Closswork Cloud
ネットワークフロー監視・経路監視 20 Arbor Sightline • NetFlow/sFlow/IPFIX可視化 • DDoS攻撃検知によるミティゲーション デバイス連携 Crosswork
Cloud • BGP経路監視 • 経路ハイジャック等のイベント検知 • 経路伝搬状況の可視化
統合監視とコンソールサーバの連携 System- Answer-G3 SmartCS 定期的にコンソール通信経由コマンド実行 API • 監視項目のしきい値をコンソール経由で定期的にコマンド を実行しグラフ化 LEX3020
シリアルコンソール接続
通信解析と映像分析を組み合わせた 映像配信監視 22
映像ストリームの状態監視 23 FlowInspector- 100G.mon vision400.sec SMTPE-2110 ST2110映像ストリームをリアルタイムに監視 映像・音声・補助・映像フレームレートを映像ストリーム別に監視 パケット分析機能を用いたトラフィック分析 1
n 映像ミラートラフィック ・・・
NTP・PTP監視 24 Zabbix • 統合監視基盤からのSNMPでのPTP時刻監視 • MoIP,5Gで利用しているGM・BCの時刻のずれ監視 • 時刻ずれのしきい値を超えると統合監視環境からアラートの通知 TS-2850
• ShowNet内機器のNTP時刻監視
多拠点パフォーマンス測定による通 信品質測定 25
各Podをアクセス網に見立てたアクティブ双方向遅延監視 • 全アクセス拠点からTWANPを用いた遅延解析 多拠点測定が必要となる状況 26 Internet 監視エージェント gcp_sydney gcp us
central 監視トラフィック Paragon Active Assurance Accedian
おわりに 多種多様な監視システムで監視対象に応じてあらゆる手段 で監視 監視基盤もクラウドを併用して冗長化 粒度の違う監視データを複合的に利用してネットワークの 状態を観測 監視ポイントを増やして網羅的に障害を検知し障害ポイン トを明確化 27
協力いただいたコントリビュータさま 28 ※50音順