Slide 1

Slide 1 text

©Macnica,Inc. 株式会社マクニカ 高山 克哉 Aviz ONESによるRoCEトラフィックの 可視化検証 2024/5/24

Slide 2

Slide 2 text

©Macnica,Inc. 2 自己紹介 高山 克哉(たかやま かつや) 株式会社マクニカフィネッセカンパニー第3統括部 OpenNetworking事業推進部 エンジニア 2014年、同社入社。 アナログ製品の半導体エンジニアを経て、Ethernet Switchおよび ARM SoCの半導体エンジニアとして、顧客開発サポートを経験する。 その経験を活かし、2023年よりOpenNetworking事業のエンジニアとして ホワイトボックスやNOSのサポートに従事。 顧客の課題解決するべく企業への普及活動を行っている。

Slide 3

Slide 3 text

©Macnica,Inc. Agenda 1. 背景 2. 本講演の紹介内容 3. 検証機器・ツール ◦ スイッチ・Network OS ◦ 可視化ツール 4. 検証構成 5. 検証結果

Slide 4

Slide 4 text

©Macnica,Inc. 4 背景:ネットワーク可視化の重要性 AI/ML実行時間の平均30%がネットワークの待ち時間 https://drive.google.com/file/d/1qqjo-5JtYAcRlK_LWYuQFH-b9MoFOP02/view M#=ML model #

Slide 5

Slide 5 text

©Macnica,Inc. 5 本講演の紹介内容 SONiCスイッチRoCE trafficの 可視化検証

Slide 6

Slide 6 text

©Macnica,Inc. 6 検証機器 ⚫ Switch ◦ Edgecore Switch AS7726-32X : 32 x 100G QSFP28 ⚫ Network OS ◦ Enterprise SONiC Distribution by Edgecore (ecSONIC) : Edgecore社の商用版SONiC Switch AS7726-32X

Slide 7

Slide 7 text

©Macnica,Inc. 7 Traffic可視化ツール ⚫ Aviz Networks社 ONES (Open Networking Enterprise Suite) ◦ ネットワークの可視化(テレメトリー)、設定(オーケストレーション)ツール ◦ 主にSONiCが動作しているホワイトボックススイッチが対象 ◦ トポロジー図やポートごとのリンク状態, トラフィック量をGUI表示可能 Switch-A Switch-B データ データ データ エージェント通信 ユーザー Ubuntuサーバー ONESコントローラ ONES Agent ONES Agent

Slide 8

Slide 8 text

©Macnica,Inc. 8 Traffic可視化ツール ⚫ Aviz Networks社 ONES (Open Networking Enterprise Suite) ◦ ネットワークの可視化(テレメトリー)、設定(オーケストレーション)ツール ◦ 主にSONiCが動作しているホワイトボックススイッチが対象 ◦ トポロジー図やポートごとのリンク状態, トラフィック量をGUI表示可能 Switch-A Switch-B データ データ データ エージェント通信 ユーザー Ubuntuサーバー ONESコントローラ ONES Agent ONES Agent ONES Agent SONiC API call

Slide 9

Slide 9 text

©Macnica,Inc. 9 Traffic可視化ツール ⚫ Aviz Networks社 ONES (Open Networking Enterprise Suite) ◦ ネットワークの可視化(テレメトリー)、設定(オーケストレーション)ツール ◦ 主にSONiCが動作しているホワイトボックススイッチが対象 ◦ トポロジー図やポートごとのリンク状態, トラフィック量をGUI表示可能

Slide 10

Slide 10 text

©Macnica,Inc. 10 Traffic可視化ツール ⚫ Aviz Networks社 ONES (Open Networking Enterprise Suite) ◦ RoCE Traffic, DSCP/PCP to Queue Mapping, PFCおよびTx Queueごとのカウンタも表示可能

Slide 11

Slide 11 text

©Macnica,Inc. 11 検証構成 Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict [Mapping DSCP to TCs] sudo config qos dscp-tc add dscp-tc-prof --dscp 0,63 --tc 0 sudo config qos dscp-tc update dscp-tc-prof --dscp 26 --tc 3 sudo config qos dscp-tc update dscp-tc-prof --dscp 48 --tc 4 sudo config interface qos dscp-tc bind EthernetX dscp-tc-prof [Mapping TC to Queue] sudo config qos tc-queue add tc-q-prof --tc 0 --queue 0 sudo config qos tc-queue update tc-q-prof --tc 3 --queue 3 sudo config qos tc-queue update tc-q-prof --tc 4 --queue 4 sudo config interface qos tc-queue bind EthernetX tc-q-prof <設定コマンド>

Slide 12

Slide 12 text

©Macnica,Inc. 12 検証構成 Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict [Scheduler configuration for ETS] sudo config scheduler add sched-wrr-50 --sched_type WRR --weight 50 sudo config scheduler add sched-strict --sched_type STRICT [Configuration the scheduler on the queues] sudo config interface scheduler bind queue EthernetX 0 sched-wrr-50 sudo config interface scheduler bind queue EthernetX 3 sched-wrr-50 sudo config interface scheduler bind queue EthernetX 4 sched-strict <設定コマンド>

Slide 13

Slide 13 text

©Macnica,Inc. 13 検証構成 Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict [Enable PFC on the ports] sudo config interface pfc priority EthernetX 3 on sudo config interface pfc priority EthernetX 4 on [Mapping TC to Priority group] sudo config qos tc-pg add tc-pg-prof --tc 0 --pg 0 sudo config qos tc-pg update tc-pg-prof --tc 1 --pg 1 sudo config qos tc-pg update tc-pg-prof --tc 2 --pg 2 sudo config qos tc-pg update tc-pg-prof --tc 3 --pg 3 sudo config qos tc-pg update tc-pg-prof --tc 4 --pg 4 sudo config qos tc-pg update tc-pg-prof --tc 5 --pg 5 sudo config qos tc-pg update tc-pg-prof --tc 6 --pg 6 sudo config qos tc-pg update tc-pg-prof --tc 7 --pg 7 sudo config interface qos tc-pg bind all tc-pg-prof <設定コマンド>

Slide 14

Slide 14 text

©Macnica,Inc. 14 検証構成 Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict [Lossless buffer setting] sudo config interface buffer bind priority-group EthernetX 3 ingress_lossless_profile sudo config interface buffer bind priority-group EthernetX 4 ingress_lossless_profile sudo config interface buffer bind queue EthernetX 3 egress_lossless_profile sudo config interface buffer bind queue EthernetX 4 egress_lossless_profile <設定コマンド>

Slide 15

Slide 15 text

©Macnica,Inc. 15 検証構成 Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict [ECN configuration] sudo config wred add wred-prof --mode ecn --gmin 100000 --gmax 250000 --gdrop 10 sudo config interface wred bind queue EthernetX 0 wred-prof sudo config interface wred bind queue EthernetX 3 wred-prof <設定コマンド>

Slide 16

Slide 16 text

©Macnica,Inc. 16 検証構成 Server A Server B Switch-A Switch-B ONES Agent ONES Agent NIC NIC 100G RoCE Data & Normal Data RoCE Data Packet Generator Normal Data 輻輳 CNP PFC CNP CNP <検証環境> RoCE Data @100G Full wire @100G Full wire Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict

Slide 17

Slide 17 text

©Macnica,Inc. Traffic Flow DSCP Queue PFC ECN marking ETS Normal Data 0, 63 0 OFF Enable WRR, 50% RoCE Data 26 3 ON Enable WRR, 50% RoCE CNP 48 4 ON Disable Strict 17 検証結果 < Switch-A&B設定> Normal Data RoCE (Data) RoCE (CNP) ONES GUI

Slide 18

Slide 18 text

©Macnica,Inc. Server A Server B Switch-A Switch-B ONES Agent ONES Agent NIC NIC 100G RoCE Data RoCE Data & Normal Data RoCE Data Packet Generator Normal Data CNP PFC CNP CNP 輻輳 18 検証結果 ONES GUI RoCE Data Traffic

Slide 19

Slide 19 text

©Macnica,Inc. Server A Server B Switch-A Switch-B ONES Agent ONES Agent NIC NIC 100G RoCE Data RoCE Data & Normal Data RoCE Data Packet Generator Normal Data CNP PFC CNP CNP 輻輳 19 検証結果 ONES GUI PFC Traffic Tx Q4 for CNP Traffic

Slide 20

Slide 20 text

©Macnica,Inc. Server A Server B Switch-A Switch-B ONES Agent ONES Agent NIC NIC 100G RoCE Data RoCE Data & Normal Data RoCE Data Packet Generator Normal Data CNP PFC CNP CNP 輻輳 20 検証結果 Tx Q4 for CNP Traffic ONES GUI ONES GUI Tx Q4 for CNP Traffic

Slide 21

Slide 21 text

©Macnica,Inc. Server A Server B Switch-A Switch-B ONES Agent ONES Agent NIC NIC 100G RoCE Data RoCE Data & Normal Data RoCE Data Packet Generator Normal Data CNP PFC CNP CNP 輻輳 21 Tx Q4 for CNP:35099 = Server A CNP受信数 = Server B CNP送信数 Tx Q4 for CNP:35099 = Server A CNP受信数 = Server B CNP送信数 ./rp_cnp_handled: 35099 ./np_cnp_sent: 35099 ONES GUI ONES GUI 検証結果 ONES GUI上のTx Q4カウント数 = Server A/BのCNP受信/送信数

Slide 22

Slide 22 text

©Macnica,Inc. 22 まとめ ⚫AI/ML実行時間の平均30%の間GPUはアイドル状態 ⇒ネットワークの輻輳ポイント特定のための Trafficの可視化が非常に重要 ⚫Aviz ONESによりSONiCスイッチのRoCE trafficを 可視化可能

Slide 23

Slide 23 text

©Macnica,Inc. Appendix

Slide 24

Slide 24 text

©Macnica,Inc. 24 ONES PFC enable port 表示

Slide 25

Slide 25 text

©Macnica,Inc. 25 ONES RoCE topology 表示

Slide 26

Slide 26 text

©Macnica,Inc. 26 【ご参考】リモート検証サービス 紹介ページ・お問い合わせ先 ⚫ 紹介ページ ◦ https://www.macnica.co.jp/business/net work/manufacturers/edgecore/network_ os_remote.html ⚫ お問い合わせフォーム ◦ https://go.macnica.co.jp/FNS-IN-ON- Inquiry_LP-Entry.html “リモート検証サービス”にご興味がある方は、 上記のお問い合わせフォームよりご連絡ください!

Slide 27

Slide 27 text

©Macnica,Inc. 27 【ご参考】技術ブログのご案内 【技術ブログ】6/4時点、14記事掲載中!! オープンネットワーキングについて技術情報を分かりやすく解説! 基本情報から、実践的な使用方法まで連載していきますので、 是非ご覧ください。 https://www.macnica.co.jp/business/semiconductor/articles/basic/136323/

Slide 28

Slide 28 text

©Macnica,Inc. ・本資料に記載されている会社名、 商品またはサービス名等は各社の商標または登録商標です。 なお、 本資料中では、 「™」、 「®」は明記しておりません。 ・本資料のすべての著作権は、 第三者または株式会社マクニカに属しており、 (著作権法で許諾される範囲を超えて)無断で本資料の全部または一部を複製・転載等することを禁じます。 ・本資料は作成日現在における情報を元に作成されておりますが、 その正確性、 完全性を保証するものではありません。