NIC の高速化とシステムソフトウェア研究 ~ 2010 年くらいからの振り返り ~

NIC の⾼速化とシステムソフトウェア研究技術研究所安形 2023 年 10 ⽉ 17
⽇ ‒ IIJ Lab Seminar ‒ TechTrend Talk Series vol. 6 2010 年くらいからの振り返り NIC 1

資料 • 発表資料 • https://seminar-materials.iijlab.net/iijlab-seminar/iijlab-seminar- 20231017.pdf • https://iijlab-seminars.connpass.com/event/297595/ から辿れます •
ファイルのサイズが⼤きいため (16 MB 程度) ダウンロードしていただく場合はご注意ください • 技術レポート：Internet Infrastructure Review (IIR) Vol. 60 • システムソフトウェアの通信分野における2010年頃からの研究まとめ • 2023 年 9 ⽉ 26 ⽇発⾏ • HTML / PDF 版：https://www.iij.ad.jp/dev/report/iir/060.html 2

概要 • 2010 年くらいから 10 Gbps を超えるような速度の NIC が⽐較的安価で⼊⼿可能になり、広く利⽤されるようになった
• 既存のソフトウェアの実装にとって、⾼速な NIC の性能を⼗分に引き出すのは難しいという課題が顕著になった • この課題について、システムソフトウェア分野でのこれまでの取り組みを紹介 3

背景 4 ⾼速な NIC と⽤途

Network Interface Card (NIC) • コンピューターへ搭載可能な通信⽤ハードウェア NIC コンピューターへ接続するための端⼦ケーブル接続⽤のポートケーブル
5

2010 年くらいの利⽤シナリオスマートフォンデータセンター PC サービス利⽤者の端末サービス提供側インターネット 6

2010 年くらいの利⽤シナリオスマートフォンデータセンター PC サービス利⽤者の端末サービス提供側インターネット 7 動画ストリーミング
ビッグデータ分析 SNS クラウドストレージその他たくさんの Web・スマホ向けサービスオンラインゲームアプリケーション例検索エンジン

2010 年くらいの利⽤シナリオスマートフォンデータセンター PC サービス利⽤者の端末サービス提供側インターネット 8

2010 年くらいの利⽤シナリオデータセンターサービス利⽤者の端末サービス提供側インターネット 9

2010 年くらいの利⽤シナリオデータセンターサービス利⽤者の端末サービス提供側インターネット⼤量のリクエストが集まってくるサービス提供側はなるべく短い応答時間でサービスを提供したい 10

2010 年くらいの利⽤シナリオデータセンターサービス利⽤者の端末サービス提供側インターネット⼤量のリクエストが集まってくるサービス提供側はなるべく短い応答時間でサービスを提供したいデータセンター内のサーバー NIC
10 ~ Gbps 11

10 ~ Gbps 要求⼤量のクライアントへ短時間でサービスを提供したい NIC の⾼速化により各サーバーが送受信できるデータの量が増加した 12

10 ~ Gbps 要求⼤量のクライアントへ短時間でサービスを提供したい NIC の⾼速化により各サーバーが送受信できるデータの量が増加したしかし、NIC が速くなったからといって⼤量のクライアントに短時間でサービスを提供できるわけではなかった 13

通信関連のシステムソフトウェアデータセンターサービス利⽤者の端末サービス提供側インターネット⼤量のリクエストが集まってくるサービス提供側はなるべく短い応答時間でサービスを提供したいデータセンター内のサーバー NIC 10
~ Gbps 14

~ Gbps 通信関連ソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル 15

~ Gbps 通信関連ソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン 16

~ Gbps 通信関連ソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシンハードウェア ( NIC ) が速くなった結果ソフトウェアの効率が更に重要になった 17

背景 18 既存のシステムの性能

~ Gbps 通信関連ソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシンハードウェア ( NIC ) が速くなった結果ソフトウェアの効率が更に重要になった 19

既存の実装の性能 • Linux TCP スタックのメッセージ(パケット)サイズごとの性能 • 論⽂が提案⼿法との⽐較対象としているベースラインの性能 Sangjin Han, Scott
Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han 2012 年の論⽂の発表資料より NIC デバドラ TCP/IP スタックアプリ NIC デバドラ TCP/IP スタックアプリクライアントサーバー (8 CPU core) ８(posix)スレッド 10 Gbps メッセージ交換 20

既存の実装の性能 • Linux TCP スタックのメッセージ(パケット)サイズごとの性能 • 論⽂が提案⼿法との⽐較対象としているベースラインの性能 Sangjin Han, Scott
Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han 2012 年の論⽂の発表資料より NIC デバドラ TCP/IP スタックアプリ NIC デバドラ TCP/IP スタックアプリクライアントサーバー (8 CPU core) ８(posix)スレッド 10 Gbps メッセージ交換 1.)Small)Messages)Are)Bad) 0 20 40 60 80 100 0 2 4 6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 21

1.)Small)Messages)Are)Bad) 0 20 40 60 80 100 0 2 4
6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 既存の実装の性能 • Linux TCP スタックのメッセージ(パケット)サイズごとの性能 • 論⽂が提案⼿法との⽐較対象としているベースラインの性能 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han • メッセージサイズ <= 1K • 10 Gbps を達成できない 2012 年の論⽂の発表資料より 22

1.)Small)Messages)Are)Bad) 0 20 40 60 80 100 0 2 4
6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 既存の実装の性能 • Linux TCP スタックのメッセージ(パケット)サイズごとの性能 • 論⽂が提案⼿法との⽐較対象としているベースラインの性能 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han • メッセージサイズ <= 1K • 10 Gbps を達成できない • メッセージサイズ <= 4K • 依然、⾼い CPU 使⽤率 2012 年の論⽂の発表資料より 23

既存の実装の性能 • CPU について考えると、TCP/IP スタックで費やされる時間は（厳密ではないですが概ね）パケット数に依存する 24

既存の実装の性能 • CPU について考えると、TCP/IP スタックで費やされる時間は（厳密ではないですが概ね）パケット数に依存する • NIC の特性上、同じ帯域でも、パケットのサイズが⼩さい場合の⽅が⼤きい場合より多くのパケットを送れる
25

帯域 NIC NIC 26

帯域 NIC NIC 27

帯域 NIC NIC 28

帯域 NIC NIC 29

帯域 NIC NIC TCP/IP ヘッダはパケットごとについているので、パケットごとに処理が必要 30

帯域 NIC NIC TCP/IP ヘッダはパケットごとについているので、パケットごとに処理が必要 TCP/IP スタックが処理する必要があるヘッダ 31

帯域 NIC NIC TCP/IP ヘッダはパケットごとについているので、パケットごとに処理が必要 TCP/IP スタックが処理する必要があるヘッダパケットサイズが⼩さい⽅が TCP/IP スタックにとって最⼤の仕事の量が多くなる 34

帯域 NIC NIC TCP/IP ヘッダはパケットごとについているので、パケットごとに処理が必要 TCP/IP スタックが処理する必要があるヘッダパケットサイズが⼩さい⽅が TCP/IP スタックにとって最⼤の仕事の量が多くなる 0 20 40 60 80 100 0 2 4 6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 9) OSDI)2012) 35 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han

2010 年くらいの利⽤シナリオデータセンターサービス利⽤者の端末サービス提供側インターネット⼤量のリクエストが集まってくるサービス提供側はなるべく短い応答時間でサービスを提供したい 39

2010 年くらいの利⽤シナリオデータセンターサービス利⽤者の端末サービス提供側インターネット⼤量のリクエストが集まってくるサービス提供側はなるべく短い応答時間でサービスを提供したい Web サーバー
インメモリキャッシュサーバー 40

インメモリキャッシュサーバーやりとりするデータのサイズが⽐較的⼩さい場合が多い 41

インメモリキャッシュサーバーやりとりするデータのサイズが⽐較的⼩さい場合が多い 1.)Small)Messages)Are)Bad) 0 20 40 60 80 100 0 2 4 6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 9) OSDI)2012) 42 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han

インメモリキャッシュサーバーやりとりするデータのサイズが⽐較的⼩さい場合が多い 1.)Small)Messages)Are)Bad) 0 20 40 60 80 100 0 2 4 6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 9) OSDI)2012) TCP/IP スタックがボトルネックに 43 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han

~ Gbps 通信関連ソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシンハードウェア ( NIC ) は速くなったのでソフトウェアの効率が重要になる 44

既存の実装の性能 • 仮想マシンからの単純なパケット転送性能：Linux vhost-net 10 Gbps NIC デバドラアプリ仮想
スイッチ仮想 NIC バックエンド NIC デバドラアプリ送信側受信側仮想マシンホスト NIC デバドラ vhost-net Linux bridge 46

既存の実装の性能 • 仮想マシンからの単純なパケット転送性能：Linux vhost-net 0 2 4 6 8 10
64 128 256 512 1024 1472 Throughput [Gbps] Packet Size [B] 10 Gbps NIC デバドラアプリ仮想スイッチ仮想 NIC バックエンド NIC デバドラアプリ送信側受信側仮想マシンホスト NIC デバドラ vhost-net Linux bridge 47

2010 年くらいの利⽤シナリオデータセンターサービス利⽤者の端末サービス提供側インターネット⼤量のリクエストが集まってくるサービス提供側はなるべく短い応答時間でサービスを提供したいやりとりするデータのサイズが⽐較的⼩さい場合が多い
Web サーバー仮想マシンインメモリキャッシュサーバー仮想マシン 49

Web サーバー仮想マシンインメモリキャッシュサーバー仮想マシン 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Gbps] Packet Size [B] 50

Web サーバー仮想マシンインメモリキャッシュサーバー仮想マシン 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Gbps] Packet Size [B] 仮想マシンの I/O がボトルネックに 51

10 Gbps NIC の普及 • ソフトウェアの視点から、性能について⼤きな伸び代ができた 1.)Small)Messages)Are)Bad) 0 20 40
60 80 100 0 2 4 6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 9) OSDI)2012) 伸び代 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Gbps] Packet Size [B] 伸び代 52 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han

課題 • 伸び代をどのように引き出して有効活⽤するか？ 1.)Small)Messages)Are)Bad) 0 20 40 60 80 100
0 2 4 6 8 10 64 128 256 512 1K 2K 4K 8K 16K CPU Usage (%) Throughput (Gbps) Message Size (B) Throughput CPU Usage Low)throughput) High)overhead) 9) OSDI)2012) 伸び代 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Gbps] Packet Size [B] 伸び代 53 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han

研究紹介 54 システムコール呼び出しコストについて基本的な仕組みの説明

システムコールの呼び出しコスト • システムコール • ユーザー空間プログラムがカーネル空間の機能を呼び出すためのインターフェース 55

通信関連のシステムソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル 57

システムコールの呼び出しコスト NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル 58

システムコールの呼び出しコスト • システムコール • ユーザー空間プログラムがカーネル空間の機能を呼び出すためのインターフェース • ユーザー空間プログラムはカーネルに実装されている TCP/IP スタックを、システムコールを通して利⽤する
NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル 59

システムコールの呼び出しコスト • システムコール • ユーザー空間プログラムがカーネル空間の機能を呼び出すためのインターフェース • ユーザー空間プログラムはカーネルに実装されている TCP/IP スタックを、システムコールを通して利⽤する
NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルシステムコール 60

システムコールの呼び出しコスト • システムコール • ユーザー空間プログラムがカーネル空間の機能を呼び出すためのインターフェース • ユーザー空間プログラムをカーネルに実装されている TCP/IP スタックを、システムコールを通して利⽤する
NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルシステムコールシステムコールと通常の関数呼び出しの違い 61

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルシステムコール⾮特権モード特権モードシステムコールと通常の関数呼び出しの違い 62

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルシステムコール⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶ 63

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルシステムコール⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤ 64

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤ユーザー空間でアプリケーションを実⾏中 65

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤アプリケーションが syscall 命令を実⾏ syscall 66

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤実⾏コンテキストがカーネルへ切り替わる 67

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤カーネル内に実装された関数が実⾏される (e.g., TCP/IP スタック処理) 68

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤カーネルは処理を完了すると、コンテキストをユーザー空間へ戻す 69

NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル⾮特権モード特権モードシステムコールと通常の関数呼び出しの違いシステムコールは、CPU のモードを⾮特権モード（ユーザー空間）から特権モード（カーネル）への切り替えた後、カーネルに実装された関数を呼ぶモード切り替えは時間がかかる処理ポイント頻繁に呼び出すと性能劣化に繋がるシステムコールのための特権モード切り替えは x86-64 であれば syscall という CPU 命令を利⽤ 70

典型的なサーバーの実装 { /*クライアントからのリクエストデータを読み込み*/ read(fd, request_buf, sizeof(request_buf)); /*リクエストに応じたレスポンスデータを⽣成*/ generate_response(request_buf, response_buf); /*レスポンスデータをクライアントへ送信*/
write(fd, response_buf, response_buf_size); } 72

write(fd, response_buf, response_buf_size); } アプリケーション固有の処理（e.g., HTTP サーバー、キャッシュサーバー） 76

write(fd, response_buf, response_buf_size); } OS から提供されるシステムコール 77

write(fd, response_buf, response_buf_size); } OS から提供されるシステムコール 78

write(fd, response_buf, response_buf_size); } リクエスト読み込みとレスポンス書き出しを頻繁に⾏うとシステムコールが頻繁に呼び出される 79

研究紹介 80 システムコール呼び出しコストについてシステムコールを複数まとめてリクエストできるようにする

システムコールの頻度を減らす • FlexSC (OSDI 2010) 81 カーネル機能アプリケーションユーザー空間カーネル
カーネル機能

システムコールの頻度を減らす • FlexSC (OSDI 2010) • ユーザー・カーネル空間の間に共有メモリを⽤意 82 カーネル機能アプリケーション
ユーザー空間カーネルカーネル機能共有メモリ

システムコールの頻度を減らす • FlexSC (OSDI 2010) • ユーザー・カーネル空間の間に共有メモリを⽤意 • ユーザー空間プログラムはリクエスト内容を共有メモリ上に書き込み 83
カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリ

システムコールの頻度を減らす • FlexSC (OSDI 2010) • ユーザー・カーネル空間の間に共有メモリを⽤意 • ユーザー空間プログラムはリクエスト内容を共有メモリ上に書き込み •
カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 84 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏

解決策：システムコールの頻度を減らす • FlexSC (OSDI 2010) • ユーザー・カーネル空間の間に共有メモリを⽤意 • ユーザー空間プログラムはリクエスト内容を共有メモリ上に書き込み •
カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 85 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 86 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE 通常の write システムコール Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 87 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE FlexSC だとこんなかんじ Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 88 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE リクエスト⽤エントリを取得 Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 89 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE リクエスト⽤エントリを取得カーネル機能実⾏カーネル機能アプリケーションユーザー空間カーネル共有メモリカーネルスレッドこのエントリはユーザー空間とカーネル空間の共有メモリ上に存在

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 90 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE システムコール番号を設定（write は 1） Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 91 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE 引数の数を指定 Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 92 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE 引数を指定 Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 93 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE ステータスをSUBMITへ変更 Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 94 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE ステータスをSUBMITへ変更カーネル機能実⾏カーネル機能アプリケーションユーザー空間カーネル共有メモリカーネルスレッド Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 95 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE 専⽤カーネルスレッドは SUBMIT 状態を読み取り、リクエストの処理を開始するカーネル機能実⾏カーネル機能アプリケーションユーザー空間カーネル共有メモリカーネルスレッド Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 96 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE アプリケーションはステータスが DONE になるまで待機カーネル機能実⾏カーネル機能アプリケーションユーザー空間カーネル共有メモリカーネルスレッド Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 97 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE カーネルスレッドは処理が完了し次第結果をreturn_codeに設定した後ステータスをDONEに変更カーネル機能実⾏カーネル機能アプリケーションユーザー空間カーネル共有メモリカーネルスレッド Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 98 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 12 Exception-less interface: syscall page write(fd, buf, 4096); entry = free_syscall_entry(); /* write syscall */ /* write syscall */ entry->syscall = 1; entry->num_args = 3; entry->args[0] = fd; entry->args[1] = buf; entry->args[2] = 4096; entry->status = SUBMIT SUBMIT; while while (entry->status != DONE DONE) do_something_else(); return return entry->return_code; DONE DONE ポイント：ユーザー空間とカーネルの間のやりとりを共有メモリを通じて⾏うことで syscall 命令に伴うコンテキストの切り替えをなくせるカーネル機能実⾏カーネル機能アプリケーションユーザー空間カーネル共有メモリカーネルスレッド Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

カーネル内で専⽤のカーネルスレッドが共有リクエストを読み取りカーネル機能を実⾏ 99 カーネル機能アプリケーションユーザー空間カーネルカーネル機能共有メモリカーネルスレッド実⾏ 28 ApacheBench throughput (4 cores) 0 200 400 600 800 1000 0 5,000 10,000 15,000 20,000 25,000 30,000 35,000 40,000 45,000 flexsc sync Request Concurrency Throughput (requests/sec.) 115% improvement Livio Soares and Michael Stumm. 2010. FlexSC: Flexible System Call Scheduling with Exception-Less System Calls. In 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI 10).(https://www.usenix.org/conference/osdi10/flexsc-flexible-system-call-scheduling-exception-less-system-calls)

研究紹介 100 システムコール呼び出しコストについてユーザー空間とカーネルの境界をなくす

システムコールの頻度を減らす • アプリとカーネルの境界をなくす NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル
101

システムコールの頻度を減らす • アプリとカーネルの境界をなくす NIC デバイスドライバ TCP/IP スタックアプリケーション 102

システムコールの頻度を減らす • アプリとカーネルの境界をなくす NIC デバイスドライバ TCP/IP スタックアプリケーション⼀般的にカーネルに実装されている機能をユーザー空間へ移すユーザー空間
具体的には 103

システムコールの頻度を減らす • アプリとカーネルの境界をなくす NIC デバイスドライバ TCP/IP スタックアプリケーションもしくは、アプリケーションをカーネル空間で動かすカーネル
104

• アプリとカーネルの境界をなくす • Unikernels • Mirage (ASPLOS 2013) • OSv
(USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) システムコールの頻度を減らす 105

(USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) システムコールの頻度を減らす NIC デバイスドライバ TCP/IP スタックアプリケーションカーネル仮想マシンホスト（ハイパーバイザー）アプリケーションはカーネル空間で動く 106

(USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) システムコールの頻度を減らす NIC デバイスドライバ TCP/IP スタックアプリケーションカーネル仮想マシンホスト（ハイパーバイザー）アプリケーションはカーネル空間で動く 107

システムコールの頻度を減らす • アプリとカーネルの境界をなくす • Unikernels • Mirage (ASPLOS 2013) •
OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間 OS 機能がユーザー空間で動く 108

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間 OS 機能がユーザー空間で動く 109

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) NIC デバイスドライバ TCP/IP スタックアプリケーションカーネルアプリケーションはカーネル空間で動く 110

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 0 0.02 0.04 0.06 0.08 0.1 microvm lupine-nokml lupine lupine-general hermitux osv rump .19.17 Latency (μs) null read write Figure 9. System call latency via lmbench. 論⽂中グラフより 111 Hsuan-Chi Kuo, Dan Williams, Ricardo Koller, and Sibin Mohan. 2020. A Linux in Unikernel Clothing. In Proceedings of the Fifteenth European Conference on Computer Systems (EuroSys ʼ 20).(https://doi.org/10.1145/3342195.3387526)

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 0 0.02 0.04 0.06 0.08 0.1 microvm lupine-nokml lupine lupine-ge Latency (μs) null read write 論⽂中グラフより拡⼤ 112 Hsuan-Chi Kuo, Dan Williams, Ricardo Koller, and Sibin Mohan. 2020. A Linux in Unikernel Clothing. In Proceedings of the Fifteenth European Conference on Computer Systems (EuroSys ʼ 20).(https://doi.org/10.1145/3342195.3387526)

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 0 0.02 0.04 0.06 0.08 0.1 microvm lupine-nokml lupine lupine-ge Latency (μs) null read write 論⽂中グラフより拡⼤ 113 Hsuan-Chi Kuo, Dan Williams, Ricardo Koller, and Sibin Mohan. 2020. A Linux in Unikernel Clothing. In Proceedings of the Fifteenth European Conference on Computer Systems (EuroSys ʼ 20).(https://doi.org/10.1145/3342195.3387526)

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 114

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 既存の Linux 実装を使いたい 115

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 既存の Linux 実装を使いたい開発を簡単にしたい開発を簡単にしたい 116

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 既存の Linux 実装を使いたい開発を簡単にしたい開発を簡単にしたい I/O デバイスの差異を吸収したい 117

OSv (USENIX ATC 2014) • Lupin Linux (EuroSys 2020) • Unikraft (EuroSys 2021) • Unikernel Linux (EuroSys 2023) • ライブラリ OS • VirtuOS (SOSP 2013) • EbbRT (OSDI 2016) • Demikernel (SOSP 2021) • アプリのコードを検証後カーネルで実⾏ • Privbox (USENIX ATC 2022) • Userspace bypass (OSDI 2023) 既存の Linux 実装を使いたい開発を簡単にしたい開発を簡単にしたい I/O デバイスの差異を吸収したい既存のカーネル機能が使える 118

研究紹介 119 パケット I/O 性能について基本的な仕組みの説明

~ Gbps 通信関連ソフトウェア NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル 121 既存の仕組みだと⽐較的処理が軽い UDP でも⼩さいパケットを⾼速にやりとりできなかった

NIC と通信関連プログラムの構成 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル 122

NIC と通信関連プログラムの構成 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル DMA
NIC レジスタ 123

NIC レジスタソフトウェア(デバドラ)はメモリを通じてアクセス 124

NIC レジスタ • デスクリプタリング位置ソフトウェア(デバドラ)はメモリを通じてアクセス 125

NIC レジスタ • デスクリプタリング位置送信⽤デスクリプタリング受信⽤ソフトウェアが任意の位置（メモリアドレス）に配置できるソフトウェア(デバドラ)はメモリを通じてアクセス 126

NIC レジスタ • デスクリプタリング位置送信⽤デスクリプタリング受信⽤ソフトウェアが任意の位置（メモリアドレス）に配置できるソフトウェア(デバドラ)はメモリを通じてアクセス 127 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される)

NIC レジスタ • デスクリプタリング位置送信⽤デスクリプタリング受信⽤ソフトウェアが任意の位置（メモリアドレス）に配置できる • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソフトウェア(デバドラ)はメモリを通じてアクセス 128 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される)

NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail 送信⽤デスクリプタリング受信⽤ソフトウェア(デバドラ)はメモリを通じてアクセス 129 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される)

NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 送信⽤デスクリプタリング受信⽤ソフトウェア(デバドラ)はメモリを通じてアクセス 130 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される)

NIC と通信関連プログラムの構成送信⽤ NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル
デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 131 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される)

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 132 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される)

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 133 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) メモリ上の概観 . . . メモリ領域(DRAM)

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 134 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . メモリ上の概観

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 135 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . メモリ上の概観ソフトウェアはメモリを通じて NIC のレジスタにアクセス可能

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 142 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . メモリ上の概観ソフトウェア（デバドラ）は初期設定として、まずデスクリプタリング⽤に連続的なメモリ領域を確保

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 143 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . メモリ上の概観 . . . ソフトウェア（デバドラ）は初期設定として、まずデスクリプタリング⽤に連続的なメモリ領域を確保 . . .

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 144 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . メモリ上の概観 . . . NIC レジスタのデスクリプタリング位置を保持するフィールドへ確保した連続的なメモリ領域の先頭アドレスを代⼊する . . .

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 145 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . メモリ上の概観 . . . NIC レジスタのデスクリプタリング位置を保持するフィールドへ確保した連続的なメモリ領域の先頭アドレスを代⼊する . . .

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 146 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観これで、確保した連続的なメモリ領域がデスクリプタの配列として NIC から認識される . . . スペースの都合で転送⽤デスクリプタは省略しています

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 147 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観これで、確保した連続的なメモリ領域がデスクリプタの配列として NIC から認識される . . . スペースの都合で転送⽤デスクリプタは省略しています

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 148 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 NIC レジスタのうち、リングの head, tail を保持するレジスタは、デスクリプタ配列のインデックスを保持する . . . スペースの都合で転送⽤デスクリプタは省略しています

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 149 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 NIC レジスタのうち、リングの head, tail を保持するレジスタは、デスクリプタ配列のインデックスを保持する . . . スペースの都合で転送⽤デスクリプタは省略しています

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 150 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略しています

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 151 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略しています次に、ソフトウェア（デバドラ）はパケットバッファ⽤メモリを確保する

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 152 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファ

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 154 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファソフトウェア（デバドラ）はデスクリプタのフィールドにパケットバッファのアドレスを書き込むことで NIC への紐付けを⾏う

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 163 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファ新規パケットの到着

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 164 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファ受信したデータはデスクリプタ経由で紐づけられたパケットバッファへ書き込まれる新規パケットの到着

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 165 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファ受信したデータはデスクリプタ経由で紐づけられたパケットバッファへ書き込まれる新規パケットの到着

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 166 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファ NIC は受信したパケットのサイズを紐付けを⾏っているデスクリプタのフィールドに反映する新規パケットの到着

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 169 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファその後、NIC によって、レジスタの受信リング head の値が更新される新規パケットの到着

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 170 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファその後、NIC によって、レジスタの受信リング head の値が更新される新規パケットの到着 ( 受信リング head ではなく、状態保持⽤フラグに受信状況を設定する NIC もあります )

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 171 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファソフトウェアは NIC レジスタの受信リング head を読み取り、デスクリプタ[0, 1] に紐づくバッファにデータが書き込まれたことを検知する新規パケットの到着その後、NIC によって、レジスタの受信リング head の値が更新される

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 172 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファソフトウェアは NIC レジスタの受信リング head を読み取り、デスクリプタ[0, 1] に紐づくバッファにデータが書き込まれたことを検知する新規パケットの到着ソフトウェアは受信パケットを受け取った後レジスタの受信リング tail の値を更新して受信パケットを消費したことを NIC へ通知する

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 173 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC の送受信キューを表現するデータ構造 (NIC のハードウェア仕様中で定義される) デスクリプタリング位置転送リング head 転送リング tail 受信リング head 受信リング tail . . . . . . . . . デスクリプタ[0] デスクリプタ[1] デスクリプタ[2] メモリ上の概観 . . . スペースの都合で転送⽤デスクリプタは省略していますパケットバッファパケットバッファ . . . パケットバッファソフトウェアは NIC レジスタの受信リング head を読み取り、デスクリプタ[0, 1] に紐づくバッファにデータが書き込まれたことを検知する新規パケットの到着 head がデスクリプタ配列の最後まで進められたら head はデスクリプタ[0] へ戻る (リングバッファとして機能する)

デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 174 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容

（ある程度）⼀般的な受信処理の流れ送信⽤ NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルデスクリプタリング
受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 175 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 180 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込み NIC からパケット受信を通知するハードウェア割り込みが送られる

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 181 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容 NIC からパケット受信を通知するハードウェア割り込みが送られる割り込みハンドラハードウェア仕様として、事前に登録されたハードウェア割り込みハンドラが起動される

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 182 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容割り込みハンドラハードウェア仕様として、事前に登録されたハードウェア割り込みハンドラが起動される受信処理⽤カーネルスレッド

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 183 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動割り込みハンドラハードウェア仕様として、事前に登録されたハードウェア割り込みハンドラが起動される受信処理⽤カーネルスレッド Kick

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 184 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動このカーネルスレッドがパケットバッファからデータを取り出し TCP/IP 処理を実⾏受信処理⽤カーネルスレッド

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 185 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動このカーネルスレッドがパケットバッファからデータを取り出し TCP/IP 処理を実⾏受信処理⽤カーネルスレッドソケットキュー

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 186 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動このカーネルスレッドがパケットバッファからデータを取り出し TCP/IP 処理を実⾏＋ソケットのキューへデータを紐付け受信処理⽤カーネルスレッドソケットキュー

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 187 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動受信⽤パケットバッファと NIC の紐付きを解除＋新しいバッファを紐づける受信処理⽤カーネルスレッドソケットキュー

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 188 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動受信処理⽤カーネルスレッドソケットキュー受信⽤パケットバッファと NIC の紐付きを解除＋新しいバッファを紐づける

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 191 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動受信リングの tail を進める受信処理⽤カーネルスレッドソケットキュー

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 192 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動受信処理⽤カーネルスレッドソケットキュー受信リングの tail を進める

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 193 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ハードウェア割り込みハンドラは受信パケット処理⽤のカーネルスレッドを起動受信処理⽤カーネルスレッドソケットキューパケットは受信リングの tail より先へは head を進めないので新規パケット受信のためには tail の更新が必要

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 194 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容受信パケット処理⽤のカーネルスレッドがアプリケーションスレッドへ通知を送る受信処理⽤カーネルスレッドソケットキュー Kick read(), select(), poll() 等でブロックされていれば、ブロックが解除される

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 195 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー read(), select(), poll() 等でブロックされていれば、ブロックが解除される

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 196 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー read(), select(), poll() 等でブロックされていれば、ブロックが解除される

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 197 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容アプリケーションはシステムコールを通じてソケットのキューへ紐づけられたデータをユーザー空間へコピーしてもらう (read(), recvmsg() 等のシステムコールを利⽤) ソケットキュー read(), recvmsg(), etc.

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 198 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容アプリケーションはシステムコールを通じてソケットのキューへ紐づけられたデータをユーザー空間へコピーしてもらう (read(), recvmsg() 等のシステムコールを利⽤) ソケットキュー read(), recvmsg(), etc. syscall

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 200 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容アプリケーションはシステムコールを通じてソケットのキューへ紐づけられたデータをユーザー空間へコピーしてもらう (read(), recvmsg() 等のシステムコールを利⽤) ソケットキューメモリコピー read(), recvmsg(), etc.

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 205 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容アプリケーションはシステムコールを通じてソケットのキューへ紐づけられたデータをユーザー空間へコピーしてもらう (read(), recvmsg() 等のシステムコールを利⽤) ソケットキュー read(), recvmsg(), etc. syscall

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 208 新規パケットの到着 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容アプリケーションはシステムコールを通じてソケットのキューへ紐づけられたデータをユーザー空間へコピーしてもらう (read(), recvmsg() 等のシステムコールを利⽤) ソケットキューメモリコピー read(), recvmsg(), etc.

（ある程度）⼀般的な送信処理の流れ送信⽤ NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルデスクリプタリング
受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 213 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキューアプリケーションはシステムコールを通じてデータの送信をカーネルへリクエストする (write(), sendmsg() 等のシステムコールを利⽤)

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 214 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキューアプリケーションはシステムコールを通じてデータの送信をカーネルへリクエストする (write(), sendmsg() 等のシステムコールを利⽤) syscall write(), sendmsg(), etc.

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 215 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキューアプリケーションはシステムコールを通じてデータの送信をカーネルへリクエストする (write(), sendmsg() 等のシステムコールを利⽤) write(), sendmsg(), etc.

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 216 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキューカーネルは送信⽤パケットバッファを確保 write(), sendmsg(), etc.

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 217 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキューカーネルは送信⽤パケットバッファを確保 write(), sendmsg(), etc. 送信⽤パケットバッファ

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 218 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファユーザー空間からデータをカーネル空間で確保した送信⽤パケットバッファへコピーメモリコピー

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 219 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファユーザー空間からデータをカーネル空間で確保した送信⽤パケットバッファへコピー

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 220 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ TCP/IP スタックの処理を実⾏（ヘッダの付与）

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 221 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ転送⽤デスクリプタリングを通して送信⽤パケットバッファを NIC へ紐付け

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 224 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ NIC レジスタの転送リングの tail の値を更新

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 225 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ NIC レジスタの転送リングの tail の値を更新

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 226 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ NIC レジスタの転送リングの tail の値を更新これをきっかけに NIC からパケットが転送されるパケットの転送

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 227 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ NIC レジスタの転送リングの tail の値を更新これをきっかけに NIC からパケットが転送されるパケットの転送転送完了後、 NIC が転送リングの head を進める

受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 228 • パケットバッファのメモリアドレス • パケットのサイズ • その他：状態保持⽤フラグデスクリプタが保持する内容ソケットキュー write(), sendmsg(), etc. 送信⽤パケットバッファ NIC レジスタの転送リングの tail の値を更新これをきっかけに NIC からパケットが転送されるパケットの転送転送完了後、 NIC が転送リングの head を進める

研究紹介 229 パケット I/O 性能についてカーネルをバイパスするパケット I/O フレームワーク

パケット I/O フレームワーク • カーネル（の⼤部分）をバイパスしてユーザー空間から NIC の I/O を実⾏できるようにする •
DPDK (2010) • netmap (USENIX ATC 2012) on costs almost negligible: a packet generator reams pre-generated packets, and a packet re- hich just counts incoming packets. est equipment e run most of our experiments on systems d with an i7-870 4-core CPU at 2.93 GHz Hz with turbo-boost), memory running at Hz, and a dual port 10 Gbit/s card based on the 599 NIC. The numbers reported in this paper the netmap version in FreeBSD HEAD/amd64 0 2 4 6 8 10 12 14 16 0 0.5 1 1.5 2 2.5 3 Tx Rate (Mpps) Clock speed (GHz) netmap on 4 cores netmap on 2 cores netmap on 1 core Linux/pktgen FreeBSD/netsend • 0.9 GHz で 10 Gbps NIC のラインレート（14.88 Mpps）で送信できる 230 Luigi Rizzo. 2012. Netmap: A Novel Framework for Fast Packet I/O. In 2012 USENIX Annual Technical Conference (USENIX ATC 12), 101- 112.(https://www.usenix.org/conference/atc12/technical-sessions/presentation/rizzo)

パケット I/O フレームワーク • カーネル（の⼤部分）をバイパスしてユーザー空間から NIC の I/O を実⾏できるようにする •
DPDK (2010) • netmap (USENIX ATC 2012) on costs almost negligible: a packet generator reams pre-generated packets, and a packet re- hich just counts incoming packets. est equipment e run most of our experiments on systems d with an i7-870 4-core CPU at 2.93 GHz Hz with turbo-boost), memory running at Hz, and a dual port 10 Gbit/s card based on the 599 NIC. The numbers reported in this paper the netmap version in FreeBSD HEAD/amd64 0 2 4 6 8 10 12 14 16 0 0.5 1 1.5 2 2.5 3 Tx Rate (Mpps) Clock speed (GHz) netmap on 4 cores netmap on 2 cores netmap on 1 core Linux/pktgen FreeBSD/netsend • 0.9 GHz で 10 Gbps NIC のラインレート（14.88 Mpps）で送信できる 231 Luigi Rizzo. 2012. Netmap: A Novel Framework for Fast Packet I/O. In 2012 USENIX Annual Technical Conference (USENIX ATC 12), 101- 112.(https://www.usenix.org/conference/atc12/technical-sessions/presentation/rizzo)

DPDK の場合送信⽤ NIC デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤
NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック 232

DPDK の場合送信⽤ NIC デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤
NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 233 カーネルの TCP/IP スタックは経由しない

DPDK の場合送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング受信⽤ NIC
レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 234 カーネルの TCP/IP スタックは経由しないデバイスドライバをユーザー空間で実⾏

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 235 カーネルの TCP/IP スタックは経由しないデバイスドライバをユーザー空間で実⾏ NIC に紐づいたパケットバッファもユーザー空間に配置

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 236 DPDK API カーネルの TCP/IP スタックは経由しないデバイスドライバをユーザー空間で実⾏ NIC に紐づいたパケットバッファもユーザー空間に配置

DPDK の場合：受信パケットの検知送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング受信⽤ NIC
レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 237 DPDK API

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 238 DPDK API API を通してアプリケーションのループの中で、受信リングの head の値を監視

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 239 DPDK API 新規パケットの到着 API を通してアプリケーションのループの中で、受信リングの head の値を監視

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 240 DPDK API 新規パケットの到着 API を通してアプリケーションのループの中で、受信リングの head の値を監視

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 241 DPDK API 新規パケットの到着 API を通してアプリケーションのループの中で、受信リングの head の値を監視 head が動いたことを確認パケットの受信を検知

DPDK の場合：受信パケットの読み込み送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング受信⽤ NIC
レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 242 DPDK API 新規パケットの到着受信⽤パケットバッファはユーザー空間にあり、受信したデータは検知された段階で既にアプリケーションから⾒えている

DPDK の場合：受信パケットの読み込み送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング受信⽤ NIC
レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 243 DPDK API 新規パケットの到着受信⽤パケットバッファはユーザー空間にあり、受信したデータは検知された段階で既にアプリケーションから⾒えているなので、読み込みのために追加の作業はなし

DPDK の場合：受信リング tail の更新送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング
受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 244 DPDK API 新規パケットの到着受信⽤パケットバッファはユーザー空間にあり、受信したデータは検知された段階で既にアプリケーションから⾒えているなので、読み込みのために追加の作業はなし新しいパケットを受け取れるように別のバッファを紐づけて、tail を進める

DPDK の場合：受信リング tail の更新送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング
受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 245 DPDK API 新規パケットの到着受信⽤パケットバッファはユーザー空間にあり、受信したデータは検知された段階で既にアプリケーションから⾒えているなので、読み込みのために追加の作業はなし新しいパケットを受け取れるように別のバッファを紐づけて、tail を進める

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 246 DPDK API 新規パケットの到着受信⽤パケットバッファはユーザー空間にあり、受信したデータは検知された段階で既にアプリケーションから⾒えているなので、読み込みのために追加の作業はなし新しいパケットを受け取れるように別のバッファを紐づけて、tail を進めるあとは、アプリが好きなように受信したデータを消費できる

DPDK の場合：転送送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング受信⽤ NIC
レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 247 DPDK API

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 248 DPDK API 送信⽤パケットバッファ DPDK は送信⽤パケットバッファをユーザー空間に予め確保

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 249 DPDK API 送信⽤パケットバッファ DPDK は送信⽤パケットバッファをユーザー空間に予め確保アプリケーションは確保された送信⽤パケットバッファへ直接データを書き込む

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 250 DPDK API 送信⽤パケットバッファ DPDK は送信⽤パケットバッファをユーザー空間に予め確保アプリケーションは確保された送信⽤パケットバッファへ直接データを書き込む DPDK は NIC のデスクリプタリングに送信⽤パケットバッファを紐付け

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 251 DPDK API 送信⽤パケットバッファ DPDK は送信⽤パケットバッファをユーザー空間に予め確保アプリケーションは確保された送信⽤パケットバッファへ直接データを書き込む DPDK は NIC のデスクリプタリングに送信⽤パケットバッファを紐付けその後、転送リングの tail を更新

レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 252 DPDK API 送信⽤パケットバッファ DPDK は送信⽤パケットバッファをユーザー空間に予め確保アプリケーションは確保された送信⽤パケットバッファへ直接データを書き込む DPDK は NIC のデスクリプタリングに送信⽤パケットバッファを紐付けその後、転送リングの tail を更新これをきっかけにパケットが NIC から転送されるパケットの転送

DPDK の場合：削減できるコスト • 受信において、ハードウェア割り込みを起点としたカーネルスレッドの起動に伴うスケジューリング • 受信において、ユーザー空間プロセスへの新規データの通知に伴うスケジューリング • プロトコルスタック内の処理
• システムコール呼び出し • ユーザー空間とカーネルの間での送受信に伴うメモリコピー 253

パケット I/O フレームワークの⽤途送信⽤ NIC デバイスドライバアプリケーションユーザー空間デスクリプタリング受信⽤
NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 254 DPDK API Network Function Virtualization (NFV) 汎⽤的なサーバーでネットワーク機能を動かす (e.g., Firewall, Router)

パケット I/O フレームワークの⽤途送信⽤ NIC デバイスドライバ NFV アプリケーションユーザー空間デスクリプタリング
受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 255 DPDK API Network Function Virtualization (NFV) 汎⽤的なサーバーでネットワーク機能を動かす (e.g., Firewall, Router)

NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 256 DPDK API Network Function Virtualization (NFV) 汎⽤的なサーバーでネットワーク機能を動かす (e.g., Firewall, Router) サーバープログラムの⾼速化 TCP/IP スタックユーザー空間で動作する TCP/IP スタックと組み合わせる

パケット I/O フレームワークの⽤途送信⽤ NIC デバイスドライバ仮想 NIC バックエンドユーザー空間
デスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 257 DPDK API Network Function Virtualization (NFV) 汎⽤的なサーバーでネットワーク機能を動かす (e.g., Firewall, Router) サーバープログラムの⾼速化ユーザー空間で動作する TCP/IP スタックと組み合わせる仮想 NIC ホスト仮想マシン仮想マシン通信の⾼速化仮想 I/O バックエンドに組み込む

研究紹介 258 TCP/IP スタック設計基本的なハードウェア機能の説明マルチコア環境でのスケーラビリティについて

TCP/IP スタック設計の再考 • マルチコア環境で性能をスケールさせる • CPU コア間で共有されるオブジェクトのアクセスにはロックの取得が必要＝＞ロック取得待機時間がボトルネックになる 259 オブジェクト
事前にロックの取得が必要

TCP/IP スタック設計の再考 • マルチコア環境で性能をスケールさせる • CPU コア間で共有されるオブジェクトのアクセスにはロックの取得が必要＝＞ロック取得待機時間がボトルネックになる • 基本的なアイデア：CPU
コア間で共有するオブジェクトを減らす 260 オブジェクト事前にロックの取得が必要

TCP/IP スタック設計の再考 • マルチコア環境で性能をスケールさせる • NIC のマルチキュー機能を使う 261 送信⽤ NIC
デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック NIC キュー

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック NIC キューキューへのアクセスごとにロックの取得が必要 NIC のキューが競合ポイントになる解決策：NIC のマルチキュー機能を使う

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有受信についての注意事項

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして受信についての注意事項受信パケットがランダムにキューに割り振られると CPU コア間でデータのやりとりが必要になってしまう

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして受信についての注意事項受信パケットがランダムにキューに割り振られると CPU コア間でデータのやりとりが必要になってしまう解決策：NIC の Receive Side Scaling (RSS) 機能を使う

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして Hash Table

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして Hash Table パケットのヘッダを⾒てハッシュ値を計算

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとしてハッシュ値を元に hash table を参照して宛先キューを決める *RSS: Receive Side Scaling Hash Table パケットのヘッダを⾒てハッシュ値を計算

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして *RSS: Receive Side Scaling Hash Table

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ NIC の機能を使って複数のキューを⽤意 DMA 各コアがキューを⼀つずつ専有 TCP接続 A TCP接続 B 2つのコアがそれぞれ TCP 接続 A, B へ対応していたとして *RSS: Receive Side Scaling Hash Table 受信についての注意事項受信パケットがランダムにキューに割り振られると CPU コア間でデータのやりとりが必要になってしまう解決策：NIC の Receive Side Scaling (RSS) 機能を使う RSS のおかげで、特定の TCP 接続のパケットは特定のキューで受信されるようにできる

TCP/IP スタック設計の再考 • マルチコア環境で性能をスケールさせる • 基本的なアイデア：コア間で共有するオブジェクトを減らす • NIC のキューについて：NIC のマルチキュー機能を利⽤
• Receive Side Scaling (RSS) も利⽤ 284

• Receive Side Scaling (RSS) も利⽤ 285 ここまでは NIC のハードウェア機能の話

研究紹介 286 TCP/IP スタック設計ソフトウェアでもコア間の共有オブジェクトを減らすマルチコア環境でのスケーラビリティについて

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP の接続確⽴時

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP の接続確⽴時 TCP SYN

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP の接続確⽴時 TCP SYN TCP SYN

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B ソケット accept()

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B ソケット accept キュー

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B ソケット accept キュー TCP接続 B TCP接続 A

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B ソケット accept キュー TCP接続 B TCP接続 A accept キューはソケットごとに１つずつしかないため、コア間での競合のポイントになる

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 296

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B ソケット accept キュー TCP接続 B TCP接続 A accept キューはソケットごとに１つずつしかないため、コア間での競合のポイントになる

デバイスドライバアプリケーションユーザー空間カーネルデスクリプタリング受信⽤ NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス TCP/IP スタック送信⽤受信⽤ DMA TCP SYN TCP SYN TCP接続 A TCP接続 B ソケット accept キュー TCP接続 B TCP接続 A 解決策：コアごとに accept キューを⽤意する

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 299

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 300 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 301 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 A TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 302 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 A TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 303 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 A TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept accept() Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 304 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept accept() TCP接続 A Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 305 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept TCP接続 A Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 306 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept TCP接続 A accept() Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 307 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept TCP接続 A accept() TCP接続 B Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 308 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept TCP接続 A TCP接続 B Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 309 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept TCP接続 A TCP接続 B accept() Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 310 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 D TCP接続 E TCP接続 F アプリケーション Fine-Accept: 全ての accept キューからラウンドロビンで accept TCP接続 A TCP接続 B accept() TCP接続 C Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 311 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 A TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Affinity-Accept: 基本的に特定の accept キューからのみ accept accept() Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 312 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Affinity-Accept: 基本的に特定の accept キューからのみ accept TCP接続 A Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 313 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 C TCP接続 D TCP接続 E TCP接続 F アプリケーション Affinity-Accept: 基本的に特定の accept キューからのみ accept TCP接続 A accept() Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 314 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 TCP接続 B TCP接続 D TCP接続 E TCP接続 F アプリケーション Affinity-Accept: 基本的に特定の accept キューからのみ accept TCP接続 A accept() TCP接続 C Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 315 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 316 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得デフォルト実装はコアが増えるほど１コアが処理するリクエストが減っている Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 317 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 Affinity/Fine-Accept は下降がゆるやか Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 318 ectly because it does not sufficiently stress the network ck: some requests involve performing SQL queries or ning PHP code, which stresses the disk and CPU more n the network stack. Applications that put less stress on network stack will see less pronounced improvements h Affinity-Accept. The files served range from 30 bytes to 70 bytes. The web server serves 30,000 distinct files, and ient chooses a file to request uniformly over all files. Unless otherwise stated, in all experiments a client re- ests a total of 6 files per connection with requests spaced by think time. First, a client requests one file and waits for Stock-Accept Fine-Accept Affinity-Accept 0 2000 4000 6000 8000 10000 12000 14000 16000 1 4 8 12 16 20 24 28 32 36 40 44 48 Throughput (requests / sec / core) Cores Apache HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 Fine-Accept (ラウンドロビン)より Affinity-Accept の⽅が速いキャッシュ効率が原因との説明 Aleksey Pesterev, Jacob Strauss, Nickolai Zeldovich, and Robert T. Morris. 2012. Improving Network Connection Locality on Multicore Systems. In Proceedings of the 7th ACM European Conference on Computer Systems (EuroSys ʼ12), 337-350.(https://doi.org/10.1145/2168836.2168870)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 319 POSIX socket に変わる API の提案 - accept のキューをコアごとに分ける

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 320 POSIX socket に変わる API の提案 - accept のキューをコアごとに分ける - ファイルデスクリプタのテーブルも分ける - 複数のリクエストをバッチ可能 (FlexSC と同様の効果を期待)

• Receive Side Scaling (RSS) も利⽤ • accept のスケーラビリティに関して • Affinity-Accept (EuroSys 2012) • MegaPipe (OSDI 2012) • mTCP (NSDI 2014) • Fastsocket (ASPLOS 2016) 321 0 20 40 60 80 100 0 0.6 1.2 1.8 2.4 3 3.6 1 2 3 4 5 6 7 8 Throughput (Gbps) # of CPU Cores MegaPipe Baseline 0 20 40 60 80 100 0 20 40 60 80 100 0 4 8 12 16 20 1 2 3 4 5 6 7 8 0 20 40 60 80 100 0 4 8 12 16 20 1 2 3 4 5 6 7 8 Improvement (%) Improvement 0 20 40 60 80 100 0 0.6 1.2 1.8 2.4 3 3.6 1 2 3 4 5 6 7 8 Throughput (Gbps) # of CPU Cores MegaPipe Baseline 0 20 40 60 80 100 0 4 8 12 16 20 1 2 3 4 5 6 7 8 # of CPU Cores 0 20 40 60 80 100 0 4 8 12 16 20 1 2 3 4 5 6 7 8 Improvement (%) # of CPU Cores Improvement Figure 7: Evaluation of nginx throughput for the (a) SpecWeb, (b) Yahoo, and (c) Yahoo/2 workloads. and 200µs (tail) lower latency with low concurrency (thus 50% of the total trafﬁc. nginx HTTP server パフォーマンスベンチマーククライアントは1回の TCP 接続で６ファイル取得 Sangjin Han, Scott Marshall, Byung-Gon Chun, Sylvia Ratnasamy, "MegaPipe: A New Programming Interface for Scalable Network I/O", OSDI 2012 https://www.usenix.org/conference/osdi12/technical-sessions/presentation/han

研究紹介 322 TCP/IP スタック設計パケット I/O フレームワークを適⽤するユーザー空間 TCP/IP スタック実装

TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm
(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 323

NIC レジスタ • デスクリプタリング位置 • 転送リング head • 転送リング tail • 受信リング head • 受信リング tail DMA 受信⽤パケットバッファソフトウェア(デバドラ)はメモリを通じてアクセス 324 DPDK API Network Function Virtualization (NFV) 汎⽤的なサーバーでネットワーク機能を動かす (e.g., Firewall, Router) サーバープログラムの⾼速化 TCP/IP スタックユーザー空間で動作する TCP/IP スタックと組み合わせる

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 325

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 326 Web サーバー netmap + ユーザー空間 TCP/IP スタック（コンテンツをパケットバッファ上に事前配置）

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 327 Web サーバー netmap + ユーザー空間 TCP/IP スタック（コンテンツをパケットバッファ上に事前配置）コンテンツ配送速度（6つの 10Gbps NIC 合計） Ilias Marinos, Robert N. M. Watson, and Mark Handley. 2014. Network Stack Specialization for Performance. In Proceedings of the 2014 ACM Conference on SIGCOMM (SIGCOMM ʼ14), 175-186.(https://doi.org/10.1145/2619239.2626311)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 328 ユーザー空間 TCP/IP スタック - accept キュー等をコアごとに⽤意 - リクエストをバッチ

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 329 ユーザー空間 TCP/IP スタック - accept キュー等をコアごとに⽤意 - リクエストをバッチ 0 2 4 6 8 10 Throughput (Gbps) - 10 20 30 40 50 1 2 8 32 64 128 Messages/sec (x 105) Number of Messages per Connection Link saturated 0 - 3 6 9 12 15 0 2 4 6 8 Messages/sec (x 105) Number of CPU Cores 1 0 - 10 20 30 40 50 Messages/sec (x 105) 0 0 2 4 6 8 10 Throughput (Gbps) - 10 20 30 40 50 1 2 8 32 64 128 Messages/sec (x 105) Number of Messages per Connection Link saturated 0 - 3 6 9 12 15 0 2 4 6 8 Messages/sec (x 105) Number of CPU Cores 1 0 - 10 20 30 40 50 Messages/sec (x 105) 0 0 2 4 6 8 10 Throughput (Gbps) - 10 20 30 40 50 1 2 8 32 64 128 Messages/sec (x 105) Number of Messages per Connection Link saturated 0 - 3 6 9 12 15 0 2 4 6 8 Messages/sec (x 105) Number of CPU Cores 1 0 - 10 20 30 40 50 1 Messages/sec (x 105) N 0 1 2 2 3 3 4 4 nections/sec (x 105) Linux REUSEPORT MegaPipe 1 2 4 Number of Message 0 2 4 6 8 10 64B 256B 1KiB 4KiB 8KiB Throughput (Gbps) Message Size 8 32 64 128 ssages per Connection Link saturated - 3 6 9 12 15 0 2 4 6 8 Messages/sec (x 105) Number of CPU Cores 1 0 4 6 8 of CPU Cores - 10 20 30 40 50 1 2 8 32 64 128 Messages/sec (x 105) Number of Messages per Connection Link saturated 0 0 2 4 6 8 10 64B 256B 1KiB 4KiB 8KiB Throughput (Gbps) Message Size Linux REUSEPORT MegaPipe mTCP 1 2 4 Number of Messages 0 2 4 6 8 10 64B 256B 1KiB 4KiB 8KiB Throughput (Gbps) Message Size 8 32 64 128 ssages per Connection Link saturated - 3 6 9 12 15 0 2 4 6 8 Messages/sec (x 105) Number of CPU Cores 1 0 4 6 8 f CPU Cores - 10 20 30 40 50 1 2 8 32 64 128 Messages/sec (x 105) Number of Messages per Connection Link saturated 0 0 2 4 6 8 10 64B 256B 1KiB 4KiB 8KiB Throughput (Gbps) Message Size Linux REUSEPORT MegaPipe mTCP 1 2 4 8 Number of Messages per 0 2 4 6 8 10 64B 256B 1KiB 4KiB 8KiB Throughput (Gbps) Message Size 32 64 128 es per Connection Link saturated - 3 6 9 12 15 0 2 4 6 8 Messages/sec (x 105) Number of CPU Cores 1 0 6 8 PU Cores - 10 20 30 40 50 1 2 8 32 64 128 Messages/sec (x 105) Number of Messages per Connection Link saturated 0 0 2 4 6 8 10 64B 256B 1KiB 4KiB 8KiB Throughput (Gbps) Message Size Linux REUSEPORT MegaPipe mTCP Linux REUSEPORT Multiprocess MegaPipe mTCP REUSEPORT MegaPipe EunYoung Jeong, Shinae Wood, Muhammad Jamshed, Haewon Jeong, Sunghwan Ihm, Dongsu Han, and KyoungSoo Park. 2014. mTCP: A Highly Scalable User-Level TCP Stack for Multicore Systems. In 11th USENIX Symposium on Networked Systems Design and Implementation (NSDI 14), 489- 502.(https://www.usenix.org/conference/nsdi14/technical-sessions/presentation/jeong)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 330 新しい OS - アプリ＋lwIP が直接 NIC へアクセス - NIC の SR-IOV 機能で多重化

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 331 新しい OS - アプリ＋lwIP が直接 NIC へアクセス - NIC の SR-IOV 機能で多重化 TCP$Echo:$Mul3core$Scalability$ for$Short$Connec3ons$ 0 0.5 1 1.5 2 2.5 3 3.5 4 0 1 2 3 4 5 6 7 8 Messages/sec (x 106) Number of CPU cores IX 10GbE IX 4x10GbE Linux 10GbE Linux 4x10GbE mTCP 10GbE Saturates% 1x10GbE% Adam Belay, George Prekas, Ana Klimovic, Samuel Grossman, Christos Kozyrakis, and Edouard Bugnion. 2014. IX: A Protected Dataplane Operating System for High Throughput and Low Latency. In 11th USENIX Symposium on Operating Systems Design and Implementation (OSDI 14), 49- 65.(https://www.usenix.org/conference/osdi14/technical-sessions/presentation/belay)

研究紹介 332 TCP/IP スタック設計パケット I/O フレームワークを適⽤する既存の OS の
TCP/IP スタックを使えるようにする

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 333 netmap + カーネル TCP/IP スタック - アプリの API とデータパスは（ほぼ） netmap - ヘッダの処理にカーネル TCP/IP スタックを利⽤ StackMap Architecture NIC Device3drivers Linux3packet3I/O Socket3API StackMap app Regular3app 1. user kernel NIC TCP/IP/Eth netmap framework Packet3buffers 4. 2. 3. 1. Socket)API)for)control)path ! socket(),)bind(),)listen() 2. Netmap API)for)data)path) (extended) ! Syscall and)packet)I/O) batching,)zero)copy,)run-to- completion 3. Persistent,)fixed-size) sk_buffs ! Efficiently)call)into)kernel)TCP/IP Kenichi Yasukata, Michio Honda, Douglas Santry, and Lars Eggert. 2016. StackMap: Low-Latency Networking with the OS Stack and Dedicated NICs. In 2016 USENIX Annual Technical Conference (USENIX ATC 16), 43-56.(https://www.usenix.org/conference/atc16/technical-sessions/presentation/yasukata)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 334 netmap + カーネル TCP/IP スタック - アプリの API とデータパスは（ほぼ） netmap - ヘッダの処理にカーネル TCP/IP スタックを利⽤ StackMap Architecture NIC Device3drivers Linux3packet3I/O Socket3API StackMap app Regular3app 1. user kernel NIC TCP/IP/Eth netmap framework Packet3buffers 4. 2. 3. 1. Socket)API)for)control)path ! socket(),)bind(),)listen() 2. Netmap API)for)data)path) (extended) ! Syscall and)packet)I/O) batching,)zero)copy,)run-to- completion 3. Persistent,)fixed-size) sk_buffs ! Efficiently)call)into)kernel)TCP/IP データパス Kenichi Yasukata, Michio Honda, Douglas Santry, and Lars Eggert. 2016. StackMap: Low-Latency Networking with the OS Stack and Dedicated NICs. In 2016 USENIX Annual Technical Conference (USENIX ATC 16), 43-56.(https://www.usenix.org/conference/atc16/technical-sessions/presentation/yasukata)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 335 netmap + カーネル TCP/IP スタック - アプリの API とデータパスは（ほぼ） netmap - ヘッダの処理にカーネル TCP/IP スタックを利⽤ StackMap Architecture NIC Device3drivers Linux3packet3I/O Socket3API StackMap app Regular3app 1. user kernel NIC TCP/IP/Eth netmap framework Packet3buffers 4. 2. 3. 1. Socket)API)for)control)path ! socket(),)bind(),)listen() 2. Netmap API)for)data)path) (extended) ! Syscall and)packet)I/O) batching,)zero)copy,)run-to- completion 3. Persistent,)fixed-size) sk_buffs ! Efficiently)call)into)kernel)TCP/IP パケットは Socket API と Linux の通常の I/O サブシステムをバイパスデータパス Kenichi Yasukata, Michio Honda, Douglas Santry, and Lars Eggert. 2016. StackMap: Low-Latency Networking with the OS Stack and Dedicated NICs. In 2016 USENIX Annual Technical Conference (USENIX ATC 16), 43-56.(https://www.usenix.org/conference/atc16/technical-sessions/presentation/yasukata)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 336 netmap + カーネル TCP/IP スタック - アプリの API とデータパスは（ほぼ） netmap - ヘッダの処理にカーネル TCP/IP スタックを利⽤ StackMap Architecture NIC Device3drivers Linux3packet3I/O Socket3API StackMap app Regular3app 1. user kernel NIC TCP/IP/Eth netmap framework Packet3buffers 4. 2. 3. 1. Socket)API)for)control)path ! socket(),)bind(),)listen() 2. Netmap API)for)data)path) (extended) ! Syscall and)packet)I/O) batching,)zero)copy,)run-to- completion 3. Persistent,)fixed-size) sk_buffs ! Efficiently)call)into)kernel)TCP/IP パケットは Socket API と Linux の通常の I/O サブシステムをバイパスデータパス送受信に際してカーネルのTCP/IPスタックがヘッダの処理を⾏う Kenichi Yasukata, Michio Honda, Douglas Santry, and Lars Eggert. 2016. StackMap: Low-Latency Networking with the OS Stack and Dedicated NICs. In 2016 USENIX Annual Technical Conference (USENIX ATC 16), 43-56.(https://www.usenix.org/conference/atc16/technical-sessions/presentation/yasukata)

Performance e)HTTP)server ng)1KB)messages)(single)core) 0 2 4 6 8 0 20
40 60 80 100 Throughput [Gb/s] Concurrent TCP Connections Linux StackMap 0 100 200 300 400 500 0 20 40 60 80 100 Latency [µs] Concurrent TCP Connections Linux (99th %ile) Linux (mean) StackMap (99th %ile) StackMap (mean) TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 337 netmap + カーネル TCP/IP スタック - アプリの API とデータパスは（ほぼ） netmap - ヘッダの処理にカーネル TCP/IP スタックを利⽤１コアで 1 KB データを送信 Kenichi Yasukata, Michio Honda, Douglas Santry, and Lars Eggert. 2016. StackMap: Low-Latency Networking with the OS Stack and Dedicated NICs. In 2016 USENIX Annual Technical Conference (USENIX ATC 16), 43-56.(https://www.usenix.org/conference/atc16/technical-sessions/presentation/yasukata)

研究紹介 338 TCP/IP スタック設計パケット I/O フレームワークを適⽤するディスクとの親和性を⾼める

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 339 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 The Atlas Execution Pipeline SQ CQ NVMe Disk NIC RX TX kernel user webserver TCP/IP libnmio libnvme 1 2 4 buffers 5 6 3 7 Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 340 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 The Atlas Execution Pipeline SQ CQ NVMe Disk NIC RX TX kernel user webserver TCP/IP libnmio libnvme 1 2 4 buffers 5 6 3 7 netmap Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 341 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 The Atlas Execution Pipeline SQ CQ NVMe Disk NIC RX TX kernel user webserver TCP/IP libnmio libnvme 1 2 4 buffers 5 6 3 7 netmap diskmap Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 342 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 The Atlas Execution Pipeline SQ CQ NVMe Disk NIC RX TX kernel user webserver TCP/IP libnmio libnvme 1 2 4 buffers 5 6 3 7 netmap diskmap NIC I/O と Disk I/O に同じバッファが使える Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 343 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 The Atlas Execution Pipeline SQ CQ NVMe Disk NIC RX TX kernel user webserver TCP/IP libnmio libnvme 1 2 4 buffers 5 6 3 7 netmap diskmap NIC I/O と Disk I/O に同じバッファが使える Disk から NIC へのデータの移動にコピーが不要 Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 344 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 Disk|Crypt|Net: rethinking the stack for high-performance video streamin 2000 4000 6000 8000 10000 12000 14000 16000 0 20 40 60 80 # Concurrent HTTP persistent connections Net Throughput (Gb/s) Netﬂix 0% BC Netﬂix 100% BC Atlas (a) Network throughput (Error bars indicate the 95% CI) コンテンツ配送速度（２つの 40Gbps NIC 合計） Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 345 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 Disk|Crypt|Net: rethinking the stack for high-performance video streamin 2000 4000 6000 8000 10000 12000 14000 16000 0 20 40 60 80 # Concurrent HTTP persistent connections Net Throughput (Gb/s) Netﬂix 0% BC Netﬂix 100% BC Atlas (a) Network throughput (Error bars indicate the 95% CI) コンテンツ配送速度（２つの 40Gbps NIC 合計） Netflix の最適化を含む FreeBSD との⽐較 BC: 配送コンテンツのバッファキャッシュヒット率 Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 346 ビデオストリーミング⽤サーバー（Sandstorm 拡張） - ディスクアクセス時にカーネルをバイパスする diskmap 機構を追加 - diskmap を netmap と統合して、ディスクからの読み取ったデータの配送を効率化 Disk|Crypt|Net: rethinking the stack for high-performance video streamin 2000 4000 6000 8000 10000 12000 14000 16000 0 20 40 60 80 # Concurrent HTTP persistent connections Net Throughput (Gb/s) Netflix 0% BC Netflix 100% BC Atlas (a) Network throughput (Error bars indicate the 95% CI) コンテンツ配送速度（２つの 40Gbps NIC 合計） Netflix の最適化を含む FreeBSD との⽐較 BC: 配送コンテンツのバッファキャッシュヒット率実験時の CPU 使⽤率少ない CPU 使⽤率で⾼い性能を達成 eo streaming SIGCOMM ’17, August 21-25, 2017, Los Angeles, CA, USA 16000 ns % BC % BC 2000 4000 6000 8000 10000 12000 14000 16000 0 200 400 600 800 # Concurrent HTTP persistent connections CPU utilization (%) Netflix 0% BC Netflix 100% BC Atlas (b) CPU utilization (Average) 100 150 ughput (Gb/s) ⾼い性能を低い CPU 使⽤率で達成できる Ilias Marinos, Robert N.M. Watson, Mark Handley, and Randall R. Stewart. 2017. Disk|Crypt|Net: rethinking the stack for high-performance video streaming. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM '17). Association for Computing Machinery, New York, NY, USA, 211‒224. https://doi.org/10.1145/3098822.3098844

研究紹介 347 TCP/IP スタック設計パケット I/O フレームワークを適⽤する各リクエストの処理時間の分散に配慮する

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 348 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 349 拡張既存のシステムはアプリへ届くリクエストにかかる処理時間のばらつきへの考慮が不⼗分 Head-of-Line Blocking 問題を引き起こす着眼点

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 350 アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 351 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 352 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 RSSによる振り分け TCP/IP処理 TCP/IP処理拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 353 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 354 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 処理完了まで時間がかかるリクエスト拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 355 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 処理完了まで時間がかかるリクエスト短時間で処理が完了できるリクエスト拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 356 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 処理完了まで時間がかかるリクエスト短時間で処理が完了できるリクエスト順番に処理していくと拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 357 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 処理完了まで時間がかかるリクエスト短時間で処理が完了できるリクエスト順番に処理していくとリクエストの処理完了拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 358 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 処理完了まで時間がかかるリクエスト短時間で処理が完了できるリクエスト順番に処理していくと次のリクエストの処理を開始リクエストの処理完了拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 365 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 順番に処理していくと処理完了まで時間がかかるリクエストに処理の開始がブロックされているクライアントの体感する遅延の増加に繋がる拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 366 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 順番に処理していくと処理完了まで時間がかかるリクエストに処理の開始がブロックされているクライアントの体感する遅延の増加に繋がる CPU Core1 は idle 状態拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 367 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 提案⼿法： Shuffle 層を追加拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 368 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 提案⼿法： Shuffle 層を追加 shuffle 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 371 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 提案⼿法： Shuffle 層を追加 shuffle Core1が idle に拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 372 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 提案⼿法： Shuffle 層を追加 shuffle Core1が idle に Shuffle 層を通じた work-stealing 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 373 SLO Linux (partitioned connections) IX Bimodal 0.0 0.5 1.0 1 Throughput (MRPS) 0 25 50 75 100 125 150 SLO Linux (partitioned connections) IX Linux (floating connections) ZygOS 0.0 0.5 1.0 1.5 Throughput (MRPS) 0 25 50 75 100 125 150 リクエストの分布９割：短時間で完了するリクエスト１割：時間を要するリクエスト Latency (us) 拡張 George Prekas, Marios Kogias, and Edouard Bugnion. 2017. ZygOS: Achieving Low Tail Latency for Microsecond-Scale Networked Tasks. In Proceedings of the 26th Symposium on Operating Systems Principles (SOSP ʼ17), 325-341.(https://doi.org/10.1145/3132747.3132780)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 374 SLO Linux (partitioned connections) IX Bimodal 0.0 0.5 1.0 1 Throughput (MRPS) 0 25 50 75 100 125 150 SLO Linux (partitioned connections) IX Linux (floating connections) ZygOS 0.0 0.5 1.0 1.5 Throughput (MRPS) 0 25 50 75 100 125 150 リクエストの分布９割：短時間で完了するリクエスト１割：時間を要するリクエスト Latency (us) IX と⽐較して⾼いスループット拡張 George Prekas, Marios Kogias, and Edouard Bugnion. 2017. ZygOS: Achieving Low Tail Latency for Microsecond-Scale Networked Tasks. In Proceedings of the 26th Symposium on Operating Systems Principles (SOSP ʼ17), 325-341.(https://doi.org/10.1145/3132747.3132780)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 375 SLO Linux (partitioned connections) IX Bimodal 0.0 0.5 1.0 1 Throughput (MRPS) 0 25 50 75 100 125 150 SLO Linux (partitioned connections) IX Linux (floating connections) ZygOS 0.0 0.5 1.0 1.5 Throughput (MRPS) 0 25 50 75 100 125 150 リクエストの分布９割：短時間で完了するリクエスト１割：時間を要するリクエスト Latency (us) IX と⽐較して⾼いスループット低い遅延を達成拡張 George Prekas, Marios Kogias, and Edouard Bugnion. 2017. ZygOS: Achieving Low Tail Latency for Microsecond-Scale Networked Tasks. In Proceedings of the 26th Symposium on Operating Systems Principles (SOSP ʼ17), 325-341.(https://doi.org/10.1145/3132747.3132780)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 376 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 377 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 提案⼿法： Shuffle 層を追加 shuffle Core1が idle に Shuffle 層を通じた work-stealing 拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 378 拡張 RSSによる振り分けアプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤ TCP/IP処理 TCP/IP処理アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 問題：全部のコアに時間のかかるリクエストが来ると shuffle Work-stealing できない

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 379 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 ディスパッチャスレッド on CPU Core2 通信処理実⾏スレッド on CPU Core3 TCP/IP処理ディスパッチャスレッドがリクエストを振り分ける拡張提案⼿法

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 380 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 ディスパッチャスレッド on CPU Core2 通信処理実⾏スレッド on CPU Core3 TCP/IP処理ディスパッチャスレッドがリクエストを振り分ける拡張提案⼿法

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 381 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 ディスパッチャスレッド on CPU Core2 通信処理実⾏スレッド on CPU Core3 TCP/IP処理割り込みディスパッチャはアプリスレッドが⻑時間同じリクエストを処理し続けていと割り込みを送って、そのコアで別のリクエストの処理に切り替えるよう指⽰する拡張提案⼿法

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 382 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 ディスパッチャスレッド on CPU Core2 通信処理実⾏スレッド on CPU Core3 TCP/IP処理割り込みディスパッチャはアプリスレッドが⻑時間同じリクエストを処理し続けていと割り込みを送って、そのコアで別のリクエストの処理に切り替えるよう指⽰する拡張提案⼿法

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 383 アプリのリクエストキュー CPU Core0 ⽤ CPU Core1 ⽤アプリスレッド on CPU Core0 アプリスレッド on CPU Core1 ディスパッチャスレッド on CPU Core2 通信処理実⾏スレッド on CPU Core3 TCP/IP処理割り込みディスパッチャはアプリスレッドが⻑時間同じリクエストを処理し続けていと割り込みを送って、そのコアで別のリクエストの処理に切り替えるよう指⽰する切り替え判断は 5us おきに⾏われる拡張提案⼿法

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 384 6.6x 88% lower 26 Shinjuku under high variability Better Better IX and ZygOS: Tail latency determined by SCAN requests RocksDB 99.5% GET - 5us 0.5% SCAN - 250us 拡張 Kostis Kaffes, Timothy Chong, Jack Tigar Humphries, Adam Belay, David Mazières, and Christos Kozyrakis. 2019. Shinjuku: Preemptive Scheduling for μsecond-scale Tail Latency. In 16th USENIX Symposium on Networked Systems Design and Implementation (NSDI 19), 345- 360.(https://www.usenix.org/conference/nsdi19/presentation/kaffes)

研究紹介 385 TCP/IP スタック設計パケット I/O フレームワークを適⽤する様々なワークロードを⼀つのサーバーで動かしつつ遅延が重要なアプリが⽬標の応答性能を達成できるようにする

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 386 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 387 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) Key-Value Store Key-Value Store Key-Value Store Hadoop Spark Spark

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 388 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) Key-Value Store Key-Value Store Key-Value Store Hadoop Spark Spark CPU の専有を想定した DPDK のようなシステムとの組み合わせが広まる

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 389 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) CPU の専有を想定した DPDK のようなシステムとの組み合わせが広まる Key-Value Store + DPDK Key-Value Store + DPDK Key-Value Store + DPDK

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 390 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) CPU の専有を想定した DPDK のようなシステムとの組み合わせが広まる Key-Value Store + DPDK Key-Value Store + DPDK Key-Value Store + DPDK 問題：DPDK 等に CPU を占有させるとHadoop, Spark 等のワークロードへ割り当てるCPU サイクルがなくなる

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 391 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) CPU の専有を想定した DPDK のようなシステムとの組み合わせが広まる問題：DPDK 等に CPU を占有させるとHadoop, Spark 等のワークロードへ割り当てるCPU サイクルがなくなる⽬的低遅延が重要なワークロードに適切な数の CPU コアを割り当てられるようにしたい Key-Value Store + DPDK Key-Value Store + DPDK Key-Value Store + DPDK

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 392 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) Hadoop Spark Spark CPU の専有を想定した DPDK のようなシステムとの組み合わせが広まる問題：DPDK 等に CPU を占有させるとHadoop, Spark 等のワークロードへ割り当てるCPU サイクルがなくなる Key-Value Store + DPDK ⽬的低遅延が重要なワークロードに適切な数の CPU コアを割り当てられるようにしたい Key-Value Store へのリクエストが少ない時

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 393 要件⾊々なワークロードを⼀つのサーバーで動かしたい - 低遅延が重要なワークロード (Key-Value Store 等) - CPU を消費するワークロード (Hadoop, Spark 等) Hadoop Spark CPU の専有を想定した DPDK のようなシステムとの組み合わせが広まる問題：DPDK 等に CPU を占有させるとHadoop, Spark 等のワークロードへ割り当てるCPU サイクルがなくなる Key-Value Store + DPDK ⽬的低遅延が重要なワークロードに適切な数の CPU コアを割り当てられるようにしたい Spark Key-Value Store + DPDK Key-Value Store へのリクエストが多い時

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 394 IOKernel thread thread パケットキューアプリプロセス RUNNABLE RUNNABLE

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 395 IOKernel thread thread パケットキューアプリプロセス RUNNABLE RUNNABLE アプリプロセスに属する実⾏可能なスレッドとパケットキューを監視

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 396 IOKernel thread thread パケットキューアプリプロセス RUNNABLE RUNNABLE アプリプロセスに属する実⾏可能なスレッドとパケットキューを監視実⾏可能なスレッドや処理されていないパケットがあれば、アプリが利⽤可能な CPU コアを追加

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 397 IOKernel thread thread パケットキューアプリプロセス RUNNABLE RUNNABLE アプリプロセスに属する実⾏可能なスレッドとパケットキューを監視実⾏可能なスレッドや処理されていないパケットがあれば、アプリが利⽤可能な CPU コアを追加 5us ごとにコア数の調整

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 398 IOKernel thread thread パケットキューアプリプロセス RUNNABLE RUNNABLE アプリプロセスに属する実⾏可能なスレッドとパケットキューを監視 5us ごとにコア数の調整

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 399 0 100 200 300 400 0 2 4 6 99.9% Latency (μs) Linux Arachne Shenango ZygOS 0 20 40 60 0 2 4 6 Median Latency (μs) 0 25 50 75 100 0 2 4 6 Memcached Offered Load (million requests/s) Batch Ops/s Memcached と PARSEC swaptions を実⾏ Amy Ousterhout, Joshua Fried, Jonathan Behrens, Adam Belay, and Hari Balakrishnan. 2019. Shenango: Achieving High CPU Efficiency for Latency-Sensitive Datacenter Workloads. In 16th USENIX Symposium on Networked Systems Design and Implementation (NSDI 19), 361- 378.(https://www.usenix.org/conference/nsdi19/presentation/ousterhout)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 400 0 100 200 300 400 0 2 4 6 99.9% Latency (μs) Linux Arachne Shenango ZygOS 0 20 40 60 0 2 4 6 Median Latency (μs) 0 25 50 75 100 0 2 4 6 Memcached Offered Load (million requests/s) Batch Ops/s Memcached と PARSEC swaptions を実⾏ ZygOS と近いスループットと低遅延 Amy Ousterhout, Joshua Fried, Jonathan Behrens, Adam Belay, and Hari Balakrishnan. 2019. Shenango: Achieving High CPU Efficiency for Latency-Sensitive Datacenter Workloads. In 16th USENIX Symposium on Networked Systems Design and Implementation (NSDI 19), 361- 378.(https://www.usenix.org/conference/nsdi19/presentation/ousterhout)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 401 0 100 200 300 400 0 2 4 6 99.9% Latency (μs) Linux Arachne Shenango ZygOS 0 20 40 60 0 2 4 6 Median Latency (μs) 0 25 50 75 100 0 2 4 6 Memcached Offered Load (million requests/s) Batch Ops/s Memcached と PARSEC swaptions を実⾏ ZygOS はバッチ処理 (PARSEC swaptions) に費やせる CPU サイクルはない Amy Ousterhout, Joshua Fried, Jonathan Behrens, Adam Belay, and Hari Balakrishnan. 2019. Shenango: Achieving High CPU Efficiency for Latency-Sensitive Datacenter Workloads. In 16th USENIX Symposium on Networked Systems Design and Implementation (NSDI 19), 361- 378.(https://www.usenix.org/conference/nsdi19/presentation/ousterhout)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 402 0 100 200 300 400 0 2 4 6 99.9% Latency (μs) Linux Arachne Shenango ZygOS 0 20 40 60 0 2 4 6 Median Latency (μs) 0 25 50 75 100 0 2 4 6 Memcached Offered Load (million requests/s) Batch Ops/s Memcached と PARSEC swaptions を実⾏ Shenango は Memcached ロードが低い時にバッチ処理 (PARSEC swaptions) を実⾏できる Amy Ousterhout, Joshua Fried, Jonathan Behrens, Adam Belay, and Hari Balakrishnan. 2019. Shenango: Achieving High CPU Efficiency for Latency-Sensitive Datacenter Workloads. In 16th USENIX Symposium on Networked Systems Design and Implementation (NSDI 19), 361- 378.(https://www.usenix.org/conference/nsdi19/presentation/ousterhout)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 403 Hyper Thread Hyper Thread キャッシュアプリ１アプリ２ Hyper Thread Hyper Thread キャッシュアプリ３アプリ４拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 404 Hyper Thread Hyper Thread キャッシュアプリ１アプリ２ Hyper Thread Hyper Thread キャッシュアプリ３アプリ４アプリのワークロードによって⼲渉が発⽣する拡張

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 405 拡張 Hyper Thread Hyper Thread キャッシュアプリ１アプリ２ Hyper Thread Hyper Thread キャッシュアプリ３アプリ４アプリのワークロードによって⼲渉が発⽣する Interference Example 6 0 1 2 3 4 5 6 Time (s) 0 50 100 0em. %/W (%) 0 1 2 3 4 5 6 TLme (s) 102 103 104 105 99.9% Lat. (μs) Garbage Collection 1000 x latency increase Memcached 2 cores Better GC Task 20 cores Garbage Collection が動くとメモリ帯域が⼲渉して Memcached の応答遅延が増加する Garbage Collection を⾏うタスクと、Memcached を同じマシンで動かす場合 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 406 拡張 Hyper Thread Hyper Thread キャッシュアプリ１アプリ２ Hyper Thread Hyper Thread キャッシュアプリ３アプリ４アプリのワークロードによって⼲渉が発⽣する Interference Example 6 0 1 2 3 4 5 6 Time (s) 0 50 100 0em. %/W (%) 0 1 2 3 4 5 6 TLme (s) 102 103 104 105 99.9% Lat. (μs) Garbage Collection 1000 x latency increase Memcached 2 cores Better GC Task 20 cores Garbage Collection が動くとメモリ帯域が⼲渉して Memcached の応答遅延が増加する Garbage Collection を⾏うタスクと、Memcached を同じマシンで動かす場合⽬的：このような⼲渉を避けて、遅延が重要なシステムの遅延が⼀定以上を越えないようにしたい Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

Scheduler Core 1 Core 2 Core 3 Core 5 Core
6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 407 拡張 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 408 Caladan scheduler が Caladan ランタイム環境と DRAM コントローラーのカウンタを通して⼲渉を検知拡張 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 409 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする拡張 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 410 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 411 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect メモリ帯域の⼲渉は DRAM コントローラーのカウンタとキャッシュミスから検知 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 412 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect メモリ帯域の⼲渉は DRAM コントローラーのカウンタとキャッシュミスから検知この場合、⼲渉の原因となるワークロードを実⾏しているコアを、ワークロードが所属するタスクから奪う Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 413 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect ハイパースレッドの⼲渉はリクエスト処理時間の増加を元に検知 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 414 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect ハイパースレッドの⼲渉はリクエスト処理時間の増加を元に検知この場合、隣接するハイパースレッドで動作するタスクを取り除く Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 415 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect スレッドのランキューやパケットキューがいっぱいになってきた場合に Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

6 Core 4 {Work Stealing} {Core Allocation} Unallocated ksched Runtime ksched ksched ksched ksched Runtime ksched Task 1 Task 2 Shared Memory DRAM Controller (PCIe) Core 0 ksched ioctl() Figure 2: Caladan’s system architecture. Caladan relies on a scheduler core to gather control signals from shared memory regions TCP/IP スタック設計の再考 • パケット I/O フレームワーク上で TCP/IP スタックを動かす • Sandstorm (SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • zIO (OSDI 2021) • Demikernel (SOSP 2021) 416 拡張 Caladan scheduler と Caladan ランタイム環境は共有メモリを通じて情報をやりとりする Mitigating Interference 17 DRAM Bandwidth LLC Misses Request Processing Times Queueing Delay Signals DRAM Bandwidth Interference Hyperthread Interference LLC and other interference, load changes Revoke cores from antagonist task Remove task on sibling core Add core to victim Actions + Direct Indirect スレッドのランキューやパケットキューがいっぱいになってきた場合にそれらが所属するタスクへコアを新しくアサインする Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 417 Memcached and GC Memcached GC Task Latency reaches 580 ms Better Better Low tail latency (50 μs) GC task able to utilize all available resources Throttles BE after GC has completed Garbage Collection Cycle Key Memcached and GC Memcached GC Task Latency reaches 580 ms Better Better Throttles BE after GC has completed Key Memcached Garbage Collection タスク拡張 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 418 Memcached and GC Memcached GC Task Latency reaches 580 ms Better Better Low tail latency (50 μs) GC task able to utilize all available resources Throttles BE after GC has completed Garbage Collection Cycle Key Memcached and GC Memcached GC Task Latency reaches 580 ms Better Better Throttles BE after GC has completed Key Memcached Garbage Collection タスク灰⾊の箇所がGarbage Collection が実⾏されている時間拡張 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 419 Memcached and GC Memcached GC Task Latency reaches 580 ms Better Better Low tail latency (50 μs) GC task able to utilize all available resources Throttles BE after GC has completed Garbage Collection Cycle Key Memcached and GC Memcached GC Task Latency reaches 580 ms Better Better Throttles BE after GC has completed Key Memcached Garbage Collection タスク Garbage Collection にかかわらず低い遅延を達成拡張 Joshua Fried, Zhenyuan Ruan, Amy Ousterhout, and Adam Belay. 2020. Caladan: Mitigating Interference at Microsecond Timescales. In 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20), 281-297.(https://www.usenix.org/conference/osdi20/presentation/fried)

研究紹介 420 TCP/IP スタック設計パケット I/O フレームワークを適⽤するインターフェース設計

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 421 s devices. Demikernel datapath OSes run with trolplane kernel (e.g., Linux or Windows) and erchangeable library OSes with the same API, ent features and architecture. Each library OS is ﬁc: it ofﬂoads to the kernel-bypass device when implements remaining OS management in a user- These libOSes aim to simplify the development atacenter systems across heterogenous kernel- es with while minimizing OS overheads. el follows a trend away from kernel-oriented ary-oriented datapath OSes, motivated by the User-space Software Kernel-space Software I/O Hardware D N Con Pa NIC - SR-IOV User I/O Arrakis libOS DPDK App User I/O Buf. Mgmt Caladan library Kernel-Bypass Architectures eRPC Lib. RDMA App User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Ad-hoc Datapaths App OS Kern Figure 1. Example kernel-bypass architectures. U ernel architecture (right), Arrakis [73], Caladan [23 Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 422 s devices. Demikernel datapath OSes run with trolplane kernel (e.g., Linux or Windows) and erchangeable library OSes with the same API, ent features and architecture. Each library OS is ﬁc: it ofﬂoads to the kernel-bypass device when implements remaining OS management in a user- These libOSes aim to simplify the development atacenter systems across heterogenous kernel- es with while minimizing OS overheads. el follows a trend away from kernel-oriented ary-oriented datapath OSes, motivated by the User-space Software Kernel-space Software I/O Hardware D N Con Pa NIC - SR-IOV User I/O Arrakis libOS DPDK App User I/O Buf. Mgmt Caladan library Kernel-Bypass Architectures eRPC Lib. RDMA App User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Ad-hoc Datapaths App OS Kern Figure 1. Example kernel-bypass architectures. U ernel architecture (right), Arrakis [73], Caladan [23 様々なカーネルをバイパスするシステムが提案された Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 423 s devices. Demikernel datapath OSes run with trolplane kernel (e.g., Linux or Windows) and erchangeable library OSes with the same API, ent features and architecture. Each library OS is ﬁc: it ofﬂoads to the kernel-bypass device when implements remaining OS management in a user- These libOSes aim to simplify the development atacenter systems across heterogenous kernel- es with while minimizing OS overheads. el follows a trend away from kernel-oriented ary-oriented datapath OSes, motivated by the User-space Software Kernel-space Software I/O Hardware D N Con Pa NIC - SR-IOV User I/O Arrakis libOS DPDK App User I/O Buf. Mgmt Caladan library Kernel-Bypass Architectures eRPC Lib. RDMA App User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Ad-hoc Datapaths App OS Kern Figure 1. Example kernel-bypass architectures. U ernel architecture (right), Arrakis [73], Caladan [23 様々なカーネルをバイパスするシステムが提案された Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 424 s devices. Demikernel datapath OSes run with trolplane kernel (e.g., Linux or Windows) and erchangeable library OSes with the same API, ent features and architecture. Each library OS is ﬁc: it ofﬂoads to the kernel-bypass device when implements remaining OS management in a user- These libOSes aim to simplify the development atacenter systems across heterogenous kernel- es with while minimizing OS overheads. el follows a trend away from kernel-oriented ary-oriented datapath OSes, motivated by the User-space Software Kernel-space Software I/O Hardware D N Con Pa NIC - SR-IOV User I/O Arrakis libOS DPDK App User I/O Buf. Mgmt Caladan library Kernel-Bypass Architectures eRPC Lib. RDMA App User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Ad-hoc Datapaths App OS Kern Figure 1. Example kernel-bypass architectures. U ernel architecture (right), Arrakis [73], Caladan [23 様々なカーネルをバイパスするシステムが提案された問題：アプリが利⽤を想定するデバイスに依存 Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 425 s devices. Demikernel datapath OSes run with trolplane kernel (e.g., Linux or Windows) and erchangeable library OSes with the same API, ent features and architecture. Each library OS is ﬁc: it ofﬂoads to the kernel-bypass device when implements remaining OS management in a user- These libOSes aim to simplify the development atacenter systems across heterogenous kernel- es with while minimizing OS overheads. el follows a trend away from kernel-oriented ary-oriented datapath OSes, motivated by the User-space Software Kernel-space Software I/O Hardware D N Con Pa NIC - SR-IOV User I/O Arrakis libOS DPDK App User I/O Buf. Mgmt Caladan library Kernel-Bypass Architectures eRPC Lib. RDMA App User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Ad-hoc Datapaths App OS Kern Figure 1. Example kernel-bypass architectures. U ernel architecture (right), Arrakis [73], Caladan [23 様々なカーネルをバイパスするシステムが提案された問題：アプリが利⽤を想定するデバイスに依存モチベーション：汎⽤的なインターフェースがあった⽅が良い Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 426 into a single library for both devices (e.g., RDMAxSPDK). We implemented the bulk of our library OS code in Rust. We initially prototyped several libOSes in C++; however, we found that Rust performs competitively with C++ and achieves ns-scale latencies while offering additional beneﬁts. First, Rust enforces memory safety through language features and its compiler. Though our libOSes use unsafe code to bind to C/C++ kernel-bypass libraries and applications, User-space Software Kernel-space Software I/O Hardware I/O Device ??? libFuture ??? DPDK User I/O Buf. Mgmt libRDMA RDMA User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Demikernel Datapath Architecture App libPOSIX libDPDK SPDK User I/O Buf. Mgmt libSPDK Future Demikernel PDPIX Datapath API Figure 3. Demikernel kernel-bypass architecture. Demikernel ac- commodates heterogenous kernel-bypass devices, including poten- tial future hardware, with a ﬂexible library OS-based datapath architecture.We include a libOS that goes through the OS kernel for Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

(SIGCOMM 2014) • mTCP (NSDI 2014) • Arrakis (OSDI 2014) • IX (OSDI 2014) • StackMap (USENIX ATC 2016) • Atlas (SIGCOMM 2017) • ZygOS (SOSP 2017) • Shenango (NSDI 2019) • Shinjuku (NSDI 2019) • TAS (EuroSys 2019) • Caladan (OSDI 2020) • Demikernel (SOSP 2021) 427 into a single library for both devices (e.g., RDMAxSPDK). We implemented the bulk of our library OS code in Rust. We initially prototyped several libOSes in C++; however, we found that Rust performs competitively with C++ and achieves ns-scale latencies while offering additional beneﬁts. First, Rust enforces memory safety through language features and its compiler. Though our libOSes use unsafe code to bind to C/C++ kernel-bypass libraries and applications, User-space Software Kernel-space Software I/O Hardware I/O Device ??? libFuture ??? DPDK User I/O Buf. Mgmt libRDMA RDMA User I/O Buf. Mgmt Net. Trans. OS Kernel Control Path Demikernel Datapath Architecture App libPOSIX libDPDK SPDK User I/O Buf. Mgmt libSPDK Future Demikernel PDPIX Datapath API Figure 3. Demikernel kernel-bypass architecture. Demikernel ac- commodates heterogenous kernel-bypass devices, including poten- tial future hardware, with a ﬂexible library OS-based datapath architecture.We include a libOS that goes through the OS kernel for 提案：異なるタイプのデバイスへ共通のインターフェースからアクセス可能にする Irene Zhang, Amanda Raybuck, Pratyush Patel, Kirk Olynyk, Jacob Nelson, Omar S. Navarro Leija, Ashlie Martinez, Jing Liu, Anna Kornfeld Simpson, Sujay Jayakar, Pedro Henrique Penna, Max Demoulin, Piali Choudhury, and Anirudh Badam. 2021. The Demikernel Datapath OS Architecture for Microsecond-Scale Datacenter Systems. In Proceedings of the ACM Sigops 28th Symposium on Operating Systems Principles (SOSP ʼ21), 195-211.(https://doi.org/10.1145/3477132.3483569)

研究紹介 428 仮想マシン通信について基本的な仕組みの説明

仮想マシン環境 430 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル

仮想マシン環境 431 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルこれまでの話はこの辺りの改善

仮想マシン環境 432 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ
仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン仮想マシン環境ではバックエンドも速くないと性能が制限されてしまう

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン仮想マシン環境ではバックエンドも速くないと性能が制限されてしまう⾼速化ポイント

仮想スイッチ 435 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ
仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため共有

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A 共有

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A B 共有

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A B 宛先: 仮想マシンA 新規パケットの到着宛先: 仮想マシンB 共有

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A B 宛先: 仮想マシンA 新規パケットの到着宛先: 仮想マシンB 共有仮想マシンが共有する NIC には異なる仮想マシンを宛先とするパケットが送られてくる

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A B 宛先: 仮想マシンA 新規パケットの到着宛先: 仮想マシンB 各仮想マシンは別の仮想マシンを宛先とするパケットへアクセスできるべきでない

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A B 宛先: 仮想マシンA 宛先: 仮想マシンB 仮想スイッチがパケットの宛先（MAC アドレス）を元に仮想マシンへパケットをフォワードするようにすることで各仮想マシンは⾃分へ宛てられたパケット以外⾒えなくできる各仮想マシンは別の仮想マシンを宛先とするパケットへアクセスできるべきでない

仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンドなぜ必要？物理 NIC を複数の仮想マシンで分離を維持しつつ共有するため A B 仮想スイッチの処理は仮想マシン通信において頻繁に実⾏されるため、⾼い性能を発揮するためには効率が重要

（⽐較的⼀般的な）仮想スイッチ利⽤法 • ユーザー空間プロセスは tap デバイスを通じてパケットを送受信する 446 仮想スイッチ（e.g., Linux bridge）
ユーザー空間カーネル物理マシンプロセスアプリケーション tap device プロセスアプリケーション tap device

（⽐較的⼀般的な）仮想スイッチ利⽤法 • ユーザー空間プロセスは tap デバイスを通じてパケットを送受信する • QEMU/KVM ベースの仮想マシンの場合は図中のプロセスが実⾏するアプリケーションが
QEMU になる 447 仮想スイッチ（e.g., Linux bridge）ユーザー空間カーネル物理マシンプロセス QEMU tap device プロセス QEMU tap device

（⽐較的⼀般的な）仮想スイッチ利⽤法 • 問題：既存の tap デバイスと仮想スイッチが⾼速にパケットをフォワードできない 448 仮想スイッチ（e.g., Linux bridge）
ユーザー空間カーネル物理マシンプロセスアプリケーション tap device プロセスアプリケーション tap device

他の仮想 I/O 機構：SR-IOV 449 NIC デバイスドライバ TCP/IP スタックアプリケーションスイッチ
仮想 NIC ユーザー空間カーネル NIC 仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC ホスト * Single Root I/O Virtualization

仮想 NIC ユーザー空間カーネル NIC 仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC ホスト - NIC が仮想インターフェースを提供 - ホストを介さなくても複数仮想マシンが 1 つの物理 NIC を共有できる * Single Root I/O Virtualization

仮想 NIC ユーザー空間カーネル NIC 仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC ホスト - NIC が仮想インターフェースを提供 - ホストを介さなくても複数仮想マシンが 1 つの物理 NIC を共有できる利点：⾼速⽋点：ソフトウェアで細部の制御ができない * Single Root I/O Virtualization

研究紹介 452 仮想マシン通信について仮想スイッチの⾼速化

仮想マシン通信の⾼速化 • 仮想スイッチへパケット I/O フレームワークを適⽤ • VALE (CoNEXT 2012) •
CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 453 仮想スイッチ（e.g., Linux bridge）ユーザー空間カーネル物理マシンプロセスアプリケーション tap device プロセスアプリケーション tap device

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 454 VALE ( netmap モジュールの⼀部 )：仮想スイッチとして機能ユーザー空間カーネル物理マシンプロセスアプリケーション Virtual Port (netmap API) プロセスアプリケーション Virtual Port (netmap API) tap デバイスの代わりに netmap API 準拠の仮想ポート

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 455 VALE ( netmap モジュールの⼀部 )：仮想スイッチとして機能ユーザー空間カーネル物理マシンプロセスアプリケーション Virtual Port (netmap API) プロセスアプリケーション Virtual Port (netmap API) tap デバイスの代わりに netmap API 準拠の仮想ポート netmap API 準拠の仮想ポート間で MAC アドレスを元にパケットを転送

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 456 responding pps rates are between 1/6 and 1/150 of tho shown here. The traﬃc received by a bridge should normally go to single destination, but there are cases (multicast or unknow destinations) where the bridge needs to replicate packets t multiple ports. Hence the number of active ports impac the throughput of the system. 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 Forwarding rate (Mpps) Destinations VALE, 60 bytes NIC, 60 bytes VALE, 1514 bytes NIC, 1514 bytes TAP, 60 bytes Luigi Rizzo and Giuseppe Lettieri. 2012. VALE, a Switched Ethernet for Virtual Machines. In Proceedings of the 8th International Conference on Emerging Networking Experiments and Technologies (CoNEXT ʼ12), 61-72.(https://doi.org/10.1145/2413176.2413185)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 457 responding pps rates are between 1/6 and 1/150 of tho shown here. The traﬃc received by a bridge should normally go to single destination, but there are cases (multicast or unknow destinations) where the bridge needs to replicate packets t multiple ports. Hence the number of active ports impac the throughput of the system. 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 Forwarding rate (Mpps) Destinations VALE, 60 bytes NIC, 60 bytes VALE, 1514 bytes NIC, 1514 bytes TAP, 60 bytes • パケットサイズが６０バイトで宛先が１つの場合 • VALE: 17.6 Mpps • tap デバイス: 1 Mpps 以下 Luigi Rizzo and Giuseppe Lettieri. 2012. VALE, a Switched Ethernet for Virtual Machines. In Proceedings of the 8th International Conference on Emerging Networking Experiments and Technologies (CoNEXT ʼ12), 61-72.(https://doi.org/10.1145/2413176.2413185)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 458 responding pps rates are between 1/6 and 1/150 of tho shown here. The traﬃc received by a bridge should normally go to single destination, but there are cases (multicast or unknow destinations) where the bridge needs to replicate packets t multiple ports. Hence the number of active ports impac the throughput of the system. 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 Forwarding rate (Mpps) Destinations VALE, 60 bytes NIC, 60 bytes VALE, 1514 bytes NIC, 1514 bytes TAP, 60 bytes • パケットサイズが６０バイトで宛先が１つの場合 • VALE: 17.6 Mpps • tap デバイス: 1 Mpps 以下 Luigi Rizzo and Giuseppe Lettieri. 2012. VALE, a Switched Ethernet for Virtual Machines. In Proceedings of the 8th International Conference on Emerging Networking Experiments and Technologies (CoNEXT ʼ12), 61-72.(https://doi.org/10.1145/2413176.2413185)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 459 responding pps rates are between 1/6 and 1/150 of tho shown here. The traﬃc received by a bridge should normally go to single destination, but there are cases (multicast or unknow destinations) where the bridge needs to replicate packets t multiple ports. Hence the number of active ports impac the throughput of the system. 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 Forwarding rate (Mpps) Destinations VALE, 60 bytes NIC, 60 bytes VALE, 1514 bytes NIC, 1514 bytes TAP, 60 bytes • パケットサイズが６０バイトで宛先が１つの場合 • VALE: 17.6 Mpps • tap デバイス: 1 Mpps 以下 SR-IOV はデータが PCI バスを経由するため仮想ポート間の通信は VALE より遅くなる Luigi Rizzo and Giuseppe Lettieri. 2012. VALE, a Switched Ethernet for Virtual Machines. In Proceedings of the 8th International Conference on Emerging Networking Experiments and Technologies (CoNEXT ʼ12), 61-72.(https://doi.org/10.1145/2413176.2413185)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 460 responding pps rates are between 1/6 and 1/150 of tho shown here. The traﬃc received by a bridge should normally go to single destination, but there are cases (multicast or unknow destinations) where the bridge needs to replicate packets t multiple ports. Hence the number of active ports impac the throughput of the system. 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 Forwarding rate (Mpps) Destinations VALE, 60 bytes NIC, 60 bytes VALE, 1514 bytes NIC, 1514 bytes TAP, 60 bytes • パケットサイズが６０バイトで宛先が１つの場合 • VALE: 17.6 Mpps • tap デバイス: 1 Mpps 以下⼤幅な改善 Luigi Rizzo and Giuseppe Lettieri. 2012. VALE, a Switched Ethernet for Virtual Machines. In Proceedings of the 8th International Conference on Emerging Networking Experiments and Technologies (CoNEXT ʼ12), 61-72.(https://doi.org/10.1145/2413176.2413185)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 461 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンド

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 462 e1000 デバイスドライバ netmap pkt-gen NIC デバイスドライバ VALE QEMU e1000 emulation ユーザー空間カーネルホスト仮想マシン e1000 デバイスドライバ netmap pkt-gen ユーザー空間カーネル仮想マシン QEMU e1000 emulation Virtual Port (netmap API) Virtual Port (netmap API) VALE を QEMU/KVM へ適⽤して実験

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 463 e1000 デバイスドライバ netmap pkt-gen NIC デバイスドライバ VALE QEMU e1000 emulation ユーザー空間カーネルホスト仮想マシン e1000 デバイスドライバ netmap pkt-gen ユーザー空間カーネル仮想マシン QEMU e1000 emulation Virtual Port (netmap API) Virtual Port (netmap API) VALE を QEMU/KVM へ適⽤して実験仮想マシン内では netmap ベースの pkt-gen アプリを実⾏

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 464 e1000 デバイスドライバ netmap pkt-gen NIC デバイスドライバ VALE QEMU e1000 emulation ユーザー空間カーネルホスト仮想マシン e1000 デバイスドライバ netmap pkt-gen ユーザー空間カーネル仮想マシン QEMU e1000 emulation Virtual Port (netmap API) Virtual Port (netmap API) VALE を QEMU/KVM へ適⽤して実験 Throughput TX (Mpps) RX (Mpps) tap device 0.550 0.550 VALE 3.470 2.550

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 465 改善 - 利⽤可能ポート数がスケールできるようにする - パケット転送ロジックをカーネルモジュールで実装できるようにする

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 466 DPDK ベース実装

研究紹介 467 仮想マシン通信について⾼速な仮想スイッチを仮想マシン通信へ適⽤

仮想マシン通信の⾼速化 • パケット I/O フレームワークを使った仮想スイッチを仮想マシン通信基盤へ適⽤ • ClickOS (NSDI 2014)
• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 468

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 469

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 470 e1000 デバイスドライバ netmap pkt-gen NIC デバイスドライバ VALE QEMU e1000 emulation ユーザー空間カーネルホスト仮想マシン e1000 デバイスドライバ netmap pkt-gen ユーザー空間カーネル仮想マシン QEMU e1000 emulation Virtual Port (netmap API) Virtual Port (netmap API)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 471 e1000 デバイスドライバ netmap pkt-gen NIC デバイスドライバ VALE QEMU e1000 emulation ユーザー空間カーネルホスト仮想マシン e1000 デバイスドライバ netmap pkt-gen ユーザー空間カーネル仮想マシン QEMU e1000 emulation Virtual Port (netmap API) Virtual Port (netmap API) 改善の余地あり

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 472 netmap pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン netmap pkt-gen ユーザー空間カーネル仮想マシン Virtual Port (netmap API) Virtual Port (netmap API)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 473 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ユーザー空間カーネル仮想マシン Virtual Port (netmap API) Virtual Port (netmap API) ptnetmap (pt: passthrough)：ホストが作成した仮想 (netmap) ポートへ、仮想マシン内のアプリが直接アクセスできるようにする netmap ptnetmap バックエンド ptnetmap バックエンド netmap

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 474 0 4 8 12 16 20 24 1 2 4 8 16 32 64 128 256 512 1024 Throughput [Mpps] TX Batch [pkts] Guest to Host Host to Guest Guest to Guest Host to Host Stefano Garzarella, Giuseppe Lettieri, and Luigi Rizzo. 2015. Virtual Device Passthrough for High Speed Vm Networking. In 2015 ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS), 99-110.(https://doi.org/10.1109/ANCS.2015.7110124)

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 475 0 4 8 12 16 20 24 1 2 4 8 16 32 64 128 256 512 1024 Throughput [Mpps] TX Batch [pkts] Guest to Host Host to Guest Guest to Guest Host to Host 24 Mpps Stefano Garzarella, Giuseppe Lettieri, and Luigi Rizzo. 2015. Virtual Device Passthrough for High Speed Vm Networking. In 2015 ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS), 99-110.(https://doi.org/10.1109/ANCS.2015.7110124)

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 476 0 4 8 12 16 20 24 1 2 4 8 16 32 64 128 256 512 1024 Throughput [Mpps] TX Batch [pkts] Guest to Host Host to Guest Guest to Guest Host to Host Guest が送信側の時が速い Stefano Garzarella, Giuseppe Lettieri, and Luigi Rizzo. 2015. Virtual Device Passthrough for High Speed Vm Networking. In 2015 ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS), 99-110.(https://doi.org/10.1109/ANCS.2015.7110124)

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 477 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ユーザー空間カーネル仮想マシン Virtual Port (netmap API) Virtual Port (netmap API) Guest to Guest netmap netmap ptnetmap バックエンド ptnetmap バックエンド

• 仮想スイッチへパケット I/O フレームワークを適⽤ • VALE (CoNEXT 2012) • CuckooSwitch
(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 478 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 480 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 481 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される ptnetmap のバックエンドはホスト内でカーネルスレッドを作成し VALE の処理を実⾏

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 482 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される ptnetmap のバックエンドはホスト内でカーネルスレッドを作成し VALE の処理を実⾏時間 vCPU pthread （pkt-gen)

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 483 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される ptnetmap のバックエンドはホスト内でカーネルスレッドを作成し VALE の処理を実⾏時間 vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッドパケット送信リクエスト

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 484 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される ptnetmap のバックエンドはホスト内でカーネルスレッドを作成し VALE の処理を実⾏時間 vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッド vCPU pthread （pkt-gen) VALE を実⾏

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 485 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される ptnetmap のバックエンドはホスト内でカーネルスレッドを作成し VALE の処理を実⾏時間 vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッド vCPU pthread （pkt-gen) VALE を実⾏バックエンドのスレッドが転送処理をしている間も vCPU（アプリ）スレッドが動ける

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 486 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド QEMU/KVM では vCPU は pthread として実装される ptnetmap のバックエンドはホスト内でカーネルスレッドを作成し VALE の処理を実⾏時間 vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッド vCPU pthread （pkt-gen) VALE を実⾏バックエンドのスレッドが転送処理をしている間も vCPU（アプリ）スレッドが動けるバックエンドのカーネルスレッドのおかげで pkt-gen のために最⼤２CPUコア同時に動く

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 488 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) 通常の（ホストの）ユーザー空間プロセスがパケットを送信する場合

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 489 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) 通常の（ホストの）ユーザー空間プロセスがパケットを送信する場合システムコールシステムコール

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 490 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) 通常の（ホストの）ユーザー空間プロセスがパケットを送信する場合カーネル（システムコール） VALEを実⾏

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 491 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) 通常の（ホストの）ユーザー空間プロセスがパケットを送信する場合カーネル（システムコール） VALEを実⾏ホストユーザー空間プロセス（pkt-gen) ユーザー空間へリターン

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 492 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) 通常の（ホストの）ユーザー空間プロセスがパケットを送信する場合カーネル（システムコール） VALEを実⾏ホストユーザー空間プロセス（pkt-gen) ユーザー空間へリターン pkt-gen と VALE が同じ CPU コアで実⾏される

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 493 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) 通常の（ホストの）ユーザー空間プロセスがパケットを送信する場合カーネル（システムコール） VALEを実⾏ホストユーザー空間プロセス（pkt-gen) ユーザー空間へリターン pkt-gen と VALE が同じ CPU コアで実⾏される：pkt-gen のために最⼤１CPUコアが同時に動く

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 494 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) カーネル（システムコール） VALEを実⾏ホストユーザー空間プロセス（pkt-gen) vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッド vCPU pthread （pkt-gen) ptnetmap の場合

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 495 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) カーネル（システムコール） VALEを実⾏ホストユーザー空間プロセス（pkt-gen) vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッド vCPU pthread （pkt-gen) ptnetmap の場合最⼤２CPUコアを同時に利⽤できるから速い

(CoNEXT 2013) • mSwitch (SOSR 2015) 仮想マシン通信の⾼速化 496 pkt-gen NIC デバイスドライバ VALE ユーザー空間カーネルホスト仮想マシン pkt-gen ホスト・ユーザー空間プロセス Virtual Port (netmap API) Virtual Port (netmap API) Guest to Host netmap ptnetmap バックエンド VALE の通常の仮想ポートの場合バックエンドのスレッドがない時間ホストユーザー空間プロセス（pkt-gen) カーネル（システムコール） VALEを実⾏ホストユーザー空間プロセス（pkt-gen) vCPU pthread （pkt-gen) pthetmap バックエンドカーネルスレッド vCPU pthread （pkt-gen) ptnetmap の場合 0 4 8 12 16 20 24 1 2 4 8 16 32 64 128 256 512 1024 Throughput [Mpps] TX Batch [pkts] Guest to Host Host to Guest Guest to Guest Host to Host Figure 6: Throughput across a VALE switch, w di↵erent placements of the source and sink, and Stefano Garzarella, Giuseppe Lettieri, and Luigi Rizzo. 2015. Virtual Device Passthrough for High Speed Vm Networking. In 2015 ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS), 99-110.(https://doi.org/10.1109/ANCS.2015.7110124)

研究紹介 497 仮想マシン通信について仮想 I/O 実⾏⽅式の改善

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 498 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 499 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 500 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善時間バックエンドカーネルスレッド vCPU thread vCPU thread パケット送信リクエスト

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 501 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善時間バックエンドカーネルスレッド vCPU thread vCPU thread パケット送信リクエスト主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良い

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 502 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良い

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 503 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良い CPU 時間 100 % CPU 時間 100 %

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 504 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良い

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 505 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 理想的には性能のために CPU は最⼤限利⽤できるべき理想

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 506 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 実際は、vCPU かバックエンドのスレッドどちらかが常にボトルネックになる（ワークロード依存）実際 vCPU スレッドがボトルネック

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 507 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 実際は、vCPU かバックエンドのスレッドどちらかが常にボトルネックになる（ワークロード依存）実際 vCPU スレッドがボトルネック利⽤されない CPU 時間

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 508 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 実際は、vCPU かバックエンドのスレッドどちらかが常にボトルネックになる（ワークロード依存）実際バックエンドのカーネルスレッドがボトルネック利⽤されない CPU 時間

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 509 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 510 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 511 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が多く、I/O が少ない場合

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 512 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が少なく、I/O が多い場合：バックエンドに利⽤されない CPU 時間を vCPU が使える

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 513 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が多く、I/O が少ない場合：vCPU に利⽤されない CPU 時間をバックエンドが使える

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 514 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が多く、I/O が少ない場合：vCPU に利⽤されない CPU 時間をバックエンドが使える時間 vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドこの解決策の課題

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 515 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が多く、I/O が少ない場合：vCPU に利⽤されない CPU 時間をバックエンドが使える時間 vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドこの解決策の課題 schedule スレッド切り替えのためのスケジューリングコスト schedule schedule schedule schedule schedule

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 516 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が多く、I/O が少ない場合：vCPU に利⽤されない CPU 時間をバックエンドが使える時間 vCPU Thread ハイパーコール (I/O) 提案⼿法 I/O をハイパーコール内で実⾏ハイパーコール (I/O) vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O)

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 517 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 解決策：vCPU とバックエンドのカーネルスレッドは同じ CPU コアの上で動かすカーネルスレッド vCPU thread 利点：ワークロードが変化しても、CPU の vCPU とバックエンドへの割り当てが常に理想的計算が多く、I/O が少ない場合：vCPU に利⽤されない CPU 時間をバックエンドが使える時間 vCPU Thread ハイパーコール (I/O) 提案⼿法 I/O をハイパーコール内で実⾏ハイパーコール (I/O) vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O) スケジューリングコストをなくすことができる

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 518 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善 vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O) vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O) vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドバックエンドカーネルスレッド vCPU thread vCPU thread ３パターン Split Merge 提案⼿法

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 519 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善 vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O) vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドバックエンドカーネルスレッド vCPU thread vCPU thread ３パターン Split Merge 提案⼿法実験の設定：Split は 2 CPU で動作するため、vCPU に割り当てる CPU 時間を半分に設定その他は１ CPU のみ利⽤５０％５０％

仮想マシン通信の⾼速化 520 vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O)
vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドバックエンドカーネルスレッド vCPU thread vCPU thread Split Merge 提案⼿法５０％５０％ SoCC ’17, September 24–27, 2017, San 0 2 4 6 8 10 12 14 16 64 512 1024 1472 Throughput [Mpps] Packet Size [#] Split Merge HyperNF (a) No NF - virtual ports. VM 間の転送速度 Kenichi Yasukata, Felipe Huici, Vincenzo Maffione, Giuseppe Lettieri, and Michio Honda. 2017. HyperNF: Building a High Performance, High Utilization and Fair NFV Platform. In Proceedings of the 2017 Symposium on Cloud Computing (SoCC ʼ17), 157-169.(https://doi.org/10.1145/3127479.3127489)

vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドバックエンドカーネルスレッド vCPU thread vCPU thread Split Merge 提案⼿法５０％５０％ SoCC ’17, September 24–27, 2017, San 0 2 4 6 8 10 12 14 16 64 512 1024 1472 Throughput [Mpps] Packet Size [#] Split Merge HyperNF (a) No NF - virtual ports. VM 間の転送速度 schedule schedule schedule vCPU とバックエンドに必要な CPU 時間が同じくらいだとスケジュールのコストが⼩さい Split の⽅が Merge より速い Kenichi Yasukata, Felipe Huici, Vincenzo Maffione, Giuseppe Lettieri, and Michio Honda. 2017. HyperNF: Building a High Performance, High Utilization and Fair NFV Platform. In Proceedings of the 2017 Symposium on Cloud Computing (SoCC ʼ17), 157-169.(https://doi.org/10.1145/3127479.3127489)

vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドバックエンドカーネルスレッド vCPU thread vCPU thread Split Merge 提案⼿法５０％５０％ schedule schedule schedule vCPU とバックエンドに必要な CPU 時間に偏りがあるとスケジュールのコストがあっても Merge の⽅が Split より速い SoCC ’17, September 24–27, 2017, Santa Clara, CA, USA K. Yasukata, F. Huici, V. Ma (a) No NF - virtual ports. (b) Bridge NF - virtual ports. 0 1 2 3 4 5 64 512 1024 1472 Throughput [Mpps] Packet Size [#] (c) Firewall NF - virtual ports. ( ファイアウォールアプリ性能 Kenichi Yasukata, Felipe Huici, Vincenzo Maffione, Giuseppe Lettieri, and Michio Honda. 2017. HyperNF: Building a High Performance, High Utilization and Fair NFV Platform. In Proceedings of the 2017 Symposium on Cloud Computing (SoCC ʼ17), 157-169.(https://doi.org/10.1145/3127479.3127489)

vCPU thread バックエンドカーネルスレッド vCPU thread バックエンドカーネルスレッドバックエンドカーネルスレッド vCPU thread vCPU thread Split Merge 提案⼿法５０％５０％ schedule schedule schedule SoCC ’17, September 24–27, 2017, Santa Clara, CA, USA K. Yasukata, F. Huici, V. Ma 0 1 2 3 4 5 64 512 1024 1472 Throughput [Mpps] Packet Size [#] ファイアウォールアプリ性能 SoCC ’17, September 24–27, 2017, Santa 0 2 4 6 8 10 12 14 16 64 512 1024 1472 Throughput [Mpps] Packet Size [#] Split Merge HyperNF (a) No NF - virtual ports. (b VM 間の転送速度提案⼿法は Merge からスケジュールのコストを削ることで⾼速化 Kenichi Yasukata, Felipe Huici, Vincenzo Maffione, Giuseppe Lettieri, and Michio Honda. 2017. HyperNF: Building a High Performance, High Utilization and Fair NFV Platform. In Proceedings of the 2017 Symposium on Cloud Computing (SoCC ʼ17), 157-169.(https://doi.org/10.1145/3127479.3127489)

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 524 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 525 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善パイプラインのような処理の場合は、スレッドを分けない⽅が CPU 利⽤効率が良い

研究紹介 526 仮想マシン通信について仮想 I/O リクエストに伴う vCPU コンテキストからの exit 削減

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 527 改善

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 528 改善 vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O)

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 529 改善 vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O) VMEXIT VMEXIT 問題：ハイパーコールの呼び出しのたびに vCPU からハイパーバイザーのコンテキストへ exit する必要がある

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 530 改善 vCPU Thread ハイパーコール (I/O) ハイパーコール (I/O) VMEXIT VMEXIT 問題：ハイパーコールの呼び出しのたびに vCPU からハイパーバイザーのコンテキストへ exit する必要があるモチベーション：vCPU から exit しないで I/O を実⾏できるようにしたい

仮想マシン通信 • 仮想スイッチへパケット I/O フレームワークを適⽤ • VALE (CoNEXT 2012) •
CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 531 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンド⽐較的⼀般的な構成

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 532 NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドホスト NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンド⽐較的⼀般的な構成 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン転送リクエスト

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 533 NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドホスト NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンド⽐較的⼀般的な構成 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン転送リクエスト VMEXIT

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 534 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン⽐較的⼀般的な構成 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドホスト仮想 NIC バックエンド

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 535 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン仮想 NIC バックエンド提案⼿法：仮想マシンに新しいコンテキストを追加

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 536 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンド NIC レジスタ

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 537 NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンド NIC レジスタ信頼されている信頼されている

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 538 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネルホスト仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想 NIC バックエンド NIC デバイスドライバ仮想 NIC バックエンド NIC レジスタ

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 539 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネル管理⽤仮想マシン（信頼されている）仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想 NIC バックエンド NIC デバイスドライバ仮想 NIC バックエンド NIC レジスタデバイスドライバやバックエンドのプログラムをロード

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 540 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネル管理⽤仮想マシン（信頼されている）仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想 NIC バックエンド NIC デバイスドライバ仮想 NIC バックエンド NIC レジスタ NIC レジスタ仮想スイッチ NIC レジスタ仮想スイッチ仮想マシン間で共有される NIC レジスタや仮想スイッチ関連オブジェクトをマップ

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 541 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネル管理⽤仮想マシン（信頼されている）仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想 NIC バックエンド NIC デバイスドライバ仮想 NIC バックエンド NIC レジスタ NIC レジスタ仮想スイッチ NIC レジスタ仮想スイッチポイント：コンテキストの移⾏には VMFUNC という CPU 命令を利⽤ VMFUNC

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 542 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネル管理⽤仮想マシン（信頼されている）仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想 NIC バックエンド NIC デバイスドライバ仮想 NIC バックエンド NIC レジスタ NIC レジスタ仮想スイッチ NIC レジスタ仮想スイッチポイント：コンテキストの移⾏には VMFUNC という CPU 命令を利⽤ VMFUNC VMFUNC は vCPU からの exit を発⽣させない：結果、切り替えが速い

CuckooSwitch (CoNEXT 2013) • mSwitch (SOSR 2015) 543 NIC デバイスドライバ TCP/IP スタックアプリケーション NIC デバイスドライバ仮想スイッチ仮想 NIC バックエンドユーザー空間カーネル管理⽤仮想マシン（信頼されている）仮想マシン NIC デバイスドライバ TCP/IP スタックアプリケーションユーザー空間カーネル仮想マシン提案⼿法：仮想マシンに新しいコンテキストを追加 - これらは仮想マシンコンテキストの⼀部 - ホストと同じく信頼されているドメインとして想定 NIC デバイスドライバ仮想 NIC バックエンド NIC デバイスドライバ仮想 NIC バックエンド NIC レジスタ NIC レジスタ仮想スイッチ NIC レジスタ仮想スイッチポイント：コンテキストの移⾏には VMFUNC という CPU 命令を利⽤ VMFUNC VMFUNC は vCPU からの exit を発⽣させない：結果、切り替えが速い＊仮想マシンは VMFUNC を通して以外は追加されたコンテキストにアクセスできない

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 544 改善

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 545 改善 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Mpps] パケットサイズ VM 間通信速度既存⼿法提案⼿法

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 546 改善 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Mpps] パケットサイズ VM 間通信速度既存⼿法提案⼿法 VMEXIT をなくすことによる改善

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 547 改善 0 2 4 6 8 10 64 128 256 512 1024 1472 Throughput [Mpps] パケットサイズ VM 間通信速度既存⼿法提案⼿法 Linux vhost-net はこれくらい

最近の取り組み 548

最近の取り組み：TCP/IP スタック⾃作 • モチベーション • 他のシステムと統合しやすく • マルチコア環境で利⽤できる実装がほしい • +
性能のボトルネックがどこから来るかに興味がある • まだ実装途中ですがよろしければお試しください • ソースコード：https://github.com/yasukata/iip 549

モチベーション • 既存の多くの TCP/IP 実装は込み⼊ったことをしようと思うと取り回しが良くない場合がある 550

モチベーション • 具体的に、既存の多くの TCP/IP スタック実装は 1. 特定の OS、ライブラリやネットワーク I/O 機能に依存
2. それら機能が TCP/IP スタック外部から隠蔽されている 3. TCP/IP スタック⾃体にプロトコル処理を⾏うスレッドが含まれる • 結果として、 1. 他のシステムとの統合・コンパイル⾃体が難しい場合がある 2. 機能の隠蔽によって、最適化がしにくくなる場合がある 3. プロトコル処理を⾏うスレッドの実⾏形式が限定される 551

１. 統合・コンパイルが難しい • 例えば、Shenango や Caladan のように独⾃のユーザー空間スレッドでプロトコル処理を実⾏しようとすると、既存の pthread や
pthread を想定したロックに依存した TCP/IP スタック実装は組み合わせるのが難しい • 新しく設計・実装された OS 等の既存の標準ライブラリ等との互換が⼗分でないシステムに適⽤するのが難しい 552

２. 機能隠蔽により最適化しにくくなる • 例えば、sendfile システムコールのようにディスクと NIC 間のデータの受け渡しのメモリコピーを削減したいと思った時 553 既存の
DPDK を使った TCP/IP スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP 既存の TCP/IP スタックが想定する利⽤法ディスクから読み出したデータディスク API メモリコピー

DPDK を使った TCP/IP スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP 本当はディスクのデータを DPDK ⽤パケットバッファへ読み出したいディスク

DPDK を使った TCP/IP スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP 本当はディスクのデータを DPDK ⽤パケットバッファへ読み出したいディスク多くの実装で、DPDK とそのパケットバッファは TCP/IP スタック実装内部に隠蔽されディスクの直接的なデータ読み込み先として指定できない

３. スレッドの実⾏形式が制限される • 既存の実装の多くは⾃前でプロトコル処理を⾏うスレッドを含んでいる 556 既存の DPDK を使った TCP/IP
スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP while (1) { }

スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP while (1) { } TCP/IP スタック実装利⽤者が実装するアプリ while (1) { receive_data process_data send_data } 送受信キュー API TCP/IP スタック実装利⽤者は以下のような感じでアプリを実装する

スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP while (1) { } TCP/IP スタック実装利⽤者が実装するアプリ while (1) { receive_data process_data send_data } 送受信キュー API 典型的な設定ではアプリと TCP/IP スタック実装のスレッドは別の CPU コアで実⾏する TCP/IP スタック実装利⽤者は以下のような感じでアプリを実装する

• NetVM (NSDI 2014) • ptnetmap (ANCS 2015, LANMAN 2016) • HyperNF (SoCC 2017) • ELISA (ASPLOS 2023) 559 Xen に netmap/VALE を適⽤ QEMU/KVM に DPDK を適⽤ Xen に netmap/VALE を適⽤実⾏のモデルを改善主張：vCPU スレッドと仮想スイッチを実⾏するバックエンドのスレッドを分けない⽅が良いカーネルスレッド vCPU thread 実際は、vCPU かバックエンドのスレッドどちらかが常にボトルネックになる（ワークロード依存）実際 vCPU スレッドがボトルネック利⽤されない CPU 時間

スタック実装 DPDK DPDK ⽤パケットバッファ TCP/IP while (1) { } TCP/IP スタック実装利⽤者が実装するアプリ while (1) { receive_data process_data send_data } 送受信キュー API 典型的な設定ではアプリと TCP/IP スタック実装のスレッドは別の CPU コアで実⾏する TCP/IP スタック実装利⽤者は以下のような感じでアプリを実装する

３. スレッドの実⾏形式が制限される • 既存の実装の多くは⾃前でプロトコル処理を⾏うスレッドを含んでいる 561 典型的な設定ではアプリと TCP/IP スタック実装のスレッドは別の CPU
コアで実⾏する TCP/IP スタック実装利⽤者は以下のような感じでアプリを実装するアプリスレッド TCP/IP スレッド

コアで実⾏する TCP/IP スタック実装利⽤者は以下のような感じでアプリを実装するアプリスレッド TCP/IP スレッド常に空きの CPU 時間ができる

３. スレッドの実⾏形式が制限される • 理想的には • NIC からデータを受け取る • TCP/IP スタック受信処理
• アプリ固有処理 • TCP/IP スタック送信処理 • NIC からデータを送信する • 上記を⼀つのスレッドで実⾏できた⽅が嬉しい 564

lwIP • ⼩さい組み込みデバイスを想定したポータブルな TCP/IP 実装 • （個⼈的に）⾮常に利⽤しやすい上に性能も⾼い • ⼀⽅、 •
NIC のオフローディング機能に対応していない • NIC とアプリの間でコピーを削除しきれない • 複数スレッドで同時に lwIP を実⾏できるように作られていない 565

モチベーション • 以下のような特性を持つ TCP/IP 実装が欲しい 1. プロトコル処理の実装が特定の CPU、NIC、OS、ライブラリ、コンパイラ機能に依存しない 2.
外部の実装に対して、隠蔽する機構が最⼩限 3. TCP/IP スタックがプロトコル処理を実⾏するスレッドを持たない 4. NIC のオフローディング機能を使える 5. NIC とアプリの間でコピーをなくすことができる 6. 複数スレッドで実⾏可能でマルチコア環境で性能がスケールする 566

実装ポイント 567 ネットワーク I/O 機能パケットバッファ TCP/IP 多くの既存の実装の構成アプリ TCP/IP
スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供

実装ポイント 568 ネットワーク I/O 機能パケットバッファ TCP/IP 今回の実装の構成アプリ TCP/IP
スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める API 送信⽤ API には、パケットバッファへのポインタを渡す

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める API 送信⽤ API には、パケットバッファへのポインタを渡す TCP/IP スタックは利⽤者が実装したコールバックを使ってヘッダを配置するためのパケットバッファを確保＋ヘッダを⽤意

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める API 送信⽤ API には、パケットバッファへのポインタを渡す TCP/IP スタックは利⽤者が実装したコールバックを使って NIC の Scatter Gather 機能でペイロードにヘッダを結合してパケットを送信：ペイロードのメモリコピーはなし

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める API 送信⽤ API には、パケットバッファへのポインタを渡す TCP/IP スタックは利⽤者が実装したコールバックを使って確保したパケットバッファを解放

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める API 送信⽤ API には、パケットバッファへのポインタを渡すここで利⽤者がアプリで書き込んだパケットバッファを解放しなければ、同じパケットバッファ上のデータを別の宛先へ送ることもできます

スタック実装者が提供 TCP/IP スタック利⽤者（アプリ開発者）が提供 CALLBACK CALLBACK 利⽤者が実装するコールバックパケットバッファ確保・解放 NIC からのパケット転送 NIC のオフロード機能通知アプリはパケットバッファへ直接送信したいデータを書き込める API 送信⽤ API には、パケットバッファへのポインタを渡すここで利⽤者がアプリで書き込んだパケットバッファを解放しなければ、同じパケットバッファ上のデータを別の宛先へ送ることもできます利⽤者にこのような⾃由度を残せるところが TCP/IP スタック実装が機能の隠蔽を⾏わない利点

性能 • ベンチマーク 577 0 2 4 6 8 10
12 14 16 18 20 1 2 4 8 16 32 Throughput [ million requests / sec ] CPU cores [#] Linux TCP/IP this work - TCP ペイロードは 4 ~ 64 バイト - サーバーが各 CPU コアが 16 TCP 接続へ応答するようクライアントは接続数を調整 - TCP 接続は確⽴後切断しない - なるべく⾼速にメッセージの交換を⾏う CPU: 2 x 16-core Intel Xeon Gold 6326 CPU @ 2.90GHz (合計 32 コア) NIC: Mellanox ConnectX-5 100 Gbps NIC （マシン間はケーブルを直繋ぎして接続） OS: Linux 6.2 実験環境（同じ設定のマシン２台）

性能 • ベンチマーク 578 0 2 4 6 8 10
12 14 16 18 20 1 2 4 8 16 32 Throughput [ million requests / sec ] CPU cores [#] Linux TCP/IP this work - TCP ペイロードは 4 ~ 64 バイト - サーバーが各 CPU コアが 16 TCP 接続へ応答するようクライアントは接続数を調整 - TCP 接続は確⽴後切断しない - なるべく⾼速にメッセージの交換を⾏う 16 CPU コア以降、コア数を増やしてもあまり速くならなかった何故？ CPU: 2 x 16-core Intel Xeon Gold 6326 CPU @ 2.90GHz (合計 32 コア) NIC: Mellanox ConnectX-5 100 Gbps NIC （マシン間はケーブルを直繋ぎして接続） OS: Linux 6.2 実験環境

簡単な調査 • pqos コマンドでメモリに関する情報を取得 • Instruction Per Cycle (IPC) •
Cache Miss • Last-Level Cache occupancy • Memory Bandwidth 579 https://github.com/intel/intel-cmt-cat/wiki/PQoS-monitoring-metrics-definition

Instruction Per Cycle (IPC) • 利⽤している CPU コア全ての IPC
の合計 580 0 5 10 15 20 25 30 35 1 2 4 8 16 32 Total Instruction Per Cycle (IPC) CPU cores [#] 16 CPU コア以降、コア数を増やしても IPC があまり増えていない

キャッシュミス回数 • 利⽤している CPU コアで観測されたキャッシュミス回数の合計 581 0 50
100 150 200 250 300 1 2 4 8 16 32 Total Cache Misses [ million ] CPU cores [#] 16 CPU コア以降、８コアまでの時と⽐べてキャッシュミス回数が⼤幅に増加

メモリ帯域使⽤状況 • 利⽤している CPU コアで観測されたメモリ帯域使⽤の合計 582 0 5
10 15 20 25 30 35 1 2 4 8 16 32 Total Memory Bandwidth Local + Remote [ GB/s ] CPU cores [#] キャッシュミス増加に合わせてメモリ帯域の利⽤が増加

キャッシュ占有状況 • 利⽤している CPU コアの占有しているキャッシュサイズの合計 583 0 10
20 30 40 50 1 2 4 8 16 32 Total Last Level Cache Occupancy [ MB ] CPU cores [#] コアを増やしてもデータがキャッシュに乗らなくなって性能が制限されているかも？今回のマシンの CPU は１つあたり 24 MB のキャッシュを持っており、２CPU 構成のため 48 MB が限界と思われる

利⽤する CPU の数を１つにしてみる • 先ほどまでは２つの CPU のコアを同数利⽤していたので、今度は全てのスレッドを同じ CPU で動かしてみる
584 0 2 4 6 8 10 12 14 16 18 20 1 2 4 8 16 32 Throughput [ million requests / sec ] CPU cores [#] 2 CPU (32-core) 1 CPU (16-core) 0 5 10 15 20 25 30 35 40 45 50 1 2 4 8 16 32 Total Last Level Cache Occupancy [ MB ] CPU cores [#] 2 CPU (32-core) 1 CPU (16-core) ⻘が先ほどまでのグラフです使えるキャッシュサイズが前の実験と⽐べて半分になる

585 0 2 4 6 8 10 12 14 16 18 20 1 2 4 8 16 32 Throughput [ million requests / sec ] CPU cores [#] 2 CPU (32-core) 1 CPU (16-core) 0 5 10 15 20 25 30 35 40 45 50 1 2 4 8 16 32 Total Last Level Cache Occupancy [ MB ] CPU cores [#] 2 CPU (32-core) 1 CPU (16-core) ⻘が先ほどまでのグラフです１CPUの時の⽅が同じ CPU コア数でも性能が下がった使えるキャッシュサイズが前の実験と⽐べて半分になる

586 0 2 4 6 8 10 12 14 16 18 20 1 2 4 8 16 32 Throughput [ million requests / sec ] CPU cores [#] 2 CPU (32-core) 1 CPU (16-core) 0 5 10 15 20 25 30 35 40 45 50 1 2 4 8 16 32 Total Last Level Cache Occupancy [ MB ] CPU cores [#] 2 CPU (32-core) 1 CPU (16-core) ⻘が先ほどまでのグラフです１CPUの時の⽅が同じ CPU コア数でも性能が下がった使えるキャッシュサイズは性能に影響がありそう使えるキャッシュサイズが前の実験と⽐べて半分になる

まとめ 587

まとめ • NIC の⾼速化による性能の伸び代を活かす研究についてご紹介しました • 引⽤等は技術レポート「Internet Infrastructure Review (IIR)
Vol. 60」をご参照ください • HTML / PDF 版：https://www.iij.ad.jp/dev/report/iir/060.html • TCP/IP スタックを⾃作してみて、⽐較的最近のハードウェアでの性能の限界がどこから来るか簡単に調査してみました • よろしければお試しください：https://github.com/yasukata/iip 588

NIC の高速化とシステムソフトウェア研究 ~ 2010 年くらいからの振り返り ~

NIC の高速化とシステムソフトウェア研究 ~ 2010 年くらいからの振り返り ~

More Decks by yasukata

Other Decks in Technology

Featured

Transcript