Pythonスレッドとは結局何なのか？ CPython実装から見るNoGIL時代の変化

Pythonスレッドとは結局何なのか？ CPython実装から見るNoGIL時代の変化 PyCon JP 2025.9.26 (DAY1) 12:00 - 12:30 Recustomer株式会社
CTO Shugo Manabe @curekoshimizu

Proﬁle : 眞鍋秀悟 ( X: @curekoshimizu ) 略歴 •
京都大学 / 大学院 ◦ 入試一位合格 ◦ 数学系 (高速な計算方法を専門) [今回のお話と少し関係が深い] • Fixstars ◦ Executive Engineer • Mujin ◦ Architect • Preferred Networks ◦ Engineering Mananger • Hacobu ◦ 研究開発部部長・CTO室室長 • want.jp ◦ VPoP • [Now] Recustomer ◦ CTO かなり長い間 Pythonを業務で使ってきた 2 昨年は「四則演算のCPythonでの内部実装」という話を PyCon JP 2024 で発表させていただきました。

Thread 3

人々を魅了し高速化する技術 4

そんなThreadに衝撃ニュースが 5

Python3.13の衝撃 6

GIL無効化できます！ (ただし実験的機能) 7

Python3.14ではさらに 8

実験モードから昇格して GIL無効化公式サポート化 (ただし規定ビルドは従来どおり) 9

つまりは NoGIL (GIL無効化) というキーワードを Python界隈を騒がせました 10

GILとは何なのか？ NoGILは何がすごいのか？この高速化の歴史的転換点を Threadとともに説明します！ 11

まずは基本的なおさらいから (正確性には多少目をつぶった説明をします) 12 (注.) 時間の兼ね合いで、不正確なことを述べている点も多々あります。例えば、 • 組み込みOS • 1プロセスで複数CPUを使っている場合の話
• ハイパースレッディング • アダマールの法則 • 並列処理と平行処理の違いなどいろいろ考慮すべきこともあるのだが、大雑把には正しいと言えるので、このまま続けて議論を続ける。

逐次処理 - 並列ではなく、処理が終わったら次の処理をする 13 処理A 処理B 処理C 処理D 時間

並列処理 14 時間高速化のためにものごとを並列で終わらせたい処理A 処理B 処理C 処理D

プロセス処理は逐次処理ではない 15 時間 OSはプロセスA (メール送信) と
プロセスB (Pythonコード実行) の実行は同時にできるので逐次処理ではないはずプロセスA プロセスB プロセスC プロセスD

プロセスと並列処理 16 時間メールを送りながらも Pythonのコード実行は同時にできているはずなのでこの動きが正しそうプロセスA
プロセスB プロセスC プロセスD

プロセスには「計算」という CPUを利用するでは、1CPUしかなかったら？ 17

並列処理 - Q. CPU (計算資源) が 1個のときはどうなる？ 18 時間
メールを送りながらも Pythonのコード実行は同時にできているはずなのでこうなっていそうプロセスA プロセスB プロセスC プロセスD

OSが処理を切り替えながら (ディスパッチしながら) 並列処理をしているようにみせている 19

並列処理 - Q. CPU (計算資源) が 1個のときはどうなる？ A. OS
が切り替えながら疑似並列により動作する 20 プロセスA プロセスB プロセスC プロセスD 時間 1個のCPUリソースをそれぞれのプロセスで切り替えながら使う

並列処理 - 2コアCPU におけるプロセスの動作の動きイメージ 21 プロセスA プロセスB
プロセスC プロセスD 時間 2コアあるので2プロセス同時に動ける

並列処理 - 複数コアにおけるプロセスの動作イメージ 22 プロセスA プロセスB プロセスC プロセスD 時間それぞれのプロセスがそれぞれの
CPUコアが割り当てられて並列に計算できる！

プロセスと並列についてざっくりまとめ • プロセスは OS によって管理される • OS によっていい感じに、切り替えられながら並列処理されているように動作できる •
CPU コアという計算資源があれば、実際並列度が高まる 23 (注.) 時間の兼ね合いで、不正確なことを述べている点も多々あります。例えば、 • 組み込みOS • 1プロセスで複数CPUを使っている場合の話 • ハイパースレッディング • アダマールの法則 • 並列処理と平行処理の違いなどいろいろ考慮すべきこともあるのだが、大雑把には正しいと言えるので、このまま続けて議論を続ける。

プロセスだけの時代からスレッドの時代へ • プロセスは独立したメモリ空間をもっている (安全性が高い ) ◦ そのため、プロセス同士が干渉して破壊するようなこともない • プロセス生成コストが高く遅い •
プロセス間通信 (IPC) のオーバーヘッドが大きい 24 並列処理をするには「安全だが重たい」

プロセスだけの時代からスレッドの時代へ • プロセスは独立したメモリ空間をもっている (安全性が高い ) ◦ そのため、プロセス同士が干渉して破壊するようなこともない • プロセス生成コストが高く遅い •
プロセス間通信 (IPC) のオーバーヘッドが大きい 25 並列処理をするには「安全だが重たい」 1980年頃： GUIの登場等でたくさんの並列処理・プロセス間通信処理が求められる時代に

• スレッドはメモリを共有 (安全ではない ) • スレッド間の変数の共有等が簡単 • 生成のオーバーヘッドが低いプロセスだけの時代からスレッドの時代へ •
プロセスは独立したメモリ空間をもっている (安全性が高い ) ◦ そのため、プロセス同士が干渉して破壊するようなこともない • プロセス生成コストが高く遅い • プロセス間通信 (IPC) のオーバーヘッドが大きい 26 並列処理をするには「安全だが重たい」軽量でデータの共有しやすさが求められた。それがスレッド 1980年頃： GUIの登場等でたくさんの並列処理・プロセス間通信処理が求められる時代に

プロセスだけの時代からスレッドの時代の流れ 27 プロセスだけの時代

プロセスだけの時代からスレッドの時代の流れ 28 プロセスだけの時代スレッドを各種ベンダーが独自に • SunOS
: lwp (lightweight processes) • DEC：DECthreads • カーネギーメロン： Mach kernel など

プロセスだけの時代からスレッドの時代の流れ 29 プロセスだけの時代スレッドを各種ベンダーが独自に POSIX Threads
(pthreads) の規格化 • SunOS : lwp (lightweight processes) • DEC：DECthreads • カーネギーメロン： Mach kernel など pthreads 重要ワード

プロセスだけの時代からスレッドの時代の流れ 30 プロセスだけの時代スレッドを各種ベンダーが独自に POSIX Threads
(pthreads) の規格化 • SunOS : lwp (lightweight processes) • DEC：DECthreads • カーネギーメロン： Mach kernel など Linux, MacOS, FreeBSD などに pthreads は Cライブラリとして標準搭載 Windows以外標準搭載といっても過言ではない

CPython の threading.Thread の実装は？ 31 • POSIX系： pthreads を利用
(だいたいこれが使われると思うとよい ) • Windows環境： Win32スレッドAPI (NT threads) を利用 • WASM環境：環境依存 (今回の発表では省略 ) thread.c より抜粋

CPython の threading.Thread の実装は？ 32 from threading import Thread thread
= Thread(target=worker) thread.start() このシンプルなコードで一体何が起こっているのか CPython本体の実装を見ていきましょう

CPython の threading.Thread の実装は？ 33 from threading import Thread thread
= Thread(target=worker) thread.start() このシンプルなコードで一体何が起こっているのか CPython本体の実装を見ていきましょう

CPython の threading.Thread は pthreads のラッパー 34 • Thread.start() Lib/threading.py
Python層：高レベルAPI threadingライブラリ層

Python層：高レベルAPI threadingライブラリ層 • thread_Python_start_joinable_thread() Modules/ _threadmodule.c C拡張層：低レベルAPI _threadライブラリ層 (import _thread可) call

Python層：高レベルAPI threadingライブラリ層 • thread_Python_start_joinable_thread() Modules/ _threadmodule.c C拡張層：低レベルAPI _threadライブラリ層 (import _thread可) call import _thread help(_thread.start_new_thread) 実行すべきではないが確かに Pythonからも使える _thread モジュール

Python層：高レベルAPI threadingライブラリ層 • thread_Python_start_joinable_thread() Modules/ _threadmodule.c C拡張層：低レベルAPI _threadライブラリ層 (import _thread可) • Python_start_joinable_thread() ◦ pthread_create() : POSIX Threads 呼び出し Modules/thread_pthread.h POSIX層結局のところ pthreads に移譲している処理 call call

CPython の threading.Thread と pthreads 38 • pthreads の中身概要 ◦
Mac：Mach kernel ラッパー ▪ Macのkernelはハイブリッドカーネルで一部は Mach kernel ◦ Linux 系：NPTLライブラリ (Native POSIX Thread Library) ▪ スレッドをプロセスのようにカーネル空間に生成できるので、スケジューリングなどはプロセスのような管理体型歴史の伏線回収

Mac：Mach kernel ラッパー ▪ Macのkernelはハイブリッドカーネルで一部は Mach kernel ◦ Linux 系：NPTLライブラリ (Native POSIX Thread Library) ▪ スレッドをプロセスのようにカーネル空間に生成できるので、スケジューリングなどはプロセスのような管理体型

Mac：Mach kernel ラッパー ▪ Macのkernelはハイブリッドカーネルで一部は Mach kernel ◦ Linux 系：NPTLライブラリ (Native POSIX Thread Library) ▪ スレッドをプロセスのようにカーネル空間に生成できるので、スケジューリングなどはプロセスのような管理体型つまり、「プロセス」のように OS がいい感じにディスパッチしながら並列処理してくれる

Mac：Mach kernel ラッパー ▪ Macのkernelはハイブリッドカーネルで一部は Mach kernel ◦ Linux 系：NPTLライブラリ (Native POSIX Thread Library) ▪ スレッドをプロセスのようにカーネル空間に生成できるので、スケジューリングなどはプロセスのような管理体型 OSスレッドA OSスレッドB OSスレッドC OSスレッドD 時間それぞれスレッドがそれぞれのCPUコアに割り当てられれば並列に計算できる！

CPython の threading.Thread と pthreads 42 そう、実は、 GIL さえなければ正しい動き

GIL なしの世界では概ね正しい 43 GILがない世界では概ね正しく、 CPUコアがたくさんあれば、スレッドは並列動作するので高速 OSスレッドA OSスレッドB OSスレッドC OSスレッドD
時間それぞれスレッドがそれぞれのCPUコアに割り当てられれば並列に計算できる！この部分の説明の正しさについて GILがこれを妨げているという話

ずっと説明を保留してきた GIL の話に入っていきます 44

GIL = Global Interpreter Lock 45

GIL が並列性能を落としてでも導入された目的とは？ 46

GIL (Global Interpreter Lock) が防ぎたいこと 47 • GIL という仕組みが必要だったのは？ ◦
GC 処理といったメモリー管理機構をスレッドセーフにするため

GC 処理といったメモリー管理機構をスレッドセーフにするため時間スレッド A スレッド B どちらからも触れる変数x 使用開始

GC 処理といったメモリー管理機構をスレッドセーフにするため時間スレッド A スレッド B どちらからも触れる変数x 使用開始使用完了使用開始同タイミングで発生

GC 処理といったメモリー管理機構をスレッドセーフにするため時間スレッド B どちらからも触れる変数x 不要なので削除した何故か使えなくなっている使用開始同タイミングで発生参照カウントがスレッドセーフではなく、メモリー管理機構が壊れるという話使用完了使用開始スレッド A

大雑把な GIL の挙動 - CPUコアがいくらあろうとも GILによって各スレッドは決して同時には動作「させない」 51 スレッド1 スレッド2 スレッド3
スレッド4 時間

もうちょっと詳しい GIL の挙動 (thread_run関数) 52 52 OSスレッド生成 GIL確保目的の関数実行 GIL解放

Python バイトコード Python バイトコード Python バイトコード Python バイトコード

Python バイトコード Python バイトコード Python バイトコード Python バイトコード各バイトコードの処理実行の中で「GILの確保 or 解放」判定処理がある別のスレッドが確保要求を出している → 一旦自分は GIL解放して、 sleep、その後別のスレッドに対して、自身の GIL取得要求。 sleep時間は sys.getswitchinterval() で約5ms GIL取得しないと Pythonのバイトコードは実行できない eval_breaker

つまり、 Pythonのバイトコードの実行部分をスレッド並列にしなければ安全だというのがGILの思想 55

もっと詳しく言うと、 1CPUのときと同様な動作にすれば参照カウントを同時にアクセスしないからメモリー管理は壊れないよね？疑似並列でスレッドを実行しよう！というのがGILの思想 56

同時に「使用・未使用」が発生していたから問題が起こっていたこれがなくなる！ 57

このようなロジックになった GILが生まれた時代背景とは？ 58

Python 1.14 ~ 1.15 (およそ 1996~1998頃) Python 1.14 にて「--with-thread」オプションが追加され
スレッドを考慮できるように Python1.15 のリリースで GIL (global interpreter lock) は登場している 59

青グループ Intel CPU の歴史と時代背景 60 周波数を上げていけば性能は上がるぞ！時代
(1CPU = 1コア時代) 486 Pentium (P5・P6) Pentium (NetBurst)

(1CPU = 1コア時代) Python GIL誕生 (1996~1998頃) 486 Pentium (P5・P6) Pentium (NetBurst)

(1CPU = 1コア時代) Python GIL誕生 (1996~1998頃) 486 Pentium (P5・P6) Pentium (NetBurst) 周波数だけで性能があがらなくなる Intel Pentium4 が 4GHzを諦めた象徴的ニュース

(1CPU = 1コア時代) Python GIL誕生 (1996~1998頃) 486 Pentium (P5・P6) Pentium (NetBurst) 周波数だけで性能があがらなくなる Core シリーズ Core i シリーズ 2コア・4コア時代 (Core2Duo) 複数コア時代 (Core i5・i7) CPUが複数の物理コア時代 (2006年頃)

つまり Python はマルチコア時代じゃないときにこの問題の対応に迫られていた (Rubyも同様) 64

今の時代、CPUがたくさんあるものの GILというものがあるので CPU1個しか使われていない 65 複数のCPUコアの恩恵を得るために NoGILを利用したいという話

最初のスライドを思い出しましょう 66

Python3.13と3.14 の衝撃 67

GIL無効化できます！ 68

そうこれは高速化界隈にとって衝撃なのです 69

GIL無効化の実現にはどんな努力があったのでしょうか？ 70

残念ながら時間の都合もあり細かくお話することはできません 71

ここからは雰囲気で理解し CPythonに感謝する気持ちを持って返りましょう 72

GILありだと「参照カウント」という一つのフィールドだったものが • local用の参照カウント • shared用の参照カウントに分割されている参照カウンタの実装の変更 73

objectを生成したスレッドが所有スレッド • local用の参照カウント : 所有スレッドが更新する用 ◦ 絶対に自分しか更新しないので、気にせず更新できる • shared用の参照カウント :
その他のスレッドが更新する用 ◦ 複数のスレッドから更新されても大丈夫な AtomicなRead-Modify-Write命令が必要なため、処理コストがかかるどちらかが 0になったりすると、統合要求などを経て、 objectを削除することになる参照カウンタの実装の変更 74 sys.getrefcount(x) というリファレンスカウントを返す関数は、 local + shared の値を返すなど、 GILとNoGILで結果が異なる点も面白い

• list 型の append() 等の結果、サイズが増減する処理を考えるコレクション型のサイズ変更等のイベント 75 x y z
- - - - - - [x, y, z] を表すメモリー領域別のところで利用されているメモリー領域誰も使っていない空間 w を追加したいのだが、連続領域に格納できない

• list 型の append 等のサイズが増減する処理を考えるコレクション型のサイズ変更等のイベント 76 x y z
- - [x, y, z] を表すメモリー領域 x y z w 別のところで利用されているメモリー領域 [x, y, z, w] を連続メモリー領域を作成して x, y, z はコピーされるこの領域を破棄したいのだが別のスレッドがこのobjectを使っているかもしれず、安易に破棄できない

list型のオブジェクトは多数ありそれらをすべて Lockで同期で取るのは大変 QSBR（Quiescent State-Based Reclamation）という技法が利用されている。 • 各スレッドが、クリティカルセクションを抜けて、古いデータ構造を参照していないことを、定期的に報告させる ◦ eval_breaker
がこのポイントになっている • これにより、古いデータは誰からも参照されないことを保証し、遅延削除　 QSBR (Quiescent State-Based Reclamation) 77

• GILなしモードには、複数のスレッドからオブジェクトの更新が行われる可能性があり、それを Lockするために ob_mutex というロック機構が Object に必ず追加されている •
Object という単位で Lockを持っているため、 1つ1つのLockを高速に行う必要があったため NoGILで作られた「 PyMutex」型 Objectに必ず存在するPyMutex 78

• 従来の Lock型は 100Byte 程の大きさであり、オブジェクト一つ一つに持たせるには大きかった • PyMutex は 1Byte
というとても小さなデータでロックを表す PyMutex : 軽量なロック機構 79 旧来のLock機構 (Python/thread_pthread.h) 新しい PyMutex (Python/thread_pthread.h)

Lockの待機方法のイメージ 80 Object A Object B Object C Thread X
Thread Y Thread W Thread Z それぞれ Lock をとりたい「Object」という「お店」の前に「Thread」なる「人」が行列をつくる方式ではなく待機列 (人) Object (お店)

Lockの待機方法のイメージ 81 Object A Object B Object C Thread X
Thread Y Thread W Thread Z 駐車場 Object (お店) 駐車場に待機あり駐車場に待機あり駐車場に待機なし席が空いたら駐車場に待っているスレッドに呼び出しが行われるようなイメージ

Lockの待機方法のイメージ (Parking Lot) 82 Object A Object B Object C
Thread X Thread Y Thread W Thread Z 駐車場 Object (お店) 駐車場に待機あり駐車場に待機あり駐車場に待機なし待機列がないものについては何回か (40回)、Lockをとるのを試みる。 Thread V

Lockの待機方法のイメージ (Parking Lot) 83 Object A Object B Object C
Thread X Thread Y Thread W Thread Z 駐車場 Object (お店) 駐車場に待機あり駐車場に待機あり駐車場に待機ありそれでも取れなかったら邪魔になるので駐車場にいく Thread V

Parking Lot アルゴリズム APIと名称は WebKit の WTF::ParkingLot (Web Template Framework)と
Linux の futex API に参考にされてつくられたもの汎用Lockに比べて高速になっており、 Lockを表すサイズも小さい 84 Include/internal/pycore_parking_lot.h

本当はもっともっと語りたい CPython GIL無効化の歴史!!! 85

時間がないのでここまで出てきたキーワードだけ覚えておきましょう 86

• 参照カウントの領域分割 • QSBR • Objectに1つ1つにLock情報 • 軽量Lockの実装 • ParkingLotアルゴリズム
などの力で NoGIL 実現に至りました 87

細かい話から戻りましょう 88

そもそも我々は 89

GIL無効化を手に入れるまでのこの長い歴史の中 90

CPythonで複数CPUの恩恵はうけてこなかったのか？ 91

これまでの高速化技術 1. プロセス生成　 92

NoGIL以前からある高速化技法 1. プロセス生成 93 • multiprocessing.Process・concurrent.futures.ProcessPoolExecutor を使ってプロセスを作る CPython 実行プロセス
Process A Process B プロセス番号が違うので GILが及ばない！プロセスとCPUのアサインについては述べた通り効果的。しかしながら、プロセスはスレッドと違い、データの共有が難しい

NoGIL以前からある高速化技法 1. プロセス生成 94 Uvicorn の例 • FastAPI • Django
Ninja • Starlette などで利用される Web サーバー $ uvicorn project.asgi:application --workers 4 GIL を防ぐためにプロセスを増やして実行されている

これまでの高速化技術 2. マルチCPUに対応したライブラリに任せる　 95

NoGIL以前の高速化 2. マルチコアCPUに対応しているライブラリに任せる 96 • numpy などのライブラリは複数のCPUコアを用いた計算に対応済み • 特に
numpy に至っては、 BLAS・LAPACK といった各 CPU に向けてとてもチューニングされたライブラリが呼び出されており、人力でnumpyの演算より高速に実行することは極めて難しい。 • 劇的にチューニングされているライブラリには頼ったほうがいい

これまでの高速化技術 3. スレッドがI/Oネックを解消してくれていた　 97

NoGIL以前の高速化 3. CPUではなく I/O ネックな処理をスレッドに任せる 98 • あくまでも、 GIL によって並列化できないのは
Python のバイトコード処理 • 裏側の「ネットワーク転送待ち」のような I/O 待ちは GILの影響はなく、裏側で待たれるので、スレッドにする価値がある

最後のテーマ 99

同様の問題を抱える Ruby は GIL にどう対応するのか？ 100

Ruby の GIL 対応は？ 2024.09.26 に Ruby の作者であるまつもとゆきひろ氏は次のように語っている
    Rubyでは静観しようと思っているのには訳があります。AI方面でGILによる問題に直面しているPythonと比較して、Rubyでは重大な問題が発生していないのです。背景の一つとして、 Rubyが利用されているのが、Webアプリケーションの開発が多いことがあります。     引用： https://active.nikkeibp.co.jp/atcl/act/19/00484/080100015/?P=6   101

つまりは Ruby の立場はこういうこと 102 • Ruby = Web 開発向け •
Web 開発向け = I/O 処理ネックになりがち • GILがあっても I/O 処理はスレッドで高速になる • Webサーバーであればプロセスを独立させることもできるので CPUは活かせるということなんだと思います

対して AIや科学技術計算、ロボットなど Web系だけにとらわれない Pythonは？ 103

これらの分野はI/Oというより、本当にCPUがネックになる処理が求められることも多い 104

色々な分野幅広いPythonという特性が NoGIL を求めたのかもしれません 105

我々はNoGILの使われ方の歴史の目撃者なのです一緒にこのPython界隈の今後を楽しみにしましょう 106

107 エンジニア9名しかいません

Pythonスレッドとは結局何なのか？ CPython実装から見るNoGIL時代の変化

Pythonスレッドとは結局何なのか？ CPython実装から見るNoGIL時代の変化

More Decks by curekoshimizu

Other Decks in Programming

Featured

Transcript