Pythonでデータ処理を行うとき、pandasやpolarsのようなライブラリ群を使う人は多いと思います。また、これらのライブラリにこだわらずPythonスクリプト「効率よくスケールさせたい」、「定期的に動かしたい」と考えたことはありませんか?
データ量が増えてくると様々なケースで「もっと自動化して効率よく処理したい」という壁にぶつかることがよくあります。
そんなときに役立つのが、Dask、Ray、Prefectなどの「分散処理」や「ワークフロー管理」に関わる様々な分散フレームワークたちです。
しかしながら、これらのフレームワークは数がありすぎて「どれがどんなときに向いているのか」が分かりづらいのも事実です。
このトークでは、複数のPythonで利用可能な分散処理フレームワークの特徴を比較します。Pythonのコードをスケーラブルに・効率的に動かすための方法について紹介します。Ray、Prefect、Dask、Restateなどの他、用途別にどのような選択肢があり、何を基準に選べば良いのかを整理し、「とりあえずDask?」「Rayって何?」といった疑問を持つPythonユーザーのために、「選び方」を共有します。