データサイエンスコミュニティ LT大会 #1

Pandas3へ向けての依存関係まわりデータサイエンスコミュニティ LT会 #1

自己紹介氏名：三戸鉄也（みとてつや）所属： Wardish合同会社 CEO 社歴：
SIer → 起業（SIer）年齢： 47歳

申込状況： 273/300

Pandasのこれまでのリリース v0.23.0 2018 5/15 2019 2020 2021 2022 2023 2024

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023
2024 v1.1.0 1/29 7/28

2024 v1.1.0 v1.2.0 1/29 7/28 12/26

2024 v1.1.0 v1.2.0 v1.3.0 1/29 7/28 12/26 7/2

2024 v1.1.0 v1.2.0 v1.3.0 v1.4.0 v1.5.0 1/29 7/28 12/26 7/2 1/22 9/19

2024 v1.1.0 v1.2.0 v1.3.0 v1.4.0 v1.5.0 v2.0.0 v2.1.0 v2.2.0 1/29 7/28 12/26 7/2 1/22 9/19 4/3 8/30 1/19

2024 v1.1.0 v1.2.0 v1.3.0 v1.4.0 v1.5.0 v2.0.0 v2.1.0 v2.2.0 1/29 7/28 12/26 7/2 1/22 9/19 4/3 8/30 1/19 半年毎にマイナーバージョンアップ。

2024 v1.1.0 v1.2.0 v1.3.0 v1.4.0 v1.5.0 v2.0.0 v2.1.0 v2.2.0 1/29 7/28 12/26 7/2 1/22 9/19 4/3 8/30 1/19 半年毎にマイナーバージョンアップ。この間は後方互換は保たれる

Pandas3の状況

Pandas3の状況 1．5．3 → 2．0．0 の時も同様だったのでおそらく今年中にリリースされる見込み

Pandas3の依存関係 PyArrow が必須になります。

Pandas3の依存関係 PyArrow が必須になります。いかんのか？

Pandas と PyArrow(Arrow)の関係 2．2．X 系でもライブラリ入れてたら使える。

Pandas と PyArrow(Arrow)の関係 2．2．X 系でもライブラリ入れてたら使える。集計周りのパフォーマンスは大して向上しない。が、文字列の扱いに関してはメモリの利用量が大幅に低減され、処理においても2倍近くパフォーマンスが向上する。

Pandas と PyArrow(Arrow)の関係 2．2．X 系でもライブラリ入れてたら使える。 3．0．0からは文字列はデフォルトで pyarrow の文字列型になります。集計周りのパフォーマンスは大して向上しない。
が、文字列の扱いに関してはメモリの利用量が大幅に低減され、処理においても2倍近くパフォーマンスが向上する。

そもそもPythonって文字列遅いの？ Pythonは文字列をNULL文字で終端するので ASCIIで23byte、Unicodeで48Byteが必ず付与される。（加えてポインタの8Byte） 100文字が100万あるテキストファイルは、およそ100MB。だけど、56Byteが100万追加されてるので、メモリ上では156MB以上を必要とする。短い文字列が大量に存在するときは絶望

Arrow形式だとどうなる？文字列はエンコードされてメモリ上に展開される。（終端なし） int32によるポインタ（32bit or 33bit）が付与されるのみ。短い文字列が大量に存在するときにとても有効 a a a b
b c c c c 0 3 5 9 int32* char*

いつ効く？ read_csvのタイミング。 2.X.X系だとdtype_backend=‘pyarrow’で実現。 ※ engine=‘pyarrow’ だけだとパースがpyarrowになるだけ。

わりと効く object pyarrow 60万件くらいで、文字列多め

Pandas3の依存関係 PyArrow が必須になります。ええやん？

Pandas3の依存関係 PyArrow のライブラリがそんな小さくない 134MB pyarrow

Pandas3の依存関係 PyArrow のライブラリがそんな小さくない 76MB pandas 39MB numpy 37MB numpy.libs 25MB
botocore 16MB pip AWSに使うツール

Pandas3の依存関係 PyArrow のライブラリがそんな小さくない 76MB pandas 39MB numpy 37MB numpy.libs 25MB
botocore 16MB pip AWSに使うツール Serverless環境で動かそうとするとちょっと辛い。 ※ 素のLambdaでは200MBの制限あり。ここに134MB載せるの？

pyarrow-core（シュリンク版pyarrow） Anaconda3では既にシュリンク版の pyarrow-coreを取り込んでいる模様。素のpythonの方に展開されるのはもう少し先になりそう…。

Pandas3の依存関係 PyArrow が必須になります。まあよさげ。

データサイエンスコミュニティ LT大会 #1

データサイエンスコミュニティ LT大会 #1

Tetsuya Mito

More Decks by Tetsuya Mito

Featured

Transcript

Pandas3へ向けての依存関係まわりデータサイエンスコミュニティ LT会 #1

自己紹介氏名：三戸鉄也（みとてつや）所属： Wardish合同会社 CEO 社歴：

申込状況： 273/300

Pandasのこれまでのリリース v0.23.0 2018 5/15 2019 2020 2021 2022 2023 2024

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandasのこれまでのリリース v0.23.0 2018 v1.0.0 5/15 2019 2020 2021 2022 2023

Pandas3の状況

Pandas3の状況 1．5．3 → 2．0．0 の時も同様だったのでおそらく今年中にリリースされる見込み

Pandas3の依存関係 PyArrow が必須になります。

Pandas3の依存関係 PyArrow が必須になります。いかんのか？

Pandas と PyArrow(Arrow)の関係 2．2．X 系でもライブラリ入れてたら使える。

Pandas と PyArrow(Arrow)の関係 2．2．X 系でもライブラリ入れてたら使える。 3．0．0からは文字列はデフォルトで pyarrow の文字列型になります。集計周りのパフォーマンスは大して向上しない。

Arrow形式だとどうなる？文字列はエンコードされてメモリ上に展開される。（終端なし） int32によるポインタ（32bit or 33bit）が付与されるのみ。短い文字列が大量に存在するときにとても有効 a a a b

いつ効く？ read_csvのタイミング。 2.X.X系だとdtype_backend=‘pyarrow’で実現。 ※ engine=‘pyarrow’ だけだとパースがpyarrowになるだけ。

わりと効く object pyarrow 60万件くらいで、文字列多め

Pandas3の依存関係 PyArrow が必須になります。ええやん？

Pandas3の依存関係 PyArrow のライブラリがそんな小さくない 134MB pyarrow

Pandas3の依存関係 PyArrow のライブラリがそんな小さくない 76MB pandas 39MB numpy 37MB numpy.libs 25MB

Pandas3の依存関係 PyArrow のライブラリがそんな小さくない 76MB pandas 39MB numpy 37MB numpy.libs 25MB

pyarrow-core（シュリンク版pyarrow） Anaconda3では既にシュリンク版の pyarrow-coreを取り込んでいる模様。素のpythonの方に展開されるのはもう少し先になりそう…。

Pandas3の依存関係 PyArrow が必須になります。まあよさげ。