PyData.Fukuoka#6_LT_slide

前処理するとき便利だからよく  pandas.DataFrame.apply(lambda)  使っちゃうけど遅いから本当は  pandas.Series.map()  使った方がいいと思う  PyData.Fukuoka #6  LT  @shinpsan 

自己紹介  下積みの父@shinpsan  小売業のデータサイエンティスト（12月まで。年明け転職します）  MENSA会員  合同会社ocojoで副業    twitter :   仕事
:   特技:  趣味:    

話すこと  タイトルに書いたことが全てです。  pandasの基本的なところなのでみんな知ってる内容かも。    知ってる方はヒマだと思うので、心の中で  「シカ」って１０回言った後、  「サンタクロースが乗っているのは？」に答えてて下さい 

背景  クソみたいなデータ渡されたと文句言いながら、  いつもクソみたいなコード書いてることを反省。   

再現データ  ラベル営業時間値1 値2 値3 • 1ファイルにつき何個か値が格納されたファイルが大量にある •
それを集めてきて１つのテーブルにしたもの • ラベルが元のファイル名

やりたいこと（持っていきたい方向）  店舗の営業時間体系ごとの  • 三角おにぎり  • パックおにぎり  • 寿司  のラベルをつけて集計とか  可視化とかいろいろ 

再現データ    ラベル営業時間値1 値2 値3 • おにぎり、寿司、パックおにぎり判別はラベルの文字列から可能
• 営業時間は9~21時 or 24時間営業

クソみたいなところ①  ラベル営業時間値1 値2 値3 ラベルの文字列の長さがバラバラ

クソみたいなところ②  ラベル営業時間値1 値2 値3 おにぎり、寿司の判別は文字列の先頭パックおにぎりの判別は文字列の最後

クソみたいなところ③  ラベル営業時間値1 値2 値3 ラベルに区切り文字とか入って無い

手順1  ラベル営業時間値1 値2 値3 ラベル列の各行に関して、先頭7文字が”ONIGIRI” かどうか、先頭5文字が”SUSHI”
かどうか、最後4文字が”pack” かどうか判別

手順2  ラベル営業時間値1 値2 値3 営業時間列の各行に関して、 “9-21” or “24h”
判別

手順3  ラベル営業時間値1 値2 値3 手順1,2の判別を元に新たなラベル列作成新ラベルおにぎり_9-21
おにぎり_24h ・・・

ここで本題  どんな処理書く？  • for + iterrows()  • df.apply()  • Series.map() 

①for i, row in {pd.DataFrame}.iterrow():  ラベル営業時間値1 値2 値3
データフレームの１行１行に対してループ処理処理 ↓ 処理 ↓ 処理 ↓ 処理 ↓ 処理 ↓

①for i, row in {pd.DataFrame}.iterrow(): 

②{pd.DataFrame}.apply(lambda x: {})  ラベル営業時間値1 値2 値3 データフレームの各行に対して同じ処理を一括適応
lambda x のxには各行が１行のDFにみたいにして渡される x[“ラベル”]みたいにして使うとこ選べる ✖ 処理 ✖ 処理 ✖ 処理 ✖ 処理 ✖ 処理

②{pd.DataFrame}.apply(lambda x: {}) 

③{pd.Series}.map(lambda x: {})  ラベル ✖ 処理 ✖ 処理 ✖ 処理
✖ 処理 ✖ 処理 Seriesの各要素に対して同じ処理を一括適応

③{pd.Series}.map(lambda x: {}) 

実行速度比較　１万行まで  iterrowsだと１万行のデータで 1~2秒かかるデータの行数処理にかかった時間

実行速度比較　10万行まで  df.apply()だと10万行のデータで ~2秒かかる

実行速度比較　1000万行まで  Series.map()だと1000万行のデータで約5秒かかる

まとめ  ただの肌感ですが、jupyterで分析してて、  そこまで気にならない待ち時間は2秒くらい  • for + iterrows 1万行  • df.apply
10万行  • Series.map 400万行  まぁ、結論としてループは使わない。  df.apply()は何も考えずに記述できるけど遅いから、  Series.map()でやる方がいいですね。 

enjoy!  答え：そり(トナカイには乗っていない) 

PyData.Fukuoka#6_LT_slide

PyData.Fukuoka#6_LT_slide

shinpsan

More Decks by shinpsan

Other Decks in Programming

Featured

Transcript

前処理するとき便利だからよく  pandas.DataFrame.apply(lambda)  使っちゃうけど遅いから本当は  pandas.Series.map()  使った方がいいと思う  PyData.Fukuoka #6  LT  @shinpsan

自己紹介  下積みの父@shinpsan  小売業のデータサイエンティスト（12月まで。年明け転職します）  MENSA会員  合同会社ocojoで副業    twitter :   仕事

背景  クソみたいなデータ渡されたと文句言いながら、  いつもクソみたいなコード書いてることを反省。

再現データ  ラベル営業時間値1 値2 値3 • 1ファイルにつき何個か値が格納されたファイルが大量にある •

やりたいこと（持っていきたい方向）  店舗の営業時間体系ごとの  • 三角おにぎり  • パックおにぎり  • 寿司  のラベルをつけて集計とか  可視化とかいろいろ

再現データ    ラベル営業時間値1 値2 値3 • おにぎり、寿司、パックおにぎり判別はラベルの文字列から可能

クソみたいなところ①  ラベル営業時間値1 値2 値3 ラベルの文字列の長さがバラバラ

クソみたいなところ②  ラベル営業時間値1 値2 値3 おにぎり、寿司の判別は文字列の先頭パックおにぎりの判別は文字列の最後

クソみたいなところ③  ラベル営業時間値1 値2 値3 ラベルに区切り文字とか入って無い

手順1  ラベル営業時間値1 値2 値3 ラベル列の各行に関して、先頭7文字が”ONIGIRI” かどうか、先頭5文字が”SUSHI”

手順2  ラベル営業時間値1 値2 値3 営業時間列の各行に関して、 “9-21” or “24h”

手順3  ラベル営業時間値1 値2 値3 手順1,2の判別を元に新たなラベル列作成新ラベルおにぎり_9-21

ここで本題  どんな処理書く？  • for + iterrows()  • df.apply()  • Series.map()

①for i, row in {pd.DataFrame}.iterrow():  ラベル営業時間値1 値2 値3

①for i, row in {pd.DataFrame}.iterrow():

②{pd.DataFrame}.apply(lambda x: {})  ラベル営業時間値1 値2 値3 データフレームの各行に対して同じ処理を一括適応

②{pd.DataFrame}.apply(lambda x: {})

③{pd.Series}.map(lambda x: {})  ラベル ✖ 処理 ✖ 処理 ✖ 処理

③{pd.Series}.map(lambda x: {})

実行速度比較　１万行まで  iterrowsだと１万行のデータで 1~2秒かかるデータの行数処理にかかった時間

実行速度比較　10万行まで  df.apply()だと10万行のデータで ~2秒かかる

実行速度比較　1000万行まで  Series.map()だと1000万行のデータで約5秒かかる

まとめ  ただの肌感ですが、jupyterで分析してて、  そこまで気にならない待ち時間は2秒くらい  • for + iterrows 1万行  • df.apply

enjoy!  答え：そり(トナカイには乗っていない)