Slide 26
Slide 26 text
Spark dataframe to pandas dataframe
• 對某張 spark dataframe 先做 repartition 後再 toPandas
• 資料表約 1,000 萬筆資料,33個欄位
• Repartition 數量分別試了 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,50,100,500, 1000, 5000, 10000, 100000
26
Repartition 數 執行結果 時間
38(Default) 成功 1.2 mins
1-5 Executor Lost Failure
6-10 成功 1.5 - 2.5 mins
50-10000 成功 0.8 - 1.1 mins
100000 成功 2 mins
為什麼明明是操作同樣的資料表,
有些 partition 數會失敗,有些可以加速?