Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ前処理のお作法 ワークフローの高速化編_Macromill - Dec, 2019

Avatar for Ryota Mori Ryota Mori
December 06, 2019

データ前処理のお作法 ワークフローの高速化編_Macromill - Dec, 2019

2019年12月6日の「第9回 Alteryx User Group in 東京」で共有したTips
https://alteryx-ug.connpass.com/event/151757/

Avatar for Ryota Mori

Ryota Mori

December 06, 2019
Tweet

Other Decks in Programming

Transcript

  1. データ前処理のお作法 ワークフローの高速化編 Alteryx User Group in Tokyo – Dec, 2019

    Ryota Mori Manager Product Development Unit Group2 Digital Product Department
  2. © Macromill, Inc. 3 速く処理できると何が嬉しい? 手戻りが怖くない 試行錯誤がたくさんできる データの品質向上や、 より多くの知見を得ることに繋がる 処理中の物忘れが減る

    無用なミスが削減される 同じお作法を元にフローが 作成できる 迷わずさくさくフローが構築できる メンバーの作るフローが標準化される (引継ぎコスト削減、他人が作成した フローの意図が読みやすい) 1 2 3
  3. © Macromill, Inc. 5 とりあえずIn-DBを活用する • データがDBにあれば極力In-DBで処理 • DBサーバーで処理済みのデータが Alteryxを実行している環境に

    DLされるのでネットワークが ボトルネックになりづらい • DBにないデータも、定期的に DBに格納しておけない?を 考慮しましょう 通常のワークフロー In-DBを活用したワークフロー 処理前の比較的大きい状態にアクセスする DB側で処理済みの比較的小さい状態にアクセスする DB
  4. © Macromill, Inc. 9 ツールの順番 ユニオン セレクト フィルタ 集計 フォーミュラ

    転置/クロスタブ 結合 同じ処理を複数のところでさせない 適切な型はデータサイズ削減につながる セレクトの後にして使いまわししやすく • データのサイズを小さくできる処理を序盤 に持って行く • 時間のかかる処理はデータを十分に小さく してから処理する 考え方のベース
  5. © Macromill, Inc. 10 ツールの順番 ユニオン セレクト フィルタ 集計 フォーミュラ

    転置/クロスタブ 結合 実行後にデータが小さくなる処理 実行に時間がかかる処理
  6. © Macromill, Inc. 12 ツールの順番 • 1億レコードのSample – Superstoreで 実行速度を比較してみた

    • 環境やツールの設定によって処理速度は 異なるが、概ねこのような傾向がある