Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ前処理のお作法 ワークフローの高速化編_Macromill - Dec, 2019
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ryota Mori
December 06, 2019
Programming
0
1.5k
データ前処理のお作法 ワークフローの高速化編_Macromill - Dec, 2019
2019年12月6日の「第9回 Alteryx User Group in 東京」で共有したTips
https://alteryx-ug.connpass.com/event/151757/
Ryota Mori
December 06, 2019
Tweet
Share
Other Decks in Programming
See All in Programming
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
480
ノイジーネイバー問題を解決する 公平なキューイング
occhi
0
110
SourceGeneratorのススメ
htkym
0
200
FOSDEM 2026: STUNMESH-go: Building P2P WireGuard Mesh Without Self-Hosted Infrastructure
tjjh89017
0
180
今から始めるClaude Code超入門
448jp
8
9.1k
生成AIを使ったコードレビューで定性的に品質カバー
chiilog
1
280
AgentCoreとHuman in the Loop
har1101
5
250
React 19でつくる「気持ちいいUI」- 楽観的UIのすすめ
himorishige
11
7.5k
AI & Enginnering
codelynx
0
120
Lambda のコードストレージ容量に気をつけましょう
tattwan718
0
150
コントリビューターによるDenoのすゝめ / Deno Recommendations by a Contributor
petamoriken
0
210
Fluid Templating in TYPO3 14
s2b
0
130
Featured
See All Featured
How to make the Groovebox
asonas
2
1.9k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
エンジニアに許された特別な時間の終わり
watany
106
230k
Making Projects Easy
brettharned
120
6.6k
Claude Code のすすめ
schroneko
67
210k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
120
30 Presentation Tips
portentint
PRO
1
230
Six Lessons from altMBA
skipperchong
29
4.2k
ラッコキーワード サービス紹介資料
rakko
1
2.3M
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
740
Side Projects
sachag
455
43k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Transcript
データ前処理のお作法 ワークフローの高速化編 Alteryx User Group in Tokyo – Dec, 2019
Ryota Mori Manager Product Development Unit Group2 Digital Product Department
© Macromill, Inc. 2 Tipsの前に
© Macromill, Inc. 3 速く処理できると何が嬉しい? 手戻りが怖くない 試行錯誤がたくさんできる データの品質向上や、 より多くの知見を得ることに繋がる 処理中の物忘れが減る
無用なミスが削減される 同じお作法を元にフローが 作成できる 迷わずさくさくフローが構築できる メンバーの作るフローが標準化される (引継ぎコスト削減、他人が作成した フローの意図が読みやすい) 1 2 3
Alteryxのワークフロー実行を高速化するTips
© Macromill, Inc. 5 とりあえずIn-DBを活用する • データがDBにあれば極力In-DBで処理 • DBサーバーで処理済みのデータが Alteryxを実行している環境に
DLされるのでネットワークが ボトルネックになりづらい • DBにないデータも、定期的に DBに格納しておけない?を 考慮しましょう 通常のワークフロー In-DBを活用したワークフロー 処理前の比較的大きい状態にアクセスする DB側で処理済みの比較的小さい状態にアクセスする DB
© Macromill, Inc. 6 Input Dataをyxdb形式にしておく • インプットファイルが非常に大きいケースで有効なことがある • データ更新が高頻度で、それを随時反映しなければいけないケースには向かない
(運用を考える)
© Macromill, Inc. 7 入力データを制限する • フローを構築中はデータ読み込みの量を制限すると効率よくフロー作成ができる (ツールを配置/設定したあとに実行して意図通り動いているか確認する) • 入力データがyxdb
or DBのときに効果的に働きやすい • 最後に制限を解除することを忘れない
© Macromill, Inc. 8 ツールの順番 ツールの順番を入れ替えても同じ結果が得られる場合、 その順番を意識しているでしょうか?
© Macromill, Inc. 9 ツールの順番 ユニオン セレクト フィルタ 集計 フォーミュラ
転置/クロスタブ 結合 同じ処理を複数のところでさせない 適切な型はデータサイズ削減につながる セレクトの後にして使いまわししやすく • データのサイズを小さくできる処理を序盤 に持って行く • 時間のかかる処理はデータを十分に小さく してから処理する 考え方のベース
© Macromill, Inc. 10 ツールの順番 ユニオン セレクト フィルタ 集計 フォーミュラ
転置/クロスタブ 結合 実行後にデータが小さくなる処理 実行に時間がかかる処理
© Macromill, Inc. 11 ツールの順番 セレクトツールで適切に型を指定するとファイルサイズが大きく削減される
© Macromill, Inc. 12 ツールの順番 • 1億レコードのSample – Superstoreで 実行速度を比較してみた
• 環境やツールの設定によって処理速度は 異なるが、概ねこのような傾向がある
© Macromill, Inc. 13 閲覧ツールを無効化する
© Macromill, Inc. 14 パフォーマンスを記録してボトルネックを探る
© Macromill, Inc. 15 フロー作成も高速化する
© Macromill, Inc. 16 ツールをお気に入りに入れておく • 不要なものは逆に削除しておく • 定期的な見直しをする
© Macromill, Inc. 17