Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AutoML パッケージの開発を円滑に進めたい / How to develop AutoML...
Search
Kon
July 19, 2019
Science
1
3.6k
AutoML パッケージの開発を円滑に進めたい / How to develop AutoML package
https://data-engineering.connpass.com/event/136756/
Kon
July 19, 2019
Tweet
Share
More Decks by Kon
See All by Kon
Numerai はいいぞ / An encouragement of Numerai
yohrn
0
2.7k
M5 Forecasting 参加報告 / 143rd place solution of M5 Forecasting Accuracy
yohrn
1
1.3k
AutoML はお好きですか? / 8th place solution of AutoWSL 2019
yohrn
1
3.4k
3rd Place Solution of AutoSpeech 2019
yohrn
0
450
自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019
yohrn
0
920
機械学習の再現性 / Enabling Reproducibility in Machine Learning Workshop
yohrn
9
2.9k
異常検知の評価指標って何を使えばいいの? / Metrics for one-class classification
yohrn
0
6.9k
35th ICML における異常検知に関する論文紹介 / Deep One-Class Classification
yohrn
0
8.2k
機械学習の公平性と解釈可能性 / Fairness, Interpretability, and Explainability Federation of Workshops
yohrn
5
2.6k
Other Decks in Science
See All in Science
All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq
ktatsuya
0
310
[第62回 CV勉強会@関東] Long-CLIP: Unlocking the Long-Text Capability of CLIP / kantoCV 62th ECCV 2024
lychee1223
1
860
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
180
Celebrate UTIG: Staff and Student Awards 2024
utig
0
590
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
240
サイゼミ用因果推論
lw
1
3.2k
Trend Classification of InSAR Displacement Time Series Using SAE–CNN
satai
3
140
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
380
Reconciling Accuracy, Cost, and Latency of Inference Serving Systems
pjamshidi
0
120
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
150
白金鉱業Meetup Vol.16_数理最適化案件のはじめかた・すすめかた
brainpadpr
3
1.4k
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
1.3k
Featured
See All Featured
Writing Fast Ruby
sferik
628
61k
Scaling GitHub
holman
459
140k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.3k
How to Think Like a Performance Engineer
csswizardry
22
1.4k
A designer walks into a library…
pauljervisheath
205
24k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Optimising Largest Contentful Paint
csswizardry
34
3.1k
Designing Experiences People Love
moore
140
23k
Site-Speed That Sticks
csswizardry
4
400
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
Transcript
AutoML パッケージの開発を円滑に進めたい データと ML 周辺エンジニアリングを考える会 #2 Jul 19, 2019
Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 -
) • Researcher • Data Science & Infrastructure Technologies • System Research & Development Center • Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps
約 3 ヶ月,同僚 3 名と以下の大会に参加した April 1, 2019 - July
20, 2019 3 任意のデータセットに対 する予測精度を競う大会 https://www.4paradigm.com/competition/kddcup2019
何故参加したか? AutoML 周辺技術の調査 開発力強化 案件利用 4
本大会の内容は? 入力 • 5 つの表形式データセット • スキーマ,関係等が記載されたファイル(右図) 提出物 • 学習,予測を行うコード
制約 • 計算資源:4 vCPUs (16 GB Memory) • 計算時間:数十分程度 評価指標 • AUROC 5
本大会の課題は? 時系列データの扱い • data leak を予防する方法は? • concept drift に対応する方法は?
複数表の扱い • 一対多,多対多で結ばれる表を結合する方法は? 4 つの型の扱い • cat 型を num 型に変換する方法は? • multi-cat 型を num 型に変換する方法は? • time 型を num 型に変換する方法は? 6
Concept drift とは? データを生成する確率分布が時間経過で変化する現象 • cat 型の場合,新規カテゴリの出現が相当 7 Gama, J.,
et al., "A survey on concept drift adaptation," ACM CSUR, 46(4), p. 44, 2014.
結果は? 計算時間超過で失格… 通過チームは 31/161 パッケージの内容は 懇親会でお話します 8
開発中,問題になったことは? コードが煩雑で,予測精度が低下した際にバグを特定できない 9
どうやってこれらの問題を解決したか? Codecov カバレッジを記録 CircleCI テストを実行 Comet.ml 学習結果を記録 開発者 変更を push/PR
GitHub 外部サービスに通知 テスト及び CV スコアの監視を継続的に行い,バグの混入を早急に察知する 10
何故これらのサービスを採用したか? 環境構築の手間を削減できるため • mlflow は自身でサーバを構築する必要がある private リポジトリに無料利用できるため • Travis CI
は課金する必要がある • Code Climate は private リポジトリに利用できない 11
何を学習結果として記録したか? • commit ID • ブランチ名 • 実行日時 • 計算時間
• 標準出力 • 依存関係 • 学習曲線 • CV スコア • ベストパラメータ • 等 12