Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AutoML パッケージの開発を円滑に進めたい / How to develop AutoML...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kon
July 19, 2019
Science
1
3.7k
AutoML パッケージの開発を円滑に進めたい / How to develop AutoML package
https://data-engineering.connpass.com/event/136756/
Kon
July 19, 2019
Tweet
Share
More Decks by Kon
See All by Kon
Numerai はいいぞ / An encouragement of Numerai
yohrn
0
3.2k
M5 Forecasting 参加報告 / 143rd place solution of M5 Forecasting Accuracy
yohrn
1
1.5k
AutoML はお好きですか? / 8th place solution of AutoWSL 2019
yohrn
1
3.5k
3rd Place Solution of AutoSpeech 2019
yohrn
0
500
自然言語処理初心者が AutoNLP に挑戦した話 / 8th place solution of AutoNLP 2019
yohrn
0
980
機械学習の再現性 / Enabling Reproducibility in Machine Learning Workshop
yohrn
9
3.1k
異常検知の評価指標って何を使えばいいの? / Metrics for one-class classification
yohrn
0
7.3k
35th ICML における異常検知に関する論文紹介 / Deep One-Class Classification
yohrn
0
9.4k
機械学習の公平性と解釈可能性 / Fairness, Interpretability, and Explainability Federation of Workshops
yohrn
5
2.6k
Other Decks in Science
See All in Science
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
960
DMMにおけるABテスト検証設計の工夫
xc6da
1
1.6k
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1.1k
データベース14: B+木 & ハッシュ索引
trycycle
PRO
0
680
SpatialRDDパッケージによる空間回帰不連続デザイン
saltcooky12
0
190
HDC tutorial
michielstock
1
580
人生を変えた一冊「独学大全」のはなし / Self-study ENCYCLOPEDIA: The Book Which Change My Life #独学大全 #EM推し本
expajp
0
130
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
PRO
0
220
次代のデータサイエンティストへ~スキルチェックリスト、タスクリスト更新~
datascientistsociety
PRO
3
32k
白金鉱業Vol.21【初学者向け発表枠】身近な例から学ぶ数理最適化の基礎 / Learning the Basics of Mathematical Optimization Through Everyday Examples
brainpadpr
1
670
Accelerating operator Sinkhorn iteration with overrelaxation
tasusu
0
240
タンパク質間相互作⽤を利⽤した⼈⼯知能による新しい薬剤遺伝⼦-疾患相互作⽤の同定
tagtag
PRO
0
180
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
160
Automating Front-end Workflow
addyosmani
1370
200k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
92
Six Lessons from altMBA
skipperchong
29
4.2k
Chasing Engaging Ingredients in Design
codingconduct
0
150
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
500
AI: The stuff that nobody shows you
jnunemaker
PRO
3
470
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.5k
Statistics for Hackers
jakevdp
799
230k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
340
Transcript
AutoML パッケージの開発を円滑に進めたい データと ML 周辺エンジニアリングを考える会 #2 Jul 19, 2019
Yu Ohori (a.k.a. Kon) NS Solutions Corporation (Apr 2017 -
) • Researcher • Data Science & Infrastructure Technologies • System Research & Development Center • Technology Bureau @Y_oHr_N @Y-oHr-N #SemiSupervisedLearning #AnomalyDetection #DataOps
約 3 ヶ月,同僚 3 名と以下の大会に参加した April 1, 2019 - July
20, 2019 3 任意のデータセットに対 する予測精度を競う大会 https://www.4paradigm.com/competition/kddcup2019
何故参加したか? AutoML 周辺技術の調査 開発力強化 案件利用 4
本大会の内容は? 入力 • 5 つの表形式データセット • スキーマ,関係等が記載されたファイル(右図) 提出物 • 学習,予測を行うコード
制約 • 計算資源:4 vCPUs (16 GB Memory) • 計算時間:数十分程度 評価指標 • AUROC 5
本大会の課題は? 時系列データの扱い • data leak を予防する方法は? • concept drift に対応する方法は?
複数表の扱い • 一対多,多対多で結ばれる表を結合する方法は? 4 つの型の扱い • cat 型を num 型に変換する方法は? • multi-cat 型を num 型に変換する方法は? • time 型を num 型に変換する方法は? 6
Concept drift とは? データを生成する確率分布が時間経過で変化する現象 • cat 型の場合,新規カテゴリの出現が相当 7 Gama, J.,
et al., "A survey on concept drift adaptation," ACM CSUR, 46(4), p. 44, 2014.
結果は? 計算時間超過で失格… 通過チームは 31/161 パッケージの内容は 懇親会でお話します 8
開発中,問題になったことは? コードが煩雑で,予測精度が低下した際にバグを特定できない 9
どうやってこれらの問題を解決したか? Codecov カバレッジを記録 CircleCI テストを実行 Comet.ml 学習結果を記録 開発者 変更を push/PR
GitHub 外部サービスに通知 テスト及び CV スコアの監視を継続的に行い,バグの混入を早急に察知する 10
何故これらのサービスを採用したか? 環境構築の手間を削減できるため • mlflow は自身でサーバを構築する必要がある private リポジトリに無料利用できるため • Travis CI
は課金する必要がある • Code Climate は private リポジトリに利用できない 11
何を学習結果として記録したか? • commit ID • ブランチ名 • 実行日時 • 計算時間
• 標準出力 • 依存関係 • 学習曲線 • CV スコア • ベストパラメータ • 等 12