atmaCup_5__review-meeting.pdf

atmaCup#5 Review Meeting 2020/06/14 @atmaCup

Hello! 山口貴大 twitter @nyker_goto atma(アートマ)株式会社取締役 / DS / ふろんと
/ ばっくえんど / いんふら京都大学大学院最適化数理卒 SGDが好き Kaggle Master kaggle.com/nyk510 2

もくじ 1. コンペ設計の話 2. Solutionまとめ 3. LT 3

あらすじ @oyorocoさん・@hattan0523さんの「光の機械学習」スラックにいつの間にか招待されていた面白いデータができたらコンペしたいですね〜と話をしていて面白いデータができた(らしい)ので開催に 4

データのおさらい • 光学装置の実験結果を推定する2値分類 > 発光が共振器にうまくマッチしたものを，機械学習を使って効率的に探し出すことが今回の問題です．利用データ • 実験条件座標・レーザー波長など •
発光スペクトルデータ (観測ごと512次元の数値ベクトル) 5

コンペ開催に必要な要件データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 評価指標とprivate/publicの分割 • 実際の実験に即した評価・分割になっている?
• 相関が取れている? 6

どんなデータを提供すれば良い? 波形データをどの段階のものを渡すか (元データは1つだけではない) • 発光スペクトルに加工する前の生データ • ピークカットした1次元情報 • … フィッティング情報を与えるかどうか
• 作るのに時間がかかる。できれば使わないほうが嬉しい 7

どんなデータを提供すれば良い? 各フェーズの波形 (+ﬁtting ありなし)でモデリングをして予測ができるかどうかのチェック意外と波形だけでも予測できそうなことがわかり一安心 8

9 しかし!

10 @oyorocoさん、結果を見ているうちに気がついてしまう

11 「これ target 間違ってませんかね ?」

12 これ target 間違ってませんかね ? 何が間違いかさっぱりわからん ……

[解説] Target間違っている問題 ※アノテーションする作業ではバイアスがかかる (chipごとに数を揃えたい、などなど) • 機械学習で予測された確率のほうがバイアスなく公平に判断されていて、こちらが正しいと思えるケースが出現。なお僕には判断不能。 @oyorocoさんに再アノテーションを頼む (開催1週間前)
(もちろんモデル再作成. ) 性能も安定。一安心。 13

Target間違っている問題 ※アノテーションする作業ではバイアスがかかる (chipごとに数を揃えたい、などなど) • 機械学習で予測された確率のほうがバイアスなく公平に判断されていて、こちらが正しいと思えるケースが出現。なお僕には判断不能。やましたさんに再アノテーションを頼む (開催1週間前) (もちろんモデル再作成.
) 性能も安定。一安心。 14 まだおわりません。

まだ終わらない! 飽くなき探求「面白いデータ」にしたいという思いが強すぎて、開催前日に新しいデータを作成 & 再々モデリング • ぎりぎり検証が間に合う(当日15:00頃) • 結局このデータを実際に使用しています
データ準備は計画的に。 15

コンペ開催に必要な要件データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 評価指標とprivate/publicの分割 • 相関が取れている?
16 データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 評価指標とprivate/publicの分割 • 相関が取れている?

train/testの分割コンペで終わらせない、実応用を考えた設計をしたい応用上新しい chip で予測性能が高いモデルがほしい • ChipIDで分割するのがよさ気 • しかし chip
ID ごとに特性がかなり違う • 適当に選ぶと train/test でどえらい乖離する → 良さそうな組み合わせを手で選んで全部解いて検証 17

コンペ開催に必要な要件データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 18 データ •
どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 評価指標とprivate/publicの分割 • 実際の実験に即した評価・分割になっている? • 相関が取れている?

Private/Publicの分割理想… Chip IDで分割, だが流石に乖離が激しい緩和… 同じchipでの実験を増やした時にスコアが良いモデルが選ばれるようにしたい実験をしても target
の割合が一定になるとは限らないので target では分割したくない → Chip IDごとのサンプル数が一定になるような分割を採用 19

Private/Publicの分割 > 相関確認多様性が出るような構成でモデルをいくつか作成 CV/public/privateの相関を確認 • 特徴量11set (ﬁtting/スペクトル統計量/CNN Embedding/...) •
RF/XGBoost/LightGBM(seed averaging)/1DCNN • 上記のアンサンブル + XGBoost/LightGBM/Ridgeによる stacking • CV: Group(by chipid)/Stratiﬁed/Random 20

21 こんな感じでモデルの予測値を plot して相関を見ていました。ちなみに • Random • Chip Stratify
(chipごとのサンプル数が同数になるような分割) • Target Stratify のうち最もprivate/publicの相関が取れないのは target stratify でした。意外。 Private Public Public Private ChipId Stratifed Split Random Split

評価指標の選定 private/publicの相関で言うとloglossが圧倒的に良いが「できるだけPOSデータを見逃したくない」という応用時の要望を優先最終的にPR-AUCを採用。 (1週間と短いので問題自体に集中できるようF1-betaなど閾値が必要な指標は見送り) 22

まとめみんなが楽しく課題に集中できて結果が応用時に使えるような課題設計を考えていました。 23

24 さいごに

企画中です atmaCup #6

THANKS! Arigato Gozaimashita !! 26

atmaCup_5__review-meeting.pdf

atmaCup_5__review-meeting.pdf

Yamaguchi Takahiro

More Decks by Yamaguchi Takahiro

Other Decks in Technology

Featured

Transcript

atmaCup#5 Review Meeting 2020/06/14 @atmaCup

Hello! 山口貴大 twitter @nyker_goto atma(アートマ)株式会社取締役 / DS / ふろんと

もくじ 1. コンペ設計の話 2. Solutionまとめ 3. LT 3

あらすじ @oyorocoさん・@hattan0523さんの「光の機械学習」スラックにいつの間にか招待されていた面白いデータができたらコンペしたいですね〜と話をしていて面白いデータができた(らしい)ので開催に 4

データのおさらい • 光学装置の実験結果を推定する2値分類 > 発光が共振器にうまくマッチしたものを，機械学習を使って効率的に探し出すことが今回の問題です．利用データ • 実験条件座標・レーザー波長など •

コンペ開催に必要な要件データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 評価指標とprivate/publicの分割 • 実際の実験に即した評価・分割になっている?

どんなデータを提供すれば良い? 波形データをどの段階のものを渡すか (元データは1つだけではない) • 発光スペクトルに加工する前の生データ • ピークカットした1次元情報 • … フィッティング情報を与えるかどうか

どんなデータを提供すれば良い? 各フェーズの波形 (+ﬁtting ありなし)でモデリングをして予測ができるかどうかのチェック意外と波形だけでも予測できそうなことがわかり一安心 8

9 しかし!

10 @oyorocoさん、結果を見ているうちに気がついてしまう

11 「これ target 間違ってませんかね ?」

12 これ target 間違ってませんかね ? 何が間違いかさっぱりわからん ……

まだ終わらない! 飽くなき探求「面白いデータ」にしたいという思いが強すぎて、開催前日に新しいデータを作成 & 再々モデリング • ぎりぎり検証が間に合う(当日15:00頃) • 結局このデータを実際に使用しています

コンペ開催に必要な要件データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 評価指標とprivate/publicの分割 • 相関が取れている?

train/testの分割コンペで終わらせない、実応用を考えた設計をしたい応用上新しい chip で予測性能が高いモデルがほしい • ChipIDで分割するのがよさ気 • しかし chip

コンペ開催に必要な要件データ • どんなデータを提供すれば面白くかつ意味がある? train/testの分割 • 応用時に使えるモデルが選ばれる切り方? 18 データ •

Private/Publicの分割理想… Chip IDで分割, だが流石に乖離が激しい緩和… 同じchipでの実験を増やした時にスコアが良いモデルが選ばれるようにしたい実験をしても target

Private/Publicの分割 > 相関確認多様性が出るような構成でモデルをいくつか作成 CV/public/privateの相関を確認 • 特徴量11set (ﬁtting/スペクトル統計量/CNN Embedding/...) •

21 こんな感じでモデルの予測値を plot して相関を見ていました。ちなみに • Random • Chip Stratify

まとめみんなが楽しく課題に集中できて結果が応用時に使えるような課題設計を考えていました。 23

24 さいごに

企画中です atmaCup #6

THANKS! Arigato Gozaimashita !! 26