Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting)...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Hiroki Yamaoka
June 23, 2022
Science
460
1
Share
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting) 3rd Place Solution
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting)の表彰式での3位解法プレゼン資料です。
Hiroki Yamaoka
June 23, 2022
Other Decks in Science
See All in Science
Conversation is the New Dashboard: 属人性を排除する第4世代BIツールの勢力図
shomaekawa
1
570
(メタ)科学コミュニケーターからみたAI for Scienceの同床異夢
rmaruy
0
220
ITTF卓球世界ランキングのポイント比を用いた試合結果予測モデルの性能評価 / Performance evaluation of match result prediction models using the point ratio of the ITTF Table Tennis World Ranking
konakalab
0
130
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
120
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.5k
Distributional Regression
tackyas
0
520
人生を変えた一冊「独学大全」のはなし / Self-study ENCYCLOPEDIA: The Book Which Change My Life #独学大全 #EM推し本
expajp
0
160
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
170
凸最適化からDC最適化まで
santana_hammer
1
390
20260220 OpenIDファウンデーション・ジャパン ご紹介 / 20260220 OpenID Foundation Japan Intro
oidfj
0
340
共生概念の整理と AIアライメントの構想
hiroakihamada
0
200
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
250
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Believing is Seeing
oripsolob
1
130
YesSQL, Process and Tooling at Scale
rocio
174
15k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
Deep Space Network (abreviated)
tonyrice
0
150
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
270
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
920
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
130
Crafting Experiences
bethany
1
160
Documentation Writing (for coders)
carmenintech
77
5.3k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
The SEO identity crisis: Don't let AI make you average
varn
0
470
Transcript
SIGNATE ソニーグループ合同データ分析コンペティション(for Recruiting) 3rd Place Solution
⾃⼰紹介 Ø名前:yayaya Ø関⻄学院⼤学⼤学院 M2 Ø興味:データベース×機械学習(NLP) ØMLコンペが最近の趣味(Kaggle Amexに参戦中) twitter
今回の結果 n 実は5位で上位の失格or辞退で繰り上げ3位(賞品が実⽤的なヘッドフォンになって少し嬉しい) Private LBの順位
今回のコンペで難しいと感じた所 n 時系列データなのに、過去や未来の特徴量があまり効かない n 配布データの特徴量の種類が少ない(⼤気物質濃度+気象情報は実質9種) 以上を踏まえて今回上位に⾷い込むには… Øtargetであるpm25_midをリークをしないように時間的・空間的にうまく 集約することがキモのひとつだったと思います 空間
時間
使⽤したモデルとCV Strategy モデルは⼀貫してLightGBMを使⽤ n Model:LightGBM(seed averagingの結果を提出) n Split:GroupKfold(group=City, n_splits=10)
Ø StratifiedGroupKfold(label=Country,group=City,n_splits=10)でも良かった n CV:20.54 Public LB:20.06 Private LB:20.05
作成した特徴量 n target以外 Ø 配布データそのまま(カテゴリ変数はlabel encoding) Ø mid min
maxの同⼀特徴量内での差分(ex. 〇〇_mid - 〇〇_min) Ø 各特徴量のmidをSavitzky-Golay Filteringで平滑化した特徴量,さらに1次微分と2次微分のlag特徴量 Ø 各特徴量のzero or not Ø CityとCountry単位での観測地の数と観測回数(個⼈的推し) Ø co,no2,so2の内どれが最⼤かを表すカテゴリ変数 Ø City間の距離 n targetの集約 Ø 各Countryのpm25_midをdate,month,year単位で各種統計量に集約 Ø 各Cityからの距離がk近傍内にあるCityのpm25_midを各種統計量で集約 Ø 各Cityからの⼀定距離内にあるCityのpm25_midを各種統計量で集約 p targetの真値とtargetの予測値の差分の絶対値をlightgbmで予測し,その予測値を特徴量に 次スライドで⼀部をもう少し詳しく説明
⼀定範囲内のtargetを集約 ⼀定距離で集約 (100mile毎に1000mileまで) 近傍で集約 (4近傍から15近傍まで) n 空間的に近い都市は似たpm25_mid値であるはず(空間近接性) Ø 2種類の集約⽅法を採⽤
-> Private LBが約0.3改善
targetの差分予測特徴量の作成 真のpm25_mid pm25_midの予測値 予測 差分の絶対値 予測 差分の絶対値の予測値 Private LB
0.06改善 n 気持ち的にはpm25_midの外れ値度合いを表せる これによりtestにも 差分特徴量が作成できる
個⼈的推し特徴量 City&Country単位での観測地の数と観測回数(Private LBが約0.03改善) ① 国の経済活動が⼤きいと⼤気汚染が問題になりがち ② ⼤気汚染が問題になる国は環境問題を改善するために積極的に観測を⾏うはず ①はGDPや⼈⼝など外部データで考慮できるが、使わずに②も考慮できるのではないかと思い、 やってみたら実際少し改善したので個⼈的に⼀番テンション上がった
運営さんがデータを加⼯する段階で⼈為的に観測地や観測値を削除していた等の場合、仮説が成り⽴たず、 仮説通りに効いたかの真偽は不明…(効いたのでヨシ!!) 観測地マップ
Optunaによるハイパラ探索 n OptunaのLightGBMTunerCVで主要なハイパラを探索 num_leavesを⼤きくとるとかなり効いた (RMSEがPrivate LBで0.05改善)
今回改善に寄与しなかった取り組みの⼀部 ※あくまで⾃分の環境では効かなかっただけなので無駄という意味ではないです n ガウス過程回帰による空間上のtarget分布の推定 n kmeansで推定したクラスタでtargetを集約(空間類似性) n ⼀定範囲内のtarget以外の特徴量の集約 例:クラスタ数20でクラスタリング
Best Private Scoreの推移 コンペ初⽇4/13 rmse=20.85 6/1 rmse=20.04 約1ヶ⽉熟成 22
submissions 67submissions
反省点 n コンペ終了までTOP1~4位ぐらいまで圧倒的スコアだったので、 軽微な改善を後回しにしていたのが今回の敗因 ØStacking等のモデルアンサンブル Ø外れ値除去等の丁寧な前処理 最後まで何が起こるか分からないのでやれること些細なことでも 時間があるならやっておくべきという教訓を得た
最後に 競ってくれた参加者の⽅々と、⾯⽩いコンペの開催と 運営をしてくださったSignateの⽅々に感謝いたします。 ありがとうございました!!!