Upgrade to Pro — share decks privately, control downloads, hide ads and more …

kanto_kaggler_senkin13

senkin13
September 23, 2023

 kanto_kaggler_senkin13

中国kaggler会&Post GMの振り返り

senkin13

September 23, 2023
Tweet

More Decks by senkin13

Other Decks in Technology

Transcript

  1. Agenda Part 1: 中国Kaggler会 • MGTV(IJCAI) Competition授賞式 • 上海&長沙Kagglerオフ会 •

    中国のリアリティコンペティション番組 Part 2: Post GMの振り返り • 2019年からのコンペ振り返り • Multimodal Single-Cell Integrationコンペのリベンジ • H&M、Otto、KddCupレコメンデーションコンペの連続チャレンジ
  2. First Stage : From Beginer To Expert Competition Public Private

    Shake Medal Zillow’s Home Value Prediction (2018-01-11 ended) 185/3775 203/3775 ⬇28 Bronze Corporación Favorita Grocery Sales Forecasting (2018-01-15 ended) 42/1674 85/1674 ⬇43 Bronze Expert Recruit Restaurant Visitor Forecasting (2018-02-06 ended) 10/2157 760/2157 ⬇750 Mercari Price Suggestion Challenge (2018-02-21 ended) 32/2382 2318/2382 ⬇2286 Toxic Comment Classification Challenge (2018-03-20 ended) 78/4550 82/4550 ⬇4 Silver TalkingData AdTracking Fraud Detection Challenge (2018-05-07 ended) 7/3946 19/3946 ⬇12 Silver
  3. Second Stage : From Master To Solo Gold Competition Public

    Private Shake Medal Avito Demand Prediction Challenge (2018-06-27 ended) 8/1871 9/1871 ⬇1 Gold Master Home Credit Default Risk (2018-08-29 ended) 6/7190 8/7190 ⬇2 Gold Google Analytics Customer Revenue Prediction (2019-02-15 ended) Leak 85/3611 Silver Elo Merchant Category Recommendation (2019-02-26 ended) 3/4127 7/4127 ⬇4 Solo Gold
  4. Third Stage : Keep Going To GrandMaster Competition Public Private

    Shake Medal Santander Customer Transaction Prediction (2019-04-10 ended) 31/8802 24/8802 ⬆7 Gold Jigsaw Unintended Bias in Toxicity Classification (2019-06-27 ended) 30+/3165 Kernel Failed Predicting Molecular Properties (2019-08-28 ended) 15/2749 15/2749 - Gold GM
  5. Forth Stage :Just For Fun Competition Public Private Shake Medal

    2019 Data Science Bowl (2020-01 ended) 133/3493 6/3493 ⬆127 Gold Google Research Football with Manchester City F.C. (2020-12 ended) 9/1138 9/1138 - Gold Riiid Answer Correctness Prediction(2021-01 ended) 18/3395 18/3395 - Silver Cassava Leaf Disease Classification(2021-02 ended) 19/3900 48/3900 ⬇29 Silver
  6. Fifth Stage :Restart to new stage Competition Public Private Shake

    Medal H&M Personalized Fashion Recommendations(2022-05 ended) 1/2952 1/2952 - Winner American Express - Default Prediction 14/4874 86/4874 ⬇72 Silver Open Problems - Multimodal Single-Cell Integration(2022-11 ended) 1/1220 2/1220 ⬇1 2nd place OTTO – Multi-Objective Recommender System(2023-02 ended) 6/2574 2/2574 ⬆4 2nd place
  7. Multimodal Single-Cell Integrationコンペのリベンジ train rows:105942 test rows:55935 Input seq length:

    228942 Target seq length: 23418 train rows:70988 test rows:48663 Input seq length: 22050 Target seq length: 140 • このコンペティションには2つのパー トがある: MultiomeとCITEseqである。 • どちらのパートでも、ベクトル入力が 与えられたときにベクトル予測を行う ことができるモデルが必要である。 • Multiomeでは、変換された数値DNAデ ータを用いて、変換された数値RNAデ ータを予測する必要がある。 • CITEseqでは、変換された数値RNAデ ータを使って変換された数値Proteinデ ータを予測する必要がある。
  8. Multiome Model 1.1 0.8 0.2 … … 2.3 1.4 0.1

    1.1 0.8 0.2 … … 2.3 1.4 0.1 1000 models 1 model 2.1 0.7 0.1 … … 0.4 1.2 0.3 23418 dimensions pca transform(inverse) LightGBM Neural Network 1 model pca transform(inverse) Features for lightgbm Features for neural network 23418 dimensions
  9. Multiom Model Raw Data Centered Log- Ratio (clr) -> tsvd

    -> row- wise zscore predictions -> tsvd - > row-wise zscore Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:600 GussianDropout:0.3 Activation:swish LR:0.001 Optimizer: Adam Loss: Huber Hidden neurons:500 GussianDropout:0.3 Activation:swish LR: 0.001 Optimizer: Adam TF-IDF Data Ridge Kernel Ridge CatBoost LightGBM
  10. Cite Model 1.1 0.8 0.2 … … 2.3 1.4 0.1

    1.1 0.8 0.2 … … 2.3 1.4 0.1 140 models 1 model Features for lightgbm(sparse matrix) Features for neural network Lightgbm Neural Network 140 dimensions 140 dimensions
  11. Raw Data Centered Log-Ratio (clr) -> tsvd -> row- wise

    zscore Customized process - > tsvd & pca -> row- wise zscore Target High correlated features -> row- wise zscore predictions -> tsvd - > row-wise zscore BiGRU Layer Dense Layer Dense Layer Dense Layer Dense Layer BiGRU Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:1800 GussianDropout:0.2 Activation:elu Initializer:Identity LR:0.001 Optimizer: Adam Concatenate:3 hidden layers pseudo labeling Loss: MSE Hidden neurons:1500 GussianDropout:0.1 Activation:swish LR: 0.0005 Optimizer: AdamW Target Zscore pseudo labeling LightGBM
  12. Two-Stage Recommendation System • ステージ1(候補生成)では推薦可能な全ての可能な商品から数百の候補を選択。顧客が興 味のない候補を効率的に除外します。多様な手法を利用することでシステムの安定性の強 化にも寄与します。 • ステージ2 (ランキング)はステージ1で選ばれた候補アイテムをさらに絞り込み、最終的

    な推薦を行います。このステージでは、候補商品と顧客の間のより詳細な関係や特徴を考 慮して、顧客の個人的な嗜好や興味、コンテキスト情報なども考慮して、よりパーソナラ イズされた推薦を行うことができます。このステージは精度改善を優先して、大量な特徴 量エンジニアリング、複雑のモデルを利用する。
  13. 候補生成ステージ – 協調フィルタリング 1970年代から研究されている協調フィルタリング技 術が古い技術だが、洗練されていった結果で非常に 高い確率で当てる。いまでもレコメドシステムの主 流技術です。ここで簡単な例を紹介します。 •顧客:a・b・c・dの4人(dは推薦対象) •商品:1・2・3・4の4種 •顧客購入履歴:a(1,3,4)・b(1,2,3)・c(1,3,4)・d(1)

    •商品同士の共起性(類似度) • 1と2:1回 • 1と3:3回 • 1と4:2回 •dに推薦商品順番 • 3,4,2 さらに高度な技術は重み付け類似度、顧客の購買回 数、商品の購買数、商品同士の購買間隔、 時間減衰 などを重みとして一緒に利用する
  14. 候補生成ステージ – embedding similarity • 協調フィルタリングから派生したembedding技術もた くさん出てきました。コンペ実戦で最も有効性を検証 できた技術三つである。 • 行列因子分解(Matrix

    factorization)の一種である Bayesian Personalized Ranking (BPR)、 • 文章から単語の分散表現を獲得するWord2Vecをレコ メンドシステムに適用した技術のItem2Vec • ユーザノードとアイテムノードからなる2部グラフニ ューラルネットワーク(Graph NeuralNetwork)の一 種であるFast and Scalable Network Representation Learning(ProNE)。 • これらの技術で商品あるいは顧客のembeddingを抽出 して、近傍探索ライブラリ(faiss)で類似度(cosine similarity、euclidean distanceなど)を計算して類似な 候補商品を絞って、従来の協調フィルタリングと一緒 に使うとより高精度の候補生成戦略作れる
  15. ランキングステージ – モデル • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施で きます。 • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。 •

    ランキング学習の場合pair wiseとlist wiseあり、pair wiseは顧客ごと候補商品中の2つ サンプルペアを正しく順序付けできれば結果は正しいランキングになる損失関数を計 算する。 • list wiseは顧客ごと全部の候補商品として良い並び順になっているかどうかを損失関数 を計算します。