Slide 1

Slide 1 text

中国kaggler会&Post GMの 振り返り 詹金 センキン

Slide 2

Slide 2 text

自己紹介 Papa-kaggler Spa、温泉 サッカー観戦、 フットサル 旅行 中国出身、日本在 住15年、kaggle 歴6年

Slide 3

Slide 3 text

Agenda Part 1: 中国Kaggler会 ● MGTV(IJCAI) Competition授賞式 ● 上海&長沙Kagglerオフ会 ● 中国のリアリティコンペティション番組 Part 2: Post GMの振り返り ● 2019年からのコンペ振り返り ● Multimodal Single-Cell Integrationコンペのリベンジ ● H&M、Otto、KddCupレコメンデーションコンペの連続チャレンジ

Slide 4

Slide 4 text

MGTV(IJCAI) Competition授賞式 • MGTV Live配信 • 湖南テレビニュース報道

Slide 5

Slide 5 text

上海&長沙Kaggler会

Slide 6

Slide 6 text

中国のリアリティコンペティション番組 オンライコンペ予選 オフライコンペ決戦 & 番組撮影 面接 & キャラデザイン 優勝チーム:2000万円 Bilibili配信 燃えろ!天才プログラマー

Slide 7

Slide 7 text

2019年からの振り返り 2019/12 2023/09

Slide 8

Slide 8 text

First Stage : From Beginer To Expert Competition Public Private Shake Medal Zillow’s Home Value Prediction (2018-01-11 ended) 185/3775 203/3775 ⬇28 Bronze Corporación Favorita Grocery Sales Forecasting (2018-01-15 ended) 42/1674 85/1674 ⬇43 Bronze Expert Recruit Restaurant Visitor Forecasting (2018-02-06 ended) 10/2157 760/2157 ⬇750 Mercari Price Suggestion Challenge (2018-02-21 ended) 32/2382 2318/2382 ⬇2286 Toxic Comment Classification Challenge (2018-03-20 ended) 78/4550 82/4550 ⬇4 Silver TalkingData AdTracking Fraud Detection Challenge (2018-05-07 ended) 7/3946 19/3946 ⬇12 Silver

Slide 9

Slide 9 text

Second Stage : From Master To Solo Gold Competition Public Private Shake Medal Avito Demand Prediction Challenge (2018-06-27 ended) 8/1871 9/1871 ⬇1 Gold Master Home Credit Default Risk (2018-08-29 ended) 6/7190 8/7190 ⬇2 Gold Google Analytics Customer Revenue Prediction (2019-02-15 ended) Leak 85/3611 Silver Elo Merchant Category Recommendation (2019-02-26 ended) 3/4127 7/4127 ⬇4 Solo Gold

Slide 10

Slide 10 text

Third Stage : Keep Going To GrandMaster Competition Public Private Shake Medal Santander Customer Transaction Prediction (2019-04-10 ended) 31/8802 24/8802 ⬆7 Gold Jigsaw Unintended Bias in Toxicity Classification (2019-06-27 ended) 30+/3165 Kernel Failed Predicting Molecular Properties (2019-08-28 ended) 15/2749 15/2749 - Gold GM

Slide 11

Slide 11 text

Forth Stage :Just For Fun Competition Public Private Shake Medal 2019 Data Science Bowl (2020-01 ended) 133/3493 6/3493 ⬆127 Gold Google Research Football with Manchester City F.C. (2020-12 ended) 9/1138 9/1138 - Gold Riiid Answer Correctness Prediction(2021-01 ended) 18/3395 18/3395 - Silver Cassava Leaf Disease Classification(2021-02 ended) 19/3900 48/3900 ⬇29 Silver

Slide 12

Slide 12 text

Fifth Stage :Restart to new stage Competition Public Private Shake Medal H&M Personalized Fashion Recommendations(2022-05 ended) 1/2952 1/2952 - Winner American Express - Default Prediction 14/4874 86/4874 ⬇72 Silver Open Problems - Multimodal Single-Cell Integration(2022-11 ended) 1/1220 2/1220 ⬇1 2nd place OTTO – Multi-Objective Recommender System(2023-02 ended) 6/2574 2/2574 ⬆4 2nd place

Slide 13

Slide 13 text

Multimodal Single-Cell Integrationコンペのリベンジ train rows:105942 test rows:55935 Input seq length: 228942 Target seq length: 23418 train rows:70988 test rows:48663 Input seq length: 22050 Target seq length: 140 • このコンペティションには2つのパー トがある: MultiomeとCITEseqである。 • どちらのパートでも、ベクトル入力が 与えられたときにベクトル予測を行う ことができるモデルが必要である。 • Multiomeでは、変換された数値DNAデ ータを用いて、変換された数値RNAデ ータを予測する必要がある。 • CITEseqでは、変換された数値RNAデ ータを使って変換された数値Proteinデ ータを予測する必要がある。

Slide 14

Slide 14 text

Multiome Model 1.1 0.8 0.2 … … 2.3 1.4 0.1 1.1 0.8 0.2 … … 2.3 1.4 0.1 1000 models 1 model 2.1 0.7 0.1 … … 0.4 1.2 0.3 23418 dimensions pca transform(inverse) LightGBM Neural Network 1 model pca transform(inverse) Features for lightgbm Features for neural network 23418 dimensions

Slide 15

Slide 15 text

Multiom Model Raw Data Centered Log- Ratio (clr) -> tsvd -> row- wise zscore predictions -> tsvd - > row-wise zscore Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:600 GussianDropout:0.3 Activation:swish LR:0.001 Optimizer: Adam Loss: Huber Hidden neurons:500 GussianDropout:0.3 Activation:swish LR: 0.001 Optimizer: Adam TF-IDF Data Ridge Kernel Ridge CatBoost LightGBM

Slide 16

Slide 16 text

Cite Model 1.1 0.8 0.2 … … 2.3 1.4 0.1 1.1 0.8 0.2 … … 2.3 1.4 0.1 140 models 1 model Features for lightgbm(sparse matrix) Features for neural network Lightgbm Neural Network 140 dimensions 140 dimensions

Slide 17

Slide 17 text

Raw Data Centered Log-Ratio (clr) -> tsvd -> row- wise zscore Customized process - > tsvd & pca -> row- wise zscore Target High correlated features -> row- wise zscore predictions -> tsvd - > row-wise zscore BiGRU Layer Dense Layer Dense Layer Dense Layer Dense Layer BiGRU Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:1800 GussianDropout:0.2 Activation:elu Initializer:Identity LR:0.001 Optimizer: Adam Concatenate:3 hidden layers pseudo labeling Loss: MSE Hidden neurons:1500 GussianDropout:0.1 Activation:swish LR: 0.0005 Optimizer: AdamW Target Zscore pseudo labeling LightGBM

Slide 18

Slide 18 text

レコメンデーションコンペの連続チャレンジ H&M Personalized Fashion Recommendations(2022/05) OTTO – Multi-Objective Recommender System(2023/02) Amazon KDD Cup - Product Recommendation for Underrepresented Languages/Locales (2023/06)

Slide 19

Slide 19 text

Two-Stage Recommendation System • ステージ1(候補生成)では推薦可能な全ての可能な商品から数百の候補を選択。顧客が興 味のない候補を効率的に除外します。多様な手法を利用することでシステムの安定性の強 化にも寄与します。 • ステージ2 (ランキング)はステージ1で選ばれた候補アイテムをさらに絞り込み、最終的 な推薦を行います。このステージでは、候補商品と顧客の間のより詳細な関係や特徴を考 慮して、顧客の個人的な嗜好や興味、コンテキスト情報なども考慮して、よりパーソナラ イズされた推薦を行うことができます。このステージは精度改善を優先して、大量な特徴 量エンジニアリング、複雑のモデルを利用する。

Slide 20

Slide 20 text

候補生成ステージ – ラベリング • H&Mコンペの候補生成の例:すべての顧客に人気Top5の商品を候 補、顧客と商品のペアに対して次の週に実際に購入した商品は正例、 それ以外は負例となる二値ラベルを付与するという方法。

Slide 21

Slide 21 text

候補生成ステージ – 協調フィルタリング 1970年代から研究されている協調フィルタリング技 術が古い技術だが、洗練されていった結果で非常に 高い確率で当てる。いまでもレコメドシステムの主 流技術です。ここで簡単な例を紹介します。 •顧客:a・b・c・dの4人(dは推薦対象) •商品:1・2・3・4の4種 •顧客購入履歴:a(1,3,4)・b(1,2,3)・c(1,3,4)・d(1) •商品同士の共起性(類似度) • 1と2:1回 • 1と3:3回 • 1と4:2回 •dに推薦商品順番 • 3,4,2 さらに高度な技術は重み付け類似度、顧客の購買回 数、商品の購買数、商品同士の購買間隔、 時間減衰 などを重みとして一緒に利用する

Slide 22

Slide 22 text

候補生成ステージ – embedding similarity • 協調フィルタリングから派生したembedding技術もた くさん出てきました。コンペ実戦で最も有効性を検証 できた技術三つである。 • 行列因子分解(Matrix factorization)の一種である Bayesian Personalized Ranking (BPR)、 • 文章から単語の分散表現を獲得するWord2Vecをレコ メンドシステムに適用した技術のItem2Vec • ユーザノードとアイテムノードからなる2部グラフニ ューラルネットワーク(Graph NeuralNetwork)の一 種であるFast and Scalable Network Representation Learning(ProNE)。 • これらの技術で商品あるいは顧客のembeddingを抽出 して、近傍探索ライブラリ(faiss)で類似度(cosine similarity、euclidean distanceなど)を計算して類似な 候補商品を絞って、従来の協調フィルタリングと一緒 に使うとより高精度の候補生成戦略作れる

Slide 23

Slide 23 text

ランキングステージ – 特徴量エンジニアリング • レコメンドシステムの特徴 量は主に3種類あります。 顧客側特徴量、商品側特徴 量、顧客と商品の交互作用 特徴量、とくに交互作用特 徴量が精度改善にポテンシ ャルが高いので、注力する べきです。 • ⇦H&Mコンペのインパクト 上位の特徴量

Slide 24

Slide 24 text

ランキングステージ – モデル • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施で きます。 • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。 • ランキング学習の場合pair wiseとlist wiseあり、pair wiseは顧客ごと候補商品中の2つ サンプルペアを正しく順序付けできれば結果は正しいランキングになる損失関数を計 算する。 • list wiseは顧客ごと全部の候補商品として良い並び順になっているかどうかを損失関数 を計算します。

Slide 25

Slide 25 text

ご清聴ありがとうございました!