kanto_kaggler_senkin13

中国kaggler会&Post GMの振り返り詹金センキン

自己紹介 Papa-kaggler Spa、温泉サッカー観戦、フットサル旅行中国出身、日本在住１5年、kaggle 歴6年

Agenda Part 1: 中国Kaggler会 • MGTV(IJCAI) Competition授賞式 • 上海&長沙Kagglerオフ会 •
中国のリアリティコンペティション番組 Part 2: Post GMの振り返り • 2019年からのコンペ振り返り • Multimodal Single-Cell Integrationコンペのリベンジ • H&M、Otto、KddCupレコメンデーションコンペの連続チャレンジ

MGTV(IJCAI) Competition授賞式 • MGTV Live配信 • 湖南テレビニュース報道

上海&長沙Kaggler会

中国のリアリティコンペティション番組オンライコンペ予選オフライコンペ決戦＆番組撮影面接 & キャラデザイン優勝チーム：2000万円 Bilibili配信
燃えろ！天才プログラマー

2019年からの振り返り 2019/12 2023/09

First Stage : From Beginer To Expert Competition Public Private
Shake Medal Zillow’s Home Value Prediction (2018-01-11 ended) 185/3775 203/3775 ⬇28 Bronze Corporación Favorita Grocery Sales Forecasting (2018-01-15 ended) 42/1674 85/1674 ⬇43 Bronze Expert Recruit Restaurant Visitor Forecasting (2018-02-06 ended) 10/2157 760/2157 ⬇750 Mercari Price Suggestion Challenge (2018-02-21 ended) 32/2382 2318/2382 ⬇2286 Toxic Comment Classification Challenge (2018-03-20 ended) 78/4550 82/4550 ⬇4 Silver TalkingData AdTracking Fraud Detection Challenge (2018-05-07 ended) 7/3946 19/3946 ⬇12 Silver

Second Stage : From Master To Solo Gold Competition Public
Private Shake Medal Avito Demand Prediction Challenge (2018-06-27 ended) 8/1871 9/1871 ⬇1 Gold Master Home Credit Default Risk (2018-08-29 ended) 6/7190 8/7190 ⬇2 Gold Google Analytics Customer Revenue Prediction (2019-02-15 ended) Leak 85/3611 Silver Elo Merchant Category Recommendation (2019-02-26 ended) 3/4127 7/4127 ⬇4 Solo Gold

Third Stage : Keep Going To GrandMaster Competition Public Private
Shake Medal Santander Customer Transaction Prediction (2019-04-10 ended) 31/8802 24/8802 ⬆7 Gold Jigsaw Unintended Bias in Toxicity Classification (2019-06-27 ended) 30+/3165 Kernel Failed Predicting Molecular Properties (2019-08-28 ended) 15/2749 15/2749 － Gold GM

Forth Stage :Just For Fun Competition Public Private Shake Medal
2019 Data Science Bowl (2020-01 ended) 133/3493 6/3493 ⬆127 Gold Google Research Football with Manchester City F.C. (2020-12 ended) 9/1138 9/1138 － Gold Riiid Answer Correctness Prediction(2021-01 ended) 18/3395 18/3395 － Silver Cassava Leaf Disease Classification(2021-02 ended) 19/3900 48/3900 ⬇29 Silver

Fifth Stage :Restart to new stage Competition Public Private Shake
Medal H&M Personalized Fashion Recommendations(2022-05 ended) 1/2952 1/2952 － Winner American Express - Default Prediction 14/4874 86/4874 ⬇72 Silver Open Problems - Multimodal Single-Cell Integration(2022-11 ended) 1/1220 2/1220 ⬇1 2nd place OTTO – Multi-Objective Recommender System(2023-02 ended) 6/2574 2/2574 ⬆4 2nd place

Multimodal Single-Cell Integrationコンペのリベンジ train rows:105942 test rows:55935 Input seq length:
228942 Target seq length: 23418 train rows:70988 test rows:48663 Input seq length: 22050 Target seq length: 140 • このコンペティションには2つのパートがある： MultiomeとCITEseqである。 • どちらのパートでも、ベクトル入力が与えられたときにベクトル予測を行うことができるモデルが必要である。 • Multiomeでは、変換された数値DNAデータを用いて、変換された数値RNAデータを予測する必要がある。 • CITEseqでは、変換された数値RNAデータを使って変換された数値Proteinデータを予測する必要がある。

Multiome Model 1.1 0.8 0.2 … … 2.3 1.4 0.1
1.1 0.8 0.2 … … 2.3 1.4 0.1 1000 models 1 model 2.1 0.7 0.1 … … 0.4 1.2 0.3 23418 dimensions pca transform(inverse) LightGBM Neural Network 1 model pca transform(inverse) Features for lightgbm Features for neural network 23418 dimensions

Multiom Model Raw Data Centered Log- Ratio (clr) -> tsvd
-> row- wise zscore predictions -> tsvd - > row-wise zscore Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:600 GussianDropout:0.3 Activation:swish LR:0.001 Optimizer: Adam Loss: Huber Hidden neurons:500 GussianDropout:0.3 Activation:swish LR: 0.001 Optimizer: Adam TF-IDF Data Ridge Kernel Ridge CatBoost LightGBM

Cite Model 1.1 0.8 0.2 … … 2.3 1.4 0.1
1.1 0.8 0.2 … … 2.3 1.4 0.1 140 models 1 model Features for lightgbm(sparse matrix) Features for neural network Lightgbm Neural Network 140 dimensions 140 dimensions

Raw Data Centered Log-Ratio (clr) -> tsvd -> row- wise
zscore Customized process - > tsvd & pca -> row- wise zscore Target High correlated features -> row- wise zscore predictions -> tsvd - > row-wise zscore BiGRU Layer Dense Layer Dense Layer Dense Layer Dense Layer BiGRU Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:1800 GussianDropout:0.2 Activation:elu Initializer:Identity LR:0.001 Optimizer: Adam Concatenate:3 hidden layers pseudo labeling Loss: MSE Hidden neurons:1500 GussianDropout:0.1 Activation:swish LR: 0.0005 Optimizer: AdamW Target Zscore pseudo labeling LightGBM

レコメンデーションコンペの連続チャレンジ H&M Personalized Fashion Recommendations(2022/05) OTTO – Multi-Objective Recommender System(2023/02)
Amazon KDD Cup - Product Recommendation for Underrepresented Languages/Locales (2023/06)

Two-Stage Recommendation System • ステージ1（候補生成）では推薦可能な全ての可能な商品から数百の候補を選択。顧客が興味のない候補を効率的に除外します。多様な手法を利用することでシステムの安定性の強化にも寄与します。 • ステージ2 （ランキング）はステージ1で選ばれた候補アイテムをさらに絞り込み、最終的
な推薦を行います。このステージでは、候補商品と顧客の間のより詳細な関係や特徴を考慮して、顧客の個人的な嗜好や興味、コンテキスト情報なども考慮して、よりパーソナライズされた推薦を行うことができます。このステージは精度改善を優先して、大量な特徴量エンジニアリング、複雑のモデルを利用する。

候補生成ステージ – ラベリング • H&Mコンペの候補生成の例：すべての顧客に人気Top5の商品を候補、顧客と商品のペアに対して次の週に実際に購入した商品は正例、それ以外は負例となる二値ラベルを付与するという方法。

候補生成ステージ – 協調フィルタリング 1970年代から研究されている協調フィルタリング技術が古い技術だが、洗練されていった結果で非常に高い確率で当てる。いまでもレコメドシステムの主流技術です。ここで簡単な例を紹介します。 •顧客：a・b・c・dの4人(dは推薦対象) •商品：1・2・3・4の4種 •顧客購入履歴：a(1,3,4)・b(1,2,3)・c(1,3,4)・d(1)
•商品同士の共起性（類似度） • 1と2：1回 • 1と3：3回 • 1と4：2回 •dに推薦商品順番 • 3,4,2 さらに高度な技術は重み付け類似度、顧客の購買回数、商品の購買数、商品同士の購買間隔、時間減衰などを重みとして一緒に利用する

候補生成ステージ – embedding similarity • 協調フィルタリングから派生したembedding技術もたくさん出てきました。コンペ実戦で最も有効性を検証できた技術三つである。 • 行列因子分解（Matrix
factorization）の一種である Bayesian Personalized Ranking (BPR)、 • 文章から単語の分散表現を獲得するWord2Vecをレコメンドシステムに適用した技術のItem2Vec • ユーザノードとアイテムノードからなる2部グラフニューラルネットワーク（Graph NeuralNetwork）の一種であるFast and Scalable Network Representation Learning(ProNE)。 • これらの技術で商品あるいは顧客のembeddingを抽出して、近傍探索ライブラリ(faiss)で類似度(cosine similarity、euclidean distanceなど)を計算して類似な候補商品を絞って、従来の協調フィルタリングと一緒に使うとより高精度の候補生成戦略作れる

ランキングステージ – 特徴量エンジニアリング • レコメンドシステムの特徴量は主に3種類あります。顧客側特徴量、商品側特徴量、顧客と商品の交互作用特徴量、とくに交互作用特徴量が精度改善にポテンシ
ャルが高いので、注力するべきです。 • ⇦H&Mコンペのインパクト上位の特徴量

ランキングステージ – モデル • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施できます。 • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。 •
ランキング学習の場合pair wiseとlist wiseあり、pair wiseは顧客ごと候補商品中の２つサンプルペアを正しく順序付けできれば結果は正しいランキングになる損失関数を計算する。 • list wiseは顧客ごと全部の候補商品として良い並び順になっているかどうかを損失関数を計算します。

ご清聴ありがとうございました!

kanto_kaggler_senkin13

kanto_kaggler_senkin13

senkin13

More Decks by senkin13

Other Decks in Technology

Featured

Transcript

中国kaggler会&Post GMの振り返り詹金センキン

自己紹介 Papa-kaggler Spa、温泉サッカー観戦、フットサル旅行中国出身、日本在住１5年、kaggle 歴6年

Agenda Part 1: 中国Kaggler会 • MGTV(IJCAI) Competition授賞式 • 上海&長沙Kagglerオフ会 •

MGTV(IJCAI) Competition授賞式 • MGTV Live配信 • 湖南テレビニュース報道

上海&長沙Kaggler会

中国のリアリティコンペティション番組オンライコンペ予選オフライコンペ決戦＆番組撮影面接 & キャラデザイン優勝チーム：2000万円 Bilibili配信

2019年からの振り返り 2019/12 2023/09

First Stage : From Beginer To Expert Competition Public Private

Second Stage : From Master To Solo Gold Competition Public

Third Stage : Keep Going To GrandMaster Competition Public Private

Forth Stage :Just For Fun Competition Public Private Shake Medal

Fifth Stage :Restart to new stage Competition Public Private Shake

Multimodal Single-Cell Integrationコンペのリベンジ train rows:105942 test rows:55935 Input seq length:

Multiome Model 1.1 0.8 0.2 … … 2.3 1.4 0.1

Multiom Model Raw Data Centered Log- Ratio (clr) -> tsvd

Cite Model 1.1 0.8 0.2 … … 2.3 1.4 0.1

Raw Data Centered Log-Ratio (clr) -> tsvd -> row- wise

レコメンデーションコンペの連続チャレンジ H&M Personalized Fashion Recommendations(2022/05) OTTO – Multi-Objective Recommender System(2023/02)

候補生成ステージ – embedding similarity • 協調フィルタリングから派生したembedding技術もたくさん出てきました。コンペ実戦で最も有効性を検証できた技術三つである。 • 行列因子分解（Matrix

ランキングステージ – 特徴量エンジニアリング • レコメンドシステムの特徴量は主に3種類あります。顧客側特徴量、商品側特徴量、顧客と商品の交互作用特徴量、とくに交互作用特徴量が精度改善にポテンシ

ランキングステージ – モデル • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施できます。 • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。 •

ご清聴ありがとうございました!