Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
kanto_kaggler_senkin13
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
senkin13
September 23, 2023
Technology
2.8k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
kanto_kaggler_senkin13
中国kaggler会&Post GMの振り返り
senkin13
September 23, 2023
More Decks by senkin13
See All by senkin13
kansai-kaggler-senkin13.pdf
senkin13
3
2.8k
atmaCup #16 in collaboration with RECRUIT 2nd place solution
senkin13
1
370
Other Decks in Technology
See All in Technology
【NRUG vol.18】なぜ多くのオブザーバビリティ導入は失敗するのか
nrug_member
0
120
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.9k
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.3k
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
960
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
570
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
310
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
970
連合学習と機密コンピューティング
lycorptech_jp
PRO
0
110
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
170
人材育成分科会.pdf
_awache
3
170
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
950
攻撃者視点で考えるDetection Engineering
cryptopeg
3
1.7k
Featured
See All Featured
Speed Design
sergeychernyshev
33
1.8k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
420
Embracing the Ebb and Flow
colly
88
5.1k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
BBQ
matthewcrist
89
10k
HDC tutorial
michielstock
2
710
KATA
mclloyd
PRO
35
15k
Technical Leadership for Architectural Decision Making
baasie
3
410
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
Transcript
中国kaggler会&Post GMの 振り返り 詹金 センキン
自己紹介 Papa-kaggler Spa、温泉 サッカー観戦、 フットサル 旅行 中国出身、日本在 住15年、kaggle 歴6年
Agenda Part 1: 中国Kaggler会 • MGTV(IJCAI) Competition授賞式 • 上海&長沙Kagglerオフ会 •
中国のリアリティコンペティション番組 Part 2: Post GMの振り返り • 2019年からのコンペ振り返り • Multimodal Single-Cell Integrationコンペのリベンジ • H&M、Otto、KddCupレコメンデーションコンペの連続チャレンジ
MGTV(IJCAI) Competition授賞式 • MGTV Live配信 • 湖南テレビニュース報道
上海&長沙Kaggler会
中国のリアリティコンペティション番組 オンライコンペ予選 オフライコンペ決戦 & 番組撮影 面接 & キャラデザイン 優勝チーム:2000万円 Bilibili配信
燃えろ!天才プログラマー
2019年からの振り返り 2019/12 2023/09
First Stage : From Beginer To Expert Competition Public Private
Shake Medal Zillow’s Home Value Prediction (2018-01-11 ended) 185/3775 203/3775 ⬇28 Bronze Corporación Favorita Grocery Sales Forecasting (2018-01-15 ended) 42/1674 85/1674 ⬇43 Bronze Expert Recruit Restaurant Visitor Forecasting (2018-02-06 ended) 10/2157 760/2157 ⬇750 Mercari Price Suggestion Challenge (2018-02-21 ended) 32/2382 2318/2382 ⬇2286 Toxic Comment Classification Challenge (2018-03-20 ended) 78/4550 82/4550 ⬇4 Silver TalkingData AdTracking Fraud Detection Challenge (2018-05-07 ended) 7/3946 19/3946 ⬇12 Silver
Second Stage : From Master To Solo Gold Competition Public
Private Shake Medal Avito Demand Prediction Challenge (2018-06-27 ended) 8/1871 9/1871 ⬇1 Gold Master Home Credit Default Risk (2018-08-29 ended) 6/7190 8/7190 ⬇2 Gold Google Analytics Customer Revenue Prediction (2019-02-15 ended) Leak 85/3611 Silver Elo Merchant Category Recommendation (2019-02-26 ended) 3/4127 7/4127 ⬇4 Solo Gold
Third Stage : Keep Going To GrandMaster Competition Public Private
Shake Medal Santander Customer Transaction Prediction (2019-04-10 ended) 31/8802 24/8802 ⬆7 Gold Jigsaw Unintended Bias in Toxicity Classification (2019-06-27 ended) 30+/3165 Kernel Failed Predicting Molecular Properties (2019-08-28 ended) 15/2749 15/2749 - Gold GM
Forth Stage :Just For Fun Competition Public Private Shake Medal
2019 Data Science Bowl (2020-01 ended) 133/3493 6/3493 ⬆127 Gold Google Research Football with Manchester City F.C. (2020-12 ended) 9/1138 9/1138 - Gold Riiid Answer Correctness Prediction(2021-01 ended) 18/3395 18/3395 - Silver Cassava Leaf Disease Classification(2021-02 ended) 19/3900 48/3900 ⬇29 Silver
Fifth Stage :Restart to new stage Competition Public Private Shake
Medal H&M Personalized Fashion Recommendations(2022-05 ended) 1/2952 1/2952 - Winner American Express - Default Prediction 14/4874 86/4874 ⬇72 Silver Open Problems - Multimodal Single-Cell Integration(2022-11 ended) 1/1220 2/1220 ⬇1 2nd place OTTO – Multi-Objective Recommender System(2023-02 ended) 6/2574 2/2574 ⬆4 2nd place
Multimodal Single-Cell Integrationコンペのリベンジ train rows:105942 test rows:55935 Input seq length:
228942 Target seq length: 23418 train rows:70988 test rows:48663 Input seq length: 22050 Target seq length: 140 • このコンペティションには2つのパー トがある: MultiomeとCITEseqである。 • どちらのパートでも、ベクトル入力が 与えられたときにベクトル予測を行う ことができるモデルが必要である。 • Multiomeでは、変換された数値DNAデ ータを用いて、変換された数値RNAデ ータを予測する必要がある。 • CITEseqでは、変換された数値RNAデ ータを使って変換された数値Proteinデ ータを予測する必要がある。
Multiome Model 1.1 0.8 0.2 … … 2.3 1.4 0.1
1.1 0.8 0.2 … … 2.3 1.4 0.1 1000 models 1 model 2.1 0.7 0.1 … … 0.4 1.2 0.3 23418 dimensions pca transform(inverse) LightGBM Neural Network 1 model pca transform(inverse) Features for lightgbm Features for neural network 23418 dimensions
Multiom Model Raw Data Centered Log- Ratio (clr) -> tsvd
-> row- wise zscore predictions -> tsvd - > row-wise zscore Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:600 GussianDropout:0.3 Activation:swish LR:0.001 Optimizer: Adam Loss: Huber Hidden neurons:500 GussianDropout:0.3 Activation:swish LR: 0.001 Optimizer: Adam TF-IDF Data Ridge Kernel Ridge CatBoost LightGBM
Cite Model 1.1 0.8 0.2 … … 2.3 1.4 0.1
1.1 0.8 0.2 … … 2.3 1.4 0.1 140 models 1 model Features for lightgbm(sparse matrix) Features for neural network Lightgbm Neural Network 140 dimensions 140 dimensions
Raw Data Centered Log-Ratio (clr) -> tsvd -> row- wise
zscore Customized process - > tsvd & pca -> row- wise zscore Target High correlated features -> row- wise zscore predictions -> tsvd - > row-wise zscore BiGRU Layer Dense Layer Dense Layer Dense Layer Dense Layer BiGRU Layer Dense Layer NN 1 NN 2 Loss: Cosine similarity Hidden neurons:1800 GussianDropout:0.2 Activation:elu Initializer:Identity LR:0.001 Optimizer: Adam Concatenate:3 hidden layers pseudo labeling Loss: MSE Hidden neurons:1500 GussianDropout:0.1 Activation:swish LR: 0.0005 Optimizer: AdamW Target Zscore pseudo labeling LightGBM
レコメンデーションコンペの連続チャレンジ H&M Personalized Fashion Recommendations(2022/05) OTTO – Multi-Objective Recommender System(2023/02)
Amazon KDD Cup - Product Recommendation for Underrepresented Languages/Locales (2023/06)
Two-Stage Recommendation System • ステージ1(候補生成)では推薦可能な全ての可能な商品から数百の候補を選択。顧客が興 味のない候補を効率的に除外します。多様な手法を利用することでシステムの安定性の強 化にも寄与します。 • ステージ2 (ランキング)はステージ1で選ばれた候補アイテムをさらに絞り込み、最終的
な推薦を行います。このステージでは、候補商品と顧客の間のより詳細な関係や特徴を考 慮して、顧客の個人的な嗜好や興味、コンテキスト情報なども考慮して、よりパーソナラ イズされた推薦を行うことができます。このステージは精度改善を優先して、大量な特徴 量エンジニアリング、複雑のモデルを利用する。
候補生成ステージ – ラベリング • H&Mコンペの候補生成の例:すべての顧客に人気Top5の商品を候 補、顧客と商品のペアに対して次の週に実際に購入した商品は正例、 それ以外は負例となる二値ラベルを付与するという方法。
候補生成ステージ – 協調フィルタリング 1970年代から研究されている協調フィルタリング技 術が古い技術だが、洗練されていった結果で非常に 高い確率で当てる。いまでもレコメドシステムの主 流技術です。ここで簡単な例を紹介します。 •顧客:a・b・c・dの4人(dは推薦対象) •商品:1・2・3・4の4種 •顧客購入履歴:a(1,3,4)・b(1,2,3)・c(1,3,4)・d(1)
•商品同士の共起性(類似度) • 1と2:1回 • 1と3:3回 • 1と4:2回 •dに推薦商品順番 • 3,4,2 さらに高度な技術は重み付け類似度、顧客の購買回 数、商品の購買数、商品同士の購買間隔、 時間減衰 などを重みとして一緒に利用する
候補生成ステージ – embedding similarity • 協調フィルタリングから派生したembedding技術もた くさん出てきました。コンペ実戦で最も有効性を検証 できた技術三つである。 • 行列因子分解(Matrix
factorization)の一種である Bayesian Personalized Ranking (BPR)、 • 文章から単語の分散表現を獲得するWord2Vecをレコ メンドシステムに適用した技術のItem2Vec • ユーザノードとアイテムノードからなる2部グラフニ ューラルネットワーク(Graph NeuralNetwork)の一 種であるFast and Scalable Network Representation Learning(ProNE)。 • これらの技術で商品あるいは顧客のembeddingを抽出 して、近傍探索ライブラリ(faiss)で類似度(cosine similarity、euclidean distanceなど)を計算して類似な 候補商品を絞って、従来の協調フィルタリングと一緒 に使うとより高精度の候補生成戦略作れる
ランキングステージ – 特徴量エンジニアリング • レコメンドシステムの特徴 量は主に3種類あります。 顧客側特徴量、商品側特徴 量、顧客と商品の交互作用 特徴量、とくに交互作用特 徴量が精度改善にポテンシ
ャルが高いので、注力する べきです。 • ⇦H&Mコンペのインパクト 上位の特徴量
ランキングステージ – モデル • レコメンドシステムは二値分類とランキング学習(Learning-To-Rank)どちらでも実施で きます。 • 二値分類の場合point wiseと呼ばれて1つのサンプルから損失関数を計算する。 •
ランキング学習の場合pair wiseとlist wiseあり、pair wiseは顧客ごと候補商品中の2つ サンプルペアを正しく順序付けできれば結果は正しいランキングになる損失関数を計 算する。 • list wiseは顧客ごと全部の候補商品として良い並び順になっているかどうかを損失関数 を計算します。
ご清聴ありがとうございました!