Single-domain ドメイン(サービス)ごとのログで学習している。 IDが多い場合、モデルを分ける必要があるので Multi-domainは困難。 Batch prediction cold user/itemのために再学習が必要。定期的に バッチ学習・推論を行う。 Hi Cost 定期的にドメインごとにモデルを学習している。 User Vector User Tower User Features Item Vector Item Tower Item Features Contrastive Loss
Filtering 14 UIECF User Log Item Content DNN ID-based Model Item Encoder Large Content Model Stage 1 Stage 2 User Vector Item Vector Item Vector Targetとして利用 CB2CF: A Neural Multiview Content-to-Collaborative Filtering Model for Completely Cold Item Recommendations https://arxiv.org/abs/1611.00384
Filtering 15 UIECF User Log Item Content History Item Vectors DNN ID-based Model User Encoder Large User Model Item Encoder Large Content Model Stage 1 Stage 2 Stage 3 User Vector Item Vector Item Vector User Vector Targetとして利用
and Item Embedding models to Collaborative Filtering 16 UIECF User Vector (ID-based) Item Vector (CB2CF) Transformer Encoder Pooling Layer er I 1 er I 2 er I 3 er I 4 er I 5 er I 6 er O 1 er O 2 er O 3 er O 4 er O 5 er O 6 er U Regression Loss
Filtering 17 UIECF Item Content History Item Vectors User Encoder Large User Model Item Encoder Large Content Model Stage 2 Stage 3 Item Vector User Vector 推論時には、Content Model, User Modelを利用。これにより、Cold Item/Userへの推論が可能となり、 再学習が不要となる。
→ Ray • 大規模モデルの分散学習 → DeepSpeed • 計算環境: A100 PCIe x 1 or A100 SXM4 x 8 19 学習環境 User Log Item Content Apache Spark Ray DeepSpeed Trained Model Feature Extraction Last-mile Preprocessing Distributed Training