DEIM 2019 楽天技術研究所の研究とケーススタディ（推薦システム）/deim2019_rakuten

DEIM 2019 楽天技術研究所の研究とケーススタディ（推薦システム）楽天株式会社楽天技術研究所中村翔 March 5th, 2019

2 About me… 中村翔（なかむらしょう） 2018年10⽉ – :
楽天技術研究所インテリジェンスドメイン応⽤⾏動分析チーム 2012年 – : ビッグデータ部検索プラットフォームの開発（社内複数サービスに共通の基盤を提供）特に⾔語処理やクエリ周り、ランキングなどの精度改善⼤学・⼤学院時代：東⼤航空宇宙⼯学超⼩型⼈⼯衛星（まだ⾶んでない）を作ったり、ローバー⾛らせたり研究室OGの⼭崎直⼦宇宙⾶⾏⼠

4 楽天のサービス

5 楽天のサービス楽天のサービスを使ったことがある⽅？

6 楽天のサービス楽天のサービスを２つ以上使ったことあるという⽅？

7 楽天のサービス楽天のサービスを？？以上使ったことあるという⽅？

8 楽天のサービス 69.2% (3Q/18) クロスユース率（２つ以上）楽天ポイントクラブ, https://point.rakuten.co.jp/, 2019/2/22

9 拡⼤する楽天経済圏楽天のサービス楽天経済圏

10 拡⼤する楽天経済圏楽天のサービス楽天経済圏＜拡⼤を続けるビッグデータ＞購買データ（楽天市場, カード, Edy, …）
メンバーシップデータ（年齢, 性別, ）製品データ（タイトル, ジャンル, 価格, ブランド, …）⾦融資産データ（銀⾏, 証券, …）位置情報データ（カード, Edy, R-Pay, …）閲覧履歴データ（楽天市場, トラベル, …）など

11 Rakuten Institute of Technology （楽天技術研究所） • Established in 2006.
森正弥 Global Head of RIT 楽天グループにおける戦略的R&D組織

12 世界６箇所に160名以上の研究者が在籍 TOKYO SINGAPORE PARIS BOSTON SAN MATEO BENGALURU (BANGALORE)
2018 NEW! 2018 NEW!

13 楽天技術研究所の研究分野インターネットの成⻑に合わせて構成された３つの研究ドメイン Reality Intelligence Power • HCI •
VR / AR / MixedReality • 画像処理 • ロボティクス • HPC • プログラミング言語 • 機械学習 • 深層学習 • 自然言語処理 • データマイニング

14 楽天技術研究所の研究分野インターネットの成⻑に合わせて構成された３つの研究ドメイン Reality Intelligence Power • HCI •
VR / AR / MixedReality • 画像処理 • ロボティクス • HPC • プログラミング言語 • 機械学習 • 深層学習 • 自然言語処理 • データマイニング

15 インテリジェンスドメインのミッション機械学習とデータマイニングにより楽天のビジネスの成⻑を促進 ABテスト最適化 AI クーポンの頒布最適化推薦システム経済予測・需要予測レビュー分析異常・不正検知
製品データ分析顧客ターゲティング

16 インテリジェンスドメインのミッション機械学習とデータマイニングにより楽天のビジネスの成⻑を促進 ABテスト最適化 AI クーポンの頒布最適化推薦システム経済予測・需要予測レビュー分析異常・不正検知
製品データ分析顧客ターゲティング

17 取り組み中のケーススタディ推薦システム

18 Recommender Challenge for Viki (動画サービス) 2015’ Rakuten Viki, https://www.viki.com/videos/219471v-alice-in-wonderland,
2019/2/28

19 Recommender Challenge for Viki (動画サービス) 2015’ Rakuten Viki, https://www.viki.com/videos/219471v-alice-in-wonderland,
2019/2/28 ユーザ Gradient Boosting Decision Tree レコメンデーションスコア動画特徴量 ~500

20 分散表現による推薦アルゴリズム The Quick Brown Fox Jumps Over The Lazy
Dog … Embedding ⽂書の単語列購買履歴の商品ID列アナロジー 0.2 0.4 0.0 … 0.8 0.7 0.0 0.1 … 0.2 単語の分散表現 0.3 0.8 1.0 … 0.2 0.9 0.0 0.1 … 1.0 商品IDの分散表現オリジナルの Word2Vec t ⽂⽅向

21 位置情報を利⽤した推薦 Centroid Shop coordinates Boundary Step 1 : 利⽤した店舗の散布図
Step 4 : 推薦店舗の作成 Step 2 : 重⼼推定、境界線描画 Step 3 : 域内全店舗の取得

22 推薦システムの研究、あるいは開発をやっている⽅？

23 様々な推薦システムコンテンツ(内容) ベースコンテンツのメタデータとそれに対するユーザの好みの情報を利⽤して推薦候補を作成協調フィルタリングモデルベース
⾏列分解などにより、評価値⾏列の未知の値を予測メモリ (近傍) ベースユーザベースユーザの評価値や⾏動履歴を利⽤して推薦候補を作成ユーザの類似度を元に計算アイテムベースアイテムの類似度を元に計算問題設定：あるユーザに対してn個の購買につながりそうなアイテムを推薦する

24 協調フィルタリングとコンテンツベースのアルゴリズム協調フィルタリングの⼊⼒（評価値⾏列）コンテンツベースの⼊⼒（メタデータ） 2 5 3 3 2 4
? 2 0 0 1 0 1 1 0 1 1 0 0 1 0 1 1 0 ⾷品果物・スイーツ 0-1000円 1000円以上ジャンル価格ユーザアイテムアイテムコンテンツ属性データ

? 2 0 0 1 0 1 1 0 1 1 0 0 1 0 1 1 0 ⾷品果物・スイーツ 0-1000円 1000円以上ジャンル価格ユーザアイテムコンテンツ属性データアイテム

27 サービスの事例 1 1 1 1 ユーザアイテムデジタルコンテンツサービス新規アイテム
数100件/⽇新規アイテムの売上の⽐率: ⼤対象：特徴： AKB 48 ⽇向坂 46 乃⽊坂 46 欅坂 46

28 サービスの事例デジタルコンテンツサービス新規アイテム数100件/⽇新規アイテムの売上の⽐率: ⼤協調フィルタリング： 1 1
1 1 推薦に含められない全アイテムデータ: 96520件教師データ中のアイテム: 59497件ユーザとアイテムのインタラクションが必要対象：特徴：ユーザアイテム新規アイテムやインタラクションのないアイテムがそのままでは推薦できない精度の⾯で不利コンテンツベース： AKB 48 ⽇向坂 46 乃⽊坂 46 欅坂 46

29 サービスの事例 1 1 1 1 推薦に含められないコールドスタート問題として知られる全アイテムデータ:
96520件教師データ中のアイテム: 59497件 AKB 48 ⽇向坂 46 乃⽊坂 46 欅坂 46 ユーザアイテムデジタルコンテンツサービス新規アイテム数100件/⽇新規アイテムの売上の⽐率: ⼤対象：特徴：

30 コールドスタート問題への対応コンテンツ(内容) ベースコンテンツのメタデータとそれに対するユーザの好みの情報を利⽤して推薦候補を作成協調フィルタリングモデルベース
⾏列分解などにより、評価値⾏列の未知の値を予測メモリ (近傍) ベースユーザベースユーザの評価値や⾏動履歴を利⽤して推薦候補を作成ユーザの類似度を元に計算アイテムベースアイテムの類似度を元に計算

31 コールドスタート問題への対応協調フィルタリングモデルベース⾏列分解などにより、評価値⾏列の未知の値を予測メモリ (近傍)
ベースユーザベースユーザの評価値や⾏動履歴を利⽤して推薦候補を作成ユーザの類似度を元に計算アイテムベースアイテムの類似度を元に計算コンテンツ(内容) ベースコンテンツのメタデータとそれに対するユーザの好みの情報を利⽤して推薦候補を作成ハイブリッドアルゴリズム（e.g. 協調＋コンテンツ）

32 いくつかの⼿法 – Collaborative Topic Regression (CTR) [Wang+ 2011] 協調フィルタ
リング: コンテンツベース: r u v I J σr σu σv w N M K z θ φ MF LDA α β r u v I J w K z φ θ N λu λv β α ⾏列因⼦分解 Matrix Factorization (MF) Latent Dirichlet Allocation (LDA) アイテムのメタデータを考慮して⾏列因⼦分解(MF)を⼀般化 LDAと同様EMベースで計算が遅い計算速度を改善したものに Collaborative Topic Poisson Factorization (CTPF)など CTR (Collaborative Topic Regression)

33 いくつかの⼿法 – Content-aware CF with DNN DNNの結果を⾏列因⼦分解(MF)のPriorとして利⽤ [Liang+ 2015]
論⽂では⾳楽に対するネットワークの事例当然、画像やテキストなどあらゆる⼊⼒に対するDNNに対して応⽤できるはず近年、ディープラーニング(DNN)の推薦システムへの応⽤が盛り上がっている例えば… DNNの最終隠れ層正則化項

34 最後の疑問として… どうやって新規や未購買のアイテムが含まれるコールドスタートの評価をするか？単純にRecallを計算するのでは、既存・新規どちらが改善したかわからない 1 1 1 1 AKB 48
⽇向坂 46 乃⽊坂 46 欅坂 46

35 最後の疑問として… どうやって新規や未購買のアイテムが含まれるコールドスタートの評価をするか？単純にRecallを計算するのでは、既存・新規どちらが改善したかわからない 1 1 1 1 In-Matrix Out-of-
Matrix テストデータを分割 Recall@10 In-Matrix Out-of-Matrix 協調フィルタリング (item-based) 0.0272 0.0000 コンテンツベース 0.0215 0.0079 Our Hybrid 0.0306 0.0078 アイテムが教師データにもあるない Hybridが協調フィルタリングとコンテンツベースのいいとこ取りになっているだが、評価はこれで⼗分か？ AKB 48 ⽇向坂 46 乃⽊坂 46 欅坂 46

36 最後の疑問として… どうやって新規や未購買のアイテムが含まれるコールドスタートの評価をするか？単純にRecallを計算するのでは、既存・新規どちらが改善したかわからない 1 1 ? 1 1 ?
Kis-My- Ft2 King& Prince Sexy Zone 嵐 In-Matrix Out-of- Matrix テストデータを分割 Recall@10 In-Matrix Out-of-Matrix 協調フィルタリング (item-based) 0.0272 0.0000 コンテンツベース 0.0215 0.0079 Our Hybrid 0.0306 0.0078 Hybridが協調フィルタリングとコンテンツベースのいいとこ取りになっているだが、評価はこれで⼗分か？ ABテスト ↑研究所ロジック

37 研究のサイクル⼤規模な実サービスデータ研究実ユーザテスト（ABテストなど）繰り返し

38 推薦システムに関する研究の成果の数々 RecSys’17 RecSys’18 ICDM’18

39 様々な未解決問題と、ここまではきれいな結果をお⾒せしましたが・・・仕事で扱うデータには⾊々なワナが潜んでいます

40 様々な未解決問題 • ワナ１ユーザがアカウントを家族でシェアすると、ここまではきれいな結果をお⾒せしましたが・・・仕事で扱うデータには⾊々なワナが潜んでいます

41 様々な未解決問題 • ワナ１ユーザがアカウントを家族でシェアする • ワナ２ Bot と、ここまではきれいな結果をお⾒せしましたが・・・
仕事で扱うデータには⾊々なワナが潜んでいます

42 様々な未解決問題 • ワナ１ユーザがアカウントを家族でシェアする • ワナ２ Bot •
ワナ３貰ったデータが間違っていると、ここまではきれいな結果をお⾒せしましたが・・・仕事で扱うデータには⾊々なワナが潜んでいます

DEIM 2019 楽天技術研究所の研究とケーススタディ（推薦システム）/deim2019_r...

DEIM 2019 楽天技術研究所の研究とケーススタディ（推薦システム）/deim2019_rakuten

More Decks by Sho Nakamura

Other Decks in Technology

Featured

Transcript