Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MeetUP3_機械学習とプロダクト開発_20220929

BrainPad
October 04, 2022

 MeetUP3_機械学習とプロダクト開発_20220929

BrainPad

October 04, 2022
Tweet

More Decks by BrainPad

Other Decks in Programming

Transcript

  1. ©BrainPad Inc. Strictly Confidencial 自己紹介 - 名前: 長南 翔 -

    所属: ブレインパッド - プロダクトビジネス本部 プロダクトデザイン部 テクニカルグロースG グループマネージャ - 仕事: 機械学習を利用した自社プロダクトの機能企画・開発 - 経歴: 早稲田大学院(物理)→ブレインパッド新卒7年目 - 最近の趣味: StableDiffusion(OSS画像生成AI)
  2. 協調フィルタリング - レコメンドで昔からよく使われるアルゴリズム - 「自分に似ている人が買っている商品をレコメンドされれば購入したくなるだろう」という関係を利用 - シンプルで効率的だが、以下のような欠点がある - データが十分溜まっている必要があること -

    購入、閲覧のデータが十分なければ、ユーザと商品のリンクが少なく、レコメンドの候補が十分ないよう な状況になる。 - 商品をレコメンドする基準は購入、閲覧パターンの類似度であって、実際に購入するかどうかではないこと - データを取りに行くための戦略がないこと - 「このユーザにこの商品をレコメンドするのはまだ試していないから試してみよう」 よくある弱点... あるECサイトでコーヒーメーカーを購入したら、コーヒー好きなユーザとの類似度が高まったためか、コーヒー 関連グッズを大量にレコメンドされ、反応していないのに数ヶ月の間、同様のレコメンドをされ続けた
  3. 多腕バンディット問題 スロットが当たるかどうかは確率的 - ある程度の数を回さなければ良し悪しはわからない。 - 当たりにくいスロットをたくさん回してしまっては報酬の累計値は小さくなる 2つの方針 - 活用=現時点で当たりやすいとわかっているスロットを引く -

    探索=現時点で当たりやすさが未知数のスロットの情報を取りに行く これらにはトレードオフの関係がある。 - 活用する場合、もっと当たりやすいスロットがまだあるかもしれない - 探索する場合、当たりにくいスロットの情報を取るために損をしなければならないかもしれない 活用・探索をバランスよく行うことが最終的な報酬を最大化するためには必要。 多腕バンディットアルゴリズムは、このようなバンディット問題の解法となるアルゴリズムの総称で、活用、探索のバランスをとり、 最終的な報酬の累計値を最大化するために利用される
  4. コンテンツの追加、削除が常にある 理想的な多腕バンディット問題ではスロットマシンの数は変化しない現実のコンテ ンツは常に追加、削除される →他のコンテンツより大幅にクリックされやすいコンテンツが追加された場合、素早く そのコンテンツの有効性に気づかなければ機会損失が発生 対策 情報がないコンテンツに対してどの程度の報酬を期待するかを決める「初期分布」 の工夫により改善 - 情報がないコンテンツに対しては、既存のコンテンツのうち最も報酬の高いコ

    ンテンツの報酬と同程度の報酬を期待し、情報が得られるにつれてそれを 修正していく →情報がない新規コンテンツはある程度大きなインプレッションが割かれ、いち早く そのコンテンツの有効性を確認しながら、有効性に応じてその後の比率を決めてい く挙動を実現 新規コンテンツには既存の最 高CTRのコンテンツEと同程 度の中心を持つ分布が割り 振られる 新規コンテンツがある程度大 きな割合で表示されている
  5. バナーなどのコンテンツを表示する枠は多くの場合複数ある 理想的な多腕バンディット問題では一度に引くスロットマシンは1個 現実のバナーなどのコンテンツを表示する枠はたいてい複数ある 多くの場合最初の枠のコンテンツが最もユーザの目に留まりやすい傾向があり、その影 響で表示枠によってクリックされやすさが変化するという要素もあります。 対策 - 文脈バンディットアルゴリズムで「表示された位置」を文脈に加えて学習を行う - コンテンツを選ぶ際には表示された位置による効果を差し引いた期待報酬を用

    いて、最初の枠から順にコンテンツを選択する ユーザに対して複数のコンテンツの組をレコメンドする問題はSlate Recommendationと呼ばれ、近年この問題に特化したアルゴリズムの研究も行わ れているため、そのようなアルゴリズムの採用で更に良い結果が得られるかもしれません。 Slate Recommendationの難しさ 20コンテンツから10個並べるだけでも670,442,572,800通り A あなたへのおすすめ B C D あなたへのおすすめ D C B A 複数コンテンツの表示例 A の位置が目にとまりやすく、効 果が高い場合が多い 横並び カルーセル
  6. 状況によって適したアルゴリズムを選択することの重要性 多腕バンディットアルゴリズムは実装が容易な割には拡張性があり、様々な状況に対処できる 一方で、強化学習のアルゴリズムをとしてはシンプルなもの - 即時報酬しか考慮しない - 将棋やチェスで言うところの1手読みしかしない - (だからこそステートレスにできて実システムでの運用での都合が良い) 対症療法的にしか対応できない状況も

    - コンテンツを提示したことによるユーザの状態の変化など - 例えばクリックベイト的なコンテンツを提示し続けることで短期的なクリックは上がってもユーザの長期的な満足 度が下がってしまうような現象 状況の特徴や、コスト面で別のアルゴリズムが適している場面もある - 変化が少なく、最初からデータが潤沢にあるような状況では深層学習やランダムフォレスト系の複雑なモデルを用い た教師あり学習に強みがある場面も - 高い実装・運用コストに対しても採算が取れるような大規模なサイトでのレコメンドでは、強化学習の「環境」のモデ ルとしてより複雑なものを使う深層強化学習系モデルに強みがある 状況に合わせた適切なアルゴリズムを意図を持って選択していくことが重要
  7. アルゴリズムレコメンドの展望 深層強化学習系モデルがGoogle, Yahoo, Microsoftなどの超大手により近年活発に研究されている - 多腕バンディットアルゴリズムが「1手読み」なのに対し、「N手読み」に相当する - 例:Choc vs. Kale

    - https://github.com/google-research/recsim で紹介されている概念 - Chocolate: 短期的な食いつきは良いが、長期的な満足度は下がるコンテンツ - 釣りサムネイルで内容は薄い動画みたいな - Kale: クリックは集めにくいが、長期的には満足度が上がるコンテンツ - Chocolate, Kaleのバランスをアルゴリズム的にうまくとることで、 「直近のクリック率」ではなく、「現在から未来までのユーザの満足度」が最大化される - 多腕バンディットアルゴリズムの世界観では明らかにカバーできないが重要な概念