リクルートにおけるbanditアルゴリズム実装前までのプロセス

リクルートにおける banditアルゴリズム実装前までのプロセス株式会社リクルートテクノロジーズ ITソリューション統括部ビッグデータビジネスコンサルティンググループ田口正一

2 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
自己紹介

趣味etc 略歴所属氏名 RTC ITソリューション統括部ビッグデータ部ビッグデータビジネスコンサルティングG 田口正一（たぐちしょういち）前職：シンクタンク系SIer デフォルトリスク計量/ 与信最適化 @地銀(リテールローン) @携帯電話会社(ペイメントサービス) 11月RTC 入社サッカー・キャンプ・ゲーム自己紹介

話すこと/話さないこと基本・banditアルゴリズムとは・banditアルゴリズムの種類事例・他社事例・社内事例・実施要件・アルゴリズム選定〜シミュレーショントレンド・著名カンファレンス論文・論文紹介・導入対象 - 具体的サービス名・導入効果 - 具体的な数字・実装部分話すこと話さないこと

リクルートについて

リクルートのビジネスモデルクライアントとカスタマーをつなぐサービスを提供

リクルートの事業領域「選択」をサポートするような情報サービスを展開ライフイベント領域ライフスタイル領域旅行 ITトレンドライフスタイル健康と美容就職活動結婚転職住居購入車購入出産教育

リクルートテクノロジーズの立ち位置リクルートホールディングスは７つの主要事業会社と３つの機能会社から成り立っている。 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Operation Service

ビッグデータ解析部門の組織体制ビジネスコンサルティンググループ人材領域グループ販促・バイト領域グループソリューションを軸とした予測、 BI、競合分析人材領域を軸とした各種レコメンドの開発販促・バイトを軸とした各種レコメンドの開発ＩＤ・ポイント領域グループ IDポイントを軸とした各種レコメンドの開発プロダクト開発グループインフラグループＩＤポイントビッグデータシステムグループソリューションを軸とした各種R&D系プロダクトの開発ビックデータ基盤の構築・運用 IDポイントPRJの基盤の構築・運用ビックデータ部

banditアルゴリズムとは

環境モデル、長期報酬を考慮しない強化学習強化学習 banditアルゴリズム価値関数(長期報酬) 報酬関数(短期報酬) 方策環境モデル ◦ × ◦ ◦ ◦ ◦ ◦ × 構成要素出典:強化学習

持ち金を増やしたい  スロットマシンを相手にする＠ラスベガス

持ち金を増やしたい  情報がなければ合理的な選択は不可能期待報酬 p1 p2 p3 p4 結局どれがいいのさ・・・

情報を集める  ないなら集める期待 p1 p2 p3 p4 結局・期待 p1 p2 p3 p4 p1良さげ？時刻t =0 時刻t =1 プレイ＆報酬観測腕1をプレイ &報酬観測報酬 0 0 0 0 総数 0 0 0 0 報酬 1 0 0 0 総数 1 0 0 0

情報を集める  期待値に基づいてのプレイが基本方針期待 p1 p2 p3 p4 P4最大期待 p1 p2 p3 p4 p3最大になった次はp3か・・・時刻t 時刻t +1 プレイ＆報酬観測腕4をプレイ &報酬観測報酬 r1 r2 r3 r4 総数 s1 s2 s3 s4 報酬 r1 r2 r3 r4 総数 s1 s2 s3 s4+ 1

期待値の見積  期待報酬分布を台ごとに生成  ※以降Thompson Samplingの例時刻t =0での各腕期待報酬分布例時刻tでの各腕期待報酬分布例期待 p1 p2 p3 p4 時刻t =0 報酬 r1 r2 r3 r4 総数 s1 s2 s3 s4 期待 p1(t) p2(t) p3(t) p4(t) 時刻t 報酬 r1(t) r2(t) r3(t) r4(t) 総数 s1(t) s2(t) s3(t) s4(t) beta分布で期待報酬の事後分布を近似 pn(t) ~ beta(rn(t),sn(t)- rn(t))

実際の動き  最初の方はランダム選択  期待報酬推定値が似たような感じになる  情報が増えれば最適報酬腕をプレイする可能性が上がる時刻t =0での各腕期待報酬分布時刻tでの各腕期待報酬分布各腕プレイ時の成功/失敗情報を得る

評価指標  Regret = Σ(最適腕の報酬 – 実プレイした腕の報酬)  Regretの最小化を目指すグラフ出典:DataOrigami https://dataorigami.net/blogs/napkin-folding/79031811-multi-armed-bandits 最初は探索的に色々な腕をプレイするので、Regretが急上昇ある程度時間が経つと最適選択をする可能性が高まり、 Regretの成長は鈍化ランダム探索よりはるかにマシ

banditアルゴリズムの種類  banditアルゴリズムは様々存在する

事例紹介

他社事例  楽天  Cookpad  yahoo  MSN, LinkedIn

他社事例  楽天  スーパーセール  成約率5%向上出典： http://business.nikkeibp.co.jp/atclbdt/15/258673/070400266/?n_cid=

他社事例  Cookpad  contextual banditらしい  対探索時でCTR160％出典： http://techlife.cookpad.com/entry/2014/10/29/

他社事例  yahoo  STORY部分にF1~F4のどれを出す？  LinUCB(disjoint,hybrid)を用いた  ε-greedyと比較してCTRが2倍以上 • hybridは早く学べる • disjointは伸びしろあり

他社事例  MSN, LinkedIn 25

自社事例目的/実施内容  目的  CVR上げたい  (副次的に)工数を削減したい  実施内容  クリエイティブ出しわけ  過去2パターンABテストを手動で実施した結果、数%CVR向上した → banditでパターン数を増やし、より良い結果を目指す  内部的に割り振っているクラスタ情報が存在するので、クラスタ単位での出しわけ

アルゴリズム選択  要件  要件的にニュース等と違い、リアルタイム更新の必要性は薄い  論文等で主張されている評価基準(Regret)だけで選べない • 実際に自環境で達成できるかは全く別(特に難しいロジックは) • 事前にある程度の性能予測をしたい  事前の性能予測がいい感じでも、本番でうまく動くかは不明 • ミニマムで作って本番へ • うまくいったらスケール/ロジックエンハンス • リアルタイム更新でないケースでうまくはまる、実装や本番との連携が簡単な仕組みを作る →Thompson Samplingを採用

Thompson Sampling  pseudo code

他に考慮すべき点  やる事が決まった上でどうロジックを組み込むか  ファイル連携?api?  簡単に実現したい  有事の際すぐにリカバリーできるようにしたい →ユーザ側(フロント)での調整にも対応出来るよう、ファイル連携を選択案動きメリットデメリット api 叩かれた時に計算、プレイ腕を返すフロント実装が楽フロント側から見てブラックボックス叩かれた時にapi側で持つ確率ファイルから抽出、プレイ腕を返すフロント実装が楽/ API計算はバッチで済むフロント側での調整 /緊急対応しづらいファイル連携 webサーバ側で持つ確率ファイルからプレイ腕を決定 API計算はバッチで済む/ ユーザ側で明日の出し分け確率がわかるフロント実装が面倒

チューニング  ファイル連携なら多少計算時間がかかっても許される  +本来のThompson Samplingの動きと違うので、確率ファイルの生成をする必要がある  収束保証のない(※)中で、多少時間がかかってもいい動きをするようにしたい ※強化学習系の手法一般に言える(はず)

シミュレーション  banditアルゴリズムのバックテストは一般的に難しい  そもそも都合のいいデータがないと不可能  都合のいいデータがある際のテスト方法： https://arxiv.org/pdf/1405.3536.pdf https://arxiv.org/pdf/1003.5956.pdf  シミュレーションでいいものを選ぶ  試したパラメータ • beta分布のパラメータキャップ – 過程で分布が過度に尖ってしまい、プレイする腕の期待報酬分布が尖り過ぎるのを防ぐ。 beta(a,b)のときa+b<=nの範囲で按分する – {100, 200, 300, 500, 700, 1000, なし} • Thompson Sampling実施回数 – プレイする腕を選択する際、TSを何回実施した結果を用いるか – {1, 5, 10, 15, 20, 30, 50, 75, 100}

シミュレーション結果  シミュレーション前提：  真の報酬：0.4%を中心に上下４段階ずつ、計９つの腕を用意  １段階変化ごとに±3%(元の値から)報酬を変化させている  １日2000プレイの結果(表出コンテンツ/cv or not)が手に入る  テスト期間は60日間  各実験で1000トライアルずつ実施した時の平均報酬の変化をプロットシミュレーション結果縦軸：期待報酬横軸：日この辺が良さそう

banditアルゴリズム:研究トピックのトレンド  制約付き  バジェット付き  時間経過で腕/ 報酬が変化(変化/ 消滅/ 誕生)  ランクのみ学習  無限腕bandit  グラフとの組み合わせ  適用領域のエンハンス  ページ全体のUI改善  インタラクティブレコメ  オフラインテスト手法抜粋: KDD, AAAI, NIPS, ICMLの最新accepted papers ※NIPS以外は2017, NIPSは2016,WSDM発見できず

論文紹介①  Unimodal Thompson Sampling for Graph- Structured Arms(@aaai17)  無向グラフ＋Thompson Sampling • 探索範囲を効率的に絞って、パフォーマンスを上げることが目的  セッティング • 腕をエッジとみなす – 仮にEを最適腕だとする • エッジ間接続 (ノード)を確率pでランダムに作る – on random graphs(1950年代論文)の手法に基づく、ただし » どこからのエッジからでも、移動を繰り返せば最適腕への経路が存在する前提 » 最適腕に近づく際、期待報酬の減少は起こらない前提(両方厳しい・・・) B A E G F D C

論文紹介①  当該時刻で(接続している腕のうち)期待報酬最大のエッジを選択 • リーダーアームと呼ぶ  ある基準(※)で選択したエッジをプレイ、基準以外のケースだと選択エッジに接続された腕全てでTS実施、最も期待報酬の高いものをプレイする  期待値最大の腕選択に戻る ※後述 B A E G F D C

論文紹介① B A E G F D C  最適腕へ収束していくプロセス  Eをリーダーとして選択→最適腕を選択できている、正解  Cをリーダーとして選択→B,C,EでTS、Eの期待値の方がCより高いので、いずれEがリーダーとして選択される  Bをリーダーとして選択→A,B,C,DでTS、いずれCがリーダーとして選択される。理由は同上 →Optimal Armに向かっての滝登り

G(グラフ),T(制限時間), π(事前分布)を入れる全腕で時刻Tまでの期待報酬を計算通算報酬最大の腕(最適腕)を特定最適腕としての被選択回数 /( 接続ノード数+1) 最適腕をプレイ最適腕+隣接腕でθだけサンプリング報酬が最大になる腕をプレイ論文紹介① ※５行目はRegret計算を簡単にするために、先行論文での提案手法でも導入されているとのこと(本人談) 先行論文での手法：GLSE(Jia and Mannor, 2011), OSUB(Combes and Proutiere, 2014)

論文紹介②  Efficient Ordered Combinatorial Semi-Bandits for Whole-page Recommendation(@aaai17)  表出するコンテンツ/場所の最適化を同時に目指す  内容的には2016WSDMでのBestPaper, ”Beyond Ranking: Optimizing Whole-Page Presentation”(リンク↓)と似てる  https://pt.slideshare.net/techblogyahoo/wsdm2016beyond- rankingoptimizing-wholepage-presentationyjwsdm BestPaper Efficient~ 検索結果全体最適コンテンツ/ポジション最適

論文紹介②  Best Paperとの比較  どちらもyahooデータセットを使っている論文  どちらも著者にyahoo関係者が入っている Best Paper 紹介最適化範囲検索結果全体コンテンツ表出箇所アルゴリズム GBDT Thompson Sampling 前提ランダム出し分け結果が手元にある (論文だと800万PV分) 特になし特徴量コンテンツの特徴ポジション情報種類(文字、画像、動画等) 情報特徴(サイズ、フォント等) コンテンツの特徴ポジション

論文紹介②  やってること  contentsの数：n  候補ポジションの数：k  前提 • 同じコンテンツでも、出すポジションによって報酬が変わる • １つのポジションには１つのコンテンツしか出せない  場所、コンテンツの配置を下記のように表現する m1 m2 ・・ mk c1 1 c2 1 : 1 cn 1 m1という場所にc1コンテンツが置かれている＆ mkという場所にc2コンテンツが置かれている : : コンテンツポジション

論文紹介②  整数問題→線形計画  上記パターンで実現出来る報酬を最大化するには整数問題を解く  整数問題はコストが高い  {0,1}から[0,1]への変換をしても、得られる結果は同じ  整数問題→線形計画への変換 m1 m2 ・・ mk c1 1 c2 1 : 1 cn 1 m1という場所にc1コンテンツが置かれている＆ mkという場所にc2コンテンツが置かれている : : コンテンツポジション

論文紹介②  最適配置を実現し、CVR最大を目指す  Thompson Samplingでの実現  報酬 r = f(contents, position) ~ 何かしらの期待報酬分布  各選択の期待報酬は下記のように表現できる  f(cn,mk)で表現される分布からサンプリングを実施、実現値を抽出する  あとは線形計画を解いて解を得る m1 m2 ・・ mk c1 f(c1,m1) f(c1,m2) ・・ f(c1,mk) c2 f(c2,m1) f(c2m2) ・・ f(c2,mk) : ：：・・： cn f(cn,m1) f(cn,m2) ・・ f(cn,mk)

論文紹介②  実験結果

まとめ  banditアルゴリズムを用いることで、データが存在しない/集めづらい領域の最適化ができるようになる  ケースに応じて最適パラメータが変わってくるので、シミュレーションで最適パラメータを求めた  アルゴリズム自体に収束保証がない/手動で出し分けを実現したいケースが想定されるので、緊急停止ボタン(ファイル書き換えで可能)を仕込んだ

ポジションあります機械学習を利用して自由にビジネスを作っていきたい人是非、一緒に働きましょうリクルートテクノロジーズ田口正一（たぐちしょういち） [email protected] 連絡先

リクルートにおけるbanditアルゴリズム実装前までのプロセス

リクルートにおけるbanditアルゴリズム実装前までのプロセス

More Decks by Recruit Technologies

Other Decks in Technology

Featured

Transcript