Upgrade to Pro — share decks privately, control downloads, hide ads and more …

リクルートにおける強化学習活用法の研究開発

 リクルートにおける強化学習活用法の研究開発

2018/02/24 「第21回Machine Learning 15minutes!」での蓑田の講演資料です。

Recruit Technologies

February 24, 2018
Tweet

More Decks by Recruit Technologies

Other Decks in Technology

Transcript

  1. 2 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    自己紹介 趣味etc 学歴 略歴 氏名 蓑田 和麻 (ミノダ カズマ) 慶應義塾大学院 理工学研究科 応用統計学専攻 新卒入社2年目。 リクルートホールディングスに新卒入社し、 リクルートテクノロジーズ出向。 3ヶ月のサービス開発研修後、現プロダクト開発グループに配属され、機械 学習を活用したAPI開発、導入・推進業務を行う。 その一環で現在、強化学習の研究開発を行う。 人狼 麻雀
  2. 3 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    1 3 本日の内容 はじめに リクルートでの強化学習活用方針 4 現在得られている結果 2 強化学習とは(DQN中心に)
  3. 5 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  4. 6 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel Business support Lifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  5. 7 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    リクルートテクノロジーズの立ち位置 7 リクルートHD Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Marketing Partners Recruit Technologies Recruit Administration Recruit Staffing Staff service Holdings Recruit Communications メディア& ソリューション SBU グローバル派遣 SBU グローバル オンラインHR SBU Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development ITソリューションを提 供
  6. 8 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    組織体制 8 ITソリューション統括部 人材領域データテクノ ロジー用途開拓G 販促領域データテクノ ロジー用途開拓G 人材領域を軸とした テクノロジーの用途開拓 販促領域を軸とした テクノロジーの用途開拓 データテクノロジー プロダクト開発グループ データテクノロジー インフラグループ データ解析基盤の 構築・運用、 高度演算環境の検証 データテクノロジーラボ部 ソリューションを軸とし た各種R&D系 プロダクトの開発
  7. 9 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    組織ミッション Research & Development データテクノロジーを発見・検証・開発し、 ビジネス活用用途を開拓する。
  8. 10 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    A3RTの誕生 リクルートの機械学習によるソリューション活用の敷居を下げ、 事業のサービスの価値を高めるための汎用的な機械学習APIサービス群 https://a3rt.recruit-tech.co.jp/ ↑検索して使ってみてください!!
  9. 11 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    プロダクト一覧 強化学習 Text to SQL
  10. 13 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習の例 Deep mindの Alpha GO 出典:http://blog.brainpad.co.jp/entry/2017/02/24/121500
  11. 14 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習の例(2) 出典:https://gigazine.net/news/20160310-google-deep-learning-robot/
  12. 15 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習とは 【強化学習】人間がHowを教えなくても問題の解決 策を見出す事ができる手法 *https://deepmind.com/about/ (例. スーパーマリオゲーム) 走る 飛ぶ 攻撃する ゴール ゴール時のみに報酬を与えることで、 どのプロセスが良かったか評価できる!! 出典:https://www30.atwiki.jp/niconicomugen/pages/558.html
  13. 16 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    現在tryしている手法〜DQN(Deep Q-Network)〜 【Q学習】 状態sで行動aを行った時の、将来の収益 を推定する関数Qを求める 状態s/行動a 走る 飛ぶ 攻撃する 目の前に敵がいる 0 6 4 目の前に敵がいない 8 2 0 こんな単純なゲームであれば良いが、世の中のタスクはもっと複雑 →→Deep Learningで関数Qを近似(Deep Q-Network) ある状態において、各行動への良さ(Q値)の度合い
  14. 17 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    2. リクルートでの強化学習の活用 報酬:最終スコア アクション:どこに落とすか 状態:今の盤面 報酬:勝敗 アクション:次どこに置くか 状態:今の盤面 報酬:コンバージョン アクション:次どこに遷移する(させる)か 状態:今のページ + 遷移してきたページ) ゲーム Web 出典:https://markezine.jp/article/detail/25366 http://www.geocities.jp/hag167/rev237.htm
  15. 18 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習のメリット(1/3) 2018/2/28 Copyright(C)2016 Recruit Technologies Co.,Ltd. All rights reserved 18 教師あり学習 強化学習 プロセスの 学習 × 教師ラベルの直接的な学習しか できない。 ◎ 将来的なゴールを考慮したプロセ スの学習が1つのモデルで可能。 目的変数の 設計 △ 目的変数を柔軟に設計できない。 ◯ CVのページが+100点、詳細が +50、離脱が-30のように柔軟な設 計が可能。 リアルタイ ム性 △ 事前に学習されたロジックに依 存。 ◦ ・事前学習 + リアルタイ ムな学習が可能 ・別行動の探索も可能 将来的なゴールを考慮したプロセスの評価が最大のメリット。
  16. 19 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習のメリット(2/3) 2018/2/28 Copyright(C)2016 Recruit Technologies Co.,Ltd. All rights reserved 19 プロセスの学習について 教師あり学習の場合 Top ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ ・・ ・ CV ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ 例) サイト回遊中のユーザを、CVまで導きたい場合
  17. 20 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習のメリット(2/3) 2018/2/28 Copyright(C)2016 Recruit Technologies Co.,Ltd. All rights reserved 20 教師あり学習の場合 Top ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ ・・ ・ CV ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ 例) サイト回遊中のユーザを、CVまで導きたい場合 教師あり学習でできること① 現在のページから、次に行くべきページを レコメンドする。 問題点 ・将来のCV可能性を考慮できない。 ページ5 プロセスの学習について ?
  18. 21 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習のメリット(1/2) 2018/2/28 Copyright(C)2016 Recruit Technologies Co.,Ltd. All rights reserved 21 教師あり学習の場合 Top ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ CV ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ 例) サイト回遊中のユーザを、CVまで導きたい場合 教師あり学習でできること② 現在あるページにいるユーザについて、CVしそ うか、しなそうかを判定できる。 問題点 ・現在のページから、次どこに行くべきかを 示唆できない。 プロセスの学習について ?
  19. 22 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習のメリット(2/2) 2018/2/28 Copyright(C)2016 Recruit Technologies Co.,Ltd. All rights reserved 22 Top ページ1 ページ2 ページ 99 ページ 100 ・ ・ ・ ・・ ・ CV ページ1 ページ2 ページ 100 ・ ・ ・ プロセスの学習について 例) サイト回遊中のユーザを、CVまで導きたい場合 強化学習の場合 ページ 99 ページ5 ページ5に行ったら 将来的にCVしそう! 強化学習でできること(教師あり学習でできないこと) 現在のページから、将来的なCVを考慮した、次の アクションを示唆できる。
  20. 23 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    リクルートでの強化学習活用方針
  21. 24 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    リクルートでの強化学習活用方針 1.リアルタイムUX 今いるページ(+遷移してきたページ)の情報を用いて、将来CVにつながりそうな導線を強め る。 2.サイト改善提案 現在のサイト構成から、どういう導線があればCVにつながりやすくなるのかを提案できる。 3.離脱阻止 & 初心者向けコンテンツへの誘導 Q値のよくない行動(囲碁でいうと悪手)を打ち続ける = サイトをうまく使えていない。 → リアルタイムに検知し、別コンテンツへ誘導する。 「Web×強化学習」でできること
  22. 25 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習の適用方針 visitor_id pages cv_flag 1000013854 アプリ起動 0 1000013854 インプレッション記事 0 1000013854 問い合わせ 1 あるwebサイトのサイカタデータサンプル 状態 s∈S:各ユーザーが過去訪問してきたページ ※ 様々なパターンを実験。次スライドで紹介 アクションa∈A: 次の遷移ページ ※ 過去のログを使った場合、探索の仕組みは入れられない 報酬r∈R :cvした場合1、not_cvの場合-1、それ以外0
  23. 26 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    状態の表現方法〜ベクトル化〜 状態 s∈S:各ユーザーが過去訪問してきたページ case1 ページ数分の配列を用意し、one-hot-vectorで表現。 過去積み重ねてきたページを重ね合わせる。 メリット:シンプルなため次元が小さい(ページ数は多くても数百) デメリット:時系列を表現できない(「top→一覧→詳細」と「一覧→top→詳細」は同じ) case2 過去ログを用いて、ページをItem2Vec(Word2Vec)でベクトル化 (次元圧縮)し過去Nステップまでを横に並べる。 メリット:時系列表現、ページの類似性など複雑な状態を表現可能 デメリット:Nを決め打たなければならない(状態を表現するのに過去どのくらい遡ればいいか不明)
  24. 27 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    DQNによる入出力 入力 状態 s∈S 出力 各アクションに対するQ値 状態s/行動a ページA ページB ページC S1 0 6 4 S2 8 2 0 状態S1のときは、ページB行った方がいいけど、S2のときはページA!
  25. 28 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    リクルートでの強化学習活用方針 1.リアルタイムUX 今いるページ(+遷移してきたページ)の情報を用いて、将来CVにつながりそうな導線を強め る。 2.サイト改善提案 現在のサイト構成から、どういう導線があればCVにつながりやすくなるのかを提案できる。 3.離脱阻止 & 初心者向けコンテンツへの誘導 Q値のよくない行動(囲碁でいうと悪手)を打ち続ける = サイトをうまく使えていない。 → リアルタイムに検知し、別コンテンツへ誘導する。 「Web×強化学習」でできること
  26. 30 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    某サイトデータの応用結果(前提と基礎集計)  SPサイト 20171101〜20171201の1ヶ月分 使用データ 基本集計 遷移数平均値 遷移数中央値 CVしなかったユーザー 14 9 CVしたユーザー 29 26 異常値を除いた各ユーザーの遷移数の集計  9遷移以内で半数はサイトから離れてしまう。  14遷移以降も上手くサイトを活かせず離脱する人もいる。
  27. 31 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    某サイトデータの応用結果(学習結果)  あるユーザにおける実際のアクションと学習で導かれた行動 ※ 5遷移目〜10遷移目だけを表示 ※ Q値 = 現在の状態に対して、ある特定のアクションの価値を表す値 ※ 現在の状態が同じでも、過去の遷移パターンによって、強化学習のアウトプットは異なる。 遷移数 実際の行動 強化学習的に最適な行動 ページ C1 ページ C2 ページC3 ページ C5 ページC6 ページX1 ページ X2 ページ X3 ページX4 ページ X5 Q = 0.5415 Q = 0.4906 Q = 0.5817 Q = 0.0268 Q = 0.6905 Q = 0.6905 Q = 0.8179 Q = 1.0833 Q = 0.6945
  28. 32 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    3. 某サイトデータの応用結果(学習結果) 遷移回数 CVをしなかったAさんの行動遷移  各状態のQ値の遷移 サイト構成上、訪問不可能ページ サイト構成上、訪問可能なページ 訪問不可能で、CVページを除いたページ 訪問可能で、CVページを除いたページ 実際の行動 ・黄 > 赤 : サイト改善の余地がある。 → 強化学習を使えば、黄 = 赤 にすることが可能。 ・青 >> 赤:このユーザはサイトをうまく使えていない。 → 強化学習を使えば、青→赤に近づけることが可能。 Q値 考察
  29. 33 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    3. 某サイトデータの応用結果(学習結果) 横軸:遷移回数、縦軸:Q値 CVをしなかったAさんの行動遷移 CVしたBさんの行動遷移 横軸:遷移回数、縦軸:Q値  参考 ・CV済みユーザの実際の行動(青) > 未CVユーザの実際の行動(青) → CVしたユーザの状態の良さを正しく評価できている → 強化学習がうまくいっている 考察
  30. 34 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    強化学習プロダクトアーキテクチャー Q値 ChainnerRL DQNモデル オフライン学 習 サイカタログ マウント連携 リアルタイムログ送信 webサイト 結果をインサート 強化学習用DB オンライン学習
  31. 35 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    今後の課題 1.実際のサイトに適用して効果を見る A/Bテストでどのくらいのユーザーを最適な遷移に導けるか 2.状態Sの精緻化 状態Sの表現力がやはり大事。現在は、同じページ遷移をしていたら女子高生でも年配の方 でも同じQ値になるので、属性情報の付与も検討 3.DQN以外の手法の検討 Actor-criticやモデルベースの強化学習も検討していきたい
  32. 36 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    最後に 我々は新しいアイディアを日々考えて います。 是非、ご興味あれば協業等できればと 思いますのでお声掛けください。 連絡先:[email protected] Facebook:kazuma minoda(蓑田 和麻)