Upgrade to Pro — share decks privately, control downloads, hide ads and more …

kdd2021_reading_value_function_is_all_you_need_...

Hideaki Kano
October 07, 2021
1.2k

 kdd2021_reading_value_function_is_all_you_need_a_unified_learning_framework_for_ride_hailing_platforms.pdf

Hideaki Kano

October 07, 2021
Tweet

Transcript

  1. 0 Value Function is All You Need: A Unified Learning

    Framework for Ride Hailing Platforms Xiaocheng Tang, Fan Zhang, Zhiwei Qin, Yansheng Wang, Dingyuan Shi, Bingchen Song, Yongxin Tong, Hongtu Zhu, Jieping Ye 鹿野 英明 @ BCG GAMMA KDD2021 論文読み会 Twitter: #kdd2021_reading
  2. 1 自己紹介 鹿野 英明 Kano, Hideaki 経歴 • 2019年 09月

    – 現在: データサイエンティスト, BCG, DigitalBCG Japan, BCG GAMMA • 2018年 04月 - 2019年 08月: エンジニア, リクルートコミュニケーションズ (RCO) • 2017年 03月 – 2018年 03月: リサーチアシスタント, RIKEN AIP • 2018年 03月: 修士, 東京大学大学院 新領域創成科学研究科 複雑理工学専攻 杉山研究室 • 2016年 03月: 学士, 北海道大学 工学部 情報エレクトロニクス学科 コンピュータサイエンスコース 今井研究室 経験領域 • シェアリングエコノミー: シミュレーション, 数理最適化 • 保険: 顧客特性分析 • ヘルスケア: 疾病予測 • 小売り: 需要予測, 商品特性分析 • 物流: 需要予測, 数理最適化 過去の活動 • JSAI2021 のランチョンセミナーにて以下の発表を行いました 「AI技術とデータによる社会変革のインパクト創出を目指した、AI人材教育と医療データ活用の取り組み」 https://www.ai-gakkai.or.jp/jsai2021/night-luncheon • 今年1月に TECH PLAY の以下のイベントに登壇いたしました 「ボストン コンサルティング グループ(BCG)が仕掛ける デジタル産業イノベーション事例【ビジネス(経営)×データサイエンス】 」 https://techplay.jp/column/1475 • リクルート在籍時に 「多腕バンディット問題と A/B テスト」 という解説記事を書きました https://www.rco.recruit.co.jp/career/engineer/blog/bandit/ • リクルート在籍時に以下の紹介記事を書きました 「新人エンジニア主催で ISUCON に機械学習の要素を取り入れた新しいタイプのコンテストを開催しました」 https://www.rco.recruit.co.jp/career/engineer/blog/pigicon/
  3. 2 本日の内容 問題設定 • 配車プラットフォームにおける "不" と 解決へのアプローチ • Semi-Markov

    Decision Process としての Order Dispatching 提案手法 • Population-Based Online Learning Objective • Value Ensemble With Offline Evaluation • Unified Framework For Dispatch and Reposition 実験結果
  4. 3 idle drivers を未来の需要のために別の場所に移動させること Order Dispatching とは異なり、目的地が自由 賢く移動させないと、以下の問題が発生 • 高需要エリアへの一極集中

    • driver income の低下 Order Dispatching 配車プラットフォームにおける "不" と 解決へのアプローチ Vehicle Repositioning 高需要エリアへの過度な一極集中等の “不” を避けつつ driver income と waiting time を最適化するには、 以下の課題を対処することが重要 open trip orders と idle drivers のマッチング drivers の未来の spatial distributions に影響する ため、後続の dispatching にも影響 (e.g. 高需要エリアから高需要エリアに運びたい) 賢くマッチングできないと、以下の問題が発生 • waiting time の増加 • order completion rate の低下 … 問題設定
  5. 4 idle drivers を未来の需要のために別の場所に移動させること Order Dispatching とは異なり、目的地が自由 賢く移動させないと、以下の問題が発生 • 高需要エリアへの一極集中

    • driver income の低下 Order Dispatching 配車プラットフォームにおける "不" と 解決へのアプローチ Vehicle Repositioning 高需要エリアへの過度な一極集中等の “不” を避けつつ driver income と waiting time を最適化するには、 以下の課題を対処することが重要 open trip orders と idle drivers のマッチング drivers の未来の spatial distributions に影響する ため、後続の dispatching にも影響 (e.g. 高需要エリアから高需要エリアに運びたい) 賢くマッチングできないと、以下の問題が発生 • waiting time の増加 • order completion rate の低下 … 提案手法では explicit に Vehicle Repositioning を考えなくても、 Value Function に基づいて車両を移動させておけば、 よしなに車両の分布が調整される 問題設定
  6. 5 Semi-Markov Decision Process (Semi-MDP) としての Order Dispatching 時刻 𝑡𝑡

    で driver 𝑖𝑖 は option 𝑜𝑜𝑡𝑡 𝑖𝑖 を行い、状態 𝑠𝑠𝑡𝑡 𝑖𝑖 から 状態 𝑠𝑠 𝑡𝑡′ 𝑖𝑖 へ遷移し、報酬 𝑟𝑟𝑡𝑡 𝑖𝑖 を受け取る 𝑠𝑠𝑡𝑡 ≔ (𝑙𝑙𝑡𝑡 , 𝜇𝜇𝑡𝑡 , 𝜈𝜈𝑡𝑡 𝑑𝑑, 𝜈𝜈𝑡𝑡 𝑠𝑠) • 𝑙𝑙𝑡𝑡 : location status of the driver • 𝜇𝜇𝑡𝑡 : time scale 𝜈𝜈𝑡𝑡 𝑑𝑑 : dynamic feature • 𝜈𝜈𝑡𝑡 𝑠𝑠 : static feature 𝑜𝑜𝑡𝑡 ≔ 𝑙𝑙𝑡𝑡+𝑘𝑘𝑡𝑡 • kt : duration of the transition 各 option を実行するにあたって 必要となる期間が異なるのが、 MDP との大きな違い 𝑅𝑅𝑡𝑡 : option 𝑜𝑜𝑡𝑡 を実行し 𝑠𝑠𝑡𝑡 から 𝑠𝑠𝑡𝑡′ へ 至るまでに得られる報酬の総和 定義は以下の通り 𝑅𝑅𝑡𝑡 ≔ ∑ 𝑖𝑖 𝑘𝑘𝑡𝑡 𝑟𝑟𝑡𝑡+𝑖𝑖 実際には未来の報酬を割り引いた � 𝑅𝑅𝑡𝑡 = 𝑟𝑟𝑡𝑡+1 + 𝛾𝛾𝑟𝑟𝑡𝑡+2 + ⋯ + 𝛾𝛾𝑘𝑘𝑡𝑡−1𝑟𝑟𝑡𝑡+𝑘𝑘𝑡𝑡 を使うことが多い ここで、 𝛾𝛾 を discount factor State Option Reward Policy 問題設定 𝜋𝜋(𝑜𝑜|𝑠𝑠) : probability of taking option 𝑜𝑜 in state 𝑠𝑠 regardless of the time 𝑡𝑡 𝜏𝜏𝑖𝑖 𝑖𝑖 ∈ℋ : history of driver trajectories MDP のイメージ Semi-MDP と MDP の違いのイメージ
  7. 6 Population-Based Online Learning Objective 提案手法 各時刻での order dispatch にもとづいて

    value function を更新させて学習 Positive Updates Negative Updates driver-order の matching が成功すると、 value function は 増大するように更新される driver が idle すると、 value function は減少するように更新される これらの Bellman Updates をもとに DQN 等と同様の考え方で bootstrapping-based の目的関数を構成し value function 𝑉𝑉𝜃𝜃 を学習 ここで、𝛿𝛿𝜃𝜃 𝑖𝑖 は temporal difference error Objective Key Idea to Learn Value Function
  8. 7 Value Ensemble with Offline Evaluation 提案手法 Regularized Offline Policy

    Evaluation Objective online objective との大きな違いは value function の input に時刻 𝑡𝑡 を活用すること online learning でしばしば生じる sample-inefficiency と overemphasis on recency への対応策として、 既知の history of driver trajectory ℋ も活用して学習する ここで、𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 はリプシッツ正則化項 非定常変化をとらえるため、一定期間が過ぎたら "reinitialize" する Periodic Value Ensemble
  9. 8 Unified Framework for Dispatch and Reposition 提案手法 driver と

    order を matching させる問題を以下のように 定式化して、これを解いた結果をアルゴリズム中で活用 Planning with Multi-Driver Dispatching Large-Scale Fleet Management repositioning を行うため、目的地の分布を以下の式で計算 ここで、 𝜌𝜌𝑖𝑖𝑖𝑖 は utility score
  10. 9 実験結果 Add. Drivers Add. Orders drivers が多くなると value は低下

    orders が多くなると value は増大 Performance Analysis Results 提案手法は state-of-the-art の性能に加えて、 KDD Cup 2020 RL の dispatching & repositioning でも優勝 実験結果
  11. 10 DigitalBCG GAMMA - 募集要項 勤務地 選考プロセス 書類選考、テクニカルテスト、複数回の面接 東京・京都・大阪オフィス データサイエンティスト

    ソフトウェアエンジニア/ データエンジニア 詳細はDigitalBCG Japanウェブサイト もしくは [email protected]へお問合せ下さい 職種