kdd2021_reading_value_function_is_all_you_need_a_unified_learning_framework_for_ride_hailing_platforms.pdf

0 Value Function is All You Need: A Unified Learning
Framework for Ride Hailing Platforms Xiaocheng Tang, Fan Zhang, Zhiwei Qin, Yansheng Wang, Dingyuan Shi, Bingchen Song, Yongxin Tong, Hongtu Zhu, Jieping Ye 鹿野英明 @ BCG GAMMA KDD2021 論文読み会 Twitter: #kdd2021_reading

1 自己紹介鹿野英明 Kano, Hideaki 経歴 • 2019年 09月
– 現在: データサイエンティスト, BCG, DigitalBCG Japan, BCG GAMMA • 2018年 04月 - 2019年 08月: エンジニア, リクルートコミュニケーションズ (RCO) • 2017年 03月 – 2018年 03月: リサーチアシスタント, RIKEN AIP • 2018年 03月: 修士, 東京大学大学院新領域創成科学研究科複雑理工学専攻杉山研究室 • 2016年 03月: 学士, 北海道大学工学部情報ｴﾚｸﾄﾛﾆｸｽ学科ｺﾝﾋﾟｭｰﾀｻｲｴﾝｽｺｰｽ今井研究室経験領域 • ｼｪｱﾘﾝｸﾞｴｺﾉﾐｰ: ｼﾐｭﾚｰｼｮﾝ, 数理最適化 • 保険: 顧客特性分析 • ヘルスケア: 疾病予測 • 小売り: 需要予測, 商品特性分析 • 物流: 需要予測, 数理最適化過去の活動 • JSAI2021 のランチョンセミナーにて以下の発表を行いました「AI技術とデータによる社会変革のインパクト創出を目指した、AI人材教育と医療データ活用の取り組み」 https://www.ai-gakkai.or.jp/jsai2021/night-luncheon • 今年1月に TECH PLAY の以下のイベントに登壇いたしました「ボストンコンサルティンググループ（BCG）が仕掛けるデジタル産業イノベーション事例【ビジネス（経営）×データサイエンス】」 https://techplay.jp/column/1475 • リクルート在籍時に「多腕バンディット問題と A/B テスト」という解説記事を書きました https://www.rco.recruit.co.jp/career/engineer/blog/bandit/ • リクルート在籍時に以下の紹介記事を書きました「新人エンジニア主催で ISUCON に機械学習の要素を取り入れた新しいタイプのコンテストを開催しました」 https://www.rco.recruit.co.jp/career/engineer/blog/pigicon/

2 本日の内容問題設定 • 配車プラットフォームにおける "不" と解決へのアプローチ • Semi-Markov
Decision Process としての Order Dispatching 提案手法 • Population-Based Online Learning Objective • Value Ensemble With Offline Evaluation • Unified Framework For Dispatch and Reposition 実験結果

3 idle drivers を未来の需要のために別の場所に移動させること Order Dispatching とは異なり、目的地が自由賢く移動させないと、以下の問題が発生 • 高需要エリアへの一極集中
• driver income の低下 Order Dispatching 配車プラットフォームにおける "不" と解決へのアプローチ Vehicle Repositioning 高需要エリアへの過度な一極集中等の “不” を避けつつ driver income と waiting time を最適化するには、以下の課題を対処することが重要 open trip orders と idle drivers のマッチング drivers の未来の spatial distributions に影響するため、後続の dispatching にも影響 (e.g. 高需要エリアから高需要エリアに運びたい) 賢くマッチングできないと、以下の問題が発生 • waiting time の増加 • order completion rate の低下 … 問題設定

4 idle drivers を未来の需要のために別の場所に移動させること Order Dispatching とは異なり、目的地が自由賢く移動させないと、以下の問題が発生 • 高需要エリアへの一極集中
• driver income の低下 Order Dispatching 配車プラットフォームにおける "不" と解決へのアプローチ Vehicle Repositioning 高需要エリアへの過度な一極集中等の “不” を避けつつ driver income と waiting time を最適化するには、以下の課題を対処することが重要 open trip orders と idle drivers のマッチング drivers の未来の spatial distributions に影響するため、後続の dispatching にも影響 (e.g. 高需要エリアから高需要エリアに運びたい) 賢くマッチングできないと、以下の問題が発生 • waiting time の増加 • order completion rate の低下 … 提案手法では explicit に Vehicle Repositioning を考えなくても、 Value Function に基づいて車両を移動させておけば、よしなに車両の分布が調整される問題設定

5 Semi-Markov Decision Process (Semi-MDP) としての Order Dispatching 時刻 𝑡𝑡
で driver 𝑖𝑖 は option 𝑜𝑜𝑡𝑡 𝑖𝑖 を行い、状態 𝑠𝑠𝑡𝑡 𝑖𝑖 から状態 𝑠𝑠 𝑡𝑡′ 𝑖𝑖 へ遷移し、報酬 𝑟𝑟𝑡𝑡 𝑖𝑖 を受け取る 𝑠𝑠𝑡𝑡 ≔ (𝑙𝑙𝑡𝑡 , 𝜇𝜇𝑡𝑡 , 𝜈𝜈𝑡𝑡 𝑑𝑑, 𝜈𝜈𝑡𝑡 𝑠𝑠) • 𝑙𝑙𝑡𝑡 : location status of the driver • 𝜇𝜇𝑡𝑡 : time scale 𝜈𝜈𝑡𝑡 𝑑𝑑 : dynamic feature • 𝜈𝜈𝑡𝑡 𝑠𝑠 : static feature 𝑜𝑜𝑡𝑡 ≔ 𝑙𝑙𝑡𝑡+𝑘𝑘𝑡𝑡 • kt : duration of the transition 各 option を実行するにあたって必要となる期間が異なるのが、 MDP との大きな違い 𝑅𝑅𝑡𝑡 : option 𝑜𝑜𝑡𝑡 を実行し 𝑠𝑠𝑡𝑡 から 𝑠𝑠𝑡𝑡′ へ至るまでに得られる報酬の総和定義は以下の通り 𝑅𝑅𝑡𝑡 ≔ ∑ 𝑖𝑖 𝑘𝑘𝑡𝑡 𝑟𝑟𝑡𝑡+𝑖𝑖 実際には未来の報酬を割り引いた � 𝑅𝑅𝑡𝑡 = 𝑟𝑟𝑡𝑡+1 + 𝛾𝛾𝑟𝑟𝑡𝑡+2 + ⋯ + 𝛾𝛾𝑘𝑘𝑡𝑡−1𝑟𝑟𝑡𝑡+𝑘𝑘𝑡𝑡 を使うことが多いここで、 𝛾𝛾 を discount factor State Option Reward Policy 問題設定 𝜋𝜋(𝑜𝑜|𝑠𝑠) : probability of taking option 𝑜𝑜 in state 𝑠𝑠 regardless of the time 𝑡𝑡 𝜏𝜏𝑖𝑖 𝑖𝑖 ∈ℋ : history of driver trajectories MDP のイメージ Semi-MDP と MDP の違いのイメージ

6 Population-Based Online Learning Objective 提案手法各時刻での order dispatch にもとづいて
value function を更新させて学習 Positive Updates Negative Updates driver-order の matching が成功すると、 value function は増大するように更新される driver が idle すると、 value function は減少するように更新されるこれらの Bellman Updates をもとに DQN 等と同様の考え方で bootstrapping-based の目的関数を構成し value function 𝑉𝑉𝜃𝜃 を学習ここで、𝛿𝛿𝜃𝜃 𝑖𝑖 は temporal difference error Objective Key Idea to Learn Value Function

7 Value Ensemble with Offline Evaluation 提案手法 Regularized Offline Policy
Evaluation Objective online objective との大きな違いは value function の input に時刻 𝑡𝑡 を活用すること online learning でしばしば生じる sample-inefficiency と overemphasis on recency への対応策として、既知の history of driver trajectory ℋ も活用して学習するここで、𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 はリプシッツ正則化項非定常変化をとらえるため、一定期間が過ぎたら "reinitialize" する Periodic Value Ensemble

8 Unified Framework for Dispatch and Reposition 提案手法 driver と
order を matching させる問題を以下のように定式化して、これを解いた結果をアルゴリズム中で活用 Planning with Multi-Driver Dispatching Large-Scale Fleet Management repositioning を行うため、目的地の分布を以下の式で計算ここで、 𝜌𝜌𝑖𝑖𝑖𝑖 は utility score

9 実験結果 Add. Drivers Add. Orders drivers が多くなると value は低下
orders が多くなると value は増大 Performance Analysis Results 提案手法は state-of-the-art の性能に加えて、 KDD Cup 2020 RL の dispatching & repositioning でも優勝実験結果

10 DigitalBCG GAMMA - 募集要項勤務地選考プロセス書類選考、テクニカルテスト、複数回の面接東京・京都・大阪オフィスデータサイエンティスト
ソフトウェアエンジニア/ データエンジニア詳細はDigitalBCG Japanウェブサイトもしくは [email protected]へお問合せ下さい職種

kdd2021_reading_value_function_is_all_you_need_...

kdd2021_reading_value_function_is_all_you_need_a_unified_learning_framework_for_ride_hailing_platforms.pdf

Hideaki Kano

More Decks by Hideaki Kano

Featured

Transcript

0 Value Function is All You Need: A Unified Learning

1 自己紹介鹿野英明 Kano, Hideaki 経歴 • 2019年 09月

2 本日の内容問題設定 • 配車プラットフォームにおける "不" と解決へのアプローチ • Semi-Markov

3 idle drivers を未来の需要のために別の場所に移動させること Order Dispatching とは異なり、目的地が自由賢く移動させないと、以下の問題が発生 • 高需要エリアへの一極集中

4 idle drivers を未来の需要のために別の場所に移動させること Order Dispatching とは異なり、目的地が自由賢く移動させないと、以下の問題が発生 • 高需要エリアへの一極集中

5 Semi-Markov Decision Process (Semi-MDP) としての Order Dispatching 時刻 𝑡𝑡

6 Population-Based Online Learning Objective 提案手法各時刻での order dispatch にもとづいて

7 Value Ensemble with Offline Evaluation 提案手法 Regularized Offline Policy

8 Unified Framework for Dispatch and Reposition 提案手法 driver と

9 実験結果 Add. Drivers Add. Orders drivers が多くなると value は低下

10 DigitalBCG GAMMA - 募集要項勤務地選考プロセス書類選考、テクニカルテスト、複数回の面接東京・京都・大阪オフィスデータサイエンティスト