KDD2020 論文紹介

confidential Mobility Technologies Co., Ltd. KDD2020 論文紹介 2020/11/13 アルゴリズム第一グループ島越
直人

confidential Mobility Technologies Co., Ltd. 自己紹介 ▪ 名前 ▪ 島越
直人 (シマコシナオト) ▪ よくトリゴエと間違えられますがシマコシです。 ▪ Twitter ▪ @nt_4o54 ▪ 経歴 ▪ 奈良県出身 ▪ 京都大学機械理工学専攻卒業 ▪ 2019/04 ~ DeNA新卒入社 ▪ 2020/04 ~ Mobility Technologies出向中 ▪ Kaggle (@shimacos) ▪ ３つ (solo 1) ３つ (solo 3) ▪ 色々なドメインのコンペに出てます 2

confidential Mobility Technologies Co., Ltd. ST-SiameseNet: Spatio-Temporal Siamese Networks for
Human Mobility Signature Identification 3 KDD 2020 | ST-SiameseNet: Spatio-Temporal Siamese Networks for Human Mobility Signature Identification

confidential Mobility Technologies Co., Ltd. ▪ 危険運転などを検知するHuMID問題への取り組み ▪ 運転行動の軌跡データのみから人物を同定するST-SiameseNetを提案 ▪
taxiの軌跡データでF1 score 0.8508を達成し、既存手法を大きく上回る Summary 4

confidential Mobility Technologies Co., Ltd. ▪ 車両のプローブデータからprofile特徴量とonline特徴量を作成し、Siameseネットワークの構造を利用することで人物同定を行う。 Method 5

confidential Mobility Technologies Co., Ltd. ▪ Profile Feature ▪ 1hour,
1day, 1week単位で特徴量を作成 ▪ 最も長く滞在している場所、休憩の開始・終了時間、最も訪れた場所、平均的な探客時間・距離、平均的な乗車時間・距離、乗車回数など ▪ Online Feature ▪ としてmapのgrid id、時間、speedを使用 Data Preprocessing 6

confidential Mobility Technologies Co., Ltd. ▪ 探客しているtrajectoryと客が乗車しているtrajectoryをLSTM、profile featureを FCNの入力としたSiamese Networkを構築。
7 ST-SiameseNet

confidential Mobility Technologies Co., Ltd. ▪ ドライバー500人の前半5日間のデータで訓練を行い、訓練データに存在するドライバーの後半5日間のデータで検証、訓練データに用いていないドライバー 197人の後半5日間のデータでテストを行う。 ▪
Profile Featureだけを用いたSVMやST-SiameseNetのEmbeddingのL1距離のみを用いて分類したmodelより高精度。 Results 8

confidential Mobility Technologies Co., Ltd. ▪ Profile features only、trajectory onlyでもある程度精度はでるが、組み合わせる
ことでかなり精度向上する。 Results 9

confidential Mobility Technologies Co., Ltd. Learning Effective Road Network Representation
with Hierarchical Graph Neural Networks 10 KDD 2020 | Learning Effective Road Network Representation with Hierarchical Graph Neural Networks

confidential Mobility Technologies Co., Ltd. ▪ 道路ネットワークから”functional zone”, “structural regions”,
“road segments”のそれぞれのノード表現ベクトルを獲得するHierarchical Road Network Representation(HRNR)を提案。 ▪ ネットワーク構造と人の行動パターンの二つのデータから学習を行う。 ▪ downstreamタスクで他の手法より優れた精度を示した。 Summary 11

confidential Mobility Technologies Co., Ltd. ▪ Road Network ▪ ノードを場所、エッジをRoad
segmentとしたネットワーク ▪ Structural Region ▪ いくつかのRoad segmentを束ねたネットワークを1ノードとみなす ▪ Functional Zone ▪ いくつかのStrucutal Regionを束ねたネットワークを1ノードとみなす Network定義 12

confidential Mobility Technologies Co., Ltd. ▪ Road Network ▪ ノードを場所、エッジをRoad
segmentとしたネットワーク ▪ Structural Region ▪ いくつかのRoad segmentを束ねたネットワークを1ノードとみなす ▪ Functional Zone ▪ いくつかのStrucutal Regionを束ねたネットワークを1ノードとみなす Network定義 13 どのようにして求めるか

confidential Mobility Technologies Co., Ltd. ▪ IDや車線の数、道の長さ、緯度経度などをconcatさせたものをRoad Segmentにおける表現ベクトルの初期値とする。 HRNR:
Contextual Embedding 14

confidential Mobility Technologies Co., Ltd. ▪ IDや車線の数、道の長さ、緯度経度などをconcatさせたものをRoad Segmentにおける表現ベクトルの初期値とする。 ▪
Spectral Clusteringアルゴリズムを用いて各クラスターへの Mapping行列を求める。 ▪ Graph Attention Network (GAT)を用いてを求め、それを利用してとを求める。 HRNR: Modeling Structural Regions 15

confidential Mobility Technologies Co., Ltd. ▪ を教師信号なしに学習することは難しい。 ▪ ネットワークの再構成誤差を用いて学習させる。 ▪
Road Segmentのノード表現と隣接行列を以下のように再構成する。 ▪ 元の隣接行列を教師信号として、Cross Entropy損失で学習。 HRNR: Modeling Structural Regions 16

confidential Mobility Technologies Co., Ltd. ▪ Regionの時と同様にGATを用いてを求める。 ▪ 更に、
を用いてとを求める。 HRNR: Modeling Functional Zones 17 近傍ノードの求め方？ scalingのためのパラメータ (0.5)

confidential Mobility Technologies Co., Ltd. ▪ 実際の人の動きやタクシーの動きのデータを使い、 step以内に到達する確率を計算し、遷移行列を求める。更にそれを用いて以下のような行列を求める
▪ Regionの時と同様にを再構成して、との再構成誤差で学習。 ▪ Zoneには機能的な意味合いをもたせたいのでを教師信号として使う HRNR: Capturing Functional Characteristics 18

confidential Mobility Technologies Co., Ltd. Hierarchical Update Mechanism 19 ▪
前ページまでのLossを用いてとを学習 ▪ それらのMapping行列を用いてNodeベクトルをUpdateする。 ▪ Zone-level Update ▪ GCNを用いて、を更新し、更にGating mechanismを使ってを更新する。

confidential Mobility Technologies Co., Ltd. ▪ Region-level Update ▪ Zone-level
Updateと同様にGCNとGating mechanismを用いて更新。 ▪ Segment-level Update ▪ はbinaryの行列なのでGATで更新。 Hierarchical Update Mechanism 20

confidential Mobility Technologies Co., Ltd. ▪ DiDiのGAIAデータセットで4つのタスクについて検証 ▪ HRNRで学習させた後、downstreamタスクを解く ▪
全てのtaskでSoTA Results 21

confidential Mobility Technologies Co., Ltd. ▪ ある程度context的に意味のある地区がregionで固まっていたり、機能的に意味のありそうなところでzoneがちゃんと分かれている (らしい) Results
22

confidential Mobility Technologies Co., Ltd. Online Weighted Bipartite Matching with
Capacity Constraints 23 KDD 2020 | Online Weighted Bipartite Matching with Capacity Constraints

confidential Mobility Technologies Co., Ltd. ▪ ride-sharingサービスにおけるオンラインの二部グラフマッチング問題に対する一般的な解法を提案。 ▪ multi-capacityとmulti-demandに対応した既存手法よりも理論的に優れた性能を
示し、実験的にもその有効性を示した。 Summary 24

confidential Mobility Technologies Co., Ltd. ▪ としてグラフを定義 ▪ ：リクエスト、：車両、：エッジ
▪ 車両は各々がキャパシティを持ち、リクエストは需要の人数を持つ ▪ エッジは重みを持つ ▪ 車両はオフラインリソースとして扱え、リクエストはオンラインで扱う設定 ▪ driverは長い間待てるが、ユーザは即時マッチングを求めるため。 ▪ 1分以内にmatchしなければrejectとみなす。問題設定 25

confidential Mobility Technologies Co., Ltd. 定式化 26 ▪ オフラインの場合は、エッジの重み(報酬など)の和を最大化する線形計画問題として解ける。
マッチした需要数が車両のキャパシティを上回らないマッチしたエッジの数がリクエスト数を超えない

confidential Mobility Technologies Co., Ltd. ▪ オフラインの状況とオンラインの状況での期待値の比をCompetitive Ratioとして評価指標として用いる。 ▪
アルゴリズムのCompetitive Ratioを次のように定義。 Competitive Ratio 27

confidential Mobility Technologies Co., Ltd. ▪ オンラインリクエスト数：とリクエストの到着確率：を用いて次のように再定式化する。
再定式化 28

confidential Mobility Technologies Co., Ltd. ▪ 線形計画問題を一度解き、確率でその時点でマッチングを行うかを決める。 ▪ 証明は省くが、
の最大値をとした時、が保証される。 Randomized Online Algorithm - SAMP (α) 29 最初に一度のみLPを解く Random性のために、状況が刻一刻と変わるので再度LPをどこかで行った方が良い？

confidential Mobility Technologies Co., Ltd. ▪ SAMPにおいてどのタイミングで一番再度LPを解くのが効率的なのかを分析。 ▪ 回目のタイミングで解くことで、が保証され
る。 ▪ 更に、一度resolveしたタイミングで残っているリクエスト数に対して、再度同じヒューリスティックスを適用することで、次の式が保証される。 ▪ 何度もLPをするとその分計算時間がかかる。 ▪ となるノードは、同じグループとして扱うことで計算効率化。 Re-solving Heuristics 30 ※ 証明は論文参照

confidential Mobility Technologies Co., Ltd. ▪ New York city taxi
data set で、貪欲法と SAMP(1) 、 SAMP(1) に Re-solving Heuristics を加えた提案手法 (RES_1/D) の 3 つで比較実験を行った。 ▪ 需要が多い時 (r > 1 , k > 1) には提案手法が他の手法を約 20% 上回る。 ▪ 逆に、需要が少ないときには貪欲法でも十分。 Results 31

confidential Mobility Technologies Co., Ltd. Predicting Individual Treatment Effects of
Large- scale Team Competitions in a Ride-sharing Economy 32 KDD 2020 | Predicting Individual Treatment Effects of Large-scale Team Competitions in a Ride-sharing Economy

confidential Mobility Technologies Co., Ltd. ▪ DiDiのプラットフォームで乗務員同士で行われているコンペティションの話。 ▪ 一般的にタクシードライバーはキャリアなどの欠如に苦しんでいる。 ▪
チームコンペティションを行うことは、ドライバーの生産性、仕事の満足度、定着率を向上させ、プラットフォームの収益の向上に繋がる。 (平均で営収22%up) ▪ 500以上のコンペティションを分析することで、どのような要因がコンペの結果に影響を与えるのかを明らかにし、オンラインコンペの設計を最適化する方法を示した。 Summary 33

confidential Mobility Technologies Co., Ltd. Team Competitions of DiDi 34
1. 自分でチームを組む 2. 1以外のドライバーのうち90%はRecommender Systemによってチームを組み、10%はcontrol groupとして扱う Individual Treatment Effect (ITE) baseline periodに比べてどれだけ営収が上がったかを二つのグループで比較する competitionによって平均で営収が22%up !! ▪ Difference-in-Differences (DID)の手法で分析

confidential Mobility Technologies Co., Ltd. ▪ 個々のドライバーのコンペティション期間の営収に対して有する因果効果 (Individual Treatment Effect,
ITE)をGBRT (non-linear)とLasso (linear)で予測する。 ▪ 目的：どの特徴量がITEに影響を与えるかを知る ▪ 下記テーブルに代表されるような特徴量を555個作成 Method 35

confidential Mobility Technologies Co., Ltd. • TTE (Travel Time Estimation)
において大きく２つに分けられる ◦ segment-based methods: 道路segment ごとに予測し、その合算をする ▪ 並列に計算でき効率が良いが交差点などの文脈が考慮されない ◦ end-to-end methods: segment の系列を扱い直接travel 全体の時間を予測する ▪ 文脈が考慮でき高精度だが計算コストが膨大 • マルチタスクにすることで両方の長所をとるConSTGAT の開発 ◦ segment の予測値を事前計算することで高速に処理する Summury 36

confidential Mobility Technologies Co., Ltd. ▪ all-teamsとsystem-formed-teamsをそれぞれtreatment-groupとみなして比較。 ▪ 二つの結果に差異がなければ、system-formedの結果を一般化できるため。 ▪
予測のRMSEで比較したとき差異がなかったため一般化できると考えた。 ▪ GBRTのimportanceとLassoのcoefficientを見て総合的に判断。 ▪ supply << demand の場所では、Team competitionが有効。 ▪ DiDiを使い始めた日数が長いほどITEが高くなりやすい。 ▪ 普段の営業収入の分散が大きい人はITEが高くなりやすい。など。 Analysis 37

confidential Mobility Technologies Co., Ltd. ▪ Team形成について ▪ コンペ前の期間の営収がteamの最大値よりも低ければ低いほどteamに人に引っ張られて営収が高くなりやすい。
▪ 逆にtopの人は下がってしまう。-> helperとなる人にincentiveを与える？ ▪ 最終的に勝利したチームの平均営収と近いほどITEが高くなる (競争心があおられる？)。 Analysis 38

confidential Mobility Technologies Co., Ltd. ▪ Competition designについて ▪ ボーナスを多くすれば、ITEが高くなるわけではない。
▪ captainに追加ボーナスを与えるなどのチーム内の不公平性はマイナスに働く。 ▪ ビリのチームにもボーナスを与えてしまうとマイナスに働く。 ▪ チーム内のビリの人をteam performanceの計算から外すとマイナスに働く。 Analysis 39

confidential Mobility Technologies Co., Ltd. ▪ 以下の3つについて有無を切り替えて、Simulationを行った。 C1. captainがボーナスをもらうか C2.
ビリのチームがボーナスをもらうか C3. チーム内のビリのドライバーをteam performanceの計算から外すか ▪ SimulationはLasso回帰の予測値に対して、competition毎の予測誤差をGaussian noiseとして加えて行った。評価は1000回bootstrapをした。 ▪ Designの仕方の違うcompetition３つを対象に行い、C1-C3を切り替えることで、ROIが約55%上昇することを示した。 Results 40

KDD2020 論文紹介

KDD2020 論文紹介

More Decks by shimacos

Other Decks in Research

Featured

Transcript