Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KDD2020 論文紹介

Dca4f8abd1e78940052ee52c85c4d2ed?s=47 shimacos
November 13, 2020

KDD2020 論文紹介

社内の輪講で発表した資料です。
Transportation分野の発表を中心に以下の4つの論文についてまとめました。
「ST-SiameseNet: Spatio-Temporal Siamese Networks for Human Mobility Signature Identification」
「Learning Effective Road Network Representation with Hierarchical Graph Neural Networks」
「Online Weighted Bipartite Matching with Capacity Constraints」
「Predicting Individual Treatment Effects of Large-scale Team Competitions in a Ride-sharing Economy」

Dca4f8abd1e78940052ee52c85c4d2ed?s=128

shimacos

November 13, 2020
Tweet

Transcript

  1. confidential Mobility Technologies Co., Ltd. KDD2020 論文紹介 2020/11/13 アルゴリズム第一グループ 島越

    直人
  2. confidential Mobility Technologies Co., Ltd. 自己紹介 ▪ 名前 ▪ 島越

    直人 (シマコシ ナオト) ▪ よくトリゴエと間違えられますがシマコシです。 ▪ Twitter ▪ @nt_4o54 ▪ 経歴 ▪ 奈良県出身 ▪ 京都大学 機械理工学専攻 卒業 ▪ 2019/04 ~ DeNA新卒入社 ▪ 2020/04 ~ Mobility Technologies出向中 ▪ Kaggle (@shimacos) ▪ 3つ (solo 1) 3つ (solo 3) ▪ 色々なドメインのコンペに出てます 2
  3. confidential Mobility Technologies Co., Ltd. ST-SiameseNet: Spatio-Temporal Siamese Networks for

    Human Mobility Signature Identification 3 KDD 2020 | ST-SiameseNet: Spatio-Temporal Siamese Networks for Human Mobility Signature Identification
  4. confidential Mobility Technologies Co., Ltd. ▪ 危険運転などを検知するHuMID問題への取り組み ▪ 運転行動の軌跡データのみから人物を同定するST-SiameseNetを提案 ▪

    taxiの軌跡データでF1 score 0.8508を達成し、既存手法を大きく上回る Summary 4
  5. confidential Mobility Technologies Co., Ltd. ▪ 車両のプローブデータからprofile特徴量とonline特徴量を作成し、Siameseネッ トワークの構造を利用することで人物同定を行う。 Method 5

  6. confidential Mobility Technologies Co., Ltd. ▪ Profile Feature ▪ 1hour,

    1day, 1week単位で特徴量を作成 ▪ 最も長く滞在している場所、休憩の開始・終了時間、最も訪れた場所、平 均的な探客時間・距離、平均的な乗車時間・距離、乗車回数など ▪ Online Feature ▪ としてmapのgrid id、時間、speedを使用 Data Preprocessing 6
  7. confidential Mobility Technologies Co., Ltd. ▪ 探客しているtrajectoryと客が乗車しているtrajectoryをLSTM、profile featureを FCNの入力としたSiamese Networkを構築。

    7 ST-SiameseNet
  8. confidential Mobility Technologies Co., Ltd. ▪ ドライバー500人の前半5日間のデータで訓練を行い、訓練データに存在するド ライバーの後半5日間のデータで検証、訓練データに用いていないドライバー 197人の後半5日間のデータでテストを行う。 ▪

    Profile Featureだけを用いたSVMやST-SiameseNetのEmbeddingのL1距離のみを用 いて分類したmodelより高精度。 Results 8
  9. confidential Mobility Technologies Co., Ltd. ▪ Profile features only、trajectory onlyでもある程度精度はでるが、組み合わせる

    ことでかなり精度向上する。 Results 9
  10. confidential Mobility Technologies Co., Ltd. Learning Effective Road Network Representation

    with Hierarchical Graph Neural Networks 10 KDD 2020 | Learning Effective Road Network Representation with Hierarchical Graph Neural Networks
  11. confidential Mobility Technologies Co., Ltd. ▪ 道路ネットワークから”functional zone”, “structural regions”,

    “road segments”のそ れぞれのノード表現ベクトルを獲得するHierarchical Road Network Representation(HRNR)を提案。 ▪ ネットワーク構造と人の行動パターンの二つのデータから学習を行う。 ▪ downstreamタスクで他の手法より優れた精度を示した。 Summary 11
  12. confidential Mobility Technologies Co., Ltd. ▪ Road Network ▪ ノードを場所、エッジをRoad

    segmentとしたネットワーク ▪ Structural Region ▪ いくつかのRoad segmentを束ねたネットワークを1ノードとみなす ▪ Functional Zone ▪ いくつかのStrucutal Regionを束ねたネットワークを1ノードとみなす Network定義 12
  13. confidential Mobility Technologies Co., Ltd. ▪ Road Network ▪ ノードを場所、エッジをRoad

    segmentとしたネットワーク ▪ Structural Region ▪ いくつかのRoad segmentを束ねたネットワークを1ノードとみなす ▪ Functional Zone ▪ いくつかのStrucutal Regionを束ねたネットワークを1ノードとみなす Network定義 13 どのようにして求めるか
  14. confidential Mobility Technologies Co., Ltd. ▪ IDや車線の数、道の長さ、緯度経度などをconcatさせたものをRoad Segmentに おける表現ベクトルの初期値とする。 HRNR:

    Contextual Embedding 14
  15. confidential Mobility Technologies Co., Ltd. ▪ IDや車線の数、道の長さ、緯度経度などをconcatさせたものをRoad Segmentに おける表現ベクトルの初期値とする。 ▪

    Spectral Clusteringアルゴリズムを用いて各クラスターへの Mapping行列を求める。 ▪ Graph Attention Network (GAT)を用いて を求め、それを 利用して と を求める。 HRNR: Modeling Structural Regions 15
  16. confidential Mobility Technologies Co., Ltd. ▪ を教師信号なしに学習することは難しい。 ▪ ネットワークの再構成誤差を用いて学習させる。 ▪

    Road Segmentのノード表現と隣接行列を以下のように再構成する。 ▪ 元の隣接行列を教師信号として、Cross Entropy損失で学習。 HRNR: Modeling Structural Regions 16
  17. confidential Mobility Technologies Co., Ltd. ▪ Regionの時と同様にGATを用いて を求める。 ▪ 更に、

    を用いて と を求める。 HRNR: Modeling Functional Zones 17 近傍ノードの求め方? scalingのためのパラメータ (0.5)
  18. confidential Mobility Technologies Co., Ltd. ▪ 実際の人の動きやタクシーの動きのデータを使い、 step以内に到達する確率を 計算し、遷移行列 を求める。更にそれを用いて以下のような行列を求める

    ▪ Regionの時と同様に を再構成して、 との再構成誤差で 学習。 ▪ Zoneには機能的な意味合いをもたせたいので を教師 信号として使う HRNR: Capturing Functional Characteristics 18
  19. confidential Mobility Technologies Co., Ltd. Hierarchical Update Mechanism 19 ▪

    前ページまでのLossを用いて と を学習 ▪ それらのMapping行列を用いてNodeベクトルをUpdateする。 ▪ Zone-level Update ▪ GCNを用いて、 を更新し、更にGating mechanismを使って を更新する。
  20. confidential Mobility Technologies Co., Ltd. ▪ Region-level Update ▪ Zone-level

    Updateと同様にGCNとGating mechanismを用いて更新。 ▪ Segment-level Update ▪ はbinaryの行列なのでGATで更新。 Hierarchical Update Mechanism 20
  21. confidential Mobility Technologies Co., Ltd. ▪ DiDiのGAIAデータセットで4つのタスクについて検証 ▪ HRNRで学習させた後、downstreamタスクを解く ▪

    全てのtaskでSoTA Results 21
  22. confidential Mobility Technologies Co., Ltd. ▪ ある程度context的に意味のある地区がregionで固まっていたり、機能的に意味 のありそうなところでzoneがちゃんと分かれている (らしい) Results

    22
  23. confidential Mobility Technologies Co., Ltd. Online Weighted Bipartite Matching with

    Capacity Constraints 23 KDD 2020 | Online Weighted Bipartite Matching with Capacity Constraints
  24. confidential Mobility Technologies Co., Ltd. ▪ ride-sharingサービスにおけるオンラインの二部グラフマッチング問題に対する 一般的な解法を提案。 ▪ multi-capacityとmulti-demandに対応した既存手法よりも理論的に優れた性能を

    示し、実験的にもその有効性を示した。 Summary 24
  25. confidential Mobility Technologies Co., Ltd. ▪ としてグラフを定義 ▪ :リクエスト、:車両、 :エッジ

    ▪ 車両は各々がキャパシティ を持ち、リクエストは需要の人数 を持つ ▪ エッジは重み を持つ ▪ 車両はオフラインリソースとして扱え、リクエストはオンラインで扱う設定 ▪ driverは長い間待てるが、ユーザは即時マッチングを求めるため。 ▪ 1分以内にmatchしなければrejectとみなす。 問題設定 25
  26. confidential Mobility Technologies Co., Ltd. 定式化 26 ▪ オフラインの場合は、エッジの重み(報酬など)の和を最大化する線形計画問題 として解ける。

    マッチした需要数が車両のキ ャパシティを上回らない マッチしたエッジの数が リクエスト数を超えない
  27. confidential Mobility Technologies Co., Ltd. ▪ オフラインの状況とオンラインの状況での期待値の比をCompetitive Ratioとし て評価指標として用いる。 ▪

    アルゴリズム のCompetitive Ratioを次のように定義。 Competitive Ratio 27
  28. confidential Mobility Technologies Co., Ltd. ▪ オンラインリクエスト数: とリクエストの到着確率: を用いて次のように 再定式化する。

    再定式化 28
  29. confidential Mobility Technologies Co., Ltd. ▪ 線形計画問題を一度解き、確率 でその時点でマッチングを行うかを決める。 ▪ 証明は省くが、

    の最大値を とした時、 が保証される。 Randomized Online Algorithm - SAMP (α) 29 最初に一度のみLPを解く Random性のために、 状況が刻一刻と変わるので 再度LPをどこかで行った方が良い?
  30. confidential Mobility Technologies Co., Ltd. ▪ SAMPにおいてどのタイミングで一番再度LPを解くのが効率的なのかを分析。 ▪ 回目のタイミングで解くことで、 が保証され

    る。 ▪ 更に、一度resolveしたタイミングで残っているリクエスト数 に対して、 再度同じヒューリスティックスを適用することで、次の式が保証される。 ▪ 何度もLPをするとその分計算時間がかかる。 ▪ となるノードは、同じグループとして扱うことで計算効率化。 Re-solving Heuristics 30 ※ 証明は論文参照
  31. confidential Mobility Technologies Co., Ltd. ▪ New York city taxi

    data set で、貪欲法と SAMP(1) 、 SAMP(1) に Re-solving Heuristics を加えた提案手法 (RES_1/D) の 3 つで比較実験を行った。 ▪ 需要が多い時 (r > 1 , k > 1) には提案手法が他の手法を約 20% 上回る。 ▪ 逆に、需要が少ないときには貪欲法でも十分。 Results 31
  32. confidential Mobility Technologies Co., Ltd. Predicting Individual Treatment Effects of

    Large- scale Team Competitions in a Ride-sharing Economy 32 KDD 2020 | Predicting Individual Treatment Effects of Large-scale Team Competitions in a Ride-sharing Economy
  33. confidential Mobility Technologies Co., Ltd. ▪ DiDiのプラットフォームで乗務員同士で行われているコンペティションの話。 ▪ 一般的にタクシードライバーはキャリアなどの欠如に苦しんでいる。 ▪

    チームコンペティションを行うことは、ドライバーの生産性、仕事の満足 度、定着率を向上させ、プラットフォームの収益の向上に繋がる。 (平均で 営収22%up) ▪ 500以上のコンペティションを分析することで、どのような要因がコンペの結 果に影響を与えるのかを明らかにし、オンラインコンペの設計を最適化する方 法を示した。 Summary 33
  34. confidential Mobility Technologies Co., Ltd. Team Competitions of DiDi 34

    1. 自分でチームを組む 2. 1以外のドライバーのうち90%はRecommender Systemによって チームを組み、10%はcontrol groupとして扱う Individual Treatment Effect (ITE) baseline periodに比べてどれだけ営収が上 がったかを二つのグループで比較する competitionによって 平均で営収が22%up !! ▪ Difference-in-Differences (DID)の手法で分析
  35. confidential Mobility Technologies Co., Ltd. ▪ 個々のドライバーのコンペティション期間の営収に対して有する因果効果 (Individual Treatment Effect,

    ITE)をGBRT (non-linear)とLasso (linear)で予測する。 ▪ 目的:どの特徴量がITEに影響を与えるかを知る ▪ 下記テーブルに代表されるような特徴量を555個作成 Method 35
  36. confidential Mobility Technologies Co., Ltd. • TTE (Travel Time Estimation)

    において大きく2つに分けられる ◦ segment-based methods: 道路segment ごとに予測し、その合算をする ▪ 並列に計算でき効率が良いが交差点などの文脈が考慮されない ◦ end-to-end methods: segment の系列を扱い直接travel 全体の時間を予測する ▪ 文脈が考慮でき高精度だが計算コストが膨大 • マルチタスクにすることで両方の長所をとるConSTGAT の開発 ◦ segment の予測値を事前計算することで高速に処理する Summury 36
  37. confidential Mobility Technologies Co., Ltd. ▪ all-teamsとsystem-formed-teamsをそれぞれtreatment-groupとみなして比較。 ▪ 二つの結果に差異がなければ、system-formedの結果を一般化できるため。 ▪

    予測のRMSEで比較したとき差異がなかったため一般化できると考えた。 ▪ GBRTのimportanceとLassoのcoefficientを見て総合的に判断。 ▪ supply << demand の場所では、Team competitionが有効。 ▪ DiDiを使い始めた日数が長いほどITEが高くなりやすい。 ▪ 普段の営業収入の分散が大きい人はITEが高くなりやすい。など。 Analysis 37
  38. confidential Mobility Technologies Co., Ltd. ▪ Team形成について ▪ コンペ前の期間の営収がteamの最大値よりも低ければ低いほどteamに人に 引っ張られて営収が高くなりやすい。

    ▪ 逆にtopの人は下がってしまう。-> helperとなる人にincentiveを与える? ▪ 最終的に勝利したチームの平均営収と近いほどITEが高くなる (競争心があ おられる?)。 Analysis 38
  39. confidential Mobility Technologies Co., Ltd. ▪ Competition designについて ▪ ボーナスを多くすれば、ITEが高くなるわけではない。

    ▪ captainに追加ボーナスを与えるなどのチーム内の不公平性はマイナスに働 く。 ▪ ビリのチームにもボーナスを与えてしまうとマイナスに働く。 ▪ チーム内のビリの人をteam performanceの計算から外すとマイナスに働く。 Analysis 39
  40. confidential Mobility Technologies Co., Ltd. ▪ 以下の3つについて有無を切り替えて、Simulationを行った。 C1. captainがボーナスをもらうか C2.

    ビリのチームがボーナスをもらうか C3. チーム内のビリのドライバーをteam performanceの計算から外すか ▪ SimulationはLasso回帰の予測値に対して、competition毎の予測誤差をGaussian noiseとして加えて行った。評価は1000回bootstrapをした。 ▪ Designの仕方の違うcompetition3つを対象に行い、C1-C3を切り替えること で、ROIが約55%上昇することを示した。 Results 40
  41. confidential 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Mobility Technologies Co., Ltd.