Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Attentive Heterogeneous Graph Embedding for Job...

Sansan DSOC
October 07, 2021

Attentive Heterogeneous Graph Embedding for Job Mobility Prediction

■イベント 
:KDD2021 論文読み会
https://line.connpass.com/event/225520/

■登壇概要
タイトル:Attentive Heterogeneous Graph Embeddingfor Job Mobility Prediction
発表者: 
技術本部 DSOC R&D研究員  黒木 裕鷹

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

October 07, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Science

Transcript

  1. Data Strategy and Operation Center ⾃⼰紹介 ⿊⽊ 裕鷹 オンライン名刺 •

    2020年4⽉⼊社 • 採⽤サービスの研究開発や 転職市場の分析に従事 Yutaka Kuroki Sansan 株式会社 技術本部 R&D 研究員 @kur0cky_y
  2. Data Strategy and Operation Center 論⽂情報 • 学会:KDDʻ21 Research Track

    Paper • 著者: > 中国科学技術⼤学 と Baidu の共同研究 > Baidu には Talent Intelligence Center があり,HR 領域に注⼒している > 企業の HR×ML 研究は LinkedIn と Baidu の⼆⼤巨頭(私感)
  3. Data Strategy and Operation Center 1ページでまとめ 次に転職する企業・ポジションの予測 • 企業とポジションの相互作⽤を考慮する深層学習で⾼い精度 •

    異質なノード・エッジが混在する転職ネットワークの表現学習(GNN パート) • ノード:企業,ポジション • エッジ:企業の変更,ポジションの変更,帰属関係 • 埋め込み空間上での転職系列を学習(GRU パート) • 次の企業・ポジションを予測 • 企業・ポジションそれぞれの GRU に相互作⽤を持たせる
  4. Data Strategy and Operation Center HR 領域でのデータ分析 ⼤規模な職務経歴データ (e.g., LinkedIn)

    の蓄積に伴い,ML の適⽤が進む • 様々なトピック • スキル抽出・推薦,求⼈・候補者の検索・推薦,転職市場分析, キャリアパス,社内⼈事⽀援,選考⽀援,雇⽤機会均等 • KDD や RecSys 等を中⼼とした知⾒共有 • LinkedIn と Baidu の⼆⼤巨頭
  5. Data Strategy and Operation Center Job Mobility Prediction • 次のキャリアを予測する

    • 候補者と採⽤担当者の双⽅にメリット • 競合の調査にもなる • 先⾏研究 • encoder-decoder 型の,プロフィール統合×LSTM [1] • 2段LSTM(内部 job mobility à 外部 job mobility à 予測) [4] • 課題:個々の転職はよりマクロ情報やトレンドに影響されるのでは?
  6. Data Strategy and Operation Center 転職 Heterogeneous Graph • 企業の遷移とポジションの遷移,その相互作⽤が想定される

    > ⼈材市場のトレンドや業種・職種の隆盛 > ???「Web系エンジニアになりたいなぁ」 • ⽅針:明⽰的に Heterogeneous Graph を扱う > ノード,エッジ共に異質なものが⼊り交じる 企業 :Walmart à Google à Microsoft ポジション:Software Engineer à Senior Development Engineer à Senior Development Engineer ポジションの帰属: • Walmart には Software Engineer のポジション • Google,MS には Senior Development Engineer のポジション
  7. Data Strategy and Operation Center 提案⼿法:概要 GNN パート • AHGN

    (Attentive Heterogeneous Graph Embedding) > External aggregation:異質な近傍(企業-ポジション)の畳み込み > Internal aggregation: 転職(企業à企業,ポジションàポジション)の畳み込み 重み(回数・間隔)を考慮する attention > 統合:attention 時系列パート • Dual-GRU > 企業・ポジション・在籍期間の予測 > 企業特徴,ポジション特徴をそれぞれアラインするための attention
  8. Data Strategy and Operation Center データセット • LinkedIn から収集したキャリアデータ >

    職務経歴(約46万転職) > ユーザプロフィール > 企業情報(1380社,2098ポジション) • 前処理 > LinkedIn の役職コーパス IPOD [3] による機 能・職位の抽出 > テキストは doc2vec で埋め込む > カテゴリは one-hot encoding > duration(在籍期間)は半年ごとにカテゴリ化
  9. Data Strategy and Operation Center 実験設定 • タスク > 企業・ポジション・在籍期間予測

    > split: train/validation/test = 0.8/0.1/0.1 (group) • 評価指標 > 企業・ポジション予測:Accuracy@top-k, MRR > 在籍期間予測 :RMSE, MAE • ⽐較モデル > ⼀般 ML: LR, RF > 系列 NN: LSTM, GRU > career prediction: NEMO[1], HCPNN[4] > heterogeneous GNN: HAN[5], HGAT[2]
  10. Data Strategy and Operation Center 結果:ablation study • ⼯夫の重要性を確認(とはいえ微々たる差か) •

    Ahead-D: 独⽴な GRU×2 • Ahead-A: internal aggregation の attention 抜き • Ahead-T: interlnal, external 統合の attention 抜き Dual-GRU の有効性が顕著.企業と職種の相互作⽤が重要 internal も external も共に重要 ※縦軸に注意
  11. Data Strategy and Operation Center CaseStudy: Attention value の解釈 1

    次の会社を予測する場合,前の会社がより重要 > 夢の企業に⼊るためにはより適した前の会社を選ぶべきである 次の職種を予測する場合,前の職種がより重要 > 夢の職種に着くためには関連する前職に取り組むべきである > 当たり前体操 > 点が潰れて微妙な図に なってしまっているのが残念
  12. Data Strategy and Operation Center CaseStudy: Attention value の解釈 2

    前のポジション・企業に最⼤の Attention を払っているものTop5 > 会計事務所やコンサルティング会社が前企業を重要視している > マネジメント採⽤で前ポジションを重要視している
  13. Data Strategy and Operation Center CaseStudy: Attention value の解釈 3

    • ソフトウェアエンジニアの採⽤で⾼い競争⼒を誇る企業を推察 > 前職がエンジニアである全ての転職を抽出 > 転職元企業ごとに attention value の平均を算出 • 頻度とattention valueは⼤きく違う > 頻度⾼いからといってattention 獲得できるとは限らない > GAFAMが⾼い競争⼒を誇っている? > 他職種でも同様の分析ができる
  14. Data Strategy and Operation Center まとめ・感想 • 企業とポジションの相互作⽤を考慮する深層学習で⾼い精度 • ポジションの帰属関係を明⽰的に取り⼊れることで,基本スパースとなる転職デー

    タを緩くプールしている • 結構複雑に⾒えるが,意図を伴う最⼩限の⼯夫に留まりシンプルで良い • 学際寄りな HR 領域では,ドメインを受けたた⼯夫や case study の⾒せ⽅ が⾯⽩い,参考になる • データセットにかなり依存するので,精度がどの程度かは⼆の次 • 疑問 • ポジションの予測はどこまで正規化できているかに依存しそう • プロフィール⽂からのリークなど気を遣う点は多々ありそう
  15. Data Strategy and Operation Center 参考⽂献 1. Li, L., Jing,

    H., Tong, H., Yang, J., He, Q., & Chen, B. C. (2017). Nemo: Next career move prediction with contextual embedding. In Proceedings of the 26th International Conference on World Wide Web Companion. 505‒513. 2. Linmei, H., Yang, T., Shi, C., Ji, H., & Li, X. (2019). Heterogeneous graph attention networks for semi-supervised short text classification. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 4821‒4830. 3. Liu, J., Ng, Y. C., Wood, K. L., & Lim, K. H. (2020). IPOD: A Large-scale Industrial and Professional Occupation Dataset. In Conference Companion Publication of the 2020 on Computer Supported Cooperative Work and Social Computing. 323‒328. 4. Meng, Q., Zhu, H., Xiao, K., Zhang, L., & Xiong, H. (2019). A hierarchical career-path-aware neural network for job mobility prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 14‒24. 5. Wang, X., Ji, H., Shi, C., Wang, B., Ye, Y., Cui, P., & Yu, P. S. (2019). Heterogeneous graph attention network. In The World Wide Web Conference. 2022‒2032. 6. Zhang, L., Zhou, D., Zhu, H., Xu, T., Zha, R., Chen, E., & Xiong, H. (2021). Attentive heterogeneous graph embedding for job mobility prediction. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2192‒2201.