名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み / Building Search for People and Businesses Beyond Business Cards

13d936e697fe0f4fa96f926d0a712f6c?s=47 Sansan
March 03, 2020

名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み / Building Search for People and Businesses Beyond Business Cards

■イベント 
DEIM2020 第12回データ工学と情報マネジメントに関するフォーラム
https://db-event.jpn.org/deim2020/

■登壇概要 

タイトル:名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み
発表者: 
DSOC 研究開発部 Data Analysis Group 奥田 裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan

March 03, 2020
Tweet

Transcript

  1. 名刺を超えて⼈や企業を検索する Sansan株式会社 DSOC 奥⽥裕樹 Sansanにおける検索システムへの取り組み [A5] 情報検索③

  2. Company Profile 1

  3. Data Strategy and Operation Center アジェンダ Sansan株式会社の紹介 - なぜ名刺?なぜ検索? ⼈を検索する

    - “似ている”⼈を探し出したい 企業を検索する - 企業の名前ではなくサービスで検索する
  4. None
  5. 名刺管理サービス 名刺アプリ

  6. ユーザ数 ※1 企業数 ※2 ※1 2019年9⽉時点 ※2 https://www.houjin-bangou.nta.go.jp/setsumei/houjin-bangou_joho/ 250万⼈ 490万社

  7. ⼈を検索する

  8. 企業の採⽤担当者がEight上でユーザーへ、採⽤のスカウトメールを送付できるサービス 28歳 システムエンジニア NiNi株式会社 情報システム部 31歳 サーバサイドエンジニア Sansan株式会社 事業部SRE部 28歳

    フロントエンドエンジニア Ichiichi株式会社 システムデザイン部 31歳 デザイナー Yonyon株式会社 開発部 Eightを 利⽤している企業 スカウトメール
  9. Data Strategy and Operation Center ダイレクトスカウトにおける採⽤の課題 膨⼤なEightのユーザの中から⾃社に求める⼈材を探すのが難しい 検索対象のドキュメントが膨⼤でかつ⽋損が多い 検索結果のランキングで検討する要素が多い ⼈事の採⽤担当者が現場のニーズを的確に把握できない

    適切な検索クエリを指定できない 類似⼈物検索で⾃社で活躍している⼈と近い候補者を検索
  10. Data Strategy and Operation Center 類似⼈物検索 グラフ埋め込み Graph Embeddings -

    名刺の交換 = ノードとエッジの関係 - 各ノードを固定次元の分散ベクトルで表現する - Pytorch BigGraphを利⽤ 近似最近傍探索 Approximate Nearest Neighbor - 数百万 × 数百万の類似度を都度計算するのは困難 - あらかじめインデックスを作成しておくことで⾼速に近傍を探索
  11. Data Strategy and Operation Center 継続的なサービス運⽤に向けた研究開発 新規ユーザをどうするか? - グラフ埋め込みの再構築にはコストがかかる 未知ノードのグラフ埋め込みの近似

    - 名刺交換履歴を元に、 隣接するユーザの属性情報をうまく活⽤する IBIS2019にてポスター発表
  12. 企業を検索する

  13. Data Strategy and Operation Center Sansanにおける企業検索 Sansanでは⾃社内で取り込まれた名刺を検索したり閲覧できる - 名刺を共有 =

    ⼈脈を共有 - 「早く⾔ってよぉ〜」な世界 名刺を検索する - 検索クエリは、企業名や⽒名、Emailアドレス、住所など
  14. Data Strategy and Operation Center かならずしも企業名が思いつくわけではない - e.g. 飲料ブランドの企業、居酒屋の運営企業、代理店、etc. 適切な検索クエリを想起できない

    常に新しい会社やサービスが⽣まれる 検索インデックスを更新し続ける必要性 検索の課題 キーワードを⾃動で検索インデックスとして登録する仕組み
  15. Data Strategy and Operation Center 企業キーワードの収集 名刺アプリEight、企業の課題解決を後押しするビジネスイベント「Meets」を発表 〜ビジネスの「買いたい」と「売りたい」をつなぐ〜 Sansan株式会社は、同社が提供する名刺アプリ「Eight」から、ビジネスイベント 「Meets(ミーツ)」が提供されたことを発表します。

    Meetsは、 Eightのテクノロジー を活⽤し、サービスを「買いたい⼈」と「売りたい⼈」とをつなぎ、社会の⽣産性を上 げるビジネスイベントです。 買いたい 売りたい ニュース記事を収集 ルールベースで企業キーワード 候補を抽出 企業キーワード候補が適切かを ⼆値分類 Eight Meets(ミーツ) Eight Meets(ミーツ)
  16. Data Strategy and Operation Center 固有表現抽出 Contextual String Embeddings -

    ⽂字と単語の埋め込みを利⽤し、 前後のコンテキストも含める - Flairにより実装 結果 - ベースラインと⽐較して⾼精度で判定可能 - 固有表現にルールがあるわけではないので、 コンテキストを捉える必要があった NLP2020でポスター発表予定 Akbik et al., 2018より引⽤ https://github.com/flairNLP/flair
  17. Data Strategy and Operation Center まとめ Sansan株式会社の紹介 - クラウド名刺管理を超えて、⼈との出会いを活⽤できる社会へ ⼈を検索する

    - 類似⼈物検索で適した候補者を検索 - グラフ埋め込みと近似最近傍探索 企業を検索する - あらゆるキーワードで企業を検索できるようインデックスを拡張 - ニュース記事からの固有表現抽出により⾃動で収集する仕組み化
  18. None