$30 off During Our Annual Pro Sale. View Details »

名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み / Building Search for People and Businesses Beyond Business Cards

Sansan
March 03, 2020

名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み / Building Search for People and Businesses Beyond Business Cards

■イベント 
DEIM2020 第12回データ工学と情報マネジメントに関するフォーラム
https://db-event.jpn.org/deim2020/

■登壇概要 

タイトル:名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み
発表者: 
DSOC 研究開発部 Data Analysis Group 奥田 裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

March 03, 2020
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. 名刺を超えて⼈や企業を検索する
    Sansan株式会社 DSOC
    奥⽥裕樹
    Sansanにおける検索システムへの取り組み
    [A5] 情報検索③

    View Slide

  2. Company Profile
    1

    View Slide

  3. Data Strategy and Operation Center
    アジェンダ
    Sansan株式会社の紹介
    - なぜ名刺?なぜ検索?
    ⼈を検索する
    - “似ている”⼈を探し出したい
    企業を検索する
    - 企業の名前ではなくサービスで検索する

    View Slide

  4. View Slide

  5. 名刺管理サービス 名刺アプリ

    View Slide

  6. ユーザ数 ※1
    企業数 ※2
    ※1 2019年9⽉時点
    ※2 https://www.houjin-bangou.nta.go.jp/setsumei/houjin-bangou_joho/
    250万⼈
    490万社

    View Slide

  7. ⼈を検索する

    View Slide

  8. 企業の採⽤担当者がEight上でユーザーへ、採⽤のスカウトメールを送付できるサービス
    28歳 システムエンジニア
    NiNi株式会社 情報システム部
    31歳 サーバサイドエンジニア
    Sansan株式会社 事業部SRE部
    28歳 フロントエンドエンジニア
    Ichiichi株式会社 システムデザイン部
    31歳 デザイナー
    Yonyon株式会社 開発部
    Eightを
    利⽤している企業
    スカウトメール

    View Slide

  9. Data Strategy and Operation Center
    ダイレクトスカウトにおける採⽤の課題
    膨⼤なEightのユーザの中から⾃社に求める⼈材を探すのが難しい
    検索対象のドキュメントが膨⼤でかつ⽋損が多い
    検索結果のランキングで検討する要素が多い
    ⼈事の採⽤担当者が現場のニーズを的確に把握できない
    適切な検索クエリを指定できない
    類似⼈物検索で⾃社で活躍している⼈と近い候補者を検索

    View Slide

  10. Data Strategy and Operation Center
    類似⼈物検索
    グラフ埋め込み Graph Embeddings
    - 名刺の交換 = ノードとエッジの関係
    - 各ノードを固定次元の分散ベクトルで表現する
    - Pytorch BigGraphを利⽤
    近似最近傍探索 Approximate Nearest Neighbor
    - 数百万 × 数百万の類似度を都度計算するのは困難
    - あらかじめインデックスを作成しておくことで⾼速に近傍を探索

    View Slide

  11. Data Strategy and Operation Center
    継続的なサービス運⽤に向けた研究開発
    新規ユーザをどうするか?
    - グラフ埋め込みの再構築にはコストがかかる
    未知ノードのグラフ埋め込みの近似
    - 名刺交換履歴を元に、
    隣接するユーザの属性情報をうまく活⽤する
    IBIS2019にてポスター発表

    View Slide

  12. 企業を検索する

    View Slide

  13. Data Strategy and Operation Center
    Sansanにおける企業検索
    Sansanでは⾃社内で取り込まれた名刺を検索したり閲覧できる
    - 名刺を共有 = ⼈脈を共有
    - 「早く⾔ってよぉ〜」な世界
    名刺を検索する
    - 検索クエリは、企業名や⽒名、Emailアドレス、住所など

    View Slide

  14. Data Strategy and Operation Center
    かならずしも企業名が思いつくわけではない
    - e.g. 飲料ブランドの企業、居酒屋の運営企業、代理店、etc.
    適切な検索クエリを想起できない
    常に新しい会社やサービスが⽣まれる
    検索インデックスを更新し続ける必要性
    検索の課題
    キーワードを⾃動で検索インデックスとして登録する仕組み

    View Slide

  15. Data Strategy and Operation Center
    企業キーワードの収集
    名刺アプリEight、企業の課題解決を後押しするビジネスイベント「Meets」を発表
    〜ビジネスの「買いたい」と「売りたい」をつなぐ〜
    Sansan株式会社は、同社が提供する名刺アプリ「Eight」から、ビジネスイベント
    「Meets(ミーツ)」が提供されたことを発表します。 Meetsは、 Eightのテクノロジー
    を活⽤し、サービスを「買いたい⼈」と「売りたい⼈」とをつなぎ、社会の⽣産性を上
    げるビジネスイベントです。
    買いたい 売りたい
    ニュース記事を収集
    ルールベースで企業キーワード
    候補を抽出
    企業キーワード候補が適切かを
    ⼆値分類
    Eight Meets(ミーツ)
    Eight Meets(ミーツ)

    View Slide

  16. Data Strategy and Operation Center
    固有表現抽出
    Contextual String Embeddings
    - ⽂字と単語の埋め込みを利⽤し、
    前後のコンテキストも含める
    - Flairにより実装
    結果
    - ベースラインと⽐較して⾼精度で判定可能
    - 固有表現にルールがあるわけではないので、
    コンテキストを捉える必要があった
    NLP2020でポスター発表予定
    Akbik et al., 2018より引⽤
    https://github.com/flairNLP/flair

    View Slide

  17. Data Strategy and Operation Center
    まとめ
    Sansan株式会社の紹介
    - クラウド名刺管理を超えて、⼈との出会いを活⽤できる社会へ
    ⼈を検索する
    - 類似⼈物検索で適した候補者を検索
    - グラフ埋め込みと近似最近傍探索
    企業を検索する
    - あらゆるキーワードで企業を検索できるようインデックスを拡張
    - ニュース記事からの固有表現抽出により⾃動で収集する仕組み化

    View Slide

  18. View Slide