Upgrade to Pro — share decks privately, control downloads, hide ads and more …

名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み / Building Search for People and Businesses Beyond Business Cards

Sansan
March 03, 2020

名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み / Building Search for People and Businesses Beyond Business Cards

■イベント 
DEIM2020 第12回データ工学と情報マネジメントに関するフォーラム
https://db-event.jpn.org/deim2020/

■登壇概要 

タイトル:名刺を超えて人や企業を検索する - Sansanにおける検索システムへの取り組み
発表者: 
DSOC 研究開発部 Data Analysis Group 奥田 裕樹

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

March 03, 2020
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center アジェンダ Sansan株式会社の紹介 - なぜ名刺?なぜ検索? ⼈を検索する

    - “似ている”⼈を探し出したい 企業を検索する - 企業の名前ではなくサービスで検索する
  2. 企業の採⽤担当者がEight上でユーザーへ、採⽤のスカウトメールを送付できるサービス 28歳 システムエンジニア NiNi株式会社 情報システム部 31歳 サーバサイドエンジニア Sansan株式会社 事業部SRE部 28歳

    フロントエンドエンジニア Ichiichi株式会社 システムデザイン部 31歳 デザイナー Yonyon株式会社 開発部 Eightを 利⽤している企業 スカウトメール
  3. Data Strategy and Operation Center 類似⼈物検索 グラフ埋め込み Graph Embeddings -

    名刺の交換 = ノードとエッジの関係 - 各ノードを固定次元の分散ベクトルで表現する - Pytorch BigGraphを利⽤ 近似最近傍探索 Approximate Nearest Neighbor - 数百万 × 数百万の類似度を都度計算するのは困難 - あらかじめインデックスを作成しておくことで⾼速に近傍を探索
  4. Data Strategy and Operation Center Sansanにおける企業検索 Sansanでは⾃社内で取り込まれた名刺を検索したり閲覧できる - 名刺を共有 =

    ⼈脈を共有 - 「早く⾔ってよぉ〜」な世界 名刺を検索する - 検索クエリは、企業名や⽒名、Emailアドレス、住所など
  5. Data Strategy and Operation Center かならずしも企業名が思いつくわけではない - e.g. 飲料ブランドの企業、居酒屋の運営企業、代理店、etc. 適切な検索クエリを想起できない

    常に新しい会社やサービスが⽣まれる 検索インデックスを更新し続ける必要性 検索の課題 キーワードを⾃動で検索インデックスとして登録する仕組み
  6. Data Strategy and Operation Center 企業キーワードの収集 名刺アプリEight、企業の課題解決を後押しするビジネスイベント「Meets」を発表 〜ビジネスの「買いたい」と「売りたい」をつなぐ〜 Sansan株式会社は、同社が提供する名刺アプリ「Eight」から、ビジネスイベント 「Meets(ミーツ)」が提供されたことを発表します。

    Meetsは、 Eightのテクノロジー を活⽤し、サービスを「買いたい⼈」と「売りたい⼈」とをつなぎ、社会の⽣産性を上 げるビジネスイベントです。 買いたい 売りたい ニュース記事を収集 ルールベースで企業キーワード 候補を抽出 企業キーワード候補が適切かを ⼆値分類 Eight Meets(ミーツ) Eight Meets(ミーツ)
  7. Data Strategy and Operation Center 固有表現抽出 Contextual String Embeddings -

    ⽂字と単語の埋め込みを利⽤し、 前後のコンテキストも含める - Flairにより実装 結果 - ベースラインと⽐較して⾼精度で判定可能 - 固有表現にルールがあるわけではないので、 コンテキストを捉える必要があった NLP2020でポスター発表予定 Akbik et al., 2018より引⽤ https://github.com/flairNLP/flair
  8. Data Strategy and Operation Center まとめ Sansan株式会社の紹介 - クラウド名刺管理を超えて、⼈との出会いを活⽤できる社会へ ⼈を検索する

    - 類似⼈物検索で適した候補者を検索 - グラフ埋め込みと近似最近傍探索 企業を検索する - あらゆるキーワードで企業を検索できるようインデックスを拡張 - ニュース記事からの固有表現抽出により⾃動で収集する仕組み化