Slide 1

Slide 1 text

名刺を超えて⼈や企業を検索する Sansan株式会社 DSOC 奥⽥裕樹 Sansanにおける検索システムへの取り組み [A5] 情報検索③

Slide 2

Slide 2 text

Company Profile 1

Slide 3

Slide 3 text

Data Strategy and Operation Center アジェンダ Sansan株式会社の紹介 - なぜ名刺?なぜ検索? ⼈を検索する - “似ている”⼈を探し出したい 企業を検索する - 企業の名前ではなくサービスで検索する

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

名刺管理サービス 名刺アプリ

Slide 6

Slide 6 text

ユーザ数 ※1 企業数 ※2 ※1 2019年9⽉時点 ※2 https://www.houjin-bangou.nta.go.jp/setsumei/houjin-bangou_joho/ 250万⼈ 490万社

Slide 7

Slide 7 text

⼈を検索する

Slide 8

Slide 8 text

企業の採⽤担当者がEight上でユーザーへ、採⽤のスカウトメールを送付できるサービス 28歳 システムエンジニア NiNi株式会社 情報システム部 31歳 サーバサイドエンジニア Sansan株式会社 事業部SRE部 28歳 フロントエンドエンジニア Ichiichi株式会社 システムデザイン部 31歳 デザイナー Yonyon株式会社 開発部 Eightを 利⽤している企業 スカウトメール

Slide 9

Slide 9 text

Data Strategy and Operation Center ダイレクトスカウトにおける採⽤の課題 膨⼤なEightのユーザの中から⾃社に求める⼈材を探すのが難しい 検索対象のドキュメントが膨⼤でかつ⽋損が多い 検索結果のランキングで検討する要素が多い ⼈事の採⽤担当者が現場のニーズを的確に把握できない 適切な検索クエリを指定できない 類似⼈物検索で⾃社で活躍している⼈と近い候補者を検索

Slide 10

Slide 10 text

Data Strategy and Operation Center 類似⼈物検索 グラフ埋め込み Graph Embeddings - 名刺の交換 = ノードとエッジの関係 - 各ノードを固定次元の分散ベクトルで表現する - Pytorch BigGraphを利⽤ 近似最近傍探索 Approximate Nearest Neighbor - 数百万 × 数百万の類似度を都度計算するのは困難 - あらかじめインデックスを作成しておくことで⾼速に近傍を探索

Slide 11

Slide 11 text

Data Strategy and Operation Center 継続的なサービス運⽤に向けた研究開発 新規ユーザをどうするか? - グラフ埋め込みの再構築にはコストがかかる 未知ノードのグラフ埋め込みの近似 - 名刺交換履歴を元に、 隣接するユーザの属性情報をうまく活⽤する IBIS2019にてポスター発表

Slide 12

Slide 12 text

企業を検索する

Slide 13

Slide 13 text

Data Strategy and Operation Center Sansanにおける企業検索 Sansanでは⾃社内で取り込まれた名刺を検索したり閲覧できる - 名刺を共有 = ⼈脈を共有 - 「早く⾔ってよぉ〜」な世界 名刺を検索する - 検索クエリは、企業名や⽒名、Emailアドレス、住所など

Slide 14

Slide 14 text

Data Strategy and Operation Center かならずしも企業名が思いつくわけではない - e.g. 飲料ブランドの企業、居酒屋の運営企業、代理店、etc. 適切な検索クエリを想起できない 常に新しい会社やサービスが⽣まれる 検索インデックスを更新し続ける必要性 検索の課題 キーワードを⾃動で検索インデックスとして登録する仕組み

Slide 15

Slide 15 text

Data Strategy and Operation Center 企業キーワードの収集 名刺アプリEight、企業の課題解決を後押しするビジネスイベント「Meets」を発表 〜ビジネスの「買いたい」と「売りたい」をつなぐ〜 Sansan株式会社は、同社が提供する名刺アプリ「Eight」から、ビジネスイベント 「Meets(ミーツ)」が提供されたことを発表します。 Meetsは、 Eightのテクノロジー を活⽤し、サービスを「買いたい⼈」と「売りたい⼈」とをつなぎ、社会の⽣産性を上 げるビジネスイベントです。 買いたい 売りたい ニュース記事を収集 ルールベースで企業キーワード 候補を抽出 企業キーワード候補が適切かを ⼆値分類 Eight Meets(ミーツ) Eight Meets(ミーツ)

Slide 16

Slide 16 text

Data Strategy and Operation Center 固有表現抽出 Contextual String Embeddings - ⽂字と単語の埋め込みを利⽤し、 前後のコンテキストも含める - Flairにより実装 結果 - ベースラインと⽐較して⾼精度で判定可能 - 固有表現にルールがあるわけではないので、 コンテキストを捉える必要があった NLP2020でポスター発表予定 Akbik et al., 2018より引⽤ https://github.com/flairNLP/flair

Slide 17

Slide 17 text

Data Strategy and Operation Center まとめ Sansan株式会社の紹介 - クラウド名刺管理を超えて、⼈との出会いを活⽤できる社会へ ⼈を検索する - 類似⼈物検索で適した候補者を検索 - グラフ埋め込みと近似最近傍探索 企業を検索する - あらゆるキーワードで企業を検索できるようインデックスを拡張 - ニュース記事からの固有表現抽出により⾃動で収集する仕組み化

Slide 18

Slide 18 text

No content