Slide 1

Slide 1 text

Sansanにおける Data-Centricな取り組み Sansan技術本部 Sansan技術本部 研究開発部 猿田 貴之

Slide 2

Slide 2 text

写真が入ります 猿⽥ 貴之 Sansan株式会社 技術本部 研究開発部 SocSci Group 研究員 Sansan株式会社の研究開発部研究員として、Sansan内外の データ群を⽤いたアプリーションやプロダクトマネジメント に従事 慶應義塾⼤学院修⼠課程修了。新卒でメーカーのR&D部⾨で コンピュータビジョン、機械学習関連の研究開発などに従事。 その後スタートアップ2社でテクニカルプロダクトマネージャ ーやエンジニアリングマネージャーを経験

Slide 3

Slide 3 text

© Sansan, Inc. 出会いから イノベーションを⽣み出す いつの時代も、世界を動かしてきたのは出会いです。 ⼈と⼈、企業と企業、 その出会いの連鎖が社会を前進させます。 私たちは出会いが持つ可能性を再発⾒し、 未来につなげることでビジネスを変えていきます。 イノベーションにつながる新しい出会いを⽣み出す。 出会いの⼒でビジネスの課題にイノベーションを起こす。 そして、ビジネスの出会い、そのもののあり⽅を変えていきます。 Mission

Slide 4

Slide 4 text

会社概要 3 表参道本社 神山ラボ Sansan Innovation Lab 社 名 Sansan株式会社 所在地 表参道本社 東京都渋⾕区神宮前5-52-2 ⻘⼭オーバルビル13F グループ 会社 Sansan Global Pte. Ltd.(シンガポール) Sansan Global Development Center, Inc.(フィリピン) Sansan Corporation(アメリカ) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社⾔語理解研究所 従業員数 1,317 名(2023年5⽉31⽇時点) 2007年6⽉11⽇ 設 ⽴ ⽀店:⼤阪、名古屋 サテライトオフィス:徳島、京都、福岡、新潟 拠 点 寺⽥ 親弘 代表者

Slide 5

Slide 5 text

働き⽅を変えるDXサービス 4 ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 請求 キャリア 管理 キャリアDX 営業 営業DX 契約 契約DX 経理DX 個⼈向けDX 法⼈向けDX 必要な情報を すぐに⾒つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活⽤しやすく データに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅

Slide 6

Slide 6 text

Data-CentricなSansan ⼈脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ基盤 企業DB データ構造化 データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce *Salesforceは Salesforce, Inc. の商標です。

Slide 7

Slide 7 text

Sansanはクラウド名刺管理サービスから営業DXサービ スへプロダクトを刷新し、「営業を強くするデータベー ス」へ進化しています インボイス管理サービス「Bill One」、契約DXサービス 「Contract One」などマルチプロダクト戦略を取ってい るSansanにおける技術的なチャレンジをData-Centricに 話します 主にOCR技術含む⾮構造化データの構造化技術、全社 横断データ基盤、データ基盤を活⽤したデータプロダク トマネジメントについて紹介します Data-Centricな取り組み

Slide 8

Slide 8 text

さまざまな事業領域に貢献するR&D 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・/因果推論 データ可視化 プロダクトマネジメント 解約阻⽌・利⽤促進(CS) 営業効率化(営業) SceneText Recognition Object Detection ⼊⼒の⾃動化 OCR/項⽬分割 など 超解像 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメン デーション ラベル 予測 名寄せ RCT ABテスト・ 効果検証 パネルデータ 分析 Sansan Labs (新機能開発) キーバリュー抽出 帳票のデータ化 Graph Neural Network 新規事業 営業/CS (社内課題)

Slide 9

Slide 9 text

- データ構造化の取り組み - 全社横断データ基盤 - Sansan Labs Agenda 8

Slide 10

Slide 10 text

データ化精度とコストのトレードオフ 9 データ構造化の取り組み データ化における⼈とコンピュータには、 それぞれ⻑所と短所があり、データ化精 度とコストの間にはトレードオフがある また、プロダクト(事業)におけるフェ ーズにおいてもこのトレードオフは変化 する(流⼊量、流⼊タイミング、技術的 課題)

Slide 11

Slide 11 text

データ化のフロー 10 データ化のフローはマイクロタスク化されている 各タスクは⾃動⼊⼒・インハウス⼊⼒・クラウド⼊⼒を組み合わせて処理される 下記は名刺のデータ化のフロー データ構造化の取り組み データ化のフロー 4 分類した名刺情報の切⽚化 3 名刺項⽬の分類 1 2 スキャン・撮影 画像処理 5 データ⼊⼒

Slide 12

Slide 12 text

NineOCR - 名刺に特化したOCRエンジン - 11 ⽂字列検出器と⽂字認識器を別々に学習して組み合わせている 検出器 認識器 株式会社 サン・グローバルジャパン ⽔上␣弘太郎 [email protected] ピース切り出し データ構造化の取り組み

Slide 13

Slide 13 text

NineOCR精度評価 12 実験内容 CER(↓) A社 7.39 B社 2.53 NineOCR 0.390 Accuracy(↑) A社 68.4% B社 86.6% NineOCR 99.2% 名刺10,000枚に対するE-mailアドレスの認識精度を⽐較 評価指標 - Character Error Rate (CER) - Accuracy ⽐較対象 - A社: 名刺OCRの機能があり、項⽬単位で返却。 - B社: 汎⽤OCR。内製エンジンと組み合わせて項⽬判定。 データ構造化の取り組み

Slide 14

Slide 14 text

MLOpsの取り組み Feature Store 13 - データ化プロセスで⽣成された OCR結果のキャッシュを、学習に 適した形式に変換して、保存してお くための基盤 - 解約によるデータ削除をGEES(名 刺データ化システム)と連携するこ とで安全に⼤量のデータ保持を実現 - データ収集の所要時間を30⽇→8時 間に⼤幅に短縮 - その他にもデプロイ基盤や学習ジョ ブマネージドサービスやカナリアリ リースがある データ構造化の取り組み

Slide 15

Slide 15 text

Bill One、Contract Oneにおける帳票からの項目抽出 14 - 名刺データ化によって培われた ノウハウによる⾼速 オペレーション⽴ち上げ - 新しい課題に対しての技術開発 (グラフベースやルールベース、 固有表現抽出など) - 請求書の状態や項⽬によって ⼿法を切り替えている テキスト×座標 グラフベースエンコーダ Sequence Labeling Layers Graph Convolution Layers Transformer Layers Sequence Labeling Layers ご 請求 ⾦額 \ 99,000 (税込) … お⽀払い 期限 : 2023 年 4 ⽉ 20 ⽇ class:請求金額 class:支払期日 【構造化された請求書】 LayoutLMv2 テキスト×座標× 画像 データ構造化の取り組み

Slide 16

Slide 16 text

Agenda 15 - データ構造化の取り組み - 全社横断データ基盤 - Sansan Labs

Slide 17

Slide 17 text

必要性と課題 データに基づく意思決定をするためには、データそのものだけでは不⼗分 データを継続的に収集、蓄積して活⽤しやすいように整備する全社横断データ基盤が必要 各部署でデータ基盤は整備されているが、データが分散してサイロ化している 全社横断データ基盤 - データ管理コストの増⼤ - 複数の部署で同じデータを管理している場合があり、データの重複が発⽣している - 顧客の契約/利⽤情報がSalesforce、独⾃のKPIパネル、スプレッドシートなどに散財 - データ取得するまでの⼿間がかかる - 各部署で定められた接続⽅法にしたがってデータ基盤にアクセスしてデータ取得する必要がある - Salesforceなどデータ取得するために営業からエクスポートしてもらう必要があった - データ基盤で対応するためにアプリケーションエンジニアやインフラエンジニアが個別対応 データのサイロ化による影響

Slide 18

Slide 18 text

目指す姿 - 各プロダクト、CRM等のデータ、ログが⼀箇所に集約されている - オリジナルである必要はなく、データコピーで良い - テーブルジョインで横断的な分析が可能に - クエリ結果を早く得られることで、仮説検証サイクルを素早く回せる - メタデータが管理・統⼀されている - 分析で使いたいデータがどのテーブルにあるのか検索できる - そのデータにアクセスできる⼈、⽤途を関係者に聞かなくても各⾃で調べることができる - 安全にデータアクセスできる - 許可された社員のみが特定のデータにアクセスできる - 適切な承認フローを経て、承認された場合のみデータにアクセスできる - データの品質が担保されている - このデータはどこから来たのかがわかる(データリネージ) - データがしかるべきタイミングで更新されている 全社横断データ基盤

Slide 19

Slide 19 text

システム概要 - Google Cloud Platform(GCP) - 格納されているデータ - 各プロダクトデータ - Data Hub基盤(Saleforce etc.) - プロダクトKPI - ・・・ - 個⼈単位で権限管理 - 委託データへのアクセスは事前 承認による有効期限つき 全社横断データ基盤

Slide 20

Slide 20 text

今後のチャレンジ - データマートを利⽤者でも簡単に 作れるようにする - 利⽤者が⾃部署のデータとデータ 基盤上のデータを組み合わせてア ドホックな分析可能にする - データリネージ&品質を管理するた めにdbt or Dataform導⼊(現状の ETL処置が複雑化しているため) 全社横断データ基盤

Slide 21

Slide 21 text

Agenda 20 - データ構造化の取り組み - 全社横断データ基盤 - Sansan Labs

Slide 22

Slide 22 text

R&D主導のデータプロダクトマネジメント ビジョン実現に 貢献度が⾼い ビジョン実現に 貢献度が低い 短期的な利益 貢献に繋がる 短期的な利益 貢献に繋がらない ビジョンへの投資 理想 危険 ビジョン負債 Sansan PdM Sansan Labs Sansan Labs - Sansan Labsはデータ活⽤で ビジネス課題を解決する機能を 提供するプラットフォーム - 1つの新機能の企画からリリース までリードタイム2週間を⽬指し、 年間100機能のリリースを⽬指す - UXリサーチに時間をかける ⼀般的なプロダクトマネジメントと 異なり、⾼速にリリースすることで ユーザーからのフィードバックを もとに機能改善を進め、 本機能・新規事業化を⽬指す

Slide 23

Slide 23 text

開発プロセス 22 Week 0 Week 1 Week 2-3 企画 / リファインメント 要件定義 / プロトタイピング デザイン / バッチ開発 / フロント開発 / リリース 多数のアイディアを集める - 社内外ユーザーフィードバ ック - Sansan User Forum ユーザーからの投票企画 - 営業・CSと顧客との定期 MTGに同席 開発や運⽤の属⼈性を排除 ⾔語をpythonに統⼀し、テン プレートや社内ライブラリを 充実させることで開発・運⽤ の属⼈性を排除し、ノウハウ を蓄積して共有することが可 能 フロントエンド開発⼯数削減 データ分析という体験に⽐重 をおき、フロントエンドは⽐ 較的ローコードで開発できる フレームワークを⽤いること で開発⼯数を削減 開発基盤の統⼀による アーキテクトの負担減 Labs共通データベースの作 成やMLOps基盤(circuit) に乗せること研究員⾃⾝がリ リース作業やメンテナンスが できる 開発フェーズの明確化と 振り返り 1週間単位で開発フェーズを定 義することで、スケジュール からの遅れをより意識できる ようになった プロダクトバックログに まとめる - ペイン - カスタマージャーニー - 既存の解決策と Labsでの解決策 - 実現する・しない ストーリー - etc - (あまり作り込みすぎない) Sansan Labs

Slide 24

Slide 24 text

リリースした機能 営業ポテンシャル分析 2023/03公開 業界ニュースランキング 2022/12公開 営業アクティビティレポート 2022/12公開 役職者接点状況チェック 2022/10公開 ⼈脈の浸透度を可視化する 2022/07公開 役職者接点カバー率 2022/07公開 訪問ルートメーカー 2022/10公開 メディカル接点マップ 2022/11公開 類似企業検索 2022/11公開 企業パフォーマンス検索 2022/11公開 企業リレーションスコア 2022/12公開 Sansan Labs

Slide 25

Slide 25 text

GPT活⽤アプリケーション例 セミナーの概要やスケジュール情報などをもとに、 セミナー集客のための案内メールをAIが⾃動で⽣成します。 有価証券報告書から企業動向と経営課題を5つのトピック に分けて要約。営業活動の情報収集を後押しします。 Sansan Labs

Slide 26

Slide 26 text

Data-CentricなSansan ⼈脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ基盤 企業DB データ構造化 データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce SansanのData-Centricな取り組みについてご紹介 ⁃ 名刺に特化したOCRエンジンNiceOCRだけでなく、Bill OneやContract Oneなど マルチプロダクトをスケールさせるための構造化技術 ⁃ 継続的に意思決定に活⽤される全社横断データ基盤構築 ⁃ R&D主導のデータプロダクトマネジメントSansan Labs

Slide 27

Slide 27 text

Sansan 研究開発部 募集ポジション紹介 https://media.sansan-engineering.com/randd

Slide 28

Slide 28 text

No content